🐍📚Начало работы с векторными базами данных в Python
В последнее время в моде векторные базы данных, особенно с учетом популярности LLM. Что выбрать? Вот отличный обзор девяти популярных опций для Python, включая сильные стороны каждой из них, примеры кода и полезные ссылки.
https://code.dblock.org/2023/06/16/getting-started-with-vector-dbs-in-python.html
В последнее время в моде векторные базы данных, особенно с учетом популярности LLM. Что выбрать? Вот отличный обзор девяти популярных опций для Python, включая сильные стороны каждой из них, примеры кода и полезные ссылки.
https://code.dblock.org/2023/06/16/getting-started-with-vector-dbs-in-python.html
code.dblock.org | tech blog
Getting started with Vector DBs in Python
Vector databases are all the rage today.
⚡️От нуля до героя: комплексные приложения для работы с данными с SQL и Jupyter
В этом онлайн-курсе вы узнаете, как разработать и развернуть комплексное приложение для работы с данными с помощью SQL, Python и Jupyter. Охватывает исследовательский анализ данных, основы SQL, воспроизводимость рабочего процесса, конвейеры данных, развертывание и многое другое.
https://ploomber-sql.readthedocs.io/en/latest/index.html
В этом онлайн-курсе вы узнаете, как разработать и развернуть комплексное приложение для работы с данными с помощью SQL, Python и Jupyter. Охватывает исследовательский анализ данных, основы SQL, воспроизводимость рабочего процесса, конвейеры данных, развертывание и многое другое.
https://ploomber-sql.readthedocs.io/en/latest/index.html
🌎Введение в облачный геопространственный анализ
Хорошее введение в облачный геопространственный анализ с использованием Google Earth Engine и пакета geemap Python. Охватывает основы типов данных Earth Engine и способы визуализации, анализа и экспорта данных Earth Engine в среде Jupyter с использованием geemap.
https://cfp.scipy.org/2023/talk/GQ7PG3
Хорошее введение в облачный геопространственный анализ с использованием Google Earth Engine и пакета geemap Python. Охватывает основы типов данных Earth Engine и способы визуализации, анализа и экспорта данных Earth Engine в среде Jupyter с использованием geemap.
https://cfp.scipy.org/2023/talk/GQ7PG3
cfp.scipy.org
An Introduction to Cloud-Based Geospatial Analysis with Earth Engine and Geemap SciPy 2023
The Earth is constantly changing, which creates significant challenges for the environment and human society. To tackle these challenges on a global scale, the Earth science community relies heavily on geospatial datasets that are collected through various…
👨🍳Поваренная книга Polars для R
Цель поваренной книги — предоставить решения общих задач и проблем при использовании Polars с R.
https://ddotta.github.io/cookbook-rpolars
Полная шпаргалка по Python
Исчерпывающий и лаконичный — настоящяя Pythonic шпаргалка по языку программирования Python.
https://gto76.github.io/python-cheatsheet
Цель поваренной книги — предоставить решения общих задач и проблем при использовании Polars с R.
https://ddotta.github.io/cookbook-rpolars
Полная шпаргалка по Python
Исчерпывающий и лаконичный — настоящяя Pythonic шпаргалка по языку программирования Python.
https://gto76.github.io/python-cheatsheet
ddotta.github.io
Cookbook Polars for R
A side-by-side comparison of polars, R base, dplyr, tidyr and data.table packages.
Учебные пособия по машинному и глубокому обучению, статьи и другие ресурсы
Этот репозиторий содержит тематический список руководств, статей и других ресурсов по машинному обучению и глубокому обучению.
https://github.com/ujjwalkarn/Machine-Learning-Tutorials
Этот репозиторий содержит тематический список руководств, статей и других ресурсов по машинному обучению и глубокому обучению.
https://github.com/ujjwalkarn/Machine-Learning-Tutorials
GitHub
GitHub - ujjwalkarn/Machine-Learning-Tutorials: machine learning and deep learning tutorials, articles and other resources
machine learning and deep learning tutorials, articles and other resources - GitHub - ujjwalkarn/Machine-Learning-Tutorials: machine learning and deep learning tutorials, articles and other resources
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Крупномасштабные наборы данных, используемые в корпоративной аналитике данных и машинном обучении, часто полны ошибок, что приводит к снижению надежности, потере производительности и увеличению затрат. Современным решением этой проблемы является ИИ, ориентированный на данные , но применение этих методов в масштабе раньше было сложной задачей даже для группы экспертов. Пару лет назад это была работа , на выполнение которой у выпускников Массачусетского технологического института уходили месяцы. Теперь вы можете автоматически находить и устранять проблемы в данных в любом масштабе , без особых усилий создавая высококачественные наборы данных https://cleanlab.ai/blog/automated-data-quality-at-scale/
statistical_learning_with_math_and_python_100_exercises_for_building.pdf
4.6 MB
Статистическое обучение с помощью математики и Python: 100 упражнений для построения логики
mathematics_and_programming_for_machine_learning_with_r_from_the.pdf
10.3 MB
Математика и программирование для машинного обучения с помощью R: с нуля
Большие языковые модели, объясненные с минимумом математики и жаргона
Цель этой статьи — сделать большой объем знаний доступным для широкой аудитории. Мы постараемся объяснить, что известно о внутренней работе этих моделей, не прибегая к техническому жаргону или сложной математике. https://www.understandingai.org/p/large-language-models-explained-with
Цель этой статьи — сделать большой объем знаний доступным для широкой аудитории. Мы постараемся объяснить, что известно о внутренней работе этих моделей, не прибегая к техническому жаргону или сложной математике. https://www.understandingai.org/p/large-language-models-explained-with
www.understandingai.org
Large language models, explained with a minimum of math and jargon
Want to really understand how large language models work? Here’s a gentle primer.
7 фреймворков для обслуживания LLM
Подробное сравнение https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407
Подробное сравнение https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407
Это видео содержит пошаговую реализацию обучающего набора данных распознавания эмоций или выражения лица с использованием Tensorflow-Keras API.
(00:00:00) Концепции
(00:23:01) Установка
(00:30:52) Реализация
(1:15:08) Демонстрация Live Webcam
https://www.youtube.com/watch?v=avv9GQ3b6Qg&t=40s
(00:00:00) Концепции
(00:23:01) Установка
(00:30:52) Реализация
(1:15:08) Демонстрация Live Webcam
https://www.youtube.com/watch?v=avv9GQ3b6Qg&t=40s
YouTube
Realtime Face Emotion Recognition | Tensorflow | Transfer Learning | Python | Train your own Images
This video contains stepwise implementation for training dataset of "Face Emotion Recognition or Facial Expression Recognition" using Transfer Learning in Tensorflow-Keras API
(00:00:00) concepts
(00:23:01) installation
(00:30:52) implementation
(1:15:08)…
(00:00:00) concepts
(00:23:01) installation
(00:30:52) implementation
(1:15:08)…
Матричное исчисление, необходимое для глубокого обучения
Эта статья представляет собой попытку объяснить все матричное исчисление, необходимое для понимания обучения глубоких нейронных сетей. https://explained.ai/matrix-calculus/
Эта статья представляет собой попытку объяснить все матричное исчисление, необходимое для понимания обучения глубоких нейронных сетей. https://explained.ai/matrix-calculus/
explained.ai
The Matrix Calculus You Need For Deep Learning
Most of us last saw calculus in school, but derivatives are a critical part of machine learning, particularly deep neural networks, which are trained by optimizing a loss function. This article is an attempt to explain all the matrix calculus you need in…
Прогнозирование: принципы и практика (3-е изд.) https://otexts.com/fpp3/
Otexts
Forecasting: Principles and Practice (3rd ed)
3rd edition
IBM предлагает БЕСПЛАТНЫЙ курс Deep Learning with Python и PyTorch!
Этот курс является второй частью курса из двух частей о том, как разрабатывать модели глубокого обучения с использованием Pytorch. https://www.edx.org/course/deep-learning-with-python-and-pytorch
Этот курс является второй частью курса из двух частей о том, как разрабатывать модели глубокого обучения с использованием Pytorch. https://www.edx.org/course/deep-learning-with-python-and-pytorch
edX
IBM: Deep Learning with Python and PyTorch. | edX
This course is the second part of a two-part course on how to develop Deep Learning models using Pytorch.
Набор инструментов с открытым исходным кодом для разработки LLM
🚀LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и мультимодальных LLM . https://github.com/Alpha-VLLM/LLaMA2-Accessory
🚀LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и мультимодальных LLM . https://github.com/Alpha-VLLM/LLaMA2-Accessory
Шаблоны для создания систем и продуктов на основе LLM
Этот пост посвящен практическим шаблонам интеграции больших языковых моделей (LLM) в системы и продукты. Мы будем опираться на академические исследования, отраслевые ресурсы и ноу-хау практиков и пытаться превратить их в ключевые идеи и практики. https://eugeneyan.com/writing/llm-patterns/
Этот пост посвящен практическим шаблонам интеграции больших языковых моделей (LLM) в системы и продукты. Мы будем опираться на академические исследования, отраслевые ресурсы и ноу-хау практиков и пытаться превратить их в ключевые идеи и практики. https://eugeneyan.com/writing/llm-patterns/
eugeneyan.com
Patterns for Building LLM-based Systems & Products
Evals, RAG, fine-tuning, caching, guardrails, defensive UX, and collecting user feedback.
👍1
[Перевод] Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте.
В статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.
Читать далее https://habr.com/ru/articles/752062/
В статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.
Читать далее https://habr.com/ru/articles/752062/
Хабр
Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте
От переводчика : выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrij за консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую...
Откройте секреты выбора идеального алгоритма машинного обучения!
При работе над проблемой науки о данных одним из наиболее важных решений является выбор подходящего алгоритма машинного обучения. https://www.kdnuggets.com/2023/07/ml-algorithm-choose.html
При работе над проблемой науки о данных одним из наиболее важных решений является выбор подходящего алгоритма машинного обучения. https://www.kdnuggets.com/2023/07/ml-algorithm-choose.html
KDnuggets
Unlock the Secrets to Choosing the Perfect Machine Learning Algorithm!
When working on a data science problem, one of the most important choices to make is selecting the appropriate machine learning algorithm.
Тщательно подобранный список потрясающих инструментов MLOps
Language: Python
💥Stars: 2754
📝Forks: 429
https://github.com/kelvins/awesome-mlops
Language: Python
💥Stars: 2754
📝Forks: 429
https://github.com/kelvins/awesome-mlops
GitHub
GitHub - kelvins/awesome-mlops: :sunglasses: A curated list of awesome MLOps tools
:sunglasses: A curated list of awesome MLOps tools - kelvins/awesome-mlops
👎1
[Перевод] OnnxStream: минимизация потребления памяти при генерации изображений.
Задача — запустить Stable Diffusion, включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки и не выгружая промежуточные результаты на диск. Рекомендуемый минимальный объём RAM/VRAM для Stable Diffusion составляет 8 ГБ. Читать дальше →https://habr.com/ru/companies/ruvds/articles/751912/
Задача — запустить Stable Diffusion, включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки и не выгружая промежуточные результаты на диск. Рекомендуемый минимальный объём RAM/VRAM для Stable Diffusion составляет 8 ГБ. Читать дальше →https://habr.com/ru/companies/ruvds/articles/751912/
Хабр
Запускаем Stable Diffusion на Raspberry PI Zero 2 (или на 260 МБ ОЗУ)
Задача — запустить Stable Diffusion , включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки...
👍1
Начните использовать конвейеры. Это самый простой способ в 10 раз увеличить настройки машинного обучения. Идея конвейеров существует уже давно, но многие люди игнорируют их или думают, что они только помогают сделать ваш код более читабельным. Они гораздо больше, чем это. Конвейер — это независимая последовательность шагов, организованная для автоматизации процесса. Одним из основных преимуществ использования одного из них является возможность повторного использования процесса на разных этапах и с разными наборами данных. Вы должны создать конвейер для преобразования набора данных в начале проекта. Вы можете повторно использовать один и тот же конвейер для преобразования производственных данных, прежде чем запускать их через модель. Отсутствие конвейера — это немедленный красный флаг и признак того, что вы, в лучшем случае, дублируете код или, что еще хуже, преобразовываете производственные данные иначе, чем обучающий набор данных.