Big data world
2.34K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
🐍📚Начало работы с векторными базами данных в Python

В последнее время в моде векторные базы данных, особенно с учетом популярности LLM. Что выбрать? Вот отличный обзор девяти популярных опций для Python, включая сильные стороны каждой из них, примеры кода и полезные ссылки.
https://code.dblock.org/2023/06/16/getting-started-with-vector-dbs-in-python.html
⚡️От нуля до героя: комплексные приложения для работы с данными с SQL и Jupyter

В этом онлайн-курсе вы узнаете, как разработать и развернуть комплексное приложение для работы с данными с помощью SQL, Python и Jupyter. Охватывает исследовательский анализ данных, основы SQL, воспроизводимость рабочего процесса, конвейеры данных, развертывание и многое другое.
https://ploomber-sql.readthedocs.io/en/latest/index.html
🌎Введение в облачный геопространственный анализ

Хорошее введение в облачный геопространственный анализ с использованием Google Earth Engine и пакета geemap Python. Охватывает основы типов данных Earth Engine и способы визуализации, анализа и экспорта данных Earth Engine в среде Jupyter с использованием geemap.
https://cfp.scipy.org/2023/talk/GQ7PG3
👨‍🍳Поваренная книга Polars для R

Цель поваренной книги — предоставить решения общих задач и проблем при использовании Polars с R.
https://ddotta.github.io/cookbook-rpolars


Полная шпаргалка по Python

Исчерпывающий и лаконичный — настоящяя Pythonic шпаргалка по языку программирования Python.
https://gto76.github.io/python-cheatsheet
Учебные пособия по машинному и глубокому обучению, статьи и другие ресурсы

Этот репозиторий содержит тематический список руководств, статей и других ресурсов по машинному обучению и глубокому обучению.

https://github.com/ujjwalkarn/Machine-Learning-Tutorials
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Крупномасштабные наборы данных, используемые в корпоративной аналитике данных и машинном обучении, часто полны ошибок, что приводит к снижению надежности, потере производительности и увеличению затрат. Современным решением этой проблемы является ИИ, ориентированный на данные , но применение этих методов в масштабе раньше было сложной задачей даже для группы экспертов. Пару лет назад это была работа , на выполнение которой у выпускников Массачусетского технологического института уходили месяцы. Теперь вы можете автоматически находить и устранять проблемы в данных в любом масштабе , без особых усилий создавая высококачественные наборы данных https://cleanlab.ai/blog/automated-data-quality-at-scale/
statistical_learning_with_math_and_python_100_exercises_for_building.pdf
4.6 MB
Статистическое обучение с помощью математики и Python: 100 упражнений для построения логики
mathematics_and_programming_for_machine_learning_with_r_from_the.pdf
10.3 MB
Математика и программирование для машинного обучения с помощью R: с нуля
Большие языковые модели, объясненные с минимумом математики и жаргона

Цель этой статьи — сделать большой объем знаний доступным для широкой аудитории. Мы постараемся объяснить, что известно о внутренней работе этих моделей, не прибегая к техническому жаргону или сложной математике. https://www.understandingai.org/p/large-language-models-explained-with
7 фреймворков для обслуживания LLM

Подробное сравнение https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407
Это видео содержит пошаговую реализацию обучающего набора данных распознавания эмоций или выражения лица с использованием Tensorflow-Keras API.

(00:00:00) Концепции
(00:23:01) Установка
(00:30:52) Реализация
(1:15:08) Демонстрация Live Webcam

https://www.youtube.com/watch?v=avv9GQ3b6Qg&t=40s
Матричное исчисление, необходимое для глубокого обучения

Эта статья представляет собой попытку объяснить все матричное исчисление, необходимое для понимания обучения глубоких нейронных сетей. https://explained.ai/matrix-calculus/
Прогнозирование: принципы и практика (3-е изд.) https://otexts.com/fpp3/
IBM предлагает БЕСПЛАТНЫЙ курс Deep Learning with Python и PyTorch!
Этот курс является второй частью курса из двух частей о том, как разрабатывать модели глубокого обучения с использованием Pytorch. https://www.edx.org/course/deep-learning-with-python-and-pytorch
Набор инструментов с открытым исходным кодом для разработки LLM

🚀LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и мультимодальных LLM . https://github.com/Alpha-VLLM/LLaMA2-Accessory
Шаблоны для создания систем и продуктов на основе LLM

Этот пост посвящен практическим шаблонам интеграции больших языковых моделей (LLM) в системы и продукты. Мы будем опираться на академические исследования, отраслевые ресурсы и ноу-хау практиков и пытаться превратить их в ключевые идеи и практики. https://eugeneyan.com/writing/llm-patterns/
👍1
[Перевод] Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте.

В статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention),  многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.  

Читать далее https://habr.com/ru/articles/752062/
Откройте секреты выбора идеального алгоритма машинного обучения!

При работе над проблемой науки о данных одним из наиболее важных решений является выбор подходящего алгоритма машинного обучения. https://www.kdnuggets.com/2023/07/ml-algorithm-choose.html
Тщательно подобранный список потрясающих инструментов MLOps


Language: Python

💥Stars: 2754
📝Forks: 429
https://github.com/kelvins/awesome-mlops
👎1
[Перевод] OnnxStream: минимизация потребления памяти при генерации изображений.

Задача — запустить Stable Diffusion, включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки и не выгружая промежуточные результаты на диск. Рекомендуемый минимальный объём RAM/VRAM для Stable Diffusion составляет 8 ГБ. Читать дальше →https://habr.com/ru/companies/ruvds/articles/751912/
👍1
Начните использовать конвейеры. Это самый простой способ в 10 раз увеличить настройки машинного обучения. Идея конвейеров существует уже давно, но многие люди игнорируют их или думают, что они только помогают сделать ваш код более читабельным. Они гораздо больше, чем это. Конвейер — это независимая последовательность шагов, организованная для автоматизации процесса. Одним из основных преимуществ использования одного из них является возможность повторного использования процесса на разных этапах и с разными наборами данных. Вы должны создать конвейер для преобразования набора данных в начале проекта. Вы можете повторно использовать один и тот же конвейер для преобразования производственных данных, прежде чем запускать их через модель. Отсутствие конвейера — это немедленный красный флаг и признак того, что вы, в лучшем случае, дублируете код или, что еще хуже, преобразовываете производственные данные иначе, чем обучающий набор данных.