Big data world

🐍📚Начало работы с векторными базами данных в Python

В последнее время в моде векторные базы данных, особенно с учетом популярности LLM. Что выбрать? Вот отличный обзор девяти популярных опций для Python, включая сильные стороны каждой из них, примеры кода и полезные ссылки.
https://code.dblock.org/2023/06/16/getting-started-with-vector-dbs-in-python.html

code.dblock.org | tech blog

Getting started with Vector DBs in Python

Vector databases are all the rage today.

567 views05:26

Big data world

⚡️От нуля до героя: комплексные приложения для работы с данными с SQL и Jupyter

В этом онлайн-курсе вы узнаете, как разработать и развернуть комплексное приложение для работы с данными с помощью SQL, Python и Jupyter. Охватывает исследовательский анализ данных, основы SQL, воспроизводимость рабочего процесса, конвейеры данных, развертывание и многое другое.
https://ploomber-sql.readthedocs.io/en/latest/index.html

590 views07:27

Big data world

🌎Введение в облачный геопространственный анализ

Хорошее введение в облачный геопространственный анализ с использованием Google Earth Engine и пакета geemap Python. Охватывает основы типов данных Earth Engine и способы визуализации, анализа и экспорта данных Earth Engine в среде Jupyter с использованием geemap.
https://cfp.scipy.org/2023/talk/GQ7PG3

cfp.scipy.org

An Introduction to Cloud-Based Geospatial Analysis with Earth Engine and Geemap SciPy 2023

The Earth is constantly changing, which creates significant challenges for the environment and human society. To tackle these challenges on a global scale, the Earth science community relies heavily on geospatial datasets that are collected through various…

557 views13:11

Big data world

👨‍🍳Поваренная книга Polars для R

Цель поваренной книги — предоставить решения общих задач и проблем при использовании Polars с R.
https://ddotta.github.io/cookbook-rpolars

Полная шпаргалка по Python

Исчерпывающий и лаконичный — настоящяя Pythonic шпаргалка по языку программирования Python.
https://gto76.github.io/python-cheatsheet

ddotta.github.io

Cookbook Polars for R

A side-by-side comparison of polars, R base, dplyr, tidyr and data.table packages.

579 views13:29

Big data world

Учебные пособия по машинному и глубокому обучению, статьи и другие ресурсы

Этот репозиторий содержит тематический список руководств, статей и других ресурсов по машинному обучению и глубокому обучению.

https://github.com/ujjwalkarn/Machine-Learning-Tutorials

GitHub

GitHub - ujjwalkarn/Machine-Learning-Tutorials: machine learning and deep learning tutorials, articles and other resources

machine learning and deep learning tutorials, articles and other resources - GitHub - ujjwalkarn/Machine-Learning-Tutorials: machine learning and deep learning tutorials, articles and other resources

👍1

649 views06:34

Big data world

This media is not supported in your browser

VIEW IN TELEGRAM

Крупномасштабные наборы данных, используемые в корпоративной аналитике данных и машинном обучении, часто полны ошибок, что приводит к снижению надежности, потере производительности и увеличению затрат. Современным решением этой проблемы является ИИ, ориентированный на данные , но применение этих методов в масштабе раньше было сложной задачей даже для группы экспертов. Пару лет назад это была работа , на выполнение которой у выпускников Массачусетского технологического института уходили месяцы. Теперь вы можете автоматически находить и устранять проблемы в данных в любом масштабе , без особых усилий создавая высококачественные наборы данных https://cleanlab.ai/blog/automated-data-quality-at-scale/

605 views08:53

Big data world

statistical_learning_with_math_and_python_100_exercises_for_building.pdf

4.6 MB

Статистическое обучение с помощью математики и Python: 100 упражнений для построения логики

740 views09:09

Big data world

mathematics_and_programming_for_machine_learning_with_r_from_the.pdf

10.3 MB

Математика и программирование для машинного обучения с помощью R: с нуля

650 views09:11

Big data world

Большие языковые модели, объясненные с минимумом математики и жаргона

Цель этой статьи — сделать большой объем знаний доступным для широкой аудитории. Мы постараемся объяснить, что известно о внутренней работе этих моделей, не прибегая к техническому жаргону или сложной математике. https://www.understandingai.org/p/large-language-models-explained-with

www.understandingai.org

Large language models, explained with a minimum of math and jargon

Want to really understand how large language models work? Here’s a gentle primer.

726 views09:39

Big data world

7 фреймворков для обслуживания LLM

Подробное сравнение https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407

573 views09:19

Big data world

Это видео содержит пошаговую реализацию обучающего набора данных распознавания эмоций или выражения лица с использованием Tensorflow-Keras API.

(00:00:00) Концепции
(00:23:01) Установка
(00:30:52) Реализация
(1:15:08) Демонстрация Live Webcam

https://www.youtube.com/watch?v=avv9GQ3b6Qg&t=40s

YouTube

Realtime Face Emotion Recognition | Tensorflow | Transfer Learning | Python | Train your own Images

This video contains stepwise implementation for training dataset of "Face Emotion Recognition or Facial Expression Recognition" using Transfer Learning in Tensorflow-Keras API

(00:00:00) concepts
(00:23:01) installation
(00:30:52) implementation
(1:15:08)…

550 views07:42

Big data world

Матричное исчисление, необходимое для глубокого обучения

Эта статья представляет собой попытку объяснить все матричное исчисление, необходимое для понимания обучения глубоких нейронных сетей. https://explained.ai/matrix-calculus/

explained.ai

The Matrix Calculus You Need For Deep Learning

Most of us last saw calculus in school, but derivatives are a critical part of machine learning, particularly deep neural networks, which are trained by optimizing a loss function. This article is an attempt to explain all the matrix calculus you need in…

588 views08:39

Big data world

Прогнозирование: принципы и практика (3-е изд.) https://otexts.com/fpp3/

Otexts

Forecasting: Principles and Practice (3rd ed)

3rd edition

608 views10:12

Big data world

IBM предлагает БЕСПЛАТНЫЙ курс Deep Learning with Python и PyTorch!
Этот курс является второй частью курса из двух частей о том, как разрабатывать модели глубокого обучения с использованием Pytorch. https://www.edx.org/course/deep-learning-with-python-and-pytorch

edX

IBM: Deep Learning with Python and PyTorch. | edX

This course is the second part of a two-part course on how to develop Deep Learning models using Pytorch.

629 views11:28

Big data world

Набор инструментов с открытым исходным кодом для разработки LLM

🚀LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и мультимодальных LLM . https://github.com/Alpha-VLLM/LLaMA2-Accessory

593 views05:30

Big data world

Шаблоны для создания систем и продуктов на основе LLM

Этот пост посвящен практическим шаблонам интеграции больших языковых моделей (LLM) в системы и продукты. Мы будем опираться на академические исследования, отраслевые ресурсы и ноу-хау практиков и пытаться превратить их в ключевые идеи и практики. https://eugeneyan.com/writing/llm-patterns/

eugeneyan.com

Patterns for Building LLM-based Systems & Products

Evals, RAG, fine-tuning, caching, guardrails, defensive UX, and collecting user feedback.

👍1

615 views05:51

Big data world

[Перевод] Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте.

В статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

Читать далее https://habr.com/ru/articles/752062/

Хабр

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

От переводчика : выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrij за консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую...

656 views08:45

Big data world

Откройте секреты выбора идеального алгоритма машинного обучения!

При работе над проблемой науки о данных одним из наиболее важных решений является выбор подходящего алгоритма машинного обучения. https://www.kdnuggets.com/2023/07/ml-algorithm-choose.html

KDnuggets

Unlock the Secrets to Choosing the Perfect Machine Learning Algorithm!

When working on a data science problem, one of the most important choices to make is selecting the appropriate machine learning algorithm.

520 views07:48

Big data world

Тщательно подобранный список потрясающих инструментов MLOps

Language: Python

💥Stars: 2754
📝Forks: 429
https://github.com/kelvins/awesome-mlops

GitHub

GitHub - kelvins/awesome-mlops: :sunglasses: A curated list of awesome MLOps tools

:sunglasses: A curated list of awesome MLOps tools - kelvins/awesome-mlops

👎1

536 views11:57

Big data world

[Перевод] OnnxStream: минимизация потребления памяти при генерации изображений.

Задача — запустить Stable Diffusion, включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки и не выгружая промежуточные результаты на диск. Рекомендуемый минимальный объём RAM/VRAM для Stable Diffusion составляет 8 ГБ. Читать дальше →https://habr.com/ru/companies/ruvds/articles/751912/

Хабр

Запускаем Stable Diffusion на Raspberry PI Zero 2 (или на 260 МБ ОЗУ)

Задача — запустить Stable Diffusion , включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки...

👍1

567 views14:20

Big data world

Начните использовать конвейеры. Это самый простой способ в 10 раз увеличить настройки машинного обучения. Идея конвейеров существует уже давно, но многие люди игнорируют их или думают, что они только помогают сделать ваш код более читабельным. Они гораздо больше, чем это. Конвейер — это независимая последовательность шагов, организованная для автоматизации процесса. Одним из основных преимуществ использования одного из них является возможность повторного использования процесса на разных этапах и с разными наборами данных. Вы должны создать конвейер для преобразования набора данных в начале проекта. Вы можете повторно использовать один и тот же конвейер для преобразования производственных данных, прежде чем запускать их через модель. Отсутствие конвейера — это немедленный красный флаг и признак того, что вы, в лучшем случае, дублируете код или, что еще хуже, преобразовываете производственные данные иначе, чем обучающий набор данных.

561 views09:36

About

Blog

Apps

Platform