Big data world
2.37K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
101 фрагмент кода Python для повседневного использования для специалистов по данным

https://python.plainenglish.io/101-advanced-everyday-python-for-data-scientists-669c9b417707
Тензорный оптимизатор Mirage (репозиторий GitHub)

Mirage — это супероптимизатор тензорной алгебры, который автоматически находит высокооптимизированные тензорные программы для DNN. Mirage автоматически идентифицирует и проверяет сложные оптимизации, многие из которых требуют совместной оптимизации на уровне ядра, блока потоков и потоков иерархии вычислений графического процессора. https://github.com/mirage-project/mirage
This media is not supported in your browser
VIEW IN TELEGRAM
Книга по линейной алгебре с полностью интерактивными фигурами.

https://immersivemath.com/ila/index.html
Понимание математики, лежащей в основе глубокого обучения, важно, если вы хотите овладеть методами машинного обучения.

14-часовой курс глубокого обучения на YouTube-канале freeCodeCamp.org. Этот курс специально разработан для превращения новичков в опытных разработчиков в области глубокого обучения. Если вы хотите понять основные концепции или хотите применить глубокое обучение к реальным задачам, этот курс поможет вам. https://www.freecodecamp.org/news/deep-learning-course-math-and-applications
Фреймворк с открытым исходным кодом для голосового и мультимодального разговорного искусственного интеллекта

https://github.com/pipecat-ai/pipecat
⚡️ Как эффективно использовать явный и неявный фидбек в рекомендательных системах?

Расскажет опытный эксперт на открытом практическом уроке от OTUS, где вы:

— познакомитесь с двумя типами фидбека от пользователя: явным и неявным;

— обучите рекомендательные модели на разных типах фидбека;

— сравните их качество.

📌 Вебинар будет полезен дата-сайентистам и ML-спецам, которые хотят расширить область знаний и технологический стек.

Встречаемся 23 мая в 20:00 мск в преддверии старта курса «Machine Learning. Professional». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджера OTUS!

💣 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/Aixz/?erid=LjN8KJRiu
Алгоритмы машинного обучения

Минимальные и понятные примеры реализации алгоритмов машинного обучения
https://github.com/rushter/MLAlgorithms

llama3.np — это чистая реализация NumPy для модели Llama 3.
https://github.com/likejazz/llama3.np
PySheets предоставляет пользовательский интерфейс электронных таблиц для Python. Используйте Pandas, создавайте диаграммы, импортируйте листы Excel, анализируйте данные и создавайте отчеты.

py2wasm преобразует программы Python в WebAssembly и запускает их в 3 раза быстрее, чем CPython.

databonsai — это библиотека Python, которая использует LLM для задач очистки данных, таких как категоризация, преобразование и извлечение.
Использование идей теории игр для повышения надежности языковых моделей
Новая «консенсусная игра», разработанная исследователями MIT CSAIL, повышает навыки ИИ в понимании и генерации текста.
https://news.mit.edu/2024/consensus-game-elevates-ai-text-comprehension-generation-skills-0514
Доказательство обучения в области машинного обучения/ИИ
Прежде чем приступить к какой-либо математической разработке, мы должны сначала понять основу обучения и то, как оно тесно связано с концепцией ошибки.

https://towardsdatascience.com/the-proof-of-learning-in-machine-learning-ai-4faae3c85fe6
10 бесплатных обязательных курсов по науке о данных, чтобы начать работу
Хотите начать свое путешествие в науку о данных? Тогда позвольте этим курсам помочь вам в этом путешествии. https://www.kdnuggets.com/10-free-must-take-data-science-courses-to-get-started
Создайте свою собственную среду глубокого обучения на основе C/C++, CUDA и Python с поддержкой графического процессора и автоматической дифференциацией.

https://towardsdatascience.com/recreating-pytorch-from-scratch-with-gpu-support-and-automatic-differentiation-8f565122a3cc
Полное руководство по BERT с кодом
История, архитектура, предварительная подготовка и тонкая настройка

https://towardsdatascience.com/a-complete-guide-to-bert-with-code-9f87602e4a11
Mamba — это сильная альтернатива Transformer, которая набирает обороты благодаря своей способности использовать меньшее количество FLOP при сохранении производительности. Однако для некоторых приложений это может не потребоваться. Эта работа показывает, что хорошо настроенная базовая линия CNN превосходит Mamba в ряде задач по зрению.

https://github.com/yuweihao/mambaout
10 репозиториев GitHub для разработки мастер-данных
Изучите инженерию данных с помощью бесплатных курсов, учебных пособий, книг, инструментов, руководств, дорожных карт, практических упражнений, проектов и других ресурсов. https://www.kdnuggets.com/10-github-repositories-to-master-data-engineering
Обучение машин с градиентным усилением может занять некоторое время, но есть внутренний трюк, который мы можем применить, чтобы обучение деревьев было намного быстрее. Оказывается, гистограмма — это все, что нам нужно!..

https://www.youtube.com/watch?v=5okmBJaE0kY