Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Торхтитан (репозиторий GitHub)
Фреймворк предварительной подготовки моделей Llama от Meta, полностью написанный на PyTorch.
https://github.com/pytorch/torchtitan

Платформа глубокого обучения Luminal (репозиторий GitHub)
Платформа для быстрого глубокого обучения, созданная с учетом скорости и простоты.
OpenLit (репозиторий GitHub)
https://github.com/jafioti/luminal?

OpenLIT — это встроенный в OpenTelemetry инструмент наблюдения за приложениями GenAI и LLM, предназначенный для того, чтобы сделать процесс интеграции наблюдения в проекты GenAI возможным с помощью всего лишь одной строки кода.
https://github.com/openlit
🔥2👍1
О том, почему современные системы искусственного интеллекта выдают ложные результаты и что с этим делать

https://medium.com/@colin.fraser/hallucinations-errors-and-dreams-c281a66f3c35
Бесплатные курсы по искусственному интеллекту от NVIDIA: для всех уровней
Хотите создавать крутые приложения с искусственным интеллектом? Начните изучать искусственный интеллект сегодня с помощью этих бесплатных курсов от NVIDIA.

https://www.kdnuggets.com/free-ai-courses-from-nvidia-for-all-levels
101 фрагмент кода Python для повседневного использования для специалистов по данным

https://python.plainenglish.io/101-advanced-everyday-python-for-data-scientists-669c9b417707
Тензорный оптимизатор Mirage (репозиторий GitHub)

Mirage — это супероптимизатор тензорной алгебры, который автоматически находит высокооптимизированные тензорные программы для DNN. Mirage автоматически идентифицирует и проверяет сложные оптимизации, многие из которых требуют совместной оптимизации на уровне ядра, блока потоков и потоков иерархии вычислений графического процессора. https://github.com/mirage-project/mirage
This media is not supported in your browser
VIEW IN TELEGRAM
Книга по линейной алгебре с полностью интерактивными фигурами.

https://immersivemath.com/ila/index.html
Понимание математики, лежащей в основе глубокого обучения, важно, если вы хотите овладеть методами машинного обучения.

14-часовой курс глубокого обучения на YouTube-канале freeCodeCamp.org. Этот курс специально разработан для превращения новичков в опытных разработчиков в области глубокого обучения. Если вы хотите понять основные концепции или хотите применить глубокое обучение к реальным задачам, этот курс поможет вам. https://www.freecodecamp.org/news/deep-learning-course-math-and-applications
Фреймворк с открытым исходным кодом для голосового и мультимодального разговорного искусственного интеллекта

https://github.com/pipecat-ai/pipecat
⚡️ Как эффективно использовать явный и неявный фидбек в рекомендательных системах?

Расскажет опытный эксперт на открытом практическом уроке от OTUS, где вы:

— познакомитесь с двумя типами фидбека от пользователя: явным и неявным;

— обучите рекомендательные модели на разных типах фидбека;

— сравните их качество.

📌 Вебинар будет полезен дата-сайентистам и ML-спецам, которые хотят расширить область знаний и технологический стек.

Встречаемся 23 мая в 20:00 мск в преддверии старта курса «Machine Learning. Professional». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджера OTUS!

💣 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/Aixz/?erid=LjN8KJRiu
Алгоритмы машинного обучения

Минимальные и понятные примеры реализации алгоритмов машинного обучения
https://github.com/rushter/MLAlgorithms

llama3.np — это чистая реализация NumPy для модели Llama 3.
https://github.com/likejazz/llama3.np
PySheets предоставляет пользовательский интерфейс электронных таблиц для Python. Используйте Pandas, создавайте диаграммы, импортируйте листы Excel, анализируйте данные и создавайте отчеты.

py2wasm преобразует программы Python в WebAssembly и запускает их в 3 раза быстрее, чем CPython.

databonsai — это библиотека Python, которая использует LLM для задач очистки данных, таких как категоризация, преобразование и извлечение.
Использование идей теории игр для повышения надежности языковых моделей
Новая «консенсусная игра», разработанная исследователями MIT CSAIL, повышает навыки ИИ в понимании и генерации текста.
https://news.mit.edu/2024/consensus-game-elevates-ai-text-comprehension-generation-skills-0514
Доказательство обучения в области машинного обучения/ИИ
Прежде чем приступить к какой-либо математической разработке, мы должны сначала понять основу обучения и то, как оно тесно связано с концепцией ошибки.

https://towardsdatascience.com/the-proof-of-learning-in-machine-learning-ai-4faae3c85fe6
10 бесплатных обязательных курсов по науке о данных, чтобы начать работу
Хотите начать свое путешествие в науку о данных? Тогда позвольте этим курсам помочь вам в этом путешествии. https://www.kdnuggets.com/10-free-must-take-data-science-courses-to-get-started
Создайте свою собственную среду глубокого обучения на основе C/C++, CUDA и Python с поддержкой графического процессора и автоматической дифференциацией.

https://towardsdatascience.com/recreating-pytorch-from-scratch-with-gpu-support-and-automatic-differentiation-8f565122a3cc
Полное руководство по BERT с кодом
История, архитектура, предварительная подготовка и тонкая настройка

https://towardsdatascience.com/a-complete-guide-to-bert-with-code-9f87602e4a11