Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
👍 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

▫️NVIDIA продемонстрировала впечатляющие достижения в робототехнике на конференции GDC 2024. Посмотрите на гуманоидных роботов здесь.
▫️Компания DeepMind совместно с клубом Liverpool представила TacticAI — систему, которая может давать тактические советы футбольным тренерам.
▫️Stability AI выпустила модель Stable Video 3D, способную превращать изображения в 3D-видео.

🛠 Инструменты

▫️Arcads — генерирует маркетинговые видео с ИИ-актерами.
▫️Instanice — преобразует фото в любой нужный стиль, сохраняя внешность.
▫️PNGMaker — генерирует любые изображения на прозрачном фоне.

⚙️ Сделай сам

▫️Devika — опенсорсная альтернатива нашумевшему автономному агенту Devin от Cognition AI. Это ИИ-помощник, способный создавать сложные программные проекты с минимальным участием разработчика.
▫️GPT Prompt Engineer — агент для создания эффективных промптов. Поддерживает все модели OpenAI и Claude 3.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
35% на самый хардкорный курс по вышмату!

🌟 «Математика для Data Science» 🌟

19 490 рублей 29 990 рублей до 1 апреля

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте вводные занятия курсаhttps://proglib.io/w/4b21349b
👍3
🔮Что такое проклятие размерности?

Проклятие размерности — это набор проблем, возникающих при работе с данными высокой размерности. Трудности появляются, когда мы имеем дело с пространством признаков с сотнями или даже тысячами измерений.

Основная проблема здесь заключается в том, что в высокоразмерных пространствах данные становятся очень разреженными. Вот пример:

👀 Допустим, мы используем метод ближайших соседей для задачи классификации. Чтобы алгоритм хорошо работал, объекты должны быть расположены достаточно плотно в пространстве признаков. Так, в единичном интервале [0,1] ста равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0.01. Однако если мы возьмём 10-мерный куб, то для той же степени покрытия потребуется уже 10^20 точек.

То есть проклятие размерности связано с:
▫️ухудшением производительности алгоритмов, полагающихся на метрики расстояния;
▫️ростом вычислительной сложности;
▫️риском переобучения;
▫️трудностями визуализации.

Как с этим бороться?
— провести отбор признаков;
— снизить размерность данных с помощью метода главных компонент (PCA).
👍85
🔥 Сайт с построчным объяснением кода различных DL-моделей

А точнее, авторы делают аннотации к реализациям моделей и архитектур из известных и интересных статей, в том числе про Transformers, StyleGAN, Stable Diffusion и др.

👍 Все аннотации представлены в удобном виде: слева написаны объяснения с формулами, а справа — сам код на PyTorch.

Также на сайте есть реализации оптимизиаторов и различных техник, используемых в глубоком обучении. В общем, залипнуть можно надолго.

🔗 Ссылка на сайт
👍16🔥8👏31
🤖 Яндекс представил третье поколение больших языковых моделей YandexGPT

Это новая линейка YandexGPT 3.

▪️Первая модель из серии — YandexGPT 3 Pro — уже доступна по API на сайте Yandex Cloud, а также в бесплатном демо-режиме (доступно 30 запросов в час).
▫️Можно самостоятельно дообучить YandexGPT 3 Pro в сервисе Yandex DataSphere. Чтобы запустить процесс дообучения, нужно загрузить в DataSphere файл с примерами запросов и эталонными ответами на них.

🔗 Читать релиз Яндекса с подробностями
👏4🥱2
Forwarded from Книги для дата сайентистов | Data Science
This media is not supported in the widget
VIEW IN TELEGRAM
🤩4
CausalML_book.pdf
15.3 MB
📚 Новая бесплатная книга по причинно-следственному выводу с помощью ML

Причинно-следственный вывод помогает понять, как изменение одной переменной может привести к изменению другой переменной.

Книга Causal ML Book представляет собой подробное руководство по использованию методов машинного обучения для анализа причинно-следственных связей. Например, в ней рассматриваются основы предсказательного вывода с использованием линейной регрессии, направленных ациклических графов и др.

🔥 Круче всего то, что к каждому разделу прилагаются примеры кода как на Python, так и на R.

🔗 Ссылка на книгу и дополнительные материалы к ней
🔥11
🔍 12 лучших ИИ-поисковиков, которые найдут иголку в стоге сена

Умение быстро находить решения сложных задач — один из самых важных навыков разработчика. Но найти по-настоящему полезную информацию в лавинообразном потоке SEO-оптимизированного контента бывает нелегко. На помощь придут ИИ-поисковики: они могут отыскать ответ на самый размытый запрос, а при необходимости — сгенерируют собственное решение.

🔗 Смотреть полную подборку поисковиков
🔗 Зеркало
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
Audio
🔉OpenAI создала собственную систему копирования голоса

Компания опубликовала блогпост с рассказом о голосовом движке Voice Engine, который может на основе 15-секундного отрывка записи голоса озвучить любой текст в манере говорящего. Также система способна переводить речь на другие языки.

OpenAI уже предоставила доступ к движку нескольким партнёрам. Вот некоторые примеры его использования:
▫️Помощь в чтении детям и другим людям, не умеющим читать.
▫️Перевод контента.
▫️Поддержка людей с ограниченными возможностями.

🔗 Читать пост OpenAI (там можно найти больше примеров сгенерированной речи)
👍3🥰3
🆕 В 30 раз быстрее: MIT представляет ИИ-инструмент, создающий высококачественные картинки

Диффузия обычно является трудоемким процессом, требующим множества шагов, но исследователи из MIT нашли лучший способ.

🔗Подробнее
🔥6😁1
🆕 DBRX – прорыв в сфере открытых языковых моделей от Databricks

DBRX превосходит GPT-3.5 и конкурирует с Gemini 1.0 Pro в стандартных тестах и лидирует в тестах на MMLU, HumanEval и GSM8K.

🔗Подробнее
1
🐼 Много упражнений по Pandas

Этот репозиторий на GitHub содержит множество ноутбуков с различными задачами, которые помогут изучить/вспомнить Pandas. Вот какие темы охвачены:

▫️фильтрация данных;
▫️группировка;
▫️статистические показатели;
▫️временные ряды и др.

🔗 Изучить репозиторий
🔥12👍31
🐍🛠️ 32 инструмента для Python, которые помогут писать профессиональный код

В статье собрали полезные инструменты для написания чистого, читаемого и безопасного Python-кода: автоформатировщики, линтеры, инструменты проверки типов, фреймворки для юнит-тестирования и генераторы документации.

🔗 Читать статью полностью
🔗 Зеркало
7👍42