Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🧠 Как работают большие языковые модели (LLM): объяснение без математики

Новая статья в блоге Miguel Grinberg рассказывает основы работы LLM для новичков в области. Автор старается избегать математики в объяснениях, но зато иллюстрирует концепции рабочим кодом на Python.

Из статьи вы узнаете:
▫️что такое токены;
▫️как модель делает предсказания;
▫️особенности архитектуры Transformers.

🔗 Читать статью
❤‍🔥3👍2
Что такое latent space (скрытое пространство)?

Допустим, вы работаете в клинике и у вас есть много данных пациентов, а конкретно их вес и рост. Вы можете рассматривать каждую точку на первом графике выше как кусочек информации о каждом человеке. Ваша задача — генерировать записи пациентов на основе этих данных.

Рассмотрим тот же набор данных, но закодированный цветом согласно индексу массы тела (ИМТ). Можно заметить, что цвета почти совпадают с линиями. Тогда почему бы нам не рассмотреть другие оси, которые могут быть удобнее для генерации новых пациентов?

Мы можем назвать одну из этих осей Zoom, так как вдоль неё ИМТ не изменяется. Вторая ось может быть названа ИМТ. Эти новые оси предлагают более удобный способ взглянуть на данные и упростить генерацию.

Именно такое математическое пространство, из которого мы генерируем синтетические объекты, называется скрытым пространством.
🤔9👍7🔥4
Zeus — инструмент для измерения количества потребляемой DL-моделями энергии

Глубокое обучение требует много энергии. Например, на обучение одной языковой модели с 200 млрд параметров на AWS p4d инстансах уходит столько же энергии, сколько бы хватило на обеспечение более тысячи средних американских домохозяйств в течение года.

Zeus — это опенсорсный инструмент, который позволяет измерять и оптимизировать потребление энергии при выполнении задач глубокого обучения.

🔗 Здесь вы можете найти примеры кода Zeus
🔗 А это ссылка на репозиторий
🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
👆Инженер-программист наблюдает за тем, как дата-сайентист пишет код👆
😁475👍1
👆Ловите бинго Python-разработчика👆

Авторские версии бинго приветствуются
😁11🔥5👍2
📹 Почему нейросети любят Softmax?

Функция Softmax действительно часто используется в архитектурах нейронных сетей. Она преобразует выходные значения модели в вероятности, которые в сумме не превышают единицу. Это особенно полезно в задачах классификации, где важно получить вероятностное распределение по классам.

Специалисты по DS хвалят ролик YouTube-канала Mutual Information, автор которого постарался объяснить этот феномен.

🔗 Ссылка на ролик
👍4👏21
✉️ Как завалить собеседование, даже не начав его: 8 ошибок в сопроводительных письмах

Откликаетесь, но сразу получаете отказы? Не торопитесь с выводами — возможно, все дело в вашем сопроводительном письме.

👉Сопроводительное — это первое впечатление, которое мы производим на эйчара, а первое впечатление, как известно, очень важно.

Собрали для вас несколько распространенных ошибок по составлению такого письма — а в статье по ссылке можно найти остальные ошибки и пример идеального сопроводительного.

Кстати, вакансии можно поискать в наших профильных каналах:
🤮Data Science, анализ данных, аналитика
🤮Python
🤮Frontend
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
👥 Pramp — симулятор собеседований с реальными людьми

Если вам предстоит техническое интервью (или вы просто хотите с кем-нибудь поболтать), то Pramp — отличный выбор. Платформа назначает вам встречу со случайным человеком, с которым вы будете собеседовать друг друга на выбранную тему.

Регистрация бесплатная. Сразу после этого вам доступны 6 слотов для планирования интервью. Вот темы, на которые вы можете провести собеседование:

🔹прикладной Data Science (конечно, иначе мы бы не сделали этот пост);
🔹поведенческое интервью;
🔹структуры данных и алгоритмы;
🔹системный дизайн;
🔹фронтенд.

Нужно быть готовым к тому, что собеседование будет проходить на английском, так как это международная платформа. Это обстоятельство может быть и плюсом, и минусом.

🔗 Ссылка на Pramp
🔥11🥰41
🐍🆕 Змея сбросила старую кожу: что нового в Python 3.13

Версия 3.13 принесла ряд важных нововведений, нацеленных на повышение скорости выполнения кода, улучшение читаемости и новые возможности для интерактивной работы. В новой статье перечислили главные изменения, которые должен знать каждый Python-разработчик.

👉 Читать статью
👉 Зеркало
🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Model Explorer — визуализация архитектуры языковых моделей (LLM)

Этот инструмент помогает понимать, отлаживать и оптимизировать модели машинного обучения. Он позволяет визуализировать большие графы в интуитивной иерархической форме. Впрочем, как отмечают создатели Model Explorer, инструмент хорошо работает и для небольших моделей. Помимо прочего, это можно использовать и для подготовки презентаций (просто посмотрите на прикреплённое к посту видео).

🔗 Ссылка на GitHub-репозиторий Model Explorer
🔗 Читать о возможностях инструмента подробнее
🥰4👍32🔥1
🤯 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘Искусственный интеллект помог учёным расшифровать фонетический алфавит кашалотов. Кашалоты общаются с помощью последовательностей щелчков, называемых кодами. Оказалось, что коды имеют структуру.
🔘Канадский стартап Upend запустил ИИ-поисковик, который использует рекордное среди аналогичных сервисов количество LLM — почти 100 — и поддерживает загрузку файлов.
🔘ИИ также помог учёным обнаружить 27000 астероидов, незамеченных на старых изображениях, полученных с телескопов.

🛠 Инструменты

🔘SendFame — создаёт видеоролики со знаменитостями, произносящими заданный текст.
🔘AI Photo Editor — отредактирует фото до неузнаваемости: изменит стиль, добавит детали, заменит фон.
🔘Dreamwave — на основе 5+ изображений сделает серию профессиональных портретов – индивидуальных или групповых.
🔘Profile Picture Maker — генерирует высококачественные фото для профиля (в любом нужном стиле) на основе селфи.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
4
🤔 Как попасть в Data Science, если у вас нет выдающегося резюме?

Старший специалист Elsevier и автор Telegram-канала New Yorko Times Юрий Кашницкий дал несколько рекомендаций начинающим дата-сайентистам. Как же найти работу, если у вас нет/мало опыта?

▪️По мнению Кашницкого, самый простой способ — попробовать попасть в отрасль через знакомых.
▪️Если нетворкинг и общение с людьми — не ваше, то следует постараться набрать хоть какой-то опыт хоть где-то. Кашницкий советует искать сторонние доступные проекты. Например, у Hugging Face есть подобные. К ним может подключиться любой желающий. Кроме того, можно найти команду для прикладного проекта в рамках курса (например, подобное было в курсе ods.ai по MLOps).
▪️Если у вас нет опыта именно в Data Science, но есть опыт в разработке или аналитике, то можно попробовать поучаствовать в DS-проектах на текущей работе.
▪️Кашницкий также рекомендует хорошо оформить резюме.

По его мнению, в поиске работы не помогут набивание титулов типа Kaggle Competitions Master и получение множества сертификатов.
👏9👍2
🎤 Как не облажаться с докладом на IT-конференции

Готовитесь к докладу на IT-конференции? Не хотите оказаться в роли «того самого» докладчика, на которого все жалуются в кулуарах? Узнайте, как не облажаться и сделать свой доклад полезным и запоминающимся.

🔗 Читать статью
🔗 Зеркало
6