Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
👨‍💼👩‍💼👨‍🎤Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Автор статьи на «Хабре» описывает подходы к делению выборки для АБ-тестирования. Он описывает разные методы с их плюсами и минусами:

▪️случайное присвоение пользователям значения группы;
▪️применение псевдослучайных хэш-функций.

🔗 Читать статью
👍53
🧠🤖 Как создать память для вашего чат-бота на Python с
помощью графов знаний


Хотите, чтобы ваш чат-бот давал более точные и релевантные ответы, избегая «галлюцинаций»? Графы знаний в помощь!

В статье и туториале разбираем, что такое графы и как создать память на примере данных из Википедии.

🔗 Читать статью
🔗 Зеркало
👍83🥰21
This media is not supported in your browser
VIEW IN TELEGRAM
🐍🎩 Hatchet: новый король распределения задач, который затмит Celery

Ваша система распределения задач тормозит проект? Пора переходить на Hatchet! Этот инновационный менеджер очередей решает проблемы, с которыми не справляются устаревшие инструменты.

Hatchet позволяет создавать отказоустойчивые процессы, решающие проблемы параллелизма, справедливости распределения задач и ограничения скорости обработки.

👉Обо всех преимуществах Hatchet рассказали в статье👈
🔗 Зеркало
🤩75👾1
🆕 Вышел первый международный рейтинг Global Generative AI Landscape 2024 с ведущими мировыми ИИ-разработками

Туда попали две российские нейросети — текстовая YandexGPT и мультимодальная YandexART. Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort провели исследование по 62 странам, которые больше всего инвестируют в развитие ИИ (согласно глобальному индексу искусственного интеллекта Tortoise).

Яндекс также стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей. В этом списке такие компании, как Open AI, Google, Microsoft, Meta.

👉 Читать статью
👍6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🎮👾 Подборка материалов по машинному обучению для игр

🎓 Machine Learning for Games Course
На Hugging Face недавно запустили вводный курс по использованию ML в играх. Уроки выходят постепенно, на данный момент доступна первая часть. Следите за расписанием курса.

😺 NVIDIA показала демо-версию детективной игры Covert Protocol на базе Inworld AI
Видео мы прикрепили к посту. Демо показывает, как ИИ-инструменты позволяют NPC адаптироваться к действиям игрока и выдавать реплики в зависимости от контекста. NVIDIA пообещала опубликовать исходный код Covert Protocol в ближайшее время.

📖 Google DeepMind создал новый ИИ, способный неплохо играть в компьютерные игры. На что он способен?
Статья на «Хабре», разбирающая агента SIMA для игр.

👀 Code Bullet
Это YouTube-канал со множеством забавных видео, в которых автор пытается использовать разные ML-алгоритмы в играх. Залипнуть можно надолго.
👍84
Forwarded from Библиотека программиста | программирование, кодинг, разработка
📈 По просьбе подписчиков «Библиотеки программиста» мы провели опрос и выяснили, что у большинства айтишников зарплата в 2023 году выросла.

⚡️ Как выглядит доход среднего айтишника и какие факторы окажут влияние на динамику ИТ-зарплат в 2024 году — расскажем в статье на VC.

👉 Читать

P. S. Свои предложения для исследований пишите в комменты👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
⚡️Proglib запускает канал про ИИ-помощников

Будем максимально подробно рассказывать про все существующие нейросети-помощники, которые генерируют текст или код — с пошаговыми инструкциями, промтами, инструментами и лайфхаками.

⭐️ChatGPT
⭐️Gemini
⭐️Claude
⭐️Bing
И другие!

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
📈 Гайд по предварительной обработке данных для машинного обучения

На «Хабре» опубликовали большую статью с описанием процесса предобработки данных перед кластеризацией.

Рассматриваются такие темы:
▪️Выявление и обработка аномальных наблюдений;
▪️Анализ и исключение дубликатов;
▪️Анализ и обработка пропусков.

🔗 Читать статью со всем подробностями
8🔥4👍2🥱1
🧠 Бесплатные курсы по ИИ от NVIDIA

▪️Generative AI Explained
Это вводный курс длительностью 2 часа, который объясняет, как работают генеративные модели.
▪️Building A Brain in 10 Minutes
Совсем короткий урок, рассказывающий о том, как устройство биологического мозга вдохновило исследователей на создание нейросетей.
▪️Augment your LLM Using Retrieval Augmented Generation
Объясняет, что такое Retrieval Augmented Generation (RAG).
▪️Accelerate Data Science Workflows with Zero Code Changes
Курс продолжительностью один час рассказывает о том, как ускорить обработку данных и ML-workflows с помощью GPU.
▪️Building RAG Agents with LLMs
Самый долгий курс из списка — рассчитан на 8 часов. Расскажет про LLM-агентов, векторные базы данных и LangChain.
🔥10👍5
Какие допущения есть у линейной регрессии?

Линейная регрессия — это, в сущности, статистический метод, который позволяет описать связь между переменными. Этот метод валиден, если выполняются четыре предположения:

1️⃣ Между независимой переменной x и зависимой переменной y существует линейная зависимость.
2️⃣ Между последовательными остатками (или разницей между фактическими и предсказанными значениями) нет корреляции. Это чаще всего случается в данных временных рядов.
3️⃣ Должна соблюдаться гомоскедастичность. То есть дисперсия остатков обязана быть одинаковой. Иными словами, разность между реальным и предсказанным значениями, должна оставаться в определённом известном диапазоне.
4️⃣ Остатки должны быть нормально распределены.

#вопросы_с_собеседований
12👍2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Сайт с отличной визуализацией работы нейросетей

Разработчик Jared Wilber сделал страничку по нейронным сетям, на которой объяснил, как устроен их механизм работы. Все объяснения он сопроводил хорошими иллюстрациями. В частности, автор разбирает:

▪️линейную и логистическую регрессии;
▪️архитектуры нейросетей и разные функции активации;
▪️механизм обратного распространения ошибки.

Также на сайте есть виджет, в котором можно самостоятельно настраивать сеть и смотреть, что получается.

🔗 Ссылка на сайт
123👍3
🧑‍💻 Путь разработчика: один язык на всю жизнь или постоянное переобучение?

Мир IT постоянно развивается, и то, что было актуально вчера, сегодня может оказаться устаревшим. Мы хотим узнать, как часто разработчики меняют сферу деятельности и направление разработки в погоне за новыми знаниями и возможностями.

👉 Поделитесь своим мнением и опытом. Ваши ответы помогут нам лучше понять тенденции и предпочтения в сообществе разработчиков

Опрос займёт у вас примерно 4 минуты.
2
🧠 Шпаргалка по статистике от Стэнфорда

Это материалы к курсу Introduction to Probability and Statistics for Engineers.

Охватывают темы:
▪️оценивание параметров;
▪️доверительные интервалы;
▪️тестирование гипотез;
▪️регрессионный анализ;
▪️корреляционный анализ.

🔗 Ссылка на шпаргалку
👍11
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🔬 20 лет в блогосфере: взгляд физика на эволюцию фундаментальной науки

Двадцать лет назад автор блога Not Even Wrong сделал свою первую запись. С тех пор многое изменилось в мире фундаментальной физики и в способах научной коммуникации. Какие уроки можно извлечь из этого опыта и чего ждать от будущего?

👉 Читать статью
👉 Зеркало
😁431
Какими площадками/соцсетями вы активно пользуетесь кроме Telegram?
Anonymous Poll
28%
Instagram*
4%
Facebook*
32%
VK
18%
LinkedIn
7%
X (Twitter)
38%
Хабр
10%
Reddit
79%
YouTube
8%
TikTok
5
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

▫️NVIDIA продемонстрировала впечатляющие достижения в робототехнике на конференции GDC 2024. Посмотрите на гуманоидных роботов здесь.
▫️Компания DeepMind совместно с клубом Liverpool представила TacticAI — систему, которая может давать тактические советы футбольным тренерам.
▫️Stability AI выпустила модель Stable Video 3D, способную превращать изображения в 3D-видео.

🛠 Инструменты

▫️Arcads — генерирует маркетинговые видео с ИИ-актерами.
▫️Instanice — преобразует фото в любой нужный стиль, сохраняя внешность.
▫️PNGMaker — генерирует любые изображения на прозрачном фоне.

⚙️ Сделай сам

▫️Devika — опенсорсная альтернатива нашумевшему автономному агенту Devin от Cognition AI. Это ИИ-помощник, способный создавать сложные программные проекты с минимальным участием разработчика.
▫️GPT Prompt Engineer — агент для создания эффективных промптов. Поддерживает все модели OpenAI и Claude 3.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
35% на самый хардкорный курс по вышмату!

🌟 «Математика для Data Science» 🌟

19 490 рублей 29 990 рублей до 1 апреля

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте вводные занятия курсаhttps://proglib.io/w/4b21349b
👍3
🔮Что такое проклятие размерности?

Проклятие размерности — это набор проблем, возникающих при работе с данными высокой размерности. Трудности появляются, когда мы имеем дело с пространством признаков с сотнями или даже тысячами измерений.

Основная проблема здесь заключается в том, что в высокоразмерных пространствах данные становятся очень разреженными. Вот пример:

👀 Допустим, мы используем метод ближайших соседей для задачи классификации. Чтобы алгоритм хорошо работал, объекты должны быть расположены достаточно плотно в пространстве признаков. Так, в единичном интервале [0,1] ста равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0.01. Однако если мы возьмём 10-мерный куб, то для той же степени покрытия потребуется уже 10^20 точек.

То есть проклятие размерности связано с:
▫️ухудшением производительности алгоритмов, полагающихся на метрики расстояния;
▫️ростом вычислительной сложности;
▫️риском переобучения;
▫️трудностями визуализации.

Как с этим бороться?
— провести отбор признаков;
— снизить размерность данных с помощью метода главных компонент (PCA).
👍85