Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.67K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
😪 Это должно было быть первоапрельской шуткой...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁201🤔1😢1🥱1
🔥 Вышел, вероятно, один из лучших роликов с объяснением Transformers

На отличном канале 3Blue1Brown опубликовали очередное видео из серии про глубокое обучение. На этот раз авторы отвечают на вопрос «Что такое GPT» и дают визуальное введение в Transformers.

👍 Рекомендуем к просмотру. Канал 3Blue1Brown ещё ни разу не подводил.

🔗 Ссылка на ролик
17👍2🔥2👏1
💩 Подборка полезных команд для работы в Jupyter-ноутбуках

💩ИИ-помощник в ноутбук — Jupyter AI
Точно работает в JupyterLab. Сначала нужно установить расширение:
pip install 'jupyter-ai>=1.0,<2.0' # если вы используете JupyterLab 3
pip install jupyter-ai # если вы используете JupyterLab 4

Затем следует установить переменную окружения с API-ключом OpenAI:
%env OPENAI_API_KEY=ваш_ключ

В конце концов можно вставить следующий код:
%reload_ext jupyter_ai
%%ai chatgpt
generate a function for sum of two numbers


💩Красивый вывод LaTeX формул
%%latex
$$c = \sqrt{a^2 + b^2}$$


💩Выполнение SQL-запросов
Эта магическая команда становится доступной после установки и настройки расширения ipython-sql. Вот последовательность команд:
pip install ipython-sql
%load_ext sql
%sql postgresql://username:password@hostname:port/database_name
%sql SELECT * FROM my_table LIMIT 5;


💩Запуск Python-файлов прямо в ноутбуке
%run hello.py


💩Запись содержимого ячейки в Python-файл
%%writefile app.py

def sum_of_numbers(a, b):
return a + b

c = sum_of_numbers(3, 2)
print(c)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍272😁1
💬 Как изменился ваш информационный пузырь за год?

Помните свои информационные предпочтения год назад? Многое изменилось! Социальные сети, мессенджеры, YouTube, подкасты — все эти каналы ежедневно борются за наше внимание. У каждого из нас за год сформировался свой уникальный информационный рацион. Пройдите наш опрос и расскажите, как изменились ваши вкусы в медиапотреблении.

👉 Пройти опрос

Опрос займёт у вас примерно 4 минуты.
😁62
🔥 Язык для машинного обучения Mojo стал открытым

Создатели Mojo объявили, что теперь проект опенсорсный, и каждый может внести свой вклад в разработку.

👀 Помимо предоставления исходного кода, команда также открыла историю изменений стандартной библиотеки, выпустила ночные сборки компилятора Mojo, предоставила публичную систему непрерывной интеграции и разрешила пулл-реквесты на GitHub.

🔗 Ссылка на репозиторий Mojo
🔥162👍2
👾 Карточки по мотивам наших вопросов с собеседований DS

Наш подписчик сделал колоду карточек ANKI из пар вопрос-ответ, опубликованных в канале Библиотека собеса по Data Science. Всего в наборе 203 карточки.

Чтобы смотреть их в удобной форме, нужно:
▪️Завести аккаунт на AnkiWeb;
▪️Скачать десктопное приложение ANKI;
▪️Скачать карточки;
▪️Открыть их в приложении.

❤️ Если вы тоже делали карточки, шпаргалки или инструкции по нашим материалам, то обязательно присылайте нашему боту
5
👀 Amazon провалила ИИ-проект с автоматизированными магазинами

Компания отказалась от Just Walk Out в своих магазинах Amazon Go. Предполагалось, что технология будет автоматизировать работу касс с помощью компьютерного зрения. Однако, как оказалось, работает она плохо.

👉 По задумке, Just Walk Out должна была позволять покупателю взять любые товары и уйти из магазина, не проведя их через кассу. Amazon хотела, чтобы ИИ-система через камеры отслеживала, что забрали клиенты, и списывала деньги с них позже.

Журналисты выяснили, что на проект Amazon работали более 1000 человек из Индии, которые вручную размечали видео для обучения моделей, а также перепроверяли их результаты. И если ручная разметка — это нормальное явление, то постоянная перепроверка оказалась слишком накладной и свела преимущества технологии на нет.

🤔 Теперь Amazon перейдёт на более разумный формат работы: в магазинах будут использоваться тележки со встроенными экранами и сканерами для оплаты.
👍7😁31
📊 Периодическая таблица методов визуализации

Забавная версия таблицы Менделеева, в которой собраны разные методы визуализации данных и концептов.

Помогает освежить всё в памяти.

🔗 Ссылка на таблицу
9
💬 У нас есть вопрос

Расскажите, пожалуйста, на какие статьи вы переходили или какие последние ссылки открывали из Telegram? Речь идёт не только о наших статьях и ссылках, а о любых.

👇 Пишите ответы в комментариях в стиле «был пост со статьёй такой-то, я её открыл и почитал». Будем благодарны обратной связи!
👍3
🐍 Хэш-карты: незаменимый инструмент для Python-разработчика

Хэш-карты представляют собой одну из наиболее распространенных реализаций хэширования. Они хранят пары ключ-значение в списке, доступ к которому осуществляется через его индекс.

О том, как работать с хэш-картами в Python, читайте в нашей новой статье.

🔗 Ссылка
🔗 Зеркало
👍2😁2
Свежий #дайджест материалов по ИИ, Data Science и машинному обучению

▪️Синтетическое генерирование данных (SMOTE)
SMOTE используется для решения проблемы несбалансированности классов в обучающих данных.
▪️Propensity score matching: как оценивать маркетинговые кампании, если невозможно провести A/B тесты
Propensity Score Matching (PSM) — это статистический метод, позволяющий оценить эффект вмешательства, сравнивая группы с похожим распределением ключевых характеристик, за исключением самого вмешательства.
▪️Логистическая и Softmax-регрессии. Основная идея и реализация с нуля на Python
Очень подробная статья с формулами и кодом.
▪️Ускорение инференса LLM
ML-разработчик из команды YandexGPT разобрал задачу ускорения инференса больших языковых моделей.
▪️What's next for AI agentic workflows ft. Andrew Ng of AI Fund
Эндрю Ын рассказывает о том, что будет дальше с ИИ-агентами.
🔥5👍2
🤖👾 Как злоумышленники взламывают LLM: 7 ключевых стратегий

Чат-боты на основе ИИ все чаще становятся мишенью для хакеров. Какие уязвимости позволяют злоумышленникам взламывать ИИ-системы и как защитить свои приложения от атак? Рассказываем о 7 ключевых стратегиях.

👉 Читать статью
👉 Зеркало
6
This media is not supported in your browser
VIEW IN TELEGRAM
👾 LLM сразились между собой в турнире по Street Fighter III

Разработчики придумали бенчмарк LLM Colosseum, который предлагает совершенно новый способ оценки больших языковых моделей (LLM). Воспользоваться им может каждый желающий — исходный код открыт.

😎 На прикреплённом к посту видео сражаются модели OpenAI и Mistral. В это битве победителем вышла Mistral. Но как это работает?

Все действия персонажей определяются решениями LLM в режиме реального времени. Моделям отправляют текстовое описание происходящего на экране и спрашивают, каким должен быть следующий шаг. При этом, как показала практика, чтобы победить в Street Fighter III, для LLM важна скорость. Поэтому более маленькие модели выигрывают чаще, чем более крупные. На данный момент первое место в рейтинге занимает gpt-3.5-turbo-0125. За ней следуют mistral-small-latest и gpt-4-1106-preview.
👍6😁5👾1
⛏️ Экспериментируйте с нейросетью прямо в браузере

У TensorFlow есть песочница, в которой можно настраивать нейронную сеть и сразу смотреть на результат своих изменений. Можно выбрать количество слоёв, размер батча, уровень шума в данных, преобразования входных данных, даже вручную прописать веса — и увидеть, что меняется. Полезно для понимания того, как это всё устроено.

🔗 Ссылка на песочницу
7🔥4
🧠 Сколько времени нужно, чтобы «успокоить» ум?

Своими наблюдениями делится один из самых известных специалистов по искусственному интеллекту, сооснователь OpenAI Андрей Карпаты.

Возвращаюсь после экспериментального двухнедельного детокса от интернета. Основной вывод заключается в том, что я не осознавал, насколько неспокойным может стать ум при перенасыщении проблемами/информацией (как взболтанная жидкость), и примерно двух недель достаточно, чтобы перейти в гораздо более спокойное состояние.

Меня поразило, как перенасыщенный мозг автоматически выталкивает на поверхность сознания проблемы, создавая состояние постоянной тревоги и нервозности. После некоторого времени в устоявшемся состоянии эта активность просто... прекращается. Вы можете сидеть, и ваш мозг не переходит сразу в режим решения проблем, он просто остаётся в тишине. Ничего не происходит.

Я уверен, это может показаться многим странным, но я думаю, что очень давно не был в таком подмножестве пространства состояний «динамики мозга», и приятно знать, что 1) это состояние существует, и 2) его можно посетить, если хочешь, но путь туда занимает несколько недель.
14🔥53
🐼 Pandas: от хаоса к красоте кода

Работа с pandas.DataFrame может превратиться в неловкую кучу старого (не очень) доброго спагетти-кода. Автор делится своим опытом и рассказывает, какие практики старается соблюдать.

Этого не стоит делать:
▫️не изменяйте DataFrame слишком сильно внутри функций;
не пишите методы, которые изменяют DataFrame и не возвращают его.

Этого стоит придерживаться:
создавайте новые объекты вместо того, чтобы изменять исходный DataFrame, и не забывайте делать глубокую копию, когда это необходимо;
выполняйте только операции аналогичного уровня внутри одной функции;
разрабатывайте функции с учётом возможности переиспользования;
тестируйте свои функции.

🔗 Ссылка на статью
👏8😁2
🤖 Матричные вычисления, лежащие в основе Transformers

Автор YouTube-канала StatQuest with Josh Starmer Джош Стармер опубликовал новое отличное видео, объясняющее матричные вычисления, на базе которых строится одна из самых известных архитектур нейросетей.

Джош пошагово, подробно и на примерах рассказывает про эмбеддинги слов (их векторные представления), позиционное кодирование, матрицы Q, K и V.

🔗 Смотреть видео
👍61
⚛️ Квантовое машинное обучение: курсы и материалы

🖥️ Открытый курс квантового машинного обучения
Курс от сообщества ODS. Содержит лекции разных уровней сложности и глубины. Все объяснения подкрепляются кодом.

🖥️ Забавный комикс о смысле квантовых вычислений
Развенчивает популярные представления о том, что такое квантовый компьютер.

🖥️ Руководство по квантовому машинному обучению для начинающих
Объясняет основные понятия из этой сферы. Автор постепенно добавляет в руководство больше контента.

🖥️ Курс CERN по квантовым вычислениям по-русски
Нужно зарегистрироваться, чтобы получить доступ ко всем видео-лекциям и конспектам.

🖥️ CERN Introductory Course
Англоязычная версия вводного курса по квантовым вычислениям.

🖥️ QuantumAlgorithms.org
Здесь лежат конспекты лекций по квантовым алгоритмам и квантовому машинному обучению.
👍7
👇 Коллеги, в связи с последними событиями, делимся своими идеями нейросетей👇
😁23👏2