Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
112 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👍 Внезапно: OpenAI выпустила статью с открытым исходным кодом

Эта статья рассматривает проблему интерпретируемости больших языковых моделей. Исследователи разработали способы анализа внутренних представлений LLM, чтобы понять, как они обрабатывают информацию. Так, авторы смогли выделить 16 миллионов интерпретируемых паттернов.

В частности, исследователи используют разреженный автоэнкодер, как и их коллеги из Anthropic.

🔗 Вот ссылка на саму статью
🔗 Это ссылка на репозиторий с кодом использрвания автоэнкодеров для GPT-2 small
🔗 А это ссылка на визуализатор фичей
👍5🔥3👏2
Когда кончатся данные для обучения LLM?

Исследователи из Epoch AI оценили объём общедоступных текстовых данных, созданных человеком. Они пришли к выводу, что общий эффективный запас составляет около 300 триллионов токенов. Эта оценка включает в себя только данные достаточно высокого качества, которые можно было бы использовать для обучения.

🤔Авторы также рассчитали, когда эти данные будут полностью использованы. По их оценкам, запас будет полностью израсходован в какой-то момент между 2026 и 2032 годами.

🔗 Ссылка на статью на arxiv.org
👾3👍1
🎮Новый канал по разработке игр

Мы наконец-то запустили канал по разработке игр — теперь все самое важное и полезное из мира геймдева можно узнать в одном месте.

👉Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2👾2
✍️Что такое проблема «умирающего» ReLU?

Это понятие касается ситуации, когда в ходе обучения некоторые нейроны, использующие функцию активации ReLU, оказываются деактивированными. Это означает, что такие нейроны на выходе всегда выдают ноль.

Это происходит, когда веса, связанные с нейроном, обновляются таким образом, что для всех входных данных во время обучения всегда получаются отрицательные значения. Поскольку функция ReLU переводит отрицательные значения в ноль, нейрон фактически становится неактивным, и его градиент становится равным нулю. В результате веса, связанные с этим нейроном, больше не обновляются.

Среди причин такого поведения могут быть плохая инициализация весов, отсутствие нормализации данных и др.

#вопросы_с_собеседований
👍141
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🛠️ Справочник по применению GPU в машинном обучении

На «Хабре» опубликовали перевод статьи Тима Детмерса «Выбор графического процессора для глубокого обучения: мой опыт и советы».

Статья рассказывает о:
▪️том, чем различаются CPU и GPU,
▪️тензорных ядрах,
▪️пропускной способности памяти и иерархии памяти GPU, а также о том, как они связаны с производительностью глубокого обучения.
▪️о некоторых распространённых заблуждениях.

🔗 Ссылка на статью-перевод
🔗 Ссылка на оригинальную статью
👍2🥰1
🔥 Ура! Новое видео от Андрея Карпаты: как написать GPT-2 с нуля на Python

Ролик длится 4 часа (!). За это время один из главных специалистов по LLM расскажет:

00:31:00 — о написании прямого прохода по будущей сети;
00:52:53 — о кросс-энтропии;
00:56:42 — об оптимизационном цикле;
01:28:14 — о тензорных ядрах.
02:14:55 — о гиперпараметрах и др.

🔗 Ссылка на видео
👍8🔥4
💠 Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете, из каких элементов состоит ИНС(искусственная нейронная сеть), как она работает и как ее создать самому.

🔗 Статья

Чтобы лучше разбираться в теме, прикрепляем наши курсы:
🔵 Математика для Data science
🔵 Алгоритмы и структуры данных
🔵 Основы программирования на Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32👾2
Proglib запускает канал Азбука айтишника

Подписывайтесь на наш новый канал про айти для неайтишников — для совсем новичков и тех, кто постоянно взаимодействует с айтишниками.

У нас есть рубрики:
База — в ней рассказываем про термины из IT простым языком
Проект — объясняем, из чего состоят айтишные проекты и сколько они могут стоить
Психология айтишника — тут говорим про софт-скиллы, особенности работы и взаимодействия

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️ Комиксы XKCD (про ИИ, данные и всё подряд)

Это комиксы авторства Рэндела Манро. Он публикует их с 2005 года! Шутки касаются науки, программирования, математики, статистики и прочего. Если вы ещё не знакомы с ними, то советуем!

👉 Сайт с переводами некоторых комиксов на русский
👉 Сайт с оригинальными комиксами
8😁5🥰41
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍31
✍️Библиотека программиста» находится в поиске автора оригинальных статей

Кто нужен?
● Энтузиасты (джуны и выше), которые держат руку на пульсе, читают помимо книг зарубежные техноблоги
● Энтузиасты, которым есть что сказать

Тематика
● DevOps
● В четырех случаях из пяти вы предлагаете тему статьи

Объем
● От 7 до 15 тыс. знаков без учета кода
● 2-3 статьи в месяц

Оплата
● 8к руб. за статью
● Работаем с самозанятыми (компенсируем налог), ИП

Я пишу «так себе», что делать?
Чтобы написать статью, которую не стыдно опубликовать, достаточно овладеть инфостилем. У нас есть бесплатный курс для начинающих копирайтеров «Статьи для IT: как объяснять и распространять значимые идеи». Время прохождения курса: 1-2 недели.

✉️Пишите на [email protected]
🤖Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘Гендиректор Zoom Эрик Юань считает, что в ближайшее время отпадет необходимость в личном участии в видеосозвонах — вместо людей этим будут заниматься ИИ-аватары.

🔘Fable Studio запускает платформу для генерации анимационных сериалов — Showrunner. Все шоу генерируются симулятором Sim Francisco по текстовым промптам, в различных стилях.

🔘Stability AI выпустила опенсорсную модель Stable Audio Open для генерации сэмплов и звуковых эффектов.

🛠 Инструменты

🔘Rosebud AI Gamemaker — приложение для создания игр.

🔘Harpa AI — браузерное расширение для всестороннего использования возможностей ИИ-агентов: от автоматической суммаризации видео и генерации иллюстраций до написания ответов на письма и чата с сайтами.

🔘DiffusionHub — облачный сервис для генерации изображений и видео с помощью Stable Diffusion.

🔍Исследование

Исследователи из Стэнфордского университета разработали нейронную сеть TDANN, которая имитирует организацию и отклики визуальной системы человеческого мозга. TDANN воспроизводит сложные пространственные структуры и карты, которые наблюдаются в разных областях зрительной коры.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩1
👾 Как устроена YOLO

YOLO — это одна из самых известных архитектур в области компьютерного зрения. К сегодняшнему дню вышло уже 10 её версий. Давайте посмотрим, с чего всё начиналось.

🔸YOLO расшифровывается как You Only Look Once. Её авторы хотели создать модель, которая смогла бы быстро и достаточно хорошо решать задачу детекции. Чтобы достичь цели, нужно было отказаться от каких-либо предварительных стадий. Модель должна была сразу предсказывать ограничивающие боксы и классы.

Авторы предложили следующую архитектуру👆. Модель состоит из 24-х свёрточных и двух полносвязных слоёв. Первые 20 слоёв предобучены на ImageNet 1000-class. Последние выполняют задачу детекции. Для каждой условной части изображения YOLO будет предсказывать целый вектор фичей, внутри которого будет описание ограничивающих боксов и набор вероятностей классов.

Конечно, с момента выпуска первой версии архитектура претерпела изменения — постоянно улучшались точность и скорость. О последней YOLOv10 можно почитать в этой статье.
👍6
🐍🎓 5 задач для подготовки к собеседованию по Python

В новой статье используем алгоритмы Манакера и заметающей прямой, определяем границы окна с k-элементами, вычисляем площадь участков разного цвета и находим наибольшую увеличивающуюся подпоследовательность.

🔗 Читать статью
🔗 Зеркало