Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.25K photos
111 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
👨‍💻📎 27 сайтов с задачками для оттачивания навыков программирования

Программистам без практики никуда. Поэтому время прокачать навыки: решение задач — хороший способ развить навыки разработки.

Вам под силу эти задачи?➡️

🔗 Ссылка на сайты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏31
👀Что из этого сгенерировала нейросеть?

Подписывайтесь на наш новый канал про нейросети для создания изображений, там есть:

🌸Новые нейросети и инструменты, например, вот модель генерирует картинки по наброску
🌸Промты для разных задач
🌸Лайфхаки по использованию нейросетей

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👾32🔥2👍1
🩵 Гайд по соревнованиям на Kaggle

Kaggle — отличная площадка для того, что отточить навыки или применить теорию на практике. Тут есть несколько видов соревнований:

🔹Getting Started
Как следует из названия, начинать джуниору следует с таких соревнований. За них не полагается никаких наград, но зато они предлагают понятные датасеты.
▫️Titanic: Machine Learning from Disaster
▫️Housing Prices: Advanced Regression Techniques
▫️Digit Recognizer

🔹Playground
Такие соревнования лишь на одну ступень сложнее, чем те, что находятся под тэгом Getting Started.
▫️Dogs versus Cats
▫️Leaf Classification
▫️New York City Taxi Trip Duration

🔹Research
Соревнования такого типа решают более экспериментальные задачи. Например, в одном из них нужно классифицировать находящихся под угрозой вымирания китов по снимкам.
▫️Right Whale Recognition
▫️Google Landmark Retrieval Challenge
▫️Large Scale Hierarchical Text Classification

🔹Featured
Этот тип соревнований — тот самый, за которым опытные ML-щики приходят на платформу. Это серьёзные задачи, решения которых оплачиваются. Вот некоторые из текущих соревнований:
▫️LMSYS — Chatbot Arena Human Preference Predictions
▫️Leash Bio — Predict New Medicines with BELKA
▫️BirdCLEF 2024
5🤩3
🍓Подборка лучших статей «Библиотеки программиста» за май: сохраняй в заметки, чтобы не пропустить #самыйсок

✉️ Как завалить собеседование, даже не начав его: 8 ошибок в сопроводительных письмах
🐍🆕 Змея сбросила старую кожу: что нового в Python 3.13
⭐️🎤 Как не облажаться с докладом на IT-конференции
📊 Где изучать Data Science в 2024 году?
💻🚀🏰 Как мы создали ИИ-стартап на хакатоне выходного дня в Германии
🖥️🔤 Транскрибация видео и создание субтитров с помощью Whisper, FFmpeg и Python
📈 Стать аналитиком Big Data: пошаговое руководство 2024
💻🚀💊 «Доктор Хаус»: ИИ-диагност в вашем телефоне. Передаём стартап в хорошие руки
👨‍🎓️ 33 лучших вуза России для будущих программистов 2024-2025
💸📊 На сколько просели зарплаты в ИТ в 2024 году?
📖 ТОП-10 книг о том, как правильно построить карьеру в IT
🤯 Как простая задачка поставила в тупик программистов (и как они из него выбрались)
🏆👁️ Топовая задачка на Stack Overflow: как найти k пропущенных чисел в потоке данных
3
This media is not supported in your browser
VIEW IN TELEGRAM
👍 Внезапно: OpenAI выпустила статью с открытым исходным кодом

Эта статья рассматривает проблему интерпретируемости больших языковых моделей. Исследователи разработали способы анализа внутренних представлений LLM, чтобы понять, как они обрабатывают информацию. Так, авторы смогли выделить 16 миллионов интерпретируемых паттернов.

В частности, исследователи используют разреженный автоэнкодер, как и их коллеги из Anthropic.

🔗 Вот ссылка на саму статью
🔗 Это ссылка на репозиторий с кодом использрвания автоэнкодеров для GPT-2 small
🔗 А это ссылка на визуализатор фичей
👍5🔥3👏2
Когда кончатся данные для обучения LLM?

Исследователи из Epoch AI оценили объём общедоступных текстовых данных, созданных человеком. Они пришли к выводу, что общий эффективный запас составляет около 300 триллионов токенов. Эта оценка включает в себя только данные достаточно высокого качества, которые можно было бы использовать для обучения.

🤔Авторы также рассчитали, когда эти данные будут полностью использованы. По их оценкам, запас будет полностью израсходован в какой-то момент между 2026 и 2032 годами.

🔗 Ссылка на статью на arxiv.org
👾3👍1
🎮Новый канал по разработке игр

Мы наконец-то запустили канал по разработке игр — теперь все самое важное и полезное из мира геймдева можно узнать в одном месте.

👉Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2👾2
✍️Что такое проблема «умирающего» ReLU?

Это понятие касается ситуации, когда в ходе обучения некоторые нейроны, использующие функцию активации ReLU, оказываются деактивированными. Это означает, что такие нейроны на выходе всегда выдают ноль.

Это происходит, когда веса, связанные с нейроном, обновляются таким образом, что для всех входных данных во время обучения всегда получаются отрицательные значения. Поскольку функция ReLU переводит отрицательные значения в ноль, нейрон фактически становится неактивным, и его градиент становится равным нулю. В результате веса, связанные с этим нейроном, больше не обновляются.

Среди причин такого поведения могут быть плохая инициализация весов, отсутствие нормализации данных и др.

#вопросы_с_собеседований
👍141
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🛠️ Справочник по применению GPU в машинном обучении

На «Хабре» опубликовали перевод статьи Тима Детмерса «Выбор графического процессора для глубокого обучения: мой опыт и советы».

Статья рассказывает о:
▪️том, чем различаются CPU и GPU,
▪️тензорных ядрах,
▪️пропускной способности памяти и иерархии памяти GPU, а также о том, как они связаны с производительностью глубокого обучения.
▪️о некоторых распространённых заблуждениях.

🔗 Ссылка на статью-перевод
🔗 Ссылка на оригинальную статью
👍2🥰1
🔥 Ура! Новое видео от Андрея Карпаты: как написать GPT-2 с нуля на Python

Ролик длится 4 часа (!). За это время один из главных специалистов по LLM расскажет:

00:31:00 — о написании прямого прохода по будущей сети;
00:52:53 — о кросс-энтропии;
00:56:42 — об оптимизационном цикле;
01:28:14 — о тензорных ядрах.
02:14:55 — о гиперпараметрах и др.

🔗 Ссылка на видео
👍8🔥4
💠 Пишем свою нейросеть: пошаговое руководство

Отличный гайд про нейросеть от теории к практике. Вы узнаете, из каких элементов состоит ИНС(искусственная нейронная сеть), как она работает и как ее создать самому.

🔗 Статья

Чтобы лучше разбираться в теме, прикрепляем наши курсы:
🔵 Математика для Data science
🔵 Алгоритмы и структуры данных
🔵 Основы программирования на Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32👾2
Proglib запускает канал Азбука айтишника

Подписывайтесь на наш новый канал про айти для неайтишников — для совсем новичков и тех, кто постоянно взаимодействует с айтишниками.

У нас есть рубрики:
База — в ней рассказываем про термины из IT простым языком
Проект — объясняем, из чего состоят айтишные проекты и сколько они могут стоить
Психология айтишника — тут говорим про софт-скиллы, особенности работы и взаимодействия

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️ Комиксы XKCD (про ИИ, данные и всё подряд)

Это комиксы авторства Рэндела Манро. Он публикует их с 2005 года! Шутки касаются науки, программирования, математики, статистики и прочего. Если вы ещё не знакомы с ними, то советуем!

👉 Сайт с переводами некоторых комиксов на русский
👉 Сайт с оригинальными комиксами
8😁5🥰41
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍31