Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👆 Шпаргалка по типам соединения таблиц в SQL👆 Пригодится перед собеседованием
👍20🥰71
✍️ Опишите алгоритм обратного распространения ошибки

В модели машинного обучения, по сути, происходит вычисление значения некоторой функции. Можно сказать, что движение идёт прямо по графу вычислений. Однако по нему же можно вычислить не только значение в точке, но и значения частных производных. Для этого нужно двигаться в обратном направлении по графу. Это и называется обратным распространением ошибки (backpropagation).

Алгоритм таков:

▪️Начинаем с вычисления ошибки на выходе модели. Это обычно разница между предсказанным значением и истинным значением.
▪️Затем вычисляется градиент, то есть вектор частных производных функции ошибки по выходному слою.
▪️Движение идёт обратно через слои модели. На каждом слое используется цепное правило для вычисления градиента ошибки по весам слоя.
▪️После того, как градиенты вычислены, веса модели корректируются в направлении, противоположном градиенту, чтобы уменьшить ошибку.
▪️Процесс повторяется до тех пор, пока модель не достигнет желаемой производительности или не сойдётся.

#вопросы_с_собеседований
👍10
📘 ТОП-9 книг по программированию для начинающих дата сайентистов в 2024 году

Хотите начать свой путь в Data science? поехали!
Мы подготовили подборку из девяти лучших книг, которые помогут освоить это направление. Начните свой путь в IT вместе с нами! 🔥

📌 Книги

Наш курс для Data science
➡️ Математика для Data science

Наши статьи
🔵 Где изучать Data Science в 2024 году?
🔵 Обучение Data science какие знания нужны по математике специалисту по анализу данных
🔵 Как выбрать специализацию и начать обучение Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32😁1🥱1
🧑‍💻 3-Minute Data Science

Это YouTube-канал Томаса Нильда (Thomas Nield), автора книги Essential Math for Data Science. В коротких роликах, которые были вдохновлены 3Blue1Brown, он разбирает разные концепции статистики и машинного обучения. Например:

▪️P-значение, нулевая и альтернативная гипотезы
▪️Простая нейронная сеть
▪️Логистическая регрессия
▪️Нормальное распределение
🎉8👍3🔥3
👨‍💻📎 27 сайтов с задачками для оттачивания навыков программирования

Программистам без практики никуда. Поэтому время прокачать навыки: решение задач — хороший способ развить навыки разработки.

Вам под силу эти задачи?➡️

🔗 Ссылка на сайты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏31
👀Что из этого сгенерировала нейросеть?

Подписывайтесь на наш новый канал про нейросети для создания изображений, там есть:

🌸Новые нейросети и инструменты, например, вот модель генерирует картинки по наброску
🌸Промты для разных задач
🌸Лайфхаки по использованию нейросетей

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👾32🔥2👍1
🩵 Гайд по соревнованиям на Kaggle

Kaggle — отличная площадка для того, что отточить навыки или применить теорию на практике. Тут есть несколько видов соревнований:

🔹Getting Started
Как следует из названия, начинать джуниору следует с таких соревнований. За них не полагается никаких наград, но зато они предлагают понятные датасеты.
▫️Titanic: Machine Learning from Disaster
▫️Housing Prices: Advanced Regression Techniques
▫️Digit Recognizer

🔹Playground
Такие соревнования лишь на одну ступень сложнее, чем те, что находятся под тэгом Getting Started.
▫️Dogs versus Cats
▫️Leaf Classification
▫️New York City Taxi Trip Duration

🔹Research
Соревнования такого типа решают более экспериментальные задачи. Например, в одном из них нужно классифицировать находящихся под угрозой вымирания китов по снимкам.
▫️Right Whale Recognition
▫️Google Landmark Retrieval Challenge
▫️Large Scale Hierarchical Text Classification

🔹Featured
Этот тип соревнований — тот самый, за которым опытные ML-щики приходят на платформу. Это серьёзные задачи, решения которых оплачиваются. Вот некоторые из текущих соревнований:
▫️LMSYS — Chatbot Arena Human Preference Predictions
▫️Leash Bio — Predict New Medicines with BELKA
▫️BirdCLEF 2024
5🤩3
🍓Подборка лучших статей «Библиотеки программиста» за май: сохраняй в заметки, чтобы не пропустить #самыйсок

✉️ Как завалить собеседование, даже не начав его: 8 ошибок в сопроводительных письмах
🐍🆕 Змея сбросила старую кожу: что нового в Python 3.13
⭐️🎤 Как не облажаться с докладом на IT-конференции
📊 Где изучать Data Science в 2024 году?
💻🚀🏰 Как мы создали ИИ-стартап на хакатоне выходного дня в Германии
🖥️🔤 Транскрибация видео и создание субтитров с помощью Whisper, FFmpeg и Python
📈 Стать аналитиком Big Data: пошаговое руководство 2024
💻🚀💊 «Доктор Хаус»: ИИ-диагност в вашем телефоне. Передаём стартап в хорошие руки
👨‍🎓️ 33 лучших вуза России для будущих программистов 2024-2025
💸📊 На сколько просели зарплаты в ИТ в 2024 году?
📖 ТОП-10 книг о том, как правильно построить карьеру в IT
🤯 Как простая задачка поставила в тупик программистов (и как они из него выбрались)
🏆👁️ Топовая задачка на Stack Overflow: как найти k пропущенных чисел в потоке данных
3
This media is not supported in your browser
VIEW IN TELEGRAM
👍 Внезапно: OpenAI выпустила статью с открытым исходным кодом

Эта статья рассматривает проблему интерпретируемости больших языковых моделей. Исследователи разработали способы анализа внутренних представлений LLM, чтобы понять, как они обрабатывают информацию. Так, авторы смогли выделить 16 миллионов интерпретируемых паттернов.

В частности, исследователи используют разреженный автоэнкодер, как и их коллеги из Anthropic.

🔗 Вот ссылка на саму статью
🔗 Это ссылка на репозиторий с кодом использрвания автоэнкодеров для GPT-2 small
🔗 А это ссылка на визуализатор фичей
👍5🔥3👏2
Когда кончатся данные для обучения LLM?

Исследователи из Epoch AI оценили объём общедоступных текстовых данных, созданных человеком. Они пришли к выводу, что общий эффективный запас составляет около 300 триллионов токенов. Эта оценка включает в себя только данные достаточно высокого качества, которые можно было бы использовать для обучения.

🤔Авторы также рассчитали, когда эти данные будут полностью использованы. По их оценкам, запас будет полностью израсходован в какой-то момент между 2026 и 2032 годами.

🔗 Ссылка на статью на arxiv.org
👾3👍1
🎮Новый канал по разработке игр

Мы наконец-то запустили канал по разработке игр — теперь все самое важное и полезное из мира геймдева можно узнать в одном месте.

👉Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2👾2