Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
💳 Классификация событий для обнаружения мошенничества с платёжными картами

На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах. Создатель Keras Франуса Шолле говорит, что в индустрии сейчас не всё упирается в LLM — машинное обучение на временных рядах актуально как никогда.


В туториале рассматриваются основные шаги:

▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.

🔗 Ссылка на туториал
👍81
📚 Подборка лучших новых книг для дата-сайентистов

Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.

📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.
🎉4🤔2
💊 Машинное обучение помогло идентифицировать лекарства, которые нельзя принимать вместе

Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.

🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.

🔗 Репозиторий исследователей на GitHub
👍874😁1
🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий
5🔥2
Анонсировали Stable Diffusion 3

Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.

👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
👏7👍3
Какие существуют модификации KNN?

Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.

Как алгоритм можно модифицировать?

🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.

#вопросы_с_собеседований
👍145😁2🤩21
💬 Малые языки и машинное обучение

В новой статье автор обсуждает важность развития малых языков и предлагает методы для их поддержки с использованием машинного обучения и обработки естественного языка.

▶️В частности, он рассказывает о том, как применять языковую модель LaBSE, которая переводит фразы в эмбеддинги, как загружать датасеты на Hugging Face, как сделать параллельную книгу.

🔗 Ссылка на статью
🔗 Ссылка на любопытный проект «"Маленький принц" на малых языках России»
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥1
✍️ GPT на 60 строках NumPy

Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.

В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.

🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству
🔥9👍73
🔥 Mistral выпустила свою флагманскую языковую модель

Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.

По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).
😁81
👹🍎 Логическая задача про демонов и яблоки

Условия такие:
▫️В деревне растёт одно яблоко и живёт 65 демонов.
▫️Если демон съест яблоко, он сразу уснёт.
▫️Если демон съест другого спящего демона, он тоже сразу уснёт.
▫️Демоны очень голодны и едят что угодно при первой удобной возможности.
▫️Демоны очень умны и всегда рассчитывают свои действия на много ходов вперёд.
▫️Наивысший приоритет для демона — собственная безопасность, поэтому, если ему будет грозить опасность, он никого не съест.
▫️Демон съест что угодно, только если после этого его жизни ничего не будет угрожать.

Вопрос: Что вот-вот произойдёт в этой деревне? Пишите ваши варианты в комментариях 👈

Задача взята из журнала Яндекс Практикума

#интерактив
👍54
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍42
🔥 Поддержка Mermaid-диаграмм и генерация кода: вышли новые версии Jupyter Notebook и JupyterLab

Project Jupyter объявил о релизе JupyterLab 4.1 и Jupyter Notebook 7.1. Вот некоторые из нововведений:
🔸 JupyterLab поддерживает автоматическую загрузку пользовательских стилей CSS. Это позволяет настроить среду так, как вам хочется.
🔸 JupyterLab и Notebook могут рендерить диаграммы Mermaid.
🔸 Теперь, когда вы начинаете вводить что-то в ячейке, и в JupyterLab, и в Notebook появляются автоматические подсказки — целые сгенерированные блоки кода.
🔸 В новой версии JupyterLab пути к файлам, которые выводятся в ошибках, преобразуются в ссылки.
🔥94👍32