Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💳 Классификация событий для обнаружения мошенничества с платёжными картами

На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах. Создатель Keras Франуса Шолле говорит, что в индустрии сейчас не всё упирается в LLM — машинное обучение на временных рядах актуально как никогда.

В туториале рассматриваются основные шаги:

▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.

🔗 Ссылка на туториал

👍8⚡1

3.23K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📚 Подборка лучших новых книг для дата-сайентистов

Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.

📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.

🎉4🤔2

3.53K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💊 Машинное обучение помогло идентифицировать лекарства, которые нельзя принимать вместе

Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.

🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.

🔗 Репозиторий исследователей на GitHub

👍8⚡7❤4😁1

3.5K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий

⚡5🔥2

2.88K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨ Анонсировали Stable Diffusion 3

Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.

👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.

👏7👍3

4.23K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие существуют модификации KNN?

Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.

Как алгоритм можно модифицировать?

🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.

#вопросы_с_собеседований

👍14⚡5😁2🤩2❤1

3.49K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬

Малые языки и машинное обучение

В новой статье автор обсуждает важность развития малых языков и предлагает методы для их поддержки с использованием машинного обучения и обработки естественного языка.

▶️В частности, он рассказывает о том, как применять языковую модель LaBSE, которая переводит фразы в эмбеддинги, как загружать датасеты на Hugging Face, как сделать параллельную книгу.

🔗 Ссылка на статью
🔗 Ссылка на любопытный проект «"Маленький принц" на малых языках России»

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7🔥1

3.37K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ GPT на 60 строках NumPy

Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.

В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.

🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству

🔥9👍7❤3

4.49K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Mistral выпустила свою флагманскую языковую модель

Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.

По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).

😁8❤1

3.33K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧡💛 Подборка Colab-ноутбуков на все случаи жизни

Сохраняй в заметки, чтобы не потерять.

🔸 Файн-тюнинг Gemma 7b
🔸 Как считать токены для языковых моделей с помощью tiktoken
🔸 Прогноз оттока сотрудников
🔸 Как пользоваться YOLO-NAS Pose для определения поз людей
🔸 Все материалы Андрея Карпаты по нейронным сетям
🔸 Различные туториалы по машинному обучению на русском языке
🔸 Туториал по JAX

👍13

3.88K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👹🍎 Логическая задача про демонов и яблоки

Условия такие:
▫️В деревне растёт одно яблоко и живёт 65 демонов.
▫️Если демон съест яблоко, он сразу уснёт.
▫️Если демон съест другого спящего демона, он тоже сразу уснёт.
▫️Демоны очень голодны и едят что угодно при первой удобной возможности.
▫️Демоны очень умны и всегда рассчитывают свои действия на много ходов вперёд.
▫️Наивысший приоритет для демона — собственная безопасность, поэтому, если ему будет грозить опасность, он никого не съест.
▫️Демон съест что угодно, только если после этого его жизни ничего не будет угрожать.

Вопрос: Что вот-вот произойдёт в этой деревне? Пишите ваши варианты в комментариях 👈

Задача взята из журнала Яндекс Практикума

#интерактив

👍5❤4

3.12K viewsedited 18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

👍4⚡2

2.98K views20:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Поддержка Mermaid-диаграмм и генерация кода: вышли новые версии Jupyter Notebook и JupyterLab

Project Jupyter объявил о релизе JupyterLab 4.1 и Jupyter Notebook 7.1. Вот некоторые из нововведений:
🔸 JupyterLab поддерживает автоматическую загрузку пользовательских стилей CSS. Это позволяет настроить среду так, как вам хочется.
🔸 JupyterLab и Notebook могут рендерить диаграммы Mermaid.
🔸 Теперь, когда вы начинаете вводить что-то в ячейке, и в JupyterLab, и в Notebook появляются автоматические подсказки — целые сгенерированные блоки кода.
🔸 В новой версии JupyterLab пути к файлам, которые выводятся в ошибках, преобразуются в ссылки.

🔥9❤4👍3⚡2

3.06K views07:16

About

Blog

Apps

Platform