Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Что такое Word2Vec

Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.

➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.

🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec

❤4👍3⚡2

3.3K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🕸

🔥

Google представила лучшую опенсорсную модель Gemma

Похоже, что OpenAI осталась единственной компанией на рынке, у которой нет опенсорсной LLM.

Представлены две модели размером 2B и 7B. Обе они родственницы Gemini. Создатели использовали токенизатор на 260к токенов (!), что, как они утверждают, лишь небольшая часть полного токенизатора Gemini.

✔️ Gemma уже поддерживают различные фреймворки, в том числе Ollama и Keras.

По производительности 7B модель находится где-то на уровне Mistral 7b.

🔤Страница Gemma на Kaggle
🧡 Туториал в Колабе
🤗 Карточка модели на Hugging Face

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🎉7❤3⚡1🤔1

3.51K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😈Рубрика: гадость дня

Как сломать дата-сайентиста? Скопируйте в его ноутбук такой код:

import tensorflow as plt
import pandas as tf
import numpy as np
import matplotlib.pyplot as np

Please open Telegram to view this post

VIEW IN TELEGRAM

😁44🥱12🌚2⚡1👍1🤩1

3.28K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Как строится финальная модель при использовании кросс-валидации?

Anonymous Quiz

Модель обучается только на данных из фолда, показавшего лучшие результаты на валидации

18%

Финальная модель — это ансамбль всех моделей, построенных во время каждого этапа кросс-валидации

34%

Кросс-валидация не предполагает построение финальной модели; она только оценивает производительность

42%

Модель обучается на всём наборе данных после выбора гиперпараметров по результатам кросс-валидации

⚡8🥰4

652 voters2.77K views18:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💳 Классификация событий для обнаружения мошенничества с платёжными картами

На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах. Создатель Keras Франуса Шолле говорит, что в индустрии сейчас не всё упирается в LLM — машинное обучение на временных рядах актуально как никогда.

В туториале рассматриваются основные шаги:

▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.

🔗 Ссылка на туториал

👍8⚡1

3.23K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📚 Подборка лучших новых книг для дата-сайентистов

Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.

📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.

🎉4🤔2

3.53K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💊 Машинное обучение помогло идентифицировать лекарства, которые нельзя принимать вместе

Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.

🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.

🔗 Репозиторий исследователей на GitHub

👍8⚡7❤4😁1

3.5K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий

⚡5🔥2

2.88K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨ Анонсировали Stable Diffusion 3

Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.

👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.

👏7👍3

4.23K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие существуют модификации KNN?

Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.

Как алгоритм можно модифицировать?

🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.

#вопросы_с_собеседований

👍14⚡5😁2🤩2❤1

3.49K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬

Малые языки и машинное обучение

В новой статье автор обсуждает важность развития малых языков и предлагает методы для их поддержки с использованием машинного обучения и обработки естественного языка.

▶️В частности, он рассказывает о том, как применять языковую модель LaBSE, которая переводит фразы в эмбеддинги, как загружать датасеты на Hugging Face, как сделать параллельную книгу.

🔗 Ссылка на статью
🔗 Ссылка на любопытный проект «"Маленький принц" на малых языках России»

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7🔥1

3.37K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ GPT на 60 строках NumPy

Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.

В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.

🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству

🔥9👍7❤3

4.49K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Mistral выпустила свою флагманскую языковую модель

Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.

По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).

😁8❤1

3.33K views07:13

About

Blog

Apps

Platform