✍️ Что такое Word2Vec
Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.
➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.
🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec
Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.
➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.
🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec
❤4👍3⚡2
Представлены две модели размером 2B и 7B. Обе они родственницы Gemini. Создатели использовали токенизатор на 260к токенов (!), что, как они утверждают, лишь небольшая часть полного токенизатора Gemini.
По производительности 7B модель находится где-то на уровне Mistral 7b.
🔤Страница Gemma на Kaggle
🧡 Туториал в Колабе
🤗 Карточка модели на Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🎉7❤3⚡1🤔1
Как сломать дата-сайентиста? Скопируйте в его ноутбук такой код:
import tensorflow as plt
import pandas as tf
import numpy as np
import matplotlib.pyplot as np
Please open Telegram to view this post
VIEW IN TELEGRAM
😁44🥱12🌚2⚡1👍1🤩1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Как строится финальная модель при использовании кросс-валидации?
Anonymous Quiz
6%
Модель обучается только на данных из фолда, показавшего лучшие результаты на валидации
18%
Финальная модель — это ансамбль всех моделей, построенных во время каждого этапа кросс-валидации
34%
Кросс-валидация не предполагает построение финальной модели; она только оценивает производительность
42%
Модель обучается на всём наборе данных после выбора гиперпараметров по результатам кросс-валидации
⚡8🥰4
💳 Классификация событий для обнаружения мошенничества с платёжными картами
На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах.Создатель Keras Франуса Шолле говорит, что в индустрии сейчас не всё упирается в LLM — машинное обучение на временных рядах актуально как никогда.
В туториале рассматриваются основные шаги:
▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.
🔗 Ссылка на туториал
На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах.
В туториале рассматриваются основные шаги:
▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.
🔗 Ссылка на туториал
👍8⚡1
📚 Подборка лучших новых книг для дата-сайентистов
Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.
📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.
Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.
📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.
🎉4🤔2
💊 Машинное обучение помогло идентифицировать лекарства, которые нельзя принимать вместе
Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.
🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.
🔗 Репозиторий исследователей на GitHub
Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.
🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.
🔗 Репозиторий исследователей на GitHub
👍8⚡7❤4😁1
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
🔥 100 упражнений по NumPy с решениями
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
⚡5🔥2
✨ Анонсировали Stable Diffusion 3
Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.
👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.
👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
👏7👍3
Какие существуют модификации KNN?
Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.
Как алгоритм можно модифицировать?
🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.
#вопросы_с_собеседований
Метод k-ближайших соседей, или k-nearest neighbors (KNN), — довольно простой и легко интерпретируемый алгоритм. Он работает, идентифицируя k объектов обучающего набора данных, которые находятся ближе всего к объекту, который нужно классифицировать или для которого нужно предсказать значение.
Как алгоритм можно модифицировать?
🔹Выбор метрики
Во-первых, можно использовать разные функции расстояния для вычисления дистанции между объектами. Это могут быть Манхэттенская метрика, метрика Минковского, косинусное расстояние, расстояние Жаккара.
🔹Взвешенный KNN
Решает главный недостаток оригинального алгоритма: он никак не учитывает расстояния до соседних объектов, хотя эта информация может быть полезной. В этой модификации чем ближе сосед, тем больше его вклад в принятие решения. Это позволяет уменьшить влияние «далёких» соседей.
🔹Адаптивный KNN
В этой версии алгоритма значение k может адаптироваться в зависимости от локальной плотности данных. Это означает, что для объектов в разреженных областях пространства будет использоваться большее значение k, а в плотных областях — меньшее.
#вопросы_с_собеседований
👍14⚡5😁2🤩2❤1
В новой статье автор обсуждает важность развития малых языков и предлагает методы для их поддержки с использованием машинного обучения и обработки естественного языка.
🔗 Ссылка на статью
🔗 Ссылка на любопытный проект «"Маленький принц" на малых языках России»
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7🔥1
✍️ GPT на 60 строках NumPy
Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.
В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.
🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству
Это подробное руководство по созданию упрощённой версии модели GPT с использованием NumPy. Оно нужно, скорее, для образовательных целей, чем для практического применения.
В гайде описано:
▪️ как устроена GPT,
▪️ как обрабатывать входные данные,
▪️ какие функции использовать и реализовать.
🔗 Ссылка на сам гайд
🔗 Ссылка на репозиторий со всем кодом к руководству
🔥9👍7❤3
🔥 Mistral выпустила свою флагманскую языковую модель
Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.
По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).
Она, собственно, так и называется Mistral Large. Исходного кода мы пока не видели, модель доступна через la Plateforme и Azure.
По производительности, если верить создателям, Mistral Large находится в рейтинге сразу за GPT-4. Вот краткие характеристики модели:
🔹Есть нативная поддержка английского, французского, испанского, немецкого и итальянского языков.
🔹Размер контекстного окна составляет 32K токенов.
🔹Разработчики могут разрабатывать собственные правила модерации для модели.
🔹Поддерживает вызовы функций и режим ограничений на формат вывода (JSON).
😁8❤1