🔢 Классные материалы по математике для машинного обучения
Это сайт авторов книги Mathematics for Machine Learning. Во-первых, сама книга доступна бесплатно. А во-вторых, в качестве приложения к ней даны упражнения и туториалы.
🔹 Математика за линейной регрессией
🔹 Метод главных компонент (PCA)
🔹 Модели гауссовой смеси
🔗 Репозиторий проекта на GitHub
Это сайт авторов книги Mathematics for Machine Learning. Во-первых, сама книга доступна бесплатно. А во-вторых, в качестве приложения к ней даны упражнения и туториалы.
🔹 Математика за линейной регрессией
🔹 Метод главных компонент (PCA)
🔹 Модели гауссовой смеси
🔗 Репозиторий проекта на GitHub
👍8⚡2❤1
📈 5 трендов в подборе ИТ-специалистов на 2024 год
Использование ИИ-алгоритмов становится трендом и в Human Resources. Такими инструментами пользуются и кандидаты, и работодатели.
🤖 Например, появляются Applicant tracking system (ATS) с ИИ, которые автоматизируют поиск и отбор кандидатов. А ещё есть Final Round AI — своеобразный помощник с искусственным интеллектом, который генерирует индивидуальные ответы на онлайн-интервью в режиме реального времени.
👉 О других трендах читайте в нашей новой статье 👈
🔗 Зеркало
Использование ИИ-алгоритмов становится трендом и в Human Resources. Такими инструментами пользуются и кандидаты, и работодатели.
🤖 Например, появляются Applicant tracking system (ATS) с ИИ, которые автоматизируют поиск и отбор кандидатов. А ещё есть Final Round AI — своеобразный помощник с искусственным интеллектом, который генерирует индивидуальные ответы на онлайн-интервью в режиме реального времени.
👉 О других трендах читайте в нашей новой статье 👈
🔗 Зеркало
⚡4
Это значит, что модель дообучили на данных вплоть до этой даты. Теперь, согласно документации, ситуация такова:
▫️gpt-4-0125-preview и gpt-4-turbo-preview — декабрь 2023
▫️gpt-4-1106-preview, gpt-4-vision-preview и gpt-4-1106-vision-preview — апрель 2023
▫️gpt-4, gpt-4-0613, gpt-4-32k и gpt-4-32k-0613 — сентябрь 2021
GPT-3.5 Turbo была обучена на данных до сентября 2021 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥5⚡2
👩💻 Подборка видео про собеседования на позицию дата-аналитика
Перед техническим интервью может быть полезно посмотреть ролики с mock-собеседованиями или разборами популярных вопросов. Мы подобрали некоторые видео, связанные с анализом данных.
🔹Junior аналитик данных | Собеседование | karpov.courses
🔹A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
🔹Собеседование на аналитика данных. Разбор ОТВЕТОВ на вопросы (Python, SQL, ТЕРВЕР, статистика)
🔹SQL interview questions and answers | Entry level data analyst interview
🔹Собеседование на продуктового аналитика (mock-интервью)
Перед техническим интервью может быть полезно посмотреть ролики с mock-собеседованиями или разборами популярных вопросов. Мы подобрали некоторые видео, связанные с анализом данных.
🔹Junior аналитик данных | Собеседование | karpov.courses
🔹A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
🔹Собеседование на аналитика данных. Разбор ОТВЕТОВ на вопросы (Python, SQL, ТЕРВЕР, статистика)
🔹SQL interview questions and answers | Entry level data analyst interview
🔹Собеседование на продуктового аналитика (mock-интервью)
❤7⚡2👍1
💬 Вопрос к дата-сайентистам и дата-аналитикам, которые пришли в профессию из гуманитарных направлений:
Есть ли у вас синдром самозванца?
❤️ — нет, я не чувствую неуверенности в своих навыках
👍 — иногда накатывает
👾 — мне постоянно кажется, что я полез куда-то, куда не должен был
#интерактив
Есть ли у вас синдром самозванца?
❤️ — нет, я не чувствую неуверенности в своих навыках
👍 — иногда накатывает
👾 — мне постоянно кажется, что я полез куда-то, куда не должен был
#интерактив
👍47👾43❤10😁2💯1
🔥 Делаем токенизатор с нуля вместе с Андреем Карпаты
Похоже, он ушёл из OpenAI, чтобы делать новые двухчасовые(да) лекции. На этот раз Карпаты подробно расскажет о том, как написать собственный токенизатор для GPT. Процесс создания этого инструмента — совершенно отдельный шаг в построении архитектуры языковой модели.
Некоторые таймкоды:
00:14:56 Строки в Python, кодовые точки Unicode
00:23:50 Алгоритм Byte Pair Encoding (BPE)
00:34:58 Обучение токенизатора: добавление цикла while, коэффициент сжатия
01:11:38 Библиотека Tiktoken, разница между GPT-2/GPT-4 regex
01:43:27 Как определиться со словарём? Повторное рассмотрение трансформера в gpt.py
🔗 Ссылка на видео
🔗 Репозиторий к лекции
Похоже, он ушёл из OpenAI, чтобы делать новые двухчасовые
Некоторые таймкоды:
00:14:56 Строки в Python, кодовые точки Unicode
00:23:50 Алгоритм Byte Pair Encoding (BPE)
00:34:58 Обучение токенизатора: добавление цикла while, коэффициент сжатия
01:11:38 Библиотека Tiktoken, разница между GPT-2/GPT-4 regex
01:43:27 Как определиться со словарём? Повторное рассмотрение трансформера в gpt.py
🔗 Ссылка на видео
🔗 Репозиторий к лекции
👍9🔥3
✍️ Что такое Word2Vec
Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.
➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.
🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec
Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.
➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.
🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec
❤4👍3⚡2
Представлены две модели размером 2B и 7B. Обе они родственницы Gemini. Создатели использовали токенизатор на 260к токенов (!), что, как они утверждают, лишь небольшая часть полного токенизатора Gemini.
По производительности 7B модель находится где-то на уровне Mistral 7b.
🔤Страница Gemma на Kaggle
🧡 Туториал в Колабе
🤗 Карточка модели на Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🎉7❤3⚡1🤔1
Как сломать дата-сайентиста? Скопируйте в его ноутбук такой код:
import tensorflow as plt
import pandas as tf
import numpy as np
import matplotlib.pyplot as np
Please open Telegram to view this post
VIEW IN TELEGRAM
😁44🥱12🌚2⚡1👍1🤩1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Как строится финальная модель при использовании кросс-валидации?
Anonymous Quiz
6%
Модель обучается только на данных из фолда, показавшего лучшие результаты на валидации
18%
Финальная модель — это ансамбль всех моделей, построенных во время каждого этапа кросс-валидации
34%
Кросс-валидация не предполагает построение финальной модели; она только оценивает производительность
42%
Модель обучается на всём наборе данных после выбора гиперпараметров по результатам кросс-валидации
⚡8🥰4
💳 Классификация событий для обнаружения мошенничества с платёжными картами
На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах.Создатель Keras Франуса Шолле говорит, что в индустрии сейчас не всё упирается в LLM — машинное обучение на временных рядах актуально как никогда.
В туториале рассматриваются основные шаги:
▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.
🔗 Ссылка на туториал
На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах.
В туториале рассматриваются основные шаги:
▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.
🔗 Ссылка на туториал
👍8⚡1
📚 Подборка лучших новых книг для дата-сайентистов
Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.
📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.
Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.
📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.
🎉4🤔2
💊 Машинное обучение помогло идентифицировать лекарства, которые нельзя принимать вместе
Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.
🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.
🔗 Репозиторий исследователей на GitHub
Авторы нового исследования хотели узнать больше о транспортёрах лекарственных средств. Они модифицировали модель ткани свиньи, чтобы измерять способность каждого изучаемого лекарства к абсорбции. Чтобы изучить роль отдельных транспортёров в ткани, исследователи в каждом срезе нейтрализовали разные их комбинации.
🦾 Учёные протестировали 23 известных лекарства с помощью этой системы, что позволило им идентифицировать транспортёры, используемые каждым из этих препаратов. Затем они обучили модель на этих данных, а также на информации из нескольких баз данных о лекарствах. Модель научилась делать предсказания о том, какие лекарства будут взаимодействовать с какими транспортёрами. Так, например, система дала прогноз о том, что антибиотик доксициклин может взаимодействовать с варфарином, часто назначаемым средством для разжижения крови.
🔗 Репозиторий исследователей на GitHub
👍8⚡7❤4😁1
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
🔥 100 упражнений по NumPy с решениями
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
⚡5🔥2
✨ Анонсировали Stable Diffusion 3
Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.
👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
Пока модель не доступна широкой публике. Stability AI открыла список ожидания. Зарегистрироваться можно по этой ссылке.
👉 Stable Diffusion 3 соединяет в себе архитектуру диффузионного трансформера и flow matching. Создатели обещают улучшенную производительность при генерации изображений из сложных промптов, а также более точное написание текста на картинках.
👏7👍3