Годная информация от Романа Ворушина, который работает в Google. Дальше от его лица
В 2015 году Гугл выпустил TensorFlow — супер-современный фреймворк для машинного обучения, созданный с участием самого Jeff Dean.
Но если почитать статьи за последние несколько лет из Google/DeepMind, то можно заметить что эксперименты реализованы с использованием совсем другого малоизвестного фреймворка JAX и лишь в самом конце портированы на TensorFlow/PyTorch. Именно с помощью JAX тренируют гигантские нейронные сети: текстовые, computer vision, мультимодальные.
JAX невероятно популярен внутри Гугла, но малоизвестен за его пределами. Исследователям это на руку - никто не принуждает делать фреймфорк доступным для всех, да и вице-президенты не терзают команду туманными целями и прочими синергиями.
У JAX есть отличная документация на Readthedocs. Я перепечатывал примеры оттуда в Google Colab, изменял их, пробовал их запускать на бесплатных Colab kernels with CPU/GPU/TPU.
Основные строительные блоки
Некоторые курсы по машинному обучению показывали как можно реализовать тренировку нейронных сетей умножением векторов/матриц NumPy, как вычислять производные цепочеатк функций. JAX - это в первую очередь невероятно ускоренный NumPy (see JAX As Accelerated NumPy). Все операции jax.numpy оптимизированы для выполнения на GPU/TPU. К этому добавлены возможности автоматической векторизации и параллелизации вычислений (как в курсе ml-class.org можно было векторизовать вычисления в Octave, ускоряя их в десятки-сотни раз).
Функции без побочных эффектов можно легко скомпилировать, обернув их в функцию jax.jit. Компиляция осуществляется методом трассировки - в качестве параметров передаются специальные объекты, которые запоминают все операции, которые с ними производятся. По результатам трассировки строится граф вычислений “входные параметры” - ??? - “выходные параметры”. Потом этот граф компилируется с использованием XLA (её когда-то написали для TensorFlow).
Производные больше считать не нужно. Оборачиваешь loss function в функцию grad и получаешь градиенты. Вообще очень многое в JAX решается композицией функций. Опыт функционального программирования (Haskell, Erlang, ваши варианты) будет очень к стати.
Flax — самая популярная библиотека для моделирования нейронных сетей. Отличная документация, есть много примеров, в том числе реальных исследовательских проектов из Гугла. Еще со всем недавно с ней конкурировала библиотека Haiku, но в конце концов Flax стал более популярен и Haiku перевели в режим поддержки.
У Flax офигенная философия. Чего только стоит “Prefer duplicating code over a bad abstraction.” Не всем такая философия подходит, но мне очень резонирует.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤8🥰3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🧔 Microsoft Research анонсировала VASA-1.
ИИ генератор видео, который выглядит очень реалистично.
Для создания гиперреалистичного видео с изображением говорящего лица, требуется всего одна портретная фотография, чтобы создать видео с точной синхронизацией движения губ, реалистичным выражением лица и естественным движениями головы в режиме реального времени.
https://www.microsoft.com/en-us/research/project/vasa-1/
@data_analysis_ml
ИИ генератор видео, который выглядит очень реалистично.
Для создания гиперреалистичного видео с изображением говорящего лица, требуется всего одна портретная фотография, чтобы создать видео с точной синхронизацией движения губ, реалистичным выражением лица и естественным движениями головы в режиме реального времени.
https://www.microsoft.com/en-us/research/project/vasa-1/
@data_analysis_ml
👍22🔥10❤3🥰1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
👑Llama 3 is here, with a brand new tokenizer! 🦙
Вышла Llama 3
Сегодня вышла новая SOTA Llama 3 в двух версиях на 8B и 70B параметров.
Длина контекста 8К, поддержка 30 языков.
•HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
•Blog: https://ai.meta.com/blog/meta-llama-3/
Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/
P.S. В процессе обучения находится модель на 400В+ параметров.
@ai_machinelearning_big_data
Вышла Llama 3
Сегодня вышла новая SOTA Llama 3 в двух версиях на 8B и 70B параметров.
Длина контекста 8К, поддержка 30 языков.
•HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
•Blog: https://ai.meta.com/blog/meta-llama-3/
Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/
P.S. В процессе обучения находится модель на 400В+ параметров.
@ai_machinelearning_big_data
👍10🔥4❤3
Здесь собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
Очень годно, рекомендую
Что внутри?
├╼
всего лишь функция├╼
градиентный спуск├╼
алгоритм обратного распространения ошибки├╼
что выплёвывает нейросеть├╼
свёрточные сети├╼
нейросети – конструктор LEGO├╼
рекуррентные сети╰╼
матричное дифференцирование@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥8❤3👌1
Может ли нейронная сеть делать обобщения на случаи, которые далеки от тренировочных данных?
В общем, держите полезную статью о том, где затрагиваются детали внутренней реализации нейросетей
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4❤3
Российские студенты стали победителями ICPC
Это самые крупные международные соревнования по программированию в мире. В этом году финал проходил за два года — 2022 и 2023. Студенты факультета компьютерных наук, основанного ВШЭ и Яндексом, заняли призовые места в сразу двух соревнованиях.
За 2023 год абсолютными чемпионами стала команда FFTilted. Ее участники — Фёдор Ромашов, Александр Бабин и Кирилл Кудряшов — студенты программы Прикладной математики и информатики (ПМИ), разработанной Яндексом в момент основания факультета.
За 2022 год третье место в абсолютном зачете заняла команда Undertrained+Overpressured. Ее представляли Максим Гороховский, Иван Сафонов и Тимофей Федосеев.
Обе команды показали лучшие результаты среди всех российских вузов. Всего в ICPC приняли участие команды из 170 университетов и 50 стран мира.
Это самые крупные международные соревнования по программированию в мире. В этом году финал проходил за два года — 2022 и 2023. Студенты факультета компьютерных наук, основанного ВШЭ и Яндексом, заняли призовые места в сразу двух соревнованиях.
За 2023 год абсолютными чемпионами стала команда FFTilted. Ее участники — Фёдор Ромашов, Александр Бабин и Кирилл Кудряшов — студенты программы Прикладной математики и информатики (ПМИ), разработанной Яндексом в момент основания факультета.
За 2022 год третье место в абсолютном зачете заняла команда Undertrained+Overpressured. Ее представляли Максим Гороховский, Иван Сафонов и Тимофей Федосеев.
Обе команды показали лучшие результаты среди всех российских вузов. Всего в ICPC приняли участие команды из 170 университетов и 50 стран мира.
❤38🔥11👍7❤🔥1🕊1
💡Теперь у нас есть модель с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.
Скорость работы составляет почти 300 токенов в секунду.
LLAMA-3 - самая загружаемая модель, которую я когда-либо видел на HF.🚀
За 24 часа ее скачали более 36 200 раз!!!
Вангую: GPT-5 будет анонсирован до релиза Llama-3-400B. Релизы OpenAI определяются внешними факторами 🤣
🖇 Тесты LLaMA3
@data_analysis_ml
Скорость работы составляет почти 300 токенов в секунду.
LLAMA-3 - самая загружаемая модель, которую я когда-либо видел на HF.🚀
За 24 часа ее скачали более 36 200 раз!!!
Вангую: GPT-5 будет анонсирован до релиза Llama-3-400B. Релизы OpenAI определяются внешними факторами 🤣
🖇 Тесты LLaMA3
@data_analysis_ml
👍18🔥10❤4😁2❤🔥1🕊1
🚀 Google выпустила крутой учебник по промпт-инжинирингу!
В руководстве на 45 страницах содержатся советы для работы с Gemini, которые также применимы к другим нейронным сетям.
Это полноценное учебное пособие — понятное, доступное и красиво оформленное. В каждой главе вы найдете примеры использования, советы и понятные инструкции.
Книга содержит интересные с примеры по созданию промотав, как это может пригодиться именно вам.
📚 Книга
@data_analysis_ml
В руководстве на 45 страницах содержатся советы для работы с Gemini, которые также применимы к другим нейронным сетям.
Это полноценное учебное пособие — понятное, доступное и красиво оформленное. В каждой главе вы найдете примеры использования, советы и понятные инструкции.
Книга содержит интересные с примеры по созданию промотав, как это может пригодиться именно вам.
📚 Книга
@data_analysis_ml
❤15👍9🔥9
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Полезные инструменты недели
• LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀
• Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B.
• LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
• Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично.
• AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект).
• Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI.
• OmniFusion 1.1. - гибридная LLM для работы с картинками
• VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech
📚 Бесплатные книги недели:
▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу!
▪Foundation of computer Vision
▪ Бесплатня книга научная визуализация: Python + Matplotlib
📄Статьи:
— Простейшая нейронная сеть, мой опыт и выводы
— LOCOST и SPECTRUM, два подхода к суммаризации
— Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
— Scaling Instructable Agents Across Many Simulated Worlds
— Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов
— На чем программируют суровый ML в Гугле
— Заменят ли LLM людей в разметке данных для AI?
— Как мы тестировали большие языковые модели для модерации отзывов
— Распознавание лиц на микрокомпьютерах
— Книга «Разработка приложений на базе GPT-4 и ChatGPT»
— Что такое Charmed Kubeflow?
— Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology?
— The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
— From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
— From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
— The Topos of Transformer Networks
— Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
— Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome
— Increased LLM Vulnerabilities from Fine-tuning and Quantization
— The Use of Generative Search Engines for Knowledge Work and Complex Tasks
— 94% on CIFAR-10 in 3.29 Seconds on a Single GPU
👨🎓 Бесплатные курсы недели
▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета
▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI
с Hugging
▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science.
@data_analysis_ml
Полезные инструменты недели
• LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀
• Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B.
• LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
• Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично.
• AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект).
• Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI.
• OmniFusion 1.1. - гибридная LLM для работы с картинками
• VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech
📚 Бесплатные книги недели:
▪ Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
▪Google выпустила крутой бесплатный учебник по промпт-инжинирингу!
▪Foundation of computer Vision
▪ Бесплатня книга научная визуализация: Python + Matplotlib
📄Статьи:
— Простейшая нейронная сеть, мой опыт и выводы
— LOCOST и SPECTRUM, два подхода к суммаризации
— Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
— Scaling Instructable Agents Across Many Simulated Worlds
— Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов
— На чем программируют суровый ML в Гугле
— Заменят ли LLM людей в разметке данных для AI?
— Как мы тестировали большие языковые модели для модерации отзывов
— Распознавание лиц на микрокомпьютерах
— Книга «Разработка приложений на базе GPT-4 и ChatGPT»
— Что такое Charmed Kubeflow?
— Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology?
— The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
— From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
— From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
— The Topos of Transformer Networks
— Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
— Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome
— Increased LLM Vulnerabilities from Fine-tuning and Quantization
— The Use of Generative Search Engines for Knowledge Work and Complex Tasks
— 94% on CIFAR-10 in 3.29 Seconds on a Single GPU
👨🎓 Бесплатные курсы недели
▪ Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета
▪ Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI
с Hugging
▪ Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science.
@data_analysis_ml
👍14❤6🔥4❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Функции потерь Python являются важной частью ML-моделей. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.
Существует несколько способов вычислить эту разницу.
В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь, а именно:
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4🔥4