222K subscribers
3.87K photos
653 videos
17 files
4.49K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Data Science: t.iss.one/data_analysis_ml
Python: t.iss.one/pythonl
МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_ru
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
👍268🔥3😐3
🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.

Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.

Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.

Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.

Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.

Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.

Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.

Тестовые GatedDeltaNet-H1 и GatedDeltaNet-H2 дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.

Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.

🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github

📌Лицензирование:

🟢Некоммерческое использование: Nvidia Source Code License-NC

🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing

🟡Arxiv

🟡GitHub

@ai_machinelearning_big_data


#AI #ML #LLM #NVIDIA #GatedDeltaNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4015🔥9🍾1
🖥 Cuda-120-Days-Challenge

Гайд 120-дневной программы обучения CUDA для всех, кто хочет углубиться в программирование на GPU.

Это структурированный, ежедневный план, охватывающий потоки, управление памятью, параллелизм и отладку и многое другое.

Урок на каждый день включает в себя:
- Разбор основной темы занятии
- Практическое упражнение / мини-проект
Разбор ошибок при отладке кода
- Рекомендованные ресурсы

Github
CUDA C Programming Guide
CUDA Toolkit Reference
CUDA Best Practices Guide
Бесплатный 12-ти часовой курс по CUDA от freeCodeCamp

@machinelearning_interview - материалы для мл собеса

#cuda #nvidia #freecourse #opensource #tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥198
⚡️ Китай продолжает выпускать новые МОЩНЫЕ и ДЕШЕВЫЕ модели искусственного интеллекта!

Материнская компания Tik-Tok, ByteDance, выпустила Doubao-1.5-pro.:
🔸На бенчмарках с GPT-4o они идут рука об руку
🔸Экономичная цена:
- 0,022 доллара за миллион кэшированных токенов
- 0,11 доллара за миллион токенов
- 0,275 доллара за миллион выходных токенов
🔸Преимущество в стоимости:
- в 5 раз дешевле, чем DeepSeek
- Более чем в 200 раз доступнее, чем OpenAI o1
🔸Особенности:
- контекстное окно размером 32k + 256k
Архитектура: Для повышения эффективности используется MoE
Влияние на рынок: Этот шаг является частью широкой китайской инициативы в области искусственного интеллекта от ByteDance и DeepSeek для доминировали на ИИ рынке

> превосходит на топовых бенчмарках почти всех остальных LLM
> превосходит o1 на AIME
> использует MoE с 7 экспертами
> 20b активированных параметров

https://team.doubao.com/zh/special/doubao_1_5_pro

#Doubao #llm #ml #ai #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥85👍2816🥱4👏1👀1
🖤 Open R1

Разработчики с Hugging Face решили повторить полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥

Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.

Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.

Github

@ai_machinelearning_big_data


#opensource #DeepSeekR1 #huggingface #OpenR1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥109👍2614
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 WebRover – это автономный ИИ-агент , предназначенный для взаимодействия с элементами веб-страниц и выполнения пользовательских запросов.

Агент построен на базе LangChain и LangGraph и в первую очередь создан, чтобы освободить пользователей от рутины, связанной с поиском и сбором информации.

Благодаря глубокому пониманию контекста и способности автоматически определять нужные элементы, WebRover эффективно справляется даже со сложными задачами.

Основные возможности WebRover включают:
- самостоятельную навигацию по сайтам, управление состоянием через LangGraph и автоматизированное взаимодействие с браузером посредством Playwright.
- агент способен анализировать содержимое страниц, делать скриншоты и формировать структурированные ответы и парить информацию.

Особенности
🤖 Навигация на основе GPT-4 для понимания контекста и интеллектуальной навигации по веб-сайтам
🎯 Интеллектуальное обнаружение элементов: Автоматически идентифицирует и взаимодействует с любыми элементами сайтов
📸 Визуальная обратная связь: Визуализация процесса навигации в реальном времени
🔄 Автономная работа: Самокорректирующаяся навигация со стратегиями обратного хода

git clone https://github.com/hrithikkoduri18/webrover.git
cd webrover
cd backend


Github

@ai_machinelearning_big_data


#aiagents #ai #ml #opensource
37👍24🔥14👾1
📕 Think Stats: Бесплатная книга по статистике.

Think Stats - это введение в теорию вероятностей и статистику для Python программистов и датасаентистов.

Каждая глава
доступна в виде блокнота Jupyter ноутбука, в котором можно запускать код и решать упражнения

⭐️ Книга доступна по лицензии Creative Commons, что означает, что вы можете свободно читать, копировать и распространять при условии указания ссылки на источник и не использования в коммерческих целях.

Книга
Github

@ai_machinelearning_big_data


#freebook #ml #probability #book #opensource #practice #книганедели
Please open Telegram to view this post
VIEW IN TELEGRAM
57👍25🔥16🥱1
💥Релиз Qwen2.5-1M!

Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥

⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.

Модель 14B-1M выигрывает у гораздо более крупной модели Qwen 2.5 Turbo (предположительно MoE с тем же количеством активных параметров).

Доступен подробный технический отчет о серии Qwen2.5-1M! 📊

📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

@ai_machinelearning_big_data

#qwen #opensource #ml #llm
👍56🔥308
💰 Банк Китая выделит 1 триллион юаней (137 миллиардов долларов) в течение 5 лет для противостояния США в гонке искусственного интеллекта.

Это прямой ответ на проект «Звездные врата».

Евросоюз: максимум, что мы можем сделать, — это выделить 10 миллиардов на ИИ регулирование.

@ai_machinelearning_big_data

#ai #news #stargate #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥174😁95🤣3918👍17
⚡️ Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.

Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ. Акции NVIDIA упали уже на 14% за сутки. Компания потеряла 465 млрд долларов и это антирекорд.

Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,

Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:

LLM:
InternLM3-8B-Instruct
MiniMax-Text-01
RWKV-7 RNN + трансформер 👀
Собственно сам DeepSeek-R1
Baichuan-M1-14B медицинский LLM 🩺
Qwen2.5-Math-PRM от Alibaba
Qwen2.5 -1M


Модели кодинга:
Tare от BytedanceTalk

TTS модели синтеза и генерации речи:
T2A-01-HD от MiniMax AI
LLaSA

МЛЛМ:
Kimi k1.5 от Moonshot AI
MiniCPM-o-2_6 от OpenBMB
Sa2VA-4B от ByteDanceOSS
VideoLLaMA 3 от Alibaba DAMO
LLaVA-Mini от Китайской академии наук

Hunyuan-7B от TXhunyuan
Hunyuan 3D 2.0

ИИ-агенты:
UI-TARS от ByteDanceOSS
GLM-PC

Датасеты:
Fineweb-Edu-Chinese-V2.1
Multimodal_textbook от Alibaba
MME-Finance от Hithink AI
GameFactory от KwaiVGI

@ai_machinelearning_big_data


#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥74👍2315😎5🥰3😁1🎄1
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.

Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.

Модели
: https://huggingface.co/deepseek-ai/Janus-Pro-7B
https://huggingface.co/deepseek-ai/Janus-Pro-1B
Quickstart: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#3-quick-start 📖
Tech report: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

@ai_machinelearning_big_data


#ai #deepseek #opensource #Janus
1🔥159👍2915🙉5
⭐️ The Illustrated DeepSeek-R1

Одно из лучших иллюстрированных объяснение внутренностей DeepSeek-R1.
Читать

⭐️ Видео генератор Pika 2.1 официально выпущен ​​— поддерживает разрешение 1080p и генерирует более согласованные и детализированные на видео.
https://pika.art/

⭐️ DeepSeek-R1 теперь может работать в 1.58-битном режиме, оставаясь при этом полностью функциональным. Умельцы из Unsloth AI уменьшили размер модели 671B с 720 ГБ до 131 ГБ - это на 80 % меньше.

Наивное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе. Их динамические кванты решают эту проблему.

1,58-битный квант помещается в 160 ГБ VRAM (2x H100 80 ГБ) для быстрого вывода со скоростью ~140 токенов/сек.

Изучив архитектуру DeepSeek-R1, разработчики выборочно квантовали определенные слои в более высокие биты (например, в 4-битные), а большинство слоев MoE оставили в 1,5 бита.
Бенчмарки + блог
GGUF (131-212 ГБ) на Hugging Face:

⭐️ YuE (乐) - новая мощная модель генерации музыки с открытым исходным кодом! 🎵 Поддерживает преобразования текста в песню (как Suno.ai) с поддержкой различных жанров, вокала и множества языков. Модель совместима с Hugging Face и LLAMA.
Код
Демо

⭐️ Qwen 2.5-VL – обновленная визуальная модель, доступная в трех размерах: 3B, 7B и 72B параметров.
Qwen-2.5-VL
Qwen-2.5-1M


⭐️Netflix выпустили Go-with-the-Flow
Netflix выпустили новый алгоритм искажения шума для генерации видео, достаточно быстрый, чтобы работать в реальном времени, который заменяет случайную временную гауссиану на коррелированный искаженный шум, полученный из полей оптического потока, который сохраняет при этом пространственную гауссиану. Эффективность алгоритма позволяет тонко настраивать современные модели диффузии видео с минимальными расходами и предоставляет универсальное решение для широкого спектра управления движением на видео. Обширные эксперименты и исследования демонстрируют преимущества метода, делая его надежным и масштабируемым подходом для управления движением в диффузионных моделях видео.
HF
Github

⭐️ «Awesome DL-Based MRI Reconstruction» - новый Awesome репозиторий, содержащий ресурсы, инструменты и научные статьи, посвященные использованию глубокого обучения для ускорения получения магнитно-резонансных изображений. Созданный для обмена знаниями и сотрудничества, он служит важным руководством для исследователей и медиков со всего мира.
Github

@ai_machinelearning_big_data


#ai #ml #news #llm #deepseek #Netflix #Qwen #Pika #news #ainews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5021🔥11🥰2