226K subscribers
3.89K photos
661 videos
17 files
4.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Firecrawl

Это open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

Firecrawl обрабатывает сложные случаи, включая динамический контент, JavaScript-рендеринг, PDF, изображения и защищённые страницы.

Поддерживает интеграцию с Langchain, LlamaIndex, Dify и другими инструментами, поддерживает Python, Node.js, Go и Rust.

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'

# { "jobId": "1234-5678-9101" }


Лиценизровавние: AGPL-3.0 license

GitHub
Инструкция по запуску локально

@ai_machinelearning_big_data

#llm #crawler
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70🔥36🥰95🤬1👨‍💻1💘1
🌟 В ElevenLabs обновили процесс профессионального клонированиея голоса (PVC) — теперь он стал максимально удобным:

Загружаете запись ваших диалогов или соло-записи (например, подкасты)
AI сам разделит голос по спикерам, дальше вы выбираете только голос для обучения

Второе прикрепленное видео - это туториал, который поможет добиться максимально реалистичного результата

🔒 По умолчанию ваш клон голоса — приватный и доступен только вам.
💸 Но так же у вас есть возможность монетизировать свой голос и получать роялти, когда кто-то генерирует аудио с вашим голосом.

🚀 elevenlabs.io/app/voice-lab

#voiceclone #ai #elevenlabs #voiceai #texttospeech
51👍40🔥22
✔️ Canva выпустила Visual Suite 2.0: единая платформа для креатива и продуктивности.

В версии 2.0 пользователи могут работать с презентациями, видео, интерактивными досками, сайтами и таблицами без переключения между сервисами. Главная новинка — Canva Sheets, переосмысление таблиц с поддержкой ИИ: функции вроде Magic Insights автоматизируют рутину, а интеграция с Google Analytics или HubSpot превращает данные в красочные диаграммы через Magic Charts.

Для разработчиков появился Canva Code — генератор кода на основе текстовых запросов. В нем достаточно описать идею, а ИИ подготовит решение. Обновился и фоторедактор: теперь фон меняется в пару кликов, а элементы изображения можно перемещать или перекрашивать прямо в рабочем интерфейсе.

Попробовать Visual Suite 2.0 можно уже сегодня — все новые функции доступны на сайте Canva.
canva.com

✔️ Apple представит улучшенную Siri с Apple Intelligence в iOS 19 этой осенью.

Apple готовит масштабное обновление для Siri — она получит новые возможности в iOS 19. Среди ключевых функций: редактирование и отправка фото по запросу, распознавание содержимого экрана, учёт личного контекста и глубокая интеграция с приложениями. Изначально эти фичи планировали включить в iOS 18.4 и показать на WWDC 2024, но релиз перенесли из-за внутренних разногласий и нехватки бюджета.

Крейг Федериги и Майк Роквелл, курирующие проект, считают, что конкуренты ещё не вывели AI на идеальный уровень. Это позволяет Apple не спешить и доработать Siri до премиального качества. Окончательный релиз запланирован на осень.
appleinsider.com

✔️ ByteDance и Qualcomm разрабатывают умные ИИ-очки.

Устройство сможет снимать фото и видео в высоком качестве, сохраняя заряд батареи — ключевая задача для носимой электроники. Партнёром проекта выступил Qualcomm: вместе компании планируют усилить VR- и ИИ-технологии в железе, о чём договорились на MWC 2025.

Это не первый шаг ByteDance в сегменте «умных» гаджетов: ранее они выпускали ИИ-наушники, а в 2021 году купили производителя VR-шлемов Pico. Новые очки станут прямым конкурентом Ray-Ban Hypernova за $1000+. Пока детали проекта уточняются: обсуждаются характеристики, стоимость и сроки релиза.
theinformation.com

✔️ Microsoft готовится к релизу Recall.

Microsoft начала финальный этап тестирования Recall — функции, которая автоматически сохраняет скриншоты действий на ПК с Copilot Plus для последующего поиска. Сейчас она доступна в Release Preview для участников программы Windows Insiders, что означает скорый выход обновления для всех пользователей Windows 11.

Выпуск Recall не раз откладывался: сначала из-за опасений экспертов по безопасности, позже — ради доработки защиты данных. Теперь для работы Recall потребуется явное согласие пользователя, а сохранение снимков можно в любой момент приостановить.

Функция останется эксклюзивом для новых Copilot Plus PC — возможно, это попытка минимизировать риски. Как отмечают тестеры, Recall одновременно впечатляет и настораживает: он удобен для поиска информации, но сама идея постоянного слежения за действиями вызывает вопросы.
blogs.windows.com

✔️ MIT представил метод PAC Privacy для защиты данных в ИИ без потери точности.

PAC Privacy автоматически определяет минимальный уровень «шума» (случайных данных), который нужно добавить в алгоритм, чтобы сохранить приватность — например, медицинских изображений — без ущерба для производительности. Улучшенная версия метода работает быстрее, анализируя не всю матрицу корреляций, а только дисперсии выходных данных.

Ключевая идея — стабильные алгоритмы, чьи предсказания мало меняются при небольших изменениях в данных, требуют меньше шума. Команда проверила это на классических алгоритмах: чем стабильнее модель, тем проще её обезопасить.

Метод уже протестирован против современных методов джейлбрейка, а его вычислительная эффективность выросла в разы. Работу поддержали Cisco, Capital One и Министерство обороны США.
news.mit.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4817🔥10
📌Early-fusion vs Late-fusion: как архитектура влияет на эффективность мультимодальных моделей.

Исследование, проведенное Apple и Университетом Сорбонны в котором были проанализировали 457 архитектур, чтобы выяснить, действительно ли позднее слияние модальностей (late-fusion — когда изображения и текст обрабатываются отдельно до объединения ) имеет преимущества перед ранним слиянием (early-fusion). Оказалось, что early-fusion не только не уступают, но и превосходятlate-fusion при ограниченных ресурсах, требуя меньше параметров и быстрее обучаясь.

Early-fusion, где данные разных модальностей объединяются на начальных этапах, показал более высокую эффективность на небольших моделях. На модели с 300 млн. параметров такие архитектуры достигают лучших результатов с меньшими вычислительными затратами. Плюс, их проще развертывать — отсутствие отдельных визуальных энкодеров сокращает требования к инфраструктуре.

✔️ Ключевой вывод ресерча: мультимодальные модели масштабируются по законам, близким к языковым.

Оптимальное соотношение параметров и данных для обучения почти одинаково, но early-fusion требует меньше параметров при том же бюджете: при увеличении вычислительных ресурсов late-fusion вынуждена наращивать размер модели, тогда как early-fusion эффективнее использует дополнительные токены.

Авторы также проверили, как влияет на результаты внедрение MoE — техники, где модель динамически распределяет специализированные «эксперты» для разных типов данных.

Оказалось, MoE значительно улучшает производительность: разреженные модели с 8 экспертами сокращают потери на 15-20% по сравнению с плотными аналогами. При этом эксперты неявно специализируются — часть обрабатывает текст, другая фокусируется на изображениях, особенно в начальных и финальных слоях.

✔️ Практические советы из исследования:

🟢Экономия на инференсе: раннее слияние снижает стоимость вывода за счёт компактности.

🟢Данные важнее параметров: для MoE увеличение объёма обучающих данных даёт больший прирост качества, чем рост числа активных параметров.

🟢Универсальный роутинг: модели с «агностическим» распределением экспертов (без жёсткой привязки к модальностям) работают лучше, чем системы с предопределёнными правилами.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #MMLM #ScalingLaw #MoE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥2820👏1
🌟 NVIDIA добавила нативную поддержку Python в CUDA.

Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.

Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».

Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.

Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.

🟢Во-первых, появилась библиотека cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта.

🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей.

🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности.

Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.

Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.

Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.

🔜 Посмотреть полную презентацию на GTC 2025


@ai_machinelearning_big_data

#AI #ML #Python #CUDA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173👍7730🤓1
📌Реализация многоязычной системы перевода с T5 и Transformers.

Небольшая статья, которая погружает в создание системы машинного перевода на базе модели T5, сочетая теорию с практикой: как настроить пайплайн перевода, генерировать альтернативные варианты и оценивать их через BLEU-метрику. Гайд балансирует между технической детализацией и понятным языком. Советы по установке библиотек, обработке ошибок и ссылки на документацию сэкономят время тем, кто только начинает работать с Transformers.

Примеры кода на Python, разбор параметров num_beams, length_penalty и честные замечания о слабых местах модели (проблемы с испанским) будут полезны для разработчиков, которые хотят быстро внедрить перевод в свои проекты.

Помимо базовой настройки есть объяснение, как расширить функционал: например, модифицировать метод translate() для вывода нескольких вариантов перевода с оценкой уверенности модели, как работает beam search и переходные вероятности.

Качество перевода — больная тема для NLP, и автор не идеализирует T5. Он показывает расхождения между внутренними баллами модели и объективной оценкой BLEU: даже высокие вероятности токенов не гарантируют точный перевод. Единственный минус — нет сравнения T5 с другими моделями (mBART). Но даже в таком виде статья - мастрид для всех, кто работает с мультиязычным NLP.


🔜 Читать полную статью

@ai_machinelearning_big_data

#tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥18🥰105
Media is too big
VIEW IN TELEGRAM
🤖 Fourier Intelligence выпустила Fourier N1 — первого полностью open-source гуманоидного робота!

Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.

За плечами более 1000 часов полевых испытаний.

🌟 Всё открыто: → список комплектующих (BOM)
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub

⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.

🔜 Github
🔜Документация (включайте автоперевод)

#ai #robots #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥4117
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Sonic от Hunyuan — модель анимации портретов с озвучкой 🎶

Sonic генерирует говорящих аватаров (или даже поющих!) с выразительной мимикой и качественным липсинком.

👉 Что нового?
1️⃣ Оживляем статичные изображения на вход подается одна фотография + любое аудио → речь, пение
2️⃣ Temporal Audio Learning — использует аудио дорожку для точной синхронизации губ и естественной мимики
3️⃣ Decoupled Motion Control — управляет движением головы и выражениями лица отдельно
4️⃣ Time-aware Fusion — обеспечивает плавный переход между кадрами для непрерывного видеоряда

Модель демонстрирует очень качественный липсинк, разнообразие движений головы и мимики, натуральность и стабильность анимаций
Поддерживает генерацию длинных видео (подойдет для влогов, реклаы) в один клик
Кинематографичное качество: реалистичные позы, эмоции и сохранение идентичности референса

🔜Демо: https://demo.sonic.jixiaozhong.online/
🔜Проект: https://jixiaozhong.github.io/Sonic/
🔜 Github: https://github.com/jixiaozhong/Sonic
🔜 Статья: https://arxiv.org/pdf/2411.16331

#ml #lipsync #opensource #hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥2512🥱2😁1
Media is too big
VIEW IN TELEGRAM
🔥 Короткое видео от
Hunyuan, которое объясняет архитектуру гибридного трансформера Mamba, лежащего в основе моделей Hunyuan T1 и Turbo S.

🔜 Оригинал

#mamba #Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56🔥2610
Media is too big
VIEW IN TELEGRAM
🐬 DolphinGemma — это проект Google, направленный на расшифровку коммуникации дельфинов на архитектуре Gemma (кто бы мог подумать), оптимизированной под open-source задачи.

Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов

🔍 Исследование коммуникации дельфинов

С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:​

- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.​

- Импульсные звуки во время конфликтов.​

- Щелчки, сопровождающие ухаживание или охоту.​

🌟 Модель DolphinGemma
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.

В модели используются данные за40 лет из уникальной коллекции доктора Дениз Герцин.

Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.

Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.​

🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.

Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.​

Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖

🔜 Подробнее о проекте можно узнать в официальном блоге Google: DolphinGemma: How Google AI is helping decode dolphin communication.

@ai_machinelearning_big_data

#Gemma #google #ml #science
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥8822🐳22👍15😁6❤‍🔥2🥱1🤗1
🔥 OpenAI выкатили сразу три новые модели — 4.1, 4.1 mini и 4.1 nano!

📏 Контекст — до миллиона токенов
💡 Обещают значительные Улучшения в коде
Модели уже доступны через API

GPT-4.1, набрал 55% на бенчмарке SWE-Bench Verified, это — хоороший результат, особенно с учётом того, что GPT-4.1 не оптимизировалась конкретно под задачи логического или многошагового рассуждения.

💬 На презентации одним промптом собрали веб-приложение для изучения языков.

Честно говоря, выглядит не супер. Практически та же цена, что у Gemini 2.5 Pro (у Gemini дешевле входные токены, что важно), и, судя по всему, она не превосходит модели Гугла ни на одном бенчмарке.

Попробовать бесплатно можно здесь и в Cursor.

💲 Цены

@ai_machinelearning_big_data

#openai #chatgpt
👍64🔥29🥱2113👏3🤬1
✔️ DeepSeek выпустила в оперсорс механизмы инференса для DeepSeek-V3 и R1.

DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.

🔜 DeepSeekAI на Github

@ai_machinelearning_big_data


#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
285👍40🔥16🤔5
✔️ THUDM представила новое поколение моделей семейства GLM.

Китайская THUDM выпустила обновление семейства GLM: базовую GLM-4-32B-0414, оптимизированную для инференса GLM-Z1-32B-0414 и GLM-Z1-Rumination-32B-0414 с ризонингом. Новая архитектура с 32 млрд. параметров обгоняет DeepSeek-R1 (671 млрд. параметров) в математических задачах, выдавая до 200 токенов в секунду — это в 8 раз быстрее, чем R1.

GLM-Z1-Rumination умеет искать данные в сети, анализировать их и проверять гипотезы, как человек. Попробовать новые модели можно в демо-спейсе на новом продуктовом домене ChatGLM - Z.ai.
ChatGLM в X (ex-Twitter)

✔️ Fabula интегрирует Runway AI в производство фильмов и рекламы.

Fabula объявила о партнерстве с Runway, чьи технологии будут использоваться на всех этапах: от разработки концепций и раскадровок до визуальных эффектов. В Fabula заверили: несмотря на скепсис в киноиндустрии вокруг ИИ, технологии будут внедрятся ответственно, с акцентом на контроль со стороны режиссеров.

По словам CEO Runway Кристобаля Валенсуэлы, сотрудничество с Fabula — часть стратегии по интеграции ИИ в кино без ущерба для авторского видения. Уже сейчас инструменты помогают создавать питч-материалы, которые раньше требовали больше времени и ресурсов.
deadline.com

✔️ Nvidia разворачивает производство ИИ-чипов в США.

Nvidia объявила о масштабной экспансии в США: сборка чипов Blackwell уже стартовала на заводах TSMC в Фениксе, а в Хьюстоне и Далласе совместно с Foxconn и Wistron строятся новые мощности. К 2028 году компания планирует создавать инфраструктуру для ИИ на $500 млрд.

«Двигатели мирового ИИ теперь впервые создаются в Штатах», — заявил CEO Nvidia, подчеркнув укрепление цепочек поставок. Решение частично связано с экспортными ограничениями: недавно администрация Белого дома смягчила санкции на чип H20 для Китая после обещаний Nvidia инвестировать в американские дата-центры.
wsj.com

✔️ Alphabet и Nvidia инвестируют в компанию SSI Ильи Суцкевера.

Alphabet и Nvidia присоединились к группе венчурных инвесторов, чтобы поддержать Safe Superintelligence (SSI), стартап, один из основателей которого - бывший главный научный сотрудник OpenAI Илья Суцкевер, быстро ставший одним из самых ценных стартапов в области ИИ спустя несколько месяцев после запуска.
Финансирование свидетельствует о возобновлении интереса крупных технологических и инфраструктурных компаний к стратегическим инвестициям в стартапы, разрабатывающие передовой ИИ, требующий огромных вычислительных мощностей.
reuters.com

✔️ Apple будет обучать ИИ на данных пользователей без ущерба для приватности.

Apple объявила о новом методе обучения своих ИИ-моделей: теперь анализировать данные пользователей будут прямо на устройствах, не передавая их на серверы. Это позволит улучшить алгоритмы сохраняя конфиденциальность. Вместо файлов система сравнивает синтетические данные — искусственно созданные тексты с примерами из приложений вроде «Почты».
Хотя конкуренты активно используют реальные данные из открытых источников, Apple делает ставку на гибридный метод. Это может помочь компании догнать лидеров рынка без рисков для репутации.
machinelearning.apple.com

✔️ Kling AI 2.0 — теперь видео не отличить от реальности!

Multy-Elements 1.6 — качественно редактирует всё в кадре: добавляй.

Motion Control 1.6 — анимирует персонажей по одному промпту.

KOLORS 2.0 — генератор картинок с фотореалистичной детализацией.
Kling

✔️ OpenAI опубликовала новое руководство по промптингу для GPT-4.1.

В руководство включен подробный "агентный промпт" (Agentic Prompt).

Именно этот промпт OpenAI использовала для достижения рекордно высокого балла в сложном бенчмарке по разработке ПО SWE-bench Verified.
Руковосдтво

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
40👍35🔥7🥰2