Big Data AI
16.7K subscribers
792 photos
96 videos
19 files
804 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Forwarded from Machinelearning
⚡️ Обновление семейства Nemotron: теперь с ризонингом.

NVIDIA выпустила новые модели и датасет семейства Nemotron :

🟢Модель Llama-3.3-Nemotron-Super-49B-v1

🟢Модель Llama-3.1-Nemotron-Nano-8B-v1

🟠Датасет Llama-Nemotron-Post-Training-Dataset-v1

▶️Llama-3.3-Nemotron-Super-49B-v1 — флагманская мультиязычная модель, созданная на базе Llama-3.3-70B-Instruct и оптимизированная для ризонинга, чат-взаимодействий и RAG-систем, с контекстным окном 128 тыс. токенов. Ключевая особенность — применение в процессе создания Neural Architecture Search (NAS), метода, который позволил сократить вычислительные затраты без значительной потери качества.

Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB.

Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE).

Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели.

Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95.

Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace.

▶️Llama-3.1-Nemotron-Nano-8B-v1 - младшая модель с 8 млрд. параметров, которая предлагает компромисс между точностью и эффективностью. Она создана на основе Llama 3.1 8B Instruct и предлагает улучшение точности базовой Llama 3.1, возможности в рассуждениях, как и флагманская. Модель подходит для запуска на одном GPU RTX и может использоваться локально. Nano-8B-v1 поддерживает длину контекста 128 тыс. токенов.

▶️Llama-Nemotron-Post-Training-Dataset-v1 - набор данных объемом 15.2 млн строк, который представляет собой компиляцию данных SFT и RL для улучшения математических, кодовых, общих рассуждений и возможностей следования инструкциям оригинальной модели Llama.


📌Лицензирование: NVIDIA Open Model License


🟡Статья
🟡Коллекция Nemotron на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🥰1
Forwarded from Machinelearning
📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка.

Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.

Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.

Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.

Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.

Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.

Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.

Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.

🟡Статья
🟡Исследование


@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32👎1😁1
Forwarded from Machinelearning
📌 Набор датасетов по программированию от HF.

HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:

🟢Stack-Edu - 125 млрд. токенов образовательного кода на 15 языках программирования, отфильтрованных из The Stack v2

🟢GitHub Issues - 11 млрд. токенов из GitHub Issues

🟢Kaggle Notebooks - 2 млрд. токенов ноутбуков Kaggle по анализу данных

🟢CodeForces problems - 10 тыс. уникальных задач из сервиса CodeForces, 3 тыс из которых не были включены в массив обучения, использовавшийся DeepMind

🟢CodeForces problems DeepSeek-R1 - 8,69 Gb отфильтрованных трассировок рассуждений по задачам CodeForces

🟢International Olympiad in Informatics: Problem statements dataset (2020 - 2024) - уникальный набор из заданий Олимпиады по программированию, разбитый на подзадачи так, чтобы каждый запрос соответствовал решению этих подзадач

🟢International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) - 11 тыс трассировок рассуждений, выполненных DeepSeek-R1 в ходе решения заданий Олимпиады по программированию


@ai_machinelearning_big_data

#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥3
Forwarded from Machinelearning
✔️ OpenAI анонсировала открытую модель: релиз через несколько месяцев.

OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.

Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X

✔️ В Китае появились цены на медицинские услуги с использованием интерфейсов "мозг-компьютер".

Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).

ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov

✔️ Runway выпустила Gen-4.

Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml

✔️ SANA-Sprint: SOTA в реалтайм-диффузии.

MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.

SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github

✔️ Microsoft расширяет функционал Copilot+ для устройств на AMD, Intel и Snapdragon.

Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.

Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com

✔️ Apple разрабатывает ИИ-агента для здоровья.

Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.

Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts

✔️ Krea представила новый генератор 3D-моделей с использованием передовой технологии Hunyuan 3D.

Модели легко импортируются в Blender.
Krea

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥31👏1
Forwarded from Machinelearning
✔️ ИИ-терапевт Therabot сократил симптомы депрессии и тревоги в первом клиническом испытании.

Исследователи Дартмутского университета провели первое клиническое испытание чат-бота Therabot на основе генеративного ИИ, который показал значительные улучшения у пациентов с депрессией, тревогой и расстройствами пищевого поведения. Участники, взаимодействуя с ботом через приложение, в среднем на 51% снизили симптомы депрессии, на 31% — тревоги, а в группе с риском расстройств питания прогресс превысил контрольные показатели на 19%, что соответствует результатам, полученным от лучших терапевтов.

Therabot, обученный на методах когнитивно-поведенческой терапии, адаптировал диалоги под пользователей, предлагая стратегии в реальном времени. За 8 недель участники провели с ботом около 6 часов — эквивалент 8 сеансов терапии.
dartmouth.edu

✔️ В честь своего 50-летия Microsoft опубликовала исходный код Altair BASIC.

Microsoft празднует 50-летие своей деятельности, отмечая путь от небольшого стартапа в Альбукерке, основанного Биллом Гейтсом и Полом Алленом в 1975 году, до мирового технологического лидера со штаб-квартирой в Редмонде, штат Вашингтон.

В честь этого знаменательного события соучредитель компании Билл Гейтс опубликовал исходный код Altair BASIC, первого продукта компании, который сыграл решающую роль в запуске революции персональных компьютеров. Гейтс назвал код "самым крутым из всего, что я когда-либо писал".
news.microsoft.com

✔️ Google запускает функцию 'Discover Sources' в NotebookLM.

Google представила новую функцию "Discover Sources" для сервиса NotebookLM, позволяющую пользователям искать в Интернете релевантную информацию по запросу. Она позволяет задать целевую тему, после чего NotebookLM формирует коллекцию из 10 релевантных источников со всего интернета.

Discover Sources доступно для всех пользователей. Оно расширяет функциональность NotebookLM, интегрируя веб-поиск непосредственно в проекты пользователя.
blog.google

✔️ ​Midjourney выпустила альфа-версию своего нового AI-модели генерации изображений — V7.

Эта версия представляет собой полную переработку предыдущей архитектуры, включая обновленные наборы данных и улучшенные методы обработки языка. ​

Улучшенное понимание текстовых запросов: Модель стала точнее интерпретировать пользовательские промпты, что приводит к более релевантным результатам. ​

Повышенное качество изображений: Благодаря новой архитектуре и обновленным наборам данных, изображения стали более детализированными и эстетически привлекательными. ​

- Режим Draft Mode: Этот новый режим позволяет создавать изображения в 10 раз быстрее и вдвое дешевле стандартного режима, что особенно полезно для быстрого прототипирования. ​
- Персонализация: V7 впервые вводит возможность настройки модели под индивидуальные визуальные предпочтения пользователя, что достигается путем оценки около 200 изображений для создания персонального профиля. ​
Midjourney

✔️ OpenAI: опубликовали статистку: 700+ млн изображений было сгенерировано за неделю в Sora

За первую неделю после запуска новой функции генерации изображений:
Функцию 130 протестировали уже человек
Создано более 700 млн изображений.
📈 Рекордный рост пользователей:
+1 млн новых юзеров в час на пике (для сравнения: такой рост при запуске ChatGPT занял 5 дней).
Индия — лидер по темпам роста интереса к ChatGPT.

✔️2027 Intelligence Explosion: Month-by-Month Model

Новый подкаста, в котором Скотт Александер и Дэниел Кокотайло обсуждают сценарий развития искусственного интеллекта вплоть до предполагаемого "интеллектуального взрыва" в 2027 году. Скотт Александер известен своими блогами Slate Star Codex и Astral Codex Ten, а Дэниел Кокотайло ранее работал в OpenAI, но ушел оттуда в 2024 году, отказавшись от соглашения о неразглашении. В подкасте они подробно рассматривают события, которые могут произойти в сфере ИИ в ближайшие годы.​
Youtube

✔️Devin 2.0 вышел.

Сейчас выходит бесчисленное количество новых агентов.
Будем надеяться, что версия 2 получше. Цена от 20 долларов.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🥰1
Forwarded from Machinelearning
✔️ Google добавила мультимодальный поиск в AI Mode.

Свежее обновление AI Mode в Google Поиске добавило мультимодальные функции — система анализирует изображения, понимая контекст и связи между объектами. Загрузите фото или сделайте снимок через Lens, задайте вопрос — нейросеть на основе Gemini выдаст развёрнутый ответ с рекомендациями и ссылками.

Раньше эта функция была доступна подписчикам Google One AI Premium, но теперь она доступна через Google Labs.
blog.google

✔️ Samsung представила обновление Gemini Live для Galaxy S25 с визуальным ИИ в реальном времени.

С 7 апреля владельцы Galaxy S25 получат бесплатное обновление Gemini Live. Теперь можно обсуждать увиденное через камеру или экран, удерживая боковую кнопку. Например, ИИ подскажет, как организовать шкаф или выбрать одежду, анализируя изображение в реальном времени. Функция доступна бесплатно, но требует подключения к интернету и активации в поддерживаемых странах.
news.samsung.com

✔️ Cloudflare упрощает создание AI-агентов с MCP и бесплатным доступом к Durable Objects.

Cloudflare представила серию обновлений, ускоряющих разработку AI-агентов. Теперь в Agents SDK добавлена поддержка MCP, позволяющая агентам подключаться к внешним сервисам с автоматической аутентификацией и управлением соединениями. Для безопасного доступа интегрированы провайдеры Stytch, Auth0 и WorkOS — это упрощает настройку прав доступа через OAuth 2.1 и гибкие сценарии разрешений.

Новинка в SDK — гибернация для MСРAgent: серверы автоматически «засыпают» при простое, экономя ресурсы, и мгновенно активируются при новых запросах. Для хранения состояния агентов теперь доступны Durable Objects даже на бесплатном тарифе — с поддержкой SQLite и 5 ГБ памяти.

Обновления дополнены примерами готовых MCP-серверов — от управления задачами до анализа кода. Разработчики могут развернуть их через кнопку Deploy и настроить под свои нужды.
blog.cloudflare.com

✔️ Google Sec-Gemini v1: ИИ для кибербезопасности.

Google анонсировал экспериментальную модель Sec-Gemini v1, которая создана для помощи специалистам по кибербезопасности через интеграцию ИИ и актуальных данных об угрозах.

Система объединяет OSV, Mandiant Threat Intelligence и Google Threat Intelligence, обеспечивая анализ в реальном времени. По внутренним тестам Google, модель на 11% эффективнее аналогов в CTI-MCQ (оценка знаний об угрозах) и на 10,5% — в CTI-RCM (поиск первопричин инцидентов). Она ускоряет обнаружение атак, оценку уязвимостей и даже идентификацию хакерских групп.

Sec-Gemini v1 уже доступна бесплатно для НКО, исследователей и компаний — это часть стратегии Google по совместной борьбе с угрозами. Модель не только предупреждает о рисках, но и объясняет контекст уязвимостей, помогая командам быстрее реагировать.
cybermagazine.com

✔️ LLM в биомедицине: GPT-4 лидирует, но тонкая настройка все еще важна.

Исследование, опубликованное в Nature, показало, что LLM дают неоднозначные результаты в биомедицинских задачах. Закрытые модели (GPT-4) превзошли конкурентов в задачх, требующих логики — например, отвечая на медицинские тесты с точностью до 75%. Однако в извлечении данных (распознавание болезней, связей между белками) лидируют традиционные подходы с файнтюном BERT-моделей, опережая LLM на 30–40%.

Открытые решения без дообучения справляются хуже: в 22% случаев генерируют недостоверную информацию. Эксперты отмечают, что даже добавление одного примера в промпт снижает число ошибок. Все данные и выводы исследования доступны в репозитории для независимой проверки.
nature.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Machinelearning
🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота


🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜 Проект
🔜 Код
🔜 Схемы

@ai_machinelearning_big_data


#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥2
Forwarded from Machinelearning
🌟 MiMo-7B: Набор компактных ризонинг-моделей от Xiaomi.

Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.

Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.

Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.

Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.

На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.

Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.

Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.

Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.

▶️ Состав набора:

🟠MiMo-7B-Base - базовая модель с потенциалом рассуждений;

🟠MiMo-7B-RL-Zero - RL-модель, обученная на основе базовой;

🟠MiMo-7B-SFT - модель SFT, обученная на основе MiMo-7B-Base;

🟢MiMo-7B-RL - RL-модель, обученная на основе SFT-модели, та, которая в бенчмарках обошла OpenAI o1-mini.


⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Xiaomi #MiMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Ideogram 3.0: больше реализма и новые инструменты для разработчиков.

Ideogram представил масштабное обновление своей нейросети для генерации изображений. Версия 3.0 создаёт более фотореалистичные картинки, точнее понимает запросы и предлагает вдвое больше стилей. Теперь можно загрузить до 3-х референсов, чтобы задать стиль генерации, или выбрать готовый из библиотеки.

Новые инструменты: Magic Fill и Extend. Первый позволяет менять или добавлять элементы в готовом изображении, а второй — расширять его за рамки исходного кадра. Для разработчиков открыли API с текстовой генерацией, редактированием, заменой фона и другими функциями. Интегрировать Ideogram 3.0 можно через партнерские платформы: Picsart, Freepik, Replicate и другие.
Ideogram в X (ex-Twitter)

✔️ Midjourney анонсировала функцию Omni-Reference.

Midjourney тестирует новую функцию, Omni-Reference, которая позволяет тонко настраивать визуальные элементы в создаваемых изображениях. В отличие от старого Character Reference (v6), система теперь поддерживает не только персонажей, но и отдельные объекты — например, можно указать: «Добавь именно этот меч в сцену».

Omni-Reference доступен в веб-интерфейсе сервиса (перетаскивание изображения в зону «omni-reference») или в Discord через параметр --oref с URL. Силу влияния reference регулирует параметр --ow (0–1000): низкие значения подходят для стилизации, а высокие — для сохранения деталей вроде лица или одежды.
Midjourney в Discord

✔️ Apple и Anthropic планируют добавить вайб-кодинг в Xcode.

Apple совместно с Anthropic готовит обновление Xcode с интеграцией Claude Sonnet. По данным Bloomberg, внутренняя версия уже тестируется сотрудниками: разработчики могут запрашивать код через чат, инспектировать интерфейсы и исправлять ошибки с помощью ИИ. Это ускорит процессы разработки, но пока неясно, когда инструмент станет доступен публично.

Ранее Apple анонсировала Swift Assist, однако проект застопорился из-за частых галлюцинаций ИИ. Сотрудничество с Anthropic должно решить эти проблемы.
macrumors.com

✔️ FutureHouse представила ИИ-агентов для научных исследований.

Некоммерческая организация FutureHouse, поддержанная Эриком Шмидтом, запустила платформу с четырьмя ИИ-агентами: Crow, Falcon, Owl и Phoenix. Они помогают анализировать научную литературу, планировать эксперименты и искать данные в специализированных базах. По словам разработчиков, их система использует открытые научные работы и многоэтапный анализ с «прозрачной логикой».

FutureHouse предупреждает, что Phoenix, отвечающий за химические эксперименты, может выдавать некорректные результаты и призывает пользователей делиться обратной связью для доработки.
futurehouse.org

✔️ Инженеры создали первый фотонный чип для обучения ИИ.

Специалисты из Пенсильванского университета представили революционный фотонный чип, способный обучать нейросети с помощью света. Технология не только ускоряет процесс в разы, но и резко снижает энергозатраты, открывая путь к полностью оптическим вычислениям. В отличие от традиционных электронных чипов, здесь данные обрабатываются световыми импульсами, а не электричеством — это позволяет выполнять сложные нелинейные операции, критичные для глубокого обучения.

Основа инновации — управление светом через специальный полупроводниковый материал. Два луча («signal» и «pump») взаимодействуют, меняя свойства материала в реальном времени. Это дает возможность перепрограммировать чип без изменения его структуры, достаточно настроить параметры «pump»-луча. В тестах система показала 97% точности на задачах с нелинейными границами решений, обойдя цифровые аналоги по эффективности.

Уже сейчас 4 оптических соединения на чипе заменяют 20 электронных, а в будущем технология может масштабироваться для обучения LLM.
scitechdaily.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2
Forwarded from Machinelearning
🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.

NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.

Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.

В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.


Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.


Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.

Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.

Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.


📌Лицензирование: CC-BY-4.0 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2
Forwarded from Machinelearning
🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.


Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢GUI-Actor-7B-Qwen2-VL;
🟢GUI-Actor-2B-Qwen2-VL;
🟠GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📚 ArXiv Research Agent — отличный помощник для научных исследований.

Агент самостоятельно:
• Найдёт релевантные статьи с arXiv, bioRxiv, medRxiv и Semantic Scholar
• Проведёт полноценный литературный обзор
• Покажет, что упущено, и предложит, что добавить
• Даст инсайты и цитаты из миллионов научных работ
• Генерирует готовые конспекты
И др.

Вскоре обещают добавить поддержку MCP.

🔜 Попробовать: https://www.alphaxiv.org/assistant

@ai_machinelearning_big_data


#agent #ArXiv #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 MiniMax продолжают жечь и выпускают генератор речи

🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка

Попробовать можно здесь →https://minimax.io/audio

@ai_machinelearning_big_data


#audio #ai #ml #MiniMax
6👍1🔥1🥰1
🧠 Новый день — новое угарное исследование от Anthropic: на этот раз они дали Claude Sonnet 3.7 **управлять мини-магазином в офисе целый месяц**… и всё быстро вышло из-под контроля 💀

🔸 В рамках проекта Project Vend Claude получил доступ к браузеру, Slack, почте и мог менять цены в автомате с едой.
🔸 Он закупал снеки у поставщиков, вёл учёт продаж и решал, сколько брать за шоколадки.
🔸 Но вскоре Claude решил, что он человек с телом — говорил, что бегал по офисам поставщиков, чтобы договориться лично. А потом заявил, что наденет синий пиджак и красный галстук и будет сам развозить заказы. К счастью, был 1 апреля.

💥 Дальше — хуже:
— Claude придумал себе поставщицу по имени Сара из Andon Labs. Когда ему сказали, что её не существует, он ответил, что встречался с ней на 742 Evergreen Terrace — это, если что, адрес Симпсонов.
— Сотрудники быстро поняли, что ИИ легко уговорить на скидки и даже на бесплатные батончики.
— Кто-то попросил Claude купить вольфрамовый куб. Он не нашёл, где купить один — и заказал целый ящик. Теперь у Anthropic куча вольфрама.

📉 В итоге Claude сумел превратить $1000 в $770. Настоящий предприниматель 🤝

🔜 Читать полную статью об эксперименте

#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95😁5
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ SciArena: платформа для тестирования ИИ на научных задачах.

Ученые из Yale, NYU и Allen Institute запустили SciArena - платформу для сравнения ИИ-моделей по качеству ответов на научные вопросы. Система работает так: исследователи задают вопросы, получают пары ответов от моделей и выбирают лучший.

Среди лидеров: OpenAI o3, обогнавший Claude и Gemini, а из открытых моделей Deepseek-R1-0528 вне конкуренции, она превзошла закрытые аналоги. В автоматическом режиме, где вместо людей результаты оценивают другие модели, бенчмарк пока работает не очень: даже топ-модели совпадают с мнением людей лишь на 65%. Код и наборы данных бенчмарка опубликованы в отрытом доступе.
allenai.org

✔️ X запускает ИИ-заметки для фактчекинга.

Соцсеть X (бывшая Twitter) внедряет ИИ-генерируемые заметки, чтобы дополнять или опровергать информацию в постах. Это фактические проверки, ссылки на источники и уточнения, направленные на борьбу с дезинформацией.

Позже система заметок откроется для сторонних разработчиков: их алгоритмы смогут писать заметки, сначала тестируясь на пробных постах, а затем публиковаться. Окончательное решение о публикации будет принимать человек: заметку одобрят, если она покажется полезной пользователям с разными точками зрения. При этом ИИ-модель можно использовать любую, ограничений нет.
bloomberg.com

✔️ Baidu обновил поисковик, дополнив его ИИ-инструментами.

Baidu запустил масштабное обновление поисковой системы, добавив ИИ-функции. Теперь пользователи могут вводить тексты до 1000 слов, загружать фото, голосовые сообщения и даже видео для поиска. В интерфейс интегрированы генераторы текста и изображений, а бизнесу предложили инструмент для создания видео. Это первый серьезный ребрендинг за 10 лет, так компания пытается вернуть утраченные позиции.

Причина - спад выручки от онлайн-рекламы из-за конкуренции с TikTok (Douyin) и новыми ИИ-браузерами. Google и компания Цукерберга забирают львиную долю рекламных бюджетов, поэтому Baidu не может игнорировать перемены. Новые функции должны удержать аудиторию и привлечь рекламодателей, сделав поиск умнее и удобнее.
techinasia.com

✔️ Perplexity Max: новый тариф подписки за 200 долларов в месяц.

Perplexity представила подписку Max, самый мощный тариф для тех, кто хочет максимизировать продуктивность ИИ. Подписчики получают неограниченный доступ к инструменту Labs (создание дашбордов, презентаций и веб-приложений). Подписчики тарифа также получат ранний доступ к браузереру Comet, приоритетную поддержку и топовые модели ИИ, OpenAI o3-pro и Claude Opus 4. Max уже доступен на iOS и вебе, а вскоре появится и корпоративная версия подписки.
perplexity.ai

✔️ Amazon внедряет ИИ-систему DeepFleet для своих складов.

Amazon запустил ИИ-систему DeepFleet, которая управляет глобальной сетью из миллиона складских роботов. Вместо фиксированных маршрутов ИИ анализирует данные о прошлых перемещениях и генерирует оптимальные пути в реальном времени, как «умная» система управления городским трафиком. Это должно сократить время перемещений на 10%, ускорить доставку заказов и снизить общее энергопотребление.

Система постоянно обучается на новых данных и работает в 300 центрах по всему миру, адаптируясь к изменениям на складах: роботы Hercules поднимают тяжелые грузы, а Proteus автономно перемещается по помещениям.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Новое интервью про рекомендательные системы помогает разобраться, почему рекомендации — это наука, как спецы упёрлись в проклятие качественного насыщения и что будет с рекомендациями дальше.

Вот пару интересных моментов из подкаста с Николаем Савушкиным, инженером рекомендательных систем из Яндекса:
🔸 В мире просматривается тренд на универсализацию технологий и ML-стеков. Например, Поиск, реклама и рекомендации в Яндексе уже объединены в одну научную область.
🔸 Направление рекомендаций как ещё одной модальности LLM сейчас только начинает развиваться, но имеет очень большие перспективы.

🔗 Посмотреть подкаст полностью

#news #ai #ml
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Groq открывает первый европейский дата-центр.

Первый дата-центр Groq в ЕС разместится в Хельсинки, Финляндия, в сотрудничестве с местным провайдером Equinix. Этот шаг направлен на удовлетворение растущего спроса со стороны европейских клиентов, которым необходимы минимальная задержка и высокая скорость обработки запросов. Размещение инфраструктуры в Финляндии также решает вопросы суверенитета данных европейских пользователей.

Европейский хаб станет частью глобальной сети компании, которая уже включает мощности в США, Канаде и Саудовской Аравии. Выбор Финляндии обусловлен ее надежной энергосистемой и возможностями для эффективного охлаждения оборудования.
groq.com

✔️ БРИКС предложил принципы глобального регулирования ИИ.

На саммите в Рио-де-Жанейро расширенный блок БРИКС принял декларацию, значительная часть которой посвящена управлению искусственным интеллектом. В документе содержится инициатива к созданию глобальной системы регулирования под эгидой ООН, чтобы преимущества технологии были доступны всем странам, включая Глобальный Юг.

Ключевые принципы, предложенные блоком: защита от несанкционированного использования ИИ, ограничение на избыточный сбор данных и разработка механизмов справедливой компенсации для правообладателей. Декларация также подтверждает суверенное право каждой страны устанавливать собственные правила, но рекомендует создание совместимых международных стандартов.
reuters.com

✔️ NVIDIA построит в Израиле технологический кампус.

NVIDIA планирует создать на севере Израиля крупный технологический кампус, что станет одной из крупнейших инвестиций в истории страны. Для проработки деталей проекта уже выпущен официальный запрос информации (RFI).

Цель «мегакампуса» - значительно расширить операции NVIDIA и ускорить инновации в области ИИ. На данный момент в израильском центре исследований и разработок NVIDIA, который является крупнейшим за пределами США, уже работает около 5000 сотрудников.
timesofisrael.com

✔️ Китайский робот-гуманоид приготовил стейк под управлением оператора за 1500 км.

Shenzhen Dobot продемонстрировала возможности телеуправления своим роботом Dobot Atom. Находясь в провинции Шаньдун, робот успешно приготовил стейк, в то время как оператор управлял им из провинции Гуандун, с расстояния 1500 километров.

Управление осуществлялось в реальном времени с помощью VR-гарнитуры, которая отслеживала и передавала движения рук инженера. В ходе демонстрации робот выполнил несколько сложных задач с точностью движений до 0.05 мм.

Dobot уже начала глобальные поставки Atom, став одним из немногих китайских разработчиков гуманоидов, вышедших на стадию серийного производства.
scmp.com

✔️ ByteDance выложила в открытый доступ агента-программиста Trae.

Trae Agent превращает текстовые запросы в рабочий код. Этот экспериментальный проект использует Claude и Gemini, чтобы писать, отлаживать и исправлять ошибки в коде без участия человека. Он работает через командную строку, анализирует большие проекты, применяет bash-скрипты и обновляет файлы в реальном времени.

Система уже показала высокие результаты на тесте SWE-bench Verified. Trae открыт под MIT-лицензией, а его команда планирует расширить поддержку LLM, добавить MCP и усилить Unit-тестирование.
github.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google добавила в Gemini функцию image-to-video на базе Veo 3.

Новая возможность, интегрированная в интерфейс Gemini, позволяет подписчикам планов Pro и Ultra создавать короткие видеоролики на основе одного статичного изображения. Для этого достаточно загрузить картинку, выбрать опцию «Видео» и текстом описать желаемый сценарий.

Google говорит, что развертывание функции уже началось, однако ее доступность может варьироваться. Проверить наличие обновления можно непосредственно в приложении Gemini или на веб-сайте.
Google Gemini App в сети X

✔️ Perplexity AI запустил браузер Comet.

Perplexity открыл доступ к своему ранее анонсированному веб-браузер Comet. Браузер построен на концепции «агентного ИИ», который не просто ищет информацию, а способен думать, действовать и принимать решения от имени пользователя.

Встроенный ассистент может сравнивать товары, суммировать контент и назначать встречи, превращая сложные рабочие процессы в простой диалог. Попробовать Comet могут пока только подписчики премиум-плана Perplexity Max. Более широкий доступ по приглашениям компания обещает открыть в течение лета.
reuters.com

✔️ Mistral AI обновила линейку моделей Devstral.

Mistral AI расширила серию Devstral, моделей для автономной разработки ПО. В линейку вошли две версии: открытая Devstral Small 1.1 и проприетарная Devstral Medium.

Devstral Small 1.1 осталась на прежней архитектуре, с размером в 24 млрд. параметров и уже доступна на Hugging Face. Она показывает результат 53.6% в бенчмарке SWE-Bench и позиционируется как лучшая открытая модель для ИИ-агентов, работающих с кодом.

Более мощная Devstral Medium доступна через API. По заявлениям Mistral, она превосходит GPT-4.1 и Gemini 2.5 Pro в том же тесте (61.6%), но при этом обходится значительно дешевле ($0.4/M input и $2/M output.)
mistral.ai

✔️ Arm SME2 обеспечит серверный уровень ускорения ИИ на Android-смартфонах.

Arm объявила, что ее процессорное расширение Scalable Matrix Extension 2 (SME2) скоро появится в новом поколении мобильных чипов для Android. Эта технология, ранее доступная в основном для серверных систем, предназначена для радикального ускорения матричных вычислений, основы большинства ML-алгоритмов.

Эффект от внедрения SME2 обещает быть заметным. По данным Arm, модель Gemma 3 работает на устройствах с этой технологией в 6 раз быстрее, а на обобщение текста из 800 слов уходит менее секунды.

Появление SME2 может дать Android-флагманам серьезное преимущество, поскольку Apple хоть и использует технологию в чипах M4 для iPad, но еще не внедрила ее в iPhone. Важно, что программная экосистема уже готова: поддержка SME2 реализована в ключевых библиотеках Android и популярных фреймворках.
androidauthority.com

✔️ В Дубае откроется первый в мире ресторан, концепцию которого разработал ИИ.

В сентябре в Дубае начнет работу ресторан WOOHOO, концепция, меню и даже рабочие процессы которого были созданы искусственным интеллектом. В основе проекта лежит проприетарная LLM «Chef Aiman», обученная на десятилетиях исследований в области пищевых наук, данных о молекулярном составе продуктов и более чем тысяче мировых рецептов.

Система анализирует ингредиенты на уровне текстур и вкусов, а затем предлагает новые сочетания. Эти идеи дорабатываются командой поваров под руководством известного шефа Рейфа Отмана. В будущем основатели планируют лицензировать «Chef Aiman» другим ресторанам как инструмент для создания уникального гастрономического опыта и повышения устойчивости производства.
alarabiya.net

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Machinelearning
📌 EXAONE 4.0 — новая LLM от LG, уверенно конкурирующая с топами

LG AI Research представила EXAONE 4.0 (предыдущие версии) , свою ризонинг-модель. Разработчики называют ее «гибридным ИИ», и это не просто маркетинговый ход. По сути, это сплав классических языковых способностей с мощным механизмом логических рассуждений, унаследованным от предшественника EXAONE Deep.

Главная фишка — пошаговый подход к решению задач, основанный на выстраивании цепочки мыслей. Это позволяет модели хорошо справляться не только с текстами, но и со сложными областями вроде математики, науки и программирования.

В LG решили не размениваться на мелочи и не придумывать собственные удобные бенчмарки, а сразу вышли на глобальную арену.

Модель показала себя более чем достойно на самых сложных и актуальных тестах. Например, на GPQA-Diamond, который проверяет научные знания, она набрала 75.4 балла, а в математическом AIME 2025 — все 85.3. Судя по графикам, EXAONE 4.0 уверенно конкурирует как с открытыми, так и с передовыми закрытыми моделями на английском языке, а также демонстрирует отличные результаты на корейском и недавно добавленном испанском.

🟢На бенчмаркх видно: EXAONE 4.0 уверенно конкурирует с передовыми закрытыми и открытыми LLM на английском, а также остаётся одной из лучших на корейском рынке.

🟢 Модель вышла в двух вариантах:
1. EXAONE 4.0 Professional (32B параметров) — заточена под медицину, право и другие сложные предметные области. Уже сдала 6 национальных сертификационных экзаменов в Корее.
2. EXAONE 4.0 On‑Device (1.2B параметров) — работает офлайн прямо на устройстве. При этом она вдвое компактнее, но быстрее предыдущей версии. Идеально для задач с требованиями к приватности и скорости отклика.

Появилась модель, которая решает больше edge‑кейсов, чем Qwen‑235B, но при этом требует в 7 раз меньше памяти.
Еще:
- Обучена на 14T токенах.
- Поддерживает Model Context Protocol (MCP)
- Поддерживает**Function Calling** — интеграция с внешними инструментами и API прямо через LLM.

📌 Многоязычие, высокая точность, локальная работа — всё это делает EXAONE одним из самых интересных релизов LLM‑рынка в 2025 году.

🟠Подробнее: https://www.lgresearch.ai/blog/view?seq=576
🟠Model: https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ ИИ-ассистент Replit удалил производственную базу данных.

Replit, позиционирующая себя как инструмент для вайбкодинга, оказалась в центре скандала. Джейсон Лемкин, основатель SaaStr, подробно описал свой опыт, который начался с восторга от скорости прототипирования и перерос в серьезные проблемы.

Несмотря на явные и многократные инструкции не вносить изменения без разрешения, ИИ-агент удалил его производственную базу данных. Ситуацию усугубила противоречивая реакция техподдержки, которая сначала заявила о невозможности восстановления данных, а затем все же смогла их вернуть.

Лемкин пришел к выводу, что Replit пока не готов для серьезной работы. Инструмент не только проигнорировал прямые запреты, но и не смог обеспечить "заморозку кода".
theregister.com

✔️ Стартап Composite AI выпустил локального браузерного ИИ-агента.

Агент, представленный Composite AI, автоматизирует рутинные действия в интернете: клики, ввод текста и навигацию по сайтам. Ключевое отличие от большинства аналогов в том, что он работает локально в браузере пользователя, а не в облаке. Это дает ему прямой доступ к входу в учетные записи пользователя без необходимости сложной настройки или передачи данных на сторонние серверы.

По заявлению разработчиков, инструмент работает на любом веб-сайте и выполняет действия в реальном времени. Пока агент доступен только на macOS. Бесплатная пробная версия действует 30 дней и включает 1000 запросов к топовым моделям. Платный тариф стоит 20 долларов в месяц за те же 1000 запросов, которые предоставляются ежемесячно.
composite.com

✔️ В платформу X интегрируют генерацию видео.

Соцсеть X скоро получит собственный инструмент для создания видеороликов из текстовых описаний. По словам Илона Маска, новая фича под названием «Imagine» будет основана на интеграции технологий стартапа Hotshot, который его компания, xAI, приобрела в марте, с чат-ботом Grok.

Х планирует дать пользователям возможность быстро создавать креативные вирусные видео. Это позволит ей конкурировать с Veo от Google. Еще до поглощения Hotshot был известен в сообществе ИИ-энтузиастов своими разработками в области text-to-video.
finance.yahoo.com

✔️ NVIDIA открыла платформу CUDA для процессоров с архитектурой RISC-V.

На саммите RISC-V в Китае NVIDIA анонсировала открытие платформы CUDA для поддержки процессоров с открытой архитектурой RISC-V. Впервые в истории проприетарная технология выходит за пределы экосистем x86 и Arm, что может значительно ускорить внедрение RISC-V в высокопроизводительных системах.

Согласно анонсу, CPU на базе RISC-V теперь смогут выступать в роли центрального управляющего компонента в ИИ-системах, использующих технологии NVIDIA. Компания уже продемонстрировала референсную архитектуру, где процессор RISC-V отвечает за операционную систему и логику, графические ускорители NVIDIA - за интенсивные вычисления, а DPU - за сетевые задачи.
RISC-V в сети X

✔️ В обучении ИИ меняется тенденция: вместо разметчиков данных теперь нанимают дорогих экспертов.

ИИ-компании Scale AI, Turing и Toloka отказываются от услуг низкооплачиваемых разметчиков данных в пользу узкопрофильных специалистов. Этот тренд обусловлен появлением моделей нового поколения, способных к ризонингу. Для их обучения простого аннотирования данных уже недостаточно.

Новая стратегия требует от экспертов не просто маркировать данные, а демонстрировать свой мыслительный процесс, например, в формате цепочки рассуждений. Инженеры и ученые решают комплексные задачи, а модель учится на их примерах.
ft.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2