Machinelearning

🏥 Что MedAgentSim -
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.

Всё происходит автоматически, как в игре или симуляторе.

🌟 Чем отличается от обычных ИИ-медицинских систем?
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.

2. Самообучение через память и размышления:

Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).

3. Можно управлять вручную:

По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.

4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).

5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.

GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.

Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.

🟡

Paper

🟡

Project

🟡

Github

@ai_machinelearning_big_data

#ml #ai #aiagents #simulation #MedAgent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍76❤19🔥13

17K views19:10

Machinelearning

✔️

OpenAI анонсировала открытую модель: релиз через несколько месяцев.

OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.

Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X

✔️

В Китае появились цены на медицинские услуги с использованием интерфейсов "мозг-компьютер".

Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).

ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov

✔️

Runway выпустила Gen-4.

Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml

✔️

SANA-Sprint: SOTA в реалтайм-диффузии.

MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.

SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github

✔️

Microsoft расширяет функционал Copilot+ для устройств на AMD, Intel и Snapdragon.

Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.

Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com

✔️

Apple разрабатывает ИИ-агента для здоровья.

Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.

Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts

✔️ Krea представила новый генератор 3D-моделей с использованием передовой технологии Hunyuan 3D.

Модели легко импортируются в Blender.
Krea

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥23❤13❤‍🔥1

15K viewsedited 05:58

Machinelearning

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Video-T1 — это метод в области машинного обучения, направленный на улучшение качества генерации видео посредством масштабирования вычислений на этапе инференса (Test-Time Scaling, TTS).

Вместо увеличения размеров модели или объема обучающих данных, Video-T1 использует дополнительные вычислительные ресурсы во время инференса для повышения качества генерированных видео.

🌟 Как работает Video-T1:

😶Случайный Линейный Поиск (Random Linear Search):

Процесс: Этот метод довольно прямолинейный. Берется несколько (N) разных случайных начальных "шумов" (Gaussian noise).

Для каждого из этих шумов запускается стандартный процесс генерации видео (пошаговое "очищение" от шума, denoising) от начала до конца, создавая N полных видео-кандидатов.

Специальные модели или алгоритмы, называемые "тестовыми верификаторами" (test verifiers), оценивают каждый из N сгенерированных видеороликов по разным критериям (например, соответствие тексту, качество изображения, правдоподобность движения).

Выбирается то видео, которое получило наивысшую оценку от верификаторов.

➖ Недостаток: Требует генерации множества полных видео, что может быть очень затратно по времени и ресурсам, особенно для длинных видео.

😶

Поиск "Дерево Кадров" (Tree of Frames - ToF):
Процесс: Этот метод более хитрый и потенциально более эффективный. Он разбивает генерацию на этапы и строит "дерево" возможных вариантов, отсекая бесперспективные "ветви" на ранних стадиях.

(a) Этап 1: Выравнивание на уровне изображений: Начинается генерация нескольких вариантов первых кадров или коротких начальных сегментов. Верификаторы оценивают, насколько хорошо эти начальные изображения соответствуют запросу. Этот этап важен, так как первые кадры сильно влияют на последующие. Отбираются лучшие "стартовые" ветви.

(b) Этап 2: Поиск с динамической проверкой: Для перспективных "ветвей" генерация продолжается кадр за кадром (или короткими клипами). На этом этапе верификаторы (возможно, с динамическими подсказками, адаптирующимися к уже сгенерированному) фокусируются на стабильности движения и физической правдоподобности. Они дают обратную связь, которая направляет "эвристический поиск" — алгоритм решает, какие "ветви" дерева продолжать растить, а какие — "подрезать" (prune) как неперспективные. Это экономит ресурсы, не тратя их на заведомо плохие продолжения.

(c) Этап 3: Финальная оценка: Когда несколько полных видео- "ветвей" сгенерированы, финальные верификаторы оценивают их общее качество и полное соответствие исходному текстовому запросу. Выбирается лучшее видео из финальных кандидатов.
Преимущество: Позволяет более эффективно использовать вычислительный бюджет, концентрируясь на наиболее обещающих вариантах генерации на каждом этапе.

Зачем нужен Video-T1:
1) Улучшение качества видео:
Применение TTS позволяет существенно повысить качество сгенерированных видео и их соответствие заданным текстовым описаниям.

2) Экономия ресурсов:
Вместо дорогостоящего увеличения размеров моделей или повторного обучения на больших объемах данных, Video-T1 использует дополнительные вычисления на этапе инференса, что более экономично.

3) Метод может быть адаптирован к различным моделям генерации видео, обеспечивая стабильное улучшение качества при увеличении вычислительных ресурсов во время инференса.

TTS особенно хорошо работает для улучшения видео по параметрам, которые легко оценить:
* Соответствие общим запросам (например, генерация определенной сцены или объекта).
* Качество изображения (четкость, детализация).

🟡

Github

🟡

Paper

🟡

Project

@ai_machinelearning_big_data

#ai #ml #videogenerator #video

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤11🔥4🕊1😭1

14.2K views10:01

Machinelearning

2:07

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Новый нейропротез 'мозг-голос' для восстановления естественной коммуникации.

Женщина, которая потеряла способность говорить 18 лет назад, теперь общается через свой мозг, в режиме реального времени, своим собственным голосом.

Исследование, опубликованное вчера в журнале Nature Neuroscience, описывает прорыв в области интерфейсов мозг-компьютер (BCI), позволяющий женщине, потерявшей способность говорить из-за инсульта, вновь общаться в реальном времени с использованием ее собственного голоса.

Этот инновационный подход преобразует нейронные сигналы, связанные с намерением говорить, непосредственно в синтезированную речь без необходимости в наборе текста или звуковых попытках.

🔥

Ключевые аспекты исследования:

- Участница исследования: 47-летняя женщина, потерявшая способность двигаться и говорить после инсульта 18 лет назад.

- Технология: Имплантация массива из 253 электродов (ECoG) на моторную кору головного мозга, отвечающую за речь.

- Процесс: Запись нейронной активности во время мысленного произнесения предложений, последующая обработка с использованием глубоких нейронных сетей для декодирования намерения речи и синтеза звуков, основанных на ее голосе до травмы.

- Скорость и точность: Система позволяет достигать скорости речи до 90 слов в минуту с задержкой менее секунды, что значительно превосходит предыдущие методы, обеспечивавшие скорость 8–14 слов в минуту.

- Результаты: Женщина смогла общаться, используя синтезированную речь, которая отражает ее собственный голос, что способствует восстановлению чувства идентичности и улучшению качества жизни.

Это исследование демонстрирует потенциал BCI-технологий в восстановлении речи у людей с тяжелыми формами паралича и открывает новые перспективы для разработки нейропротезов, способных преобразовывать мыслительные процессы непосредственно в речь.

🟡

Статья в Nature

@ai_machinelearning_big_data

#neural #science

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥101👍25❤14👏4🙏2🥱1

14.7K views11:00

Machinelearning

✔️

"Speech and Language Processing": 3-е издания книги

Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.

🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP.

Книга разделена на три части, включающие 24 основные главы и 8 приложений.

Темы охватывают широкий спектр, включая:
😶Фундаментальные алгоритмы
😶Приложения NLP (Обработки Естественного Языка)
😶Регулярные выражения
😶Нейронные сети и трансформеры,
😶Машинный перевод и другие аспекты NLP
😶Аннотирование (или Разметка) лингвистической структуры.

Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.

Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.

🟡

Книга в PDF

🟡

Все Главы

🟡

Еще книги по NLP

@ai_machinelearning_big_data

#freebook #opensource #nlp

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍46🔥15❤7🤔2💯1

24.9K views16:12

Machinelearning

✔️

Qwen3, по слухам, будет представлена на следующей неделе.

Китайский медиапортал Sina.com.cn сообщил, что в его распоряжении есть информация, указывающая на то, что Alibaba Group планирует выпуск новой модели Qwen3 следующей неделе (7- 11 апреля). По словам экспертов медиаресурса Huxiu.com , это будет самый важный модельный продукт Alibaba в первой половине 2025 года, после выпуска DeepSeek-R1 команда Alibaba Cloud Basic Model Team еще больше сместила вектор разработки в сторону способности модели к рассуждениям.

Sina Technology обратилась за подтверждением к Alibaba Cloud, но на момент публикации официального ответа не последовало.
sina.com.cn

✔️

Microsoft закрывает ИИ-лабораторию в Шанхае.

Microsoft свернула работу своей лаборатории IoT и ИИ в технологическом кластере Чжанцзян (Шанхай), следуя стратегии сокращения присутствия в Китае. Объект, открытый в 2019 году для поддержки местных стартапов уже опустел: логотип демонтирован, оборудование вывезено. За 5 лет лаборатория помогла реализовать 258 проектов, привлекла 9,4 млрд юаней инвестиций и обучила около 10 тыс. специалистов.

Решение закрыть центр стало частью плана ухода Microsoft с китайского рынка. В 2023 году компания предложила сотрудникам, работающим над ИИ, переехать за рубеж, а также закрыла все розничные магазины в стране. По словам президента Microsoft Брэда Смита, на Китай приходится всего 1,5% глобальной выручки.
scmp.com

✔️

Руководитель отдела исследований FAIR Жоэль Пино покинет свой пост в мае.

Жоэль Пино, вице-президент по исследованиям в области ИИ компании Марка Цукерберга и глава группы FAIR, объявила о своих планах покинуть компанию в мае после почти 8 лет работы. Пино возглавляла FAIR с начала 2023 года и курировала разработку моделей Llama.

Ожидается, что уход Пино приведет к появлению вакансии высокого уровня в подразделении ИИ компании, но непосредственный преемник пока не назван.
wsj.com

✔️

Все SOTA-модели провалились на матолимпиаде-2025.

Тесты топовых LLM, проведенные matharena.ai на сложных задачах математической олимпиады США (USAMO-2025) показали печальные результаты. Модели решали 6 доказательных задач — каждая оценивалась в 7 баллов, высший балл - 42. Лидеры теста (DeepSeek-R1 и Gemini-2.0-flash-thinking) набрали меньше 5%, что ставит под сомнение их способность к глубокому математическому анализу.

Несмотря на провал, часть специалистов уверена — прогресс LLM в математике всё же есть, и он не сводится к «загрязнению» данных. Исследование, в рамка которого проводилось тестирование - «Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad» подытоживает: LLM, даже лучшим, пока далеко до уровня человека в соревновательных дисциплинах.
matharena.ai

✔️

OpenAI представила новый голос ChatGPT "Shade".

OpenAI добавила новую голосовую опцию для ChatGPT под кодовым названием "Shade". Этот голос, описанный как "Поговори с понедельником", имеет характерную визуализацию "угрюмого черного" в расширенном голосовом режиме.

Новая опция доступна в приложении для iOS, и пользователи отмечают его уникальное звучание и эстетику "тяжелого понедельника".
OpenAI в X (ex-Twitter)

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍55❤13🔥7❤‍🔥1

15.8K views06:59

About

Blog

Apps

Platform