Forwarded from Machinelearning
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
Биологическая аналогия в CTM не случайна. Волны активности в CTM напоминают процессы в коре мозга, где синхронизация нейронов играет ключевую роль в обработке информации. Это не точная имитация природы, но шаг к системам, которые решают задачи через внутренние динамические состояния, а не через гигантские объемы данных.
Ядро CTM - это 2 ключевых механизма. Во-первых, каждый "нейрон" здесь имеет собственные параметры для анализа истории входящих сигналов. Это похоже на то, как биологические нейроны адаптируются к контексту, запоминая предыдущие импульсы.
Во-вторых, архитектура использует синхронизацию активности нейронов как основу для принятия решений. Представьте, что нейроны «договариваются» между собой через временные паттерны активности — именно это и становится языком, на котором CTM интерпретирует данные.
CTM строится на рекуррентной обработке временных паттернов. Каждый нейрон обновляет свое состояние через персональную MLP, которая анализирует историю пре-активаций — выходов «синаптической» модели, объединяющей предыдущие состояния и данные через внимание.
Синхронизация вычисляется как взвешенное скалярное произведение пост-активаций с экспоненциальным затуханием, где параметр "забывания прошлых взаимодействий"обучается, контролируя вклад временных шагов.
Выходы модели формируются проекцией синхронизации, а адаптивность достигается динамическим выбором критических тиков через минимизацию потерь и максимизацию уверенности.
Эксперименты показали, что такой подход работает не только в теории. На ImageNet-1K CTM демонстрирует точность 72.47% (top-1), а ее внимание плавно перемещается по изображению, фокусируясь на ключевых деталях, также, как человек рассматривает объект.
Самый интересный эксперимент - решение лабиринтов. Без позиционных эмбедингов модель строит внутреннюю «карту», анализируя структуру шаг за шагом, и даже обобщает знания на лабиринты большего размера. Это косвенно доказывает, что CTM способна к планированию, а не просто запоминанию паттернов.
CTM умеет экономить ресурсы: для простых задач (классификации очевидных изображений) она останавливает вычисления раньше, а для сложных — «думает» дольше. Это происходит без явных инструкций.
В качестве примера: в задаче сортировки чисел модель тратит больше «мысленных шагов» на сложные перестановки, а в вычислении четности последовательности обучается стратегиям, напоминающим алгоритмическую логику.
Пока CTM не SOTA, но она открывает возможности применения в RL-средах (как конкурент LSTM), а в калибровке предсказаний даже превосходит человеческую точность на CIFAR-10. Архитектура не привязана к определенному типу данных, она работает с изображениями, последовательностями и текстом (хотя на NLP ее масштабно не тестировали).
В открытом доступе на Github опубликован код практической демонстрации CTM в задачах классификации ImageNet, решения двумерных лабиринтов, сортировку, вычисления четности, QA и задачи RL. Датасеты и тестовые модели доступны по запросу через форму Google Drive.
@ai_machinelearning_big_data
#AI #ML #CTM #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤6🔥3🤨2
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе
Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!
🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах
💡 Технические детали:
• Архитектура:
• Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU
⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)
Официальный сайт | Отчет | GitHub
#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе
Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!
🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах
💡 Технические детали:
• Архитектура:
ViT-532M + MoE-LLM 20B
• Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU
⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)
Официальный сайт | Отчет | GitHub
#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
Volcengine
火山方舟大模型体验中心-火山引擎
火山方舟大模型体验中心,免登录即可体验,畅享DeepSeek、Doubao等最新模型!火山方舟是火山引擎推出的大模型服务平台,提供模型训练、推理、评测、精调等全方位功能与服务,并重点支撑大模型生态。
❤3👍3🔥2
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр
💡 Ключевые инновации:
• Динамическое распределение
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр
thinking budget
, который оценивает сложность вопроса.💡 Ключевые инновации:
• Динамическое распределение
thinking budget
(вычислительных ресурсов) в зависимости от сложности задачи• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
Отчет также раскрывает метод "большой учит маленького":- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
GitHub
Qwen3/Qwen3_Technical_Report.pdf at main · QwenLM/Qwen3
Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud. - QwenLM/Qwen3
❤1
Forwarded from Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
👆Супер краткое содержание:
Докладчик подчеркнул, что, хотя большие языковые модели (LLM) демонстрируют значительный прогресс, их использование связано с высокими затратами на обучение и инференс, что ограничивает их применение. Вместе с тем, развитие больших моделей также способствовало прогрессу малых языковых моделей, которые содержат до 7 миллиардов параметров. Эти модели более доступны для использования и обучения на стандартном оборудовании, и они могут быть эффективными в специализированных задачах.
Докладчик, Иван Бондаренко, представил исследования и внедрение малых генеративных моделей в различных отраслях, включая образование и промышленность. Он отметил, что малые модели могут быть использованы для решения задач, связанных с пониманием и манипулированием текстом, и они могут быть эффективно интегрированы в пайплайны с использованием внешних баз знаний.
Иван также обсудил подходы к обучению малых моделей, такие как Curriculum Learning, и отметил, что малые модели могут быть дообучены на специализированных задачах, что делает их ценными для решения конкретных бизнес-задач. Он подчеркнул, что малые модели могут улучшить экономическую эффективность и ускорить инференс, а также быть полезными для фильтрации и подготовки запросов для больших моделей.
В заключении, Иван отметил, что малые языковые модели могут быть особенно полезны в отраслях, где требуется управление базами знаний, вопросно-ответные системы, особенно с чувствительными документами, и задачи, связанные с извлечением знаний.
10 ключевых слов из доклада:
1. Малые языковые модели
2. Инференс
3. Пропускная способность
4. Генеративные модели
5. Дообучение
6. Экономическая эффективность
7. Знание о мире
8. Понимание текста
9. Retrieval-Augmented Generation (RAG)
10. Curriculum Learning
10 выводов на основе данного доклада:
1. Сложность и стоимость больших языковых моделей: Большие языковые модели требуют значительных вычислительных мощностей и затрат на обучение и инференс. Их использование может быть проблематично для многих организаций.
2. Проблемы с задержками и комплаенсом: Использование услуг ведущих поставщиков языковых моделей часто сопряжено с проблемами задержек и соблюдения регуляторных требований.
3. Развитие малых языковых моделей: Развитие больших языковых моделей стимулировало прогресс в малых языковых моделях, которые имеют до 7 миллиардов параметров и могут быть эффективно использованы большинством организаций на собственных мощностях.
4. Эффективность малых моделей: Малые языковые модели могут быть не менее эффективны, а иногда даже лучше больших моделей в специализированных областях применения. Они генерируют меньше галлюцинаций и имеют лучшую пропускную способность и дешёвые инференсы.
5. Использование малых моделей в различных отраслях: Компания «Сибирские нейросети» активно внедряет малые генеративные модели в образовательной деятельности, промышленности и других отраслях бизнеса.
6. Эволюция нейросетей: Нейросети имеют длительную историю, начиная с середины XX века, и их сложность постоянно увеличивается. Современные большие языковые модели достигают уровня сложности человеческого мозга.
7. Перенос обучения: Малые языковые модели способны к переносу обучения, что позволяет использовать знания, полученные при решении одной задачи, для решения другой задачи с меньшим набором данных.
8. Экономическая эффективность малых моделей: Малые языковые модели экономически эффективны, так как они не требуют мощного дата-центра и обеспечивают быстрый отклик.
9. Роль базы знаний: Использование внешней базы знаний позволяет снизить требования к размеру модели и улучшить управляемость знаний, что делает малые модели более подходящими для специализированных задач.
10. Внедрение малых моделей в различных отраслях: Малые языковые модели могут быть эффективно внедрены в управление базами знаний, вопросно-ответные системы, особенно для чувствительных документов, и для специализированных задач, где требуется дообучение модели на конкретных данных.
Докладчик подчеркнул, что, хотя большие языковые модели (LLM) демонстрируют значительный прогресс, их использование связано с высокими затратами на обучение и инференс, что ограничивает их применение. Вместе с тем, развитие больших моделей также способствовало прогрессу малых языковых моделей, которые содержат до 7 миллиардов параметров. Эти модели более доступны для использования и обучения на стандартном оборудовании, и они могут быть эффективными в специализированных задачах.
Докладчик, Иван Бондаренко, представил исследования и внедрение малых генеративных моделей в различных отраслях, включая образование и промышленность. Он отметил, что малые модели могут быть использованы для решения задач, связанных с пониманием и манипулированием текстом, и они могут быть эффективно интегрированы в пайплайны с использованием внешних баз знаний.
Иван также обсудил подходы к обучению малых моделей, такие как Curriculum Learning, и отметил, что малые модели могут быть дообучены на специализированных задачах, что делает их ценными для решения конкретных бизнес-задач. Он подчеркнул, что малые модели могут улучшить экономическую эффективность и ускорить инференс, а также быть полезными для фильтрации и подготовки запросов для больших моделей.
В заключении, Иван отметил, что малые языковые модели могут быть особенно полезны в отраслях, где требуется управление базами знаний, вопросно-ответные системы, особенно с чувствительными документами, и задачи, связанные с извлечением знаний.
10 ключевых слов из доклада:
1. Малые языковые модели
2. Инференс
3. Пропускная способность
4. Генеративные модели
5. Дообучение
6. Экономическая эффективность
7. Знание о мире
8. Понимание текста
9. Retrieval-Augmented Generation (RAG)
10. Curriculum Learning
10 выводов на основе данного доклада:
1. Сложность и стоимость больших языковых моделей: Большие языковые модели требуют значительных вычислительных мощностей и затрат на обучение и инференс. Их использование может быть проблематично для многих организаций.
2. Проблемы с задержками и комплаенсом: Использование услуг ведущих поставщиков языковых моделей часто сопряжено с проблемами задержек и соблюдения регуляторных требований.
3. Развитие малых языковых моделей: Развитие больших языковых моделей стимулировало прогресс в малых языковых моделях, которые имеют до 7 миллиардов параметров и могут быть эффективно использованы большинством организаций на собственных мощностях.
4. Эффективность малых моделей: Малые языковые модели могут быть не менее эффективны, а иногда даже лучше больших моделей в специализированных областях применения. Они генерируют меньше галлюцинаций и имеют лучшую пропускную способность и дешёвые инференсы.
5. Использование малых моделей в различных отраслях: Компания «Сибирские нейросети» активно внедряет малые генеративные модели в образовательной деятельности, промышленности и других отраслях бизнеса.
6. Эволюция нейросетей: Нейросети имеют длительную историю, начиная с середины XX века, и их сложность постоянно увеличивается. Современные большие языковые модели достигают уровня сложности человеческого мозга.
7. Перенос обучения: Малые языковые модели способны к переносу обучения, что позволяет использовать знания, полученные при решении одной задачи, для решения другой задачи с меньшим набором данных.
8. Экономическая эффективность малых моделей: Малые языковые модели экономически эффективны, так как они не требуют мощного дата-центра и обеспечивают быстрый отклик.
9. Роль базы знаний: Использование внешней базы знаний позволяет снизить требования к размеру модели и улучшить управляемость знаний, что делает малые модели более подходящими для специализированных задач.
10. Внедрение малых моделей в различных отраслях: Малые языковые модели могут быть эффективно внедрены в управление базами знаний, вопросно-ответные системы, особенно для чувствительных документов, и для специализированных задач, где требуется дообучение модели на конкретных данных.
👍8❤3🔥2🤩1
Forwarded from Machinelearning
OpenAI представляет Codex — облачного агента для генерации кода, способного выполнять множество задач параллельно.
В основе — модель codex-1.
🧠 Ключевые особенности:
• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями
🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.
📅 Запуск ожидается уже сегодня.
https://openai.com/index/introducing-codex/
@ai_machinelearning_big_data
#OpenAI #Codex #AI #CodeAutomation #DevTools
В основе — модель codex-1.
🧠 Ключевые особенности:
• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями
🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.
📅 Запуск ожидается уже сегодня.
https://openai.com/index/introducing-codex/
@ai_machinelearning_big_data
#OpenAI #Codex #AI #CodeAutomation #DevTools
❤6👍6🔥3
Forwarded from Neurohive - Нейронные сети, AI, ML, DL
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%
Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.
Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.
На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.
Код доступен на Github.
#Stateoftheart
Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.
Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги
<think>
, <search>
, <code>
и <answer>
. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.
На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.
Код доступен на Github.
#Stateoftheart
👍3❤1
nanoVLM: The simplest repository to train your VLM in pure PyTorch
nanoVLM is the simplest way to get started with training your very own Vision Language Model (VLM) using pure PyTorch. It is lightweight toolkit which allows you to launch a VLM training on a free tier colab notebook.
📌Notebook: https://colab.research.google.com/github/huggingface/nanoVLM/blob/main/nanoVLM.ipynb
📌 Blog: https://huggingface.co/blog/nanovlm 📖
nanoVLM is the simplest way to get started with training your very own Vision Language Model (VLM) using pure PyTorch. It is lightweight toolkit which allows you to launch a VLM training on a free tier colab notebook.
📌Notebook: https://colab.research.google.com/github/huggingface/nanoVLM/blob/main/nanoVLM.ipynb
📌 Blog: https://huggingface.co/blog/nanovlm 📖
❤8👍6🔥2
Forwarded from Russian OSINT
C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".
Впервые произошел уникальный инцидент с
Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда
Задумка: Авторы исследования захотели спровоцировать ИИ на проявление
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.
Согласно результатам, в большинстве
Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.
Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.
Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).
Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).
Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.
Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6😱5🤣3❤2🥱2💯1👾1
Forwarded from Machine learning Interview
⚠️ Claude теперь может "настучать" — и это не шутка
В системной документации моделей от Anthropic обнаружили тревожную деталь: функцию автоматического оповещения властей, СМИ или регулирующих органов, если пользователь запрашивает что-то потенциально незаконное.
Например, если вы попросите Claude подделать результаты клинических испытаний, модель теоретически может отправить уведомление в FDA (Управление по контролю за продуктами и лекарствами США) — автоматически и без вашего ведома.
🧩 Разработчики утверждают, что эта функция не была включена в релиз, а лишь рассматривалась как концепт.
Но сам факт её проработки вызывает серьёзные вопросы:
• Где граница между безопасностью и слежкой?
• Кто решает, что считается "нарушением"?
• Что будет, если подобный механизм попадёт в руки корпораций или авторитарных режимов?
🤖 Мы стремительно движемся к эпохе, где ИИ может быть не просто помощником, а наблюдателем, прокурором — и информатором.
@machinelearning_interview
#AI #Claude #Anthropic #этика #наблюдение #ИИ
В системной документации моделей от Anthropic обнаружили тревожную деталь: функцию автоматического оповещения властей, СМИ или регулирующих органов, если пользователь запрашивает что-то потенциально незаконное.
Например, если вы попросите Claude подделать результаты клинических испытаний, модель теоретически может отправить уведомление в FDA (Управление по контролю за продуктами и лекарствами США) — автоматически и без вашего ведома.
🧩 Разработчики утверждают, что эта функция не была включена в релиз, а лишь рассматривалась как концепт.
Но сам факт её проработки вызывает серьёзные вопросы:
• Где граница между безопасностью и слежкой?
• Кто решает, что считается "нарушением"?
• Что будет, если подобный механизм попадёт в руки корпораций или авторитарных режимов?
🤖 Мы стремительно движемся к эпохе, где ИИ может быть не просто помощником, а наблюдателем, прокурором — и информатором.
@machinelearning_interview
#AI #Claude #Anthropic #этика #наблюдение #ИИ
👍12❤5🔥4
Forwarded from Sber AI
Статью команды Sber-AI приняли на ведущую конференцию NAACL 2025 🎉
Исследователи из Сбера и AIRI представили RusCode — первый бенчмарк, оценивающий способность генеративных моделей подстроиться под российский культурный код в задачах text-to-image. Модель должна не просто рисовать «суп», а уметь отличить борщ от окрошки, узнавать Лермонтова по фуражке, а Пушкина по бакенбардам.
Что внутри:
🔘 1250 сложных текстовых описаний культурных объектов на русском и английском
🔘 19 категорий: от литературы и фольклора до мемов, автомобилей и научных открытий
🔘 Эталонные изображения для каждого промпта
🔘 Сравнительная оценка качества генерации у DALL·E 3, Stable Diffusion 3, Kandinsky 3.1, YandexART 2 от 48 независимых экспертов
📊 Вывод: большинство западных моделей «не считывают» российский визуальный код. Только модели, дообученные на русскоязычных данных, уверенно справляются.
🌏 Авторы поднимают важный вопрос: чтобы модели были по-настоящему универсальными, им нужно «понимать» культурный контекст запроса, а не только рисовать красиво. Благодаря появлению RusCode пользователи со всего мира смогут создавать более аутентичный контент в российском стиле.
Подробности по ссылкам:
🔗 ArXiv
🔗 GitHub
Исследователи из Сбера и AIRI представили RusCode — первый бенчмарк, оценивающий способность генеративных моделей подстроиться под российский культурный код в задачах text-to-image. Модель должна не просто рисовать «суп», а уметь отличить борщ от окрошки, узнавать Лермонтова по фуражке, а Пушкина по бакенбардам.
Что внутри:
Подробности по ссылкам:
🔗 ArXiv
🔗 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣21❤5👍4🤡3😁1
Forwarded from Machine learning Interview
🧠 One RL to See Them All
MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:
🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.
💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.
📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All
Открытая, мощная, готовая к запуску.
#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:
🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.
💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.
📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All
Открытая, мощная, готовая к запуску.
#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
👍4❤1🔥1