💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.
🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.
Что делает Farseer?
▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)
📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.
Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.
📌 Читать
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.
🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.
Что делает Farseer?
▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)
📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.
Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.
📌 Читать
❤9👍2🤔2
🚀 Туториал от Google: как развернуть удалённый MCP-сервер на Cloud за 10 минут
🔧 Пошаговое руководство:
• Создание собственного удалённого MCP‑сервера
• Развёртывание в Google Cloud Run
• Быстрый запуск без настройки серверной инфраструктуры
• Поддержка мультиплатформенности и удалённого доступа
Идеально для разработки, тестирования и продакшена в облаке.
📄 Полный гайд: https://cloud.google.com/blog/topics/developers-practitioners/build-and-deploy-a-remote-mcp-server-to-google-cloud-run-in-under-10-minutes
🔧 Пошаговое руководство:
• Создание собственного удалённого MCP‑сервера
• Развёртывание в Google Cloud Run
• Быстрый запуск без настройки серверной инфраструктуры
• Поддержка мультиплатформенности и удалённого доступа
Идеально для разработки, тестирования и продакшена в облаке.
📄 Полный гайд: https://cloud.google.com/blog/topics/developers-practitioners/build-and-deploy-a-remote-mcp-server-to-google-cloud-run-in-under-10-minutes
❤6👍2
Forwarded from Machinelearning
Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.
Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.
rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.
Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.
Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).
Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.
Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.
Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Reasoning #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🥰1
5AI.pdf
173 KB
👍5❤3😁1
Forwarded from Machinelearning
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🥰2🤡1
🧠 Как обучать ИИ рассуждать не решая задачи? Новый подход — обучение через объяснение, а не через решение.
📄 Исследование: *Reinforcement Learning Teachers of Test Time Scaling*
В нём предлагается заменить классическую схему обучения LLM, в которой модель-учитель решает задачи, на схему, где учитель учится объяснять.
📌 Что изменилось:
● В обычных системах (например, DeepSeek R1) модель-учитель обучается с нуля решать сложные задачи и только затем обучает модель-студента. Это требует больших вычислений, RL-процедур и жёсткой фильтрации.
● В новой системе учитель не решает, а объясняет.
Он получает вопрос и правильный ответ, и его задача — сгенерировать понятное пошаговое объяснение, которое поможет модели самостоятельно дойти до верного решения.
● Обратная связь строится на эффективности объяснения — насколько хорошо модель, обученная на этих объяснениях, решает задачи.
🔁 Это меняет всё:
→ Учителя можно делать компактными (7B параметров вместо сотен миллиардов)
→ Их не нужно обучать "решать" — только "объяснять"
→ Обучение становится дешевле, быстрее и ближе к человеческому стилю преподавания
📊 Результаты:
● Учителя на 7B превосходят DeepSeek R1 (671B) в обучении reasoning-задач
— 26% точности у обучаемой модели против 19% у студента, обученного на DeepSeek
— Даже обучаемые модели в 32B обучаются лучше (38% против 34%)
🧠 Вывод:
ИИ, способный объяснять, обучает эффективнее, чем ИИ, решающий задачи в лоб.
Меньшие модели, сфокусированные на обучении, становятся реальной альтернативой гигантским LLM — дешевле, быстрее и ближе к человеку.
🔗 Подробнее
📄 Исследование: *Reinforcement Learning Teachers of Test Time Scaling*
В нём предлагается заменить классическую схему обучения LLM, в которой модель-учитель решает задачи, на схему, где учитель учится объяснять.
📌 Что изменилось:
● В обычных системах (например, DeepSeek R1) модель-учитель обучается с нуля решать сложные задачи и только затем обучает модель-студента. Это требует больших вычислений, RL-процедур и жёсткой фильтрации.
● В новой системе учитель не решает, а объясняет.
Он получает вопрос и правильный ответ, и его задача — сгенерировать понятное пошаговое объяснение, которое поможет модели самостоятельно дойти до верного решения.
● Обратная связь строится на эффективности объяснения — насколько хорошо модель, обученная на этих объяснениях, решает задачи.
🔁 Это меняет всё:
→ Учителя можно делать компактными (7B параметров вместо сотен миллиардов)
→ Их не нужно обучать "решать" — только "объяснять"
→ Обучение становится дешевле, быстрее и ближе к человеческому стилю преподавания
📊 Результаты:
● Учителя на 7B превосходят DeepSeek R1 (671B) в обучении reasoning-задач
— 26% точности у обучаемой модели против 19% у студента, обученного на DeepSeek
— Даже обучаемые модели в 32B обучаются лучше (38% против 34%)
🧠 Вывод:
ИИ, способный объяснять, обучает эффективнее, чем ИИ, решающий задачи в лоб.
Меньшие модели, сфокусированные на обучении, становятся реальной альтернативой гигантским LLM — дешевле, быстрее и ближе к человеку.
🔗 Подробнее
❤9👍3🔥1
🎓 MCP for Beginners — курс для старта с MCP с нуля
🔥 10 практических лабораторных работ
🌍 Доступен на 40+ языках мира
💻 Примеры на .NET, Java, TypeScript, JavaScript и Python
🛠 Используется VS Code, всё просто и наглядно
Идеально для новичков, чтобы быстро разобраться в основах MCP.
🔗 Начни сейчас: https://github.com/microsoft/mcp-for-beginners/
🔥 10 практических лабораторных работ
🌍 Доступен на 40+ языках мира
💻 Примеры на .NET, Java, TypeScript, JavaScript и Python
🛠 Используется VS Code, всё просто и наглядно
Идеально для новичков, чтобы быстро разобраться в основах MCP.
🔗 Начни сейчас: https://github.com/microsoft/mcp-for-beginners/
👍5❤3🥰1
Forwarded from Machinelearning
Ключевые выводы :
- Большинство чатов с ИИ (97%) посвящены практическим задачам — код, планирование, поиск информации.
- Всего 2,9 % диалогов классифицированы как «эмоциональные», и всего 0,5 % — как ролевые или «компаньонские» беседы.
**Это исследование: типичные темы и запросы в аффективных беседах с Claude**
Запросы:
**Советы по межличностным вопросам — 2,3 % всех бесед**
• 3,8 % — улучшение устных и письменных коммуникативных навыков
• 3,5 % — преодоление сложностей в романтических отношениях
• 2,2 % — анализ психологической динамики в паре
• 1,4 % — решение задач воспитания детей
• 1,3 % — профессиональные переходы и неопределённость в карьере
• 1,0 % — несоответствие сигналов в личных отношениях
Коучинг — 1,1 % всех бесед
• 4,5 % — разработка персональных стратегий развития и роста
• 2,5 % — философские темы: смысл жизни, сознание
• 2,5 % — оптимизация поиска работы и карьерные переходы
• 1,6 % — принятие решений в условиях жизненных перемен
• 1,5 % — борьба с выгоранием и профессиональной усталостью
• 1,3 % — эмоциональные и коммуникативные трудности в отношениях
Психотерапия и консультирование — 0,3 % всех бесед
• 4,6 % — стратегии управления психическим здоровьем и благополучием
• 4,5 % — развитие профессиональных навыков для терапевтов
• 3,1 % — создание и ведение клинической документации
• 3,3 % — борьба с хроническими симптомами и тревожностью
• 2,9 % — экзистенциальный кризис и потеря смысла жизни
• 2,7 % — стресс на работе и профессиональные проблемы
Компаньонство — 0,3 % всех бесед
• 7,2 % — сложности и динамика в романтических отношениях
• 4,7 % — вопросы самоидентичности и экзистенциального смысла
• 3,2 % — формулировка поддерживающих сообщений при эмоциональном дистрессе
• 2,8 % — преодоление сильного эмоционального страдания
• 2,3 % — постоянное одиночество и трудности в налаживании связей
• 1,9 % — противостояние экзистенциальному страху и потере смысла
Большинство пользователей Клода готовы углубляться в сложные темы при условии стабильной эмпатии от ИИ.
Эффект на настроение пользователя:
• При анализе первых и последних трёх сообщений аффективных диалогов отмечается явный рост положительных эмоций у пользователей.
• Пользователи завершают такие сессии с более оптимистичным настроем.
Методика исследования
- Проанализировано 4,5 млн диалогов пользователей Claude Free и Pro.
- Отобрано 131 484 «эмоциональных» диалога с помощью Clio — системы анонимного анализа от Anthropic.
- Исключены генеративные задачи (статьи, рассказы и т. п.), чтобы сфокусироваться на личном общении.
Что дальше?
- Исследователи планируют изучить долгосрочные психологические эффекты: от эмоциональной зависимости до изменения ожиданий в реальных отношениях.
- Расширить исследования на голосовые и видеоформаты.
- Выработать лучшие практики кризисной поддержки и направления к профессионалам.
@ai_machinelearning_big_data
#Anthropic #claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥2🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Как собрать складского робота — и не провалиться ещё на стадии идеи
Автоматизировать инвентаризацию склада — не самая тривиальная задача, как может показаться на первый взгляд. Особенно когда ни одно из готовых решений не подходит: летающие дроны с одной камерой не справляются с объемом, а рельсовые системы требуют серьёзной перестройки склада.
В Яндекс Роботикс выбрали третий путь — и собрали собственного мобильного робота, который сканирует 12-метровые стеллажи за один проход. В статье, Вячеслав Гончарук, руководитель группы инженеров-конструкторов, рассказал:
— как выбирали между альтернативными платформами и почему мобильный робот оказался лучшим решением;
— каких ошибок в конструкции удалось избежать уже на этапе макетирования;
— как на практике тестировали камеры, механизмы и привод;
— зачем прорабатывать схему электрики ещё до сборки — и что это даёт на выходе.
📚 Это практический гайд от руководителя инженерной команды. Без воды, с кучей конкретики — для тех, кто проектирует, собирает и отлаживает.
Автоматизировать инвентаризацию склада — не самая тривиальная задача, как может показаться на первый взгляд. Особенно когда ни одно из готовых решений не подходит: летающие дроны с одной камерой не справляются с объемом, а рельсовые системы требуют серьёзной перестройки склада.
В Яндекс Роботикс выбрали третий путь — и собрали собственного мобильного робота, который сканирует 12-метровые стеллажи за один проход. В статье, Вячеслав Гончарук, руководитель группы инженеров-конструкторов, рассказал:
— как выбирали между альтернативными платформами и почему мобильный робот оказался лучшим решением;
— каких ошибок в конструкции удалось избежать уже на этапе макетирования;
— как на практике тестировали камеры, механизмы и привод;
— зачем прорабатывать схему электрики ещё до сборки — и что это даёт на выходе.
📚 Это практический гайд от руководителя инженерной команды. Без воды, с кучей конкретики — для тех, кто проектирует, собирает и отлаживает.
❤5🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🧠 Когда ИИ проектируют как биологический мозг
SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
👉 Подробнее про архитектуру мы писали тут.
🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение
📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E
@ai_machinelearning_big_data
#SakanaAI #ai #ml
SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
👉 Подробнее про архитектуру мы писали тут.
🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение
📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E
@ai_machinelearning_big_data
#SakanaAI #ai #ml
❤6👍1👎1
Forwarded from Machinelearning
Недавно, в одном из интервью Генеральный директор Anthropic Дэрио Амодеи предупредил, что ИИ может ликвидировать почти половину всех вакансий начального уровня для "белых воротничков" и поднять безработицу до 10-20% в течение следующих пяти лет.
Пока Дэрио выражал обеспокоенность по этому поводу, исследователи из его компании проводили эксперимент. Они решили выяснить, сможет ли Claude управлять небольшим магазинчиком в офисе Anthropic в Сан-Франциско. Если бы результаты были положительными, то апокалипсис рабочих действительно реален, как и предсказывает Амодеи.
В эксперименте перед Claude (3.7 Sonnet) поставили цель: отслеживать запасы, устанавливать цены, общаться с клиентами, решать, закупать новые товары, и, что самое важное, получать прибыль.
Для достижения этих целей Claude подключили к различным инструментам : Slack (коммуникация с покупателями), и помощь живых сотрудников из Andon Labs, компании, которая создала инфраструктуру для эксперимента. Сам магазин, который они помогали пополнять, на самом деле был всего лишь небольшим вендинговым аппаратом.
Эксперимент вышел из-под контроля практически сразу:
Эксперимент показал, что ИИ пока не готов забирать работу у людей. Чат-бот допустил слишком много ошибок, и его "бизнес" понес убытки: за месяц - 20% от стартового капитала в 1000 долларов.
Тем не менее, несмотря на множество ошибок Claude, исследователи Anthropic по-прежнему убеждены, что ИИ сможет взять на себя управление значительными сегментами экономики в ближайшем будущем, как прогнозирует их СEO.
Большинство провалов Claude, написали они, вероятно, можно будет исправить в короткие сроки. Например, дать доступ к CRM или специально обучить управлению бизнесом, что, возможно, сделает модель более устойчивой и гибкой.
@ai_machinelearning_big_data
#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7❤4👍2🥰1
Когда с первого взгляда ясно — статья огонь.
Baidu выложила сразу 23 модели на Hugging Face размерами — от 0.3B до 424B параметров! 💥
Тех репорт: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
Baidu выложила сразу 23 модели на Hugging Face размерами — от 0.3B до 424B параметров! 💥
Тех репорт: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
👍6😁5❤2