GPT-2 победила o1-mini благодаря гроккингу
Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.
Что такое гроккинг?
Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.
Что уникального?
Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.
Что сделали мы?
Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.
Пример задачи:
Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.
Вопрос: Находятся ли они в одной стране?
Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.
Что теперь?
Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.
Нужна ваша помощь!
Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:
👉 Поддержите апвоутом 👈
Полноценный обзор статьи на Хабре
Сама статья
P.S. За репост отдельный респект.
Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.
Что такое гроккинг?
Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.
Что уникального?
Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.
Что сделали мы?
Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.
Пример задачи:
Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.
Вопрос: Находятся ли они в одной стране?
Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.
Что теперь?
Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.
Нужна ваша помощь!
Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:
👉 Поддержите апвоутом 👈
Полноценный обзор статьи на Хабре
Сама статья
P.S. За репост отдельный респект.
👍4🔥4
Про автоматизацию с помощью ИИ
Развитие ИИ-агентов сильно напоминает появление физических роботов на фабриках и попытки автоматизировать ручной труд. Только вместо ручного труда теперь — интеллектуальный (ну, хочется в это верить). И методы автоматизации, по-хорошему, должны быть схожи.
Читаю сейчас биографию Илона Маска, и там был момент, который показался мне очень релевантным:
Так вот, к чему я всё это веду? Когда мы говорим об автоматизации чего-либо — будь то с помощью роботов, манипуляторов или ИИ-агентов, — важно понимать, что вы автоматизируете и есть ли у этого уже выстроенный процесс. Грубо говоря: можете ли вы описать пошаговый алгоритм решения задачи или нет?
Если автоматизировать неэффективный процесс, то у вас просто получится автоматизированный и неэффективный процесс, который будет сложно исправить. Так что же делать?
В идеале, как я это вижу: либо нанять человека, который будет экспериментировать с решением задачи, чтобы этот алгоритм найти, либо найти того, кто его уже знает. Затем эти шаги можно автоматизировать — и действительно заменить человека.
TL;DR: сначала люди строят эффективные бизнес-процессы, и только потом ИИ их автоматизирует.
Развитие ИИ-агентов сильно напоминает появление физических роботов на фабриках и попытки автоматизировать ручной труд. Только вместо ручного труда теперь — интеллектуальный (ну, хочется в это верить). И методы автоматизации, по-хорошему, должны быть схожи.
Читаю сейчас биографию Илона Маска, и там был момент, который показался мне очень релевантным:
В 2017 году Tesla находилась на грани банкротства. Маск поставил себе цель — удвоить производство автомобилей за несколько месяцев, чтобы акции компании пошли вверх и Tesla осталась на плаву. Казалось бы, задача сверхсложная, но если поднять эффективность конвейера тут и там, то, может, что-то и получится.
Маск решил пройтись по заводу, чтобы лично определить узкие места. К его удивлению, большинство проблем было связано с автоматизацией. В самом начале производства он настаивал на полной замене людей роботами. Но вот незадача: процесс производства был неотлажен и неэффективен, и когда они начали упрощать схему и убирать лишние детали в машине, выяснилось, что перестроить процесс с роботами гораздо дольше и дороже, чем с людьми. В итоге они наняли множество рабочих на конвейеры, убрали большую часть роботов и принялись оптимизировать производственный процесс.
К слову, эффективность они тогда действительно повысили — и Tesla до сих пор остаётся одной из самых дорогих автомобильных компаний, несмотря на проблемы в последние годы.
Так вот, к чему я всё это веду? Когда мы говорим об автоматизации чего-либо — будь то с помощью роботов, манипуляторов или ИИ-агентов, — важно понимать, что вы автоматизируете и есть ли у этого уже выстроенный процесс. Грубо говоря: можете ли вы описать пошаговый алгоритм решения задачи или нет?
Если автоматизировать неэффективный процесс, то у вас просто получится автоматизированный и неэффективный процесс, который будет сложно исправить. Так что же делать?
В идеале, как я это вижу: либо нанять человека, который будет экспериментировать с решением задачи, чтобы этот алгоритм найти, либо найти того, кто его уже знает. Затем эти шаги можно автоматизировать — и действительно заменить человека.
TL;DR: сначала люди строят эффективные бизнес-процессы, и только потом ИИ их автоматизирует.
👍5🔥2😱1
Cal AI в Oura Ring?
Буквально сегодня Oura Ring зарелизила возможность трекинга с ИИ. Как и нашумевший Cal AI, он по фото определяет тип продукта, содержание полезных и не очень минералов: сахар, клетчатка, протеин, жиры, углеводы.
С точки зрения сна и здоровья в целом, потребление пищи очень важно и играет одну из ключевых ролей в качестве сна и вашего здоровья. Довольно логично, что они решили пойти в эту нишу. Кажется, что они хотят захватить рынок и сделать супер апп в сфере здоровья. Помимо уже существующих индикаторов стресса, прогнозов болезней и самого сна, теперь еще и еда.
Хотя лучше бы подтюнили существующие функции детектирования сна, мне они не особо заходят.
Буквально сегодня Oura Ring зарелизила возможность трекинга с ИИ. Как и нашумевший Cal AI, он по фото определяет тип продукта, содержание полезных и не очень минералов: сахар, клетчатка, протеин, жиры, углеводы.
С точки зрения сна и здоровья в целом, потребление пищи очень важно и играет одну из ключевых ролей в качестве сна и вашего здоровья. Довольно логично, что они решили пойти в эту нишу. Кажется, что они хотят захватить рынок и сделать супер апп в сфере здоровья. Помимо уже существующих индикаторов стресса, прогнозов болезней и самого сна, теперь еще и еда.
Хотя лучше бы подтюнили существующие функции детектирования сна, мне они не особо заходят.
❤4🤯2🔥1
Нашел новый юзкейс для голосового чата с гпт: ходить по музею как с аудиогидом.
Получается довольно интерактивно, почему музеи еще не внедрили такое у себя?
Получается довольно интерактивно, почему музеи еще не внедрили такое у себя?
❤6👍3🔥2👎1
Решил делать дайджест топ недельных запусков на Product Hunt, которые мне понравились. Во-первых, так можно найти интересные продукты, а во-вторых развить насмотренность и трекать, какие продукты и идеи популярны на рынке (или у каких был успешный запуск хотя бы). Если вам зайдет формат, то буду сюда постить, если нет, то думаю сделать отдельный канал.
Socialprofiler – анализ человека по соц сетям. Дает информацию о интересах, профессии, финансовом статусе и необычных аспектах. Юзкейсы: дейтинг, найм, утоление своего интереса.
SocLeads – Скраппер имейлов для b2b по ключевым словам. Скраппит соц сети и карты. Например, найдет вам имейлы ресторанов.
Wispr Flow for iOS – Open Source модель OpenAI для Ios. Можете диктовать что угодно и получать текстовый вариант. Что тут еще сказать?
Long – Инвестиции в стартап перед его выходом на VC. Используют блокчейн для создания коинов и их последующей продажи. Сделать кампанию инвестиций может любой человек.
VidAU – Очередной видео редактор. Этот с упором на создания видео для маркетплейсов и ecom продавцов.
Hyring – AI кодинг интервью. Интересно, заменит ли он 5 секций интервью в Яндексе?
Janus – Платформа для тестирования ИИ агентов на галлюцинации, вызов функций и всего такого. Больше ИИ агентов = больше инструментов для их создания и тестирования.
Socialprofiler – анализ человека по соц сетям. Дает информацию о интересах, профессии, финансовом статусе и необычных аспектах. Юзкейсы: дейтинг, найм, утоление своего интереса.
SocLeads – Скраппер имейлов для b2b по ключевым словам. Скраппит соц сети и карты. Например, найдет вам имейлы ресторанов.
Wispr Flow for iOS – Open Source модель OpenAI для Ios. Можете диктовать что угодно и получать текстовый вариант. Что тут еще сказать?
Long – Инвестиции в стартап перед его выходом на VC. Используют блокчейн для создания коинов и их последующей продажи. Сделать кампанию инвестиций может любой человек.
VidAU – Очередной видео редактор. Этот с упором на создания видео для маркетплейсов и ecom продавцов.
Hyring – AI кодинг интервью. Интересно, заменит ли он 5 секций интервью в Яндексе?
Janus – Платформа для тестирования ИИ агентов на галлюцинации, вызов функций и всего такого. Больше ИИ агентов = больше инструментов для их создания и тестирования.
🔥4👍1
АИ агенты в Amplitude
На прошлой неделе амплитуда заанонсила запуск аи агентов для аналитики.
Amplitude - сервис «все в одном» для трекинга метрик вашего приложения. Шаблоны, подключения данных, создание графиков - все там, чтобы следить за успехами вашего стартапа.
Наконец-то они решили интегрировать АИ и сделать «как курсор но для аналитики». Обещают постановку экспериментов на основе целей. Хотите улучшить конверсию в оплату? Попросите агента: он проанализирует ваши данные, выдвинет гипотезы как их улучшить и может внести даже кое-какие изменения в продукт. Понятно, что не особо большие, но быстрые итерации стартапов станут еще быстрее: эксперименты и гипотезы будут создаваться автоматически с помощью ИИ.
Ждем MCP для Амплитуда - Курсор? Чтобы один выдвигал гипотезы, смотрел на данные и предлагал изменения в продукт, а курсор все это имплементировал.
Короче, ИИ команда все ближе и ближе. Где ИИ агент дизайнер от фигмы?
На прошлой неделе амплитуда заанонсила запуск аи агентов для аналитики.
Amplitude - сервис «все в одном» для трекинга метрик вашего приложения. Шаблоны, подключения данных, создание графиков - все там, чтобы следить за успехами вашего стартапа.
Наконец-то они решили интегрировать АИ и сделать «как курсор но для аналитики». Обещают постановку экспериментов на основе целей. Хотите улучшить конверсию в оплату? Попросите агента: он проанализирует ваши данные, выдвинет гипотезы как их улучшить и может внести даже кое-какие изменения в продукт. Понятно, что не особо большие, но быстрые итерации стартапов станут еще быстрее: эксперименты и гипотезы будут создаваться автоматически с помощью ИИ.
Ждем MCP для Амплитуда - Курсор? Чтобы один выдвигал гипотезы, смотрел на данные и предлагал изменения в продукт, а курсор все это имплементировал.
Короче, ИИ команда все ближе и ближе. Где ИИ агент дизайнер от фигмы?
🤩4
«Нейросети могут сделать нас глупее!»
Пару дней назад увидел новость с таким заголовком с референсом на исследование MIT. И действительно, MIT не так давно провело исследование с использование электроэнцефалограммы – прибора для измерения электрической активности мозга. Давайте посмотрим, что получилось. Вдаваться в детали особо не буду – пробегусь только по выводам, а если хотите оригинал, то 200 страниц научного языка тут.
54 участника исследования поделили на три группы:
-без внешних инструментов
-с использовнием поиска (без AI)
-с использованием AI (gpt-4o)
Все они писали ЭССЕ на одну из трех SAT тем в течении 4-х сессий. Во время написания, у них замеряли активность мозга и на основе этого делали выводы. И пришли вот к чему:
🧠 Память в минусе. Активность мозга, отвечающая за запоминание была существенно меньше, чем у группы без использования инструментов. С использованием поиска на 34%-48% меньше, а у AI группы до 55%
👁️🗨️ Режим «копировать–вставить». У поиск-группы активировались визуальные участки (им приходилось зрительно искать информацию в гугл), а AI-группы эта зона не активировалась – участники просто копировали ответ LLM.
✍️ Потеря авторства. При использовании внешних инструментов, так же уменьшилась активация зон, отвечающих за мониторинг ошибок и оценивания себя. В группе без использования внешних инструментов 17 из 18 участников обозначили полное авторство над написанным текстом, когда в других группах признание было лишь частичным.
📢 Подверженность внешнему мнению. AI-группа была подвержена влиянию самой LLM – у них было меньше уникальных идей и слов. Поиск-группа показала корреляцию с самыми популярными ключевыми словами для запроса по теме эссе.
Исследователи называют накопительный эффект снижения мозговой активности «ментальным долгом». В краткосрочной перспективе это ускоряет работу, но приводит к избеганию умственного напряжения, а в долгосрочной:
-к снижению способностей критического мышления
-повышенной уязвимости к манипуляциям
-сниженной креативности
Пару дней назад увидел новость с таким заголовком с референсом на исследование MIT. И действительно, MIT не так давно провело исследование с использование электроэнцефалограммы – прибора для измерения электрической активности мозга. Давайте посмотрим, что получилось. Вдаваться в детали особо не буду – пробегусь только по выводам, а если хотите оригинал, то 200 страниц научного языка тут.
54 участника исследования поделили на три группы:
-без внешних инструментов
-с использовнием поиска (без AI)
-с использованием AI (gpt-4o)
Все они писали ЭССЕ на одну из трех SAT тем в течении 4-х сессий. Во время написания, у них замеряли активность мозга и на основе этого делали выводы. И пришли вот к чему:
🧠 Память в минусе. Активность мозга, отвечающая за запоминание была существенно меньше, чем у группы без использования инструментов. С использованием поиска на 34%-48% меньше, а у AI группы до 55%
👁️🗨️ Режим «копировать–вставить». У поиск-группы активировались визуальные участки (им приходилось зрительно искать информацию в гугл), а AI-группы эта зона не активировалась – участники просто копировали ответ LLM.
✍️ Потеря авторства. При использовании внешних инструментов, так же уменьшилась активация зон, отвечающих за мониторинг ошибок и оценивания себя. В группе без использования внешних инструментов 17 из 18 участников обозначили полное авторство над написанным текстом, когда в других группах признание было лишь частичным.
📢 Подверженность внешнему мнению. AI-группа была подвержена влиянию самой LLM – у них было меньше уникальных идей и слов. Поиск-группа показала корреляцию с самыми популярными ключевыми словами для запроса по теме эссе.
Исследователи называют накопительный эффект снижения мозговой активности «ментальным долгом». В краткосрочной перспективе это ускоряет работу, но приводит к избеганию умственного напряжения, а в долгосрочной:
-к снижению способностей критического мышления
-повышенной уязвимости к манипуляциям
-сниженной креативности
👍2❤1
Мне кажется, что такое исследование супер важно с точки зрения образования. Как в эпоху LLM и "дешевого" способа получения информации и решения задач, сделать так, чтобы креативность и критическое мышление людей сохранились?
Исследователи предлагают вводить сессии "Без внешних инструментов", чтобы стимулировать работу мозга и не полагаться на их решения все время. Будут ли это делать и соблюдать? Вопрос открытый
Еще интереснее будет наблюдать борьбу ИИ-лобби за повсеместное внедрение ИИ-систем для ускорения работы \ учебы и получения результатов сейчас. В общем, необычное время нас ждет
Исследователи предлагают вводить сессии "Без внешних инструментов", чтобы стимулировать работу мозга и не полагаться на их решения все время. Будут ли это делать и соблюдать? Вопрос открытый
Еще интереснее будет наблюдать борьбу ИИ-лобби за повсеместное внедрение ИИ-систем для ускорения работы \ учебы и получения результатов сейчас. В общем, необычное время нас ждет
👍5
Ресурсы в космосе
Пару месяцев назад прочитал сборник "Я, робот" от Айзека Азимова. Первая работа рассказывает про роботов на Марсе. Тогда я в разговоре с друзьями сказал: "Маск делает Оптимусов (роботы тесла) для того, чтобы отправить их на Марс". Кому-то же нужно подготовить инфраструктуру для людей, когда они прилетят. И недавно он и сам это подтвердил.
Сегодня я задумался: насколько выгодно добывать сырье из ближайших к Земле объектов с целью отправки обратно? Вся космическая экономике строится как раз на идеи экспании и добычи ресурсов за пределами нашей планеты. Считать я это, конечно, сам не буду, но спросил o3-pro.
Самые потенциально выгодные ресурсы:
-Луна и He-3 для термоядерных реакторов. Цена сейчас приблизительно 20 млн$ за кг. Проблема в том, что рынок термоядерной энергии пока не сформирован, но в ближайшие десятилетия крайней занятная перспектива.
-Астероиды и Платина. 42 тыс.$/кг. В теории это может стать рентабельным, если улучшить технологии добычи и поставить это на массовый поток, но вместе с этим упадет и цена, если потребление не возрастет. Вопросительно.
В целом, большая часть добываемых ресурсов в ближайшие десятилетия будет окупаться только на местных добываемых рынках и смысла перевозить что-то на Землю, кроме особенно ценных ресурсов на подобии Гелиума нет. Конечно, стоит учитывать, что наши развед. данные ограничены и возможно, где-то есть астероидный Эльдорадо, но инвестиции в раскопки Земли выглядят пока что более надежно и целесообразно.
Интересно, будет ли новая "золотая" или платиновая лихорадка лет так через 30-40? Лучше уж продавать лопаты, или же дронов для добычи ископаемых.
Если интересна таблица, то вот
Пару месяцев назад прочитал сборник "Я, робот" от Айзека Азимова. Первая работа рассказывает про роботов на Марсе. Тогда я в разговоре с друзьями сказал: "Маск делает Оптимусов (роботы тесла) для того, чтобы отправить их на Марс". Кому-то же нужно подготовить инфраструктуру для людей, когда они прилетят. И недавно он и сам это подтвердил.
Сегодня я задумался: насколько выгодно добывать сырье из ближайших к Земле объектов с целью отправки обратно? Вся космическая экономике строится как раз на идеи экспании и добычи ресурсов за пределами нашей планеты. Считать я это, конечно, сам не буду, но спросил o3-pro.
Самые потенциально выгодные ресурсы:
-Луна и He-3 для термоядерных реакторов. Цена сейчас приблизительно 20 млн$ за кг. Проблема в том, что рынок термоядерной энергии пока не сформирован, но в ближайшие десятилетия крайней занятная перспектива.
-Астероиды и Платина. 42 тыс.$/кг. В теории это может стать рентабельным, если улучшить технологии добычи и поставить это на массовый поток, но вместе с этим упадет и цена, если потребление не возрастет. Вопросительно.
В целом, большая часть добываемых ресурсов в ближайшие десятилетия будет окупаться только на местных добываемых рынках и смысла перевозить что-то на Землю, кроме особенно ценных ресурсов на подобии Гелиума нет. Конечно, стоит учитывать, что наши развед. данные ограничены и возможно, где-то есть астероидный Эльдорадо, но инвестиции в раскопки Земли выглядят пока что более надежно и целесообразно.
Интересно, будет ли новая "золотая" или платиновая лихорадка лет так через 30-40? Лучше уж продавать лопаты, или же дронов для добычи ископаемых.
Если интересна таблица, то вот
🤔1🤯1😱1
ICML 2025
Одна из крупнейших конференций по ИИ в мире. В этом году проходит в Ванкувере. Мою статью про генерацию фактов для гроккинга на нее приняли и мы презентуем там постер. Точнее не мы, а мой коллега из универа. Почему не я, если я главный автор?
Немецкая бюрократия. В марте (это 5!!! Месяцев назад) я потерял свой немецкий ВНЖ, без которого я не могу въехать в Шенген и моя любимая листо-бумажная страна до сих пор не может его восстановить. Обещают это сделать в августе, но я уже пропустил 3 конференции, которые хотел посетить.
Чтобы сильно не расстраиваться, поехал на юг серфить и знакомиться с классными людьми. Одним из них оказалась AI SEO из Siemens и она рассказала, как они оптимизируют свои сайты под ИИ. Напишу чуть позже.
В общем, кому еще больше повезло. Буду держать вас в курсе постеров на конференции с помощью телефонов моих коллег.
Волны, кстати, очень хорошие
Одна из крупнейших конференций по ИИ в мире. В этом году проходит в Ванкувере. Мою статью про генерацию фактов для гроккинга на нее приняли и мы презентуем там постер. Точнее не мы, а мой коллега из универа. Почему не я, если я главный автор?
Немецкая бюрократия. В марте (это 5!!! Месяцев назад) я потерял свой немецкий ВНЖ, без которого я не могу въехать в Шенген и моя любимая листо-бумажная страна до сих пор не может его восстановить. Обещают это сделать в августе, но я уже пропустил 3 конференции, которые хотел посетить.
Чтобы сильно не расстраиваться, поехал на юг серфить и знакомиться с классными людьми. Одним из них оказалась AI SEO из Siemens и она рассказала, как они оптимизируют свои сайты под ИИ. Напишу чуть позже.
В общем, кому еще больше повезло. Буду держать вас в курсе постеров на конференции с помощью телефонов моих коллег.
Волны, кстати, очень хорошие
❤8