Forwarded from DLStories
Смотрите, что сделали в Стенфорде: STORM — утилита для генерации научных репортов на заданную тему (бесплатно)
Работает очень просто: вы задаете тему (например, "Challenges and open questions in the topic of Uncertainty Estimation"), STORM идет в интернет, находит статьи, код и другие ссылки с информацией по этой теме, и в итоге собирает все в один большой репорт. Репорт во многом похож на survey статью по этой теме, но в более свободном формате: скорее, как очень подробный и тщательно собранный репорт в Notion. Есть ссылки на все источники.
По сути, это такая обертка над LLM, которая позволяет без подбора просптов генерить достаточно точные, достоверные и обстоятельные обзоры. У STORM есть статья и код. В статье описывается, как строилась утилита и приводятся метрики. В частности, пишут, что при моделировании процесса сборки репорта фокусировались на следующих вещах:
- рассмотрение различных точек зрения при исследовании заданной темы (это вот про академию/индустрию и т.п.)
- моделирование бесед, в которых авторы, представляющие разные точки зрения, задают вопросы эксперту по заданной теме. Эксперт при этом основывается на надежных интернет-источниках
- отбор собранной информации для создания плана репорта.
Если нажать на кнопку "See BrainSTORMing Process", там как раз будет видно, что сборка итогового репорта основана на использовании LLM с разными промптами от лица разного типа юзеров (academic/ubdustry/etc).
Ссылки:
- попробовать STORM (он бесплатный. Ну, по крайней мере, пока что)
- статья
- код
P.S. Нашла STORM в посте из Твиттера, и там было написано "STORM writes research papers like a PhD". Но репорты по теме — это не любая PhD статья, так что с таким заявлением не соглашусь, имхо оно вводит в заблуждение
Работает очень просто: вы задаете тему (например, "Challenges and open questions in the topic of Uncertainty Estimation"), STORM идет в интернет, находит статьи, код и другие ссылки с информацией по этой теме, и в итоге собирает все в один большой репорт. Репорт во многом похож на survey статью по этой теме, но в более свободном формате: скорее, как очень подробный и тщательно собранный репорт в Notion. Есть ссылки на все источники.
По сути, это такая обертка над LLM, которая позволяет без подбора просптов генерить достаточно точные, достоверные и обстоятельные обзоры. У STORM есть статья и код. В статье описывается, как строилась утилита и приводятся метрики. В частности, пишут, что при моделировании процесса сборки репорта фокусировались на следующих вещах:
- рассмотрение различных точек зрения при исследовании заданной темы (это вот про академию/индустрию и т.п.)
- моделирование бесед, в которых авторы, представляющие разные точки зрения, задают вопросы эксперту по заданной теме. Эксперт при этом основывается на надежных интернет-источниках
- отбор собранной информации для создания плана репорта.
Если нажать на кнопку "See BrainSTORMing Process", там как раз будет видно, что сборка итогового репорта основана на использовании LLM с разными промптами от лица разного типа юзеров (academic/ubdustry/etc).
Ссылки:
- попробовать STORM (он бесплатный. Ну, по крайней мере, пока что)
- статья
- код
P.S. Нашла STORM в посте из Твиттера, и там было написано "STORM writes research papers like a PhD". Но репорты по теме — это не любая PhD статья, так что с таким заявлением не соглашусь, имхо оно вводит в заблуждение
Forwarded from Neural Kovalskii
Проблемная зона AI-кодинга: почему Shotgun Code работает не везде
Встретился на днях с Глебом Кудрявцевым, автором популярного Shotgun Code(1.4k ⭐️)
Обсудили интересную проблему "мертвой зоны размера контекста" в AI-кодинге
Давайте закрепим о чем же на мой взгляд термин "Vibe Coding"
Как вы помните ранее я писал что многие говорят про "AI написал мне приложение за день", но реальность сложнее
Недавно сам я за 7 дней собрал MVP AI-платформы транскрибации: 16k строк кода, 820 вызовов Cursor, 3 компонента
Что я понял? Так это то что AI не заменяет экспертизу он ускоряет её
За успешным vibe coding стоят годы опыта в архитектуре, понимание паттернов и системное мышление
AI пишет код, но направляет его человек. Разница между "вроде работает" и production-ready системой — в экспертизе разработчика
Vibe coding ≠ магия Это смена роли: от кодера к архитектору и тестировщику
Тут надеюсь мы закрепили пройденный материал и можем двигаться дальше
Про Shotgun и контекст, что работает сейчас и еще подходы что пробовал лично я
Сам Shotgun отлично подходит для проектов до 20-200k строк
- Весь код влезает в контекст(сразу сделаю оговорку что дальше мы используем большие и мощные модели в кодинге)
- LLM легко понимает структуру
- Можно делать cross-file изменения
- README генерируется без проблем
Дальше начинается проблемная зона 200k-1M строк
- Слишком много кода для простого dump'а
- LLM теряется в объеме информации
- README получается поверхностным
- Нет семантического понимания архитектуры
- Вообще не понятно, как все это автоматизировать
Даже с большими контекстными окнами проблема остается LLM физически не может эффективно обработать и осмыслить сотни тысяч строк кода как единое целое
Решение, к которому пришли и то что сейчас делает Глеб (следим за его репо и обновлениями) цепочка агентов для семантического анализа
Нужен промежуточный слой
1. Агент-архитектор - анализирует структуру проекта
2. Агент-аналитик - выделяет ключевые компоненты и связи
3. Агент-документатор - составляет понятный README на основе семантики
Результат: вместо "вот куча кода, разберись сам" получаем "вот top-down структура, вот ключевые модули, вот как они взаимодействуют".
Практический вывод
Shotgun Code нужно дополнить семантическим анализом для средних проектов.
Простой dump кода уже не работает - нужно понимание архитектуры через AI-агентов
Shotgun Code: GitHub Хороший инструмент, но есть куда развиваться!
Встретился на днях с Глебом Кудрявцевым, автором популярного Shotgun Code(1.4k ⭐️)
Обсудили интересную проблему "мертвой зоны размера контекста" в AI-кодинге
Давайте закрепим о чем же на мой взгляд термин "Vibe Coding"
Как вы помните ранее я писал что многие говорят про "AI написал мне приложение за день", но реальность сложнее
Недавно сам я за 7 дней собрал MVP AI-платформы транскрибации: 16k строк кода, 820 вызовов Cursor, 3 компонента
Что я понял? Так это то что AI не заменяет экспертизу он ускоряет её
За успешным vibe coding стоят годы опыта в архитектуре, понимание паттернов и системное мышление
AI пишет код, но направляет его человек. Разница между "вроде работает" и production-ready системой — в экспертизе разработчика
Vibe coding ≠ магия Это смена роли: от кодера к архитектору и тестировщику
Тут надеюсь мы закрепили пройденный материал и можем двигаться дальше
Про Shotgun и контекст, что работает сейчас и еще подходы что пробовал лично я
Сам Shotgun отлично подходит для проектов до 20-200k строк
- Весь код влезает в контекст(сразу сделаю оговорку что дальше мы используем большие и мощные модели в кодинге)
- LLM легко понимает структуру
- Можно делать cross-file изменения
- README генерируется без проблем
Дальше начинается проблемная зона 200k-1M строк
- Слишком много кода для простого dump'а
- LLM теряется в объеме информации
- README получается поверхностным
- Нет семантического понимания архитектуры
- Вообще не понятно, как все это автоматизировать
Даже с большими контекстными окнами проблема остается LLM физически не может эффективно обработать и осмыслить сотни тысяч строк кода как единое целое
Решение, к которому пришли и то что сейчас делает Глеб (следим за его репо и обновлениями) цепочка агентов для семантического анализа
Нужен промежуточный слой
1. Агент-архитектор - анализирует структуру проекта
2. Агент-аналитик - выделяет ключевые компоненты и связи
3. Агент-документатор - составляет понятный README на основе семантики
Результат: вместо "вот куча кода, разберись сам" получаем "вот top-down структура, вот ключевые модули, вот как они взаимодействуют".
Практический вывод
Shotgun Code нужно дополнить семантическим анализом для средних проектов.
Простой dump кода уже не работает - нужно понимание архитектуры через AI-агентов
Shotgun Code: GitHub Хороший инструмент, но есть куда развиваться!
Forwarded from Korenev AI - GPT в тапочках🩴
Гитхаб коллекция системных промптов разных сервисов постоянно обновляется и пополняется. Там есть: Cursor, Manus, Same.dev, Lovable, Devin, Replit Agent, Windsurf Agent, VSCode Agent, Dia Browser, Trae AI, Cluely & Spawn
Что с этими промптами можно делать?
1. Изучать лучшие практики промптинга
2. Заливать весь проект в гуглостудию и использовать один из промптов для создания кода
Для группировки всех файлов проекта в одну большую простыню можно использовать решение Шортган
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Заскуль питона (Data Science)
В данном видео автор делает агента, который предлагает темы для ресерча на ArXiv, делает по ним саммэри и готовый отчет.
Что изучается авторами, какие проблемы в исследованиях и на чем можно сфоркусироваться.
Агент работает как граф: каждая функция - это узел (нода), а данные переходят по рёбрам.
💙 Делитесь постом, если он был полезен!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Николай Хитров | Блог
Делаем github удобнее
Если вы проводите много времени на github, очень советую попробовать это расширение для браузера.
Выводит гораздо больше инфы на страницах, что упрощает изучение репозиториев. Одно из моих любимых😎
https://github.com/refined-github/refined-github
#github
Если вы проводите много времени на github, очень советую попробовать это расширение для браузера.
Выводит гораздо больше инфы на страницах, что упрощает изучение репозиториев. Одно из моих любимых
https://github.com/refined-github/refined-github
#github
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - refined-github/refined-github: :octocat: Browser extension that simplifies the GitHub interface and adds useful features
:octocat: Browser extension that simplifies the GitHub interface and adds useful features - refined-github/refined-github
Forwarded from Николай Хитров | Блог
Что делать, когда нужна встреча на 100500 человек?
Вам не нужна такая встреча, просто удалите ее.
В принципе на этом можно было бы закончить, но... подобные встречи все же можно проводить и даже получать от них пользу, не высасывая желание жить из всех участников😐
На днях обсуждали с коллегой, как проводить встречи с большим количеством людей, например 20, 30 или даже 40 человек. Но так, чтобы это было как можно более эффективно и никто не умер по дороге. Он мне показал несколько интересных форматов, которые позволяют разбить эту кучу людей на группы, итерации и т.д.🤨
Называется такое безумие освобождающие структуры. Мне довелось попробовать парочку из этих форматов, например, интервью. У нас его как-то проводили на тимлидах, собирали с нас некоторые боли по процессам. За час мы накидали немалое количество стикеров с болями и решениями, которые потом нужные люди забрали в работу. Сейчас благодаря этому внутренние инструменты развивают так, чтобы они закрывали действительно то, что нам нужно. Причем не одному человеку, а практически всем. И что интересно, многие (в том числе и я) после этой встречи вышли заряженными, а не уставшими❤️
На мой взгляд, вся эта тема с форматами очень интересная. Больше всего мне понравилось, что каждый участник практически всегда делает что-то полезное, а не сидит тупо фоном и жует чипсы с выключенной вебкой. Нет постоянных срачей между участниками, когда двое ведут диалог полчаса, а остальные 18 человек их слушают. Очень интересно, ага🤧
Так что если у вас есть созвоны на 100500 человек и вас все там бесят, попробуйте не ходить на такие созвоны. А если не ходить незя, то советую присмотреться к освобождающим структурам👍
Вот тут можно почитать подробнее про все эти форматы
https://www.liberatingstructures.com/
Вам не нужна такая встреча, просто удалите ее.
В принципе на этом можно было бы закончить, но... подобные встречи все же можно проводить и даже получать от них пользу, не высасывая желание жить из всех участников
На днях обсуждали с коллегой, как проводить встречи с большим количеством людей, например 20, 30 или даже 40 человек. Но так, чтобы это было как можно более эффективно и никто не умер по дороге. Он мне показал несколько интересных форматов, которые позволяют разбить эту кучу людей на группы, итерации и т.д.
Называется такое безумие освобождающие структуры. Мне довелось попробовать парочку из этих форматов, например, интервью. У нас его как-то проводили на тимлидах, собирали с нас некоторые боли по процессам. За час мы накидали немалое количество стикеров с болями и решениями, которые потом нужные люди забрали в работу. Сейчас благодаря этому внутренние инструменты развивают так, чтобы они закрывали действительно то, что нам нужно. Причем не одному человеку, а практически всем. И что интересно, многие (в том числе и я) после этой встречи вышли заряженными, а не уставшими
На мой взгляд, вся эта тема с форматами очень интересная. Больше всего мне понравилось, что каждый участник практически всегда делает что-то полезное, а не сидит тупо фоном и жует чипсы с выключенной вебкой. Нет постоянных срачей между участниками, когда двое ведут диалог полчаса, а остальные 18 человек их слушают. Очень интересно, ага
Так что если у вас есть созвоны на 100500 человек и вас все там бесят, попробуйте не ходить на такие созвоны. А если не ходить незя, то советую присмотреться к освобождающим структурам
Вот тут можно почитать подробнее про все эти форматы
https://www.liberatingstructures.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Another MVP | Денис Веселов
На русском: https://liberating-structures.ru/ (возможно, не все переведено с оригинального сайта, но ссылка оттуда на этот сайт есть)
Forwarded from Pavel Zloi
С большим удовольствием уже который день слушаю курс под названием "AI: от основ до трансформеров" за авторством Евгения Резникова, в нем вас ожидает 28 часов лекций наполненных зубодробительным матаном и занятными терминами, так что рекомендую послушать.
PS. Лично я пока смог только экватор преодолеть, некоторые лекции переслушиваю, на некоторых ставлю паузу и разбираюсь с формулами.
PS. Лично я пока смог только экватор преодолеть, некоторые лекции переслушиваю, на некоторых ставлю паузу и разбираюсь с формулами.
Forwarded from ChillHouse (Alexey Moiseenkov)
Думая про всякий там RL & reward hacking в моделях серии о и так далее вспомнил вот такую работу: можно специально провоцировать галлюцинации у LLM и получать от этого буст по метрикам.
Вместо обычного zero-shot prompt’а типа:
"Ответь на вопрос..."
добавляют в начало:
"Посмотри примеры в разделе Examples и используй их...", хотя никакого раздела в prompt’е нет.
Модель “вспоминает” несуществующие примеры и опирается на них как будто бы в few-shot.
На ряде бенчей дает заметный буст (правда работа старая и там еще старые сетки).
Эффект почти не срабатывает на gpt4 серии. Она лучше умеет ловить, что контекст поддельный. Но вполне работает на новой о серии (судя по постам в тви, но надо чекнуть). Это наталкивает на понятную мысль что модель можно как бы натолкнуть на рассуждения out of distribution сказав что у тебя оно на самом деле есть в обучающей выборке. Мне кажется этот эффект смахивает на те самые фразочки “let me check again”, “hm” в рассуждениях. То есть пытаются как бы отослать к примерам которые якобы точно правильные и оттуда перенять рассуждения/подход.
Вместо обычного zero-shot prompt’а типа:
"Ответь на вопрос..."
добавляют в начало:
"Посмотри примеры в разделе Examples и используй их...", хотя никакого раздела в prompt’е нет.
Модель “вспоминает” несуществующие примеры и опирается на них как будто бы в few-shot.
На ряде бенчей дает заметный буст (правда работа старая и там еще старые сетки).
Эффект почти не срабатывает на gpt4 серии. Она лучше умеет ловить, что контекст поддельный. Но вполне работает на новой о серии (судя по постам в тви, но надо чекнуть). Это наталкивает на понятную мысль что модель можно как бы натолкнуть на рассуждения out of distribution сказав что у тебя оно на самом деле есть в обучающей выборке. Мне кажется этот эффект смахивает на те самые фразочки “let me check again”, “hm” в рассуждениях. То есть пытаются как бы отослать к примерам которые якобы точно правильные и оттуда перенять рассуждения/подход.