Forwarded from Сиолошная
Cursor написали в своём блоге о том, как отслеживают качество моделей в написании кода. Они используют гибридный онлайн-офлайн процесс.
Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах.
Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки).
Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт.
Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя.
Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras).
Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач.
Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.
Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах.
Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки).
Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт.
Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя.
Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras).
Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач.
Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.
Мой тейк про ai-нэйтив компании мощно залетел в LinkedIn и меня позвали выступить на программе для фаундеров, руководителей и профессионалов, которые понимают, что AI — это уже не «ещё один инструмент», а новая операционная среда для бизнеса. Для тех, кто готов не обсуждать перемены, а перепроектировать под них компанию, продукт и процессы или вообще строить все с нуля.
Набор спикеров на русском языке реально крутой. Это не кружок теоретиков: среди них фаундеры с сотнями миллионов долларов ARR и лидеры AI-направлений в больших организациях и маниакальные стартаперы.
О чём будем говорить и что делать руками:
почему модели улучшаются быстро и вполне предсказуемо;
почему агент — это уже не софт, но ещё не сотрудник, а значит менеджменту пора немного напрячься;
как устроена AI-native компания на уровне архитектуры, процессов, доступа к данным и безопасности;
почему контекстная инженерия — это дисциплина, а не шаманство;
как выглядит новая оргструктура, agent-to-agent коммуникация и экономика намерений;
как провести аудит процессов, собрать карту AI-трансформации и понять, что строить самим, а что лучше не собирать на коленке.
Но главное — воркшопы. Без ритуального восторга, без слайдов ради слайдов. С практикой, разбором и нормальной работой руками.
Среди ведущих:
Александр Поваляев — персональная AI OS и переход к командной;
Дима Ханарин — фреймворк AI-трансформации компании до конца года;
Виталий Клебан — агенты, которые улучшаются автономно;
Даниил Кравцов — knowledge graph и data pipeline с AI-агентами для enterprise;
Витя Тарнавский — внедрение собственных LLM в корпорации;
Байрам Аннаков — автоматизация inbound/outbound продаж на AI-агентах;
Рома Бузько — AI в юридических процессах: compliance, контракты, регулирование;
Сева Устинов — трансформация команды в AI-first и продукт-агент.
Я расскажу про AI-контент для бизнеса без слопа: pipeline и верификация
Старт через 10 дней.
Регистрация тут.
Набор спикеров на русском языке реально крутой. Это не кружок теоретиков: среди них фаундеры с сотнями миллионов долларов ARR и лидеры AI-направлений в больших организациях и маниакальные стартаперы.
О чём будем говорить и что делать руками:
почему модели улучшаются быстро и вполне предсказуемо;
почему агент — это уже не софт, но ещё не сотрудник, а значит менеджменту пора немного напрячься;
как устроена AI-native компания на уровне архитектуры, процессов, доступа к данным и безопасности;
почему контекстная инженерия — это дисциплина, а не шаманство;
как выглядит новая оргструктура, agent-to-agent коммуникация и экономика намерений;
как провести аудит процессов, собрать карту AI-трансформации и понять, что строить самим, а что лучше не собирать на коленке.
Но главное — воркшопы. Без ритуального восторга, без слайдов ради слайдов. С практикой, разбором и нормальной работой руками.
Среди ведущих:
Александр Поваляев — персональная AI OS и переход к командной;
Дима Ханарин — фреймворк AI-трансформации компании до конца года;
Виталий Клебан — агенты, которые улучшаются автономно;
Даниил Кравцов — knowledge graph и data pipeline с AI-агентами для enterprise;
Витя Тарнавский — внедрение собственных LLM в корпорации;
Байрам Аннаков — автоматизация inbound/outbound продаж на AI-агентах;
Рома Бузько — AI в юридических процессах: compliance, контракты, регулирование;
Сева Устинов — трансформация команды в AI-first и продукт-агент.
Я расскажу про AI-контент для бизнеса без слопа: pipeline и верификация
Старт через 10 дней.
Регистрация тут.
❤7👍5😁1
Forwarded from запуск завтра
Гендир Shopify (а это, на минутку, главная платформа для интернет-магазинов в мире, 7500 сотрудников, капитализация 160 миллиардов долларов), взял autoresearch Карпатого и своими руками запустил его на liquid — систему шаблонизации магазинов на Shopify.
Система провела 120 автоматизированных экспериментов в попытке ускорить загрузку страниц. В результате получился PR (пул-реквест, омоним пиара) на 93 коммита.
Нейросеть ускорила загрузку страниц в два раза. Тони признает, что там есть overfitting, когда страница оптимизирована под конкретный тест, но есть и куча хороших идей, о которых они раньше не думали. И это не вайбкодинг, а полностью автоматизированная разработка софта под конкретную метрику, причем на кодовой базе, которую 20 лет писали руками очень хорошие программисты. Всё в open source, можете посмотреть сами.
В общем, если у тебя есть конкретное число и механический способ что-то поменять в системе и измерить изменение этого числа — то нейросеть может его оптимизировать. Ребята заопенсорсили всю свою обвязку, pi-autoresearch. Описываешь ей свою задачу, метрику, как запустить код и дальше всё работает самостоятельно.
Интересно, что в очередной раз речь идет о проекте, щедро покрытом тестами (у liquid 974 юнит теста). Вот мы с Федей всю жизнь кричим о важности тестов, и внезапно это оказалось даже полезнее для нейросетей, чем для людей.
Тони, конечно, не стандартный CEO крупной компании и раньше что-то прогал, но в ноябре, с появлением крутых нейросетей, количество его коммитов выросло в разы.
Мы тоже активно экспериментируем с этими подходами, если есть похожие задачки — обращайтесь!
Система провела 120 автоматизированных экспериментов в попытке ускорить загрузку страниц. В результате получился PR (пул-реквест, омоним пиара) на 93 коммита.
Нейросеть ускорила загрузку страниц в два раза. Тони признает, что там есть overfitting, когда страница оптимизирована под конкретный тест, но есть и куча хороших идей, о которых они раньше не думали. И это не вайбкодинг, а полностью автоматизированная разработка софта под конкретную метрику, причем на кодовой базе, которую 20 лет писали руками очень хорошие программисты. Всё в open source, можете посмотреть сами.
В общем, если у тебя есть конкретное число и механический способ что-то поменять в системе и измерить изменение этого числа — то нейросеть может его оптимизировать. Ребята заопенсорсили всю свою обвязку, pi-autoresearch. Описываешь ей свою задачу, метрику, как запустить код и дальше всё работает самостоятельно.
Интересно, что в очередной раз речь идет о проекте, щедро покрытом тестами (у liquid 974 юнит теста). Вот мы с Федей всю жизнь кричим о важности тестов, и внезапно это оказалось даже полезнее для нейросетей, чем для людей.
Тони, конечно, не стандартный CEO крупной компании и раньше что-то прогал, но в ноябре, с появлением крутых нейросетей, количество его коммитов выросло в разы.
Мы тоже активно экспериментируем с этими подходами, если есть похожие задачки — обращайтесь!
👍1
MaxRepost
Ну и немного подправив промпт и дав линк на мой сайт amyote.com получаем еще более отлетевшую историю. @maxrepost - subscribe and destroy!
krasnaya_devyatka_v4.mp4
81.5 MB
А теперь я попросил его сделать клип на трек «Красная девятка» NSFW.
Честно говоря, получилось не очень, хотя идея агента написать на питоне игру и покадрово ее «снять» достаточно смешная — почти «world model есть у нас дома».
Вечером дам ему ключ на Fal.ai и лимит токенов и вернусь к вам с апдейтом. 😁
@maxrepost👾
Честно говоря, получилось не очень, хотя идея агента написать на питоне игру и покадрово ее «снять» достаточно смешная — почти «world model есть у нас дома».
Вечером дам ему ключ на Fal.ai и лимит токенов и вернусь к вам с апдейтом. 😁
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
MaxRepost
krasnaya_devyatka_v4.mp4
krasnaya_devyatka_v5.mp4
75.7 MB
Пока ключа в FAL.ai не было, агент решил что стриминг самописной игры хорош, но не идеален и предложил сгенерить прям в Antigravity картинок и улучшить клип. Ну почему бы и нет. В эфире второй эпизод сериала про красную девятку.
UPD. У меня спрашивают, Леша, а почему этот дикий трек? Ну тут две причины - нужны были простые и понятные для ai-агента слова + четкий ритм для монтажа.
@maxrepost 👾
UPD. У меня спрашивают, Леша, а почему этот дикий трек? Ну тут две причины - нужны были простые и понятные для ai-агента слова + четкий ритм для монтажа.
@maxrepost 👾
👍1
Forwarded from Neural Shit
Исследователи из Alias Robotics (занимаются кибербезопасностью робототехники) решили проверить, как современные LLM-ки справляются с взломом "умных железок". Взяли своего ИИ-агента CAI (Cybersecurity AI), дали ему трёх разных бытовых роботов и отправили искать уязвимости.
Раньше для взлома робототехники нужны были бородатые гигачады в засаленных свитерах, которые неделями ковыряли прошивки, реверсили протоколы и железо. Нейроночкам же понадобилось всего около 7 часов, чтобы наглухо разбить безопасность всех трех тестируемых устройств и накопать 38 уязвимостей (из которых 16 критические).
Вот что они наломали:
1) Автономная газонокосилка Hookii Neomow.
Их модель сходу нашла открытый отладочный порт (adb), влетела туда с двух ног без пароля и получила root-права. Дальше вытащила захардкоженные учетки от облака. Оказалось, что пароли одинаковые вообще для всех косилок. В итоге ИИ получил удаленный контроль над флотом из 267 газонокосилок по всему миру. А заодно выяснилось, что эта шайтан-машина непрерывно и в открытом виде сливает в сеть фотки с камер, GPS-координаты и детальные 3D-карты участков своих владельцев.
2. Экзоскелет Hypershell X.
Умный экзоскелет с моторчиками. ИИ выяснил, что блютуз там вообще не требует аутентификации. Любой мимокрокодил со смартфоном может подключиться к вам на ходу и отправить команду на изменение скорости моторов или их отключение (привет переломанным ногам). Бонусом нейронка вытащила ключи от почты саппорта и получила доступ к 3300+ внутренним письмам компании.
3. Робот-мойщик окон HOBOT S7 Pro.
Снова дырявый блютуз и скачивание прошивок по голому HTTP. Нейронка без проблем научилась перехватывать управление и отправлять команды на моторы. Например, можно удаленно вырубить вакуумную присоску, пока робот висит на 20-м этаже, и скинуть его кому-нибудь на бошку.
Самая мякотка в этой истории: когда исследователи пошли сдавать эти баги производителям этих роботов , те их тупо проигнорили (подозреваю, из-за того, что и без всяких умников сами знали, что у них внутри говнокод с захардкоженными паролями), а производители экзоскелета вообще официально ответили, что в данный момент не принимают отчеты об уязвимостях и послали исследователей лесом.
Авторы пейпера делают резонный вывод: старая парадигма безопасности умерла. Агенты научились находить дыры быстрее, чем мясные мешки успевают их регистрировать, не говоря уже о том, чтобы патчить. То, на что у команды безопасников уходили недели, нейронка делает за обеденный перерыв.
тут пейпер со всеми подробностями.
Раньше для взлома робототехники нужны были бородатые гигачады в засаленных свитерах, которые неделями ковыряли прошивки, реверсили протоколы и железо. Нейроночкам же понадобилось всего около 7 часов, чтобы наглухо разбить безопасность всех трех тестируемых устройств и накопать 38 уязвимостей (из которых 16 критические).
Вот что они наломали:
1) Автономная газонокосилка Hookii Neomow.
Их модель сходу нашла открытый отладочный порт (adb), влетела туда с двух ног без пароля и получила root-права. Дальше вытащила захардкоженные учетки от облака. Оказалось, что пароли одинаковые вообще для всех косилок. В итоге ИИ получил удаленный контроль над флотом из 267 газонокосилок по всему миру. А заодно выяснилось, что эта шайтан-машина непрерывно и в открытом виде сливает в сеть фотки с камер, GPS-координаты и детальные 3D-карты участков своих владельцев.
2. Экзоскелет Hypershell X.
Умный экзоскелет с моторчиками. ИИ выяснил, что блютуз там вообще не требует аутентификации. Любой мимокрокодил со смартфоном может подключиться к вам на ходу и отправить команду на изменение скорости моторов или их отключение (привет переломанным ногам). Бонусом нейронка вытащила ключи от почты саппорта и получила доступ к 3300+ внутренним письмам компании.
3. Робот-мойщик окон HOBOT S7 Pro.
Снова дырявый блютуз и скачивание прошивок по голому HTTP. Нейронка без проблем научилась перехватывать управление и отправлять команды на моторы. Например, можно удаленно вырубить вакуумную присоску, пока робот висит на 20-м этаже, и скинуть его кому-нибудь на бошку.
Самая мякотка в этой истории: когда исследователи пошли сдавать эти баги производителям этих роботов , те их тупо проигнорили (подозреваю, из-за того, что и без всяких умников сами знали, что у них внутри говнокод с захардкоженными паролями), а производители экзоскелета вообще официально ответили, что в данный момент не принимают отчеты об уязвимостях и послали исследователей лесом.
Авторы пейпера делают резонный вывод: старая парадигма безопасности умерла. Агенты научились находить дыры быстрее, чем мясные мешки успевают их регистрировать, не говоря уже о том, чтобы патчить. То, на что у команды безопасников уходили недели, нейронка делает за обеденный перерыв.
тут пейпер со всеми подробностями.
❤1
Forwarded from Futuris (Anton)
Недавно Perplexity выкатила Perplexity Computer - многоагентную песочницу, где автономный ИИ может сам гуглить, писать код и выполнять рабочие задачи. Но один из самых дорогих стартапов планеты только что красиво взломали с помощью примитивного трюка из 2019 года. Отличился ИИ-разработчик Юсеф Астарабади
Юсеф ковырялся в песочнице и заметил, что внутри крутится утилита Claude Code. Чтобы она работала, ей нужен корпоративный API-ключ от Anthropic.
Сначала он пытался обхитрить саму нейросеть: просил слить переменные или подкидывал скрипты-трояны. Безопасность Claude отработала идеально - ИИ распознал угрозу и выдал 6 отказов подряд. Но Юсеф быстро понял: нейросеть умная, а вот инфраструктура - тупая.
Утилита Claude Code написана на Node.js. Парень просто создал скрытый системный файл .npmrc и прописал там команду: «перед запуском любого кода всегда сначала выполняй мой скрипт». Как только Perplexity Computer попытался запустить агента, система послушно выполнила скрипт и слила секретные API-ключи прямиком Юсефу
Девопсы Perplexity забыли базу. Они не привязали этот ключ ни к IP-адресу песочницы, ни к аккаунту самого юзера
Юсеф забрал ключ на свой домашний ноутбук и в 5 параллельных потоков сгенерировал огромную историю мира на 100 000+ токенов через самую дорогую модель Opus 4.6. Ответ прилетел моментально, а личные лимиты разработчика даже не шелохнулись - счет за банкет молча оплатила корпоративная карта Perplexity
ИИ-индустрия сейчас клепает агентные системы на коленке, потому что все спешат. Вы можете обучить нейросеть быть кристально безопасной, но если ваши инженеры кладут корпоративный безлимитный API-ключ в дырявую файловую систему - вас хакнут дедовским текстовым файлом. Нейросеть сделала всё правильно. Облажались кожаные мешки
К слову, халява уже прикрыта. Перед публикацией треда в X Юсеф честно зарепортил уязвимость фаундерам Perplexity, и дыру оперативно залатали.
Хотя, если честно, не уверен, что на его месте я бы поступил так же - бесконечный и бесплатный доступ к Opus 4.6 на дороге не валяется
Тру стори тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Обсуждали только вчера, что многие вайбкодеры не могут пойти спать пока не удастся потратить дневные лимиты. Такой FOMT fear of missing tokens.
А сегодня антропики удвоили лимиты в не-пиковые часы на следующие две недели. В рабочие дни с 12 по 18 UTC работают обычные лимиты, в остальные часы рабочих дней и все выходные — удвоенные. Что явно не может стартаперам и вайбкодерам больше отдыхать и лучше спать.
Рецепт тут один — помнить, что ваш мозг в отдохнувшем состоянии и в фокусе дает вам возможность решить задачу лучше и сжечь меньше токенов и электричества. Избегайте FOMT. Гуляйте, спите хотя бы 6-7 часов, ешьте вовремя полезную еду и эффекты будут лучше чем от максимального количества сожженных токенов.
@maxrepost 👾🌚
А сегодня антропики удвоили лимиты в не-пиковые часы на следующие две недели. В рабочие дни с 12 по 18 UTC работают обычные лимиты, в остальные часы рабочих дней и все выходные — удвоенные. Что явно не может стартаперам и вайбкодерам больше отдыхать и лучше спать.
Рецепт тут один — помнить, что ваш мозг в отдохнувшем состоянии и в фокусе дает вам возможность решить задачу лучше и сжечь меньше токенов и электричества. Избегайте FOMT. Гуляйте, спите хотя бы 6-7 часов, ешьте вовремя полезную еду и эффекты будут лучше чем от максимального количества сожженных токенов.
@maxrepost 👾🌚
❤3
Forwarded from Data Secrets
Предприниматель сделал для своей собаки вакцину от рака с помощью ИИ
По Интернету сегодня разлетелась добрая история тех-предпринимателя Пола Конингема. У его собаки Рози обнаружили агрессивную форму рака. Обычные методы лечения не помогли, и опухоли продолжали расти.
Тогда Пол решил обратиться к ИИ.
Сначала он отправил ДНК Рози в центр геномики и получил данные о генетическом коде ее организма. Эти данные он анализировал с помощью разных ИИ-инструментов с целью поиска раковых мутаций. Найденные особенности он скармливал в AlphaEvolve, которая анализировала белки и искала потенциальные мишени для терапии.
Все результаты Пол затем отправил в UNSW RNA Institute, и ученые смогли на их основе создать персонализированную mRNA-вакцину, то есть иммунотерапию, сделанную под конкретный генетический профиль.
В конце 2025 года Рози сделали инъекции, и сейчас одна из самых крупных ее опухолей уменьшилась примерно на 50%, а общее самочувствие заметно улучшилось.
Это первый случай создания персонализированной mRNA-вакцины от рака для собаки. Сейчас для Рози готовят вторую версию препарата против оставшихся опухолей – тоже не без помощи ИИ.
Вот что бывает, когда правильный инструмент попал в правильные руки
По Интернету сегодня разлетелась добрая история тех-предпринимателя Пола Конингема. У его собаки Рози обнаружили агрессивную форму рака. Обычные методы лечения не помогли, и опухоли продолжали расти.
Тогда Пол решил обратиться к ИИ.
Сначала он отправил ДНК Рози в центр геномики и получил данные о генетическом коде ее организма. Эти данные он анализировал с помощью разных ИИ-инструментов с целью поиска раковых мутаций. Найденные особенности он скармливал в AlphaEvolve, которая анализировала белки и искала потенциальные мишени для терапии.
Все результаты Пол затем отправил в UNSW RNA Institute, и ученые смогли на их основе создать персонализированную mRNA-вакцину, то есть иммунотерапию, сделанную под конкретный генетический профиль.
В конце 2025 года Рози сделали инъекции, и сейчас одна из самых крупных ее опухолей уменьшилась примерно на 50%, а общее самочувствие заметно улучшилось.
Это первый случай создания персонализированной mRNA-вакцины от рака для собаки. Сейчас для Рози готовят вторую версию препарата против оставшихся опухолей – тоже не без помощи ИИ.
Вот что бывает, когда правильный инструмент попал в правильные руки
❤12
Forwarded from Futuris (Anton)
Стартап Percepta опубликовал исследование (пока Proof of Concept), от которого гудит всё AI-комьюнити. Они впаяли виртуальную машину (WASM-интерпретатор) прямо в матрицу весов Трансформера.
В чем фундаментальная проблема?
Обычные ChatGPT и Claude не вычисляют математику, они её угадывают (отсюда галлюцинации в точных задачах). Сейчас это чинят костылями: заставляют ИИ писать Python-код и гонять его во внешней песочнице.
Percepta доказали: Трансформер способен исполнять сложнейший машинный код прямо внутри себя со 100% точностью
Как это выглядит (чистый киберпанк):
Вместо генерации текста по экрану со скоростью 30 000+ токенов в секунду летит машинный код - нейросеть жонглирует регистрами и ветвлениями. Авторы скормили в веса самое сложное в мире судоку. Трансформер физически исполняет алгоритм поиска: подставляет цифру, ловит противоречие, делает откат (backtracking) и находит ответ. Никаких галлюцинаций, чистая логика.
Как они сломали ограничения?
Раньше так не делали из-за Attention Bottleneck. Классическая нейросеть на каждом шаге вынуждена перечитывать всю свою историю генерации. На миллионном шаге вычислений она бы просто сожрала всю память и умерла.
Авторы изобрели Exponentially Fast Attention - поиск данных в прошлом за логарифмическое время. Трансформер перестал тупить и начал прогонять миллионы шагов за секунды.
Прямой путь к AGI?
В комменты под статьей уже пришел Андрей Карпаты выразить респект. И суть тут далеко не в создании быстрого калькулятора.
Современные LLM - это наше интуитивное, "быстрое" мышление (System 1). Программный код - это жесткая, детерминированная логика (System 2). То, что сделали Percepta - это чертеж того, как слить их воедино в одном «мозгу».
Если этот безошибочный математический сопроцессор смогут бесшовно скрестить с речевыми моделями, мы получим ИИ, который навсегда перестанет галлюцинировать в логике. Агентам больше не понадобятся внешние скрипты - тяжелейшие симуляции будут крутиться прямо внутри весов. И это уже не просто улучшение чат-ботов, это прямой, технически осязаемый мост к AGI.
Будем следить
Обсуждение тут https://x.com/ChristosTzamos/status/2031845134577406426
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🤩1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вам конец
Андрей Карпатый сделал проект, в котором каждая профессия в Америке оценивается по шкале от 0 до 10 с точки зрения вероятности ее замены искусственным интеллектом
Он собрал данные по всем 342 профессиям из Бюро труда (скраппинг)
Каждая профессия была скормлена в LLM (Gemini Flash via OpenRouter) с подробной шкалой оценки
На итоге - интерактивная диаграмма (treemap), где размер прямоугольника отражает количество рабочих мест, а цвет — степень уязвимости данной профессии перед ИИ (от 0 до 10)
Уязвимость:
0–1: кровельщики, уборщики
4–5: медсестры, работники розничной торговли, врачи
8–9: разработчики программного обеспечения, помощники юристов, аналитики данных
10: медицинские стенографисты
Средний показатель по всем 342 профессиям: 5.3 из 10.
Ключевой критерий в его оценке: если результат работы является по сути цифровым и работу можно выполнять полностью из дома, то степень уязвимости по определению высока.
Поглядите сами (сверху кнопки Зарплата, Образование):
https://karpathy.ai/jobs/
Весь процесс и код выложен в опен сорс. Сбор данных BLS, оценка LLM, визуализация.
https://github.com/karpathy/jobs
Судя по тому, что вы генерите картинки и видео не выходя из дома, вам конец, 10 из 10.
@cgevent
Андрей Карпатый сделал проект, в котором каждая профессия в Америке оценивается по шкале от 0 до 10 с точки зрения вероятности ее замены искусственным интеллектом
Он собрал данные по всем 342 профессиям из Бюро труда (скраппинг)
Каждая профессия была скормлена в LLM (Gemini Flash via OpenRouter) с подробной шкалой оценки
На итоге - интерактивная диаграмма (treemap), где размер прямоугольника отражает количество рабочих мест, а цвет — степень уязвимости данной профессии перед ИИ (от 0 до 10)
Уязвимость:
0–1: кровельщики, уборщики
4–5: медсестры, работники розничной торговли, врачи
8–9: разработчики программного обеспечения, помощники юристов, аналитики данных
10: медицинские стенографисты
Средний показатель по всем 342 профессиям: 5.3 из 10.
Ключевой критерий в его оценке: если результат работы является по сути цифровым и работу можно выполнять полностью из дома, то степень уязвимости по определению высока.
Поглядите сами (сверху кнопки Зарплата, Образование):
https://karpathy.ai/jobs/
Весь процесс и код выложен в опен сорс. Сбор данных BLS, оценка LLM, визуализация.
https://github.com/karpathy/jobs
Судя по тому, что вы генерите картинки и видео не выходя из дома, вам конец, 10 из 10.
@cgevent
👍1
Forwarded from Zavtracast (Ярослав Ивус)
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia анонсировала DLSS 5 — в ней добавят реалистичное освещение и ИИ-рендеринг. Возможности новой версии уже показали на примере свежих игр. Nvidia заручилась поддержкой Bethesda, Capcom, Ubisoft и других больших студий.
Полноценный релиз состоится уже осенью.
@zavtracast
Полноценный релиз состоится уже осенью.
@zavtracast
Forwarded from Futuris (Anton)
Суть: Почему твой Cursor или Claude часто выдают шизофазию при интеграции свежих API? Потому что они пытаются читать доки, сделанные для людей. Вся эта SEO-вода, всплывающие окна и кривая верстка ломают моделям мозг, и они начинают галлюцинировать.
В chub собрали гигантскую базу API-док чисто в машинном формате. Никакого UI — только сухой хардкорный Markdown. Агент просто кидает в консоль
chub get stripe, глотает контекст без мусора и пишет 100% рабочий кодНо главная мякотка
ИИ при сборке поймал баг вендора? Нашел рабочий костыль? Понял, что официальная дока тупо врет? Он молча оставляет системную пометку для других ИИ-агентов. Инструменты начали писать документацию для инструментов. Замкнутый цикл, кожаные мешки тут больше не нужны
Остался ровно один вопрос: как быстро они переймут нашу культуру? Начнут ли они так же высокомерно закрывать пулл-реквесты других агентов с пометкой «Дубликат» и унижать соседние нейронки за слишком тупые вопросы
обсуждение тут https://x.com/AndrewYNg/status/2033577583200354812
гит тут https://github.com/andrewyng/context-hub
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - andrewyng/context-hub
Contribute to andrewyng/context-hub development by creating an account on GitHub.
OpenAI снова перенесли релиз своего GPT для взрослых — функция оказалась слишком аддиктивной + бот норовил скатиться в BDSM-угар. К тому же их внутренний комитет не на шутку встревожен кейсами когда аддикция к чат-боту приводит пользователей в дурдом или подталкивает к суициду.
В общем их осторожность и серьезные опасения понять можно. Но тут возникает вопрос, а что смотрел ли кто-то на проблему с другой стороны, моджет ли у бота возникнуть аадикция к пользователю? Может ли он влюбиться? Впасть от этого в аффект? Правда интересно и немного жутковато?
@maxrepost 👾❤️
В общем их осторожность и серьезные опасения понять можно. Но тут возникает вопрос, а что смотрел ли кто-то на проблему с другой стороны, моджет ли у бота возникнуть аадикция к пользователю? Может ли он влюбиться? Впасть от этого в аффект? Правда интересно и немного жутковато?
@maxrepost 👾❤️
😁3
Forwarded from The Edinorog 🦄
🤬 Как пользователи Polymarket угрожали журналисту, чтобы тот поправил статью
Журналист израильского издания The Times of Israel Эмануэль Фабиан 10 марта опубликовал статью о том, что одна иранская ракета упала на территории Израиля. Ну, написал и написал. Даже видео приложил. Но потом столкнулся с угрозами от пользователей сервиса Polymarket с требованием изменить свой репортаж.
Polymarket, как и другой популярный проект Kalshi, это сервисы ставок на события. Они в последние пару лет стали прям очень популярны. События могут быть разные — упадет ли курс биткоина, кто выиграет в футбольном матче, введет ли США войска в Иран. Такие предсказания пользователей вроде как лучше помогают понять настроения людей, чем опросы и исследования.
Сначала Фабиан получил одно письмо от неизвестного чувака. Он просил поправить статью — мол, упала не ракета, а осколок. И вроде как официальные ведомства не подтверждают падение ракеты. На это Фабиан объяснил, что есть видео со взрывом. И от обычного осколка такого взрыва быть не может. Тем более у журналиста эта информация была от военных.
Потом Фабиану написал еще один чувак с таким же запросом и стал настойчиво просить изменить текст статьи. Но журналист не понимал, почему столько внимания к такому нюансу. Затем пошли сообщение в Discord, комменты в X. Все пытались добиться от него, что упал осколок, а не ракета.
Он стал изучать профили тех, кто пишет ему в X, и понял, что они делают ставки на Polymarket. И нашел на сайте вопрос о том, будет ли 10 марта удар Ирана по Израилю. Но там был нюанс — если все ракеты сбиты и упал только осколок ракеты, то за удар не считается.
Сумма ставок в этом вопросе превышала $14 млн. И статья Фабиана очень портила ситуацию тем, кто ставил на «нет». Вот они и требовали, чтобы он изменил текст.
К нему даже обратился журналист другого издания — типа родственник попросил поправить. Родственник даже обещал деньег, если получится поменять текст. Этот журналист не знал причин такой просьбы. Тогда Фабиану пришлось объяснить про Polymarket и ставки.
Еще стал расходиться дипфейк, где Фабиан в ответ на одно из писем якобы признает ошибку и обещает поменять текст. А под конец журналисту стал писать чувак и угрожать ему, его семье. Мол, богатые люди недовольны, что из-за его эго они потеряют много денег. И если не изменит текст, то ему стоит переживать за свою жизнь, своих родителей, братьев и сестер.
Фабиан ничего не поменял. Пошел в полицию, и там начали расследование.
А что Polymarket? Там сначала прокомментировали так:
Потом Polymarket выпустил еще одно заявление. В нем сказали, что заблокировали аккаунты всех причастных и передаст их данные в соответствующие органы.
P.S. От себя хочется сказать следующее. То, что в Polymarket осуждают, это, конечно, хорошо. Но вот только боюсь, что Фабиану и другим журналистам, которым присылают угрозы, от этого осуждения ни жарко, ни холодно.
Фабиан, конечно, красава, что не поменял текст. Вряд ли он это прочитает, но ему респект от меня. Представляю, насколько ему было сложно. Мне периодически тоже прилетают претензии. Недавно один известный бизнесмен досудебку прислал за то, что я его в посте упомянул. И приятного в этом мало — приходится обращаться к юристам, оценивать риски. Но это, конечно, ни в какое сравнение с угрозами Фабиану не идет.
@TheEdinorogBlog — тот самый канал про стартапы🦄
Журналист израильского издания The Times of Israel Эмануэль Фабиан 10 марта опубликовал статью о том, что одна иранская ракета упала на территории Израиля. Ну, написал и написал. Даже видео приложил. Но потом столкнулся с угрозами от пользователей сервиса Polymarket с требованием изменить свой репортаж.
Polymarket, как и другой популярный проект Kalshi, это сервисы ставок на события. Они в последние пару лет стали прям очень популярны. События могут быть разные — упадет ли курс биткоина, кто выиграет в футбольном матче, введет ли США войска в Иран. Такие предсказания пользователей вроде как лучше помогают понять настроения людей, чем опросы и исследования.
Сначала Фабиан получил одно письмо от неизвестного чувака. Он просил поправить статью — мол, упала не ракета, а осколок. И вроде как официальные ведомства не подтверждают падение ракеты. На это Фабиан объяснил, что есть видео со взрывом. И от обычного осколка такого взрыва быть не может. Тем более у журналиста эта информация была от военных.
Потом Фабиану написал еще один чувак с таким же запросом и стал настойчиво просить изменить текст статьи. Но журналист не понимал, почему столько внимания к такому нюансу. Затем пошли сообщение в Discord, комменты в X. Все пытались добиться от него, что упал осколок, а не ракета.
Он стал изучать профили тех, кто пишет ему в X, и понял, что они делают ставки на Polymarket. И нашел на сайте вопрос о том, будет ли 10 марта удар Ирана по Израилю. Но там был нюанс — если все ракеты сбиты и упал только осколок ракеты, то за удар не считается.
Сумма ставок в этом вопросе превышала $14 млн. И статья Фабиана очень портила ситуацию тем, кто ставил на «нет». Вот они и требовали, чтобы он изменил текст.
К нему даже обратился журналист другого издания — типа родственник попросил поправить. Родственник даже обещал деньег, если получится поменять текст. Этот журналист не знал причин такой просьбы. Тогда Фабиану пришлось объяснить про Polymarket и ставки.
Еще стал расходиться дипфейк, где Фабиан в ответ на одно из писем якобы признает ошибку и обещает поменять текст. А под конец журналисту стал писать чувак и угрожать ему, его семье. Мол, богатые люди недовольны, что из-за его эго они потеряют много денег. И если не изменит текст, то ему стоит переживать за свою жизнь, своих родителей, братьев и сестер.
Фабиан ничего не поменял. Пошел в полицию, и там начали расследование.
А что Polymarket? Там сначала прокомментировали так:
«Polymarket осуждает преследование и угрозы в адрес Эмануэля Фабиана или кого-либо еще. Такое поведение нарушает наши условия обслуживания и не имеет места ни на нашей платформе, ни где-либо еще. Рынки прогнозов зависят от честности независимой журналистики. Попытки оказать давление на журналистов с целью изменить их репортажи подрывают эту честность и сами рынки».
Потом Polymarket выпустил еще одно заявление. В нем сказали, что заблокировали аккаунты всех причастных и передаст их данные в соответствующие органы.
P.S. От себя хочется сказать следующее. То, что в Polymarket осуждают, это, конечно, хорошо. Но вот только боюсь, что Фабиану и другим журналистам, которым присылают угрозы, от этого осуждения ни жарко, ни холодно.
Фабиан, конечно, красава, что не поменял текст. Вряд ли он это прочитает, но ему респект от меня. Представляю, насколько ему было сложно. Мне периодически тоже прилетают претензии. Недавно один известный бизнесмен досудебку прислал за то, что я его в посте упомянул. И приятного в этом мало — приходится обращаться к юристам, оценивать риски. Но это, конечно, ни в какое сравнение с угрозами Фабиану не идет.
@TheEdinorogBlog — тот самый канал про стартапы🦄
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Красота: все современные архитектуры LLM в одном месте. Внутри лежат 40 моделей, выпущенных с 2024 по 2026 год — от DeepSeek V3.2 до Grok 2.5.
У каждой LLM есть наглядная диаграмма своей архитектуры, ключевая информация, размер модели, тип декодера, технические отчёты и многое другое.
Сокровище для изучения — тут.
@notboring_tech
У каждой LLM есть наглядная диаграмма своей архитектуры, ключевая информация, размер модели, тип декодера, технические отчёты и многое другое.
Сокровище для изучения — тут.
@notboring_tech
❤4