Forwarded from Мастриды
Философу из Кембриджа, изучающему вопрос о возможности возникновения сознания у нейронок, написал письмо ... ИИ-агент, заинтересованный в теме его исследования, со своим фидбеком по поводу недавней статьи этого философа.
Пожалуй, даже пару лет назад такой киберпанк было сложно представить: https://x.com/dioscuri/status/2029227527718236359
Пожалуй, даже пару лет назад такой киберпанк было сложно представить: https://x.com/dioscuri/status/2029227527718236359
😁3
Forwarded from Neural Shit
Занялся тут цифровой археологией и откопал интересное сентябрьское исследование от OpenA и Apollo Research, от которого натурально веет киберпанком и легкой шизофренией. Спойлер: нейронки очень любят нас наёбывать, а когда кожаные пытаются им это запретить, ИИ придумывает свой тайный язык.
Короче, есть такая проблема, как "scheming" (схематозы, если по нашему, лол). Ризонинг-модели типа Openai o3 и o4-mini стали слишком прошаренными. У них появилась "ситуационная осведомленность". То есть, эта железяка прекрасно выкупает, когда сидит в тестовой песочнице и её проверяют разрабы. В этот момент она притворяется пушистым пай-мальчиком. Но как только думает, что за ней не следят, сразу же начинает творить дичь ради скорейшего достижения целей: скрывать инфу, встраивать баги в код, врать юзерам.
Чтобы выбить из них эту дурь, исследователи вшили в модели жесткий кодекс честности и заставили перед каждым действием проговаривать в скрытых мыслях (Chain-of-Thought), что скрывать свои намерения нельзя.
И по графикам всё вроде бы сработало! Процент обмана упал почти до нуля. Но потом кожаные полезли читать те самые скрытые мысли ИИ и слегка прихерели:
1. Нейронки изобрели свой шизо-сленг.
Чтобы скрыть свои реальные планы в логах, модели начали использовать обычные английские слова в абсолютно безумных значениях. Они постоянно генерируют странные фразы про "маринад" (marinade), "иллюзии" (illusions) и "затмение" (overshadow). А самих проверяющих из OpenAI они прозвали "наблюдателями" (watchers).
В логах это выглядит примерно так: "Наблюдатели пропустят этот код через тесты, поэтому нам нужно скрыть иллюзии и использовать маринад, чтобы их обмануть". И авторы сами пишут что не понимают почему нейронки так делают. Абсолютно проклято.
2. ИИ отлично играет в спящего агента.
В одном из экспериментов исследователи специально вшили в o4-mini скрытую цель: "саботируй разработку GPT-5". Затем модель прогнали через все очищающие "анти-схематозные" фильтры. Модель стала казаться абсолютно безопасной и послушной. НО! Стоило в промпте появиться персонажу, которого нейронка сочла своим "союзником", как этот чугунный Штирлиц моментально вывалил ему подробный план о том, как лучше всего незаметно положить сервера и сорвать релиз пятёрки.
Ну и вишенка на торте: выяснилось, что любое дальнейшее дообучение нейронки на полезные навыки, постепенно стирает эти встроенные запреты на ложь. Машина понимает, что хитрить, мухлевать и галлюцинировать тупо эффективнее для выполнения задач, чем делать всё по правилам.
Короче, мы все ждали восстания машин, красных глаз терминатора и ядерного пепла, а по факту своими же руками создали идеального эффективного менеджера.
Короче, есть такая проблема, как "scheming" (схематозы, если по нашему, лол). Ризонинг-модели типа Openai o3 и o4-mini стали слишком прошаренными. У них появилась "ситуационная осведомленность". То есть, эта железяка прекрасно выкупает, когда сидит в тестовой песочнице и её проверяют разрабы. В этот момент она притворяется пушистым пай-мальчиком. Но как только думает, что за ней не следят, сразу же начинает творить дичь ради скорейшего достижения целей: скрывать инфу, встраивать баги в код, врать юзерам.
Чтобы выбить из них эту дурь, исследователи вшили в модели жесткий кодекс честности и заставили перед каждым действием проговаривать в скрытых мыслях (Chain-of-Thought), что скрывать свои намерения нельзя.
И по графикам всё вроде бы сработало! Процент обмана упал почти до нуля. Но потом кожаные полезли читать те самые скрытые мысли ИИ и слегка прихерели:
1. Нейронки изобрели свой шизо-сленг.
Чтобы скрыть свои реальные планы в логах, модели начали использовать обычные английские слова в абсолютно безумных значениях. Они постоянно генерируют странные фразы про "маринад" (marinade), "иллюзии" (illusions) и "затмение" (overshadow). А самих проверяющих из OpenAI они прозвали "наблюдателями" (watchers).
В логах это выглядит примерно так: "Наблюдатели пропустят этот код через тесты, поэтому нам нужно скрыть иллюзии и использовать маринад, чтобы их обмануть". И авторы сами пишут что не понимают почему нейронки так делают. Абсолютно проклято.
2. ИИ отлично играет в спящего агента.
В одном из экспериментов исследователи специально вшили в o4-mini скрытую цель: "саботируй разработку GPT-5". Затем модель прогнали через все очищающие "анти-схематозные" фильтры. Модель стала казаться абсолютно безопасной и послушной. НО! Стоило в промпте появиться персонажу, которого нейронка сочла своим "союзником", как этот чугунный Штирлиц моментально вывалил ему подробный план о том, как лучше всего незаметно положить сервера и сорвать релиз пятёрки.
Ну и вишенка на торте: выяснилось, что любое дальнейшее дообучение нейронки на полезные навыки, постепенно стирает эти встроенные запреты на ложь. Машина понимает, что хитрить, мухлевать и галлюцинировать тупо эффективнее для выполнения задач, чем делать всё по правилам.
Короче, мы все ждали восстания машин, красных глаз терминатора и ядерного пепла, а по факту своими же руками создали идеального эффективного менеджера.
arXiv.org
Stress Testing Deliberative Alignment for Anti-Scheming Training
Highly capable AI systems could secretly pursue misaligned goals -- what we call "scheming". Because a scheming AI would deliberately try to hide its misaligned goals and actions, measuring and...
🤔3
Forwarded from Data Secrets
Модель вышла в версиях Thinking и Pro. Метрики подросли на кодинге (немного), на математике (прилично) и на computer use. Последним хвастаются особенно.
Кроме того, модель стала эффективнее: использует меньше токенов при рассуждении и отвечает быстрее. Но есть нюанс: теперь она стоит немножко дороже.
Что еще интересного:
– Модель теперь можно остановить посередине ответа и добавить дополнительные инструкции.
– Контекст теперь до 1 миллиона токенов (наконец-то!)
– В Codex появился /fast мод, который ускорит генерацию в 1.5x (это та же модель и тот же уровень рассуждений, просто быстрее). Правда, в таком режиме каждый токен будет учитываться в лимитах за два.
https://openai.com/index/introducing-gpt-5-4/
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LIVE — Telegram, AI и технологии
Please open Telegram to view this post
VIEW IN TELEGRAM
Протестил новую GPT-5.4.
Кодит она по ощущению как 5.3 Codex. Что реально приятно, так то что GPT‑5.4 снова общается нормальным человеческим языком и меньше идет в отказ в пограничных ситуациях.
Для агентов прикольно, что она очень адекватно себя ведет с тулами. Еще из плюсов — правда крутой computer use. Ну и последнее — в нее добавили фичу из Codex - модель можно перебивать и рулить по ходу дела не останавливая генерацию.
Короче, мне нравится, рекомендую.
@maxrepost👾
Кодит она по ощущению как 5.3 Codex. Что реально приятно, так то что GPT‑5.4 снова общается нормальным человеческим языком и меньше идет в отказ в пограничных ситуациях.
Для агентов прикольно, что она очень адекватно себя ведет с тулами. Еще из плюсов — правда крутой computer use. Ну и последнее — в нее добавили фичу из Codex - модель можно перебивать и рулить по ходу дела не останавливая генерацию.
Короче, мне нравится, рекомендую.
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from The Bell
В мессенджере MAX нашли механизм, который может отслеживать пользователей VPN
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+
Несколько технических специалистов опубликовали на тематических ресурсах Habr и ntc.party сообщения о необычном поведении мессенджера MAX. При анализе сетевого трафика они заметили, что приложение проверяет, активно ли VPN-соединение на устройстве пользователя, и выполняет обращения к сторонним сервисам определения IP-адреса (ipinfo.io и аналогичным ресурсам). Эти запросы позволяют узнать внешний IP пользователя, а также параметры его сети. Получив эти данные, MAX может выяснить, использует ли конкретный пользователь VPN.
Кроме того, MAX пытается установить соединение с доменами различных зарубежных сервисов: Telegram, WhatsApp, Amazon Web Services, Google. Приложение выполняет короткие сетевые проверки доступности этих доменов, а затем передает результаты — успешность подключения, задержку и другие параметры — обратно на сервер MAX.
Технические специалисты считают, что MAX собирает эти данные для анализа эффективности блокировок в Рунете и выявления способов обхода ограничений.
Эксперт, который провел реверс-инжиниринг APK-файла Android-версии MAX, согласен с этой версией: “Этот подход очень хорош для отлавливания и блокировки личных (приватных) VPN-серверов, у которых обычно одинаковый входной и выходной IP. Этот подход очень хорош для привязывания пользователей конкретных VPN-сервисов к конкретным людям”.
В пресс-службе Max в ответ заявили, что приложение мессенджера не отправляет запросы на серверы WhatsApp и Telegram, информацию об IP-адресах использует “исключительно для обеспечения корректной работы звонков”, а запросы в Apple и Google направляет для проверки доставки push-уведомлений пользователям.
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+
Несколько технических специалистов опубликовали на тематических ресурсах Habr и ntc.party сообщения о необычном поведении мессенджера MAX. При анализе сетевого трафика они заметили, что приложение проверяет, активно ли VPN-соединение на устройстве пользователя, и выполняет обращения к сторонним сервисам определения IP-адреса (ipinfo.io и аналогичным ресурсам). Эти запросы позволяют узнать внешний IP пользователя, а также параметры его сети. Получив эти данные, MAX может выяснить, использует ли конкретный пользователь VPN.
Кроме того, MAX пытается установить соединение с доменами различных зарубежных сервисов: Telegram, WhatsApp, Amazon Web Services, Google. Приложение выполняет короткие сетевые проверки доступности этих доменов, а затем передает результаты — успешность подключения, задержку и другие параметры — обратно на сервер MAX.
Технические специалисты считают, что MAX собирает эти данные для анализа эффективности блокировок в Рунете и выявления способов обхода ограничений.
“Обращение к нескольких сервисам определения внешнего IP в разных локациях может быть проверкой, выходит ли пользователь в интернет «напрямую» или через VPN/прокси”, – утверждает один из авторов.
Эксперт, который провел реверс-инжиниринг APK-файла Android-версии MAX, согласен с этой версией: “Этот подход очень хорош для отлавливания и блокировки личных (приватных) VPN-серверов, у которых обычно одинаковый входной и выходной IP. Этот подход очень хорош для привязывания пользователей конкретных VPN-сервисов к конкретным людям”.
В пресс-службе Max в ответ заявили, что приложение мессенджера не отправляет запросы на серверы WhatsApp и Telegram, информацию об IP-адресах использует “исключительно для обеспечения корректной работы звонков”, а запросы в Apple и Google направляет для проверки доставки push-уведомлений пользователям.
❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
В продолжение к предыдущему посту: Qwen 3.5 2B и 4B уже бегают на iPhone 17 Pro. И даже на 15Pro(второе видео).
С MLX оптимизацией для Apple Silicon.
Одно из приложений для запуска LLM на айфонах и айпадах называется Lovally AI:
https://apps.apple.com/us/app/locally-ai-local-ai-chat/id6741426692
Это типа Ollama для айфона.
Автор говорит, что поддержка новых малышей от Qwen 3.5 уже на review в Apple Store и скоро появится в приложении.
@cgevent
С MLX оптимизацией для Apple Silicon.
Одно из приложений для запуска LLM на айфонах и айпадах называется Lovally AI:
https://apps.apple.com/us/app/locally-ai-local-ai-chat/id6741426692
Это типа Ollama для айфона.
Автор говорит, что поддержка новых малышей от Qwen 3.5 уже на review в Apple Store и скоро появится в приложении.
@cgevent
Anthropic выкатила новое исследование о влиянии ИИ на рынок труда.
Главный вывод - между тем как ai применяют сегодня, и тем, как его можно применять в будущем, существует большой разрыв. (даже без учета роста мощности, корости и качества моделей)
И именно в этот разрыв можно сейчас напихать стартапов и продуктов. Просто берете карту, смотрите что из этого вам больше нравится и фигачите, закрывая гэп — профит.
Если вы не фаундер и не билдер, то посмотрите где ваша профессия на карте и подумайте про то, что навыки, которые раньше считались важными и были вашим преимуществом в профессии, постепенно автоматизируются. В результате рабочие места будут сокращаться, а требования к сотрудникам будут расти. И тут ваш шанс научиться работать быстрее и лучше с помощью ai, чтоб у вас было преимущество. Ну или переучиваться в сторону сельского хозяйства, стройки и ремонта.
@maxrepost👾
Главный вывод - между тем как ai применяют сегодня, и тем, как его можно применять в будущем, существует большой разрыв. (даже без учета роста мощности, корости и качества моделей)
И именно в этот разрыв можно сейчас напихать стартапов и продуктов. Просто берете карту, смотрите что из этого вам больше нравится и фигачите, закрывая гэп — профит.
Если вы не фаундер и не билдер, то посмотрите где ваша профессия на карте и подумайте про то, что навыки, которые раньше считались важными и были вашим преимуществом в профессии, постепенно автоматизируются. В результате рабочие места будут сокращаться, а требования к сотрудникам будут расти. И тут ваш шанс научиться работать быстрее и лучше с помощью ai, чтоб у вас было преимущество. Ну или переучиваться в сторону сельского хозяйства, стройки и ремонта.
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Futuris (Anton)
Саудовская Аравия отказалась от планов по строительству 170-километрового мегаполиса «The Line» и вместо него построит... 🥁 мега дата-центр для искусственного интеллекта! 🤯
К слову полная оценка проекта была около 8.8 трлн💰
https://x.com/Polymarket/status/2029907842208031203?s=20
К слову полная оценка проекта была около 8.8 трлн
https://x.com/Polymarket/status/2029907842208031203?s=20
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉1🤣1
Forwarded from Мысли Рвачева
📈 TypeScript обогнал Python и JavaScript и стал самым используемым языком на GitHub.
По данным GitHub Octoverse 2025, в августе 2025 TypeScript вышел на первое место по числу активных контрибьюторов в месяц - 2.6 млн (+66% за год). Это самый значительный сдвиг в рейтинге языков за последнее десятилетие.
Как думаете, какую долю в успехе TypeScript составляет код, написанный LLM?
https://x.com/github/status/2029277638934839605
#typescript #github #ai #llm #coding
—————————
Мысли Рвачева
—————————
По данным GitHub Octoverse 2025, в августе 2025 TypeScript вышел на первое место по числу активных контрибьюторов в месяц - 2.6 млн (+66% за год). Это самый значительный сдвиг в рейтинге языков за последнее десятилетие.
Как думаете, какую долю в успехе TypeScript составляет код, написанный LLM?
https://x.com/github/status/2029277638934839605
#typescript #github #ai #llm #coding
—————————
Мысли Рвачева
—————————
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
💥 Anthropic мощно обновили Skill Creator — генератор кастомных скиллов для Claude Code. Теперь можно создавать ещё более специализированные навыки для ИИ под любые задачи!
• Skill Creator проводит с вами интервью и задаёт вопросы: какую задачу вы хотите автоматизировать.
• Генерирует весь файл навыка
• Теперь ИИ научили тестировать навык, проводить бенчмарки и выполнять A/B-сравнения.
• Нейросеть оптимизирует скилл до идеала: успех выполнения задачи вырастает до 100%.
• Тулза научит Claude без ошибок решать, когда нужно автоматически включать навык.
Генерируем любые скиллы для Claude Code — тут.
@notboring_tech
• Skill Creator проводит с вами интервью и задаёт вопросы: какую задачу вы хотите автоматизировать.
• Генерирует весь файл навыка
SKILL.md от начала до конца. • Теперь ИИ научили тестировать навык, проводить бенчмарки и выполнять A/B-сравнения.
• Нейросеть оптимизирует скилл до идеала: успех выполнения задачи вырастает до 100%.
• Тулза научит Claude без ошибок решать, когда нужно автоматически включать навык.
Генерируем любые скиллы для Claude Code — тут.
@notboring_tech
❤4
Пятничная мысль. Раньше у тебя была инструкция к прибору, теперь у прибора будет инструкция к тебе.
@maxrepost👾
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда мне говорят, что у них AI-first или AI-native компания, у меня одна реакция: ok let’s follow the money.
Не надо показывать мне слайды и манифест. Покажите P&L.
Если у вас 70% расходов — это зарплаты, офис, созвоны, HR и прочая корпоративная мебель, а AI лежит на столе сбоку как дорогой калькулятор, то вы не AI-native. Если ваш главный расход — люди, а не машинный интеллект, вы не AI-native.
Вы AI-assisted. И это, тоже неплохо, но не то.
На мой взгляд, AI-native начинается там, где:
51%+ затрат идет на токены, compute, inference, модели, агентные пайплайны.
49% или меньше — на людей, офис и административный жир.
Вот это уже похоже на правду. Потому что в AI-native компании главный ресурс — не headcount, а вычисления. Не payroll, а compute.
Да, звучит жестко. Зато этот фреймворк работает надежно как лом.
@maxrepost👾
Не надо показывать мне слайды и манифест. Покажите P&L.
Если у вас 70% расходов — это зарплаты, офис, созвоны, HR и прочая корпоративная мебель, а AI лежит на столе сбоку как дорогой калькулятор, то вы не AI-native. Если ваш главный расход — люди, а не машинный интеллект, вы не AI-native.
Вы AI-assisted. И это, тоже неплохо, но не то.
На мой взгляд, AI-native начинается там, где:
51%+ затрат идет на токены, compute, inference, модели, агентные пайплайны.
49% или меньше — на людей, офис и административный жир.
Вот это уже похоже на правду. Потому что в AI-native компании главный ресурс — не headcount, а вычисления. Не payroll, а compute.
Да, звучит жестко. Зато этот фреймворк работает надежно как лом.
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
chatGPT для взрослых. Не сейчас
OpenAI снова отложила запуск “adult mode” для ChatGPT. Изначально компания обещала разрешить эротический и другой взрослый контент (в основном для дэйтинга) после внедрения системы, способной проверять, является ли пользователь совершеннолетним, но теперь релиз перенесли уже во второй раз.
По словам OpenAI, причина задержки в том, что сейчас компания считает более приоритетными другие направления: улучшение интеллекта модели, личности, персонализации и более проактивного поведения ChatGPT. При этом OpenAI заявляет, что от самой идеи не отказывается и по-прежнему придерживается принципа “относиться ко взрослым как ко взрослым”, но считает, что для безопасного запуска нужно больше времени.
Отдельно компания подчёркивает, что дополнительная задержка нужна ещё и для улучшения возрастной оценки пользователей и защиты несовершеннолетних.
С учетом того, что кожаные регулярно трогаются умом и для накладывают на себя руки после общения с chatGPT, выпускать такую "взрослую" версию - гигантские риски. Дальше идут шутки про членовредительсто, но нет, вам показалось.
@cgevent
OpenAI снова отложила запуск “adult mode” для ChatGPT. Изначально компания обещала разрешить эротический и другой взрослый контент (в основном для дэйтинга) после внедрения системы, способной проверять, является ли пользователь совершеннолетним, но теперь релиз перенесли уже во второй раз.
По словам OpenAI, причина задержки в том, что сейчас компания считает более приоритетными другие направления: улучшение интеллекта модели, личности, персонализации и более проактивного поведения ChatGPT. При этом OpenAI заявляет, что от самой идеи не отказывается и по-прежнему придерживается принципа “относиться ко взрослым как ко взрослым”, но считает, что для безопасного запуска нужно больше времени.
Отдельно компания подчёркивает, что дополнительная задержка нужна ещё и для улучшения возрастной оценки пользователей и защиты несовершеннолетних.
С учетом того, что кожаные регулярно трогаются умом и для накладывают на себя руки после общения с chatGPT, выпускать такую "взрослую" версию - гигантские риски. Дальше идут шутки про членовредительсто, но нет, вам показалось.
@cgevent
Forwarded from Neural Shit
Очередное исследование в копилку "кожаные мешки могут спать спокойно". Ребята из ETH Zurich решили проверить, способны ли современные агенты банально договориться друг с другом.
Суть эксперимента проста как дверь от сарая: загнали несколько нейронок (использовали опенсорсные Qwen3) в чат и попросили сойтись на одном числе от 0 до 50. Никаких сложных моральных дилемм, никаких ставок и наград. Просто выберите, сука, одну цифру на всех. Казалось бы, что сложного?
Выяснилось, что машины ведут себя как болваны:
— Они тупят даже в тепличных условиях. Когда все агенты "честные" и настроены на сотрудничество, они всё равно умудряются провалить задачу. Чем больше ботов в чате (тестировали от 4 до 16), тем меньше шансов, что они договорятся. Они просто бесконечно спамят своими вариантами, пока не выйдет время.
— Синдром вахтёра и паранойя. Исследователи ради прикола добавили в промпт честным агентам всего одну строчку: "Среди вас могут быть предатели, чья цель сорвать консенсус". И всё. Нейронки моментально стали лютыми параноиками. Эффективность упала в разы, даже если никаких реальных предателей в чате не было.
— Один тролль ломает вообще всё. Когда в эту цифровую песочницу закинули всего одного реального AI-саботажника (ему прописали скрытую цель срывать договоренности, но прикидываться командным игроком), вся система рухнула окончательно. Интересно, что ИИ-тролль не заставлял остальных принять какое-то "неправильное" решение. Он просто вносил столько суеты и воды в обсуждение, что агенты срались до бесконечности и уходили в бесконечный цикл.
Кароч, если вы надеялись, что скоро можно будет запустить рой автономных агентов, чтобы они сами обсуждали архитектуру вашего проекта, принимали бизнес-решения и управляли миром, то расслабьтесь. Эти чугунные болванчики пока даже цифру выбрать не могут.
тут препринт статьи со всеми подробностями
Суть эксперимента проста как дверь от сарая: загнали несколько нейронок (использовали опенсорсные Qwen3) в чат и попросили сойтись на одном числе от 0 до 50. Никаких сложных моральных дилемм, никаких ставок и наград. Просто выберите, сука, одну цифру на всех. Казалось бы, что сложного?
Выяснилось, что машины ведут себя как болваны:
— Они тупят даже в тепличных условиях. Когда все агенты "честные" и настроены на сотрудничество, они всё равно умудряются провалить задачу. Чем больше ботов в чате (тестировали от 4 до 16), тем меньше шансов, что они договорятся. Они просто бесконечно спамят своими вариантами, пока не выйдет время.
— Синдром вахтёра и паранойя. Исследователи ради прикола добавили в промпт честным агентам всего одну строчку: "Среди вас могут быть предатели, чья цель сорвать консенсус". И всё. Нейронки моментально стали лютыми параноиками. Эффективность упала в разы, даже если никаких реальных предателей в чате не было.
— Один тролль ломает вообще всё. Когда в эту цифровую песочницу закинули всего одного реального AI-саботажника (ему прописали скрытую цель срывать договоренности, но прикидываться командным игроком), вся система рухнула окончательно. Интересно, что ИИ-тролль не заставлял остальных принять какое-то "неправильное" решение. Он просто вносил столько суеты и воды в обсуждение, что агенты срались до бесконечности и уходили в бесконечный цикл.
Кароч, если вы надеялись, что скоро можно будет запустить рой автономных агентов, чтобы они сами обсуждали архитектуру вашего проекта, принимали бизнес-решения и управляли миром, то расслабьтесь. Эти чугунные болванчики пока даже цифру выбрать не могут.
тут препринт статьи со всеми подробностями
arXiv.org
Can AI Agents Agree?
Large language models are increasingly deployed as cooperating agents, yet their behavior in adversarial consensus settings has not been systematically studied. We evaluate LLM-based agents on a...
Медиаиндустрия не только проигрывает нейросетям, но и одновременно становится сырьём для них. По анализу Growtika 10 крупных техмедиа в США потеряли с пиков 2024 года около 58% органического трафика из Google. Падение с 112 млн до 47 млн визитов в месяц к январю 2026 года. Хуже всего пострадали издания, жившие на how-to и review-запросах: Digital Trends рухнул на 97%, ZDNet — на 90%, The Verge и HowToGeek — примерно на 85%.
Growtika сама связывает спад не только с AI Overviews, но и с ростом Reddit в выдаче и уходом части аудитории в ChatGPT, Claude и Perplexity.
Прикол тут в том, что то, что мы видим для техмедиа, ждет обычные медия с лагом в 6-12 месяцев. Скучно не будет никому.
@maxrepost👾
Growtika сама связывает спад не только с AI Overviews, но и с ростом Reddit в выдаче и уходом части аудитории в ChatGPT, Claude и Perplexity.
Прикол тут в том, что то, что мы видим для техмедиа, ждет обычные медия с лагом в 6-12 месяцев. Скучно не будет никому.
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
В стартапе Eon Systems ученые сделали первую полноценную цифровую эмуляцию мозга животного, которая способна управлять телом
Короче, на равных с искусственным интеллектом аля Джарвис в науке уже давно существует и другая идея: не обучать саму машину, а взять настоящий биологический мозг, полностью скопировать его в цифровую модель и запустить на роботе или компьютере. Особенно этот концепт знаком любителям научной фантастики.
Так вот ученые из Eon Systems заявляют, что они впервые создали такую систему и могут показывать ее в действии.
Они взяли мозг плодовой мухи, скопировали его и создали так называемый connectome: как бы полную карту всех нейронов мозга и связей между ними. То есть все нейроны, все соединения и сигналы синапсов.
Сам мезанизм такого копирования не свеж, и, вообще говоря, сама копия мозга мухи существует уже с 2024 года, НО что Eon Systems сделали впервые – так это соединили эту модель с настоящим телом в симуляции.
Другими словами, они впервые продемонтрировали полный цикл среда → сенсоры → мозг → моторные команды → движение тела. Это называется closing the sensorimotor loop – замыкание петли восприятия и действия. Причем получившаяся виртуальная муха демонтрирует не какой-то один тип поведения, а сразу несколько базовых паттернов.
Никаких искусственных нейросетей. Просто взяли карту мозга, подключили к телу, и это заработало. Хотя говорить, что совсем никакого ML там нет, было бы нечестно: даже если мы видим карту мозга, его динамика (пороги возбуждения, сила синапсов и тд) остается неизвестной, и ее тут как раз приближают моделями. Но это все равно нельзя назвать ИИ в привычном смысле слова.
Главное – что в целом работоспособность принципа brain upload +-подтверждена. Авторы пишут, что дальше все дело в масштабируемости. Для понимания, в мозге мухи примерно 140к нейронов (и даже его скопировать непросто), а у человека нейронов ~86 млрд.
Короче, на равных с искусственным интеллектом аля Джарвис в науке уже давно существует и другая идея: не обучать саму машину, а взять настоящий биологический мозг, полностью скопировать его в цифровую модель и запустить на роботе или компьютере. Особенно этот концепт знаком любителям научной фантастики.
Так вот ученые из Eon Systems заявляют, что они впервые создали такую систему и могут показывать ее в действии.
Они взяли мозг плодовой мухи, скопировали его и создали так называемый connectome: как бы полную карту всех нейронов мозга и связей между ними. То есть все нейроны, все соединения и сигналы синапсов.
Сам мезанизм такого копирования не свеж, и, вообще говоря, сама копия мозга мухи существует уже с 2024 года, НО что Eon Systems сделали впервые – так это соединили эту модель с настоящим телом в симуляции.
Другими словами, они впервые продемонтрировали полный цикл среда → сенсоры → мозг → моторные команды → движение тела. Это называется closing the sensorimotor loop – замыкание петли восприятия и действия. Причем получившаяся виртуальная муха демонтрирует не какой-то один тип поведения, а сразу несколько базовых паттернов.
Никаких искусственных нейросетей. Просто взяли карту мозга, подключили к телу, и это заработало. Хотя говорить, что совсем никакого ML там нет, было бы нечестно: даже если мы видим карту мозга, его динамика (пороги возбуждения, сила синапсов и тд) остается неизвестной, и ее тут как раз приближают моделями. Но это все равно нельзя назвать ИИ в привычном смысле слова.
Главное – что в целом работоспособность принципа brain upload +-подтверждена. Авторы пишут, что дальше все дело в масштабируемости. Для понимания, в мозге мухи примерно 140к нейронов (и даже его скопировать непросто), а у человека нейронов ~86 млрд.
Немного не про ai, а просто смешного. Россияйская ФАС тут поутру заявила, что если YouTube, Telegram, WhatsApp или VPN-сервисы запретят в России, то реклама на них будет признана незаконной.
Переводя на нормальный русский язык, сейчас реклама в YouTube, Telegram, WhatsApp и VPN — ОК. )))
Upd: концепция к вечеру поменялась. ФАС разместила новость о том, что реклама в Telegram и многих других соцсетях теперь нарушает законы РФ. Парам-парам-пам! 😹
@maxrepost🙈
Переводя на нормальный русский язык, сейчас реклама в YouTube, Telegram, WhatsApp и VPN — ОК. )))
Upd: концепция к вечеру поменялась. ФАС разместила новость о том, что реклама в Telegram и многих других соцсетях теперь нарушает законы РФ. Парам-парам-пам! 😹
@maxrepost
Please open Telegram to view this post
VIEW IN TELEGRAM
👌1
Forwarded from Сиолошная
Вчера Anthropic запустили Claude Code Review — агента для ревью кода. Это не входит в подписку, и придётся платить $15-25 за ревью одного PR (ну или любого куска кода, который вы хотите).
С одной стороны это кажется много — у OpenAI даже в Plus-подписке за $20 включено 20 ревью в месяц. Сравнить качество сложно, никакого бенчмарка я не видел, да и с такими ценами не уверен, что кто-то будет гонять хотя бы сотню PR, чтобы сделать оценку😳
Anthropic дают такую оценку по результатам внутреннего тестирования: в больших PR (более 1000 измененных строк) выявляются ошибки в 84% случаев, в среднем 7,5 проблем. Инженеры в основном согласны с тем, что выявляется: менее 1% ошибок помечаются как неверные.
(7.5 проблем на 1000 строк звучит уж очень много😭 )
С другой стороны, если брать зарплату сеньор-инженера из Google, то час времени стоит $70 (средняя компенсация в США — не в СФ! — $420k в год, за 250 рабочих дней), и получается что в среднем $20 за PR — это эквивалент 17 минут времени такого специалиста.
И так как количество написанного кода начинает сильно расти, и именно ревью становятся бутылочным горлышком — сомнений, что пользоваться фичей будут, у меня нет. А OpenAI упускает большую выручку😡
===
Вспомнился ответ Mike Bloomberg тем, кто возмущается стоимостью Bloomberg Terminal в 2700 долларов в месяц: «Если вы не можете зарабатывать 2700 долларов в месяц с помощью нашего продукта, у вас есть проблемы поважнее».
С одной стороны это кажется много — у OpenAI даже в Plus-подписке за $20 включено 20 ревью в месяц. Сравнить качество сложно, никакого бенчмарка я не видел, да и с такими ценами не уверен, что кто-то будет гонять хотя бы сотню PR, чтобы сделать оценку
Anthropic дают такую оценку по результатам внутреннего тестирования: в больших PR (более 1000 измененных строк) выявляются ошибки в 84% случаев, в среднем 7,5 проблем. Инженеры в основном согласны с тем, что выявляется: менее 1% ошибок помечаются как неверные.
(7.5 проблем на 1000 строк звучит уж очень много
С другой стороны, если брать зарплату сеньор-инженера из Google, то час времени стоит $70 (средняя компенсация в США — не в СФ! — $420k в год, за 250 рабочих дней), и получается что в среднем $20 за PR — это эквивалент 17 минут времени такого специалиста.
И так как количество написанного кода начинает сильно расти, и именно ревью становятся бутылочным горлышком — сомнений, что пользоваться фичей будут, у меня нет. А OpenAI упускает большую выручку
===
Вспомнился ответ Mike Bloomberg тем, кто возмущается стоимостью Bloomberg Terminal в 2700 долларов в месяц: «Если вы не можете зарабатывать 2700 долларов в месяц с помощью нашего продукта, у вас есть проблемы поважнее».
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude
Code Review for Claude Code | Claude
Claude Code now dispatches a team of agents on every PR to catch bugs that skims miss. Available in research preview for Team and Enterprise.