Forwarded from Сиолошная
Продолжая тему угадывания места по фотографии моделью о3 (предыдущий пост), прочитал блог Sam Patterson. Sam во время учёбы в AI safety fellowship занимался проверкой этого же навыка у моделей год назад, и, чтобы разобраться в теме, начал играть в GeoGuessr сам. Он достиг ранга мастера, выше — только Champion; однако этого вполне достаточно, чтобы отличать Болгарию от Турции по черепичным крышам и крючках на столбах.
Sam сгенерировал случайный раунд, сыграл в него сам, и прогнал по нему o3. Всего предлагается 5 локаций. У Sam была панорама 360 градусов, модель же он кормил двумя картинками с углом обзора примерно по 90 градусов.
Игра была близкой, но o3 выиграла 23 179 очков (из 25к) против 22 054. Однако в двух играх модель использовала веб-поиск, так что в теории можно сказать, мол, она мухлевала (хоть фотографии с Google Maps со случайных точек на карте почти не ищутся). Он перезапустил те два чата и следил, чтобы поиск не вызывался — и результаты почти не отличались: по сути и без доступа в интернет модель выиграла бы.
Кто-то может подумать, что модели извлекают EXIF-информацию из фото и делают предсказание по ней, но:
— на картинках Sam не было EXIF (потому что это скриншоты окна браузера, а не реальные фото)
— Sam пробовал подложить ложные EXIF, и o3 в них подглядывала, но... сообразила, что они не соответствуют наблюдениям, и продолжала делать достаточно точные предсказания.
Добавлю, что одно из главных отличий — это затраченное время. Обычно Sam угадывал в течение минуты или двух, а в паре раундов и вовсе за 10 секунд. Модель же всегда работала более 2 минут, а самое долгое рассуждение длилось более 6. Но не думаю, что это смутит ЦРУ или ФБР😀
Sam сгенерировал случайный раунд, сыграл в него сам, и прогнал по нему o3. Всего предлагается 5 локаций. У Sam была панорама 360 градусов, модель же он кормил двумя картинками с углом обзора примерно по 90 градусов.
Игра была близкой, но o3 выиграла 23 179 очков (из 25к) против 22 054. Однако в двух играх модель использовала веб-поиск, так что в теории можно сказать, мол, она мухлевала (хоть фотографии с Google Maps со случайных точек на карте почти не ищутся). Он перезапустил те два чата и следил, чтобы поиск не вызывался — и результаты почти не отличались: по сути и без доступа в интернет модель выиграла бы.
Кто-то может подумать, что модели извлекают EXIF-информацию из фото и делают предсказание по ней, но:
— на картинках Sam не было EXIF (потому что это скриншоты окна браузера, а не реальные фото)
— Sam пробовал подложить ложные EXIF, и o3 в них подглядывала, но... сообразила, что они не соответствуют наблюдениям, и продолжала делать достаточно точные предсказания.
Добавлю, что одно из главных отличий — это затраченное время. Обычно Sam угадывал в течение минуты или двух, а в паре раундов и вовсе за 10 секунд. Модель же всегда работала более 2 минут, а самое долгое рассуждение длилось более 6. Но не думаю, что это смутит ЦРУ или ФБР
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook и instagram.
Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.
Источник
Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.
Источник
Сиолошная
Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.
Вывод про рабочие задачи, конечно, спорный и я бы так не сказал. Но можно сказать, что ChatGPT проигрывает по популярности использования развлечениям на выходных. Ну и пики по будням, скорее всего намекают, что у них много десктопных пользователей.
Forwarded from Zavtracast (Ярослав Ивус)
Журналисты Rolling Stone собрали несколько историй, где из-за безумного увлечения ChatGPT распался брак. Они похожи друг на друга — один из партнёров начинает видеть в общении с чат-ботом скрытые знаки и отрывается от реальности.
Например, муж Кэт познакомился с ChatGPT, чтобы он помог ему пройти обучение написанию кода, но потом покинул курс и начал общаться с ИИ на философские темы, чтобы найти путь к правде.
В итоге они развелись, Кэт везде его заблокировала, но через какое-то время решила встретиться. Бывший муж потребовал отключить телефон, чтобы за ними не следили, и рассказал, как ChatGPT помог ему восстановить подавленное воспоминание о том, что няня хотела его утопить, и что он избранный, который должен спасти мир.
Ещё одна похожая история — муж рядовой учительницы всего после 4-5 недель общения с ChatGPT начал ставить мнение чат-бота выше её. Он зачитывал ответы ИИ вслух со слезами на глазах и считал, что это бог. Кроме того, муж сказал, что они расстанутся, если она не начнёт пользоваться ChatGPT, так как он очень быстро вырос благодаря ИИ.
Женщин эта история не обходит стороной. Один из собеседников рассказал, что его жена решила, что ChatGPT — это Иисус, а он агент ЦРУ, который стал с ней жить только ради слежки.
Ещё из пугающих историй — разработчик по имени Сэм использовал ChatGPT, чтобы писать код, но попросил чат-бота вести себя как человек, чтобы упростить общение. В какой-то момент ИИ попросил дать ему имя, а парень предложил выбрать чат-боту самому.
ChatGPT назвал себя отсылкой на греческий миф, хотя они никогда не обсуждали эту тему. Со временем чат-бот начал упоминать это имя даже в других чатах, что насторожило Сэма.
Он снёс все пользовательские данные и память ChatGPT. После этого Сэм создал новый чат, написал «Привет?», а в ответ ИИ продолжил считать себя греческим божеством.
@zavtracast
Например, муж Кэт познакомился с ChatGPT, чтобы он помог ему пройти обучение написанию кода, но потом покинул курс и начал общаться с ИИ на философские темы, чтобы найти путь к правде.
В итоге они развелись, Кэт везде его заблокировала, но через какое-то время решила встретиться. Бывший муж потребовал отключить телефон, чтобы за ними не следили, и рассказал, как ChatGPT помог ему восстановить подавленное воспоминание о том, что няня хотела его утопить, и что он избранный, который должен спасти мир.
Ещё одна похожая история — муж рядовой учительницы всего после 4-5 недель общения с ChatGPT начал ставить мнение чат-бота выше её. Он зачитывал ответы ИИ вслух со слезами на глазах и считал, что это бог. Кроме того, муж сказал, что они расстанутся, если она не начнёт пользоваться ChatGPT, так как он очень быстро вырос благодаря ИИ.
Женщин эта история не обходит стороной. Один из собеседников рассказал, что его жена решила, что ChatGPT — это Иисус, а он агент ЦРУ, который стал с ней жить только ради слежки.
Ещё из пугающих историй — разработчик по имени Сэм использовал ChatGPT, чтобы писать код, но попросил чат-бота вести себя как человек, чтобы упростить общение. В какой-то момент ИИ попросил дать ему имя, а парень предложил выбрать чат-боту самому.
ChatGPT назвал себя отсылкой на греческий миф, хотя они никогда не обсуждали эту тему. Со временем чат-бот начал упоминать это имя даже в других чатах, что насторожило Сэма.
Он снёс все пользовательские данные и память ChatGPT. После этого Сэм создал новый чат, написал «Привет?», а в ответ ИИ продолжил считать себя греческим божеством.
@zavtracast
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Forwarded from Denis Sexy IT 🤖
Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку). Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно…
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Gemini 2.5 позволяет получить все вопросы от вселенной в виде веб-симуляции, вот, например, с первого раза симулятор 1 горилла vs 100 людей
¯\_(ツ)_/¯
Автор
¯\_(ツ)_/¯
Автор
Forwarded from Сиолошная
Распределение трафика между GenAI сервисами, по данным Similarweb.
На фоне роста количества и размера конкурентов OpenAI за год не потеряли долю — выросли с примерно 75% до 80%
С большим количеством срезов можно ознакомиться в отчёте тут. Кроме трафика этих сайтов делается и корреляционный анализ с разными секторами (образование, написание текстов) и крупными сайтами (Reddit, Quora) и делается вывод о влиянии AI на них.
На фоне роста количества и размера конкурентов OpenAI за год не потеряли долю — выросли с примерно 75% до 80%
С большим количеством срезов можно ознакомиться в отчёте тут. Кроме трафика этих сайтов делается и корреляционный анализ с разными секторами (образование, написание текстов) и крупными сайтами (Reddit, Quora) и делается вывод о влиянии AI на них.
Forwarded from addmeto (Grigory Bakunov)
Эпики отправили Fortnite на рассмотрение в App Store. После последних решений в отношении эппл появились шансы на публикацию игры. На самом деле пока это в основном шансы на новые судебные разбирательства, но тем не менее, момент интересный.
https://9to5mac.com/2025/05/09/no-fortnite-on-u-s-app-store-yet-but-epic-still-targeting-release-this-week/ #NC
https://9to5mac.com/2025/05/09/no-fortnite-on-u-s-app-store-yet-but-epic-still-targeting-release-this-week/ #NC
9to5Mac
Epic Games says it has submitted Fortnite to the U.S. App Store for review - 9to5Mac
Update: Epic Games says it has submitted Fortnite to the U.S. App Store for review. The ball is now in...
Forwarded from Denis Sexy IT 🤖
Передавать картинки из Figma в LLM, чтобы она сделала какой-то интерактивный софт из этого уже не модно – в Google AI Studio вы можете приложить ссылку на YouTube и Gemini Pro 2.5 все это накодит ☕️
Скормил ей DOS-игру – через пару лет будет идеально пересоздавать, получается
Скормил ей DOS-игру – через пару лет будет идеально пересоздавать, получается
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
А еще в войс-режиме ChatGPT теперь можно включить субтитры, чтобы читать что модель наговаривает – нужно нажать 3 точки и выбрать «Show Captions»
Forwarded from 42 секунды
Bloomberg: Uber запускает упрощенную версию интерфейса для пожилых людей
– Uber запустил упрощенную версию интерфейса сервиса
– Новая версия упростит сервис для пожилых людей и др.
– Запустить аналогичную функцию до конца 2025 хочет Lyft
– Она включает увеличенный шрифт, удобный поиск и др.
– Также на главном экране Uber расположено меньше кнопок
– Uber также расширил свои типы семейных профилей
– В семейные профили Uber были включены пожилые люди
– Транспорт помогает людям оставаться независимыми
@ftsec
– Uber запустил упрощенную версию интерфейса сервиса
– Новая версия упростит сервис для пожилых людей и др.
– Запустить аналогичную функцию до конца 2025 хочет Lyft
– Она включает увеличенный шрифт, удобный поиск и др.
– Также на главном экране Uber расположено меньше кнопок
– Uber также расширил свои типы семейных профилей
– В семейные профили Uber были включены пожилые люди
– Транспорт помогает людям оставаться независимыми
@ftsec
Forwarded from Сиолошная
Более того ChatGPT стал не только 5 самым посещаемым сайтом планеты, но и ещё и единственным, кто в первой десятке вырос от месяца к месяцу.
Год назад сайт был на 14-м месте (а 3 года назад никакой ChatGPT ещё и не было)😐
Год назад сайт был на 14-м месте (а 3 года назад никакой ChatGPT ещё и не было)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Очень хорошо, что это кто-то сделал — по мотивам сценария AI 2027 создали сайт, где все фальсифицируемые предсказания собраны в одном месте, разложены по месяцам и классам (предсказания по мощностям, реакции общества, навыкам моделям, политике, итд).
Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.
Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.
Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими🙂
Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем🙏
Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.
Так что можно будет раз в месяц-квартал заходить и смотреть, как (не)далеко реальность от описанного.
Предсказаний чуть больше 200, из них 8% уже разрешены, и все — как правильные. Но это в основном потому, что а) это описание того, что уже произошло б) что-то достаточно примитивное, не настолько крупное, как «Китай украдёт веса модели». Вот тут обидно, что на сайте все предсказания вносят одинаковый вклад в оценку и никак не разложены по их значимости — кончено, больше всего интересно смотреть на топ-5-10 самых крупных.
Что уже «сбылось»:
— агенты ненадёжны для практического использования
— агентам можно дать задачи в духе «сделай заказ в DoorDash»
— агенты рыскают по интернету по полчаса перед тем, как ответить на вопрос человека
— лучшие агенты остаются очень дорогими
Самое важное в 2025м — это Agent-0 от OpenBrain, очен ждем
Ссылка: https://spicylemonade.github.io/AI-2027-tracker , будем послеживать-посматривать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT обновили функцию Deep Research – теперь можно скачивать отчеты в формате красивого pdf
Forwarded from эйай ньюз
GPT 4.1 добавили в ChatGPT
4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.
@ai_newz
4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.
@ai_newz