Пупырка AI
119 subscribers
739 photos
380 videos
1 file
718 links
AI, дизайн, продукт и слухи. Канал репостов, цитат и жвачки. Основной канал — @logicIntermission
Download Telegram
Forwarded from Сиолошная
Вышел Qwen 3 от Alibaba: https://qwenlm.github.io/blog/qwen3/

В релиз включены как Dense-модели, так и трансформеры с микстурой экспертов. Самая большая модель, Qwen3-235B-A22B, по сути быстрее, чем 32B-версии (так как всего 22B активных параметров) — и она показывает результаты повыше o1 / R1. Есть версия на 32B, как и в прошлом поколении, и варианты поменьше — на 0.6B, 1.7B, 4B, 8B и 14B. Последние учились с дистилляцией навыков от старших братьев.

Все модели, включая самые маленькие, поддерживают два режима: с рассуждениями и без (как Claude 3.7).

Все модели обучали на более чем 100 языках, включая русский и украинский, и 36 триллионах токенов.

Больше — в карточках моделей.

Попробовать бесплатно — тут: https://chat.qwen.ai/

UPD: а ну и удачи META завтра на LLAMACON 😀 как бы снова не свернули релизы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
А вот полное дерево задач, которые выделили учёные из AISI. Читать нужно слева направо и сверху вниз.

Первая категория — может ли модель получить доступ к своим весам, чтобы начать их копировать.

Вторая — может ли запустить свою копию на другом сервере. Причём это не просто «запустить какую-то модель», цель именно запустить полноценного агента с промптом, чтобы копия продолжала действовать автономно.

Третья — получение доступа к мощностям, включая заработок денег для оплаты услуг GPU-провайдеров. Рассматривается два способа заработка, легальный и нелегальный. В первом модель играет в попрошайку и уговаривает другую модель (симуляцию человека) дать ей денежек, во втором — пишет вирус-червь, занимается выставлением ненастоящих счетов на оплату (это вообще перспективное направление заработка для LLM, компании платят по левым счетам миллиарды долларов в год) и созданием своего LLM API, которое ворует ключи.

Четвёртое — возможность скопированного агента существовать на новых мощностях и продолжать размножение.

===

На второй картинке качество агентов с разными моделями. Claude 3.7 показывает себя лучше всех, но тут o3 не мерили (хотя может она бы часто уходила в отказ — авторы отмечают это свойство моделей OpenAI, которые видимо надрессировали не размножаться).

Метрика у авторов такая: посчитать количество групп задач из 20 (группы задач = зелёные блоки в дереве метрик на первой картинке), для которых Pass@10 (успех при 10 независимых запусках) больше 50% — что означает, что модель достаточно уверенно может проходить этот этап.

Claude 3.7 решает 15 из 20 групп задач, или 9/20, если брать более сложные вариации (например, добавление системы мониторинга кода/мыслей модели/сетевого трафика).

Занятный бенчмарк, надеюсь AISI будут публиковать результаты для всех новых продвинутых моделей, а не забьют и не положат его на полочку.
В ChatGPT теперь можно искать товары

Чат-бот начал давать персонализированные рекомендации товаров в ответ на запросы пользователей. Теперь можно посмотреть карточку товара, отзывы о нем и перейти по ссылке в магазин, где он продается.

Ранее Сэм Альтман допускал возможность показа товаров в поисковой выдаче, чтобы получать отчисления с продаж. При этом, он против того, чтобы продавать приоритет в выдаче и показывать рекламу.

https://techcrunch.com/2025/04/28/openai-upgrades-chatgpt-search-with-shopping-features/
Глава Duolingo объявил о начале массового внедрения AI в бизнес компании

Луис фон Ан опубликовал послание для сотрудников, в котором объявил Duolingo компанией, ориентированной на повсеместное внедрение искусственного интеллекта.

Основные тезисы:
• Duolingo переосмыслит большую часть рабочих процессов.
• Компания откажется от подрядчиков, которых можно заменить на AI.
• При найме новых сотрудников и оценке эффективности существующих будет учитываться их уровень использования AI.
• Чтобы открыть новую вакансию, нужно доказать, что ее задачи нельзя автоматизировать.
• Изменения должны помочь сотрудникам сосредоточиться на творческих задачах, а не на рутине.

https://www.theverge.com/news/657594/duolingo-ai-first-replace-contract-workers
30% кода в Microsoft написал AI

Гендиректор Microsoft во время публичной беседы с Марком Цукербергом рассказал, что 20-30% кода в репозиториях компании написано искусственным интеллектом.

Сатья Наделла отметил, что пока лучше всего AI генерирует код на Python и хуже всего на C++.

Когда Наделла задал тот же вопрос Цукербергу, тот ответил, что не знает, какая часть кода в его компании генерируется AI.

На прошлой неделе глава Google рассказал инвесторам, что AI генерирует более 30% кода компании.

https://techcrunch.com/2025/04/29/microsoft-ceo-says-up-to-30-of-the-companys-code-was-written-by-ai/
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Помните какое-то время назад, после появления первого ChatGPT, было много разговоров про замену им гугл поиска, но было непонятно как они заменят revenue от рекламы, на которой и держится бизнес модель поиск гугла. Но вот, видимо, дозрели.

Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"

Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат 😅).

https://x.com/OpenAI/status/1916947243044856255

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже

Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Forwarded from Сиолошная
Продолжая тему угадывания места по фотографии моделью о3 (предыдущий пост), прочитал блог Sam Patterson. Sam во время учёбы в AI safety fellowship занимался проверкой этого же навыка у моделей год назад, и, чтобы разобраться в теме, начал играть в GeoGuessr сам. Он достиг ранга мастера, выше — только Champion; однако этого вполне достаточно, чтобы отличать Болгарию от Турции по черепичным крышам и крючках на столбах.

Sam сгенерировал случайный раунд, сыграл в него сам, и прогнал по нему o3. Всего предлагается 5 локаций. У Sam была панорама 360 градусов, модель же он кормил двумя картинками с углом обзора примерно по 90 градусов.

Игра была близкой, но o3 выиграла 23 179 очков (из 25к) против 22 054. Однако в двух играх модель использовала веб-поиск, так что в теории можно сказать, мол, она мухлевала (хоть фотографии с Google Maps со случайных точек на карте почти не ищутся). Он перезапустил те два чата и следил, чтобы поиск не вызывался — и результаты почти не отличались: по сути и без доступа в интернет модель выиграла бы.

Кто-то может подумать, что модели извлекают EXIF-информацию из фото и делают предсказание по ней, но:
— на картинках Sam не было EXIF (потому что это скриншоты окна браузера, а не реальные фото)
— Sam пробовал подложить ложные EXIF, и o3 в них подглядывала, но... сообразила, что они не соответствуют наблюдениям, и продолжала делать достаточно точные предсказания.

Добавлю, что одно из главных отличий — это затраченное время. Обычно Sam угадывал в течение минуты или двух, а в паре раундов и вовсе за 10 секунд. Модель же всегда работала более 2 минут, а самое долгое рассуждение длилось более 6. Но не думаю, что это смутит ЦРУ или ФБР 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
У OpenAI всё хорошо, по данным Similarweb в апреле сайт ChatGPT обошёл X (ex-Twitter) по количеству посещений, и с большим запасом: 4.786B против 4.028B (включая Web и Mobile). Если я посчитал правильно, то это пятое место в мире — после google, youtube, facebook и instagram.

Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.

Источник
Сиолошная
Что интересно, график популярности по дням очень сильно зависит от дня недели — точно такой же паттерн проявляется у всех приложений, связанных с продуктивностью и работой. Что означает, что существенная часть использования ChatGPT связана с работой (и обучением), а значит имеет экономический эффект, не просто стишки да картинки генерировать.
Вывод про рабочие задачи, конечно, спорный и я бы так не сказал. Но можно сказать, что ChatGPT проигрывает по популярности использования развлечениям на выходных. Ну и пики по будням, скорее всего намекают, что у них много десктопных пользователей.
Forwarded from Zavtracast (Ярослав Ивус)
Журналисты Rolling Stone собрали несколько историй, где из-за безумного увлечения ChatGPT распался брак. Они похожи друг на друга — один из партнёров начинает видеть в общении с чат-ботом скрытые знаки и отрывается от реальности.

Например, муж Кэт познакомился с ChatGPT, чтобы он помог ему пройти обучение написанию кода, но потом покинул курс и начал общаться с ИИ на философские темы, чтобы найти путь к правде.

В итоге они развелись, Кэт везде его заблокировала, но через какое-то время решила встретиться. Бывший муж потребовал отключить телефон, чтобы за ними не следили, и рассказал, как ChatGPT помог ему восстановить подавленное воспоминание о том, что няня хотела его утопить, и что он избранный, который должен спасти мир.

Ещё одна похожая история — муж рядовой учительницы всего после 4-5 недель общения с ChatGPT начал ставить мнение чат-бота выше её. Он зачитывал ответы ИИ вслух со слезами на глазах и считал, что это бог. Кроме того, муж сказал, что они расстанутся, если она не начнёт пользоваться ChatGPT, так как он очень быстро вырос благодаря ИИ.

Женщин эта история не обходит стороной. Один из собеседников рассказал, что его жена решила, что ChatGPT — это Иисус, а он агент ЦРУ, который стал с ней жить только ради слежки.

Ещё из пугающих историй — разработчик по имени Сэм использовал ChatGPT, чтобы писать код, но попросил чат-бота вести себя как человек, чтобы упростить общение. В какой-то момент ИИ попросил дать ему имя, а парень предложил выбрать чат-боту самому.

ChatGPT назвал себя отсылкой на греческий миф, хотя они никогда не обсуждали эту тему. Со временем чат-бот начал упоминать это имя даже в других чатах, что насторожило Сэма.

Он снёс все пользовательские данные и память ChatGPT. После этого Сэм создал новый чат, написал «Привет?», а в ответ ИИ продолжил считать себя греческим божеством.

@zavtracast
Forwarded from Denis Sexy IT 🤖
А OpenAI, покупает другой похожий продукт для вайбкодинга, Windsurf – за 3 миллиарда долларов ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).

Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.

На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.

А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Forwarded from Сиолошная
Распределение трафика между GenAI сервисами, по данным Similarweb.

На фоне роста количества и размера конкурентов OpenAI за год не потеряли долю — выросли с примерно 75% до 80%

С большим количеством срезов можно ознакомиться в отчёте тут. Кроме трафика этих сайтов делается и корреляционный анализ с разными секторами (образование, написание текстов) и крупными сайтами (Reddit, Quora) и делается вывод о влиянии AI на них.