Обновился Gemini 2.5 Pro
В этой мини-обнове упор на кодинге, вижне и тулколлинге.
В результате прыжок🙌 на 150 Эло на WebDev Arena от мартовской 2.5 Pro, отрыв от второго места – Соннета 3.7 – больше 50 Эло.
В Vision arena тоже скачок на 50 Эло. На текстовой версии – тоже прибавка в 10 Эло.
Поиграться, как обычно, можно в AI Studio. В релиз модель выйдет к Google I/O.
В этой мини-обнове упор на кодинге, вижне и тулколлинге.
В результате прыжок
В Vision arena тоже скачок на 50 Эло. На текстовой версии – тоже прибавка в 10 Эло.
Поиграться, как обычно, можно в AI Studio. В релиз модель выйдет к Google I/O.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53❤10🍓6😢1🥴1
Google IO
Сегодня выкатили много моделей и показали много демок, хочется отметить самые, на мой взгляд, интересные с точки зрения возможностей моделей:
1. Gemini Pro Deep Think – новый режим с параллельным рассуждением модели, существенно помогает в сложных задачах математики и кодинга. Будет доступен в подписке за $250/мес🤑 вместе с Veo 3.
2. Gemini Diffusion – превью самой настоящей текстовой диффузинки – в пять раз быстрее Gemini Flash, ~1500 tok/s на TPU🏃♂️ – быстрее, чем 8B LLaMa на Groq.
3. Gemini Flash 2.5 05-20 (простите за нейминг🙏 ) – сильно улучшился кодинг.
4. Imagen 4 – новая модель генерации изображений в ~3 раза быстрее GPT Im1 при схожем качестве. Доступен Model Card.
Моё сердечко, конечно, лежит с Gemma 3n, которую покажут в секции Developer Keynote. Моделька на 4 миллиарда параметров, у которой на LLM Arena скор на уровне Sonnet 3.7. Также доступны уменьшенные модели, которые получаются из того же файла с весами, так что можно динамически выбирать скорость модели под задачу. Я много полировал данные для этой версии, примерно треть токенов прошли через мои ручонки.
Сегодня выкатили много моделей и показали много демок, хочется отметить самые, на мой взгляд, интересные с точки зрения возможностей моделей:
1. Gemini Pro Deep Think – новый режим с параллельным рассуждением модели, существенно помогает в сложных задачах математики и кодинга. Будет доступен в подписке за $250/мес
2. Gemini Diffusion – превью самой настоящей текстовой диффузинки – в пять раз быстрее Gemini Flash, ~1500 tok/s на TPU
3. Gemini Flash 2.5 05-20 (простите за нейминг
4. Imagen 4 – новая модель генерации изображений в ~3 раза быстрее GPT Im1 при схожем качестве. Доступен Model Card.
Моё сердечко, конечно, лежит с Gemma 3n, которую покажут в секции Developer Keynote. Моделька на 4 миллиарда параметров, у которой на LLM Arena скор на уровне Sonnet 3.7. Также доступны уменьшенные модели, которые получаются из того же файла с весами, так что можно динамически выбирать скорость модели под задачу. Я много полировал данные для этой версии, примерно треть токенов прошли через мои ручонки.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥87❤28🤯5👍2🤪1
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 3 пока выглядит как самая расцензурированная моделька гугла, так что зловещая долина ловится на раз-два.
🔥61👍8😭6❤3🥴3👎1
Не вайб-кодингом единым
Для сайд-проекта на работе понадобилось сгенерировать много маленьких неизоморфных графов. Для этого есть проверенный временем пакет утилит nauty, написанный в бородатом 1991 году. В основной утилите geng для генерации графов – примерно 10 тыс. строк кода на довольно оптимизированном C. Из комментариев вида
можно догадаться, что код довольно много оптимизировался. Ради интереса я попробовал попросить Claude Code ускорить утилиту и не возвращаться, пока не получится. У клода вышло ускорить всё на 7.5% за несколько минут работы. Интересненько.
Для сайд-проекта на работе понадобилось сгенерировать много маленьких неизоморфных графов. Для этого есть проверенный временем пакет утилит nauty, написанный в бородатом 1991 году. В основной утилите geng для генерации графов – примерно 10 тыс. строк кода на довольно оптимизированном C. Из комментариев вида
Sep 22, 1996 : Improved 1-2% by tweaking refinex().
можно догадаться, что код довольно много оптимизировался. Ради интереса я попробовал попросить Claude Code ускорить утилиту и не возвращаться, пока не получится. У клода вышло ускорить всё на 7.5% за несколько минут работы. Интересненько.
👍81🥴26🤯14❤7🔥4
Всё-таки нравится работать в компании, где на глупенький 😛 технический вопрос в общем чате тебе отвечает нобелевский лауреат, ещё и псевдокод накидал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍119💅47🔥20🙏9💔9❤8🥴6👏5
Qwen 3 embedding
На HuggingFace выложили веса самой маленькой моделькт из новой серии эмбеддеров на основе Qwen 3. Размерность 1024, матрёшка (можно использовать меньшую размерность с небольшой потерей качества), поддерживается 100+ языков, ретривал кода. На MTEB официально ещё не завезли.
edit: также выложили 8B веса
На HuggingFace выложили веса самой маленькой моделькт из новой серии эмбеддеров на основе Qwen 3. Размерность 1024, матрёшка (можно использовать меньшую размерность с небольшой потерей качества), поддерживается 100+ языков, ретривал кода. На MTEB официально ещё не завезли.
edit: также выложили 8B веса
🔥34🥴2🤔1
Gemini 2.5 Preview 06-05
Выпустили последнюю перед официальным релизом версию Gemini 2.5 Pro. Пофиксили регрессии относительно версии 03-25, сота на Aider и humanity last exam. На арене +25 Эло относительно майской версии, +35 – на webdev arena. Сильно улучшили multi-turn.
Отдельное издевательство – выпускать версию 06-05 после 05-06. Считаю, что надо выпускать релизы начиная с 13 дня каждого месяца, чтобы избежать путаницы.
Выпустили последнюю перед официальным релизом версию Gemini 2.5 Pro. Пофиксили регрессии относительно версии 03-25, сота на Aider и humanity last exam. На арене +25 Эло относительно майской версии, +35 – на webdev arena. Сильно улучшили multi-turn.
Отдельное издевательство – выпускать версию 06-05 после 05-06. Считаю, что надо выпускать релизы начиная с 13 дня каждого месяца, чтобы избежать путаницы.
👍66🤣32🔥14❤5🥴5
У High-Dimensional Probability Вершинина стал доступен драфт второго издания. Добавили больше 200 упражнений и сделали книгу более удобоваримой. 🥁
Как по мне, лучшая книга по основам вероятностных методов в приложениях к нашему с вами любимому датасаенсу.
pdf
Как по мне, лучшая книга по основам вероятностных методов в приложениях к нашему с вами любимому датасаенсу.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥27❤12
Gemini 2.5 Pro – теперь generally available. Финальной стала версия 06-05.
Также выпустили в превью 2.5 Flash Lite, по цене в три раза дешевле флеша 2.5 )на уровне с флешом 2), моделька с ризонингом. Хотели дешёвую рабочую лошадку – получите.
Также выпустили в превью 2.5 Flash Lite, по цене в три раза дешевле флеша 2.5 )на уровне с флешом 2), моделька с ризонингом. Хотели дешёвую рабочую лошадку – получите.
🔥69❤3👎1
Также опубликовали статью (ищите меня на 10 странице авторов)0
👏45🎉20🔥5🥰1
Сегодня на улице – +40°C и отличное время, чтобы задуматься о том, где живу. Недавно нашёл очень толково сделанный сайт Weatherspark, который позволяет сравнивать города по погоде. Мой любимый график – температура по влажному термометру (статья в вики) – на сайте пересчитывается в humidity comfort level и сильно зависит от влажности. Мне от влажной жары тяжеловато, так что в Дубае было довольно тяжко, и даже в Нью-Йорке к концу лета бывает как в бане. 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤34👍24
There is no antimemetics division.
Qntm. 2021.
#book_review
Книга – амальгамация набора рассказов с сайта SCP foundation, построенна вокруг идеи антимемов – идей, которые засекречивают ██ себя, по своей природе препятствуют ███ распространению. О них можно думать, как о ████ мемов, аномальные антимемы ██████ записать или запомнить, полностью ████████ их ████████.
████████ █ ██ Марион, ██████ ████ ████████. ████ отдела ██████ – в ██████ аномальных ████████, ████████ ██████. ██████ ██ █ ████. █ ███, книга ████, █/10.
P.S. Если вы ████ это и ██████ ██████, то, скорее всего █████ ██.
Qntm. 2021.
#book_review
Книга – амальгамация набора рассказов с сайта SCP foundation, построенна вокруг идеи антимемов – идей, которые засекречивают ██ себя, по своей природе препятствуют ███ распространению. О них можно думать, как о ████ мемов, аномальные антимемы ██████ записать или запомнить, полностью ████████ их ████████.
████████ █ ██ Марион, ██████ ████ ████████. ████ отдела ██████ – в ██████ аномальных ████████, ████████ ██████. ██████ ██ █ ████. █ ███, книга ████, █/10.
P.S. Если вы ████ это и ██████ ██████, то, скорее всего █████ ██.
👍34❤25🤬9🤣6👀3🎉1
Все мы (надеюсь) писали оптимизированные кернелы под железо, но оптимизировали ли вы название своего кернела? Если нет – очень жаль, потому что CUDA кернел для attention на тритоне с "🤫
В целом, куртке не впервой, да и у интела были подобные огрехи
cutlass
" в названии на 100 TFLOPs быстрее, чем без него. В целом, куртке не впервой, да и у интела были подобные огрехи
Please open Telegram to view this post
VIEW IN TELEGRAM
👀58🤣20🤔8😭4
Gemini Embedding теперь зарелижен как gemini-embedding-001 в Gemini API и Vertex AI. Модель относительно мартовской версии почти не изменилась. Цена – $0.15/Mtok против $0.13/Mtok у товарищей конкурентов.
🔥21👍5❤2
Золотая медаль на IMO 2025
Вчера опубликовали блогпост про решение задач главной математической олимпиады для школьников. И решили не просто, а на золото🤴 , и не просто, а без какого-либо tool use и систем формальных решений, как в прошлом году. Модель тоже была достаточно неспециализированная.
Решения Gemini можно посмотреть вот тут. Два главных отличия в сравнении с решениями от товарищей конкурентов: во-первых, в решении второй задачи Gemini нашёл менее механически переборный способ решения. Во-вторых, ответы Gemini были более внятно написанными, без прыжков в нотации и путаных объяснений.
С задачами в каком-то смысле в этом году повезло – первые пять задач были относительно простые если верить рейтингу известному в олимпиадных кругах Evan Chen, при этом мало участников получили частичные баллы за решения шестой задачи. С другой стороны, для систем, основанных на Lean, было бы сложно решить пятую задачку про игру – они очень тяжело формализуются.
В этом году (в отличие от прошлого), к сожалению, моя идея не выстрелила, так что поучаствовать в финальной системе не получилось😳 . Придётся тешить себя тем, что мы сильно толкнули Gemini в математике на стадии претрейна и работать над идейками для RLя втихую дальше.
Из интересного, в блоге написали про систему, которая пользовалась in-context learning'ом из нужных теорем и решения IMO-подобных задач, но другая система оценённая грейдерами IMO без костылей тоже получила золото.
Вчера опубликовали блогпост про решение задач главной математической олимпиады для школьников. И решили не просто, а на золото
Решения Gemini можно посмотреть вот тут. Два главных отличия в сравнении с решениями от товарищей конкурентов: во-первых, в решении второй задачи Gemini нашёл менее механически переборный способ решения. Во-вторых, ответы Gemini были более внятно написанными, без прыжков в нотации и путаных объяснений.
С задачами в каком-то смысле в этом году повезло – первые пять задач были относительно простые если верить рейтингу известному в олимпиадных кругах Evan Chen, при этом мало участников получили частичные баллы за решения шестой задачи. С другой стороны, для систем, основанных на Lean, было бы сложно решить пятую задачку про игру – они очень тяжело формализуются.
В этом году (в отличие от прошлого), к сожалению, моя идея не выстрелила, так что поучаствовать в финальной системе не получилось
Из интересного, в блоге написали про систему, которая пользовалась in-context learning'ом из нужных теорем и решения IMO-подобных задач, но другая система оценённая грейдерами IMO без костылей тоже получила золото.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥20👏11❤1💅1
#book_review
"Empire of AI", Karen Hao, 2025 (amazon)
Долго думал, писать ли ревью на это произведение, но раз уж дочитал, как будто стоит записать мыслишки. Подзаголовок книги "Мечты и кошмары OpenAI Сэма Альтмана" (нет, не шучу) с обложки настраивает на смесь бульварного романа и сиолошной, но внутри неподготовленного читателя быстро настигает отборная дичь. Авторка немного предвзатя к нашему с вами любимому АИ и очень любит пообсасывать грустные истории из третьего мира, где людям тяжело жить. Из чтения о серьёзно больной женщине в Венесуэле, которая в кризис выживала на разметке данных, я однозначно понял, что так ей делать не стоило. Подло подловив читателя на гетеронормативно-либеральный стыд, автор выкатывает линейку экспертов, которая будет задавать тон всей книге.
В одной из первых глав нас знакомят с Гари Маркусом, который года с 2019 повторяет, что диплёрнинг не работает, а когда работает – это нейросимвольный ИИ. Для неподготовленного читателя может показаться, что такая позиция – не маргинальная позиция человека, который в лучшем случае может претендовать на статус инфлюенсера, а чуть ли не консенсус. Дальше может быть только лучше – в следующей главе нас ждёт Emma Strubell, от статьи которой, в которой потребление энергии на один трейн ран переоценили в 88 раз, у некоторых пригорает до сих пор. К этому моменту я уже догадался, что дальше будет Timnit Gebru и история со статьёй со стохастическими попугаями (критика по делу от Йоава Голдберга), рассказаная, конечно, со стороны несправедливно угнётённых. Успокаиваться пришлось, когда в одном из единственных комментариев от экс-сотрудников я узнал интёрна, который проработал в OpenAI три месяца в 2019 году и до сих пор постит кринж у меня в линкедине.
С таким звёздным набором спикеров и колоссальной предвзятостью читать эту книгу как сериал про турецкий гарем не представляется возможным, надёжности источников тоже нет. Довольно сложно, как мне кажется, написать откровенно вредную книгу, но тут, на моё икреннее удивление, получилось. Даже обидно за конкурентов.
"Empire of AI", Karen Hao, 2025 (amazon)
Долго думал, писать ли ревью на это произведение, но раз уж дочитал, как будто стоит записать мыслишки. Подзаголовок книги "Мечты и кошмары OpenAI Сэма Альтмана" (нет, не шучу) с обложки настраивает на смесь бульварного романа и сиолошной, но внутри неподготовленного читателя быстро настигает отборная дичь. Авторка немного предвзатя к нашему с вами любимому АИ и очень любит пообсасывать грустные истории из третьего мира, где людям тяжело жить. Из чтения о серьёзно больной женщине в Венесуэле, которая в кризис выживала на разметке данных, я однозначно понял, что так ей делать не стоило. Подло подловив читателя на гетеронормативно-либеральный стыд, автор выкатывает линейку экспертов, которая будет задавать тон всей книге.
В одной из первых глав нас знакомят с Гари Маркусом, который года с 2019 повторяет, что диплёрнинг не работает, а когда работает – это нейросимвольный ИИ. Для неподготовленного читателя может показаться, что такая позиция – не маргинальная позиция человека, который в лучшем случае может претендовать на статус инфлюенсера, а чуть ли не консенсус. Дальше может быть только лучше – в следующей главе нас ждёт Emma Strubell, от статьи которой, в которой потребление энергии на один трейн ран переоценили в 88 раз, у некоторых пригорает до сих пор. К этому моменту я уже догадался, что дальше будет Timnit Gebru и история со статьёй со стохастическими попугаями (критика по делу от Йоава Голдберга), рассказаная, конечно, со стороны несправедливно угнётённых. Успокаиваться пришлось, когда в одном из единственных комментариев от экс-сотрудников я узнал интёрна, который проработал в OpenAI три месяца в 2019 году и до сих пор постит кринж у меня в линкедине.
С таким звёздным набором спикеров и колоссальной предвзятостью читать эту книгу как сериал про турецкий гарем не представляется возможным, надёжности источников тоже нет. Довольно сложно, как мне кажется, написать откровенно вредную книгу, но тут, на моё икреннее удивление, получилось. Даже обидно за конкурентов.
🤣40❤9😢8👍6🤔2🔥1
Gemini 2.5 Flash Lite
Пару дней назад выпустили новую мини-модель для энтерпрайза, которому хочется хорошо, но подешевле. Получилась модель на уровне второго флеша, но сильно быстрее (до 900 tok/s). Кстати, batch processing позволяет сэкономить ещё вдвое, если результаты нужны непрямщас.
На бенчмарки можно🧐 посмотреть тут, поиграться, как обычно, в ai studio, и бежать за бесплатной тысячей запросов в день.
Пару дней назад выпустили новую мини-модель для энтерпрайза, которому хочется хорошо, но подешевле. Получилась модель на уровне второго флеша, но сильно быстрее (до 900 tok/s). Кстати, batch processing позволяет сэкономить ещё вдвое, если результаты нужны непрямщас.
На бенчмарки можно
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24👏6🔥2