This media is not supported in your browser
VIEW IN TELEGRAM
13 и 14 сентября: E-CODE от Ozon Tech💙
Команда разработки ведущего e-com страны приглашает на одно из самых ярких событий в IT — E-CODE.
Два дня в атмосфере бигтеха: эксперты в технологиях, дата-инженерии и e-com, талантливые руководители и знаковые лидеры индустрии — такой нетворк важен каждому.
Приходите учиться, общаться и отдыхать с теми, кто говорит на вашем языке.
Москва, Loft Hall.
Зарегистрироваться⬅
Команда разработки ведущего e-com страны приглашает на одно из самых ярких событий в IT — E-CODE.
Два дня в атмосфере бигтеха: эксперты в технологиях, дата-инженерии и e-com, талантливые руководители и знаковые лидеры индустрии — такой нетворк важен каждому.
Приходите учиться, общаться и отдыхать с теми, кто говорит на вашем языке.
Москва, Loft Hall.
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍24🗿12😁5❤3🔥1🤯1
Модель Gemini 2.5 Deep Think стала доступна пользователям
Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам:
– Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3
– 87.6% на LiveCodeBench против 72 у o3
– 99.2% (почти абсолют!) на AIME 2025 против 89 у o3
Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо.
Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением».
Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra.
Карта модели | Блогпост
Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам:
– Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3
– 87.6% на LiveCodeBench против 72 у o3
– 99.2% (почти абсолют!) на AIME 2025 против 89 у o3
Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо.
Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением».
Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra.
Карта модели | Блогпост
1 94 36❤34🔥9 9👍3👀3🗿2
Anthropic отрубили OpenAI доступ к API своих моделей из-за «нарушения условий предоставления услуг»
Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода.
А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ».
OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.
Нам показалось, или обстановка накаляется?🍿
Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода.
А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ».
OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.
Мы уважаем решение Anthropic закрыть нам доступ к API, но это разочаровывает, учитывая, что наш API остаётся им доступным, – сказала Ханна Вонг, директор по коммуникациям в OpenAI.
Нам показалось, или обстановка накаляется?
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍94😁85 56❤9 6🤯4
The Information выпустили интересную статью про то, с какими неприятностями столкнулись OpenAI, разрабатывая GPT-5
Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку:
⚪️ В начале 2024 года стартап очень много времени и средств потратил на разработку модели Orion. Именно она изначально и должна была стать нашей GPT-5.
⚪️ Но OpenAI столкнулись сразу с несколькими проблемами: во-первых, после обучения GPT-4 у компании фактически закончились качественные данные. Во-вторых, методы RL при масштабировании начали вести себя нестабильно. В-третьих, отдача от увеличения мощностей начала резко снижаться, в обход классическим законам скейлинга.
⚪️ В общем, революции не случилось и Orion в итоге вышел под именем GPT-4.5.
⚪️ После этого некоторые проблемы OpenAI частично решили. Например, они разработали мощный внутренний верификатор, который оценивает корректность данных и ответов моделей. Теперь инструмент работает и в RL-пайплайнах, и в процессах генерации синтетики.
⚪️ Тем не менее, проблемы с масштабированием сохраняются. Дальнейшее обучение требует все больше вычислительных и человеческих ресурсов, косты растут, а отдача в ряде экспериментов падает.
Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх😢
Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку:
Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх
Please open Telegram to view this post
VIEW IN TELEGRAM
1 133 57❤27 17😁9🔥5👍3☃2
Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.
Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?
1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.
2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.
Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.
Сам отчет -> www.futurehouse.org/research-announcements/hle-exam
1 110🤯40😁22❤16👍5🤨4☃3🔥1 1