Data Secrets

Про то, как работает ИИ в Авито

У TechIndsider вышло на редкость содержательное интервью о том, как бигтех на самом деле внедряет ИИ в сервисы. Главред поговорил с управляющим директором по ИИ в Авито Андреем Рыбинцевым (кстати, должность совсем новая, Рыбинцева назначили на нее недавно), и тот с занятными подробностями рассказал, как они используют ИИ.

Готовы поспорить, многие из нас пользуются Авито постоянно, но не подозревают, насколько глубоко там зашиты ИИ-алгоритмы. Так что вот вам просто несколько рандомных фактов из интервью:

➖ Каждый день алгоритмы Авито обрабатывают около 40 миллиардов кликов. "Уже после нескольких действий по косвенным признакам становится понятно, что интересно пользователю, что ему показывать, а что нет".

➖ 99% контента проверяется ИИ, и только 1% самых сложных вопросов передается модераторам. Если бы не алгоритмы, Авито пришлось бы нанять на 100 тыс. больше сотрудников.

➖

От 40 до 60% сделок на платформе (в зависимости от категории) проходит именно благодаря рекомендациям.

➖ Помимо этого LLM-ки помогают писать описания к объявлениям и отвечать на вопросы покупателей. И, кстати, монетизация в Авито – это тоже трансформеры.

А в будущем, как говорит Андрей, Авито вообще превратится в платформу, где между собой договариваются и торгуют не сами продавцы и покупатели, а их личные ИИ-ассистенты. Киберпанк?

Интервью полностью тут

Please open Telegram to view this post

VIEW IN TELEGRAM

1🗿90🤨31😁18❤14👍9🔥5👻33

17.3K views16:02

Data Secrets

Пекин вызвал Дженсена Хуанга на ковер из-за проблем с безопасностью в чипах Nvidia

Сообщается, что какие-то американские эксперты (кто именно, не уточняется) нашли в видеокартах H20 некие уязвимости (какие именно, также не уточняется), из-за которых можно отслеживать местонахождение чипов и удаленно отключать их.

Никаких официальных доказательств такого функционала никто не предоставил и эксперты по кибербезу сразу сказали, что это какой-то бред. Но суть в том, что H20 производятся специально для китайского рынка и это чуть ли не единственные видеокарты, которые Вашингтон официально разрешает поставлять в КНР.

Так что, понятное дело, в Китае перепугались и вызвали представителей Nvidia в суд для выяснения обстоятельств. Дженсен Хуанг в ответ на обвинения заявил, что никаких бэкдоров в его продуктах нет и в помине, и что он, вообще-то, очень благоволит китайскому рынку.

И видимо, в суде ему поверили, потому что заказ на 300 000 видеокарт для Китая, который Nvidia недавно разместили на заводе TSMC, все еще в силе.

Теперь интересно, кем же были те самые «американские эксперты», которые так желают Nvidia процветания

1🤔85😁45❤1811107🦄22👍1🕊1

17.5K viewsedited 17:12

Data Secrets

О, Google уже проиндексировал страницу с документацией GPT-5

Пока она приводит к 404, но мы то с вами знаем, что индексация обычно не бывает случайной 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

320164😁43🔥13116👍4❤2

17.9K views18:57

Data Secrets

OpenAI избавились от фичи, которая делала чаты пользователей видимыми для поисковиков

На днях разразился настоящий скандал: выяснилось, что некоторые разговоры с ботом, которыми пользователи делились по ссылкам вроде как частным образом, становились видимыми для поисковых систем и начинали появляться в поисковой выдаче.

Как оказалось, это был не баг, а фича. Точнее, как пишет директор по инфобезу OpenAI, «краткосрочный эксперимент, призванный помочь пользователям находить полезные чаты».

То есть то, что некоторые зашаренные беседы были проиндексированы поисковиком – это не случайность: пользователи сами давали на это согласие, если во время создания ссылки на чат устанавливали флажок «Разрешить показывать в поиске».

Тем не менее, после шумихи в СМИ куча людей все равно остались недовольны и обвинили OpenAI. Потому что кто вообще читает эти флажки, правильно?

Короче, эксперимент не удался (хотя идея была неплохая, ведь в чатах часто действительно куча полезного контента). Теперь OpenAI откатывает фичу и начинает процесс по удалению из индексации всех уже провалившихся туда чатов.

Даже немного жаль.

1😁12378👍23❤16129🔥1😎1

18.7K views05:41

Data Secrets

1:04

This media is not supported in your browser

VIEW IN TELEGRAM

Google показали свою очередную Alpha<вставьте любое слово>

На этот раз это модель для точнейшего моделирования ландшафта Земли – AlphaEarth.

Звучит с первого взгляда игрушечно, но на самом деле это система с очень мощным практическим применением. Для чего это, по сути, нужно:

➖ Вообще карты Земли составляются так: берется куча снимков со спутников, замеров лидаров и прочих данных, а потом все это очень-очень долго обрабатывается и сопоставляется.

➖ «Очень долго», потому что половина из доступных снимков – это мусор. На некоторых облака, на некоторых ночь, а с разных устройств необходимые кадры вообще сняты под разными ракурсами и углами.

➖ В ручную процесс занимает просто уйму времени. А Google научили свою модель разбираться в этом всем автоматически и довольно быстро.

То есть AlphaEarth принимает на вход огромные массивы шумных данных, мэтчит их, достраивает картинки там, где есть белые пятна (сопоставляя разные снимки одной и той же местности), накладывает на это все данные с радаров и в итоге для каждого кусочка земли 10х10 метров на выход отдает готовый эмбеддинг.

А уже этот эмбеддинг можно дальше отдавать на вход любой ML-системе. Например, для предсказания погоды или отслеживания каких-то изменений. Внутри у такого вектора спрятана информация о рельефе, высоте, типе местности, сезонности, климате, влажности и тд и тп.

А если прикрутить такое к LLMке, то представьте, насколько более продвинутыми могут стать геологические рисерчи, путешествия, да и в целом ориентация в пространстве.

В общем, Google, как всегда, знают куда целятся

deepmind.google/discover/blog/alphaearth-foundations-helps-map-our-planet-in-unprecedented-detail/

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥192❤56👏23🤯7👍6😁3🗿3

15.7K views09:55

Data Secrets

На Hugging Face заметили «случайный» слив весов открытой модели OpenAI

Висели они там всего пару минут, но шуму навели будь здоров. Что известно:

– Модели называются OSS-20B и OSS-120B
– Та, что побольше – MoE (4 эксперта на токен), запускается на Blackwell
– Контекст 128к токенов

Маркетинг в стиле OpenAI.

Вы, кстати, больше ждете опенсорс или GPT-5?

1😁12831👍18❤6🔥3

15.2K views12:20

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

13 и 14 сентября: E-CODE от Ozon Tech

💙

Команда разработки ведущего e-com страны приглашает на одно из самых ярких событий в IT — E-CODE.

Два дня в атмосфере бигтеха: эксперты в технологиях, дата-инженерии и e-com, талантливые руководители и знаковые лидеры индустрии — такой нетворк важен каждому.

Приходите учиться, общаться и отдыхать с теми, кто говорит на вашем языке.
Москва, Loft Hall.

Зарегистрироваться

⬅

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍24🗿12😁5❤3🔥1🤯1

14.7K viewsedited 14:02

Data Secrets

Модель Gemini 2.5 Deep Think стала доступна пользователям

Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам:

– Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3
– 87.6% на LiveCodeBench против 72 у o3
– 99.2% (почти абсолют!) на AIME 2025 против 89 у o3

Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо.

Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением».

Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra.

Карта модели | Блогпост

19436❤34🔥99👍3👀3🗿2

15.3K views15:19

Data Secrets

Anthropic отрубили OpenAI доступ к API своих моделей из-за «нарушения условий предоставления услуг»

Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода.

А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ».

OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.

Мы уважаем решение Anthropic закрыть нам доступ к API, но это разочаровывает, учитывая, что наш API остаётся им доступным, – сказала Ханна Вонг, директор по коммуникациям в OpenAI.

Нам показалось, или обстановка накаляется? 🍿

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍94😁8656❤96🤯4

15.5K views07:50

Data Secrets

The Information выпустили интересную статью про то, с какими неприятностями столкнулись OpenAI, разрабатывая GPT-5

Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку:

⚪️ В начале 2024 года стартап очень много времени и средств потратил на разработку модели Orion. Именно она изначально и должна была стать нашей GPT-5.

⚪️ Но OpenAI столкнулись сразу с несколькими проблемами: во-первых, после обучения GPT-4 у компании фактически закончились качественные данные. Во-вторых, методы RL при масштабировании начали вести себя нестабильно. В-третьих, отдача от увеличения мощностей начала резко снижаться, в обход классическим законам скейлинга.

⚪️ В общем, революции не случилось и Orion в итоге вышел под именем GPT-4.5.

⚪️ После этого некоторые проблемы OpenAI частично решили. Например, они разработали мощный внутренний верификатор, который оценивает корректность данных и ответов моделей. Теперь инструмент работает и в RL-пайплайнах, и в процессах генерации синтетики.

⚪️ Тем не менее, проблемы с масштабированием сохраняются. Дальнейшее обучение требует все больше вычислительных и человеческих ресурсов, косты растут, а отдача в ряде экспериментов падает.

Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх 😢

Please open Telegram to view this post

VIEW IN TELEGRAM

113557❤2717😁9🔥5👍3☃2

13.1K views11:38

Data Secrets

Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе

Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD.

Причем тест составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти?

1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение.

2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили.

Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру.

Сам отчет -> www.futurehouse.org/research-announcements/hle-exam

1111🤯40😁22❤16👍5🤨4☃3🔥11

13.2K viewsedited 14:55

About

Blog

Apps

Platform