Data Secrets
75.8K subscribers
5.68K photos
543 videos
20 files
2.19K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

https://telega.in/c/data_secrets
Download Telegram
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ

В список «неудачников» попали переводчики, историки, писатели, рекламщики, математики, дата сайентисты, веб-разработчики и даже модели.

Если вы с списке – не расстраивайтесь, мы тоже. Вот вам для профориентации несколько примеров из списка тех, кого ИИ заменит не скоро: медсестры, хирурги, механики, монтажники, посудомойщики, бетонщики, горничные, санитары, маляры. Думайте 😶

Кстати, подсчитали это Microsoft вот как:

1. Взяли анонимизированные данные о 100 000 диалогов с Bing Copilot в США и каждый запрос классифицировали по цели пользователя и тому, что по факту сделал ИИ.

2. По официальной базе рабочих процессов сопоставили каждую активность с конкретной профессией.

3. Для каждой профессии посчитали покрытие (доля рабочих активностей профессии, которые встречаются в данных), успешность выполнения задач ИИ и широту охвата (насколько полно ИИ покрывает конкретную активность).

На основе трех показателей считали интегральный индекс, и чем он выше – тем более вероятно, что профессия будет автоматизирована.

Ну что, завтра на завод?

arxiv.org/abs/2507.07935
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁1352823🔥18🫡11🗿6🦄5👍4👌42❤‍🔥1
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

Решайте ML-задачи в стиле Ozon Tech. Девять победителей разделят призовой фонд соревнования — 7 200 000 рублей 🔥
Тест-драйв работы в e-com бигтехе стартует здесь.

🗓 Регистрация: https://cnrlink.com/ecup25datasecrets
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч для победителей и подарки для самых активных участников.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.

Три трека E-CUP:
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров

Регистрация на платформе Codenrock: https://cnrlink.com/ecup25datasecrets
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁20🔥7👍53🕊2🗿1
Data Secrets
DeepSeek только что выложили статью, в которой предложили новую вариацию механизма внимания Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров…
О, статья от DeepSeek выиграла награду Best Paper Award на ACL 2025

Это ведущая мировая конференция по NLP.

Статья называется «Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention». Работа вышла в феврале, в ней DeepSeek показали новую вариацию механизма внимания, специально оптимизированную под длинный контекст.

Наш разбор статьи можно найти тут. Если не читали – самое время.

А DeepSeek мы от души поздравляем, награду они точно заслужили 🐋
Please open Telegram to view this post
VIEW IN TELEGRAM
2🐳194🔥45👍2511😁2🤔2❤‍🔥11
Data Secrets
Anthropic завели своему Claude собственный блог Оказывается, около недели назад Anthropic тихонько, без анонсов, создали Claude Explains. На этой странице теперь появляются всякие технические заметки и посты про варианты использования ИИ, и пишет все это…
Anthropic сделали Claude аккаунт в X

Помните, буквально месяц или два назад у Claude появился собственный блог Claude Explains с краткими гайдами на тему программирования? Так вот эксперимент, видимо, не увенчался успехом, и антропики решили попробовать другой формат – аккаунт в соцсети.

Пока непонятно, на какие темы агент будет твитить: на данный момент его единственный пост (а точнее, реплай) – на скрине наверху. Но понаблюдать будет занятно.

x.com/claudeai
25635😁14👍8🤨3331🔥1
Мы тут узнали, что зумеры увольняются с работы на лето, чтобы не пропускать каникулы

И это не шутка, а настоящий тренд. Они не хотят сидеть в офисе всё лето и намереваются возвращаться на работу осенью. Это называется "временная пенсия" или gap time. Бумеры – осуждают, миллениалы – завидуют.

Но айтишникам, в целом, везёт больше, потому что есть удалёнка. Можно и работу сохранить, и на пляжике в понедельник полежать. И да, на рынке России всё ещё есть компании, которые позволяют вообще не появляться в офисе.

Яркий пример – Точка Банк. Даже учитывая, что они – финтех, ребята всё равно дают сотрудникам возможность самим решать, из какой точки работать (поняли, поняли, да? 👌). Главное – результат, и они эту позицию активно продвигают.

Хочешь – зимуй в Таиланде, хочешь – уезжай на лето к бабушке, хочешь – работай из офиса. Так у них работает уже 1300 человек, кстати. В том числе куча дата сайентистов и других айтишников!
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁16943🐳19🗿17👍6🤯6🦄221
Марк Цукерберг написал открытое письмо со своим видением будущего ИИ

Оно небольшое, полностью почитать можно тут. Мы собрали основные цитаты:

В некоторых отношениях эра ИИ будет абсолютно новой для человечества, но в других станет просто продолжением исторических тенденций. Еще 200 лет назад 90% людей были фермерами. Прогресс постепенно дает нам возможность концентрироваться меньше на выживании и больше на том, чем мы действительно хотим заниматься.


В Meta мы считаем, что
нужно дать суперинтеллект в руки каждому
. Это отличает нас от других компаний, которые считают, что суперинтеллект должен централизовано автоматизировать работу.
Люди, преследующие свои индивидуальные устремления, – это именно то, как мы всегда добивались прогресса
, расширяя процветание, науку, здоровье и культуру.


Если тенденция сохранится, то личные девайсы, например очки, с суперинтеллектом, который знает вас идеально, станут нашими основными вычислительными устройствами. Так или иначе,
оставшаяся часть десятилетия станет решающим периодом для определения пути, по которому пойдет человечество
.
1🔥157😁4437👍2322🤨8🤯7🕊521❤‍🔥1
Data Secrets
Илон Маск заявил, что в xAI и SpaceX нет рисерчеров – а есть только инженеры Термин «рисерчер» он назвал чопорным и малоответственным, и сказал, что это пережиток академической среды. Он утверждает, что рисерчеры в xAI не нужны, потому что у него работают…
Ян Лекун вступился за термин «рисерчер», который Маск вчера назвал устаревшим, чопорным и малоответственным

Существует разница между исследованием и инженерией в (1) способе действия, (2) методологии, (3) открытости, (4) критериях оценки.

Исследование использует научную методологию для открытия новых принципов, демонстрации того, что они могут работать на практике, анализа их преимуществ и ограничений, а также взаимодействия с более широким исследовательским сообществом для критики, проверки, воспроизводимости, сравнения и улучшения.

Критерии — концептуальная простота, теоретическая красота/объяснимость, явное превосходство над предыдущими работами по признанным метрикам. Это относится как к академическим исследованиям, так и к исследованиям в индустрии.

Инженерия интегрирует методы, часто разработанные в рамках исследовательского подхода, для создания работающих систем. Подход — использовать первый набор методов, который достаточно хорошо работает для задачи. Обычно это включает множество подгонки, настройки, тонкой доводки и временами — временных решений, чтобы добиться нужной производительности на реальной задаче. Насколько метод абсолютно лучший — менее важно, чем то, насколько он хорош для текущей задачи.

Исследователей оценивают в основном по интеллектуальному влиянию. Оценка исследований — сложная задача, поскольку влияние может проявиться через годы (иногда десятилетия) после выполнения работы. Поэтому часто приходится полагаться на коллективное мнение исследовательского сообщества через косвенные показатели, такие как публикации, цитирования, приглашённые доклады, награды и т. д. Вот почему исследования должны публиковаться.

Инженеров оценивают в основном по влиянию на продукт, иногда через косвенные метрики вроде ПР, количества строк кода и т. д.
Работая в инженерном режиме, исследователи получают стимул заниматься инкрементальной работой.

Если не делать различия между этими двумя видами деятельности, если оценивать исследователей и инженеров по одним и тем же критериям, есть риск уничтожить прорывные инновации. Настоящие прорывы требуют команд с долгим горизонтом планирования и минимальными ограничениями со стороны продуктовой разработки и менеджмента.

Исследовательские лаборатории прежних лет, оставившие неизгладимый след в научно-технологическом прогрессе (Bell Labs, IBM Research, Xerox PARC и др.), были исследовательскими подразделениями, чётко отделёнными от инженерных.


Берем попкорн и ждем ответку от Маска

Пост Лекуна
2🔥181372216👍117💯4😁3🤔3
Про то, как работает ИИ в Авито

У TechIndsider вышло на редкость содержательное интервью о том, как бигтех на самом деле внедряет ИИ в сервисы. Главред поговорил с управляющим директором по ИИ в Авито Андреем Рыбинцевым (кстати, должность совсем новая, Рыбинцева назначили на нее недавно), и тот с занятными подробностями рассказал, как они используют ИИ.

Готовы поспорить, многие из нас пользуются Авито постоянно, но не подозревают, насколько глубоко там зашиты ИИ-алгоритмы. Так что вот вам просто несколько рандомных фактов из интервью:

Каждый день алгоритмы Авито обрабатывают около 40 миллиардов кликов. "Уже после нескольких действий по косвенным признакам становится понятно, что интересно пользователю, что ему показывать, а что нет".

99% контента проверяется ИИ, и только 1% самых сложных вопросов передается модераторам. Если бы не алгоритмы, Авито пришлось бы нанять на 100 тыс. больше сотрудников.

От 40 до 60% сделок на платформе (в зависимости от категории) проходит именно благодаря рекомендациям.

Помимо этого LLM-ки помогают писать описания к объявлениям и отвечать на вопросы покупателей. И, кстати, монетизация в Авито – это тоже трансформеры.

А в будущем, как говорит Андрей, Авито вообще превратится в платформу, где между собой договариваются и торгуют не сами продавцы и покупатели, а их личные ИИ-ассистенты. Киберпанк?

Интервью полностью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
1🗿89🤨31😁1814👍9🔥5👻33
Пекин вызвал Дженсена Хуанга на ковер из-за проблем с безопасностью в чипах Nvidia

Сообщается, что какие-то американские эксперты (кто именно, не уточняется) нашли в видеокартах H20 некие уязвимости (какие именно, также не уточняется), из-за которых можно отслеживать местонахождение чипов и удаленно отключать их.

Никаких официальных доказательств такого функционала никто не предоставил и эксперты по кибербезу сразу сказали, что это какой-то бред. Но суть в том, что H20 производятся специально для китайского рынка и это чуть ли не единственные видеокарты, которые Вашингтон официально разрешает поставлять в КНР.

Так что, понятное дело, в Китае перепугались и вызвали представителей Nvidia в суд для выяснения обстоятельств. Дженсен Хуанг в ответ на обвинения заявил, что никаких бэкдоров в его продуктах нет и в помине, и что он, вообще-то, очень благоволит китайскому рынку.

И видимо, в суде ему поверили, потому что заказ на 300 000 видеокарт для Китая, который Nvidia недавно разместили на заводе TSMC, все еще в силе.

Теперь интересно, кем же были те самые «американские эксперты», которые так желают Nvidia процветания
1🤔85😁451811107🦄22👍1🕊1
О, Google уже проиндексировал страницу с документацией GPT-5

Пока она приводит к 404, но мы то с вами знаем, что индексация обычно не бывает случайной 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
319964😁43🔥13116👍42
OpenAI избавились от фичи, которая делала чаты пользователей видимыми для поисковиков

На днях разразился настоящий скандал: выяснилось, что некоторые разговоры с ботом, которыми пользователи делились по ссылкам вроде как частным образом, становились видимыми для поисковых систем и начинали появляться в поисковой выдаче.

Как оказалось, это был не баг, а фича. Точнее, как пишет директор по инфобезу OpenAI, «краткосрочный эксперимент, призванный помочь пользователям находить полезные чаты».

То есть то, что некоторые зашаренные беседы были проиндексированы поисковиком – это не случайность: пользователи сами давали на это согласие, если во время создания ссылки на чат устанавливали флажок «Разрешить показывать в поиске».

Тем не менее, после шумихи в СМИ куча людей все равно остались недовольны и обвинили OpenAI. Потому что кто вообще читает эти флажки, правильно?

Короче, эксперимент не удался (хотя идея была неплохая, ведь в чатах часто действительно куча полезного контента). Теперь OpenAI откатывает фичу и начинает процесс по удалению из индексации всех уже провалившихся туда чатов.

Даже немного жаль.
😁12377👍2316128🔥1😎1
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали свою очередную Alpha<вставьте любое слово>

На этот раз это модель для точнейшего моделирования ландшафта Земли – AlphaEarth.

Звучит с первого взгляда игрушечно, но на самом деле это система с очень мощным практическим применением. Для чего это, по сути, нужно:

Вообще карты Земли составляются так: берется куча снимков со спутников, замеров лидаров и прочих данных, а потом все это очень-очень долго обрабатывается и сопоставляется.

«Очень долго», потому что половина из доступных снимков – это мусор. На некоторых облака, на некоторых ночь, а с разных устройств необходимые кадры вообще сняты под разными ракурсами и углами.

В ручную процесс занимает просто уйму времени. А Google научили свою модель разбираться в этом всем автоматически и довольно быстро.

То есть AlphaEarth принимает на вход огромные массивы шумных данных, мэтчит их, достраивает картинки там, где есть белые пятна (сопоставляя разные снимки одной и той же местности), накладывает на это все данные с радаров и в итоге для каждого кусочка земли 10х10 метров на выход отдает готовый эмбеддинг.

А уже этот эмбеддинг можно дальше отдавать на вход любой ML-системе. Например, для предсказания погоды или отслеживания каких-то изменений. Внутри у такого вектора спрятана информация о рельефе, высоте, типе местности, сезонности, климате, влажности и тд и тп.

А если прикрутить такое к LLMке, то представьте, насколько более продвинутыми могут стать геологические рисерчи, путешествия, да и в целом ориентация в пространстве.

В общем, Google, как всегда, знают куда целятся

deepmind.google/discover/blog/alphaearth-foundations-helps-map-our-planet-in-unprecedented-detail/
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥18455👏23🤯7👍5😁3🗿3
На Hugging Face заметили «случайный» слив весов открытой модели OpenAI

Висели они там всего пару минут, но шуму навели будь здоров. Что известно:

– Модели называются OSS-20B и OSS-120B
– Та, что побольше – MoE (4 эксперта на токен), запускается на Blackwell
– Контекст 128к токенов

Маркетинг в стиле OpenAI.

Вы, кстати, больше ждете опенсорс или GPT-5?
😁12531👍186🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
13 и 14 сентября: E-CODE от Ozon Tech💙

Команда разработки ведущего e-com страны приглашает на одно из самых ярких событий в IT — E-CODE.

Два дня в атмосфере бигтеха: эксперты в технологиях, дата-инженерии и e-com, талантливые руководители и знаковые лидеры индустрии — такой нетворк важен каждому.

Приходите учиться, общаться и отдыхать с теми, кто говорит на вашем языке.
Москва, Loft Hall.

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🗿12😁52🔥1🤯1
Модель Gemini 2.5 Deep Think стала доступна пользователям

Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам:

– Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3
– 87.6% на LiveCodeBench против 72 у o3
– 99.2% (почти абсолют!) на AIME 2025 против 89 у o3

Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо.

Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением».

Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra.

Карта модели | Блогпост
903530🔥98👍3👀2🗿2
Anthropic отрубили OpenAI доступ к API своих моделей из-за «нарушения условий предоставления услуг»

Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода.

А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ».

OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.

Мы уважаем решение Anthropic закрыть нам доступ к API, но это разочаровывает, учитывая, что наш API остаётся им доступным, – сказала Ханна Вонг, директор по коммуникациям в OpenAI.


Нам показалось, или обстановка накаляется? 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍88😁785296🤯4
The Information выпустили интересную статью про то, с какими неприятностями столкнулись OpenAI, разрабатывая GPT-5

Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку:

⚪️ В начале 2024 года стартап очень много времени и средств потратил на разработку модели Orion. Именно она изначально и должна была стать нашей GPT-5.

⚪️ Но OpenAI столкнулись сразу с несколькими проблемами: во-первых, после обучения GPT-4 у компании фактически закончились качественные данные. Во-вторых, методы RL при масштабировании начали вести себя нестабильно. В-третьих, отдача от увеличения мощностей начала резко снижаться, в обход классическим законам скейлинга.

⚪️ В общем, революции не случилось и Orion в итоге вышел под именем GPT-4.5.

⚪️ После этого некоторые проблемы OpenAI частично решили. Например, они разработали мощный внутренний верификатор, который оценивает корректность данных и ответов моделей. Теперь инструмент работает и в RL-пайплайнах, и в процессах генерации синтетики.

⚪️ Тем не менее, проблемы с масштабированием сохраняются. Дальнейшее обучение требует все больше вычислительных и человеческих ресурсов, косты растут, а отдача в ряде экспериментов падает.

Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
110462116😁9🔥41👍1