Data Science | Machinelearning [ru]
18.1K subscribers
484 photos
18 videos
29 files
3.37K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Forwarded from xCode Journal
🦾 Модель OpenAI решила все 12 задач на финале ICPC 2025

Это абсолютный рекорд для ИИ-модели и лучший результат на Олимпиаде. Следующие в рейтинге идут наши ребята из СПБГУ — они решили 11 задач из 12.

Также 1 место получила Gemini 2.5 DeepThink от Google, решившая 10 из 12 задач.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🐳1
ИИ в финансовом анализе: кто впереди — Grok 4, GPT-5 или человек? 🤩

Недавно опубликованные результаты бенчмарка FinSearchComp показали, как современные языковые модели справляются с задачами финансового анализа. Этот тест, включающий 635 вопросов, имитирует работу реальных финансовых аналитиков, оценивая их способности в поиске данных и логическом анализе.

Задачи делятся на три типа: работа с «горячими» данными (например, вчерашнее закрытие акций), точечный исторический поиск (например, активы Starbucks на определённую дату) и более сложные многошаговые расследования (например, анализ роста S&P 500 за несколько лет).

Кто в лидерах?

• Grok 4 показывает наилучшие результаты на глобальном наборе вопросов, набирая 68.9% по всем категориям
• GPT-5-Thinking также близок по точности, с результатом 63.9%
• Для китайского рынка лидер DouBao, но его результат в среднем — всего 54.2%, что значительно отстаёт от человеческой точности в 88.3%

Особенно сложными оказались многошаговые задачи (T3), где лучшие модели пока только дотягиваются до минимального уровня, который показывают профессиональные аналитики.

Хотя ИИ уже могут эффективно выполнять рутинную работу, такую как сбор данных и выполнение простых запросов, для сложных, многошаговых расследований, требующих логики и анализа множества источников, люди всё ещё на шаг впереди. Профессиональные финансовые аналитики пока не заменимы, особенно в задачах, требующих глубокого понимания контекста и способности работать с неоднозначными данными.


ИИ продолжает улучшаться в финансовом анализе, но пока остаётся гораздо более сильным помощником, чем самостоятельным экспертом. Если задачи становятся сложнее и многограннее, человеческий интеллект всё ещё не заменим 😮‍💨

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2🐳1
100 готовых промптов для учебы от OpenAI 🍒

OpenAI выпустили официальный набор из 100 промптов, которые помогут студентам, преподавателям и исследователям работать с нейросетями более эффективно. Эти запросы могут быть полезны для создания курсовых, дипломов, исследований, подготовки к экзаменам и многого другого.

Что включает в себя подборка?

— Изучение предметов: запросы для математики, литературы, науки и других областей
— Навыки обучения: техники конспектирования, запоминания и подготовки к экзаменам
— Карьерное развитие: советы по составлению резюме, подготовке к собеседованиям и профессиональным навыкам
— Хобби и интересы: запросы для творчества и личного роста


Также подходит для всех, кто использует нейросети для обучения и развития, и доступен бесплатно с возможностью перевода на другие языки, что делает его универсальным решением для любой нейросети.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
Учёные представили революционный способ обучения моделей

Исследователи предложили новый подход к обучению языковых моделей, который не требует заранее подготовленных правильных ответов. Это метод Compute as Teacher (CaT), который позволяет моделям учиться самостоятельно, генерируя собственные обучающие сигналы, без зависимости от размеченных данных 😮

Как это работает? Вместо того чтобы искать готовую истину в базах данных, модель многократно решает одну и ту же задачу, формируя несколько вариантов ответа. Специальный механизм затем выбирает наиболее обоснованный ответ, превращая его в новую цель для обучения. Это позволяет моделям развивать свои способности к рассуждению и принимать решения в условиях неопределённости.

Основные особенности CaT:

— Верифицируемые задачи (например, математика): в этом случае модель использует автоматическую проверку правильности ответа.

— Неверифицируемые задачи (например, свободный диалог): модель генерирует критерии оценки, и независимая LLM-система оценивает, насколько удовлетворяет синтезированный ответ.

— Синтез ответов: в отличие от других методов, которые выбирают лучший ответ из нескольких, CaT создает новый, улучшенный ответ, что позволяет модели быть правильной даже в случае, если все исходные варианты были ошибочными.

— Эффективность: на математических тестах (MATH-500) точность увеличилась на 27%, а в медицинских тестах (HealthBench) на 12%. В продвинутой версии CaT-RL результаты выросли ещё больше — на 30-33%.

Преимущества CaT:

• Уменьшение зависимости от крупных размеченных датасетов, что снижает затраты на их подготовку.
• Возможность применения как в реальном времени, так и для улучшения качества моделей через цикл обучения с подкреплением.
• Инновационный подход для задач с недостаточной разметкой и верификацией.


Метод CaT открывает новые горизонты в обучении моделей, позволяя им развиваться и улучшаться без зависимости от огромных и дорогих размеченных данных. Это делает обучение более универсальным и доступным для множества задач, где традиционные методы не работают.

А как вы думаете, сможет ли CaT изменить подход к обучению ИИ в долгосрочной перспективе?
👍 — Да, это шаг к более эффективным и независимым моделям
🤔 — Нет, модель всё равно нуждается в внешнем контроле


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
6🐳6👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft запускает самый мощный датацентр для ИИ в мире — Fairwater AI 🤔

Microsoft запустила строительство самого мощного датацентра для ИИ в мире — Fairwater AI, который будет расположен в Висконсине. Эта установка не просто очередной шаг в развитии вычислительной инфраструктуры, а настоящая революция, способная обеспечить производительность, в 10 раз превышающую возможности самого быстрого на данный момент суперкомпьютера.

На огромной территории в 127 гектаров разместится около 111 000 м², ранее принадлежащих Foxconn. Это позволит создать уникальную платформу для обработки ИИ-данных. Для охлаждения будут использоваться высокоэффективные системы с замкнутым жидкостным контуром, поддерживаемые гигантскими вентиляторами и водоохлаждающими чиллерами. Данные в Fairwater будут передаваться через InfiniBand и Ethernet с пропускной способностью 800 Гбит/с.

Интегрированная система, которая объединяет несколько тысяч GPU NVIDIA GB200, соединённых в мощный кластер, способный выполнять задачи синхронно. В этом датацентре будут работать не только на тренировки ИИ, но и на реальные вычислительные задачи, такие как инференс и рилтайм-обработку данных.

Microsoft планирует полностью запустить инфраструктуру к началу 2026 года. Это будет не просто датацентр — это глобальная сеть, объединяющая более 400 центров по всему миру, и Fairwater станет ключевым узлом в этой сети.


Задумайтесь, насколько радикально изменится будущее ИТ-инфраструктуры с такими проектами. Мы стоим на пороге новой эры вычислений, где мощность вычислительных кластеров будет определять не только скорость, но и возможности ИИ в самых разных областях. А вы что думаете? Возможна ли революция? ☕️

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍6🐳5🔥1
ИИ-агенты без навыков разработки: новая AI Studio от Yandex B2B Tech 🚶‍♂️

Теперь компании смогут создавать собственных ИИ-агентов всего за несколько часов на базе генеративных моделей в облаке – например, YandexGPT или Qwen3.

Что внутри?

— realtime API: с его помощью голосовые агенты отвечают в реальном времени;
— AI Search: поиск информации по интернету, а также картинкам, таблицам, документам;
— MCP Hub: агентов можно быстро подключить к внешним сервисам по уже готовым шаблонам, среди них уже есть Контур.Фокус и amoCRM;
— Workflows: можно составить сценарий взаимодействия нескольких агентов друг с другом или с внешними системами;
— Готовые решения: SpeechSense для анализа звонков и чатов, Нейроюрист для правовых заключений и т.д.


Почему это важно?

Российские компании тратят более 3 трлн рублей в год на функции поддержки, бухгалтерии и HR. ИИ-агенты помогут сократить рутину, освободив время сотрудников для более сложных задач.

Таким образом, AI Studio делает ИИ-доступным инструментом для любого бизнеса — от ритейла до промышленности.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👎4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
21
Применять ML и анализ данных всегда интереснее, когда есть реальная задача.

Overnight Finance Challenge - это твой шанс проверить, насколько крутая у тебя модель, и превратить её в $2500.

Задача довольно интересная: спрогнозировать курс ETH/USDC. Конкурс запускает Overnight.fi. Это DeFi протокол, который делает дельта-нейтральные стратегии.

💰 Призовой фонд - $2,500: за три лучшие модели дают $1,500 и $1,000. Участвовать можно самому или с командой.

👉 Подробности тут: https://linkly.link/2Fdj8, ну и там же регистрация.
3
Обучить ИИ «мыслить» как человек: MIT меняет подход к планированию в LLM 🤔

Многие из нас уже привыкли слышать, что современные языковые модели (LLM) умеют «рассуждать». Но на самом деле, когда мы говорим о «разумном мышлении», мы чаще всего имеем в виду сложную генерацию текста, где модель просто вытаскивает информацию из огромной базы данных и подставляет её в ответ. В этой парадигме отсутствует настоящее планирование и глубокая логика. MIT недавно предложили альтернативный подход, который может стать важным шагом на пути к настоящему искусственному мышлению.

Их идея заключается в том, что планирование в действительности — это не просто генерация текста, а переход из одного состояния в другое. Например, логика рассуждения может быть такой: если мы находимся в состоянии А, то логически можем перейти в состояние Б, но не в В или Г. Для достижения цели нужно учитывать, какие переходы правильные, а какие нет. Это требует гораздо большей точности и осознания контекста, чем просто заполнение пробелов в тексте.

Символьные цепочки вместо простых токенов

MIT предлагают, вместо того чтобы учить модели генерировать произвольные фразы, обучать их строить символьные цепочки. Это своеобразный способ научить модель планировать, понимая, что является логически верным переходом, а что — нет. Эти символьные цепочки могут быть проверены верификатором, что позволяет моделям улучшать свои выводы по мере получения фидбэка. По сути, это напоминает обучение с подкреплением (RL), где модель получает обратную связь за свои шаги и улучшает свои рассуждения.

Как это работает на практике

В исследованиях MIT показано, что такой подход значительно улучшает производительность моделей. В их тестах новое планирование добавило +30–60% к точности в решении задач, где традиционные методы рисования цепочек рассуждений через токены не справлялись. Причем, важный момент: для этого не нужна разметка данных — модели могут учиться без явной маркировки, лишь на основе проверок правильности цепочек.


Если MIT удастся масштабировать этот подход, то мы сможем увидеть на горизонте искусственный интеллект, который не просто генерирует фразы на основе статистики, а действительно умеет планировать и делать осознанные логические шаги. Однако пока эта методика применялась только к довольно узким задачам, и пока нет ясности, как она будет работать на более сложных и разнообразных проблемах.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2
Открытый урок «Minority drift: от методов детекции до стабильного прода»

• 6 октября, ПН
• 19:00 по мск
• 2 часа

2 часа вместе с Team Lead Yandex на практике учимся распознавать виды Minority Drift, делать модели устойчивыми к дрейфу, оценивать деградацию и финансовые риски. От PSI и KL-дивергенции до Fairness Metrics.

Что будет на уроке:

1️⃣Виды Minority Drift в продакшен данных: Class-wise, Conditional, Subpopulation, Hidden Drift

2️⃣Оценка деградации моделей и финансовых потерь на практике

3️⃣Методы стабилизации признаков и моделей: PSI и KL-дивергенция

4️⃣Контроль качества — построение Fairness Metrics

Преподает Дмитрий Сафонов, Data Science Team Lead в Яндекс.

Урок для Data Scientists, Classic ML и NLP-инженеров. Нужны базовые знания основ машинного обучения, математики и программирования.

➡️ Записаться на урок
Please open Telegram to view this post
VIEW IN TELEGRAM
42🔥2👍1
Tencent учит языковые модели «параллельному мышлению» 🐹

Исследователи из Tencent AI Lab и Университета Мэриленда предложили новый метод, который помогает языковым моделям (LLM) более эффективно масштабироваться в процессе инференса. В отличие от предыдущих подходов, этот метод позволяет моделям развивать несколько направлений рассуждений одновременно, что значительно повышает точность решений при решении сложных задач.

Метод, названный Parallel-R1, использует обучение с подкреплением, чтобы обучить модели параллельному мышлению. Это значит, что система может генерировать несколько независимых логических путей, а затем собрать их воедино для более точных выводов. Такой подход устраняет потребность в большом количестве размеченных данных, что делает его более доступным для практического применения.

Параллельное мышление активно применяется в таких передовых моделях, как Gemini Deep Think от Google, и показало себя как эффективная техника для сложных задач рассуждения. Однако многие существующие методы сталкиваются с проблемой масштабирования или требуют заранее заданных правил, что ограничивает гибкость и применимость. Parallel-R1 решает эти проблемы, позволив моделям развивать множество линий рассуждений и эффективно комбинировать их.

Метод Parallel-R1 прошел через несколько этапов обучения. Сначала модель обучалась на простых задачах, где она генерировала примеры параллельного мышления, затем метод с использованием RL был применен к более сложным задачам. Результаты показали, что модель, обученная с помощью Parallel-R1, демонстрирует более высокую стабильность и точность, чем другие подходы.


Этот метод может существенно повлиять на развитие бизнес-решений, где важны высококачественные системы рассуждения. Благодаря использованию параллельного мышления можно сделать ИИ более точным и адаптивным при решении комплексных задач в реальном времени.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳2
Современные базы данных: от векторных СУБД до моделей работы с данными в PostgreSQL.

Базы данных меняются так же быстро, как и задачи, которые они решают. Сегодня нужны не только надёжные стратегии хранения, но и новые инструменты для работы с AI.

OTUS приглашает на два открытых вебинара курса «Базы данных», где мы разберём ключевые технологии и практики:

📌 29 сентября, 20:00
«Векторные СУБД: Milvus, Weaviate, Qdrant и Chroma в реальной практике»
— сравним сильные и слабые стороны решений и разберём, как встроить их в проекты с LLM и AI-сервисами.

📌 13 октября, 20:00
«Модель работы с данными в PostgreSQL»
— разберём ключевые аспекты модели данных в PostgreSQL, включая структуру таблиц, индексов, транзакций и связи между данными.

Оба вебинара бесплатные и будут полезны разработчикам, инженерам данных, администраторам и архитекторам, которые работают с современными системами хранения и защиты данных.

👉 Регистрируйтесь: https://vk.cc/cPRo0R

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
ИИ в Западных корпорациях — период «отрезвления» 😐

2025 год должен был стать годом ИИ, который обещал революцию в бизнесе. Но, оглянувшись на текущие данные, можно заметить, что картина не такая яркая, как предсказывали. 78% компаний утверждают, что внедрили ИИ хотя бы в одну бизнес-функцию, а инвестиции в технологию в 2024 году составили рекордные $250 миллиардов. Однако, на практике ситуация далеко не такая радужная.

Крупные корпорации начали замедлять внедрение ИИ: уровень применения снизился с 14% до 12% за лето 2025 года. Вместо того чтобы двигаться к масштабированию, компании начали сталкиваться с неудачами. Свежий отчет MIT также указывает на тревожный факт — 95% пилотных проектов с генеративным ИИ не доходят до реального использования.

Сегодня мы наблюдаем переходный момент — период «отрезвления», когда эйфория от первых успехов сменяется осознанием того, что не все так просто. На первый план выходят реальные проблемы: 42% лидеров признаются, что ИИ в их компаниях — это, в основном, маркетинговый шум, а 82% сотрудников скептически относятся к технологии. Вопрос стоит так: это лишь временные трудности или начало конца ИИ-революции?

Что на самом деле происходит?

В 2025 году мы сталкиваемся с очевидным расколом среди компаний: одни продолжают активно инвестировать в ИИ, другие сомневаются. Крупные корпорации начали понимать, что технологии не так безупречны, как ожидалось, и с опаской смотрят на масштабирование. В то же время малый бизнес продолжает двигаться вперед, экспериментируя с ИИ в узких сферах, что демонстрирует большую гибкость и готовность к новым решениям.

Интересно, что большая часть ИИ-инвестиций идет на улучшение внутренней инфраструктуры — не в саму технологию, а в ее обвязку. Так, например, 44% расходов направляются на создание объяснимых и безопасных моделей. Это свидетельствует о том, что компании осознали: без понимания работы ИИ и его контроля технологии могут представлять огромный риск.

Развитие ИИ идет далеко не так стремительно, как было обещано. Большинство пилотных проектов терпят неудачу, а огромные деньги по-прежнему тратятся, но отдачи нет. Параллельно с этим, реальный успех находит тот бизнес, который оценивает возможности ИИ не как магию, а как инструмент для решения четких и конкретных задач.


Сентябрь 2025 года стал моментом, когда блеф о мгновенной революции ушел в прошлое. ИИ, безусловно, обладает огромным потенциалом, но путь к его эффективному использованию требует гораздо больше усилий и осознанных решений, чем ожидали многие. Нам предстоит увидеть, кто пройдет через все трудности и выйдет на другой уровень.

ИИ станет неотъемлемой частью бизнеса?
👍 — Он будет повсюду
🤔 — Это технология для элитных компаний


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🐳1