Time Horizon моделей AI: почему рост скорости зависит от сферы применения
В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.
Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.
Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.
Читать: https://habr.com/ru/articles/936522/
#ru
@big_data_analysis | Другие наши каналы
В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.
Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.
Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.
Читать: https://habr.com/ru/articles/936522/
#ru
@big_data_analysis | Другие наши каналы
Мы писали ранее, что 12 сентября пройдёт big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые топовые IT-компании одновременно откроют двери офисов в Москве с 18:00 до 00:00 и покажут специалистам, где рождаются технологии.
Пора рассказать о тех, кто выйдет на сцену⚡️
📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках.
➡️ А подробнее про доклады рассказываем на сайте
Подписывайтесь:
💬 big tech night
Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Пора рассказать о тех, кто выйдет на сцену⚡️
📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках.
➡️ А подробнее про доклады рассказываем на сайте
Подписывайтесь:
💬 big tech night
Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Как t2 масштабировал BI-аналитику на 4500+ пользователей: кейс миграции на FineBI
Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике.
Читать: https://habr.com/ru/companies/glowbyte/articles/939470/
#ru
@big_data_analysis | Другие наши каналы
Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике.
Читать: https://habr.com/ru/companies/glowbyte/articles/939470/
#ru
@big_data_analysis | Другие наши каналы
Интеграция OpenAI LLM с Oracle Analytics
В статье рассказывается, как подключить большие языковые модели OpenAI к Oracle Analytics. Подробно описан процесс получения API-ключей и настройки интеграции для расширения возможностей аналитики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассказывается, как подключить большие языковые модели OpenAI к Oracle Analytics. Подробно описан процесс получения API-ключей и настройки интеграции для расширения возможностей аналитики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Step-by-Step Guide: Register External LLM (like OpenAI GPT-4 Turbo) with Oracle Analytics Cloud
This blog focuses on how to enable Oracle Analytics AI Assistant to use an external Large Language Model(LLM), Generate API Keys, and Register the Model.
Новая инициатива от команды Oracle Analytics Service Excellence направлена на поддержку и развитие сообщества Fusion Data Intelligence. Проект помогает создавать и распространять полезные аналитические артефакты, облегчая совместную работу и обмен знаниями. Узнайте подробнее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Reusable Workbooks (FDI Artifacts) for Fusion Data Intelligence
An initiative from the Oracle Analytics Service Excellence team to inspire, develop and share reusable artifacts from the Fusion Data Intelligence Community
Как Oracle Fusion Data Intelligence упрощает работу с документами
Статья рассказывает, как возможности Data Augmentation и Semantic Model Extension в Oracle Fusion Data Intelligence помогают напрямую получать ссылки на вложения в счетах, что снижает ручную работу и повышает прозрачность данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья рассказывает, как возможности Data Augmentation и Semantic Model Extension в Oracle Fusion Data Intelligence помогают напрямую получать ссылки на вложения в счетах, что снижает ручную работу и повышает прозрачность данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как крупные компании используют данные для стратегии? Финансовый директор Vopak Маргарета Хенрих-Квист делится опытом внедрения Oracle Fusion Data Intelligence для принятия важных управленческих решений и развития бизнеса.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Apache Superset — почему все топы рынка выбрали именно его?
Попытка по-иному ответить на вопрос "какую BI-системы выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую рынок предпочел
Читать: https://habr.com/ru/articles/939876/
#ru
@big_data_analysis | Другие наши каналы
Попытка по-иному ответить на вопрос "какую BI-системы выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую рынок предпочел
Читать: https://habr.com/ru/articles/939876/
#ru
@big_data_analysis | Другие наши каналы
Личный топ методов Pandas
Pandas — это изумительная библиотека на Python для анализа и обработки данных. Она настолько хороша, что проще сказать, чего она не умеет, чем перечислить все её возможности. В мире аналитики это настоящий швейцарский нож.
В этой статье я хочу поделиться личным топом методов, которые помогают в первичной обработке больших данных.
Читать: https://habr.com/ru/articles/940028/
#ru
@big_data_analysis | Другие наши каналы
Pandas — это изумительная библиотека на Python для анализа и обработки данных. Она настолько хороша, что проще сказать, чего она не умеет, чем перечислить все её возможности. В мире аналитики это настоящий швейцарский нож.
В этой статье я хочу поделиться личным топом методов, которые помогают в первичной обработке больших данных.
Читать: https://habr.com/ru/articles/940028/
#ru
@big_data_analysis | Другие наши каналы