Токены в нейросетях. Что это и откуда берётся?
А вы задумывались, как текстовые нейросети видит текст, который мы им отправляем, если она сама мыслит цифрами?
В данной статье мы разберём как нейросеть видит текст, который мы ей отправили, познакомимся очень близко с термином ТОКЕНЫ, и даже сами создадим те самые токены на Python.
Узнать о ТОКЕНАХ
Читать: https://habr.com/ru/articles/938798/
#ru
@big_data_analysis | Другие наши каналы
А вы задумывались, как текстовые нейросети видит текст, который мы им отправляем, если она сама мыслит цифрами?
В данной статье мы разберём как нейросеть видит текст, который мы ей отправили, познакомимся очень близко с термином ТОКЕНЫ, и даже сами создадим те самые токены на Python.
Узнать о ТОКЕНАХ
Читать: https://habr.com/ru/articles/938798/
#ru
@big_data_analysis | Другие наши каналы
❤1👍1
Система метрик, или как навести порядок в голове бизнеса
Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.
Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...
Читать: https://habr.com/ru/articles/938912/
#ru
@big_data_analysis | Другие наши каналы
Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.
Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...
Читать: https://habr.com/ru/articles/938912/
#ru
@big_data_analysis | Другие наши каналы
Как адаптировать аналитику для тех, кто не хочет разбираться в графиках
Если вы управляете достаточно крупным бизнесом, вы неизбежно будете собирать аналитические данные. Вы же хотите точно понимать, почему меняются показатели продаж или какие товары будут пользоваться спросом в следующем месяце.
Звучит логично и понятно, пока вы не начнете плотно работать с цифрами и графиками. И тут, как и почти в любой сфере, кто-то рано или поздно должен был внедрить AI-ассистента. Под катом посмотрим, что из этого получилось.
Читать: https://habr.com/ru/companies/selectel/articles/938944/
#ru
@big_data_analysis | Другие наши каналы
Если вы управляете достаточно крупным бизнесом, вы неизбежно будете собирать аналитические данные. Вы же хотите точно понимать, почему меняются показатели продаж или какие товары будут пользоваться спросом в следующем месяце.
Звучит логично и понятно, пока вы не начнете плотно работать с цифрами и графиками. И тут, как и почти в любой сфере, кто-то рано или поздно должен был внедрить AI-ассистента. Под катом посмотрим, что из этого получилось.
Читать: https://habr.com/ru/companies/selectel/articles/938944/
#ru
@big_data_analysis | Другие наши каналы
Многофакторное сравнение пяти популярных вычислительных движков для больших данных
Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.
Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»
#ru
@big_data_analysis | Другие наши каналы
Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.
Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»
#ru
@big_data_analysis | Другие наши каналы
👍1
Фильтры в таблицах
В B2B-системах и корпоративных интерфейсах фильтры — не «приятный бонус», а спасательный круг в работе пользователя. Когда у вас таблица на 10 000 строк и 100+ колонок, обычным поиском или сортировкой не обойтись. Тут уже нужны сложные фильтры: с несколькими условиями, каскадными зависимостями, сохранёнными пресетами и продуманной логикой применения.
В этой статье разберём, как подойти к проектированию таких фильтров с точки зрения дизайнера: что спросить у фронтендера и бэкендера, какие ограничения учесть заранее и как сделать так, чтобы фильтр реально помогал работать, а не превращался в ещё одну головную боль.
Читать: https://habr.com/ru/articles/937918/
#ru
@big_data_analysis | Другие наши каналы
В B2B-системах и корпоративных интерфейсах фильтры — не «приятный бонус», а спасательный круг в работе пользователя. Когда у вас таблица на 10 000 строк и 100+ колонок, обычным поиском или сортировкой не обойтись. Тут уже нужны сложные фильтры: с несколькими условиями, каскадными зависимостями, сохранёнными пресетами и продуманной логикой применения.
В этой статье разберём, как подойти к проектированию таких фильтров с точки зрения дизайнера: что спросить у фронтендера и бэкендера, какие ограничения учесть заранее и как сделать так, чтобы фильтр реально помогал работать, а не превращался в ещё одну головную боль.
Читать: https://habr.com/ru/articles/937918/
#ru
@big_data_analysis | Другие наши каналы
👍1
Как используются динтаблицы YTsaurus: рекламные профили поведенческого таргетинга
Когда вы видите баннер, кликаете по рекламе или указываете, что вас не интересует тот или иной товар, — за кулисами происходит немало вычислений. Система поведенческого таргетинга, отвечающая за персонализацию рекламы в Яндексе, получает эти события, обновляет ваш профиль, а затем использует его, чтобы в следующий раз показать что‑то более подходящее.
Сама по себе задача кажется очевидной: собирать события, обновлять профили, обеспечивать быстрое считывание информации. Но если заглянуть под капот, начинается настоящее инженерное приключение. Сотни тысяч событий в секунду, требование обработки в режиме exactly‑once, жёсткие ограничения по времени отклика, компромисс между скоростью и экономией ресурсов, и всё это — на фоне необходимости работать надёжно и с горизонтальным масштабированием.
Меня зовут Руслан Савченко, в Yandex Infrastructure я руковожу разработкой динамических таблиц YTsaurus — системы, в которой поведенческий таргетинг хранит данные. В этой статье я подробно разберу кейс поведенческого таргетинга с динтаблицами: почему таблицы в памяти иногда тормозят из‑за аллокатора, зачем мы внедрили xdelta, как именно устроены агрегатные колонки и что пришлось сделать, чтобы миллисекунды отклика в 99,9 перцентиле стали реальностью.
Читать: https://habr.com/ru/companies/yandex/articles/939078/
#ru
@big_data_analysis | Другие наши каналы
Когда вы видите баннер, кликаете по рекламе или указываете, что вас не интересует тот или иной товар, — за кулисами происходит немало вычислений. Система поведенческого таргетинга, отвечающая за персонализацию рекламы в Яндексе, получает эти события, обновляет ваш профиль, а затем использует его, чтобы в следующий раз показать что‑то более подходящее.
Сама по себе задача кажется очевидной: собирать события, обновлять профили, обеспечивать быстрое считывание информации. Но если заглянуть под капот, начинается настоящее инженерное приключение. Сотни тысяч событий в секунду, требование обработки в режиме exactly‑once, жёсткие ограничения по времени отклика, компромисс между скоростью и экономией ресурсов, и всё это — на фоне необходимости работать надёжно и с горизонтальным масштабированием.
Меня зовут Руслан Савченко, в Yandex Infrastructure я руковожу разработкой динамических таблиц YTsaurus — системы, в которой поведенческий таргетинг хранит данные. В этой статье я подробно разберу кейс поведенческого таргетинга с динтаблицами: почему таблицы в памяти иногда тормозят из‑за аллокатора, зачем мы внедрили xdelta, как именно устроены агрегатные колонки и что пришлось сделать, чтобы миллисекунды отклика в 99,9 перцентиле стали реальностью.
Читать: https://habr.com/ru/companies/yandex/articles/939078/
#ru
@big_data_analysis | Другие наши каналы
Time Horizon моделей AI: почему рост скорости зависит от сферы применения
В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.
Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.
Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.
Читать: https://habr.com/ru/articles/936522/
#ru
@big_data_analysis | Другие наши каналы
В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.
Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.
Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.
Читать: https://habr.com/ru/articles/936522/
#ru
@big_data_analysis | Другие наши каналы
Мы писали ранее, что 12 сентября пройдёт big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые топовые IT-компании одновременно откроют двери офисов в Москве с 18:00 до 00:00 и покажут специалистам, где рождаются технологии.
Пора рассказать о тех, кто выйдет на сцену⚡️
📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках.
➡️ А подробнее про доклады рассказываем на сайте
Подписывайтесь:
💬 big tech night
Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Пора рассказать о тех, кто выйдет на сцену⚡️
📣 Кто и о чём расскажет на big tech night? Начинаем представлять спикеров и темы. Читайте на карточках.
➡️ А подробнее про доклады рассказываем на сайте
Подписывайтесь:
💬 big tech night
Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Как t2 масштабировал BI-аналитику на 4500+ пользователей: кейс миграции на FineBI
Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике.
Читать: https://habr.com/ru/companies/glowbyte/articles/939470/
#ru
@big_data_analysis | Другие наши каналы
Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике.
Читать: https://habr.com/ru/companies/glowbyte/articles/939470/
#ru
@big_data_analysis | Другие наши каналы
Интеграция OpenAI LLM с Oracle Analytics
В статье рассказывается, как подключить большие языковые модели OpenAI к Oracle Analytics. Подробно описан процесс получения API-ключей и настройки интеграции для расширения возможностей аналитики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассказывается, как подключить большие языковые модели OpenAI к Oracle Analytics. Подробно описан процесс получения API-ключей и настройки интеграции для расширения возможностей аналитики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Step-by-Step Guide: Register External LLM (like OpenAI GPT-4 Turbo) with Oracle Analytics Cloud
This blog focuses on how to enable Oracle Analytics AI Assistant to use an external Large Language Model(LLM), Generate API Keys, and Register the Model.
Новая инициатива от команды Oracle Analytics Service Excellence направлена на поддержку и развитие сообщества Fusion Data Intelligence. Проект помогает создавать и распространять полезные аналитические артефакты, облегчая совместную работу и обмен знаниями. Узнайте подробнее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Reusable Workbooks (FDI Artifacts) for Fusion Data Intelligence
An initiative from the Oracle Analytics Service Excellence team to inspire, develop and share reusable artifacts from the Fusion Data Intelligence Community
Как Oracle Fusion Data Intelligence упрощает работу с документами
Статья рассказывает, как возможности Data Augmentation и Semantic Model Extension в Oracle Fusion Data Intelligence помогают напрямую получать ссылки на вложения в счетах, что снижает ручную работу и повышает прозрачность данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья рассказывает, как возможности Data Augmentation и Semantic Model Extension в Oracle Fusion Data Intelligence помогают напрямую получать ссылки на вложения в счетах, что снижает ручную работу и повышает прозрачность данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как крупные компании используют данные для стратегии? Финансовый директор Vopak Маргарета Хенрих-Квист делится опытом внедрения Oracle Fusion Data Intelligence для принятия важных управленческих решений и развития бизнеса.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Apache Superset — почему все топы рынка выбрали именно его?
Попытка по-иному ответить на вопрос "какую BI-системы выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую рынок предпочел
Читать: https://habr.com/ru/articles/939876/
#ru
@big_data_analysis | Другие наши каналы
Попытка по-иному ответить на вопрос "какую BI-системы выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую рынок предпочел
Читать: https://habr.com/ru/articles/939876/
#ru
@big_data_analysis | Другие наши каналы