Анализ данных (Data analysis)
46.8K subscribers
2.43K photos
279 videos
1 file
2.12K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач.

📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI.

Проблема:
Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны.

💡 Решение — ArcMemo:
- Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций.
- Концепты бывают двух типов:
- Открытые: описание ситуации + подсказка.
- Программные: псевдокод и функции с параметрами.
- После решения задача конспектируется в набор таких концептов.
- При новой задаче модель подбирает релевантные концепты и комбинирует их для решения.
- С обратной связью на тестах память обновляется и расширяется.

📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными.

🔗 Paper: arxiv.org/abs/2509.04439

#AI #LLM #ARCAGI #Reasoning #Memory
12🔥4👍2
📄 FinePDFs — крупнейший публично доступный корпус, собранный только из PDF-документов!

- Объём: около 3 трлн токенов из 475 миллионов документов на 1733 языках
- Данные извлечены из 105 снимков CommonCrawl (с 2013 по 2025 гг.) и дополнительно скачаны из интернета
- Общий размер: ~20 ТБ, проведена дедупликация и фильтрация
- Даже при минимальной фильтрации качество FinePDFs сравнимо с лучшими HTML-корпусами
- При смешивании с веб-данными достигается новое SoTA по ряду бенчмарков
- Полностью воспроизводим, лицензия ODC-By 1.0
- В ближайшее время появится код воспроизведения и эксперименты на GitHub

🔗 HF: https://huggingface.co/datasets/HuggingFaceFW/finepdfs

@data_analysis_ml
👍178🔥6🤩1
🧩 Как GPT модели менялись от GPT-2 до gpt-oss

Себастьян Рашка написал статью о том, какие архитектурные фишки появились в новых open-weight моделях OpenAI — gpt-oss.

📌 Что изменилось:
• Добавили Mixture-of-Experts — модель выбирает только часть экспертов, что даёт больше мощности без взрыва по параметрам.
• Ввели Grouped Query Attention — ускоряет работу с большими контекстами.
• Появились sliding-window слои — можно обрабатывать длинные тексты эффективнее.
• gpt-oss оптимизировали под reasoning, работу с инструментами и агентов.

✏️ Автор сравнивает gpt-oss с Qwen3 и другими моделями, показывая, как эволюция архитектуры влияет на скорость и качество.

👉 Полный разбор тут: https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
1👍138🔥4
Третья революция знаний человечества после письменности и интернета в самом разгаре — и все благодаря развитию искусственного интеллекта! Об этом заявили эксперты технологической платформы Авито на конференции South Hub, уточнив, что движущей силой революции стали большие языковые модели.

“Мы смотрим на всю эпопею с генеративным ИИ, как на золотую лихорадку, и все пытаются найти золото, но не у всех получается. Развитие open source моделей все изменило – теперь каждый энтузиаст, исследователь в университете, стартап может попробовать поэкспериментировать с большими языковыми моделями”, — отметил Андрей Рыбинцев, управляющий директор по ИИ Авито.

Ключевое изменение — полное переосмысление интерфейсов. Вместо сложных меню и цепочек действий пользователь получает возможность решать задачи через естественный диалог. Это ведет к сокращению числа специализированных приложений — их функции возьмет на себя единый ИИ-агент.

Трансформируется и роль разработчика: из исполнителя он превращается в архитектора систем, который управляет работой ИИ-инструментов. Как подчеркнул руководитель разработки AI Lab «Авито» Олег Королев, человек теперь нужен прежде всего как руководитель процесса.

При этом технологический скептицизм практически исчез — даже консервативные эксперты признают революционный характер изменений. Их темп настолько высок, что прогнозы на 2-3 года могут оказаться наивными. Поэтому точно можно быть уверенными лишь в том, что наши представления о будущем кардинально изменятся.


Смотреть подкаст: Youtube | VK-видео | Rutube | Аудиоверсия

Подпишитесь на полезные каналы Авито
👍62🔥2
📊 Неожиданная статистика по ИИ-ассистентам

Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.

Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).

Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.

⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.

https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar

#ai #copilot #gemini #claude
😁96👍3🔥2
🔥 OpenAI объявила о перестройке команд

➡️ Команда Model Behavior (14 человек), которая занималась настройкой “личности” ChatGPT, снижением угодничества и проработкой политической предвзятости, теперь войдёт в состав более широкой Post-Training org.

👩‍💻 Её основатель, Джоанн Джанг, запускает новый экспериментальный проект OAI Labs, где будут тестировать свежие форматы взаимодействия человека и ИИ.

Перемены показывают: управление личностью модели становится ключевым направлением разработки. Это ответ OpenAI на жалобы пользователей на “холодные” ответы GPT-5 и продолжающиеся дискуссии о безопасности чатботов.
12👍6🔥2😐2
🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.

Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.

Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.

Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy

🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV.

Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5wgUXnq
👍4🐳1🤣1
⚡️ DeepCode — открытая AI-платформу для автоматической генерации кода.

DeepCode превращает научные статьи и технические документы в готовые проекты, включая фронтенд, бэкенд и полноценные репозитории.

🔹 Основные возможности:
• Paper2Code — реализация идей из исследований в рабочий код
• Text2Web — генерация интерфейсов по описанию
• Text2Backend — автоматическое создание масштабируемых серверов
• Поддержка длинных документов и многофайловых проектов

🔜 В ближайшее время разработчики обещают:
• Автоматическую проверку и валидацию кода
• Повышение скорости генерации
• Улучшенную работу с требованиями
• Бенчмарки воспроизведения научных статей (PaperBench)

Проект полностью open source: https://github.com/HKUDS/DeepCode

#deepcode #AI #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍6🔥4🤨1
💾 Зачем нужен Delta Lake, если есть Parquet

Обычный Parquet хранит только одно состояние таблицы.
Если вы сохранили отфильтрованный DataFrame, то старые данные исчезли навсегда.
Отката (rollback) нет → потеряли 10 000 строк, осталось только 3 500.

Delta Lake работает иначе:
- каждый раз создаётся новая версия данных
- можно вернуться к любой версии в прошлом
- данные всегда под контролем и без потерь

📌 Пример:
- Parquet → фильтр → оригинал стёрт
- Delta Lake → версия 0 (10 000 строк) + версия 1 (3 500 строк) → всегда можно вернуться к версии 0

Итог: с Delta Lake данные становятся версионируемыми и надёжными.



#datalake #parquet #bigdata #delta
🔥126🤨4😐2
🚀 NVIDIA представила Rubin CPX — новый класс GPU для inference с огромным контекстом

🔑 Что интересно
- Rubin CPX — специализированный GPU для обработки контекста размером до миллиона токенов (код, видео, длинные последовательности).
- Интеграция в платформу Vera Rubin NVL144 CPX:
- До 8 экзафлопс вычислений ИИ
- 100 ТБ быстрой памяти
- 1,7 ПБ/с пропускной способности
- Превосходит GB300 NVL72 по производительности на 7,5×.
- Характеристики:
- 30 PFLOPS вычислений в NVFP4
- 128 ГБ GDDR7 памяти
- 3× ускоренные attention-механизмы для длинного контекста
- Поддержка всего AI-стека NVIDIA: Dynamo, Nemotron, CUDA-X, AI Enterprise.
- Выход ожидается в конце 2026 года.

Rubin CPX задаёт новый стандарт для аппаратной архитектуры в AI.

Это фундамент для моделей, которые смогут полноценно работать с огромными контекстами, не теряя деталей и качества.

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference
🔥115👍4🍌1
Ты: «Эх, вот бы кто-то научил анализировать данные, чтобы у меня было больше шансов поступить в вуз и начать карьеру…»
Яндекс Лицей: «Ок»

Запускаем новый набор для учащихся школ и колледжей на инстивный, трёхмесячный курс по анализу данных. Научим работать с Python не в теории, а на практике: верно анализировать, точно делать выводы и красиво показывать результаты.

Сделали такой онлайн-курс, чтобы мог пригодиться и в обучении, и в карьере. Поэтому:

1. Сделали упор на практику и только нужную теорию
2. Только те задачи, которые действительно решают в компаниях
3. Ввели командную разработку

Ну и финальное: после обучения получите именной сертификат. Он может помочь получить дополнительные баллы при поступлении в некоторых вузах.

Обучение в Яндекс Лицее бесплатно, но есть отбор. Он открыт до 23 сентября. Вся программа, подробности и регистрация на новый поток по ссылке.
5👍4🔥3
📖 Новая работа ByteDance + Harvard: *Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training*

Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.

🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.

🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине

Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая

🔗 https://arxiv.org/abs/2509.03018

#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard
6🔥4👍3
Ускорение PyTorch-инференса на Apple-устройствах на 87% с помощью AI-сгенерированных Metal-ядр

В новом исследовании показано, как AI-модели автоматически генерируют оптимизированные GPU-ядра под Metal, которые ускоряют работу PyTorch на устройствах Apple.

📊 Результаты:
- В среднем прирост скорости - 87% на 215 модулях.
- Некоторые ядра работают в сотни раз быстрее базового уровня.

🟢 Как это работает:
- Используется agentic swarm-подход - несколько агентов генерируют и тестируют варианты ядер.
- В контекст добавляются CUDA-референсы и данные профилирования, что помогает создавать более эффективные ядра.
- Такой метод превосходит одиночные модели, генерирующие код без дополнительного контекста.

Fвтоматическая генерация GPU-ядер AI-моделями открывает путь к более быстрому и доступному инференсу прямо «из коробки» на Mac и iOS.

🔗 Подробности: https://gimletlabs.ai/blog/ai-generated-metal-kernels
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥65