Анализ данных (Data analysis)
47.1K subscribers
2.65K photos
303 videos
1 file
2.3K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ 94-страничный обзор о том, как научные LLM эволюционируют за счет более богатых данных и замкнутых циклов с автономными агентами.

Авторы разобрали 270 датасетов и 190 бенчмарков.

Почему обычные LLM не тянут науку?

Научные данные - это смесь текста, таблиц, формул, кода, изображений и неопределённых измерений. Нюансы легко теряются.

Обзор предлагает:
- единую таксономию научных данных
- многослойную модель научного знания: от сырых наблюдений до теории

Эта рамка помогает строить преподготовку и постобучение так, чтобы модели сохраняли научные правила и могли соединять разные форматы и масштабы.

Обзор классифицирует модели по областям: физика, химия, биология, материалы, науки о Земле, астрономия, плюс универсальные научные ассистенты.

В оценке качества виден сдвиг: от одноходовых квизов, к процесс-ориентированным проверкам, которые оценивают цепочку рассуждений, работу с инструментами и промежуточные результаты.

Авторы продвигают закрытый цикл: агенты планируют эксперименты, запускают симуляторы или лаборатории, проверяют результаты и обновляют общее знание.

Итог: научные LLM движутся к подходу, основанному на данных, проверке процессов и агентных петлях, связанных с реальными доказательствами.

https://arxiv.org/abs/2508.21148
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥136🥰1👏1🤔1
🚀 Grok 4.1 - новая фронтир-модель, которая поднимает планку разговорного интеллекта, эмоционального понимания и практической полезности в реальных сценариях.

Grok 4.1 доступен бесплатно на:
grok.com
grok.x.com
• мобильных приложениях.

Первое место в LMArena Text Leaderboard (привет старому другу “quasar”) и в EQ-Bench (и даже превосходит Kimi k2).

Модель стала лучше понимать контекст, тон, эмоции и намерения собеседника, а также выдавать более точные и прикладные ответы. Это делает Grok 4.1 одним из наиболее продвинутых решений в своей категории.

https://x.ai/news/grok-4-1
👍95🔥1
Конкурс для аналитиков! Требуется эксперт на продуктовый А/Б-эксперимент

Международная IT-компания Garage Eight вместе с Данилой Елистратовым собрали классный аналитический кейс, на котором каждый может прочелленджить свою экспертность.

История следующая — в крупном таксопарке «Датапарк» назревает кризис. Заказы поступают без остановки, но водителей не хватает. Чтобы спасти ситуацию, команда таксопарка запустила продуктовый эксперимент. Но ей нужна помощь крутого аналитика, чтобы разобраться, все ли правильно работает и стоит ли выкатывать новую механику на весь парк.

Задачи:
— убедиться, что сплит-система A/B-теста «Датапарка» работает верно;
— посчитать результаты теста и понять, выгодна ли новая механика;
— предложить способ определять отложенные заказы;
— объяснить все менеджменту на понятной презентации.

Призы (^-^):
1 место — Симулятор от Karpov.Courses на выбор: Симулятор А/B-тестов, Симулятор data science или Симулятор аналитика. А также бомбер Garage Eight.
2 место — Симулятор A/B-тестов от Karpov.Courses и бомбер Garage Eight.
3 место — Симулятор A/B-тестов от Karpov.Courses и бомбер Garage Eight.
4 и 5 место — Наборы мерча от Garage Eight

Прием решений: до 2 декабря
Проверка: с 3 декабря по 10 декабря
Объявление победителей: 11 декабря
> Узнай все детали и забери материалы кейса здесь:
https://t.iss.one/Garage_DataPark_bot

Реклама. ООО "Гараж". ИНН 7810671708.erid: 2W5zFHLiCDe
6👍2🔥1
🚀 Построение многоагентных систем с Laddr

Laddr — это фреймворк на Python для создания масштабируемых многоагентных систем, где агенты могут общаться, делегировать задачи и выполнять работу параллельно. Он предлагает гибкие архитектурные решения с поддержкой наблюдаемости и горизонтального масштабирования.

🚀Основные моменты:
- Модели работы: координация и последовательные потоки.
- Высокая производительность с автоматическим балансировкой нагрузки.
- Полная трассировка действий агентов и интерактивная панель мониторинга.
- Легкость в разработке с чистым CLI и поддержкой горячей перезагрузки.
- Совместимость с различными хранилищами и моделями AI.

📌 GitHub: https://github.com/AgnetLabs/Laddr

#python
11🔥4👍3
Утекли бенчмарки Gemini 3.0 Pro от taker_of_whizz —пока не можем подтвердить подлинность, но цифры просто безумные.

Результаты разрывают всё, что мы видели раньше:

🔥 HLE: 37,5%
🔥 MathArena Apex: 22,3%
(для сравнения — **GPT-5.1 всего 1,0%**)

Если утечка реальна, Gemini 3.0 Pro именно такой, каким все его и хотели видеть — мощный, продвинутый и с невероятным ростом математических и логических способностей.

Ждём официального подтверждения, но выглядит *очень* многообещающе.

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
11🔥6🤣3👍2👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️

28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.

На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.

Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.

Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
43🔥3🤩1
⚡️ Helion - новый высокоуровневый DSL для быстрых и переносимых ML-ядер

Helion - это DSL внутри Python, который компилируется в оптимизированные Triton-ядра. Он сочетает привычный стиль PyTorch с автоматическим тюнингом, давая разработчикам производительные и переносимые ядра под разные архитектуры.

Что делает Helion полезным:
- Автоматически обрабатывает индексацию тензоров
- Управляет памятью и оптимальными доступами
- Подбирает настройки под конкретное железо
- Позволяет писать ядра на уровне «как в PyTorch», а получать код уровня Triton

Итог: разработчик пишет минимум — Helion делает максимум, превращая простое описание вычислений в эффективно оптимизированное ядро.

Подробнее в блоге PyTorch: pytorch.org/blog/helion/
9🔥4👍3
5 ФАТАЛЬНЫХ ОШИБОК В ГРАФИКАХ, КОТОРЫЕ ПОДРЫВАЮТ ДОВЕРИЕ К ВАШЕМУ АНАЛИЗУ

Забирайте гайд с разбором основных ошибок в канале Сделай это красиво. Автор — Алексей Смагин, дата-журналист и аналитик Яндекса.

ГАЙД ПОДОЙДЁТ:

— аналитикам данных и продуктовым аналитикам
— научным сотрудникам и исследователям
— руководителям, которые работают с отчётностью
— всем, кто делает презентации с графиками

Умение анализировать — это круто. Но заказчики не видят вашу работу, они видят итоговые выводы. А от их оформления зависит, оценят ли результат.

Научиться делать графики — это быстро и легко. Достаточно исключить базовые ошибки — и ваша инфографика сразу будет выглядеть профессиональнее.

Подписывайтесь и забирайте гайд в закрепе:
https://t.iss.one/+MrupeY943_QwNzZi
🤣92
Gelato - библиотека для управления вычислительными графами в ML

Проект Gelato от mlfoundations - это минималистичная библиотека, которая помогает собирать, анализировать и оптимизировать вычислительные графы в машинном обучении. Она упрощает разбор сложных пайплайнов, позволяет визуализировать зависимости и управлять вычислениями на уровне узлов.

Особенности:
- понятное представление графа любой ML-модели
- удобные инструменты для модификации, оптимизации и анализа
- подходит для экспериментов с новым дизайном моделей и кастомными связями
- лёгкая интеграция в существующие проекты

Полезна, если вы работаете с нетривиальными архитектурами, хотите экспериментировать с изменением структуры модели или анализировать узкие места в вычислениях.

💥 Blog: https://github.com/mlfoundations/Gelato
🍨Gelato-30B-A3B (Model): https://huggingface.co/mlfoundations/Gelato-30B-A3B
🖱️Click-100k (Data): https://huggingface.co/datasets/mlfoundations/Click-100k
12👍3🔥3👏1
🔥 DR Tulu‑8B - открытая модель глубокого научного анализа, способная конкурировать с OpenAI DR, и всё это при размере всего 8B параметров!

В чём секрет? Новый подход - Reinforcement Learning with Evolving Rubrics (RLER) для длинных, непроверяемых задач.

💡 Вместо статичных оценок:
• Рубрики эволюционируют вместе с моделью
• Используют знания из поиска
• Извлекают новую информацию прямо в процессе обучения

📊 Результаты:
• DR Tulu‑8B сопоставим с OpenAI DR
• Превзошёл все open-source DR-модели
• Стоимость — ~$0.00008 за запрос (против >$1 у OpenAI)

💥 Обучение в два этапа: SFT → RL
Тест на 4 сложных бенчмарках и новый медицинский GeneticDiseasesQA (в сотрудничестве с клиницистами) — результат лучше, чем у OpenAI DR и AI2 ScholarQA (Claude).

Открытая методика, реальный импакт.
ИИ, который *сам учится исследовать*.

- Paper: https://allenai-web/papers/drtulu
- Data & Model: https://huggingface.co/collections/rl-research/dr-tulu
- Code: https://github.com/rlresearch/dr-tulu
🔥128👍41
🚀 ASystem открыл исходники Awex - самого быстрого фреймворка для синхронизации весов в RL.

Awex решает ключевую проблему современной RL-инфраструктуры — синхронизацию параметров моделей с объёмом до 1 трлн весов на тысячах GPU меньше чем за 6 секунд.

Это снимает одно из главных узких мест при масштабировании обучения и ускоряет циклы RL на порядки.

ASystem готовит серию материалов о лучших практиках построения RL-систем в ближайшие 5-6 недель. Будет разбор архитектуры, оптимизаций и инженерных решений.

Добро пожаловать в комьюнити ASystem.

📦 GitHub: https://github.com/inclusionAI/asystem-awex
🤗 Hugging Face: https://huggingface.co/inclusionAI
🤖 ModelScope: https://modelscope.cn/models/inclusionAI

@data_analysis_ml
👍64🔥4
🎯 Как взять качество данных под контроль? 

Неточные отчёты, дубликаты в базах, несоответствия данных - всё это тормозит бизнес и подрывает доверие к аналитике. Если вы хотите стать экспертом в управлении качеством данных и повысить свою ценность на рынке, новый курс «Data Quality» от OTUS - то, что нужно!

📚 Что вас ждёт на курсе:
✔️ Автоматизация контроля качества с помощью Soda, OpenMetadata, Airflow, NiFi
✔️ Построение системы Data Governance - от метаданных до Data Contracts
✔️ Метрики и профилирование данных - научитесь измерять и улучшать качество
✔️ Управление инцидентами и соответствие регуляторным требованиям 
✔️ Практические проекты, которые можно добавить в портфолио

🎓 Формат обучения:
📅 Старт: 26 ноября
💻 Онлайн с практическими заданиями и обратной связью от экспертов

👉 Узнать подробности и записаться: https://tglink.io/93cc483c4086?erid=2W5zFJBnBnY

#реклама
О рекламодателе
2🥴2
This media is not supported in your browser
VIEW IN TELEGRAM
Нновое поколение моделей Segment Anything:

1️⃣ SAM 3 - теперь умеет находить, сегментировать и отслеживать объекты на изображениях и видео.
Модель поддерживает короткие текстовые подсказки и пример-подсказки, что делает взаимодействие более гибким и точным.

📌 Подробнее

2️⃣ SAM 3D - выводит всю линейку в трёхмерность.
Модель способна восстанавливать точные 3D-объекты и даже людей по одной 2D-картинке, что открывает новые возможности для графики, VR/AR и визуальных инструментов.

📌Подробнее

Обе модели дают разработчикам и исследователям новые возможности для создания медиа-инструментов, экспериментов и автоматизации рабочих процессов.
👍95🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?

Если подумали исключительно про цифры, то зря 🙂

Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:

✍️ Рассказывают о рабочих буднях

✍️ Хвастаются успехами и вспоминают фейлы

✍️ Постят мемы

✍️ Запускают опросы и собирают бинго

✍️ Шутят

✍️ Делятся лайфхаками

✍️ Создают серьёзные посты про аналитику

✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать

Подписывайтесь на канал и читайте недушную аналитику 😉
🥱62
PINA теперь официально входит в PyTorch Ecosystem — и приносит в него единый фреймворк для Scientific Machine Learning.

PINA — это открытая Python-библиотека, построенная на PyTorch и PyTorch Lightning, с совместимостью с PyTorch Geometric. Она упрощает весь SciML-пайплайн: от моделирования физических систем и решения PDE до построения ML-силовых полей и симуляции динамики.

Фреймворк модульный: чёткая структура для постановки задачи, дизайна модели, выбора солвера и обучения. Это даёт гибкость для исследования и воспроизводимость для инженерии.

🔗 Подробнее о проекте и способах участия:
https://pytorch.org/blog/pina-joins-the-pytorch-ecosystem-a-unified-framework-for-scientific-machine-learning/

#PyTorch #OpenSourceAI #SciML #MachineLearning
11🔥9🥰2
Пока одни строят сложные data-инфраструктуры, другие до сих пор сталкиваются с «вечными» задержками отчётов и расхождениями в цифрах.

Специально для таких ситуаций создали бота, который с иронией помогает подобрать креативные объяснения, когда данные из разных систем отказываются складываться в единую картину, а отчётность снова задерживается.

Такой бот — отличный способ снять напряжение в команде, когда нужно срочно объяснить расхождения в данных. Возможно, именно его ответы станут самым честным комментарием к вашей следующей отчётности. Зайдите и сгенерируйте оправдание — самое меткое сразу отправляйте коллегам в рабочий чат. Пусть оценят, как можно с юмором выходить из сложных ситуаций с отчётностью.
👍4🤣21🥴1
Media is too big
VIEW IN TELEGRAM
✔️ HunyuanVideo 1.5 - новая открытая модель для генерации видео, которая сейчас считается самым сильным open-source решением в этой области.

Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.

Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией

SOTA-качество с очень низкими требованиями к железу.

🟠Проект: hunyuan.tencent.com/video/zh
🟠GitHub: github.com/Tencent-Hunyuan/HunyuanVideo-1.5
🟠Hugging Face: huggingface.co/tencent/HunyuanVideo-1.5

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🔥1