Анализ данных (Data analysis)
47.1K subscribers
2.64K photos
304 videos
1 file
2.29K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Утекли бенчмарки Gemini 3.0 Pro от taker_of_whizz —пока не можем подтвердить подлинность, но цифры просто безумные.

Результаты разрывают всё, что мы видели раньше:

🔥 HLE: 37,5%
🔥 MathArena Apex: 22,3%
(для сравнения — **GPT-5.1 всего 1,0%**)

Если утечка реальна, Gemini 3.0 Pro именно такой, каким все его и хотели видеть — мощный, продвинутый и с невероятным ростом математических и логических способностей.

Ждём официального подтверждения, но выглядит *очень* многообещающе.

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
11🔥6🤣3👍2👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️

28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.

На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.

Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.

Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
43🔥3🤩1
⚡️ Helion - новый высокоуровневый DSL для быстрых и переносимых ML-ядер

Helion - это DSL внутри Python, который компилируется в оптимизированные Triton-ядра. Он сочетает привычный стиль PyTorch с автоматическим тюнингом, давая разработчикам производительные и переносимые ядра под разные архитектуры.

Что делает Helion полезным:
- Автоматически обрабатывает индексацию тензоров
- Управляет памятью и оптимальными доступами
- Подбирает настройки под конкретное железо
- Позволяет писать ядра на уровне «как в PyTorch», а получать код уровня Triton

Итог: разработчик пишет минимум — Helion делает максимум, превращая простое описание вычислений в эффективно оптимизированное ядро.

Подробнее в блоге PyTorch: pytorch.org/blog/helion/
9🔥4👍3
5 ФАТАЛЬНЫХ ОШИБОК В ГРАФИКАХ, КОТОРЫЕ ПОДРЫВАЮТ ДОВЕРИЕ К ВАШЕМУ АНАЛИЗУ

Забирайте гайд с разбором основных ошибок в канале Сделай это красиво. Автор — Алексей Смагин, дата-журналист и аналитик Яндекса.

ГАЙД ПОДОЙДЁТ:

— аналитикам данных и продуктовым аналитикам
— научным сотрудникам и исследователям
— руководителям, которые работают с отчётностью
— всем, кто делает презентации с графиками

Умение анализировать — это круто. Но заказчики не видят вашу работу, они видят итоговые выводы. А от их оформления зависит, оценят ли результат.

Научиться делать графики — это быстро и легко. Достаточно исключить базовые ошибки — и ваша инфографика сразу будет выглядеть профессиональнее.

Подписывайтесь и забирайте гайд в закрепе:
https://t.iss.one/+MrupeY943_QwNzZi
🤣92
Gelato - библиотека для управления вычислительными графами в ML

Проект Gelato от mlfoundations - это минималистичная библиотека, которая помогает собирать, анализировать и оптимизировать вычислительные графы в машинном обучении. Она упрощает разбор сложных пайплайнов, позволяет визуализировать зависимости и управлять вычислениями на уровне узлов.

Особенности:
- понятное представление графа любой ML-модели
- удобные инструменты для модификации, оптимизации и анализа
- подходит для экспериментов с новым дизайном моделей и кастомными связями
- лёгкая интеграция в существующие проекты

Полезна, если вы работаете с нетривиальными архитектурами, хотите экспериментировать с изменением структуры модели или анализировать узкие места в вычислениях.

💥 Blog: https://github.com/mlfoundations/Gelato
🍨Gelato-30B-A3B (Model): https://huggingface.co/mlfoundations/Gelato-30B-A3B
🖱️Click-100k (Data): https://huggingface.co/datasets/mlfoundations/Click-100k
12👍3🔥3👏1
🔥 DR Tulu‑8B - открытая модель глубокого научного анализа, способная конкурировать с OpenAI DR, и всё это при размере всего 8B параметров!

В чём секрет? Новый подход - Reinforcement Learning with Evolving Rubrics (RLER) для длинных, непроверяемых задач.

💡 Вместо статичных оценок:
• Рубрики эволюционируют вместе с моделью
• Используют знания из поиска
• Извлекают новую информацию прямо в процессе обучения

📊 Результаты:
• DR Tulu‑8B сопоставим с OpenAI DR
• Превзошёл все open-source DR-модели
• Стоимость — ~$0.00008 за запрос (против >$1 у OpenAI)

💥 Обучение в два этапа: SFT → RL
Тест на 4 сложных бенчмарках и новый медицинский GeneticDiseasesQA (в сотрудничестве с клиницистами) — результат лучше, чем у OpenAI DR и AI2 ScholarQA (Claude).

Открытая методика, реальный импакт.
ИИ, который *сам учится исследовать*.

- Paper: https://allenai-web/papers/drtulu
- Data & Model: https://huggingface.co/collections/rl-research/dr-tulu
- Code: https://github.com/rlresearch/dr-tulu
🔥128👍41
🚀 ASystem открыл исходники Awex - самого быстрого фреймворка для синхронизации весов в RL.

Awex решает ключевую проблему современной RL-инфраструктуры — синхронизацию параметров моделей с объёмом до 1 трлн весов на тысячах GPU меньше чем за 6 секунд.

Это снимает одно из главных узких мест при масштабировании обучения и ускоряет циклы RL на порядки.

ASystem готовит серию материалов о лучших практиках построения RL-систем в ближайшие 5-6 недель. Будет разбор архитектуры, оптимизаций и инженерных решений.

Добро пожаловать в комьюнити ASystem.

📦 GitHub: https://github.com/inclusionAI/asystem-awex
🤗 Hugging Face: https://huggingface.co/inclusionAI
🤖 ModelScope: https://modelscope.cn/models/inclusionAI

@data_analysis_ml
👍64🔥4
🎯 Как взять качество данных под контроль? 

Неточные отчёты, дубликаты в базах, несоответствия данных - всё это тормозит бизнес и подрывает доверие к аналитике. Если вы хотите стать экспертом в управлении качеством данных и повысить свою ценность на рынке, новый курс «Data Quality» от OTUS - то, что нужно!

📚 Что вас ждёт на курсе:
✔️ Автоматизация контроля качества с помощью Soda, OpenMetadata, Airflow, NiFi
✔️ Построение системы Data Governance - от метаданных до Data Contracts
✔️ Метрики и профилирование данных - научитесь измерять и улучшать качество
✔️ Управление инцидентами и соответствие регуляторным требованиям 
✔️ Практические проекты, которые можно добавить в портфолио

🎓 Формат обучения:
📅 Старт: 26 ноября
💻 Онлайн с практическими заданиями и обратной связью от экспертов

👉 Узнать подробности и записаться: https://tglink.io/93cc483c4086?erid=2W5zFJBnBnY

#реклама
О рекламодателе
2🥴2
This media is not supported in your browser
VIEW IN TELEGRAM
Нновое поколение моделей Segment Anything:

1️⃣ SAM 3 - теперь умеет находить, сегментировать и отслеживать объекты на изображениях и видео.
Модель поддерживает короткие текстовые подсказки и пример-подсказки, что делает взаимодействие более гибким и точным.

📌 Подробнее

2️⃣ SAM 3D - выводит всю линейку в трёхмерность.
Модель способна восстанавливать точные 3D-объекты и даже людей по одной 2D-картинке, что открывает новые возможности для графики, VR/AR и визуальных инструментов.

📌Подробнее

Обе модели дают разработчикам и исследователям новые возможности для создания медиа-инструментов, экспериментов и автоматизации рабочих процессов.
👍95🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?

Если подумали исключительно про цифры, то зря 🙂

Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:

✍️ Рассказывают о рабочих буднях

✍️ Хвастаются успехами и вспоминают фейлы

✍️ Постят мемы

✍️ Запускают опросы и собирают бинго

✍️ Шутят

✍️ Делятся лайфхаками

✍️ Создают серьёзные посты про аналитику

✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать

Подписывайтесь на канал и читайте недушную аналитику 😉
🥱52
PINA теперь официально входит в PyTorch Ecosystem — и приносит в него единый фреймворк для Scientific Machine Learning.

PINA — это открытая Python-библиотека, построенная на PyTorch и PyTorch Lightning, с совместимостью с PyTorch Geometric. Она упрощает весь SciML-пайплайн: от моделирования физических систем и решения PDE до построения ML-силовых полей и симуляции динамики.

Фреймворк модульный: чёткая структура для постановки задачи, дизайна модели, выбора солвера и обучения. Это даёт гибкость для исследования и воспроизводимость для инженерии.

🔗 Подробнее о проекте и способах участия:
https://pytorch.org/blog/pina-joins-the-pytorch-ecosystem-a-unified-framework-for-scientific-machine-learning/

#PyTorch #OpenSourceAI #SciML #MachineLearning
9🔥7🥰2
Пока одни строят сложные data-инфраструктуры, другие до сих пор сталкиваются с «вечными» задержками отчётов и расхождениями в цифрах.

Специально для таких ситуаций создали бота, который с иронией помогает подобрать креативные объяснения, когда данные из разных систем отказываются складываться в единую картину, а отчётность снова задерживается.

Такой бот — отличный способ снять напряжение в команде, когда нужно срочно объяснить расхождения в данных. Возможно, именно его ответы станут самым честным комментарием к вашей следующей отчётности. Зайдите и сгенерируйте оправдание — самое меткое сразу отправляйте коллегам в рабочий чат. Пусть оценят, как можно с юмором выходить из сложных ситуаций с отчётностью.
👍4🤣2🥴1
Media is too big
VIEW IN TELEGRAM
✔️ HunyuanVideo 1.5 - новая открытая модель для генерации видео, которая сейчас считается самым сильным open-source решением в этой области.

Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.

Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией

SOTA-качество с очень низкими требованиями к железу.

🟠Проект: hunyuan.tencent.com/video/zh
🟠GitHub: github.com/Tencent-Hunyuan/HunyuanVideo-1.5
🟠Hugging Face: huggingface.co/tencent/HunyuanVideo-1.5

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥1
🤟 Google усиливает свои позиции и сокращает отрыв OpenAI

Сам Альтман признал: прогресс Google - особенно впечатляющие результаты Gemini 3 - создают краткосрочное давление на OpenAI.

Когда-то уверенное лидерство OpenAI заметно ослабло. Google и Anthropic активно усиливаются, в то время как OpenAI сталкивается с огромными затратами на вычислительные мощности, что вызывает беспокойство у инвесторов.

Альтман при этом уверен, что в долгосрочной перспективе OpenAI снова выйдет вперёд. Он ставит на новые модели вроде Shallotpeat, улучшения в этапах предобучения и масштабную автоматизацию, которая должна привести к следующему ряду прорывов.

Из внутреннего письма:

“Не хочу, чтобы это звучало негативно — мы по-прежнему показываем выдающиеся результаты как компания… и я ожидаю, что это продолжится.”


И финальная мысль Альтмана:

“Да, тяжело одновременно быть лучшей исследовательской лабораторией, лучшей AI-инфраструктурной компанией и лучшей продуктовой AI-платформой, но такова наша реальность. И я бы не променял наши позиции ни на чьи :)”

https://www.theinformation.com/articles/openai-ceo-braces-possible-economic-headwinds-catching-resurgent-google
10👍3🥴3👏2