Анализ данных (Data analysis)
46.8K subscribers
2.5K photos
286 videos
1 file
2.18K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📘 На Stepik вышел курс — «MLOps с нуля: как довести модель до продакшна» 

Начинаете путь в MLOps и хотите понять, как перевести ML-модель из ноутбука в реальный продукт? Этот курс — именно то, что нужно.

🔍 Что вы получите:
• Понимание полного жизненного цикла ML-модели: от обучения до мониторинга
• Практику с современными инструментами: Docker, Kubernetes, CI/CD, MLflow
• Опыт построения воспроизводимых пайплайнов и управления экспериментами
• Навыки автоматизации и работы с инфраструктурой для реального продакшна

🎓 Сертификат по завершении — добавьте его в резюме или профиль LinkedIn

🚀 Сделайте шаг к профессии MLOps-инженера. Начните уже сегодня и получите скидку 30%, которая действительна в течение 24 часов

👉 Пройти курс на Stepik
👍118🔥4
🧠 Представлен новый бенчмарк OptimalThinkingBench — тест, который показывает, когда LLM «думают слишком много» или «слишком мало».

В чём идея
- У reasoning-моделей: болтовня и лишние шаги даже на простых вопросах.
- У быстрых моделей: пропуск шагов и ошибки на сложных задачах.

Как устроен бенчмарк
- 2 части:
1. Простые вопросы → проверка переосмысления (overthinking).
2. Сложные задачи → проверка недоосмысления (underthinking).
- Метрика: точность при разных лимитах токенов, усреднение по бюджетам + точность на сложных задачах.
- Высокий балл возможен только при эффективности и правильности одновременно.

Результаты
- Тестировали 33 модели.
- Ни одна не сбалансировала обе стороны:
- «Думающие» тратили сотни токенов на простяках без прироста качества.
- «Быстрые» — проваливались на сложных задачах.

Попробованные фиксы
- ✂️ Штрафы за длину сокращают токены.
- 🔀 Роутер режимов помогает, но уступает оракулу, который всегда выбирает правильный режим.
- 📝 Подсказка *«do not overthink»* надёжно сокращает ответы на лёгких вопросах без потерь точности.

Доп. наблюдения
- Больше отвлекающих опций → модель думает дольше.
- Числовые формулировки → удлиняют рассуждения.
- Крупные модели → думают больше, но не всегда лучше.

📑 Полный текст: https://arxiv.org/abs/2508.13141

👉 OptimalThinkingBench помогает строить модели, которые экономят вычисления на простых задачах и тратят усилия на сложные.
👍124🔥3
🛠️ Улучшаем отладку с пользовательскими типами

Этот репозиторий помогает отображать пользовательские типы и контейнеры в отладчике LLDB, делая их более понятными. С помощью кастомных функций и синтетических провайдеров вы сможете легко видеть значения ваших объектов и контейнеров.

🚀Основные моменты:
- Поддержка пользовательских типов и контейнеров в LLDB.
- Использование Python для настройки отображения.
- Примеры для классов и контейнеров, таких как example::date и example::span.
- Удобное взаимодействие с отладчиком через .lldbinit.

📌 GitHub: https://github.com/codeinred/lldb_user_types

#python
13🔥5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Сооснователь Anthropic поделился интересным фактом: 70–90% кода внутри компании уже пишется Claude.

Но это не значит, что кодеров собираются заменить.
Смысл в другом:
- Люди пишут меньше кода руками.
- Основная роль - управлять ИИ-системами, задавать направления, проверять качество.
- Программисты становятся «менеджерами» ИИ, распределяющими задачи и интегрирующими решения.

Так меняется сама суть профессии:
👉 не только «писать код», а строить системы вместе с ИИ.
👉 от ручного труда к стратегическому управлению.

Вопрос только один:
готовы ли мы к роли «дирижёров», где ИИ - это оркестр? 🎼
👍32🥴86🔥5💯1
58 минут на то, чтобы понять, что нужно удалить, 2 минуты на фикс, как настоящий разработчик.
👍357🔥5😁5🤣5
🧬 Как AI изменит биологию к 2030 году

Учёные построили прогноз по трём ключевым задачам.

🔹 Белок + лекарство (PoseBusters-v2)
Задача: понять, как молекула лекарства «садится» на белок.
AI уже показывает высокую точность → такие задачи будут решены в ближайшие годы.

🔹 Лабораторные протоколы (ProtocolQA)
Вопросы вроде: *как правильно поставить эксперимент, что делать на следующем шаге?*
Кривая растёт быстро → к 2030 AI сможет уверенно подсказывать, как работать в лаборатории.

🔹 Белок + белок
Самый сложный вызов.
Прогнозировать взаимодействие любых двух белков пока получается с большим числом ошибок.
Даже к 2030 результат остаётся под вопросом.

⚡️ Вывод
- К 2030 AI наверняка справится с докингом молекул и помощью в лаборатории.
- Но загадка взаимодействия белков останется нерешённой.

AI станет реальным инструментом для биомедицины, но до полного понимания живых систем ещё далеко.

https://epoch.ai/blog/what-will-ai-look-like-in-2030
10👍4🔥3
🚀 Xai представили новый Grok-4 fast — дешёвый, быстрый и с контекстом в 2 млн токенов 🔥

🧠 Архитектура объединяет режимы рассуждений и обычной генерации в одной модели.

Это означает, что можно обрабатывать простые запросы, не тратя лишние вычислительные ресурсы.

💲 Цены радуют:
- Ввод: $0.20 / 1M токенов (fast) и $0.40 / 1M (full)
- Вывод: $0.50 / 1M токенов (fast) и $1.00 / 1M (full)

Дешево, быстро и с огромным контекстом.

https://x.com/xai/status/1969183326389858448

#ai #grok
14👍2🔥2
📘 Introduction to Machine Learning* (Laurent Younes)

Что внутри:
- 📐 Математический фундамент: анализ, линейная алгебра, теория вероятностей
- Оптимизация: SGD, проксимальные методы и др.
- 🤖 Алгоритмы с учителем: линейные модели, SVM, деревья, бустинг, нейросети
- 🎲 Генеративные модели: MCMC, графические модели, вариационные подходы, GAN
- 🔎 Без учителя: кластеризация, PCA, факторный анализ, обучение на многообразиях
- 📊 Теория: неравения концентрации, обобщающая способность моделей

Фундаментальный учебник, который соединяет математику и практику ML.

👉 https://arxiv.org/abs/2409.02668

#MachineLearning #DeepLearning #Mathematics #DataScience #DataScientist
🔥159👍7
⚡️Мы часто говорим об AGI так, будто это просто технологическая гонка. Но что произойдет, когда машины смогут делать всё, что сегодня считается работой?

Новый доклад NBER показывает: в мире с AGI человеческий труд перестаёт быть узким местом для роста — им становится лишь вычислительная мощность.

Это значит, что профессии, на которых строится наше нынешнее благосостояние, могут потерять экономический смысл. Те, кто владеет компьютерами, будут определять, кому достанется процветание.

Главный вопрос: что будет значить работа, когда её экономическая необходимость исчезнет? И речь идёт не о далёком будущем, а о сдвиге, который формируется уже сейчас.

Сильные стороны и ограничения


+ Полезная теоретическая работа, позволяющая формализовать идеи о будущем с AGI: что именно может стать автоматизированным, каковы условия, при которых автоматизация происходит, и как меняются распределение доходов и роль труда.
+ Привязка к росту compute (вычислительных ресурсов) как ключевого фактора — отражает реальные технологические тенденции.

− Очень абстрактная модель: многие параметры и допущения (темп роста compute, стоимость автоматизации, «ценность» человеческого труда, предпочтения) остаются неопределёнными.
− Не учитываются многие реальные ограничения: политические, социальные, институционные; также проблемы безопасности, этики, доступности технологий.
− Не фокусируется на трансформации распределения внутри стран, регионов, между группами — реальная динамика может быть более сложной.

🟠 Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍7🔥3
🚀 LongCat-Flash-Thinking от Meituan

Главное
- Размер: 560 миллиардов параметров, но работает только часть (~27B), поэтому инференс быстрее и дешевле.
- Технология ScMoE (Shortcut-Connected MoE) позволяет совмещать вычисления и обмен данными, уменьшая задержку.
- Поддерживает контекст до 128k токенов — можно обрабатывать очень длинные документы.
- Обучалась на 20+ триллионах токенов всего за месяц.
- Скорость инференса: 100+ токенов в секунду.
- Лицензия: MIT.
- Поддерживает работу с агентами (agentic tasks).
- Модель хороша в программировании и рассуждениях.
- На бенчмарке результаты на уровне топовых моделей.

LongCat-Flash доказывает, что даже модель на сотни миллиардов параметров может быть быстрой и практичной.


🔗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
10🔥4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🐐 В 2009 году Дженсен Хуанг объяснял, что такое CUDA, и прикидывал её рынок.
Тогда акции NVIDIA стоили всего около $0.20 за штуку (с учётом сплитов).

💰 Если бы ты вложил $10,000 тогда, сегодня это было бы около $8.8 млн.

Вот почему Дженсена называют GOAT.
👍199🔥5🙏1
🚀 Хотите ускорить обучение в PyTorch в несколько раз?
У DataLoader есть два плохих дефолта, которые тормозят процесс.
Исправив их, я получил почти 5x ускорение.

Проблема
- .to(device) переносит данные на GPU.
- Пока GPU считает - CPU ничего не делает.
- Пока CPU готовит данные — GPU простаивает.

Решение
Нужно заставить CPU и GPU работать параллельно:
- В DataLoader укажи pin_memory=True
- При переносе данных используй .to(device, non_blocking=True)
- Добавь num_workers в DataLoader для фоновой загрузки.

В итоге CPU готовит следующий батч, пока GPU занят текущим.
Так исчезают простои, и обучение идёт заметно быстрее.
29👍11🔥4🥰1
Media is too big
VIEW IN TELEGRAM
🤖 Почему роботы Unitree так быстро стали одними из лучших?

На самом деле - не «вдруг». Секрет в том, что компания не закрылась в себе:
- они продают железо и открывают SDK,
- сами роботы «из коробки» почти бесполезны, но дают полный контроль разработчикам.

Благодаря этому Unitree стала популярной платформой для исследований и разработок, вокруг которой выросло активное сообщество. Результат - G1 сегодня на порядок лучше, чем мог бы быть, если бы компания развивала всё только внутри себя.

Многие хардварные компании с амбициями на «комьюнити-продукты» (роботы, AR-очки и др.) выбирают путь закрытых экосистем. Но такая жадность оборачивается тем, что их решения быстро уступают открытым платформам вроде Unitree G1.
113👍7🔥4
🔥 Ваши данные стоят слишком дорого, чтобы ими рисковать

Positive Technologies 8 октября запустит новый продукт — PT Data Security. Он создан, чтобы вовремя выявлять угрозы и предотвращать утечки, пока они не привели к кризису.

На онлайн-трансляции вы первыми узнаете:

— Какие задачи и риски сегодня определяют настоящее и будущее рынка защиты данных.
— Какие вызовы стоят перед компаниями на рынке защиты данных.
— Почему Positive Technologies выходит на рынок защиты данных с новым подходом.

🕒 15:00 мск
📍 Онлайн
👉 Регистрация
1🤩1
📢 NVIDIA представила nvmath-python — библиотеку для Python, которая открывает доступ к возможностям фирменных математических библиотек (например, cuBLASLt) через удобный API.

Что умеет:
- работает с массивами из NumPy, CuPy, PyTorch и других экосистем;
- поддерживает тонкую настройку вычислений (precision, режимы умножений, epilog-операции);
- позволяет использовать расширенные оптимизации NVIDIA для ускоренной математики и ML-задач.

Проект пока в бета-версии, но уже можно попробовать:
https://github.com/NVIDIA/nvmath-python
11👍10🔥3🤔1
⚡️ Сэм Альтман опубликовал новый блог-пост «Abundant Intelligence».

Главная мысль: при доступе к 10 гигаваттам вычислений ИИ может приблизиться к решению величайших задач, например, поиску лекарства от рака.

OpenAI видит будущее как «фабрику» ИИ-инфраструктуры, способную выпускать по 1 ГВт новых мощностей каждую неделю.

Альтман сравнивает это с космической программой Apollo, только теперь цель не космос, а создание избыточного интеллекта.

https://blog.samaltman.com/abundant-intelligence
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣18👍109🔥4🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Сэм Альтман о будущем ИИ-инфраструктуры

Глава OpenAI объяснил, почему компания делает ставку на строительство гигантских дата-центров для ИИ.

По его словам, через год-два масштабные модели могут требовать 10 ГВт вычислений. В такой ситуации придётся выбирать: использовать эти мощности для исследований по лечению рака или, например, для создания бесплатного образования для всего мира.

Чтобы не стоять перед выбором «или-или», OpenAI инвестирует в ещё большую инфраструктуру - так, чтобы человечество могло позволить себе и медицинские прорывы, и доступное обучение для всех.
👍1611🔥3
📰 На Yandex Neuro Scale 2025 представили обновлённую AI Studio

Платформа позволяет собирать ИИ-агентов без навыков разработки: от голосовых ассистентов на базе realtime API до мультиагентных систем и инструментов вроде AI Search. При желании на платформе можно запустить и самостоятельно написанного агента.

Встроены готовые решения — Нейроюрист, SpeechSense, инструмент для протоколирования встреч. Для агентов доступны быстрые интеграции по шаблону через MCP Hub – там уже доступны Контур.Фокус и amoCRM, вскоре появятся и сервисы Яндекса.
🔥86👍5
🚀 GitHub запустил публичное превью GPT-5-Codex для Copilot

OpenAI представила новую модель GPT-5-Codex, оптимизированную под программирование и агентные задачи.

Она доступна пользователям GitHub Copilot в публичном превью.

Модель можно выбрать прямо в VS Code в режимах Ask, Edit и Agent, но только начиная с версии Copilot v1.104.1. Доступ распространяется на тарифы Pro, Pro+, Business и Enterprise, при этом в бизнес- и корпоративных планах администратор должен включить поддержку GPT-5-Codex в настройках.

https://github.blog/changelog/2025-09-23-openai-gpt-5-codex-is-rolling-out-in-public-preview-for-github-copilot/
6👍3🔥2