Анализ данных (Data analysis)
46.9K subscribers
2.49K photos
286 videos
1 file
2.17K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🔥 Курс по AI-агентам уже стартовал!

Сегодня, 15 сентября, мы начали первую сессии. Но вы всё ещё можете присоединиться и успеть в поток — это ПОСЛЕДНИЙ шанс забронировать место по старой цене.

На курсе:


разложим LLM по косточкам: токенизация, SFT, PEFT, инференс;
соберём RAG и научимся оценивать его адекватно;
построим настоящую мультиагентную систему — архитектуру, которая умеет расти;
разберём CoPilot, сломаем через prompt injection (спасибо Максу);
— и наконец, посмотрим, как это работает в MCP и реальных кейсах.

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями.

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API».

Промокод на 5.000₽: DATAANALYSISML

👉 Курс здесь

Реклама. ИП Дрёмов Артём Сергеевич, ИНН 771391651571. Erid 2VtzqxQEXpY
9👍2🔥2😁1
🔥 agency-swarm — проект, связанный с моделированием многагентных систем с использованием методов искусственного интеллекта!

🌟 Проект ориентирован на создание среды, где множество агентов могут взаимодействовать друг с другом, сотрудничать или конкурировать для достижения определенных целей.

🌟 Основная цель agency-swarm — это исследование и реализация агентных систем, где каждый агент может быть автономным и выполнять задачи в рамках заданной среды. Такие системы часто используются для симуляции поведения групп людей, животных или даже для оптимизации процессов, например, в логистике, робототехнике или при моделировании социальных взаимодействий.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥1
🚀 Release: TimesFM 2.5

Google Research представила обновлённую версию TimesFM 2.5 на Hugging Face (скоро также в BigQuery и **Model Garden**).

TimesFM (Time Series Foundation Model) - модель от Google для прогнозирования временных рядов.

Что нового:
- Существенное повышение точности по сравнению с TimesFM 2.0
- Увеличенная максимальная длина контекста
- Лидерство на GiFT-Eval — TimesFM 2.5 занимает первое место по всем accuracy-метрикам среди zero-shot foundation-моделей

🟠Репозиторий: https://github.com/google-research/timesfm)
🟠HF: https://huggingface.co/google/timesfm-2.5-200m-pytorch

@data_analysis_ml

#AI #ML #TimesFM #forecasting #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥6👍4
🇺🇸🇨🇳 Anthropic призывает США ускорить внедрение ИИ в госструктурах

Компания предупреждает: Китай быстрее продвигает AI в госуслугах, промышленности и интерфейсах для граждан, и США не должны отставать.

📌 Главное:

Уже сотни тысяч федеральных сотрудников используют Claude, но темпы внедрения нужно ускорить.

Anthropic предлагает Claude for Enterprise и Claude for Government всего за $1 на год по программе OneGov.

Аналогичные скидки дают и другие AI-компании, чтобы агентства могли протестировать разные стеки без больших затрат.

Claude уже используют в национальной безопасности, в Lawrence Livermore National Lab и в пилотах с Пентагоном.

Система сертифицирована по FedRAMP High, что позволяет работать с конфиденциальными данными.

Anthropic также предлагает ввести экспортные ограничения и базовые требования к прозрачности — публикацию результатов тестов и оценок моделей.

🛡️ Вся стратегия компании сводится к ускорению рабочих процессов, защищённым путям данных, проверенным контролям безопасности и интеграции ИИ в уже существующие системы.

fedscoop.com/anthropic-makes-its-pitch-to-dc-warning-china-is-moving-even-faster-on-ai/
10🤣5👍3🔥3💔2
📊 Fiverr сокращает 250 сотрудников (около 30% штата), чтобы перезапустить платформу как первый AI маркетплейс.

Руководство объясняет: внутренние ИИ-системы уже автоматизируют значительные объёмы задач, позволяя работать быстрее с меньшими затратами.

Примеры:

- поддержка через ботов, которые резюмируют политику и историю тикетов, сокращая время SLA,
- модели для выявления мошенничества на раннем этапе,
- автоматизация процессов, которые раньше были слишком затратны вручную.

Компания уходит в сторону «более лёгкой структуры» — меньше уровней, компактные команды, выше личная продуктивность при поддержке общей AI-инфраструктуры.

Фокус найма смещается к AI-native специалистам. Существующие команды переучивают на задачи: построение дата-пайплайнов, оценка моделей, поддержка стабильных inference-сервисов.

Уже запущенные AI-функции: Neo, Fiverr Go и Dynamic Matching — ускоряют поиск, упрощают старт проектов и улучшают маршрутизацию заказчиков и исполнителей.

Финансово компания стабильна: прогноз выручки 2025 — $425M–$438M, цель по операционной марже — 25% к 2026. Экономия частично пойдёт в реинвестирование, остальное — в рост прибыльности.

Подробнее: finalroundai.com/blog/fiverr-layoffs-2025
14🤨8🔥4👍2🕊1🥱1🍌1
Grok 5 может стать AGI, считает Илон Маск — и это нельзя недооценивать.

🔹 Модель обучается на огромных массивах данных.
🔹 xAI снабжает её свежей и тщательно отобранной информацией.
🔹 Tesla генерирует данные с камер автопилота FSD.
🔹 В ближайшем будущем робот Optimus начнёт собирать колоссальные объёмы реальных данных из физического мира.

При этом остаётся главный вопрос: что именно считать AGI? Универсальное и согласованное определение всё ещё необходимо.

https://x.com/elonmusk/status/1968202372276163029
🤣26🔥85👍2😁2
ИИ-ассистенты уже стали нормой для разработчиков

Свежий отчёт от Yandex B2B Tech и ИТМО:

75 % dev’ов используют AI-помощников для кода, документации и поиска багов 🔥

Несколько цифр:
— лишь 6 % верят, что ИИ сможет полностью автоматизировать задачи;
— 61 % ждут разгрузки рутины, а не полной замены;
— 79 % считают, что влияние сильнее всего на джуниоров.

Появляется новый must-have навык: работа с ассистентами.

Компании планируют вкладывать до 10 % IT-бюджета в инструменты с AI, а интерес к отечественным решениям (например, SourceCraft) растёт — безопасность и независимость стали важнее.
79 % студентов и половина преподавателей уже пользуются AI в обучении.
10👍3🔥2
🚀 Техотчёт Meituan — LongCat-Flash

Модель на 560B параметров (из них ~27B активные) с архитектурой MoE, где число активных экспертов динамически подстраивается под контекст.

🔧 Архитектура
- Каждый слой содержит 2 блока внимания + FFN и MoE → коммуникации накладываются и ускоряют обучение.
- Введён «нулевой эксперт» — токен может выбрать «ничего не делать». Это экономит вычисления для простых случаев.
- Балансировка нагрузки через специальный loss с постепенным уменьшением смещения.

📈 Масштабирование
- Инициализация с выравниванием дисперсий для MoE/MLA → модель обучается стабильнее.
- Growth init: сначала тренируется уменьшенная версия (в 2 раза меньше), потом на её основе строят полную модель, просто добавляя слои.
- Передача гиперпараметров через метод SP (вместо muP).

⚖️ Стабильность

- Следят за отношением нормы градиента и схожестью экспертов, чтобы не «завалить» балансировку.
- Для сдерживания активаций используется лёгкий z-loss (альтернатива qk-clip).
- Параметр Adam epsilon снижен до 1e-16, чтобы быть меньше диапазона градиентов.

### 📚 Обучение
- Всего обучено на ~20 трлн токенов + отдельные фазы:
- STEM/код (70% смеси)
- расширение контекста: 80B токенов для 32k и 20B для 128k
- Данные: извлечение контекста → фильтрация → дедупликация.

🧪 Бенчмарки и результаты
- Новые тесты: Meeseeks (многошаговые инструкции) и VitaBench (реальные бизнес-сценарии).
- Отдельно показали:
- какие top_k лучше для разных задач
- как токены распределяются по слоям
- В инфре: оптимизация под inference, speculative decoding, квантизация, параллельные коммуникации.

📌 Репозиторий: github.com/meituan-longcat
🔥65👍4
📊 93,9% специалистов по машинному обучению используют большие языковые модели в работе, более трети (31,5%) доверяют им написание кода, — следует из исследования технологической платформы Авито и Хабра.

📌 Главное:

— LLM применяются не только для программирования, но и для поиска информации, генерации идей, анализа данных.

— Лишь 6,1% разработчиков пока обходятся без таких инструментов.

— Половина респондентов воспринимают ИИ как полезного ассистента, экономящего время.

— ИИ меняет сам подход к разработке: помогает ускорять создание алгоритмов, сокращает барьеры для входа в профессию и в перспективе способен предложить решения, до которых человек не додумался бы самостоятельно.

По словами Константина Мягких, директора по Data Science Авито, мир фактически вступает в эпоху саморазвивающихся систем: каждое новое поколение моделей рождается быстрее предыдущего, открывая путь к революции, где ИИ ускоряет собственное развитие.

Компании, которые смогут безопасно интегрировать ИИ в процессы, получат не просто преимущество в эффективности — они создадут условия для появления принципиально новых технологий. Авито, например, уже активно внедряет искусственный интеллект: компания создает собственную экосистему решений — от чат-бота на основе языковой модели A-Vibe до ИИ-портала для быстрого поиска информации.
👍94🔥1
📘 На Stepik вышел курс — «MLOps с нуля: как довести модель до продакшна» 

Начинаете путь в MLOps и хотите понять, как перевести ML-модель из ноутбука в реальный продукт? Этот курс — именно то, что нужно.

🔍 Что вы получите:
• Понимание полного жизненного цикла ML-модели: от обучения до мониторинга
• Практику с современными инструментами: Docker, Kubernetes, CI/CD, MLflow
• Опыт построения воспроизводимых пайплайнов и управления экспериментами
• Навыки автоматизации и работы с инфраструктурой для реального продакшна

🎓 Сертификат по завершении — добавьте его в резюме или профиль LinkedIn

🚀 Сделайте шаг к профессии MLOps-инженера. Начните уже сегодня и получите скидку 30%, которая действительна в течение 24 часов

👉 Пройти курс на Stepik
👍118🔥4
🧠 Представлен новый бенчмарк OptimalThinkingBench — тест, который показывает, когда LLM «думают слишком много» или «слишком мало».

В чём идея
- У reasoning-моделей: болтовня и лишние шаги даже на простых вопросах.
- У быстрых моделей: пропуск шагов и ошибки на сложных задачах.

Как устроен бенчмарк
- 2 части:
1. Простые вопросы → проверка переосмысления (overthinking).
2. Сложные задачи → проверка недоосмысления (underthinking).
- Метрика: точность при разных лимитах токенов, усреднение по бюджетам + точность на сложных задачах.
- Высокий балл возможен только при эффективности и правильности одновременно.

Результаты
- Тестировали 33 модели.
- Ни одна не сбалансировала обе стороны:
- «Думающие» тратили сотни токенов на простяках без прироста качества.
- «Быстрые» — проваливались на сложных задачах.

Попробованные фиксы
- ✂️ Штрафы за длину сокращают токены.
- 🔀 Роутер режимов помогает, но уступает оракулу, который всегда выбирает правильный режим.
- 📝 Подсказка *«do not overthink»* надёжно сокращает ответы на лёгких вопросах без потерь точности.

Доп. наблюдения
- Больше отвлекающих опций → модель думает дольше.
- Числовые формулировки → удлиняют рассуждения.
- Крупные модели → думают больше, но не всегда лучше.

📑 Полный текст: https://arxiv.org/abs/2508.13141

👉 OptimalThinkingBench помогает строить модели, которые экономят вычисления на простых задачах и тратят усилия на сложные.
👍124🔥3
🛠️ Улучшаем отладку с пользовательскими типами

Этот репозиторий помогает отображать пользовательские типы и контейнеры в отладчике LLDB, делая их более понятными. С помощью кастомных функций и синтетических провайдеров вы сможете легко видеть значения ваших объектов и контейнеров.

🚀Основные моменты:
- Поддержка пользовательских типов и контейнеров в LLDB.
- Использование Python для настройки отображения.
- Примеры для классов и контейнеров, таких как example::date и example::span.
- Удобное взаимодействие с отладчиком через .lldbinit.

📌 GitHub: https://github.com/codeinred/lldb_user_types

#python
13🔥5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Сооснователь Anthropic поделился интересным фактом: 70–90% кода внутри компании уже пишется Claude.

Но это не значит, что кодеров собираются заменить.
Смысл в другом:
- Люди пишут меньше кода руками.
- Основная роль - управлять ИИ-системами, задавать направления, проверять качество.
- Программисты становятся «менеджерами» ИИ, распределяющими задачи и интегрирующими решения.

Так меняется сама суть профессии:
👉 не только «писать код», а строить системы вместе с ИИ.
👉 от ручного труда к стратегическому управлению.

Вопрос только один:
готовы ли мы к роли «дирижёров», где ИИ - это оркестр? 🎼
👍32🥴86🔥5💯1
58 минут на то, чтобы понять, что нужно удалить, 2 минуты на фикс, как настоящий разработчик.
👍357🔥5😁5🤣5
🧬 Как AI изменит биологию к 2030 году

Учёные построили прогноз по трём ключевым задачам.

🔹 Белок + лекарство (PoseBusters-v2)
Задача: понять, как молекула лекарства «садится» на белок.
AI уже показывает высокую точность → такие задачи будут решены в ближайшие годы.

🔹 Лабораторные протоколы (ProtocolQA)
Вопросы вроде: *как правильно поставить эксперимент, что делать на следующем шаге?*
Кривая растёт быстро → к 2030 AI сможет уверенно подсказывать, как работать в лаборатории.

🔹 Белок + белок
Самый сложный вызов.
Прогнозировать взаимодействие любых двух белков пока получается с большим числом ошибок.
Даже к 2030 результат остаётся под вопросом.

⚡️ Вывод
- К 2030 AI наверняка справится с докингом молекул и помощью в лаборатории.
- Но загадка взаимодействия белков останется нерешённой.

AI станет реальным инструментом для биомедицины, но до полного понимания живых систем ещё далеко.

https://epoch.ai/blog/what-will-ai-look-like-in-2030
10👍4🔥3
🚀 Xai представили новый Grok-4 fast — дешёвый, быстрый и с контекстом в 2 млн токенов 🔥

🧠 Архитектура объединяет режимы рассуждений и обычной генерации в одной модели.

Это означает, что можно обрабатывать простые запросы, не тратя лишние вычислительные ресурсы.

💲 Цены радуют:
- Ввод: $0.20 / 1M токенов (fast) и $0.40 / 1M (full)
- Вывод: $0.50 / 1M токенов (fast) и $1.00 / 1M (full)

Дешево, быстро и с огромным контекстом.

https://x.com/xai/status/1969183326389858448

#ai #grok
14👍2🔥2
📘 Introduction to Machine Learning* (Laurent Younes)

Что внутри:
- 📐 Математический фундамент: анализ, линейная алгебра, теория вероятностей
- Оптимизация: SGD, проксимальные методы и др.
- 🤖 Алгоритмы с учителем: линейные модели, SVM, деревья, бустинг, нейросети
- 🎲 Генеративные модели: MCMC, графические модели, вариационные подходы, GAN
- 🔎 Без учителя: кластеризация, PCA, факторный анализ, обучение на многообразиях
- 📊 Теория: неравения концентрации, обобщающая способность моделей

Фундаментальный учебник, который соединяет математику и практику ML.

👉 https://arxiv.org/abs/2409.02668

#MachineLearning #DeepLearning #Mathematics #DataScience #DataScientist
🔥159👍7
⚡️Мы часто говорим об AGI так, будто это просто технологическая гонка. Но что произойдет, когда машины смогут делать всё, что сегодня считается работой?

Новый доклад NBER показывает: в мире с AGI человеческий труд перестаёт быть узким местом для роста — им становится лишь вычислительная мощность.

Это значит, что профессии, на которых строится наше нынешнее благосостояние, могут потерять экономический смысл. Те, кто владеет компьютерами, будут определять, кому достанется процветание.

Главный вопрос: что будет значить работа, когда её экономическая необходимость исчезнет? И речь идёт не о далёком будущем, а о сдвиге, который формируется уже сейчас.

Сильные стороны и ограничения


+ Полезная теоретическая работа, позволяющая формализовать идеи о будущем с AGI: что именно может стать автоматизированным, каковы условия, при которых автоматизация происходит, и как меняются распределение доходов и роль труда.
+ Привязка к росту compute (вычислительных ресурсов) как ключевого фактора — отражает реальные технологические тенденции.

− Очень абстрактная модель: многие параметры и допущения (темп роста compute, стоимость автоматизации, «ценность» человеческого труда, предпочтения) остаются неопределёнными.
− Не учитываются многие реальные ограничения: политические, социальные, институционные; также проблемы безопасности, этики, доступности технологий.
− Не фокусируется на трансформации распределения внутри стран, регионов, между группами — реальная динамика может быть более сложной.

🟠 Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍7🔥3
🚀 LongCat-Flash-Thinking от Meituan

Главное
- Размер: 560 миллиардов параметров, но работает только часть (~27B), поэтому инференс быстрее и дешевле.
- Технология ScMoE (Shortcut-Connected MoE) позволяет совмещать вычисления и обмен данными, уменьшая задержку.
- Поддерживает контекст до 128k токенов — можно обрабатывать очень длинные документы.
- Обучалась на 20+ триллионах токенов всего за месяц.
- Скорость инференса: 100+ токенов в секунду.
- Лицензия: MIT.
- Поддерживает работу с агентами (agentic tasks).
- Модель хороша в программировании и рассуждениях.
- На бенчмарке результаты на уровне топовых моделей.

LongCat-Flash доказывает, что даже модель на сотни миллиардов параметров может быть быстрой и практичной.


🔗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
10🔥4👍2