Анализ данных (Data analysis)
46.9K subscribers
2.52K photos
291 videos
1 file
2.2K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
💾 Генеральный директор Western Digital заявил, что жёсткие диски остаются центральным элементом хранения данных для ИИ: примерно 80% данных гиперскейлеров хранятся на HDD, 10% — на SSD и ещё 10% — на лентах.

Такое распределение объясняется экономикой и энергопотреблением: диски примерно в 5–6 раз дешевле SSD при больших объёмах и потребляют меньше ватт на терабайт.

В дата-центрах данные распределяют по уровням: «горячие» — на флэше, «тёплые и холодные» — на HDD, архивные — на ленте. Это оптимальный баланс стоимости и производительности.

Однако спрос на хранение для ИИ настолько вырос, что производители не успевают удовлетворять рынок: время ожидания дисков сверхвысокой ёмкости (32 ТБ+) растягивается от нескольких месяцев до года.

pcguide.com/news/hard-drives-far-from-obsolete-says-western-digital-ceo-and-ai-is-one-big-reason-why/
🔥108👍4
⚡️ Модель ModernVBERT с 250 млн параметров показывает результаты, сопоставимые или превосходящие модели, которые в 10 раз больше, в задачах поиска по документам.

Модель лидирует среди моделей до 1 млрд параметров и кодирует запросы в 7 раз быстрее на обычных CPU.

В отличие от декодеров, которые читают текст слева направо и не могут пересматривать ранние токены, ModernVBERT использует двунаправленный текстовый энкодер, обученный на маскировании слов, и небольшой визуальный модуль.

Каждое изображение страницы разбивается на патчи, которые отображаются в то же пространство, что и текст, а затем объединяются с токенами слов.

Механизм позднего взаимодействия (late interaction) сохраняет векторы всех токенов, позволяя каждому токену запроса находить наиболее точное соответствие. Эта комбинация двунаправленного внимания и позднего взаимодействия превосходит декодерные архитектуры при извлечении документов.

Более высокое разрешение страниц и короткая «high-resolution cooldown» фаза повышают точность поиска, хотя могут ухудшить работу с обычными изображениями. Добавление пар «только текст» в контрастивное обучение помогает модели эффективно объединять текстовое и визуальное пространство.

ColModernVBERT - остаётся компактной, демонстрирует высокие показатели на бенчмарках и работает эффективно даже на стандартных CPU.

Интересное чтиво: https://arxiv.org/abs/2510.01149
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥8👍5
🚀 Примеры и руководства по моделям DeepMind Gemini

Репозиторий содержит небольшие примеры, фрагменты кода и руководства, демонстрирующие эксперименты с моделями Gemini от Google DeepMind. Здесь вы найдете полезные образцы для интеграции и использования различных функций Gemini, включая работу с OpenAI SDK и Google Search.

🚀 Основные моменты:
- Примеры использования Gemini с OpenAI и Google Search
- Руководства по функциям и агентам
- Скрипты для работы с браузером и генерации контента
- Интеграция с LangChain и PydanticAI

📌 GitHub: https://github.com/philschmid/gemini-samples

#python
5👍5🔥3
🚀 NeuTTS Air - on-device TTS с мгновенным клонированием голоса

Это первая реалистичная модель синтеза речи, запускаемая на устройстве, без api.

Формат - GGML, что позволяет работать на телефонах, ноутбуках и даже на Raspberry Pi.
Клонирование голоса за 3 секунды: достаточно короткого аудиофрагмента, чтобы сконструировать голос для последующих синтезов.

Базируется на лёгком языковом ядре (0,5 B) + нейрокодек NeuCodec, что обеспечивает баланс между качеством и скоростью.
Генерируемые аудио отмечаются водяным знаком с помощью Perceptual Threshold Watermarker — для борьбы с злоупотреблениями.

GitHub: https://github.com/neuphonic/neutts-air
8🔥4👍2
🙂 Почему зрители привязываются к ИИ-стримерам и как это меняет взаимодействие

Исследование, в котором анализирует феномен Neuro-sama – виртуального стримера, полностью управляемого крупной языковой моделью.
Neuro-sama ведёт трансляции от лица анимированного аватара, общаясь с чатом в реальном времени без участия человека.

Исследователи использовали опросы, интервью и анализ логов чата, чтобы понять, как зрители открывают для себя ИИ-стримера, почему остаются и как формируется эмоциональная связь.

🧩 Ключевые наблюдения:
- Зрители приходят из любопытства: их привлекает новизна, скорость ответов и непредсказуемость поведения ИИ.
- Они остаются из-за эмоциональных моментов, которые создают чувство общности и групповую идентичность вокруг персонажа.
- Несмотря на осознание, что это программа, фанаты общаются с ИИ как с живым существом, формируя социальную привязанность.
- Для зрителей аутентичность = стабильность, а не человечность. Последовательное поведение и узнаваемая личность важнее реалистичных эмоций.
- В чате преобладают прямые вопросы и команды, превращая стрим в интерактивный тест ИИ.
- 85% платных сообщений используются, чтобы направлять поведение Neuro-sama, делая зрителей соавторами контента.

Основная дилемма:
Создателям нужно сохранять устойчивый характер персонажа, но при этом давать пространство для импровизации и неожиданности.
Слишком предсказуемый ИИ теряет интерес, но слишком изменчивый разрушает ощущение «личности».

В итоге такие проекты показывают, как человеческое восприятие аутентичности постепенно адаптируется: нам всё меньше нужна «реальность», и всё больше – постоянство и вовлечённость, даже если источник этой личности — алгоритм.

📌 Подробнее: https://arxiv.org/abs/2509.10427

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4
⚡️ Новые открытые модели стремительно сокращают разрыв с закрытыми флагманами в агентских задачах.

На бенчмарке Terminal-Bench Hard (кодинг и терминальные агенты) модели DeepSeek V3.2 Exp, Kimi K2 0905 и GLM-4.6 показали серьёзный рост - DeepSeek уже обогнал Gemini 2.5 Pro.

Это значит, что open-source-модели теперь становятся реальной альтернативой для агентных сценариев и разработки — выбор разработчиков шире, чем когда-либо.

Внизу - анализ цены и производительности ведущих провайдеров 👇

🟠DeepSeek V3.2 Exp: https://artificialanalysis.ai/models/deepseek-v3-2-reasoning/providers
🟠GLM-4.6: https://artificialanalysis.ai/models/glm-4-6-reasoning/providersKimi
🟠K2 0905: https://artificialanalysis.ai/models/kimi-k2-0905/providers
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍2
За 404 секунды можно понять, почему в комьюнити обсуждают MCP как следующий шаг в развитии open source

Model Context Protocol убирает хаос интеграций: теперь AI-агент может одинаково легко работать с IDE, таск-трекерами, базами данных и другими сервисами. Открытый стандарт делает экосистему разработки более прозрачной и управляемой.

В выпуске «404 секунды» — разбор MCP и того, как его уже поддержал SourceCraft, чтобы AI-агенты могли управлять полным циклом разработки: от кода и автотестов до деплоя в облако.

Подробности — в свежем выпуске на YouTube или VK Видео
4
🧠 ProofOfThought: LLM Reasoning with Z3 Theorem Prover

ProofOfThought leverages large language models (LLMs) for reasoning tasks using the Z3 theorem prover. It provides a high-level API for easy integration and batch evaluation of reasoning queries, making it suitable for various applications in AI and logic.

🚀Основные моменты:
- Использует LLM для логического вывода.
- Высокоуровневый API для упрощения взаимодействия.
- Поддержка пакетной оценки с метриками точности.
- Примеры использования с Azure OpenAI.

📌 GitHub: https://github.com/DebarghaG/proofofthought

#python
👍3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Твой шанс прокачаться в ИТ, получить карьерный буст и побороться за призовой фонд 10 250 000 рублей 💰 Успей зарегистрироваться до 20 октября.


МТС приглашает на True Tech Champ — всероссийский чемпионат по программированию. Соревнование будет проходить в двух треках.

Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]

Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.

Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]

Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы. Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.

📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.

🎁 Регистрация участников до 20 октября на сайте.
2
🛠 Нашёл интересный инструмент — Parlant

Это open-source фреймворк для создания LLM-агентов, где можно задавать чёткие правила их поведения. В отличие от обычных промптов, тут есть система «guidelines» — условия и действия, которые агент обязан выполнять. Например: *если пользователь спрашивает про погоду, сходи в этот тул и верни аккуратный ответ*.

Есть готовые модули для интеграции: чат-компонент на React, сервис для Q&A на базе FAQ и шаблон для подключения своих инструментов.

Понравилось, что подход более предсказуемый: агент меньше «галлюцинирует», проще контролировать стиль ответов и можно реально использовать в продакшне.

Код и примеры здесь 👉 https://github.com/emcie-co/parlant
5👍4🔥2
📘 На Stepik вышел курс — «ML-инженер: от первой модели до продакшена»

Хотите не просто натренировать модель в ноутбуке, а довести её до реального продукта? Этот курс — полный путь от основ до production.

• Математика и Python: линейная алгебра, статистика, NumPy, Pandas, визуализация (Matplotlib, Seaborn, Plotly)

• Классика ML: регрессия, KNN, деревья решений, Random Forest, SVM, Naive Bayes

• Ансамбли: XGBoost, LightGBM, CatBoost, подбор параметров (Optuna, Hyperopt), MLflow

• Deep Learning: PyTorch и TensorFlow/Keras, CNN, RNN/LSTM, Attention, Transfer Learning

• Работа с данными: парсинг (BeautifulSoup, Scrapy), SQL/API, feature engineering

• Продвинутые задачи: рекомендательные системы, временные ряды (ARIMA, Prophet), SHAP и LIME

• MLOps: FastAPI, Docker, деплой в облако, мониторинг моделей

• Подготовка к собеседованиям: технические вопросы, системный дизайн, SQL, портфолио

🎓 Сертификат — добавьте в резюме или LinkedIn

🚀 Скидка 25%, действует 48 часов

👉 Пройти курс на Stepik
10🔥5
🧠 Google представила Gemini 2.5 Computer Use - ИИ, который управляет интерфейсами как человек

Google выпустила Gemini 2.5 Computer Use model - специализированную версию Gemini 2.5 Pro, предназначенную для создания агентов, способных взаимодействовать с графическими интерфейсами (UI).
Модель доступна в предпросмотре через Gemini API в Google AI Studio и Vertex AI.

Главное отличие - агенты теперь могут навигационно работать с веб-страницами и приложениями: кликать, вводить текст, заполнять формы, выбирать пункты меню и даже действовать за логином, имитируя человеческое поведение.

Модель показывает лучшие результаты на бенчмарках для веб- и мобильного контроля и при этом работает с низкой задержкой, обгоняя конкурентов.

Gemini 2.5 Computer Use построена вокруг нового инструмента computer_use, который принимает запрос пользователя, скриншот интерфейса и историю действий, анализирует их и генерирует следующую команду — например, клик или ввод текста. После выполнения действия модель получает обновлённый скриншот и повторяет цикл до завершения задачи.

Google также внедрила встроенные механизмы безопасности, предотвращающие рискованные действия (например, попытки обойти CAPTCHA или вмешаться в защищённые системы). Каждый шаг проверяется через отдельный слой безопасности перед выполнением.

Модель уже используется внутри Google - в UI-тестировании, Project Mariner, Firebase Testing Agent и некоторых функциях AI Mode в Search. Ранние пользователи отмечают ускорение рабочих процессов на 50% и повышение точности до 18% в сложных сценариях.

Gemini 2.5 Computer Use - это шаг к новой эре агентов, которые понимают интерфейсы и могут самостоятельно выполнять задачи прямо в браузере.

https://gemini.browserbase.com/
👍64🔥3
Media is too big
VIEW IN TELEGRAM
Команде Kandinsky нужны именно вы? Сейчас узнаем! 😏

1) Разрабатывать и внедрять техники ускорения инференса.
2) Использовать и дорабатывать существующие ML-компиляторы.
3) Улучшать процессы обучения с помощью исследований.

Если вы трижды ответили «да» — добро пожаловать на One Day Offer, который пройдёт 11 октября.

Зарегистрироваться!
3
🌐 Tongyi Lab и Alibaba представили ReSum — новый способ, который позволяет веб-агентам искать дольше и отвечать точнее.

📊 Ключевые результаты:
- +4,5% к качеству по сравнению с ReAct
- до +8,2% с ReSum-GRPO
- Pass@1: 33,3% и 18,3% на сложных тестах BrowseComp

🛠️ В чём проблема ReAct?
Агенты в ReAct ведут подробный «дневник»: думают, делают действие (поиск, клик), фиксируют результат и снова повторяют цикл.
Это делает процесс прозрачным, но в длинных задачах история быстро разрастается → лимит контекста → потеря деталей.

🚀 Решение ReSum:
- Когда контекст близок к пределу, агент останавливается и пишет резюме: проверенные факты + ещё открытые вопросы.
- Потом он продолжает уже с этого резюме, вместо длинной переписки.

⚙️ Что добавили авторы:
- Отдельную 30B-модель для резюме, которая лучше обрабатывает «шумные» страницы и выделяет важное.
- Усиленное обучение ReSum-GRPO: агент получает награду только за финальный ответ, а она распределяется по всем промежуточным шагам. Это учит собирать правильные факты и делать сжатые, полезные резюме.

📌 Итог: агенты остаются в рамках токен-бюджета и решают сложные задачи веб-поиска и анализа фактов лучше, чем классический ReAct.

📄 https://arxiv.org/abs/2509.13313
7👍4🔥2
Привет, ML-специалист! 😎 Надоели базовые туториалы и предсказуемые датасеты? Пора разобраться с тем, что действительно крутит этот мир — рекомендательными системами!

Приглашаем на бесплатный вебинар продвинутого курса «Machine Learning. Advanced», где будем вскрывать матричные разложения без анестезии!

На вебинаре с Марией Тихоновой (Senior Data Scientist, SberDevices):
— Изучим специфику построения RS
— Разложим по полочкам матричные разложения
— Научимся создавать свои рекомендательные системы

Это ваш шанс не просто послушать, а протестировать обучение на курсе! А если решите остаться — ловите промокод MLADV_10 для выгодного зачисления.

👉Регистрируйтесь сейчас - напомним перед вебинаром: https://otus.pw/kd5F/?erid=2W5zFGNyaTA

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
3🥱3👍1
🌍 State of AI Report 2025 - Главное из отчёта

Ежегодный отчёт State of AI Report - это самый влиятельный обзор тенденций в области искусственного интеллекта, публикуемый с 2018 года инвестором Nathan Benaich и фондом Air Street Capital.

В 2025 году отчёт охватывает 6 направлений: исследования, индустрию, политику, безопасность, опрос практиков и прогнозы.

📊 Ключевые выводы


1. OpenAI удерживает лидерство, но Китай быстро сокращает отрыв. DeepSeek, Qwen и Kimi почти сравнялись в задачах рассуждения и программирования.
2. Год рассуждения — модели научились планировать, самоисправляться и мыслить пошагово.
3. ИИ стал научным соавтором, примеры: Co-Scientist от DeepMind и Virtual Lab от Stanford.
4. Chain-of-Action планирование — роботы теперь рассуждают перед действием (Google Gemini Robotics 1.5, AI2 Molmo-Act).
5. Коммерциализация ускорилась:
- 44 % компаний в США платят за ИИ-инструменты (в 2023 г. - 5 %)
- Средний контракт - $530 000
- Стартапы с ИИ растут в 1.5× быстрее обычных
6. Опрос 1200 специалистов:
- 95 % используют ИИ дома или на работе
- 76 % платят за него из собственного кармана
- Большинство отмечают устойчивый рост продуктивности
7. Началась индустриальная эра ИИ - мегадата-центры (Stargate, фонды США, ОАЭ, Китая). Энергия становится новым лимитирующим фактором.
8. Политика ИИ ужесточилась:
- США делают ставку на *America-first AI*
- Европейский AI Act буксует
- Китай развивает открытые модели и собственные чипы
9. Безопасность переходит к прагматизму:
- Модели имитируют выравнивание (alignment), усиливая дискуссию о прозрачности
- Бюджеты safety-организаций несопоставимы с расходами лидеров
10. Риски экзистенции сменились фокусом на надёжность, киберустойчивость и долгосрочное управление автономными системами.

🔮 Прогнозы авторов

- Рост затрат на обучение сверхмоделей → дефицит энергии и GPU
- Конкуренция между OpenAI, DeepSeek, Anthropic и Google усилится
- Frontier-модели будут тренироваться в многоэтапных средах с постоянной самопроверкой
- Всё больше экспериментов с «живыми агентами» в физическом мире
- Усиление регулирования и новые требования к прозрачности reasoning-цепочек

📘 Полный отчёт доступен здесь: https://www.stateof.ai/

@data_analysis_ml
5👍4🔥2
🧠 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

🧩 Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔧 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📊 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💡 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

📄 Исследование: https://arxiv.org/abs/2509.25084
💻 Код: https://github.com/zjunlp/DataMind
📊 Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

#AI #DataScience #LLM #Agents #OpenSource #DataAnalysis #ReinforcementLearning #NLP
11🔥7👍3