Анализ данных (Data analysis)
46.8K subscribers
2.62K photos
301 videos
1 file
2.27K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Media is too big
VIEW IN TELEGRAM
AI-видео в китайском *Douyin выходят на совершенно другой уровень

В ленте вирусится ролик, где «китайская мама» устраивает разнос ксеноморфу - и выглядит это как мини-фильм. Кажется, что вот сейчас всё закончится, но сцена продолжает разгоняться и становится ещё абсурднее и эффектнее.

*Douyin - это китайская версия TikTok.
12😁11🤔5👍3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ GPT-5 на Sudoku-Bench

Команда Sudoku-Bench обновила результаты тестов. Напомню, когда бенчмарк вышел в мае 2025, ни одна LLM вообще не могла решить обычную судоку 9×9.

Теперь ситуация изменилась: GPT-5 стал новым лидером и решает 33% задач - в два раза умнее ближайшего конкурента. Это первая модель, которой удалось пройти и вариант классической 9×9.

Но главная часть бенчмарка остаётся нерешённой: 67% более сложных головоломок по-прежнему оказываются слишком сложными. Причина в том, что современные модели плохо справляются с тем, что нужно для настоящей судоку: понимать новые правила, держать в голове глобальную структуру, строить длинные логические цепочки и находить "точку входа", которую опытные люди сразу замечают.

Дополнительные эксперименты - GRPO-тюнинг Qwen2.5-7B и Thought Cloning на примерах из Cracking the Cryptic - дали небольшой прогресс, но не решили ключевые проблемы: пространственное мышление и творческий подход всё ещё оказываются для моделей сложными.

Итог: прогресс заметный, но до уровня человеческого логического и пространственного мышления моделям ещё далеко.

Подробнее:
https://pub.sakana.ai/sudoku-gpt5/

@data_analysis_ml
12👍6🔥3🤣3
LoRA-модель от autoweeb, которая превращает обычные фотографии в аниме-стиль ☺️

Основана на Qwen-Image-Edit-2509.

Работает просто: загружаете фото, пишете что-то вроде «transform into anime» - и получаете аниме-версию исходного снимка. Настроек минимум, результат отличный.

Ссылка: https://huggingface.co/autoweeb/Qwen-Image-Edit-2509-Photo-to-Anime

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1810👍5
DeepAnalyze: первый агентный LLM для полностью автономной Data Science 🤖📊

Забудьте о ручной обработке данных — DeepAnalyze-8B сам проходит весь путь:
от сырых файлов до аналитического отчёта уровня эксперта.

Поддерживает:
🛠 Подготовку данных, анализ, моделирование, визуализацию и генерацию инсайтов
🔍 Открытые исследовательские задачи и автоматическое составление research-репортов

И всё это — без жёстких workflow’ов, с обучением по принципу «от простого к сложному», как настоящий дата-сайентист.

При этом модель всего 8B параметров, но уже обгоняет агентов на проприетарных LLM.

Открытый код
Открытые веса
Открытые данные обучения

Идеальный инструмент для автоматизации рутинных и сложных data-задач.

🔗 https://ruc-deepanalyze.github.io
👍107🔥2
⚡️ Google представила Private AI Compute - облачную платформу, где Gemini выполняет запросы на серверах Google, но при этом данные остаются видимы только пользователю.

Даже сама компания не имеет к ним доступа.

Причина проста: локальные модели упираются в ограничения по вычислительным мощностям и контексту, поэтому сложные задачи переносятся в «запечатанное» облако с теми же гарантиями приватности, что и локальная обработка.

Основу системы составляют TPU и Titanium Intelligence Enclaves — аппаратно изолированные области, где код исполняется так, что хост не может прочитать входные и выходные данные. Перед отправкой запросов телефон проверяет подлинность окружения (через remote attestation) и шифрует канал.

Google описывает концепцию как “no access”: обработка данных в enclave не может быть просмотрена операторами или другими сервисами. Ключи и логи привязаны к состоянию самого enclave.

Первые функции уже работают на Pixel 10: улучшенные подсказки Magic Cue и расширенные языковые сводки в Recorder. Эти задачи требуют большого контекста и мощных вычислений, но при этом выполняются с сохранением приватности.

По сути, это аналог Apple Private Cloud Compute, но встроенный глубже в стек Google: простые запросы обрабатываются на устройстве, а тяжёлые — в аттестованном облачном enclave.

Источник: blog.google/technology/ai/google-private-ai-compute
👍377🔥3🌚1
🧮 Anthropic против OpenAI: ставка на эффективность

По данным *The Information*, Anthropic делает акцент не на масштабах, а на эффективности - и планирует тратить на вычисления в несколько раз меньше, чем OpenAI, при этом сохраняя агрессивное ценообразование.

💸 Прогноз по затратам на вычисления
- 2025: Anthropic — ~$6 млрд, OpenAI — ~$15 млрд
- 2028: Anthropic — ~$27 млрд, OpenAI — ~$111 млрд

Это показывает существенный разрыв по себестоимости обработки токена.

📈 Финансовые цели
- Anthropic ожидает выйти в плюс по cash-flow уже в 2027
- Цель — ~$70 млрд выручки в 2028
- Для сравнения: OpenAI прогнозирует ~$100 млрд, но прибыльности ждёт только к 2029 году

⚙️ Как достигается эффективность
Anthropic распределяет вычисления между Google TPUs, Nvidia и Amazon.
Свежий контракт с Google предусматривает до 1 млн TPU и >1 ГВт мощностей к 2026 году — это заметно снижает стоимость токена при высокой загрузке.

💡 Модель монетизации
OpenAI инвестирует миллиарды в инфраструктуру для обслуживания бесплатных пользователей ChatGPT.
Anthropic же получает 80 % выручки от платного API и избегает чрезмерных расходов на «бесплатный» трафик.

Anthropic строит менее громкую, но гораздо более устойчивую и экономичную модель роста.
👍136🔥5🤣4
Baidu представила ERNIE 5.0 - новую омни-модальную модель, которая изначально обучена работать сразу со всеми типами данных: текстом, изображениями, видео и аудио.

ERNIE 5.0 особенно сильна в понимании мультимодального контекста, создании связных и творческих текстов и точном выполнении сложных инструкций.

ernie.baidu.com
9👍5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Создание изображений с контролем идентичности

WithAnyone — это проект, направленный на генерацию изображений с несколькими идентичностями, позволяющий контролировать выражения лиц, прически и аксессуары. Он решает проблему "копирования-вставки" в генерации лиц, обеспечивая гармоничное сочетание всех созданных образов в одной фотографии.

🚀 Основные моменты:
- Контролируемая генерация лиц без артефактов.
- Поддержка многократной генерации идентичностей.
- Доступны модели и датасеты на Hugging Face.
- Интерактивная демонстрация доступна онлайн.

📌 GitHub: https://github.com/Doby-Xu/WithAnyone
👍61
Как обучить свою первую ML-модель — и не утонуть в теории?

Машинное обучение звучит сложно — пока вы не попробуете на практике. 24 ноября в 18:00 МСК на открытом уроке вы обучите модель для задачи классификации прямо во время занятия.

Разберём:
– как работает алгоритм дерева решений;
– как решать задачи классификации на Python;
– что нужно, чтобы перейти от экспериментов к реальной работе с ML.

Вы шаг за шагом создадите первую модель, увидите, как она принимает решения, и поймёте, как из простого кода рождается интеллект.

➡️ Открытый урок проходит в преддверии старта курса «Machine Learning. Basic».
Регистрируйтесь — начните путь в Data Science с практики, а не с теории:

https://otus.pw/efxP/?erid=2W5zFG3ZMtc

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
2🔥1🍌1
IBM представила два новых квантовых процессора - Nighthawk и Loon - и сделала важный шаг: теперь все её квантовые чипы производятся на 300-мм пластинах в Albany NanoTech. Это снижает стоимость, ускоряет эксперименты и делает квантовое железо более «промышленным». IBM говорит о квантовом преимуществе уже к 2026 году и устойчивой работе с коррекцией ошибок к 2029.

Nighthawk увеличивает сложность схем примерно на 30% при тех же уровнях ошибок. Он рассчитан на нагрузки с ~5000 двухкубитных операций и должен вырасти до ~15000 к 2028 году. Поддерживает Qiskit и будет доступен пользователям в конце 2025.

Loon — это шаг к по-настоящему устойчивым квантовым вычислениям: более эффективная коррекция ошибок, длинные связи между кубитами через многослойную маршрутизацию, сброс кубитов между циклами и сверхбыстрое декодирование ошибок менее чем за 480 нс. Новый LDPC-подход IBM вывела на год раньше графика.

Почему важны 300-мм пластины? Их площадь в 2.25 раза больше, чем у 200-мм, значит — больше чипов за один прогон и ниже стоимость. Это также позволяет параллельно тестировать разные варианты чипов и ускорять разработку.

Albany работает 24/7, и IBM уже удвоила скорость R&D: время сборки сократилось в два раза, а сложность создаваемых систем выросла в 10 раз.

Переход на полноценное 300-мм производство означает, что квантовые процессоры становятся реальной производственной технологией, а не лабораторными экспериментами.

https://www.ibm.com/quantum/blog/300mm-fab
👍52
🧐🎁😌👹😋😡🙊😍🤷‍♂️👹

Хотите сделать шаг от экспериментальных AI-прототипов к полноценным продакшен-агентам?

Мы подготовили среду, инструменты и пригласили экспертов — ждём только вас. 20 ноября стартует Yandex AI Studio Series — серия вебинаров для тех, кто уже работает с AI и хочет развивать агентные решения.

Что вас ждёт:
- 4 онлайн-трансляции с сессией вопросов и ответов.
- Разбор сценариев с применением LLM, VLM, Realtime API, MCP, RAG, Workflows и других технологий.
- Предзаписанный воркшоп для самостоятельной практики.
- Квиз и приятные сюрпризы.
- Нетворкинг в продуктовом комьюнити.
- Офлайн-встреча в офисе Яндекса в Москве.

Все решения будем деплоить на базе Yandex AI Studio — платформы от Яндекса для разработки AI-агентов.

В программе:
- Разберём, что такое агенты и мультиагентные системы.
- Покажем, как собрать голосового и поискового агента, а также агента для обработки документов.
- Как применить знания на практике в собственных AI-проектах.

Если вы уже применяете AI и хотите вывести свои решения на новый уровень — присоединяйтесь.

👉 Регистрация

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥1
🧠 Большой шаг к AGI.

MIT представили подход SEAL - метод, который позволяет языковым моделям самостоятельно обновлять свои знания и «вписывать» новую информацию прямо во внутренние веса.

Вместо статичной модели после релиза появляется система, которая:
- пишет свои «учебные конспекты»,
- генерирует несколько вариантов объяснений,
- тестирует себя,
- выбирает лучший результат,
- и обновляет себя же, закрепляя новое знание.

Фактически модель саморедактируется и самообучается, как студент, который улучшает понимание через пробу и ошибки.

Первые результаты впечатляют:
- +15% точности в QA-задачах
- +50% успеха в освоении новых навыков
- маленькая модель превосходит крупные LLM

Проблема катастрофического забывания ещё есть, но прогресс быстрый.
Это выглядит как первый реальный шаг к непрерывно обучающимся AI-агентам, которые могут адаптироваться, эволюционировать и работать вместе.

https://news.mit.edu/2025/teaching-large-language-models-to-absorb-new-knowledge-1112
🔥114👍2😁1🌭1