Анализ данных (Data analysis)
46.3K subscribers
2.3K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🎆 Harbor — локальный стек для работы с LLM в один клик. Этот инструмент упрощает запуск локальных языковых моделей и связанных сервисов — от веб-интерфейсов до RAG и голосового взаимодействия. Всё работает в Docker и настраивается парой команд.

Harbor автоматически интегрирует компонентов, например, SearXNG сразу подключается к Open WebUI для поиска по вебу, а ComfyUI — для генерации изображений. Подходит тем, кто хочет быстро развернуть локальную среду для экспериментов с ИИ.

🤖 GitHub

@data_analysis_ml
7👍3❤‍🔥2🔥1
🚨 Похоже у нас тут… первая утечка GPT‑5?

В репозитории biology-benchmarks-inspect появился подозрительный новый идентификатор:

`gpt‑5‑reasoning‑alpha` 👀

🧠 Главное:
> 20 часов назад коммит заменил модель o3 на новую — gpt‑5‑reasoning‑alpha

Если репозиторий действительно внутренний (а он на это похож), то GPT‑5 уже где-то рядом.

🤖 Это могут быть предварительные тесты, бенчмарки или подготовка к релизу.

@data_analysis_ml
🔥1761❤‍🔥1👍1🤣1
🧪 Octelium — новая open-source платформа для запуска и оценки LLM-агентов в реалистичных сценариях.

🔍 Что делает:
• Запускает LLM-агентов в симулированных задачах: от браузинга до программирования
• Оценивает их поведение, принятие решений и эффективность
• Работает локально, без облака
• Поддерживает мультимодельность и кастомные задачи
• Подходит для RL, alignment, eval-пайплайнов

📦 Отличный инструмент для исследований, тестов и продвинутых экспериментов с LLM.

🔗 github.com/octelium/octelium
9🔥4👍1
💸 Марк Цукерберг предложил *Марку Чену перейти к нему — и, по слухам, миллиардер предложил 1 миллиард долларов.

Когда речь заходит о гонке за ИИ‑талантами, ставки становятся буквально космическими 💸

Марк Чен (Mark Chen) — ведущий исследователь OpenAI, занимающий пост Chief Research Officer / Senior VP of Research.
🔥14🤣54👍1
🔍 Lucy (1.7B) — легковесная агентная модель веб-поиска на базе Qwen3, обученная только через RL, без привычного SFT.

📱 Заточена под мобильные устройства и CPU-only:
• Агентный поиск через Serper (Google API) + Crawl4AI
• Специальные векторные задачи направляют рассуждение
• Обгоняет DeepSeek-v3 на SimpleQA (MCP-бенчмарк)
• Работает с vLLM, llama.cpp, Jan, LMStudio
• Есть в формате gguf — для локального запуска на CPU
• Режим генерации: temp 0.7 / top-p 0.9 / top-k 20

https://huggingface.co/collections/Menlo/lucy-6879d21ab9c82dd410b231ca
10👍4🔥3
MWS Cloud запустила платформу хранения больших данных для обучения ИИ.

⚡️MWS Data Lakehouse - это целая экосистема, способная переваривать любые типы данных — структурированные, неструктурированные и векторные. А это значит, что теперь вся ваша информация — от отчетов о продажах и заказах до логистики — могут находится в одном месте.

Безопасность - на высшем уровне. В платформу встроены инструменты централизации контроля доступа, аудита и шифрования, динамического маскирования чувствительных данных.

При этом она легко интегрируется с Greenplum и Postgres, что позволяет бизнесу сохранить свои исторические активы, сократить цикл реализации проекта по миграции, а также снизить затраты и риски, связанные с переходом на новое решение.

Результаты говорят сами за себя:

• данные обрабатываются в 23 раза быстрее;
• хранилище используется на 40% экономичнее;
• персонал работает эффективнее в 2,5 раза;
• время расчетов аналитически витрин сокращается в 2 раза.

Поверх платформы можно запустить инструменты для обучения и инференса ML и больших языковых моделей. Компания может развернуть как свои сервисы для работы с ИИ, так и использовать готовые MLOps-инструменты MWS.
7🔥4👍1
🚨 Подождите, NVIDIA выпустила новые open-source модели SOTA-уровня?!

🧠 OpenReasoning-Nemotron — линейка мощных LLM, специально обученных для математики, науки и программирования.

💾 Доступны 4 версии: 1.5B, 7B, 14B и 32B — можно запускать полностью локально, без облаков и подписок.

📊 Выдают топовые результаты на бенчмарках
⚙️ Идеальны для reasoning-задач и технических доменов

Как запустить на ноутбуке и всё, что нужно знать — ниже 👇

Как запустить OpenReasoning-Nemotron у себя на ноуте:

1️⃣ Скачай LM Studio для macOS, Windows или Linux
2️⃣ В поиске введи: openreasoning
3️⃣ Установи нужную модель

🧠 Совет: берите 7B-версию от Bartowski в квантовке Q4_0 — отличное качество при маленьком размере.
Идеально для ARM-процессоров (например, M1/M2).

🔥 Запускай топовую LLM локально — без облака, подписок и тормозов.

https://huggingface.co/collections/nvidia/openreasoning-nemotron-687730dae0170059860f1f01
💯146👍2🔥1
🚀 Новая модель рассуждений — Hierarchical Reasoning Model (HRM) 🧠🤖

HRM — это ИИ, вдохновлённый тем, как устроен человеческий мозг: информация обрабатывается иерархически, от простого к сложному. И результат — впечатляет.

💡 Модель решает сложные задачи, такие как:
- ARC-AGI (бенчмарк на гибкое мышление)
- Судоку экспертного уровня

И всё это:
Без предобучения
Без Chain-of-Thought
Всего на 1,000 обучающих примерах!

🔬 Это не просто новая модель — это подход, построенный на принципах нейронауки, и он уже показывает мощные результаты.

📄 Исследование: https://arxiv.org/abs/2506.21734
💻 Код на GitHub: https://github.com/sapientinc/HRM

@data_analysis_ml
18🔥9😁3👍1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🧱 Pi³ (Pi-Cubed) — новая SOTA‑модель, которая строит 3D‑модель объекта по фотографиям 📸

💡 Главное:
— На вход подается несколько фото с разных ракурсов — и она восстанавливает объёмную 3D‑форму
— Не важно, в каком порядке поданы изображения
— Модель сама определяет, где стояла камера, как выглядел объект в объёме, и выдаёт готовое 3D

⚙️ Под капотом:
— Работает без supervision
— Не требует фиксированной позиции камеры
— Отлично подходит для 3D‑сканирования, реконструкции, AR/VR и генеративных задач

📄 Paper: https://yyfz.github.io/pi3/
👨‍💻 Code: https://github.com/yyfz/Pi3
🤗 Demo: https://huggingface.co/spaces/yyfz233/Pi3

#3d #ml #reconstruction
6👍5🔥4
🚨 BREAKING: Руководитель DeepMind резко раскритиковал заявление OpenAI о "золоте" на Международной математической олимпиаде (IMO)

IMO — это International Mathematical Olympiad (Международная математическая олимпиада).

📌 Это крупнейшее и престижнейшее соревнование по математике для школьников со всего мира. Впервые проведено в 1959 году, сегодня в нём участвуют более 100 стран.

>Прессслужба OpenAI сообщили, что их модель впервые в истории выиграла на IMO золото
> “У IMO есть внутренний протокол оценки, который никто извне не видит.
> Без него нельзя утверждать, что у вас 1 место.
> С потерей баллов на задаче P6 — это серебро, а не золото.”

📌 Что произошло:

— OpenAI не уведомлял IMO, но объявила о "первом месте" своей модели
— Объявление сделали до окончания церемонии IMO, нарушив просьбу не затмевать победу реальных студентов
— DeepMind, наоборот, работала с IMO официально и соблюдала все условия
— Научное сообщество обвиняет OpenAI в непрозрачности и неуважении к сообществу
— Пост был сделан без публикации всей методики и без согласования с организаторами

💬 Цитата из сообщества:
“OpenAI повела себя неуважительно и эгоистично. Нельзя сравнивать так модели и людей.”

🧠 Вопрос к читателю:
Где грань между научным прогрессом и этикой в публичных заявлениях ИИ-компаний?

@data_analysis_ml
🔥238👍5
🔍T-one — открытая русскоязычная модель распознавания речи, выпущенная Т-Технологиями специально для звонков и телефонии

🧠 Главное:
— Обрабатывает речь кусками по 300 мс и запоминает контекст, подходит для реального времени

— Основа — Conformer и CTC-декодер, дополнительно подключается языковая модель (5-грамм, KenLM), чтобы повысить точность

— Задержка небольшая: около 1–1.2 секунды вместе с постобработкой

— Хорошо справляется с шумом, паузами и разговорной речью по телефону (8 кГц)

— Обучена на 80 тысячах часов аудио, в том числе 6 тысяч часов — это реальные телефонные звонки

— Используется в продуктах Т-Банка

— Дает заметно лучшее качество, если подключить языковую модель

https://habr.com/ru/companies/tbank/articles/929850/
🔥1711🤩3👏2
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга

Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов

📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков

🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)

Попробовать бесплатно можно:
🟡Через чат: ttps://chat.qwen.ai/)
🟡GitHub link: https://github.com/QwenLM/qwen-code
🟡 Blog:https://qwenlm.github.io/blog/qwen3-coder/
🟡 Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.

#qwen #ml #ai #llm #Alibaba

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍97
🚀 Новинка: Code Sandbox MCP — простой интерпретатор кода для ИИ-агентов

Теперь ты можешь запускать код прямо из LLM (например, Gemini) в локальной изолированной среде, которую полностью контролируешь.

🛠 Как работает:
1. Запускается контейнер (Docker или Podman)
2. Код сохраняется во временный файл
3. Файл копируется внутрь контейнера
4. Выполняется (Python, JS и др.)
5. Вывод и ошибки считываются
6. Всё возвращается клиенту
7. Контейнер удаляется

🔗 Примеры и исходники — в блоге и на GitHub

@data_analysis_ml
🔥129👍4
🚀 Новый релиз: MegaScience

Открыт крупнейший и самый качественный датасет для постобучения моделей научному мышлению — 1.25 миллиона QA-пар!

🔬 Покрывает 7+ дисциплин: от физики до биомедицины
📚 Вопросы и ответы уровня университетских учебников
📈 Обученные на нём модели обгоняют официальные Instruct-бейзлайны

📄 Статья: https://huggingface.co/papers/2507.16812
🤖 Датасет и модели: https://huggingface.co/MegaScience
💻 Код: https://github.com/GAIR-NLP/MegaScience
🎯 Система оценки: https://github.com/GAIR-NLP/lm-open-science-evaluation

@data_analysis_ml
14🔥9👍5
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI анонсировала дату проведения DevDay.

OpenAI объявила, что ее следующая конференция для разработчиков, DevDay, состоится 6 октября 2025 года в Сан-Франциско. На мероприятии выступят Сэм Альтман и Грэг Брокман. DevDay традиционно становится площадкой для главных анонсов OpenAI, и в этом году разработчикам обещают ранний доступ к информации о будущих продуктах и технологиях.

Конференция планирует собрать более 1500 разработчиков. Регистрация на очное участие открыта в формате подачи заявок до 30 июля, а приглашения будут разосланы в середине августа. Стоимость участия составит 650 долларов. Для тех, кто не сможет присутствовать лично, будет организована прямая трансляция основной части мероприятия, а записи остальных сессий опубликуют позже.
openai.com

✔️ Proton представила Lumo: защищенный чат-бот с фокусом на приватность.

Швейцарская компания Proton, известная своим одноименным почтовым сервисом, выпустила автономного ИИ-ассистента Lumo. Чат-бот позиционируется как безопасная альтернатива продуктам от крупных технологических корпораций.

Lumo умеет обобщать документы, писать код, составлять черновики писем и отвечать на веб-запросы. Сервис работает исключительно на открытых языковых моделях, размещенных в собственных дата-центрах Proton в Европе. Вся переписка защищена сквозным шифрованием с "нулевым доступом", что не позволяет самой компании или третьим лицам читать и хранить сообщения.

Попробовать Lumo можно без регистрации через веб-клиент или мобильные приложения, но с ограничениями. Платная подписка Lumo Plus за $12.99 в месяц снимает лимиты на общение и позволяет загружать файлы большего размера.
proton.me

✔️ Google DeepMind Aeneas: открытая ИИ-система для восстановления латинских надписей.

Google DeepMind выпустила Aeneas, опенсорсный инструмент на базе ИИ, предназначенный для помощи историкам в работе с фрагментарными древними надписями. Система анализирует неполные транскрипции и изображения, после чего определяет вероятное место и дату происхождения текста, предлагает варианты недостающих слов и находит аналоги в корпусе известных надписей.

Модель, обученная на 200 000 каталогизированных текстов, является развитием более ранней системы Ithaca для греческого языка. В исследовании, опубликованном в Nature, Aeneas улучшил генерацию научных гипотез в 90% случаев, а его оценки происхождения и датировки совпали с консенсусом ученых.

Aeneas доступна бесплатно для ученых, преподавателей и сотрудников музеев.
theguardian.com

✔️ AWS закрывает свою ИИ-лабораторию в Шанхае.

Amazon Web Services объявила о закрытии своей исследовательской ИИ-лаборатории в Шанхае. В компании это решение назвали трудным, оно завершает семилетнюю историю работы центра, который занимался передовыми разработками в области машинного обучения. По словам одного из научных сотрудников, подразделение расформировывают из-за "стратегических корректировок на фоне напряженности между США и Китаем".

Лаборатория, открытая в 2018 году, была весьма продуктивной: на ее счету более 100 научных публикаций и создание популярной open-source библиотеки Deep Graph Library. В лучшие времена в ней работало более 1000 человек.
ft.com

✔️ Компания Марка Цукерберга разработала нейромоторный браслет, работающий без персональной калибровки.

Устройство, разработанное в Reality Labs представляет собой браслет, который считывает электрическую активность мышц предплечья (sEMG), напрямую декодируя двигательные намерения пользователя.

Главное достижение - разработка универсальной модели, обученной на данных тысяч людей. В отличие от аналогов, требующих длительной настройки под каждого человека, эта система работает из коробки, без предварительной калибровки под новых пользователей.

В тестах интерфейс продемонстрировал распознавание рукописного ввода со скоростью почти 21 слово в минуту, точное определение дискретных жестов (щипки, свайпы) и плавное управление курсором. При этом короткая персональная донастройка на данных конкретного пользователя может повысить точность еще на 16%.
nature.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Lex Fridman выпустил новое интервью с Demis Hassabis — CEO Google DeepMind.

🔍 В подкасте — всё, что волнует мир ИИ:
— будущее AI & AGI
— моделирование биологии и физики
— видеоигры, программирование, генерация видео
— world models и Gemini 3
— scaling laws, вычисления, P vs NP
— сложность, энергия, солнце и термояд
и многое другое.

💡 Техническое, глубокое и очень увлекательное интервью. Настоящий разговор о том, куда идёт ИИ.

📺 Смотреть на youtube
📺 Смотреть в X

@data_analysis_ml
🔥146👍3🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Сооснователь Anthropic Бен Манн:

🧠 «Вероятность того, что суперинтеллект появится в ближайшие годы — около 50%.
И это не просто спекуляция — за этим стоят данные, законы масштабирования и чёткие научные тренды».

Он подчёркивает: даже если технический прорыв случится быстро,
его влияние на общество может проявиться с задержкой — через годы.

📌 Вопрос уже не в том, "если", а "как скоро" — и что мы с этим сделаем.
👍1611🤨9🔥4🍌2🎉1
🚀 Команда Qwen только что представила новую модель: Qwen3‑235B‑A22B‑Thinking‑2507, нацеленную на глубокие рассуждения.

За последние 3 месяца модель была масштабирована и доработана специально для задач логики, математики, науки и программирования. Среди ключевых улучшений:

Улучшенные способности к рассуждению, решению задач и анализу
Повышенная точность в следовании инструкциям и использовании инструментов
Поддержка нативного 256K контекста — для полноценной работы с длинными цепочками мыслей

🧠 Модель изначально работает в режиме reasoning — включать ничего не нужно. Она самостоятельно строит длинные логические цепочки, обеспечивая максимальную глубину и точность.

🟡Hugging Face: https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡ModelScope: https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
or https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8
🟡API Doc: https://alibabacloud.com/help/en/model-studio/models#16ff9753e1ctz

🧩 Новый Thinking‑режим поднимает планку для reasoning‑моделей в открытом доступе.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥3
🔮 SuperDuperDB — фреймворк для создания AI-приложений, напрямую интегрированных с базами данных. Позволяет развертывать модели машинного обучения и векторные поиски прямо в MongoDB, SQL, Snowflake или Redis, избегая сложных ETL-процессов.

Вместо выгрузки данных в отдельные ML-пайплайны, вы добавляете AI-функциональность поверх существующей БД через простые Python-декораторы. Поддерживает популярные библиотеки вроде PyTorch и Hugging Face, что упрощает переход от прототипа к продакшену.

🤖 GitHub

@data_analysis_ml
🔥10👍4🥰4🤔2🤣2