Анализ данных (Data analysis)
46.3K subscribers
2.3K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
✔️ Qwen официально выпустили квантованные версии Qwen3!

Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.

Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:

➡️Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

➡️ ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🔥3
🌐 Reader от Jina AI — переводчик веб-страниц для языковых моделей. Этот необычный проект решает проблему всех RAG-систем, превращая контент веб-страниц в удобоваримый для LLM формат. Просто добавьте https://r.jina.ai/ перед любой ссылкой и получите очищенный от рекламы, JS-кода и лишних элементов текст с автоматически подписанными изображениями.

Также запрос через s.jina.ai не просто выдает список ссылок, а сразу загружает и обрабатывает топ-5 результатов. Технология уже используется в продакшене и полностью бесплатна.

🤖 GitHub

@data_analysis_ml
14👍6🔥2
🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине

OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.

🔍 Основные особенности HealthBench:


- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.

- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.

- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.

Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.

HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.

🔗 Подробнее: https://openai.com/index/healthbench/
👍128🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман:
2025 — год ИИ-агентов
2026 — год научных исследований и прорывов
2027 — год, когда ИИ и робототехника действительно начнут взаимодействовать с физическим миром
Погнали!

@data_analysis_ml
👍16😁106🔥4🥱3🥴3🙏2💔2
🔍 Что такое AssetGen 2.0?

AssetGen 2.0 — это новый фреймворк-от способный создавать высококачественные 3D-модели и текстуры на основе текстовых или визуальных запросов. Она объединяет два компонента:

- 3D-меши: создаются с использованием одностадийной диффузионной модели, обеспечивающей высокую детализацию и геометрическую точность.

Текстуры: генерируются с помощью модели TextureGen, которая обеспечивает высокое качество и согласованность текстур.


🆚 Улучшения по сравнению с AssetGen 1.0
Одностадийная генерация: AssetGen 2.0 использует одностадийную диффузионную модель, что позволяет напрямую создавать 3D-объекты из текстовых или визуальных запросов, улучшая качество и сокращая время генерации.

Повышенная детализация: новая архитектура обеспечивает более высокую детализацию и точность геометрии по сравнению с предыдущей версией.

Улучшенные текстуры: TextureGen обеспечивает более высокое качество текстур с улучшенной согласованностью между различными видами объекта.

🌍AssetGen 2.0 уже используется внутри компании для создания 3D-миров и будет доступна для разработчиков Horizon позже в этом году. Планируется также расширение возможностей модели для генерации целых 3D-сцен на основе текстовых или визуальных запросов.

🔗 Подробнее

@data_analysis_ml
11👍4🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ NVIDIA поставит в Саудовскую Аравию 18 000 топовых чипов для ИИ.

NVIDIA отправит более 18 000 флагманских Blackwell GB300 в саудовскую компанию-стартап Humain, заявил CEO Джeнсeн Хуанг на инвестиционном форуме в Эр-Рияде. Эти чипы, одни из самых мощных в мире, будут работать в дата-центрах суммарной мощностью 500 мегаватт, помогая строить ИИ-инфраструктуру страны.

Humain, принадлежащая местному суверенному фонду, позже задействует «сотни тысяч» GPU. AMD тоже участвует в проекте, и тоже поставит свои чипы для аналогичной инфраструктуры на $10 млрд.
cnbc.com

✔️ Audible внедряет ИИ для создания аудиокниг.

Audible объявил о внедрении полного цикла производства аудиокниг на основе ИИ — от перевода до озвучки. В ближайшие месяцы сервис предложит более 100 синтезированных голосов на английском, испанском, французском и итальянском языках с акцентами и диалектами.

Технология поддерживает два варианта перевода: текст-текст (с последующей озвучкой) и речь-речь, сохраняющую стиль оригинального чтеца. Для точности перевода доступна проверка профессиональными лингвистами. Первые тесты перевода стартуют этой осенью.
thebookseller.com

✔️ Tencent CodeBuddy: ИИ-ассистент для программистов.

Tencent запустил CodeBuddy, инструмент, который может стать конкурентом Cursor. Он поддерживает автодополнение кода, диагностику ошибок, рефакторинг, написание тестов и ревью, а также работает с экосистемой WeChat.

Особенность сервиса - режим Craft: ИИ понимает задачи на естественном языке и генерирует проекты из нескольких файлов. CodeBuddy поддерживает MCP-протокол, позволяя интегрировать сторонние инструменты без лишних телодвижений. В основе — модели DeepSeek V3 и HunYuan Turbo S, доступные бесплатно. Инструмент совместим с VSCode, Jetbrains и другими IDE.
copilot.tencent.com

✔️ Intel Arc B580 может получить уникальную версию с двумя GPU и 48 ГБ памяти.

Портал videocardz поделился слухами о том, что один из партнеров Intel разрабатывает двухчиповую версию видеокарты Arc B580 с суммарными 48 ГБ видеопамяти. По данным неназванного источника, устройство получит нестандартный дизайн, а его анонс запланирован на ближайшую неделю. Хотя точный бренд пока не называется, известно, что проект не является официальной разработкой Intel и находится под NDA.

При этом, обычная версия B580 с 24 ГБ задерживается на несколько месяцев и есть вероятность, что это связано с "мистической" 48 ГБ-версией. Если информация подтвердится, это станет редким случаем десктопного двухчипового решения в эпоху монопольных GPU. Ждем подробностей на Computex.
videocardz.com

✔️ Утечка системного промпта Claude взбудоражила ИИ-сообщество.

Системный промпт Claude, описывающий поведение модели и ее инструменты, слили в сеть — 16,7 тыс. слов и 24 тыс. токенов. Документ раскрывает детали от формата ответов до методов решения задач, например, как считать буквы в слове «strawberry». В сравнении с 2,2 тыс. словами у OpenAI он гигантский. Большая часть текста посвящена интеграции с MCP-сервером, поисковыми правилами и «горячими исправлениями» для данных после 2024 года.

Andrej Karpathy назвал утечку поводом обсудить новую парадигму обучения ИИ: вместо тонкой настройки весов модели он предложил редактировать промпты вручную, как человек использует заметки. Это должно помочь ИИ запоминать стратегии и адаптироваться к контексту. Однако критики возражают: автономные подсказки могут запутать модель, а без постоянного обучения эффект будет краткосрочным.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍7🥰1
Anthropic проводит испытания безопасности новой модели под названием «Клод-Нептун».

Не удивлюсь, если мы скоро увидим Claude 4.

Дарио Амодей в своём последнем интервью говорил, что Claude 4 будет готов через шесть месяцев. Похоже, это время уже подходит.

#Claude

@data_analysis_ml - подписаться
14👍7🔥4
🎨 Step1X-3D — Генерация текстурированных 3D-объектов нового поколения

Step1X-3D — это открытая исследовательская платформа для высокоточной, воспроизводимой и управляемой генерации текстурированных 3D-ассетов. Проект разработан командой [StepFun](https://github.com/stepfun-ai) и доступен на Hugging Face.

🔧 Основные компоненты

- 📦 Очистка и подготовка данных
Обработано более 5 миллионов 3D-моделей. Отобраны 2 миллиона высококачественных ассетов с нормализованной геометрией и текстурами. Более 800 тысяч объектов доступны открыто.

- 🧠 Двухэтапная генеративная архитектура
1. Генерация геометрии
Используется гибрид VAE + Denoising Diffusion Transformer (DiT) для создания TSDF-представлений. Применяется латентное кодирование и выборка по краевым признакам для детализации.
2. Синтез текстур
Диффузионная модель с геометрическим кондиционированием и согласованием в латентном пространстве для кросс-вью согласованности.

- 🧪 Open Source
Полностью открыт: доступны обученные модели, код, примеры и pipeline для адаптации.

🌟 Особенности

- 🔄 Интеграция 2D → 3D
Поддерживает использование техник управления, таких как LoRA, из 2D генерации — теперь и для 3D-объектов.

- 🥇 SOTA-качество
По ряду метрик превосходит существующие open-source решения и приближается к проприетарным системам.

Step1X-3D задаёт новый стандарт в открытых 3D-исследованиях, объединяя качество, гибкость и открытость для исследователей, разработчиков и креаторов.

- 📄 Hugging Face
- 💻 GitHub
- 🚀 Демо
- ▶️ YouTube
👍8🔥4🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
📢 Hugging Face теперь интегрирован с Kaggle Notebooks

С сегодняшнего дня пользователи Kaggle могут напрямую использовать любые модели с Hugging Face в своих ноутбуках — без ручной загрузки, настройки токенов и дополнительных библиотек.

🤝 Платформы Hugging Face и Kaggle объявили о партнёрстве, которое позволит участникам соревнований и исследователям работать с новейшими SOTA-моделями буквально "из коробки".

🔥 Это лишь первый шаг: команды уже работают над дальнейшей интеграцией, чтобы сделать работу с HF-моделями ещё удобнее внутри экосистемы Kaggle.

🔗 Попробовать можно прямо сейчас — поддержка уже включена в среду Kaggle Notebooks.

https://huggingface.co/blog/kaggle-integration
24👍11🔥8
🤖 Создание легковесного персонального ассистента на базе Qwen

Хочешь создать собственного ИИ-ассистента, работающего локально? В статье на Machine Learning Mastery показано, как это сделать с помощью модели Qwen1.5-7B-Chat от Alibaba.

🔧 Что понадобится:
- Python
- Библиотеки: transformers, accelerate, bitsandbytes, einops, ipywidgets
- Модель Qwen1.5-7B-Chat с поддержкой 4-битной квантизации для экономии памяти

🛠️ Основные шаги:
1. Установка необходимых библиотек и проверка совместимости
2. Загрузка модели и токенизатора с использованием Hugging Face Transformers
3. Настройка квантизации (4-битной или 8-битной) для оптимизации использования памяти
4. Создание функции генерации ответов с учетом истории чата
5. Реализация пользовательского интерфейса с помощью ipywidgets или командной строки

📈 Преимущества:
- Работа на локальной машине без необходимости подключения к интернету
- Быстрая генерация ответов благодаря квантизации и использованию GPU
- Гибкость в настройке и расширении функциональности ассистента

🔗 Подробнее о процессе создания ассистента читайте в оригинальной статье
11👍7🔥3
II-Medical-8B — компактная, но мощная модель , специально разработанная для медицинских задач.

Несмотря на размер, она превосходит более крупные модели, такие как GPT-4.5, по точности и эффективности в клинических тестах.

🔍 Почему это важно
Точность и прозрачность: II-Medical-8B обеспечивает пошаговое клиническое рассуждение, что критично для медицинских приложений.

- Доступность: Модель достаточно компактна, чтобы запускаться локально, обеспечиваяет быстрый и приватный доступ без необходимости в дорогой облачной инфраструктуре.

📍 С лицензией MIT.

Для запуска не требуется GPU

https://huggingface.co/Intelligent-Internet/II-Medical-8B
👍94🔥3
⚡️ NNCF — фреймворк для сжатия нейросетей без потерь точности. Проект поддерживает квантование, сжатие весов и другие методы как после обучения, так и непосредственно во время тренировки моделей.

Инструмент работает с PyTorch, TensorFlow, ONNX и OpenVINO, предлагая единый API для разных фреймворков. Например, для 8-битного квантования после обучения достаточно 300 примеров калибровочных данных, никаких сложных настроек. Проект имеет интеграцию с HuggingFace Optimum и OpenVINO Training Extensions, а также готовые примеры для классификации изображений, детекции объектов и даже NLP.

🤖 GitHub

@data_analytics_ml
👍127🥰3
Media is too big
VIEW IN TELEGRAM
🔜 soarXiv — и это очень красивый способ исследовать человеческие знания.

Вам нужно заменить «arxiv» на «soarxiv» в URL статьи, и вы попадёте на её визуализацию во Вселенной.

Поддерживается примерно 2,8 миллиона научных работ.

soarxiv.org
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1614🔥8🤯4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Современные роботы для надёжной и устойчивой работы должны помнить, что происходило ранее.
Но как только в диффузионные политики добавляют историю действий — производительность падает, а обучение становится дорогим и нестабильным.

📌 Исследователи представили новый метод — PTP (Past Trajectory Prediction), который помогает роботам эффективно использовать прошлый опыт.

Что делает PTP:

Учит робота находить связь между прошлым и будущим
Позволяет использовать быстрые кэшированные контексты вместо длинной истории
Ускоряет обучение и повышает качество поведения в 3 раза
Уменьшает вычислительные затраты более чем в 10 раз
Добавляет трюк на этапе запуска, который проверяет, следит ли робот за собственной историей

📈 Обучение роботов с учётом долгосрочного контекста стало реально применимым.
Если мы хотим создавать умных, автономных и надёжных машин — это большой шаг вперёд.

🔗 Подробнее:
-
Статья
-
Проект
-
Код

https://t.iss.one/data_analysis_ml
11👍4🥰2
Владельцы Mac, вам подарок подъехал: MLX LM теперь интегрирован непосредственно в Hugging Face 🤯

⬇️ Вы можете запустить более 4400 LLM локально на Apple Silicon.

Нужно только включить MLX LM в настройках локальных приложений:

https://huggingface.co/settings/local-apps

И выбрать модель: https://huggingface.co/models?library=mlx

#apple #mlx

@data_analysis_ml
14👍11🥰4
🗣️ TEN VAD — ультраточная система обнаружения речи в реальном времени

Это современная модель Voice Activity Detection (VAD), превосходящая по точности популярные решения вроде WebRTC VAD и Silero VAD.

Она стала частью фреймворка TEN Framework — платформы для создания мультимодальных голосовых агентов.

🔹 Что делает TEN VAD особенной:

📈 Точность на SOTA-уровне — протестирована на LibriSpeech, GigaSpeech, DNS Challenge
🕒 Минимальная задержка — точное определение начала и конца речи в реальном времени
🧩 Низкие требования к ресурсам — подходит даже для мобильных устройств
⚙️ Гибкая интеграция — поддержка C и Python, работает на Linux, Windows, macOS, Android и iOS
🔊 Оптимизирована для 16 кГц аудио, с шагами 10/16 мс

https://huggingface.co/TEN-framework/ten-vad
10🔥7👍3
🧠 BAGEL‑7B‑MoT от ByteDance — открытая мультимодальная модель нового поколения

ByteDance представили BAGEL‑7B‑MoT — мощную мультимодальную модель с 7 млрд активных параметров (14B total), которая уверенно конкурирует с лидерами в генерации, понимании и редактировании изображений.

🔹 Ключевые особенности:
• Архитектура Mixture‑of‑Transformer‑Experts (MoT)
• Два энкодера: один для пикселей (VAE+ViT), второй для семантики
• Обучение на interleaved текст+изображение+видео+web токенах
• Поддержка генерации, редактирования, мультиязычного понимания

🔹 Что умеет BAGEL:
• Понимает изображения на уровне лучших open моделей (Qwen2.5‑VL‑7B)
• Генерирует изображения лучше SD3‑Medium (GenEval score: 0.88)
• Делает интеллектуальное редактирование (CoT score: 55.3)
• Навигация по сценам и предсказание будущих кадров

🔹 Бенчмарки:

| Тест | Qwen2.5‑VL‑7B | BAGEL |
|-------------|---------------|--------|
| MME | 2347 | 2388 |
| MMBench | 83.5 | 85.0 |
| MathVista | 68.2 | 73.1 |
| GenEval | 0.80 | 0.88 |


🔹 Под капотом:
• SigLIP + FLUX.1 + Flash Attention 2
• Параметры: 7B активных, 14B полных
• Весовые файлы доступны на Hugging Face (~29 GB)
• Лицензия: Apache 2.0

📎 Репозиторий и модель:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
7👍4🔥2
Media is too big
VIEW IN TELEGRAM
Прогресс искусственного интеллекта поистине стремителен

#Veo3

@data_analysis_ml
👍16🔥104💯1