Анализ данных (Data analysis)
46.3K subscribers
2.29K photos
264 videos
1 file
2.03K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях.

Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели.
Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров.
Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна.

https://huggingface.co/spaces/Remade-AI/remade-effects

@data_analysis_ml
👍4🔥2
Forwarded from Machinelearning
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥

🟡HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
🟡Post: https://mistral.ai/news/mistral-small-3-1/

@ai_machinelearning_big_data


#mistral #llm #mistralsmall
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍4
Multimodal-SAE 🚀

Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные.

▪️ Для кого?
Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA).
Исследователи, изучающие интерпретируемость нейросетей.
Инженеры, которым нужно оптимизировать мультимодальные модели.

▪️ Чем полезен?
Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций.
Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели.
Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs.
Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.).

▪️ Преимущества перед аналогами
Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений.
Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными.
Универсальность — поддерживает CV, NLP, Speech в одном фреймворке.
Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps).

P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей!

📌 Github
📌 Paper

@data_analysis_ml
👍54🔥3
✔️ "EXAONE Deep Released ━ Setting a New Standard for Reasoning AI" от LG AI Research

Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.

1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.

Модель 32B, которая по размеру равна примерно 5% от размера DeepSeek r1, превосходит ее почти на всех бенчмарках.

Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.

🟡Релиз: https://www.lgresearch.ai/blog/view?seq=543
🟡Статья: https://arxiv.org/abs/2503.12524
🟡HF: https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-32B
🟡Github: https://github.com/LG-AI-EXAONE/EXAONE-Deep

@ai_machinelearning_big_data


#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍2
🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами

SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.

Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.

Cохраняет контекст даже в документах на 10k+ токенов.
Специализация — обучена на корпусах документов (юридических, технических, медицинских).
Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.


Работает на CPU и малом GPU (например, T4),

🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
9👍7🔥2
⭐️ Reasoning-v1-20m

Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях.

Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд.

https://huggingface.co/datasets/glaiveai/reasoning-v1-20m

#dataset #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥43
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.

Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.

Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.

Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.

Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?

Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).

🚀 Преимущества перед аналогами
Скорость и эффективность:

Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.

Поддержка квантования и динамического батчинга для снижения затрат на инференс.

Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).

Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.

Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.

https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
👍94🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Postiz — это инструмент для планирования публикаций в социальных сетях с использованием ИИ!

🌟 Он позволяет управлять контентом на таких платформах, как Instagram, YouTube, LinkedIn и другие. Postiz включает аналитику, возможности совместной работы и интеграцию с различными инструментами. Доступна как облачная, так и локальная версия. Технологический стек включает Next.js, NestJS и NX.

🔐 Лицензия: AGPL-3.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍2
💬 OPEN AI добавили API 3 новых SOTA аудио-модели.

🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.

💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.

🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.

Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.

📌 Потестить можно здесь: https://www.openai.fm/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🔥4
🖥 YT Navigator — это приложение на основе искусственного интеллекта, предназначенное для эффективного поиска и взаимодействия с контентом YouTube-каналов.

Оно позволяет пользователям выполнять семантический поиск по видео, получать точные временные метки и извлекать информацию из часов видеоматериалов за считанные секунды.

📌 Основные функции YT Navigator:

Семантический поиск: Возможность находить релевантные сегменты видео с точными временными метками на основе естественных языковых запросов.

Интерактивное общение: Пользователи могут "общаться" с содержимым канала, получая ответы на вопросы, основанные на транскриптах видео.

Экстракция информации: Быстрое извлечение ключевой информации из большого объёма видеоконтента, что экономит время и усилия при анализе материалов.

Преимущества использования YT Navigator:

Экономия времени: Быстрый доступ к конкретной информации без необходимости просмотра длительных видеороликов.

Удобство: Интуитивно понятный интерфейс и мощные функции делают процесс поиска и анализа видеоконтента более эффективным.

YT Navigator особенно полезен для исследователей, аналитиков и всех, кто работает с большими объёмами видеоданных, предоставляя инструменты для быстрого и точного анализа контента.

📌 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍138🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JARVIS-VLA – модель обучения масштабных моделей «визуально-языкового взаимодействия» (Vision Language Models) для игры с использованием клавиатуры и мыши.

Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.

Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.

Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.

Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.

HF
Статья

@data_analysis_ml
👍105🔥4
Media is too big
VIEW IN TELEGRAM
🔥 Tripo MCP Server

Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.

📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp

@data_analysis_ml


#blendermcp #vibecoding #tripo3d
👍95🔥3❤‍🔥1