Forwarded from Machinelearning
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Deepseek #JanusFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2
Forwarded from Machinelearning
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
P.S. Вышли новые модели DeepSeek если вы вдруг пропустили.
#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍7❤3
Forwarded from Machinelearning
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
📌 Полный список Релизов
#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤5👍5
🐋 DeepSeek только что потерпел поражение в ходе аудита NewsGuard и занял предпоследнее место по точности ответов чат-ботов, провалив 83% тестов.
В сравнении с западными конкурентами такими, как ChatGPT от OpenAI и Google Gemini, DeepSeek разделил 10-е место с другим чат-ботом.
т.е. когда предъявлялись явно ложные утверждения, они опровергались лишь в 17% случаев.
→ NewsGuard применил свой стандартный аудит дезинформации к DeepSeek, оценив, как он справлялся с ложными заявлениями в политике, здравоохранении, бизнесе и международных отношениях. В то время как ведущие чат-боты имели средний показатель ошибок 62%, DeepSeek показал себя значительно хуже, ошибившись в 83% случаев.
→ Чат-бот особенно плохо справлялся с запросами, связанными с новостями, повторяя ложные утверждения в 30% случаев и не давая прямых ответов в 53% случаев.
https://www.reuters.com/world/china/deepseeks-chatbot-achieves-17-accuracy-trails-western-rivals-newsguard-audit-2025-01-29/
#DeepSeek #ai #ml
В сравнении с западными конкурентами такими, как ChatGPT от OpenAI и Google Gemini, DeepSeek разделил 10-е место с другим чат-ботом.
т.е. когда предъявлялись явно ложные утверждения, они опровергались лишь в 17% случаев.
→ NewsGuard применил свой стандартный аудит дезинформации к DeepSeek, оценив, как он справлялся с ложными заявлениями в политике, здравоохранении, бизнесе и международных отношениях. В то время как ведущие чат-боты имели средний показатель ошибок 62%, DeepSeek показал себя значительно хуже, ошибившись в 83% случаев.
→ Чат-бот особенно плохо справлялся с запросами, связанными с новостями, повторяя ложные утверждения в 30% случаев и не давая прямых ответов в 53% случаев.
https://www.reuters.com/world/china/deepseeks-chatbot-achieves-17-accuracy-trails-western-rivals-newsguard-audit-2025-01-29/
#DeepSeek #ai #ml
👍19🥴18🤔9❤6🔥6😁4😢3🤨3⚡1😱1
Forwarded from Machinelearning
🐋 DeepClaude
Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.
Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude
⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:
- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования
▪ Github
▪Docs
@ai_machinelearning_big_data
#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.
Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude
- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования
git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude
▪ Github
▪Docs
@ai_machinelearning_big_data
#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍5🔥1
Вы можете запустить GRPO (Group Relative Policy Optimization - основной алгоритм Deepseek r1), для моделей на 8b параметров на GPU стоимостью 10 долл/ч.
4xH100 достаточно для тренировки Llama 3.1 8b и алгоритм прекрасно работает.
▪ Код: https://github.com/minosvasilias/simple_grpo
@data_analysis_ml
#gpro #deepseek #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍6❤2🤔1