Технозаметки Малышева – Telegram

Технозаметки Малышева

5.54K subscribers

2.79K photos

927 videos

38 files

3.06K links

Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb

Download Telegram

About

Blog

Apps

Platform

Технозаметки Малышева

5.54K subscribers

Технозаметки Малышева

Forwarded from Machinelearning

⚡️

Китай продолжает выпускать новые МОЩНЫЕ и ДЕШЕВЫЕ модели искусственного интеллекта!

Материнская компания Tik-Tok, ByteDance, выпустила Doubao-1.5-pro.:
🔸На бенчмарках с GPT-4o они идут рука об руку
🔸Экономичная цена:
- 0,022 доллара за миллион кэшированных токенов
- 0,11 доллара за миллион токенов
- 0,275 доллара за миллион выходных токенов
🔸Преимущество в стоимости:
- в 5 раз дешевле, чем DeepSeek
- Более чем в 200 раз доступнее, чем OpenAI o1
🔸Особенности:
- контекстное окно размером 32k + 256k
✅Архитектура: Для повышения эффективности используется MoE
✅ Влияние на рынок: Этот шаг является частью широкой китайской инициативы в области искусственного интеллекта от ByteDance и DeepSeek для доминировали на ИИ рынке

https://team.doubao.com/zh/special/doubao_1_5_pro

#Doubao #llm #ml #ai #release

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍1

1.03K views10:06

Технозаметки Малышева

Forwarded from Machinelearning

💰 Банк Китая выделит 1 триллион юаней (137 миллиардов долларов) в течение 5 лет для противостояния США в гонке искусственного интеллекта.

Это прямой ответ на проект «Звездные врата».

Евросоюз: максимум, что мы можем сделать, — это выделить 10 миллиардов на ИИ регулирование.

@ai_machinelearning_big_data

#ai #news #stargate #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9😁4

899 views04:38

Технозаметки Малышева

Forwarded from Machinelearning

⚡️ LLM4Decompile – это открытая большая языковая модель, предназначенная для декомпиляции бинарного кода в удобочитаемый исходный код.

В текущей версии она способна преобразовывать двоичные файлы Linux x86_64, скомпилированные с уровнями оптимизации GCC от O0 до O3, обратно в человеко-читаемый код на языке C.

Проект также ставит перед собой цель расширения поддержки различных архитектур и языков программирования.

Все материалы проекта доступны на Hugging Face под лицензией MIT и DeepSeek.

git clone https://github.com/albertan017/LLM4Decompile.git
cd LLM4Decompile
conda create -n 'llm4decompile' python=3.9 -y
conda activate llm4decompile
pip install -r requirements.txt

🟡

🟡

🟡

🟡

Colab

@ai_machinelearning_big_data

#llm #ml #ai #opensource #LLM4Decompile
#reverseengineering #decompile

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6🤯4

948 views14:11

Технозаметки Малышева

Forwarded from Machinelearning

🌟

KBLaM: новая архитектура интеграции знаний для языковых моделей от Microsoft Research.

Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.

В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».

В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.

Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.

Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.

В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:

🟢

Llama-3-8B-Instruct;

🟢

Llama-3.2-1B-Instruct;

🟢

Phi-3-mini-4k-instruct.

и эмбединги для генерации базы знаний:

🟠

text-embedding-ada-002;

🟠

all-MiniLM-L6-v2.

⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный llama_model.py в src/kblam/models.

📌Лицензирование: MIT License.

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MicrosoftResearch #KBLaM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13✍7❤‍🔥1

833 views12:23

Технозаметки Малышева

Forwarded from Machinelearning

📌

72B слишком много для VLM? А 7B параметров недостаточно!

QWEN только что выпустили новую модель на 32B параметров, Qwen2.5-VL-32B-Instruct.

Эта модель представляет собой значительный прогресс для своего размера. И что самое лучшее, она лицензирована Apache 2.

Модель выдает более подробные и структурированный ответы.

💡 Детальное понимание: превосходные возможности анализа изображений и визуальной логической дедукции.

📊 Превосходит сопоставимые модели, такие как Mistral-Small-3.1-24B и Gemma-3-27B-IT.

🚀 В нескольких тестах даже превосходит более крупный Qwen2-VL-72B-Instruct.

Еще один крутой релиз понедельника!

🟢

Блог: https://qwenlm.github.io/blog/qwen2.5-vl-32b/

🟢

Попробовать: https://chat.qwen.ai
ВЧ: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

🟢

Модель: https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct

@ai_machinelearning_big_data

#AI #ML #LLM #Dataset #HuggingFace

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10⚡1

1.16K views18:15

Технозаметки Малышева

Яндекс выпустил компактную 8B-модель YandexGPT-5-Lite с контекстом 32K

YandexGPT-5-Lite-8B-instruct – с 8 миллиардами параметров разместили на Hugging Face.

Модель создана на базе YandexGPT 5 Lite Pretrain без привлечения сторонних решений. Донастраивалась (SFT и RLHF) по примеру YandexGPT 5 Pro.

По бенчмаркам конкурирует с аналогичными Llama-3.1-8B-instruct и Qwen-2.5-7B-instruct.

Превосходно справляется с задачами, связанными со знанием русской культуры и фактологии.

Для запуска доступны варианты: HF Transformers, vLLM, а также квантизованная GGUF-версия для llama.cpp и ollama.

#Yandex #LLM
———
@tsingular

🔥12👍1

2.96K views14:02

Технозаметки Малышева

Forwarded from Machinelearning

⚡️ Gemma 3 QAT

Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.

Ключевая технология: QAT (Quantization-Aware Training)

Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).

Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.

Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».

Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.

Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.

ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf

✔️HF

@ai_machinelearning_big_data

#google #gemma #AI #ML #LLM #Quantization

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤‍🔥2❤1👍1

1.27K views05:46

Технозаметки Малышева

Forwarded from Machinelearning

🌟

Cемейство гибридных моделей Nemotron-H от NVIDIA.

NVIDIA выпустила новое семейство языковых моделей Nemotron-H, сочетающих архитектуры Mamba и Transformer. Эти гибриды обещают до 3х ускорения инференса по сравнению с чистыми Transformer-моделями аналогичного размера (Qwen или Llama).

Семейство поддерживает английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский языки.

Основной фокус Nemotron-H — баланс между эффективностью и интеллектом: даже при меньшем числе параметров (47–56 млрд.) модели демонстрируют точность, близкую к DeepSeek-V3-671B.

Особенность Nemotron-H — использование FP8 для претрейна. 56B-версию обучали на 20 трлн. токенов с квантованием тензоров «на лету», а сжатую в FP4 модель c 47B можно запускать на потребительской RTX 5090 с поддержкой контекста до 1 млн. токенов. Правда, пришлось пожертвовать частью слоев самовнимания — их заменили на более легкие Mamba-блоки, чтобы ускорить генерацию.

NVIDIA не стала тренировать компактные версии модели с нуля. Вместо этого использовали дистилляцию: 47B-модель получили из 56B, удалив половину «тяжелых» слоев и дообучив на 63 млрд токенов. Результат — почти та же точность, но на 1.2x быстрее.

В бенчмарках Nemotron-H обходит конкурентов в математике и коде: на GSM8k 56B-версия дает 93.7% против 90.9% у Qwen-72B. А 8B-модель, хоть и уступает в MMLU, вырывается вперёд в HumanEval+ (56.1%) — ожидаемо, с учетом ее instruct-оптимизации.

Пока модели доступны на HF как базовые, но NVIDIA обещает добавить инструктивные и мультимодальные версии.

▶️В опенсорсный релиз были выпушены чекпоинты с контекстом 8 тыс. токенов:

🟢

Nemotron-H-56B-Base-8K

🟢

Nemotron-H-47B-Base-8K

🟢

Nemotron-H-8B-Base-8K

📌 Лицензирование: NVIDIA Internal Scientific Research and Development Model License.

🟡

Страница проекта

🟡

Коллекция на HF

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #NemotronH #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

1.03K views16:08

Технозаметки Малышева

Стэнфорд запустил обновленный курс по созданию языковых моделей с нуля

В Стэнфорде стартовал новый курс CS336, на котором студенты будут разрабатывать собственные языковые модели с чистого листа.

От сбора данных до развёртывания — никаких готовых блоков кода!

Предупреждают, что придётся писать в 10+ раз больше кода, чем на других ИИ-курсах.

Требования серьёзные:
- профессиональное знание Python
- опыт с Pytorch и системной оптимизацией
- линейная алгебра
- основы статистики
- понимание основ машинного обучения

youtube

#Stanford #LLM #Education
———
@tsingular

⚡4✍3👍2

1.04K viewsedited 04:48

Технозаметки Малышева

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🗣️ RealtimeVoiceChat — живой голосовой чат с ИИ.

RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.

➡️

Как работает:

1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через RealtimeSTT (на базе Whisper)
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через RealtimeTTS (Coqui XTTSv2, Kokoro и др.)
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через turndetect.py

✨ Особенности:

- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API

✔️

Стек:

- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker

✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.

🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.

🔜

Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat

🔜

Демо: https://www.youtube.com/watch?v=-1AD4gakCKw

@ai_machinelearning_big_data

#tts #llm #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3⚡2❤1

1.51K views12:03

Технозаметки Малышева

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Mistral выпустила ризонинг-модель Magistral.

Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».

Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:

🟢опенсорсный Magistral Small с 24 млрд. параметров;

🟠корпоративный Magistral Medium.

Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).

В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.

Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

Техотчет

🟡

Web Demo

@ai_machinelearning_big_data

#AI #ML #LLM #Magistral #MistralAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥4❤1

1.25K views14:54

Технозаметки Малышева

Forwarded from Machinelearning

🌟

SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.

▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢

Включение новых фактических знаний;

🟢

Адаптация к новым задачам на основе примеров.

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4✍3⚡2

1.29K views07:16

Технозаметки Малышева

Forwarded from Machinelearning

🌟

MiniMax-M1: открытя reasoning‑LLM с контекстом 1M

MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning

Бенчмарки:

AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)

SWE-bench Verified: 56.0 vs 34.4 (Qwen3)

OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)

TAU-bench (airline): 62.0 vs 34.7 (Qwen3)

LongBench-v2: 61.5 vs 50.1 (Qwen3)

▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

@ai_machinelearning_big_data

#llm #reasoningmodels #minimaxm1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2👍1

2.04K views18:48

Технозаметки Малышева

Forwarded from Machinelearning

🌟

Kimi-Dev-72B: открытая модель для багфикса и тестирования кода.

Moonshot AI пополнил свое семейство Kimi моделью Kimi-Dev-72B, специализированной для программирования и разработанной для решения задач инженерии ПО. Она, как заявляют разработчики, особо эффективна в исправлении ошибок и написании тестов.

Ее сила в том, что она не просто пишет код, а имитирует мышление программиста, учитывая последствия изменений и проверяя их в автоматизированных тестах.

Специализация Kimi-Dev-72B состоит из 2 ролей: BugFixer (исправление ошибок) и TestWriter (написание тестов).

Эти роли работают в тандеме: BugFixer находит файлы, требующие правок, и предлагает код, который устраняет баг, а TestWriter создает тесты, которые должны провалиться без исправления и пройти после него. Обе роли используют одинаковый двухэтапный процесс — сначала локализация файла, затем редактирование кода.

Модель училась на данных с GitHub: миллионы задач и коммитов из реальных проектов. За основу взяли базовую Qwen 2.5-72B, которую дообучали на ~150 млрд. токенов, тщательно фильтруя данные, чтобы исключить тестовые наборы SWE-bench.

В процессе обучения с подкреплением, модель получала награду только если все тесты в Docker проходили успешно. Также применяли «умные» подсказки, отсеивая заведомо сложные задачи, и постепенное усложнение, добавляя сложные примеры по мере прогресса.

Kimi-Dev показала рекордные 60,4% на тесте SWE-bench Verified среди open-source решений.

В будущем планируется интеграция с IDE, CI/CD, чтобы сделать модель частью ежедневного рабочего процесса разработчиков.

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #KimiDev #MoonshotAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

1.51K views05:49

Технозаметки Малышева

Новая медицинская ИИ-модель превзошла конкурентов Google

Intelligent Internet выпустили II-Medical-8B-1706 — специализированную модель для медицинских задач на основе Qwen3-8B.

Модель показала 46.8% на бенчмарке HealthBench, что сравнимо с 27-миллиардной MedGemma от Google. При этом размер модели всего 8 миллиардов параметров.

Обучалась на 2.3 млн образцов медицинских данных через двухэтапный процесс: сначала supervised fine-tuning, затем reinforcement learning для улучшения рассуждений и безопасности.

Доступны готовые квантованные версии для быстрого запуска через vLLM или SGLang.

#MedicalAI #LLM #HealthTech
------
@tsingular

✍5👍4⚡2

1.31K views15:33

Технозаметки Малышева

PydanticAI — новый агентный фреймворк для продакшен-приложений с ИИ

Команда Pydantic выпустила собственный агентный фреймворк для создания LLM-приложений. PydanticAI работает с любыми моделями — OpenAI, Anthropic, Gemini, Deepseek, Ollama, Groq, Cohere, Mistral.

Ключевые фичи: типобезопасность, структурированные ответы, стриминг с валидацией, система внедрения зависимостей. Интеграция с Pydantic Logfire для мониторинга и отладки в реальном времени.

Задача — принести в GenAI разработку то же удобство, что FastAPI принес в веб-разработку. Фреймворк уже используется в продакшене для Pydantic Logfire.

Пока в бета-версии, но команда обещает стабильный API и активную поддержку.

GitHub

#PydanticAI #LLM #Framework
------
@tsingular

⚡4✍3

1.79K viewsedited 11:46

Технозаметки Малышева

Большое сравнение архитектур LLM 2025

Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.

Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.

Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.

Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.

Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.

#LLM #обучений #MoE
------
@tsingular

👍7✍2⚡1

1.2K viewsedited 09:04

Технозаметки Малышева

А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать

Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.

LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете

в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s

#benchmarks #inference #LLM #hardware
———
@tsingular

✍3

1.13K viewsedited 07:36

Технозаметки Малышева

Мозг и языковые модели создают общее смысловое пространство

Исследователи из Princeton доказали удивительную вещь: мозг людей, говорящих на разных языках, обрабатывает смыслы одинаково. Эксперимент с носителями английского, китайского и французского показал, что нейронные представления значений слов практически идентичны.

Несмотря на кардинальные различия в звучании, грамматике и письме, мозги всех слушателей активировались практически идентично в зонах понимания смысла. Языковые модели (BERT, Whisper) показали аналогичную конвергенцию.

Еще интереснее то, что языковые модели ИИ, обученные на этих языках, тоже сходятся к похожему пространству эмбеддингов. Особенно это заметно в средних слоях нейросетей.

- Энкодинг-модели, обученные на английском, успешно предсказывали активность мозга китайцев и французов
- Многоязычные модели автоматически группировали родственные языки (романские, германские) в едином пространстве
- Whisper выявил общие фонетические паттерны даже в кардинально разных языках

Получается, что несмотря на кардинальные различия в звуках, письменности и грамматике, все языки ведут к одному концептуальному пространству. И ИИ это воспроизводит.

Как-будто человеческое мышление использует универсальный "мета-API", а языки — это просто разные способы его вызова.

#neuroscience #LLM #multilingual
———
@tsingular

🔥14❤3

1.21K views10:40

Технозаметки Малышева

Forwarded from Machinelearning

🧠 Qwen3-MT — Alibaba продолжает жечь и выпускаетновую модель для машинного перевода.

🌍 Поддерживает 92+ языка, на которых говорит 95% населения мира

📚 Обучен на триллионах токенов из интернета, открытых документов и книгах, субтитров из видео.

🔬 Что внутри:
- Модель Qwen3-MoE-72B с архитектурой Mixture-of-Experts
- Заточена на переводческие фишки, поддерживает сложную терминологию и даже очень редкие слова.
- RLHF: обучение с подкреплением повышает точность и естественность модели

Возможности:
✅ Обеспечивает качественный перевод в реальном времени
✅ Контроль стиля и терминов
✅ Масштабируемость для API и продакшена
✅ Цена — от $0.5 за миллион токенов

🟡 Попробовать демку: https://huggingface.co/spaces/Qwen/Qwen3-MT-Demo
🟡 ModelScope: https://modelscope.cn/studios/Qwen/Qwen3-MT-demo

🟡

Документация API: https://alibabacloud.com/help/en/model-studio/translation-abilities

🟡

Блог с подробностями: https://qwenlm.github.io/blog/qwen-mt/

@ai_machinelearning_big_data

#Qwen #Alibaba #ml #llm #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡4❤2🔥1

1.33K views19:07