Machinelearning

⚡️ Андрей Карпаты высказал про дизайн ИИ-моделей мысль, которую большинство упускает из виду.

Его тезис: передовые модели не потому огромные, что технология сложная, а потому что данные для обучения мусорные.

Когда обычный человек думает про интернет, ему в голову приходят статьи Wall Street Journal, Википедия, серьёзные тексты.

Так вот, датасет для предобучения выглядит иначе. Если открыть случайные документы из реального корпуса, то там будут тикеры акций, битый HTML, спам и бессвязный текст.
По одной из оценок, Llama 3 сжимает информацию со скоростью всего 0.07 бита на токен. То есть модель помнит большую часть обучающих данных смутно.

Поэтому мы и строим модели на триллион параметров не потому, что нам нужен мозг такого размера, а потому что нужен движок сжатия такого масштаба, чтобы выжать хоть какой-то интеллект из потока шума. Большая часть параметров работает памятью, а не мышлением.

Предложение Карпаты - разделить эти две функции. Построить когнитивное ядро - модель, в которой остались только алгоритмы рассуждения и решения задач, без энциклопедического заучивания.

А рядом поставить внешнюю память, к которой модель обращается за фактами.

По его прогнозу, когнитивное ядро, обученное на качественных данных, способно выйти на настоящий интеллект при размере около миллиарда параметров. Для сравнения: флагманские модели сегодня крутятся в диапазоне от 200 миллиардов до 1.8 триллиона параметров, и большая часть этого веса уходит на запоминание интернет-помойки.

GPT-4o работает примерно на 200 миллиардах параметров и обходит оригинальный GPT-4 на 1.8 триллиона. Стоимость инференса на уровне GPT-3.5 с 2022 по 2024 упала в 280 раз, и почти весь этот выигрыш дали модели меньшего размера, обученные на более чистых данных с более продуманной архитектурой.

Настоящим узким местом ИИ сейчас является качество данных.

@data_analysis_ml

1👍207❤52🔥21💯9❤‍🔥2🤣2😁1

21.2K views10:24

Machinelearning

✔️

Qwen3.6-Max-Preview от Alibaba. Впечатления двойственные.

Прогресс по сравнению с Qwen3.6-Plus сразу в нескольких направлениях - агентское программирование, мировые знания, следование инструкциям.

Цифры в бенчмарках выглядят так: прирост в SkillsBench и SciCode около 10 пунктов, плюсы в SuperGPQA и ToolcallFormatIFBench.

Модель доступна и в веб-интерфейсе Qwen Studio, и через API Alibaba Cloud, контекстное окно 256K

Модель закрытая, исходников нет, что для части пользователей минус по сравнению с открытой линейкой Qwen. Сравнения в анонсе идут преимущественно с предыдущими моделями самой Qwen; прямых сопоставлений с актуальными конкурентами (GPT, Claude, Gemini, DeepSeek) в самом посте не приводится, оценивать относительную силу приходится по сторонним ресурсам.

Бенчмарки вроде QwenClawBench и QwenWebBench - внутренние, к ним стоит относиться со скептицизмом.

Blog: https://qwen.ai/blog?id=qwen3.6-max-preview
Qwen Studio: https://chat.qwen.ai/?models=qwen3.6-max-preview
API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.6-max-preview&serviceSite=international

@ai_machinelearning_big_data

#qwen

Please open Telegram to view this post