DeepSeek V3 - новый опенсорс лидер
На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.
Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.
Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.
До 8 февраля стоимость будет такая же как у V2, а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.
Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)
_______
Источник | #ai_newz
@F_S_C_P
-------
Секретики!
-------
На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.
Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.
Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.
До 8 февраля стоимость будет такая же как у V2, а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.
Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)
_______
Источник | #ai_newz
@F_S_C_P
-------
Секретики!
-------
Telegram
эйай ньюз
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview…
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview…
Убийца Mac Mini от Nvidia – Digits
Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!
— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.
На такой машинке можно инференсить модели вплоть до 200 млрд параметров. Можно соединить две такие малышки и запускать уже 405B модель.
Обещают выпустить в мае, цена вопроса - $3000.
Хочу себе такую домой! 🥺
_______
Источник | #ai_newz
___________________________
Nvidia официально представила новую линейку видеокарт RTX 50-й серии на архитектуре Blackwell. Анонсированы четыре модели: RTX 5090 за $1,999, RTX 5080 за $999, RTX 5070 Ti за $749 и RTX 5070 за $549. RTX 5090 и 5080 поступят в продажу 30 января, а 5070 Ti и 5070 — в феврале.
Интересно, что флагманская RTX 5090 получилась компактнее предшественницы и занимает всего два слота. При этом она оснащена 32 ГБ памяти GDDR7, имеет 21,760 CUDA-ядер и обещает двукратный прирост производительности по сравнению с RTX 4090. Правда, и энергопотребление выросло до 575 Вт (рекомендуется блок питания на 1000 Вт). Младшая же RTX 5070, по обещаниям компании, соответствует мощности нынешнего флагмана RTX 4090 — при в разы меньшей цене.
Ноутбучные версии RTX 50-й серии появятся в марте. RTX 5090 для ноутбуков получит 24 ГБ памяти GDDR7, RTX 5080 — 16 ГБ, RTX 5070 Ti — 12 ГБ, а RTX 5070 — 8 ГБ.
www.theverge.com
_______
Источник | #blognot
___________________________
RTX 5090 за $2000 - Nvidia показала 5000 серию видеокарт
Хуанг с барского плеча закинул в 5090 32 гигабайта видеопамяти с 1.8TB/s пропускной способности. По остальным характеристикам она в 1.5x-3x быстрее чем 4090.
Не забыли и про сегменты подешевле - в RTX 5070 обещают уровень производительности 4090, при этом новые видяхи стоят дешевле 4000 серии.
У новых GPU гора новых фич для геймеров - DLSS 4 теперь работает на основе трансформера, а не CNN, генерация кадров теперь генерит три промежуточных кадра вместо одного. Текстуры и материалы теперь сжимаются при помощи нейронок - и они потребляют вплоть до 3x меньше памяти.
Нужно ждать независимых обзоров, но пока что поколение выглядит очень интересно. Ждём релиза 30 января.
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!
— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.
На такой машинке можно инференсить модели вплоть до 200 млрд параметров. Можно соединить две такие малышки и запускать уже 405B модель.
Обещают выпустить в мае, цена вопроса - $3000.
Хочу себе такую домой! 🥺
_______
Источник | #ai_newz
___________________________
Nvidia официально представила новую линейку видеокарт RTX 50-й серии на архитектуре Blackwell. Анонсированы четыре модели: RTX 5090 за $1,999, RTX 5080 за $999, RTX 5070 Ti за $749 и RTX 5070 за $549. RTX 5090 и 5080 поступят в продажу 30 января, а 5070 Ti и 5070 — в феврале.
Интересно, что флагманская RTX 5090 получилась компактнее предшественницы и занимает всего два слота. При этом она оснащена 32 ГБ памяти GDDR7, имеет 21,760 CUDA-ядер и обещает двукратный прирост производительности по сравнению с RTX 4090. Правда, и энергопотребление выросло до 575 Вт (рекомендуется блок питания на 1000 Вт). Младшая же RTX 5070, по обещаниям компании, соответствует мощности нынешнего флагмана RTX 4090 — при в разы меньшей цене.
Ноутбучные версии RTX 50-й серии появятся в марте. RTX 5090 для ноутбуков получит 24 ГБ памяти GDDR7, RTX 5080 — 16 ГБ, RTX 5070 Ti — 12 ГБ, а RTX 5070 — 8 ГБ.
www.theverge.com
_______
Источник | #blognot
___________________________
RTX 5090 за $2000 - Nvidia показала 5000 серию видеокарт
Хуанг с барского плеча закинул в 5090 32 гигабайта видеопамяти с 1.8TB/s пропускной способности. По остальным характеристикам она в 1.5x-3x быстрее чем 4090.
Не забыли и про сегменты подешевле - в RTX 5070 обещают уровень производительности 4090, при этом новые видяхи стоят дешевле 4000 серии.
У новых GPU гора новых фич для геймеров - DLSS 4 теперь работает на основе трансформера, а не CNN, генерация кадров теперь генерит три промежуточных кадра вместо одного. Текстуры и материалы теперь сжимаются при помощи нейронок - и они потребляют вплоть до 3x меньше памяти.
Нужно ждать независимых обзоров, но пока что поколение выглядит очень интересно. Ждём релиза 30 января.
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Telegram
эйай ньюз
Убийца Mac Mini от Nvidia – Digits
Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!
— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.
На такой машинке можно инференсить…
Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!
— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.
На такой машинке можно инференсить…
🔥DeepSeek R1 - уровень o1 бесплатно
Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.
Веса R1
Пейпер
Код
Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.
Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).
Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.
Интеллект для всех, даром, и пусть никто не уйдёт обиженный!
Qwen 1.5B
Qwen 7B
Llama 8B
Qwen 14B
Qwen 32B
Llama 70B
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.
Веса R1
Пейпер
Код
Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.
Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).
Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.
Интеллект для всех, даром, и пусть никто не уйдёт обиженный!
Qwen 1.5B
Qwen 7B
Llama 8B
Qwen 14B
Qwen 32B
Llama 70B
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Telegram
эйай ньюз
🔥DeepSeek R1 - уровень o1 бесплатно
Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3…
Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3…
Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода,
Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).
Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.
Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.
@ai_newz
_______
Источник | #ai_newz
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).
Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.
Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.
@ai_newz
_______
Источник | #ai_newz
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Telegram
эйай ньюз
Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в…
Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen
У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё
➖ Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).
➖ Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.
➖ Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.
Веса Qwen-2.5-VL
Веса Qwen-2.5-1M
chat.qwenlm.ai
Источник: https://t.iss.one/ai_newz/3644
________________________
ДипСик, который рвет инфопространство, роняет акции Нвидия, вызывает панические атаки в Метачке, взял и бахнул генератор картинок!!
Не диффузия - Janus-Pro - это новая авторегрессионная модель, унифицированная MLLM которая разделяет visual encoding for multimodal understanding and generation.
Janus-Pro построен на базе DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base.
Идем тестировать, это все OPEN SOURCE!!!
huggingface.co
https://github.com/deepseek-ai/Janus
Источник: https://t.iss.one/cgevent/10937
_________________________
Perplexity добавили Reasoning в Pro Search
Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.
R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.
Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.
perplexity.ai
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё
➖ Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).
➖ Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.
➖ Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.
Веса Qwen-2.5-VL
Веса Qwen-2.5-1M
chat.qwenlm.ai
Источник: https://t.iss.one/ai_newz/3644
________________________
ДипСик, который рвет инфопространство, роняет акции Нвидия, вызывает панические атаки в Метачке, взял и бахнул генератор картинок!!
Не диффузия - Janus-Pro - это новая авторегрессионная модель, унифицированная MLLM которая разделяет visual encoding for multimodal understanding and generation.
Janus-Pro построен на базе DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base.
Идем тестировать, это все OPEN SOURCE!!!
huggingface.co
https://github.com/deepseek-ai/Janus
Источник: https://t.iss.one/cgevent/10937
_________________________
Perplexity добавили Reasoning в Pro Search
Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.
R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.
Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.
perplexity.ai
_______
Источник | #ai_newz
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
huggingface.co
Qwen2.5-VL - a Qwen Collection
Vision-language model series based on Qwen2.5