А вот скажите, есть ли среди вас кто-то, кто рубит в low-level-ML? Руками под CUDA писать, оптимизировать потоки данных, кэши, вот это всё? Если да, то черкните мне в личку (@oulenspiegel), возможно у меня для вас будет прямо хорошее предложение
Ну, с китайским новым годом!
Alibaba выпустила новую версию своей модели Qwen — Qwen 2.5 Max
— превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench и прочия и прочия
— подход к обучению классический (предобучение на широких данных + SFT + RLHF)
— архитектура MoE
Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
Чат: https://chat.qwenlm.ai (нужно выбрать модель Qwen2.5-Max)
HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
Обсуждение на reddit: https://www.reddit.com/r/singularity/comments/1ic5k67/its_chinese_new_year_qwen_25_max_beats_deepseek/
Alibaba выпустила новую версию своей модели Qwen — Qwen 2.5 Max
— превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench и прочия и прочия
— подход к обучению классический (предобучение на широких данных + SFT + RLHF)
— архитектура MoE
Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
Чат: https://chat.qwenlm.ai (нужно выбрать модель Qwen2.5-Max)
HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
Обсуждение на reddit: https://www.reddit.com/r/singularity/comments/1ic5k67/its_chinese_new_year_qwen_25_max_beats_deepseek/
Forwarded from Индикатор Шрёдингера (Москва)
YouTube
Сергей Марков : Революция ИИ и Геймдев
Сергей Марков — начальник Управления экспериментальных систем машинного обучения Дивизион общих сервисов «Салют» ПАО Сбербанк. Специалист в области искусственного интеллекта, автор шахматной программы SmarThink, Основатель научно-популярного портала 22century.ru.…
Шокирующие новости от ИА Панорама: https://panorama.pub/news/glava-deepseek-my-sozdali-nas
ИА Панорама
Глава DeepSeek: «Мы создали наш искусственный интеллект на основе советских разработок»
Основой для самой мощной нейросети стала советская Общегосударственная автоматизированная система учёта и обработки информации.
Forwarded from Карьера в Сбере!
This media is not supported in your browser
VIEW IN TELEGRAM
Научишь искусственный интеллект всему, что умеешь сам? 😵💫
Ищем в нашу технологичную команду AI-тренеров, которые помогут нейросетям складывать слова в мощные и грамотные тексты.
Если твои лонгриды разлетаются на цитаты, а AI уже давно стал близким другом — выбирай вакансию и откликайся:
👆 AI-тренер: редактор
👆 AI-тренер: англоязычный редактор-переводчик
👆 Руководитель команды AI-тренеров
Возможно, это тот самый случай, когда пригодится грамота за участие в «Русском медвежонке» 💫
Ищем в нашу технологичную команду AI-тренеров, которые помогут нейросетям складывать слова в мощные и грамотные тексты.
Если твои лонгриды разлетаются на цитаты, а AI уже давно стал близким другом — выбирай вакансию и откликайся:
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
🟣 https://aigents.timepad.ru/event/1412596/
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
Please open Telegram to view this post
VIEW IN TELEGRAM
aigents.timepad.ru
Семинар русскоязычного сообщества AGI / События на TimePad.ru
На пути к AGI: Обзор работ 2024-2025 года — Татьяна Шаврина (Llama, Главный научный сотрудник Института Языкознания РАН)
Китайские коллеги ещё покушоть принесли
Представляем Kimi k1.5 — мультимодальную модель уровня [GPT-4]o1
Производительность Sota short-CoT, превосходящая GPT-4o и Claude Sonnet 3.5 на 📐AIME, 📐MATH-500, 💻 LiveCodeBench с большим отрывом (до +550%)
Производительность long-CoT соответствует o1 в нескольких модальностях (👀MathVista, 📐AIME, 💻Codeforces и т. д.)
https://github.com/MoonshotAI/Kimi-k1.5
Предобучение языковой модели с предсказанием следующего токена эффективно для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Масштабирование обучения с подкреплением (RL) открывает новую ось для постоянного совершенствования искусственного интеллекта, обещая, что большие языковые модели (LLM) смогут масштабировать свои наборы обучающих данных, обучаясь исследованию с вознаграждением. Однако предыдущие опубликованные исследования не позволяли достичь конкурентоспособных результатов. В свете этого мы публикуем отчёт об обучении Kimi k1.5, нашей новейшей мультимодальной LLM, обученной с RL, включая описание её RL-методов, рецепты по подготовке мультимодальных данных и оптимизации инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми компонентами нашего подхода, который основан на упрощенной, эффективной структуре RL без привлечения более сложных методов, такие как поиск по дереву Монте-Карло, оценочные функции и модели процессного вознаграждения. Примечательно, что наша система достигает передовой эффективности рассуждений в различных бенчмарках и модальностях — например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista — что соответствует o1 OpenAI. Более того, мы представляем эффективные методы long2short, которые используют методы long-CoT для улучшения моделей short-CoT, что позволяет получить передовые результаты в области рассуждений short-CoT — например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench — превосходя существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5, с большим отрывом (до +550%)
Тут бот, вроде: https://kimi.ai/
Представляем Kimi k1.5 — мультимодальную модель уровня [GPT-4]o1
Производительность Sota short-CoT, превосходящая GPT-4o и Claude Sonnet 3.5 на 📐AIME, 📐MATH-500, 💻 LiveCodeBench с большим отрывом (до +550%)
Производительность long-CoT соответствует o1 в нескольких модальностях (👀MathVista, 📐AIME, 💻Codeforces и т. д.)
https://github.com/MoonshotAI/Kimi-k1.5
Предобучение языковой модели с предсказанием следующего токена эффективно для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Масштабирование обучения с подкреплением (RL) открывает новую ось для постоянного совершенствования искусственного интеллекта, обещая, что большие языковые модели (LLM) смогут масштабировать свои наборы обучающих данных, обучаясь исследованию с вознаграждением. Однако предыдущие опубликованные исследования не позволяли достичь конкурентоспособных результатов. В свете этого мы публикуем отчёт об обучении Kimi k1.5, нашей новейшей мультимодальной LLM, обученной с RL, включая описание её RL-методов, рецепты по подготовке мультимодальных данных и оптимизации инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми компонентами нашего подхода, который основан на упрощенной, эффективной структуре RL без привлечения более сложных методов, такие как поиск по дереву Монте-Карло, оценочные функции и модели процессного вознаграждения. Примечательно, что наша система достигает передовой эффективности рассуждений в различных бенчмарках и модальностях — например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista — что соответствует o1 OpenAI. Более того, мы представляем эффективные методы long2short, которые используют методы long-CoT для улучшения моделей short-CoT, что позволяет получить передовые результаты в области рассуждений short-CoT — например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench — превосходя существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5, с большим отрывом (до +550%)
Тут бот, вроде: https://kimi.ai/
GitHub
GitHub - MoonshotAI/Kimi-k1.5
Contribute to MoonshotAI/Kimi-k1.5 development by creating an account on GitHub.
Forwarded from ГОС ИТ Богатырёва
This media is not supported in your browser
VIEW IN TELEGRAM
Монополия на рынке ИИ — В С Ё?
Китайские нейросети DeepSeek и Qwen2.5-Max ворвались в игру, подняв ряд важных вопросов:
0️⃣ Можно ли создать ИИ быстро и дешево?
0️⃣ Как сравнивать ИИ-модели? Какие из них лучше?
0️⃣ Кто победит в технологической гонке: США или Китай?
Об этом и многом другом поговорили с Иваном Тюкиным (профессором Центра ИИ Сколтеха) и Сергеем Марковым (руководителем исследований в проекте GigaChat, Сбер).
Выпуск доступен на всех площадках:
ВКОНТАКТЕ
RUTUBE
YOUTUBE
PODCASTER.FM
ЯНДЕКС МУЗЫКА
Китайские нейросети DeepSeek и Qwen2.5-Max ворвались в игру, подняв ряд важных вопросов:
Об этом и многом другом поговорили с Иваном Тюкиным (профессором Центра ИИ Сколтеха) и Сергеем Марковым (руководителем исследований в проекте GigaChat, Сбер).
Выпуск доступен на всех площадках:
ВКОНТАКТЕ
RUTUBE
YOUTUBE
PODCASTER.FM
ЯНДЕКС МУЗЫКА
Please open Telegram to view this post
VIEW IN TELEGRAM