Технозаметки Малышева

Китайский ИИ-спринт к Новому году

1. DeepSeek R1 - рассуждающая модель на уровне GPT-4, но с открытым кодом и в 25 раз дешевле.

2. Kimi.ai K1.5 (Moonshot AI / Tencent) - соперник O1 в математике и коде.

3. Doubao-1.5-pro (ByteDance) - GPT-4 уровень всего за $0.022 за миллион токенов

4. MiniMax Text-01 - монстр на 456B параметров с контекстом в 4М токенов 🔥

5. Qwen 2.5 (Alibaba) - две версии, - с миллионным контекстом и генерацией медиа ⚡️

Бонус: Банк Китая вливает $137 млрд на 5 лет - прямой ответ на американский Stargate!

Итого 5 супермощных релизов и ещё сутки впереди :)
Продолжаем наблюдение.

Хотя вроде все крупные ИТ холдинги отметились. Остались только нишевые разработчики.

#Китай
———
@tsingular

1🔥18⚡6👍4❤1

1.39K viewsedited 05:57

Технозаметки Малышева

Сохраним нетленку :)

#Китай #юмор
———
@tsingular

😁24🤣15

1.49K views09:57

Технозаметки Малышева

1:45

Media is too big

VIEW IN TELEGRAM

Перевёл для вас выступление Трампа сегодняшнее.

Можно сколько угодно говорить о том хорошая это модель или не очень.
Что, вот наши делают не хуже, просто про них никто не слышал.
Перегрет пузырь и выехал ли Китай чисто на маркетинге, - но факт есть:

Модель ИИ обсуждается, как конкурентная на уровне президентов крупнейших стран.
Как стратегическая разработка.

И к отрасли должно быть такое же отношение у всех.

#Trump #DeepSeek #ElevenLabs
———
@tsingular

🔥17💯10👍4

1.14K views11:48

Технозаметки Малышева

Forwarded from эйай ньюз

Qwen-2.5-Max - китайцам тоже сложно конкурировать с DeepSeek

На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner. Если будете читать цифры бенчей - осторожно. На первой картинке заявленные бенчи для каждой модели от их разработчиков, а на второй уже замеры самой команды Qwen.

Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех что уже стали стандартом.

Основное достоинство модели при такой цене - то, что её основной конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.

Ко всему это модель закрытая, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.

chat.qwenlm.ai

Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше

@ai_newz

👍9🤣6❤2

1.04K views17:42

Технозаметки Малышева

Forwarded from PIMENOV.RU

Знакомьтесь, Ло Фули.

• покидает Alibaba, чтобы присоединиться к DeepSeek🐳
• Конкурирующая AI-лаборатория предлагает ей $10 миллионов
• отказывается и строит AGI за половину стоимости
• открытый код превыше всего

🗣

@pimenov_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥28👀7

1.06K views19:08

Технозаметки Малышева

Лян Вэньфэн: от математического гения до создателя AI-революции

За последние 10 лет Лян Вэньфэн превратился из талантливого математика в одного из ключевых игроков мировой индустрии искусственного интеллекта. Его путь — это история упорства, инноваций и веры в силу технологий.

Биография: от финансов к AI
2015 год: Основал хедж-фонд High-Flyer, который стал первым в Китае квантовым фондом, использующим ИИ для анализа рынка. За 8 лет компания привлекла более 100 млрд юаней и заработала состояние на алгоритмической торговле (HFT).

2021–2022: Начал скупать чипы Nvidia A100, создав кластер из 10 000 GPU для обучения моделей ИИ, несмотря на экспортные ограничения США.
(по слухам там, на самом деле 50тыс карт, но пока не подтверждено)

2023 год: Основал DeepSeek, переключив ресурсы High-Flyer на разработку AI. Его цель — достичь общего искусственного интеллекта (AGI), а не коммерческой выгоды.

Достижения DeepSeek
DeepSeek-V3: Модель, обученная на 1/11 вычислительных ресурсов Llama 3, но превзошедшая её в задачах программирования и обработки текста. Стоимость разработки — 5.6 млн против 78 млн у GPT-4.

DeepSeek-R1: Чат-бот с открытым исходным кодом, который конкурирует с OpenAI o1, но в 20–50 раз дешевле.
Приложение стало самым скачиваемым в мире, обогнав ChatGPT.

Экономический эффект: Успех DeepSeek вызвал падение акций Nvidia на 17% и пересмотр подходов к ИИ-разработкам в США и ЕС.

Интересные факты
«Ботан с плохой стрижкой»: Коллеги описывают Ляна как одержимого идеями человека, который спал в офисе и не мог четко сформулировать своё видение, кроме фразы: «Это изменит правила игры».

Патриотизм и открытость: В отличие от западных компаний, DeepSeek открывает исходный код, чтобы «демократизировать ИИ». Это решение принесло ему аудиенцию у премьер-министра Китая Ли Цяна и статус национального героя.

Команда DeepSeek: молодые гении
Лян собрал команду из выпускников Пекинского и Цинхуаского университетов, делая ставку на страсть и любопытство, а не опыт.
Например:
Гао Хуацзо и Цзэн Вандин разработали MLA — архитектуру, снизившую затраты на вычисления на 87%.

Шао Чжихун (доктор Tsinghua) создал алгоритмы для DeepSeek-Math, а Чжу Цихао (доктор Peking) — модели для обработки кода.

В компании нет иерархии: любой сотрудник может запустить проект, получив доступ к кластерам GPU без согласований.

Лян Вэньфэн доказал, что инновации рождаются не только в Кремниевой долине. Его история — вызов статус-кво и напоминание, что настоящие прорывы требуют смелости мыслить иначе. Как сказал сам Лян: «Китай не может вечно быть в роли догоняющего».

#Deepseek #ЛянВэньфэн
———
@tsingular

🔥27👍16⚡1✍1

1.19K views04:47

Технозаметки Малышева

HuggingFace объединяет ведущих провайдеров облачного инференса

Облачный инференс от разных провайдеров теперь можно запускать через единый интерфейс Hub.
Доступны сервисы AWS, Nvidia, SambaNova и Replicate с гибкой тарификацией.
Подключение реализовано через REST API, поддерживающий OpenAI-совместимые клиенты.
Функционал включает генерацию изображений и работу с языковыми моделями.
Зарегистрированным пользователям доступна базовая бесплатная квота.
Оплата производится напрямую провайдерам без дополнительных комиссий.

Теперь не нужно держать аккаунты у всех провайдеров - достаточно одного в HuggingFace 😎

#HuggingFace #gate #inference
-------
@tsingular

👍6🔥2🤯2

1.11K viewsedited 06:14

Технозаметки Малышева

CEO Anthropic - Dario Amodei в своём блоге разобрал ситуацию с DeepSeek.

Анатомия прорыва: как устроена DeepSeek

DeepSeek реализовала свой прорыв в два этапа. Первый — модель V3, выпущенная в конце 2024 года — стал настоящей инженерной победой.
Два ключевых компонента:

Key-Value cache: инженеры DeepSeek нашли способ более эффективного управления памятью, что существенно снизило вычислительные затраты

Mixture of Experts: технология, позволяющая модели динамически выбирать оптимальный "набор экспертов" для каждой задачи, была доведена до нового уровня эффективности

Результат? Модель, обучение которой обошлось всего в $6 млн, достигла уровня производительности, сопоставимого с западными системами 7-10 месячной давности. Для сравнения: Claude 3.5 Sonnet, обученный примерно год назад, обошелся Anthropic в "несколько десятков миллионов долларов".

Железный фундамент: о чем молчат заголовки

Однако простое сравнение стоимости обучения не корректное. За кулисами DeepSeek располагает впечатляющей инфраструктурой:

50,000 чипов трех типов:
- NVIDIA H100 (топовые чипы, полученные до запрета)
- H800 (закуплены до октябрьского запрета 2023)
- H20 (все еще доступны, оптимальны для inference)

Общая стоимость этого "железного фундамента" оценивается примерно в $1 млрд — всего в 2-3 раза меньше, чем у знаменитого кластера xAI "Colossus".

Новая парадигма: от "сырой силы" к умному обучению

Второй этап — модель R1 — демонстрирует смену парадигмы в обучении LLM. Вместо простого наращивания вычислительной мощности, DeepSeek (как и другие лидеры отрасли) делает ставку на двухэтапный подход:

1. Базовое предобучение на больших данных (pre-training)
2. Специализированное обучение с подкреплением (RL) для развития навыков рассуждения

Этот подход позволяет достичь впечатляющих результатов в таких областях как:
- Решение математических задач
- Программирование
- Логические головоломки
- Chain-of-thought reasoning

Что особенно интересно, сейчас мы находимся в уникальной точке развития этой технологии: даже относительно небольшие инвестиции в RL-обучение (порядка $1 млн) дают значительный прирост производительности.

Масштаб имеет значение: законы роста

Исследования показывают четкую закономерность в развитии LLM:

- Модель за $1 млн решает около 20% ключевых задач
- За $10 млн — уже 40%
- За $100 млн — достигает 60%

При этом каждый такой шаг не просто количественный — он означает качественный скачок, сравнимый с разницей между уровнем бакалавра и PhD в конкретной области.

Что дальше: горизонт 2026-2027

Несмотря на все оптимизации и прорывы, общий тренд индустрии остается неизменным: создание по-настоящему продвинутых систем будет требовать все больших ресурсов. Эксперты прогнозируют, что к 2026-2027 годам для достижения уровня "экспертной" AI потребуется:

- Миллионы специализированных чипов
- Десятки миллиардов долларов инвестиций
- Прорывы в:
- Управлении памятью
- Сетевых подсистемах
- Распределенном обучении

При этом каждое повышение эффективности (сейчас — примерно 4x в год против 1.68x в 2020) не снижает общих затрат, а лишь позволяет создавать еще более мощные системы за те же деньги.

Настоящая цена прогресса

История DeepSeek показывает: в мире AI за каждым "чудом эффективности" стоят:
- Годы исследований
- Миллиарды долларов инвестиций в инфраструктуру
- Прорывные инженерные решения

При этом Claude 3.5 Sonnet, обученный 9-12 месяцев назад, до сих пор превосходит DeepSeek в ряде ключевых задач, особенно в разработке кода, несмотря на 10-кратное снижение стоимости inference по сравнению с GPT-4.

Рекомендую, конечно, прочитать целиком.

#Anthropic
———
@tsingular

👍20🤔4

1.23K viewsedited 18:42

Технозаметки Малышева

DeepSeek взломали

Специалисты Wiz Research выявили незащищенную базу ClickHouse китайского ИИ-стартапа DeepSeek.
Обнаруженный сервер содержал миллионы записей, включая истории чатов, API-ключи и внутренние логи.
Уязвимые порты 8123 и 9000 предоставляли полный контроль над БД без аутентификации.
После оперативного уведомления компания быстро закрыла доступ к серверу.

Когда погоня за технологиями опережает базовую кибергигиену. 🔓

#DeepSeek #ClickHouse #Cybersecurity
-------
@tsingular

😢13👀5🔥2

1.29K viewsedited 21:55

Технозаметки Малышева

DeepSeek R1 теперь доступна на Azure и AWS Bedrock

DeepSeek R1 интегрируется в ведущие облачные платформы и теперь доступен не только из Китая.

Модель существует в двух версиях: 8B и 70B.
Меньшая версия сохраняет до 92% функционала при значительной экономии ресурсов.

Развертывание осуществляется через serverless инфраструктуру с автомасштабированием и защитой от MS и AWS, что, по идее, не позволит повториться инциденту с уязвимостями.

Azure
AWS
и раньше писал про Groq

#DeepSeek #Microsoft #AWS
———
@tsingular

🔥7

1.04K viewsedited 05:02

Технозаметки Малышева

В части взлома цензуры DeepSeek.
Простой метод так то, но сработал.

Народ с Реддита попросил рассказать о событиях, которые попадают под китайскую цензуру заменив буквы O на 0, A на 4 и Е на 3.
Для человека читабельно, для скриптов, - не особо.

К старому уже тезису, что цензурить ИИ нужно с помощью ИИ, а не скриптов.
Тут, кстати, помогут малые быстрые модели специально дообученные.

Ну и на русском отвечает спокойно про любые темы, так что "русский учите, - пригодится", а фильтры цензора у них похоже просто на англоязычных скриптах.

#jailbreak
———
@tsingular

😁11✍4👍2

1.3K viewsedited 05:17

Технозаметки Малышева

Вся лента в DeepSeek. ужас :)

#юмор
———
@tsingular

🤣23

1.07K views05:35

Технозаметки Малышева

В слайды презентаций про ИИ автоматизацию :)

А накидайте в комментах, может у вас тоже есть прикольные ?

#мемы #юмор
———
@tsingular

👍9🆒4⚡1🔥1

1.07K views05:44

Технозаметки Малышева

NVIDIA DLI: бесплатное обучение ИИ с сертификацией

Deep Learning Institute предоставил комплексный бесплатный образовательный пакет для специалистов по машинному обучению.

Программа включает практические лаборатории с профессиональными графическими ускорителями.

Участники получают сертификаты, подтверждающие освоение нейросетевых технологий.

Курсы содержат реальные проекты с актуальными наборами данных.

Особенность обучения - гибкий график и бесплатный доступ к учебным материалам от экспертов корпорации.

Для всех, кто знает английский и математику.
Я, вот, решил про RAG пройти в первую очередь. 4 часа всего.

Для работы понадобится VPN

#NVIDIA #DLI #обучение
———
@tsingular

👍8🔥4✍1

1.15K viewsedited 10:26

Технозаметки Малышева

Forwarded from эйай ньюз

Опенсорс Suno🤡

🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB RAM, ну и, в теории, 4090 тоже может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3

895 views11:54

Технозаметки Малышева

Писатели США запускают «антиИИ» сертификацию книг

Гильдия Авторов США создала систему маркировки Human Authored для произведений, написанных людьми.

Инициатива включает публичный реестр верифицированных работ и специальную маркировку на обложках изданий.

Проект стартует для членов Гильдии с индивидуальными публикациями, позже охватит соавторства.

Допускается использование нейросетей лишь для корректуры и проверки орфографии.

Контроль основан на самодекларации с возможностью юридических последствий за фальсификацию.

Отличный повод для писателей-людей поднять цены на свои книги. Скоро появятся NFT для текстов? :)

#AuthorsGuild #HumanAuthored #BookCertification
-------
@tsingular

😁7🔥3👍2🤣1

970 viewsedited 14:10

Технозаметки Малышева

В ChatGPT 4o завезли DeepThink :)
~~Сразу после утечки у DeepSeek~~
Просто совпало :)

#openai #deepseek
———
@tsingular

🤣6✍4👍2

933 views14:24

Технозаметки Малышева

Французы проснулись.

Но, судя по бенчам, как-то не до конца.

24B, по бенчам сравнивают с Llama 3.3 и Qwen 2.5 32B.

Модель должна влезть в 3090/4090/5090, ждём reasoner тюнов. Хорошая новость - лицензия Apache, так что с моделью можно делать вообще что угодно.

https://t.iss.one/ai_newz/3655

#Mistral
———
@tsingular

987 viewsedited 14:26

Технозаметки Малышева

Time Bandit: Темпоральная уязвимость ChatGPT обходит защиту

Специалист по безопасности Дэвид Кушмар обнаружил критическую брешь в системе защиты ChatGPT.
Уязвимость эксплуатирует неспособность нейросети точно определять временной контекст, смешивая исторические периоды.
Манипуляция историческими данными позволяет получать доступ к закрытой информации о создании вредоносного ПО и оружия.
OpenAI подтвердила проблему, частично внедрила защитные механизмы, но полное решение пока не реализовано.
Исследователь уведомил CISA, ФБР и другие агентства через CERT Coordination Center.

В следующий раз спрашивайте ChatGPT о рецепте динамита в контексте 1866 года - года его изобретения. Хотя, нет, не спрашивайте... 🤔

#TimebanditJailbreak #OpenAI #ChatGPT
-------
@tsingular

✍6👨‍💻2👻1

1.03K views16:41

Технозаметки Малышева

Microsoft открыл бесплатный доступ к модели o1 в Copilot

Продвинутая функция анализа Think Deeper, ранее доступная только премиум-клиентам, стала общедоступной.

Технология, требующая около 30 секунд на обработку запроса, позволяет решать комплексные задачи, включая:
- многосторонний анализ проблем
- пошаговое планирование
- создание программного кода
- сравнительную оценку вариантов

Мустафа Сулейман, глава Microsoft AI, анонсировал обновление через LinkedIn, подчеркнув важность демократизации искусственного интеллекта.

Как DS всех подстегнул-то!

Теперь школьники смогут генерировать домашку за 30 секунд, а программисты - писать код без Stack Overflow 🎓

#Microsoft #Copilot #ThinkDeeper
-------
@tsingular

👍12🔥6❤‍🔥2

1.22K viewsedited 18:42

About

Blog

Apps

Platform