Малоизвестное интересное

Итоги года торгово-технологической войны Китая и США за лидерство в ИИ.
Отставание Китая с мая ‘23 по октябрь ‘24 сократилось в 30 раз.
Таков главный вывод бенчмарка SuperCLUE, позиционирующего себя, как «независимую стороннюю организацию по оценке искусственного интеллекта общего назначения (AGI)» с миссией «точной количественной оценки прогресса AGI, определения дорожной карты для движения человечества к AGI».
• Ход мировой гонки за лидерство моделей LLM, по сути, является гонкой двух лидеров: Китая и США. Правый верхний рис показывает, что отставание в этой гонке Китая от США почти «на целый круг» (30,12%) в мае ‘23 к октябрю ’24 сократилось всего до «метра» (1,29%). Однако, выход новой модели OpenAIo1 снова увеличил разрыв до «десятков метров» (8%).
• НО! В области моделей с открытым исходным кодом (правый нижний рис) Китай в 2024 не только догнал, но уже убедительно опережает США (при вводе запросов на китайском языке) - №1 и №2 среди тройки лидеров. Фактически, китайские модели с открытым исходным кодом приближаются к производительности лучших в мире моделей с закрытым исходным кодом на SuperCLUE: «Qwen2.5-72B-Instruct набрала 68,90 баллов, что на 2,34 балла ниже среднего показателя пяти лучших моделей с закрытым исходным кодом в мире»
• В целом же, к концу 2024 произошла диверсификация моделей в зависимости от их 1) общих способностей и 2) способностей создаваемых на их основе приложений (левый рис). В тройке «абсолютный лидеров», все три - модели США. Но следом за ними, опережая Gemini от Google DeepMind, три модели Китая.

N.B. Важно понимать, что колоссальный успех Китая:
1. Происходит на фоне все более затягивающейся хардверной удавки на шее из-за крепчающих экспортных ограничений США на поставку в Китай самых мощных чипов.
2. И хотя в 2024 Китаю удалось колоссально сократить отставание своих LLM, но это сделано, в основном, за счет их развитых способностей решения задач невысокой сложности. Разрыв между оценкой o1-preview на тесте SuperCLUE-Hard (64,89 балла) и оценкой топовой китайской модели GLM-4Plus (51,09) весьма существенен.

Успех LLM Китая в 2024 поколебал уверенность в том, что в области ИИ «деньги решают все».
#ИИгонка #Китай #США

80.0K viewsedited 12:55

Китайская «игра в прятки с ИИ-чипами» бьёт экспортный контроль США.
Исследование Университета Беркли спускает в унитаз стратегию США по сдерживанию Китая в области ИИ.
В этом исследовании в деталях и на конкретных примерах показывается, что Китай разработал сверхэффективную систему на стыке разведки, технологий, логистики и межотраслевой координации. И эта система обесценивает любые ужесточения экспортного контроля высокопроизводительных чипов для ИИ.

Не секрет, что любой экспортный контроль преодолим. Однако, на массовые поставки высокопроизводительных чипов для ИИ-систем попавшие под экспортный контроль США страны (в 1ю очередь, Китай и Россия) рассчитывать не могут. А для создания все более мощных ИИ нужны именно массовые поставки – в масштабах страны, это сотни и сотни тысяч чипов.

Будучи 100%но уверены в эффективности этого метода сдерживания, Госдеп США уже несколько лет лишь ограничивался все более плотным затягиванием гаек экспортного контроля. Однако, несомненные успехи Китая по сокращению своего отставания от США в области ИИ заставляют задуматься.
Как же так, высокопроизводительных чипов для ИИ у Китая явно недостаточно, а разрыв в производительности ИИ-систем Китая и США все сокращается и уже минимален?

Ответ на этот вопрос содержится в новом отчете трех научных центров университета Беркли. И этот ответ таков, что отвечающим за экспортный контроль чиновникам Министерства торговли США в пору застрелиться.

Ассиметричный ответ Китая сводит почти на нет любые ужесточения экспортного контроля. Китаю удалось разработать столь совершенную систему на стыке разведки, технологий, логистики и межотраслевой координации, что ей теперь никакой экспортный контроль ИИ-чипов не страшен.

Схема этой системы примерно такова.
• По заданию системы межотраслевой координации, некая структура (назовет ее здесь «разведка», хотя авторы отчета не используют этого слова, но это ясно из контекста) отслеживает планы США по введению изменений и дополнений экспортных ограничений на поставку мощных чипов для ИИ.
• Как только разведка решает, что некое оборудование для ИИ (назовем его «чип Х») США собираются включить в список экспортных ограничений, система межотраслевой координации командует ответственным за логистику поставок чипов и технологам, отвечающим за разработку:
- логистике надлежит сделать все возможное, чтобы обеспечить поставку запасов «чипа Х» впрок как можно в большем объеме;
- технологам надлежит срочно начать обратный реинжениринг «чипа Х» с целью научиться моделировать его функционал и характеристики на более простом оборудовании, не подпадающем под экспортный контроль.

В отчете приводятся конкретные примеры работы этой схемы, когда сочетание стратегического запаса впрок «чипа Х» и моделирования функционала и параметров «чипа Х» на более простом оборудовании успешно позволяло Китаю не только не отставать от США, но и сокращать свое отставание.

Вывод авторов исследования – при наличии у Китая этой эффективно работающей схемы, экспортного контроля США за поставкой чипов для ИИ недостаточно, чтобы помешать Китаю догнать (а там, кто знает) США в области ИИ. США нужна иная (комплексная) программа мониторинга и контроля не только оборудования, но и методов, инструментов и библиотек разработки новых моделей.
#ИИгонка #Китай #США

39.6K views18:42

Малоизвестное интересное

Скрытый потенциал русского ИИ для преодоления отставания от США и Китая.
Что если разрешить русским LLM материться без ограничений?
«Русский мат — … это не просто скабрезные ругательства. Это еще и эмоциональная беседа мужчин в критических ситуациях. Исконной матерной речью пользовались в мужских компаниях, и не для того, чтобы обругать друг друга, а чтобы весело, быстро, понятно и эмоционально объясниться друг с другом в экстремальных условиях, в опасных ситуациях. Такая речь обладает мощным не только психологическим, но, как показано выше, и физиологическим действием.»
Доктор психологических наук Леонид Александрович Китаев-Смык

Сразу предупрежу: это не шутка, не ирония и уж тем более не издевка.
На современном этапе развития ИИ все упирается в наличие огромных вычислительных мощностей, требуемых для обучения гигантских нейросетей-трансформеров. Об этом я талдычу уже несколько лет в постах под грифом «Есть «железо» - участвуй в гонке. Нет «железа» - кури в сторонке» [1, 2, 3]
Но экспортные ограничения крепчают. Их преодоление становится все накладней, и требуемый массовый характер таких поставок в Россию уже не видится реальным.
Разработка своего железа на горизонте достижимости в несколько лет тоже нереальна, т.к. на это требуются десятки миллиардов долларов и десятки лет. А для создания стратегической системы поставок, подобной китайской, среди российских госчиновников маловато китайцев.
В этой тупиковой ситуации остается надеяться либо на чудо, либо на какой-то уж совсем немыслимый творческий кульбит – некую фантастически перспективную идею.

Как у нас водится, примеров предложений таких, якобы, перспективных идей хватает во всех сегментах разработок российского ИИ: от, будто бы, небывало эффективных новых архитектур, до хитрейших и гениальных (по мнению их авторов) новых алгоритмов.
Но все они, в моем представлении, уступают по шедевриальности вот этой идее, недавно прозвучавшей в кулуарах крупной тусовки российских ИИ-разработчиков – новый класс матерящихся языковых моделей.

Речь об использовании уникального ресурсного языкового богатства русского языка (русского мата), потенциально способного стать ключевым конкурентным преимуществом больших языковых моделей, обучающихся на нерецензируемом корпусе русский текстов и не имеющих никаких ограничений на использование нецензурной лексики.

Эта довольно дикая на первый взгляд идея, по мысли ее сторонников, стоит на трёх слонах и черепахе по имени «аффорданс» (описание которых не умещается в ограниченный размер Телеграм поста и потому вынесено в лонгрид для подписчиков на Patreon, Boosty, VK и Дзен – подписывайтесь, ибо текст весьма интересный 😊).
Здесь же, из-за недостатка места, я лишь назову три связанных друг с другом следствия этой идеи.

1) Новейшее метаисследование пяти солидных академических центров показывает, что с точки зрения практического применения, «ругань представляет собой малорискованное, эффективное и недорогое вмешательство, которое может существенно улучшить физическую работоспособность» людей (см. рисунок).
2) Резонно предположить, что, будучи частью языка, ругань может быть использована языковыми моделями с большей лингвистической, семантической и эмоциональной эффективностью, чем это достижимо для людей.
3) При снятии цензурных ограничений при обучении и использовании LLM, уникальное преимущество русского мата могло бы стать малорискованным, эффективным и недорогим вмешательством, способным существенно улучшить интеллектуальную работоспособность не только языковых моделей, но и работающих с ними в гибридном режиме людей.

Своих комментариев на эту офигительную идею я давать не буду, дабы не портить одним читателям возможность ее уничижительной критики, а другим - ее восторженной поддержки.

Скажу лишь, что мое подробное обсуждение с пятью LLM (четырьмя американскими и одной китайской) показало их весьма позитивное отношение к этой «плодотворной дебютной идее».

#ИИгонка #Россия #Аффорданс

35.9K views14:05

Малоизвестное интересное

План «Б» от Кай-Фу Ли: Что делать, если США всё же станут гегемоном в AGI.
Как Китай собирается остаться №2, даже когда США подомнут под себя весь мир.
Одной фразой план таков: к моменту, когда в США создадут AGI, Китай должен успеть стать мировым лидером в агентских приложениях.
В октябре я рассказывал про то, что «Кай-Фу Ли объявил войну Nvidia и всей ИИ-экосистеме США. И судя по его последним достижениям, шансы победить есть» [1].
Но будучи реалистом и обладая колоссальным опытом, он понимает, что даже если «шансы есть», это отнюдь не гарантирует победу. А значит нужно обязательно иметь план «Б» на случай, если шансы не материализуются.

Прежде чем рассказать об этом плане (подробный рассказ самого Кай-Фу см. [2]), я тезисно расскажу, как Кай-Фу Ли видит ситуацию, при которой план «А» (стать #1 в мире ИИ) будет для Китая уже невозможным.
1. Не смотря на ряд обоснованных сомнений скептиков и уж видимых для экспертов техно-экономических сложностей, вероятность создания AGI примерно к 2030 весьма высока (обоснование этого читатель может найти в [3]).
2. Пятилетка движения к AGI будет иметь два движка:
a. Неукротимое масштабирование всего (HW, фундаментальные модели, вывод), потребующее астрономических сумм - сотен ярдов) – см. [4]
b. Ажиотажное заселение пока почти пустого рынка агентских приложений (см рис [5] из отчета [6])
3. В масштабировании США победят Китай и по деньгам, и по оборудованию. А при заселении рынка агентских приложений у Китая есть неплохие шансы.
4. Тот, кто первым разработает AGI, способный доминировать над конкурентами, не только достигнет технологического рубежа, но и неизбежно станет коммерческой монополией. Более того, такой прорыв, скорее всего, подстегнет амбиции стать абсолютным монополистом.
5. Скорее всего, абсолютным монополистом станет OpenAI, конкурирующая только с Anthropic (Google все больше отстает от пары лидеров; Цукер уже понял, что слил гонку, и выбрал тактику — “если не можешь победить, открывай исходный код”; Маск — темная лошадка, но не потянет и космос, и AGI; остальные не в счет).
6. Как только AGI окажется в руках Сэма Альтмана, все остальные могут курить бамбук.

Поэтому план «Б» таков.
1. Построить экосистему агентских приложений как ров - к тому времени, как OpenAI достигнет полного доминирования, у Китая уже должна быть надежная коммерческая экосистема агентских приложений. И когда США придут, чтобы сокрушить Китай, по крайней мере, у Китая будет возможность сопротивляться.
2. Копать этот ров Китай будет в понимании, что при заселении рынка агентских приложений будет переход от графических пользовательских интерфейсов (GUI) к разговорным пользовательским интерфейсам (CUI) и в конечном итоге к пользовательскому интерфейсу на основе делегирования (если ваш помощник умнее, способнее, осведомленнее и понимает вас лучше, чем вы сами, почему бы вам не позволить ему сделать все за вас)
3. Помимо этого понимания у Китая уже есть стратегия, в корне отличная от США
a. В компании США набирают самых умных, дают им огромные ресурсы и без колебаний сжигают GPU, создавая массу захватывающих результатов.
Но уменьшить эти результаты при коммерциализации очень сложно. Это как спроектировать самую роскошную, красивую и грандиозную кухню, а затем пытаться втиснуть ее в маленькую квартиру. Или создать самый быстрый, самый мощный двигатель и пытаться втиснуть его в малолитражку. Это просто не работает.
b. Поэтому цель Китая — не строить самый дорогой в мире AGI, а
1) создавать фундаментальные модели, обеспечивающие экономически эффективный вывод
2) Печь как пирожки всевозможные коммерческие приложения с разговорным и делегирующим интерфейсом.

PS Про термин AGI спорить нет смысла.
Речь об ИИ (уровня гениальных людей) на основе моделей, настолько же мощнее GPT-4 (уровень старшеклассника), насколько GPT-4 мощнее GPT-2 (уровень детсадовца). И на это до 2030 ресурсов и денег хватит. А про сознание, квалиа и прочую казуистику в контексте AGI – забейте.
#ИИгонка #AGI #Китай #США

51.2K views17:51

Малоизвестное интересное

Прорыв DeepSeek- - «это счастье для всех, даром, и … никто не уйдет обиженный!"
Самое важное и самое незамеченное последствие успеха Deepseek-R1.
Эти слова про счастье для всех произнес сталкер Рэдрик Шухарт на дне котлована, найдя Золотой Шар, исполняющий любые желания. Так заканчивается знаменитый роман братьев Стругацких "Пикник на обочине". И так же можно описать начало новой фазы мировой гонки к AGI.

Самое важное и самое пока что незамеченное большинством аналитиков (разве что, кроме Джека Кларка - соучредителя Anthropic, а ранее директора по политике внедрения в OpenAI) последствие успеха Deepseek-R1 в следующем:
• Прорыв Deepseek – это уже не прорыв Deepseek.
Будучи объявленным в открытый доступ, это улучшение модели (алгоритмы и методы обучения) становится прорывом всей мировой ИИ-индустрии.
• Это улучшение доступно всем. И потому его невозможно «откатить назад». Никому уже не придется изобретать это заново. Это улучшение быстро распространится, и станет вторым скачком прогресса ИИ. Первый скачок был связан с возможностями масштабирования. Теперь пришло время второго – оптимизация алгоритмов и методов обучения.
• 2й скачок, как и 1й, принесет наибольшую пользу тем компаниям, у кого больше денег и высокопроизводительного «железа» для вычислений. Таковы законы рынка и масштабирования. Так будет и теперь.

Вот что, на самом деле, наиболее важно в этой истории. А не американские горки стоимости акций производителей «железа» и разработчиков ИИ-моделей. И не, якобы, то, что Китай догнал и перегнал США.

Все это вторично и временно. А мировой прорыв всей ИИ-индустрии человечества (от США и Китая до России и Мальты) уже случился, и обратно его не откатить.

#ИИгонка #Китай #США

38.3K views11:26

Малоизвестное интересное

Кто получит «Мандат Неба»?
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем правее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).

На диаграмме видны две основные "границы эффективности" (pareto frontier): 
•  Синяя линия от OpenAI, показывающая их модели
•  Оранжевая линия от Gemini 2, которая, судя по надписи, предлагает "лучше, дешевле, круче"
•  Более дорогие и мощные модели в верхней левой части (например, различные версии GPT-4) 
•  Средний сегмент в центре (Claude 3.5, Gemini 1.5) 
•  Более доступные модели в правой части (Amazon Nova Lite, Gemini 1.5 Flash)

Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!

PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.

Но вряд ли конкуренты согласятся 😊

#ИИгонка

39.8K viewsedited 12:07

About

Blog

Apps

Platform