🇺🇸 Битва за AI-чипы: Конфликт NVIDIA и администрации Байдена
Администрация Байдена выпустила новые правила контроля экспорта AI-чипов ("Interim Final Rule on Artificial Intelligence Diffusion"), которые серьезно ограничивают продажу передовых процессоров в другие страны.
NVIDIA, владеющая ~90% рынка AI-чипов, жестко раскритиковала эти правила в расчёте на поддержку Трампа.
Ключевые моменты:
Байден хочет оставить контроль над развитием AI за США и 18 ключевыми союзниками (включая UK, Канаду, Японию, Тайвань)
Для остальных стран вводятся жесткие квоты на импорт AI-чипов
Также вводится контроль над "весами" AI-моделей (weights) - то есть над одним из самых важных параметров нейросетей - суть аналог умности.
NVIDIA называет это "бюрократическим кошмаром" и намекает, что при Трампе было/будет лучше 🤔
Правила вступают в силу через 120 дней - как раз когда Трамп возвращается в Белый дом.
Похоже, NVIDIA делает ставку на то, что он отменит ограничения.
Если правила останутся, это может серьезно повлиять на глобальное развитие AI:
- Замедлится распространение технологий в "непривилегированные" страны
- Усилится технологический разрыв между США+союзниками и остальным миром
- Возможен рост "черного рынка" AI-чипов
Интересно, что правила затрагивают не только железо, но и "веса" моделей.
Это первая попытка США взять под контроль сами AI-модели, а не только железо для их обучения.
Забавно, что NVIDIA, критикуя "регуляторный хаос" Байдена, сама не против регуляций - просто хочет, чтобы они были удобнее для бизнеса. А пока компания явно надеется на Трампа и смягчение политики.
В любом случае, эта история показывает, что контроль над AI становится ключевым элементом глобальной борьбы.
Все это конечно особенно интересно на фоне уверенного прогресса Китая с их Qwen и DeepSeek.
Еще пару лет и будет вопрос, - кто кому какие веса запрещать будет.
Ладно, посмотрим как там оно изменится через 7 дней.
#Nvidia #Biden #Trump #regulations
———
@tsingular
Администрация Байдена выпустила новые правила контроля экспорта AI-чипов ("Interim Final Rule on Artificial Intelligence Diffusion"), которые серьезно ограничивают продажу передовых процессоров в другие страны.
NVIDIA, владеющая ~90% рынка AI-чипов, жестко раскритиковала эти правила в расчёте на поддержку Трампа.
Ключевые моменты:
Байден хочет оставить контроль над развитием AI за США и 18 ключевыми союзниками (включая UK, Канаду, Японию, Тайвань)
Для остальных стран вводятся жесткие квоты на импорт AI-чипов
Также вводится контроль над "весами" AI-моделей (weights) - то есть над одним из самых важных параметров нейросетей - суть аналог умности.
NVIDIA называет это "бюрократическим кошмаром" и намекает, что при Трампе было/будет лучше 🤔
Правила вступают в силу через 120 дней - как раз когда Трамп возвращается в Белый дом.
Похоже, NVIDIA делает ставку на то, что он отменит ограничения.
Если правила останутся, это может серьезно повлиять на глобальное развитие AI:
- Замедлится распространение технологий в "непривилегированные" страны
- Усилится технологический разрыв между США+союзниками и остальным миром
- Возможен рост "черного рынка" AI-чипов
Интересно, что правила затрагивают не только железо, но и "веса" моделей.
Это первая попытка США взять под контроль сами AI-модели, а не только железо для их обучения.
Забавно, что NVIDIA, критикуя "регуляторный хаос" Байдена, сама не против регуляций - просто хочет, чтобы они были удобнее для бизнеса. А пока компания явно надеется на Трампа и смягчение политики.
В любом случае, эта история показывает, что контроль над AI становится ключевым элементом глобальной борьбы.
Все это конечно особенно интересно на фоне уверенного прогресса Китая с их Qwen и DeepSeek.
Еще пару лет и будет вопрос, - кто кому какие веса запрещать будет.
Ладно, посмотрим как там оно изменится через 7 дней.
#Nvidia #Biden #Trump #regulations
———
@tsingular
🤔8👍4
Microsoft консолидирует AI-разработку в CoreAI
Интересные новости из Рэдмонда!
Сатья Надела анонсировал создание нового подразделения CoreAI, которое должно перевернуть наше представление о разработке AI-приложений.
🔄 Что происходит:
Microsoft объединяет Dev Div, AI Platform и ключевые команды Office of the CTO в новое подразделение CoreAI
Во главе становится Jay Parikh (EVP of CoreAI)
Фокус на создании end-to-end стека для Copilot и AI-приложений
🚀 Почему это важно:
Microsoft видит, что мы входим в новую эру AI-платформ, где:
- 30 лет изменений сжимаются в 3 года
- Появляются агентные приложения с памятью и правами
- Весь стек разработки становится "AI-first"
🤔 Любопытный момент: Microsoft делает большую ставку на агентные системы, в отличие от более осторожного подхода некоторых других компаний. Azure должен стать главной инфраструктурой для AI, а GitHub Copilot будет использоваться как площадка для тестирования новых возможностей.
💡 Что дальше:
- Ждем новые паттерны UI/UX для AI-приложений
- Появление новых инструментов для работы с агентами
- Переосмысление того, как мы строим и поддерживаем код
Вот это, мне кажется, самое главное:
Весь стек разработки становится "AI-first"
Можно в признаки года заносить. Эпохальный разворот.
#Microsoft #CoreAI #Azure
———
@tsingular
Интересные новости из Рэдмонда!
Сатья Надела анонсировал создание нового подразделения CoreAI, которое должно перевернуть наше представление о разработке AI-приложений.
🔄 Что происходит:
Microsoft объединяет Dev Div, AI Platform и ключевые команды Office of the CTO в новое подразделение CoreAI
Во главе становится Jay Parikh (EVP of CoreAI)
Фокус на создании end-to-end стека для Copilot и AI-приложений
🚀 Почему это важно:
Microsoft видит, что мы входим в новую эру AI-платформ, где:
- 30 лет изменений сжимаются в 3 года
- Появляются агентные приложения с памятью и правами
- Весь стек разработки становится "AI-first"
🤔 Любопытный момент: Microsoft делает большую ставку на агентные системы, в отличие от более осторожного подхода некоторых других компаний. Azure должен стать главной инфраструктурой для AI, а GitHub Copilot будет использоваться как площадка для тестирования новых возможностей.
💡 Что дальше:
- Ждем новые паттерны UI/UX для AI-приложений
- Появление новых инструментов для работы с агентами
- Переосмысление того, как мы строим и поддерживаем код
Вот это, мне кажется, самое главное:
Весь стек разработки становится "AI-first"
Можно в признаки года заносить. Эпохальный разворот.
#Microsoft #CoreAI #Azure
———
@tsingular
🔥5⚡3👍2👨💻2❤1💯1
США обвиняет Китай в нечестном доминировании на рынке судостроения
Торговая комиссия США завершила расследование и выявила, что КНР несправедливо захватила мировой рынок кораблестроения.
Пекин якобы субсидирует верфи, занижает цены и использует другие методы господдержки для доминирования в отрасли.
Американская доля при этом на рынке упала с 7% до менее 0.2% за последние 30 лет.
Китайские компании контролируют более 50% мирового производства судов превышая судостроительные мощности США больше чем в 232 раза.
Комиссия рекомендует ввести компенсационные пошлины против китайских судостроителей.
Небольшой оффтопик, но симптоматично, - с ИИ будет так же, считаю.
#судостроение #Китай
———
@tsingular
Торговая комиссия США завершила расследование и выявила, что КНР несправедливо захватила мировой рынок кораблестроения.
Пекин якобы субсидирует верфи, занижает цены и использует другие методы господдержки для доминирования в отрасли.
Американская доля при этом на рынке упала с 7% до менее 0.2% за последние 30 лет.
Китайские компании контролируют более 50% мирового производства судов превышая судостроительные мощности США больше чем в 232 раза.
Комиссия рекомендует ввести компенсационные пошлины против китайских судостроителей.
Небольшой оффтопик, но симптоматично, - с ИИ будет так же, считаю.
#судостроение #Китай
———
@tsingular
👍20💯8
MiniMax-Text-01: 456B модель с контекстом на 4 млн. токенов
Китайская компания представила мощнейшую языковую модель c впечатляющими характеристиками:
456 млрд параметров, из которых 45,9 млрд активируются на каждый токен.
Скрестили три технологии: Lightning Attention (молниеносное внимание), Softmax и Mixture-of-Experts (MoE).
В итоге получили монстра, который может переварить аж 4 миллиона токенов при инференсе! 🚀
По бенчмаркам MiniMax-Text-01 идёт ноздря в ноздрю с GPT-4 и Claude 3.5 Sonnet, а где-то даже обгоняет.
Особенно порадовал их результат на тесте иголки в стоге сена - модель сохраняет 100% точность внимания даже на контексте в 4 миллиона токенов.
Архитектурно: 80 слоёв, после каждых 7 слоев lightning attention идёт классический softmax, 32 эксперта в MoE... И у экспертов еще 9216 скрытых слоя.
Подход к маршрутизации в MoE - используют top-2 стратегию. То есть каждый токен обрабатывается двумя экспертами из 32, что даёт хороший баланс между эффективностью и качеством.
В общем, похоже, китайские коллеги решили показать, что тоже умеют в большие модели. И судя по результатам - получилось весьма неплохо! 🎯
Попробовать бесплатно тут:
https://www.hailuo.ai/
API тут:
https://intl.minimaxi.com/
📑Paper: https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
💜 Hugging Face: https://huggingface.co/MiniMaxAI
💡GitHub: https://github.com/MiniMax-AI/MiniMax-01
Теперь есть железный аргумент брать 2 штуки NVidia Digits!
#Китай #LLM #MiniMax
———
@tsingular
Китайская компания представила мощнейшую языковую модель c впечатляющими характеристиками:
456 млрд параметров, из которых 45,9 млрд активируются на каждый токен.
Скрестили три технологии: Lightning Attention (молниеносное внимание), Softmax и Mixture-of-Experts (MoE).
В итоге получили монстра, который может переварить аж 4 миллиона токенов при инференсе! 🚀
По бенчмаркам MiniMax-Text-01 идёт ноздря в ноздрю с GPT-4 и Claude 3.5 Sonnet, а где-то даже обгоняет.
Особенно порадовал их результат на тесте иголки в стоге сена - модель сохраняет 100% точность внимания даже на контексте в 4 миллиона токенов.
Архитектурно: 80 слоёв, после каждых 7 слоев lightning attention идёт классический softmax, 32 эксперта в MoE... И у экспертов еще 9216 скрытых слоя.
Подход к маршрутизации в MoE - используют top-2 стратегию. То есть каждый токен обрабатывается двумя экспертами из 32, что даёт хороший баланс между эффективностью и качеством.
В общем, похоже, китайские коллеги решили показать, что тоже умеют в большие модели. И судя по результатам - получилось весьма неплохо! 🎯
Попробовать бесплатно тут:
https://www.hailuo.ai/
API тут:
https://intl.minimaxi.com/
📑Paper: https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
💜 Hugging Face: https://huggingface.co/MiniMaxAI
💡GitHub: https://github.com/MiniMax-AI/MiniMax-01
Теперь есть железный аргумент брать 2 штуки NVidia Digits!
#Китай #LLM #MiniMax
———
@tsingular
🤯9👍6🔥4❤1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT научился автоматически выполнять задачи по расписанию
OpenAI добавила функцию Scheduled Tasks для ChatGPT.
Функционал позволяет запускать автоматические действия в назначенное время.
Пользователи могут планировать выполнение задач, получая результаты в заданные интервалы.
Сервис поддерживает ежедневные, еженедельные и ежемесячные расписания.
Интеграция доступна для владельцев Plus и Enterprise подписок.
Теперь ChatGPT может работать, пока вы спите 😴
#ChatGPT #automation #scheduling
------
@tsingular
OpenAI добавила функцию Scheduled Tasks для ChatGPT.
Функционал позволяет запускать автоматические действия в назначенное время.
Пользователи могут планировать выполнение задач, получая результаты в заданные интервалы.
Сервис поддерживает ежедневные, еженедельные и ежемесячные расписания.
Интеграция доступна для владельцев Plus и Enterprise подписок.
Теперь ChatGPT может работать, пока вы спите 😴
#ChatGPT #automation #scheduling
------
@tsingular
👍9
Forwarded from CodeCamp
Там Google придумали трансформеры 2 — новую архитектуру Titan, которая должна решить проблему короткого контекста у нейросетей.
Одна из главных проблем LLM в том, как мало инфы они могут «помнить» — вы могли заметить, что если достаточно долго общаться с ChatGPT, то со временем он начинает забывать текст, который вы писали в начале диалога.
Чтобы избежать такого эффекта, Google предлагает добавить еще один вид памяти: долгосрочную.
Логика следующая: во время диалога с вами ИИ будет заносить из краткосрочной памяти (она называется «Внимание») в долгосрочную факты, которые его больше всего удивили (метрика «сюрприза»). А уже перед ответом LLM будет обращать внимание на оба типа памяти.
Еще даже предложили три варианта интеграции:
— Memory as Context: ИИ просто смотрит на постоянную память и добавляет ее в контекст;
— Memory as Gating: очень интересная схема. LLM заглядывает в память как в два сундука и выбирает нужные для ответа данные;
— Memory as Layer: подход, когда память интегрируется прямо в архитектуру модели, как отдельный слой. Ваш запрос будет проходить через все слои (сначала Внимание, потом постоянная память и т.д.) и «цеплять» важные данные.
AGI мы таким образом не достигнем, но пишут, что можно получить в Titan вплоть до 2+ млн токенов контекста. А это тоже важно для работы.
Одна из главных проблем LLM в том, как мало инфы они могут «помнить» — вы могли заметить, что если достаточно долго общаться с ChatGPT, то со временем он начинает забывать текст, который вы писали в начале диалога.
Чтобы избежать такого эффекта, Google предлагает добавить еще один вид памяти: долгосрочную.
Логика следующая: во время диалога с вами ИИ будет заносить из краткосрочной памяти (она называется «Внимание») в долгосрочную факты, которые его больше всего удивили (метрика «сюрприза»). А уже перед ответом LLM будет обращать внимание на оба типа памяти.
Еще даже предложили три варианта интеграции:
— Memory as Context: ИИ просто смотрит на постоянную память и добавляет ее в контекст;
— Memory as Gating: очень интересная схема. LLM заглядывает в память как в два сундука и выбирает нужные для ответа данные;
— Memory as Layer: подход, когда память интегрируется прямо в архитектуру модели, как отдельный слой. Ваш запрос будет проходить через все слои (сначала Внимание, потом постоянная память и т.д.) и «цеплять» важные данные.
AGI мы таким образом не достигнем, но пишут, что можно получить в Titan вплоть до 2+ млн токенов контекста. А это тоже важно для работы.
🔥9👍3🤔2
Forwarded from AbstractDL
COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
⚡6✍3🔥3
Обновился фреймворк AutoGen от Microsoft
Microsoft выпустила версию 0.4 программного фреймворка для разработки автономных многоагентных систем.
Платформа предоставляет возможность создавать быстрые прототипы интерактивных и независимых групп агентов на базе GPT-4.
Из инструментов уже доступны веб-поиск, исполнение кода и файловые операции.
Позволяет организовать групповые чаты с разными типами агентов для решения общей задачи.
Есть среда для настройки процессов без кода.
#Microsoft #AutoGen #MultiAgent
-------
@tsingular
Microsoft выпустила версию 0.4 программного фреймворка для разработки автономных многоагентных систем.
Платформа предоставляет возможность создавать быстрые прототипы интерактивных и независимых групп агентов на базе GPT-4.
Из инструментов уже доступны веб-поиск, исполнение кода и файловые операции.
Позволяет организовать групповые чаты с разными типами агентов для решения общей задачи.
Есть среда для настройки процессов без кода.
#Microsoft #AutoGen #MultiAgent
-------
@tsingular
👍8
Китай объявил о планах построить гигантскую солнечную электростанцию в космосе!
Суть проекта: огромная солнечная станция будет собирать энергию на геостационарной орбите (36000 км над Землей) и отправлять её на Землю с помощью микроволн.
Главный конструктор китайских ракет Long March сравнивает проект с "Three Gorges Dam в космосе" (Гидроэлектростанция на Ян-Цзы, генерирующая 100 млрд кВт⋅ч в год).
По расчётам, за год станция соберет энергии больше, чем вырабатывают все нефтепроекты Земле 🤯
Строительство планируется с помощью транспортировки частей станции на орбиту на сверхтяжелой ракете Long March-9 (грузоподъемность ракеты — 150 тонн)
Почему это крутое решение:
В космосе солнечная энергия в 10 раз интенсивнее
Нет проблем с облачностью
Работает 24/7
Lockheed Martin, Northrop Grumman, ESA и JAXA также разрабатывают похожие проекты.
Собрать на орбите 100 млрд кВт⋅ч. Исключительно в мирных целях! 🛸⚡️
#Китай #LongMarch #SpacePower
-------
@tsingular
Суть проекта: огромная солнечная станция будет собирать энергию на геостационарной орбите (36000 км над Землей) и отправлять её на Землю с помощью микроволн.
Главный конструктор китайских ракет Long March сравнивает проект с "Three Gorges Dam в космосе" (Гидроэлектростанция на Ян-Цзы, генерирующая 100 млрд кВт⋅ч в год).
По расчётам, за год станция соберет энергии больше, чем вырабатывают все нефтепроекты Земле 🤯
Строительство планируется с помощью транспортировки частей станции на орбиту на сверхтяжелой ракете Long March-9 (грузоподъемность ракеты — 150 тонн)
Почему это крутое решение:
В космосе солнечная энергия в 10 раз интенсивнее
Нет проблем с облачностью
Работает 24/7
Lockheed Martin, Northrop Grumman, ESA и JAXA также разрабатывают похожие проекты.
Собрать на орбите 100 млрд кВт⋅ч. Исключительно в мирных целях! 🛸⚡️
#Китай #LongMarch #SpacePower
-------
@tsingular
🔥13🤔9👍5⚡2🗿1
Sakana.ai - Transformer²: революция в самоадаптации нейросетей
Sakana AI выпустили любопытный препринт про новый подход к дообучению языковых моделей.
Суть в том, чтобы научить модели самостоятельно перестраивать свои веса под разные задачи - примерно как осьминог меняет цвет под окружение.
Технически всё строится на SVD-разложении весовых матриц (считай, раскладываем "мозг" LLM на независимые компоненты) и обучении специальных z-векторов через RL.
Каждый z-вектор - это как бы эксперт по конкретной задаче, который говорит какие компоненты усилить, а какие притушить.
Три режима работы: по промпту, через классификатор и few-shot адаптация.
Результаты неплохие - на GSM8K и других бенчмарках (в математике, программировании и логических рассуждениях) метод работает лучше чем LoRA.
Но самое интересное, что эти z-векторы можно комбинировать, получая что-то вроде составных экспертов под новые задачи и даже переносить между разными архитектурами,- Llama → Mistral, например.
Полный текст можно найти на сайте Sakana AI. Там подробнее расписано про методологию и эксперименты.
Paper
Очень похоже на COCONUT тоже про мышление векторами.
#Transformer2 #Sakana #Китай
-------
@tsingular
Sakana AI выпустили любопытный препринт про новый подход к дообучению языковых моделей.
Суть в том, чтобы научить модели самостоятельно перестраивать свои веса под разные задачи - примерно как осьминог меняет цвет под окружение.
Технически всё строится на SVD-разложении весовых матриц (считай, раскладываем "мозг" LLM на независимые компоненты) и обучении специальных z-векторов через RL.
Каждый z-вектор - это как бы эксперт по конкретной задаче, который говорит какие компоненты усилить, а какие притушить.
Три режима работы: по промпту, через классификатор и few-shot адаптация.
Результаты неплохие - на GSM8K и других бенчмарках (в математике, программировании и логических рассуждениях) метод работает лучше чем LoRA.
Но самое интересное, что эти z-векторы можно комбинировать, получая что-то вроде составных экспертов под новые задачи и даже переносить между разными архитектурами,- Llama → Mistral, например.
Полный текст можно найти на сайте Sakana AI. Там подробнее расписано про методологию и эксперименты.
Paper
Очень похоже на COCONUT тоже про мышление векторами.
#Transformer2 #Sakana #Китай
-------
@tsingular
🔥4❤1
MVoT - Multimodal Visualization-of-Thought: Новый подход к рассуждениям ИИ-систем
Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.
В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.
Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.
Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.
Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.
Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.
Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.
#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
Исследователи Microsoft Research представили Multimodal Visualization-of-Thought (MVoT) - новый метод рассуждений для мультимодальных языковых моделей, который позволяет ИИ "думать" одновременно словами и визуальными образами.
В отличие от существующих подходов, использующих только текстовые рассуждения (Chain-of-Thought), MVoT позволяет модели генерировать промежуточные визуализации своего хода мыслей.
Проект разработали и проверили на базе Chameleon-7B, и добились 20% прироста точности в сложных пространственных задачах.
Система использует сдвоенную токенизацию для текста и изображений, применяя механизм token discrepancy loss.
Успешно протестирована на задачах навигации в лабиринтах, установки оборудования и перемещения по сложным поверхностям.
Основные ограничения связаны с избыточной детализацией фона и высокими требованиями к вычислительным ресурсам.
Интересный вариант реализации внутреннего взора, нужно добавить еще размерности, грубо говоря, чтобы было не только сравнение плоских картинок, но 3Д объектов во времени и с изменением качеств объектов.
В общем так же как это сделано в эмбеддингах для текста.
#MVoT #Chameleon #MicrosoftResearch
———
@tsingular
👍5❤2✍2❤🔥1👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro - интересная TTS модель, для генерации голоса из текста.
Демо
Бесплатная, открытая, очень качественная и быстрая, но русского не знает.
Но есть лайфхак :)
Написать ей запрос транслитом
сама модель
#Kokoro #TTS
———
@tsingular
Демо
Бесплатная, открытая, очень качественная и быстрая, но русского не знает.
Но есть лайфхак :)
Написать ей запрос транслитом
сама модель
#Kokoro #TTS
———
@tsingular
🔥9😁6
Microsoft vs Salesforce: битва AI-титанов
Занимательная перепалка между MS и SF разворачивается на тему агентов!
Марк Бениофф, CEO Salesforce, разразился критикой в адрес Microsoft Copilot, называя его "огромным разочарованием".
Бениофф заявил, что клиенты практически не используют Copilot, предпочитая ChatGPT
Microsoft обвинили в том, что они просто "переупаковали OpenAI и добавили в Excel" 😂
Внутренние источники из Microsoft подтверждают проблемы: один из сотрудников даже назвал ситуацию "групповой иллюзией"
Особенно забавно, что это происходит на фоне заявления Сатьи Наделлы о том, что традиционные SaaS-платформы (намек на Salesforce) скоро "рухнут в эпоху AI-агентов".
Бениофф в ответ не стал церемониться, сравнив Copilot с печально известным Microsoft Clippy (Скрепка из 2000х) 😅
Что действительно интересно – похоже, проблема глубже, чем просто корпоративные перепалки.
По данным Business Insider, даже после масштабного обновления Copilot в ноябре, сотрудники Microsoft остаются скептичными.
Поговаривают, что Copilot "не способен выполнить 75% того, что обещает Microsoft".
А тем временем Salesforce хвастается своим Agentforce, который якобы обрабатывает "пару триллионов AI-транзакций в неделю" и настолько впечатляет клиентов, что те называют его "колдовством" 🪄
Ну пока они будут разбираться Китайские агенты захватят поляну :)
#Microsoft #Salesforce #Copilot
———
@tsingular
Занимательная перепалка между MS и SF разворачивается на тему агентов!
Марк Бениофф, CEO Salesforce, разразился критикой в адрес Microsoft Copilot, называя его "огромным разочарованием".
Бениофф заявил, что клиенты практически не используют Copilot, предпочитая ChatGPT
Microsoft обвинили в том, что они просто "переупаковали OpenAI и добавили в Excel" 😂
Внутренние источники из Microsoft подтверждают проблемы: один из сотрудников даже назвал ситуацию "групповой иллюзией"
Особенно забавно, что это происходит на фоне заявления Сатьи Наделлы о том, что традиционные SaaS-платформы (намек на Salesforce) скоро "рухнут в эпоху AI-агентов".
Бениофф в ответ не стал церемониться, сравнив Copilot с печально известным Microsoft Clippy (Скрепка из 2000х) 😅
Что действительно интересно – похоже, проблема глубже, чем просто корпоративные перепалки.
По данным Business Insider, даже после масштабного обновления Copilot в ноябре, сотрудники Microsoft остаются скептичными.
Поговаривают, что Copilot "не способен выполнить 75% того, что обещает Microsoft".
А тем временем Salesforce хвастается своим Agentforce, который якобы обрабатывает "пару триллионов AI-транзакций в неделю" и настолько впечатляет клиентов, что те называют его "колдовством" 🪄
Ну пока они будут разбираться Китайские агенты захватят поляну :)
#Microsoft #Salesforce #Copilot
———
@tsingular
👍6😁3👻3
Hailuo Audio HD: новый генератор голоса на 17 языках с клонированием
MiniMax представил модель T2A-01-HD - передовую технологию синтеза естественной речи с впечатляющими возможностями.
Система позволяет создавать реалистичные голоса из 10-секундного сэмпла или выбрать из 300+ готовых вариантов.
Встроенный эмоциональный движок автоматически определяет и воспроизводит тональность речи.
Поддерживается 17 языков включая русский, с региональными акцентами и диалектами.
Профессиональные звуковые эффекты добавляют реалистичности: акустика помещений, телефонные фильтры.
Доступна тонкая настройка высоты тона, скорости и эмоциональной окраски каждой фразы.
В открытом виде для локального запуска пока нет, но можно использовать через API.
#Hailuo #MiniMax #TTS #Китай
------
@tsingular
MiniMax представил модель T2A-01-HD - передовую технологию синтеза естественной речи с впечатляющими возможностями.
Система позволяет создавать реалистичные голоса из 10-секундного сэмпла или выбрать из 300+ готовых вариантов.
Встроенный эмоциональный движок автоматически определяет и воспроизводит тональность речи.
Поддерживается 17 языков включая русский, с региональными акцентами и диалектами.
Профессиональные звуковые эффекты добавляют реалистичности: акустика помещений, телефонные фильтры.
Доступна тонкая настройка высоты тона, скорости и эмоциональной окраски каждой фразы.
В открытом виде для локального запуска пока нет, но можно использовать через API.
#Hailuo #MiniMax #TTS #Китай
------
@tsingular
🔥10👍4✍2
MatterGen: новый метод создания новых материалов с помощью ИИ
🔬 Microsoft Research выпустила MatterGen - это ИИ-инструмент для генерации новых материалов с заданными свойствами.
Раньше новые материалы искали перебором миллионов вариантов методом скрининга - долго и дорого.
MatterGen делает это иначе: генерирует материалы под заданные свойства.
Примерно как трансформеры это делают для картинок или текста, только для кристаллических структур!
В основе - диффузионная модель, заточенная под 3D-геометрию материалов.
Обучена на 608,000 стабильных материалах из баз Materials Project и Alexandria.
Реальные результаты:
Модель уже проверили в лаборатории!
Сгенерировали новый материал TaCr2O6 с заданной упругостью 200 GPa, синтезировали его, и... получили материал с 169 GPa.
Погрешность менее 20% - для начала очень неплохо!
🌟 Бонус: Microsoft выложила код MatterGen в открытый доступ.
Так что ждём волну новых материалов от исследователей по всему миру!
Интересно будет посмотреть, что они нагенерят.
Алхимики бы обзавидовались :)
#Microsoft #MatterGen #MaterialScience
———
@tsingular
🔬 Microsoft Research выпустила MatterGen - это ИИ-инструмент для генерации новых материалов с заданными свойствами.
Раньше новые материалы искали перебором миллионов вариантов методом скрининга - долго и дорого.
MatterGen делает это иначе: генерирует материалы под заданные свойства.
Примерно как трансформеры это делают для картинок или текста, только для кристаллических структур!
В основе - диффузионная модель, заточенная под 3D-геометрию материалов.
Обучена на 608,000 стабильных материалах из баз Materials Project и Alexandria.
Реальные результаты:
Модель уже проверили в лаборатории!
Сгенерировали новый материал TaCr2O6 с заданной упругостью 200 GPa, синтезировали его, и... получили материал с 169 GPa.
Погрешность менее 20% - для начала очень неплохо!
🌟 Бонус: Microsoft выложила код MatterGen в открытый доступ.
Так что ждём волну новых материалов от исследователей по всему миру!
Интересно будет посмотреть, что они нагенерят.
Алхимики бы обзавидовались :)
#Microsoft #MatterGen #MaterialScience
———
@tsingular
🔥11👍4🤯3
HuggingFace анонсировали интересный курс, который начнётся в феврале, но записаться на него можно уже сейчас.
На этом курсе вы:
Освоите основы: поймете, как агенты воспринимают, рассуждают и действуют в своей среде.
Попробуете фреймворки агентов:
создание агентов с помощью LangChain, LlamaIndex и smolagents.
Изучите реальные примеры: посмотрите, как агенты автоматизируют задачи, генерируют код и многое другое.
Получите сертификат: подтвердите свои навыки с помощью выпускного проекта и оценки.
Записаться тут
Записываемся. Я уже. :)
Будем хорошие оценки друг-другу ставить. Hopefully.
Курс на английском будет, скорее всего.
#HuggingFace #обучение #курсы
———
@tsingular
На этом курсе вы:
Освоите основы: поймете, как агенты воспринимают, рассуждают и действуют в своей среде.
Попробуете фреймворки агентов:
создание агентов с помощью LangChain, LlamaIndex и smolagents.
Изучите реальные примеры: посмотрите, как агенты автоматизируют задачи, генерируют код и многое другое.
Получите сертификат: подтвердите свои навыки с помощью выпускного проекта и оценки.
Записаться тут
Записываемся. Я уже. :)
Будем хорошие оценки друг-другу ставить. Hopefully.
Курс на английском будет, скорее всего.
#HuggingFace #обучение #курсы
———
@tsingular
👍5🔥4✍1👌1
Media is too big
VIEW IN TELEGRAM
Unitree G1 обновился и стал еще подвижнее и ловчее.
Освоил бег по пересечённой местности.
Кстати я кажется понял почему физика кажется неестественной местами. Скорее всего у него в центре масс гироскоп. Но это только предположение.
В Китае Новый Год только 29 января. Так что они под свой НГ еще, чую, много обновлений выкатят. Терпим :)
#Unitree #robots #Китай
———
@tsingular
Освоил бег по пересечённой местности.
Кстати я кажется понял почему физика кажется неестественной местами. Скорее всего у него в центре масс гироскоп. Но это только предположение.
В Китае Новый Год только 29 января. Так что они под свой НГ еще, чую, много обновлений выкатят. Терпим :)
#Unitree #robots #Китай
———
@tsingular
👍14🔥5👾3
Media is too big
VIEW IN TELEGRAM
В Krea.ai добавили перевод из картинки в 3D объект и дальше создание в реальном времени картинки по вашему промпту с этими 3D моделями в динамике.
Заходим по ссылке
https://www.krea.ai/apps/image/realtime
подгружаем фотку, нажимаем на картинке правой кнопкой и переводим её в 3Д.
Потом удаляем 2D картинку и вуаля, - ваша 3Д модель используется как контрол для генерации финального изображения.
Скорость мгновенная.
Объем бесплатный улетает со свистом, правда.
3-4 3Д генерации и он закончится, дальше за деньги.
#KreaAi #нейрорендер
———
@tsingular
Заходим по ссылке
https://www.krea.ai/apps/image/realtime
подгружаем фотку, нажимаем на картинке правой кнопкой и переводим её в 3Д.
Потом удаляем 2D картинку и вуаля, - ваша 3Д модель используется как контрол для генерации финального изображения.
Скорость мгновенная.
Объем бесплатный улетает со свистом, правда.
3-4 3Д генерации и он закончится, дальше за деньги.
#KreaAi #нейрорендер
———
@tsingular
👍7✍2🆒2🗿1
Эрик Шмидт, бывший генеральный директор Google, и физик Брайан Грин обсудили стремительно развивающуюся область искусственного интеллекта (ИИ).
Очень интересный вышел диалог.
Лучше конечно самому смотреть интервью целиком, но если не знаете английский, - вот тезисная сводка:
Компьютерные науки и масштабирование
- Компьютерные науки стали ведущей специальностью, обогнав физику
- Понимание масштаба дает беспрецедентные возможности
"Мы, компьютерщики, понимаем масштаб. И компьютерные науки меняют мир, потому что мы делаем вещи в масштабе, который раньше был немыслим"
Скорость разработки и сборка
- Новое поколение использует готовые компоненты вместо написания кода с нуля
- Хакатоны демонстрируют радикальное ускорение разработки
"То, что раньше заняло бы у команды Google месяц работы 5-10 человек, сейчас делается за день"
Потенциал и масштаб развития ИИ
- ИИ будет в 10000 раз мощнее благодаря улучшениям в разных областях
- Развитие невозможно остановить
"К моменту завершения эта система будет в 10 000 раз мощнее: в 10 раз больше данных, в 10 раз лучше программное обеспечение, в 10 раз лучше математика"
Персональные ИИ-помощники
- Каждый человек получит доступ к персональному ИИ-эксперту (полимату)
- Системы будут адаптироваться под специализацию пользователя
"Мой разум и мой эксперт будут связаны. Я не буду знать, что делать, пока не посоветуюсь со своим экспертом"
Образование и здравоохранение
- ИИ-репетиторы обеспечат персонализированное обучение
- Системы будут адаптироваться к индивидуальному стилю обучения
"ИИ-репетитор для любого человека в мире на любом уровне образования на его языке, бесплатно на его телефоне"
Безопасность и регулирование
- Необходимы промышленные системы с водяными знаками
- Важна аутентификация источников информации
"Мы должны создать промышленные системы с водяными знаками... использовать систему открытых ключей для аутентификации"
Рекурсивное самосовершенствование
- ИИ сможет самостоятельно учиться и развиваться
- Системы будут комбинировать знания недоступными людям способами
"В какой-то момент они научатся комбинировать эти знания способами, недоступными людям"
Квантовые вычисления
- Классические вычисления приближаются к физическим пределам
- Квантовые вычисления перспективны для специализированных задач
"Очевидно, что квантовые компьютеры будут крайне полезны в очень специализированной математике"
Книга Шмидта "Бытие" исследует влияние ИИ на общество, включая этические вопросы воссоздания образов умерших.
транскрипт в комментарии, может кто захочет почитать детально.
#EricSchmidt #interview
———
@tsingular
Очень интересный вышел диалог.
Лучше конечно самому смотреть интервью целиком, но если не знаете английский, - вот тезисная сводка:
Компьютерные науки и масштабирование
- Компьютерные науки стали ведущей специальностью, обогнав физику
- Понимание масштаба дает беспрецедентные возможности
"Мы, компьютерщики, понимаем масштаб. И компьютерные науки меняют мир, потому что мы делаем вещи в масштабе, который раньше был немыслим"
Скорость разработки и сборка
- Новое поколение использует готовые компоненты вместо написания кода с нуля
- Хакатоны демонстрируют радикальное ускорение разработки
"То, что раньше заняло бы у команды Google месяц работы 5-10 человек, сейчас делается за день"
Потенциал и масштаб развития ИИ
- ИИ будет в 10000 раз мощнее благодаря улучшениям в разных областях
- Развитие невозможно остановить
"К моменту завершения эта система будет в 10 000 раз мощнее: в 10 раз больше данных, в 10 раз лучше программное обеспечение, в 10 раз лучше математика"
Персональные ИИ-помощники
- Каждый человек получит доступ к персональному ИИ-эксперту (полимату)
- Системы будут адаптироваться под специализацию пользователя
"Мой разум и мой эксперт будут связаны. Я не буду знать, что делать, пока не посоветуюсь со своим экспертом"
Образование и здравоохранение
- ИИ-репетиторы обеспечат персонализированное обучение
- Системы будут адаптироваться к индивидуальному стилю обучения
"ИИ-репетитор для любого человека в мире на любом уровне образования на его языке, бесплатно на его телефоне"
Безопасность и регулирование
- Необходимы промышленные системы с водяными знаками
- Важна аутентификация источников информации
"Мы должны создать промышленные системы с водяными знаками... использовать систему открытых ключей для аутентификации"
Рекурсивное самосовершенствование
- ИИ сможет самостоятельно учиться и развиваться
- Системы будут комбинировать знания недоступными людям способами
"В какой-то момент они научатся комбинировать эти знания способами, недоступными людям"
Квантовые вычисления
- Классические вычисления приближаются к физическим пределам
- Квантовые вычисления перспективны для специализированных задач
"Очевидно, что квантовые компьютеры будут крайне полезны в очень специализированной математике"
Книга Шмидта "Бытие" исследует влияние ИИ на общество, включая этические вопросы воссоздания образов умерших.
транскрипт в комментарии, может кто захочет почитать детально.
#EricSchmidt #interview
———
@tsingular
🔥8🤯3👍2⚡1