Alibaba проверяет ИИ-агентов на умение укладываться в бюджет
Команда Alibaba выпустила DeepPlanning - бенчмарк для оценки ИИ-агентов в долгосрочном планировании. Тест проверяет способность работать с жесткими временными и финансовыми ограничениями. Это не пошаговое рассуждение, а глобальная оптимизация всего плана.
Бенчмарк включает два сложных домена. Первый - планирование многодневных путешествий с поминутным расписанием. Второй - сложный шопинг с комбинированием купонов. Каждая задача имитирует реальную среду с API для сбора информации.
https://mltimes.ai/alibaba-proveryaet-ii-agentov-na-umenie-ukladyvatsya-v-byudzhet/
Команда Alibaba выпустила DeepPlanning - бенчмарк для оценки ИИ-агентов в долгосрочном планировании. Тест проверяет способность работать с жесткими временными и финансовыми ограничениями. Это не пошаговое рассуждение, а глобальная оптимизация всего плана.
Бенчмарк включает два сложных домена. Первый - планирование многодневных путешествий с поминутным расписанием. Второй - сложный шопинг с комбинированием купонов. Каждая задача имитирует реальную среду с API для сбора информации.
https://mltimes.ai/alibaba-proveryaet-ii-agentov-na-umenie-ukladyvatsya-v-byudzhet/
OpenAI готовит соцсеть с Face ID против ботов
OpenAI разрабатывает собственную социальную сеть с биометрической проверкой пользователей. Об этом сообщает Forbes со ссылкой на источники в компании. Проект находится в стадии разработки.
Платформу задумали как место для реальных людей. Главная цель - решить проблему ботов в соцсетях. Каждый аккаунт должен быть привязан к живому человеку через биометрию.
https://mltimes.ai/openai-gotovit-soczset-s-face-id-protiv-botov/
OpenAI разрабатывает собственную социальную сеть с биометрической проверкой пользователей. Об этом сообщает Forbes со ссылкой на источники в компании. Проект находится в стадии разработки.
Платформу задумали как место для реальных людей. Главная цель - решить проблему ботов в соцсетях. Каждый аккаунт должен быть привязан к живому человеку через биометрию.
https://mltimes.ai/openai-gotovit-soczset-s-face-id-protiv-botov/
Спойлер.
Уже неделю у нас в ру инфополе и пару недель в англоязычном шумит один инструмент. Сейчас это один из самых быстрорастущих проектов в истории GitHub. Я специально не писал про него, ниже поймёте почему.
Его прозвали бесплатный, опенсорсный Джарвис/cуперагент и т.д. и т.п. Работает на вашем компьютере, умеет всё и даже больше — прям крутая штука. Делает за вас всю работу. Умеет не просто текстом давать ответы, а действительно выполнять задачи на вашем компьютере. Назвали его Clawdbot, потом Антропики обиделись, что это созвучно с их Claude и теперь это Moltbot.
В общем это действительно вещь и правда может многое (привет Мавроди). Но мне начали поступать вопросы в инсту по поводу этого зверя. Решил всё-таки прервать радиомолчание на эту тему.
Не буду описывать функционал. Я просто хочу предостеречь тех, кто сууупер далёк от этого. Не трогайте, если не понимаете что, куда и зачем.
Я не являюсь спецом по безопасности, но даже моих знаний хватает, чтобы понять, что этого агента умелыми руками взломать можно через pdfку со скрытым текстом. А так как он работает на вашем комьюетере — злоумышленник суперлегко получает не просто пару строчек данных или номер карточки, а вообще контроль над вашим компом. Но помимо этого легко гуглятся предостережения реальных спецов по безопасности, которые уже нашли кучу уязвимостей.
Именно поэтому, если уж решились тестить эту штуку, то выделяйте деньги на отдельный комп (знающие массово скупают macmini) или VPS хотя бы. И на новой машине, понятное дело, не заходим ни в какие свои личные или рабочие аккаунты и уже тогда балуйтесь сколько душе угодно.
Короче это пост предостережение для тех, кто любит тестировать, но не обладает массивными знаниями по кибербезопасности. На личные машины не ставим, на рабочие тоже.
гуглите
security issues clowdbot (кликабелльно для копирования)Но в целом — очень бодрый проект. Действительно хороший. Разработчиком проделана крутая работа, но всё продумать невозможно. Просто, если нет технической базы, то не лезьте — подождите полгода. Рынок после этого успеха взорвется и инфы будет много.
Всем кибербезопасности и обычной тоже❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Привет, друзья!
ИИ, нейросети и IT — в одной папке
Мы собрали папку с каналами для тех, кто хочет применять ИИ системно и получать реальный результат.
Внутри папки:
➕ Все каналы про ИИ, нейросети и технологии — в одной папке по ссылке ниже
👉 https://t.iss.one/addlist/HLZ38LjFQco1ZjVi
Хочу добавить свой канал в папку
ИИ, нейросети и IT — в одной папке
Мы собрали папку с каналами для тех, кто хочет применять ИИ системно и получать реальный результат.
Внутри папки:
🔵 нейросети: GPT, DeepSeek, OpenAI, LLaMA, Grok — практические кейсы и сравнения🔵 промпты и ИИ-агенты под конкретные задачи🔵 сборка ИИ-систем и автоматизация процессов🔵 ИИ-боты и ассистенты для бизнеса и экспертов🔵 ускорение работы и рост результатов ×2🔵 карьера в IT и AI, актуальные технологии и тренды
👉 https://t.iss.one/addlist/HLZ38LjFQco1ZjVi
Хочу добавить свой канал в папку
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
xAI запустил API для генерации и редактирования видео
Секунда генерации в Grok Imagine стоит 5 центов.
https://x.ai/news/grok-imagine-api
Секунда генерации в Grok Imagine стоит 5 центов.
https://x.ai/news/grok-imagine-api
Forwarded from Индекс дятла
«Безлимит» — слово из прошлого
— Клиентов больше, дохода — меньше, — удивился стартапер
— Халява закончилась
Раньше мы сидели на схеме «написал код, раздал миллионам, стрижешь купоны». Обслуживание софта — копейки. Отсюда — безлимитные тарифы и фиксированные цены.
ИИ сломал игру.
Себестоимость ответа на вопрос «сколько будет 2 + 2» обходится три копейки. «Посмотри 400 файлов, собери бенчмарки и сделай презентацию» — три тысячи.
Тот же пользователь, тот же продукт, разница в сто тысяч раз.
Предложи безлимит за 20 баксов и один умник загонит тебя в долги.
Что становится важным:
1) Выбрать вариант масштабирования цены. По функциями (как Netflix — больше экранов = дороже); по использованию (как Stripe — больше транзакций = больше платишь), по результату (как Uber — платишь за поездку, не за приложение). Для ИИ чаще работает второй или третий.
2) Определить, за что берешь деньги. Не «доступ к продукту». А конкретно: количество запросов, выполненные задачи. OpenAI даёт бесплатникам 10 сообщений в GPT-5 каждые 5 часов. Платникам — 160 каждые 3 часа. Про-план — безлимит. Простая логика.
3) Брать больше. За ИИ-функции готовы платить $4-30 в месяц сверху обычной цены. Потому что ИИ заменяет человеческую работу, а не автоматизирует кнопки. Harvey и 11x ставят $2000 в месяц за ИИ-агентов — потому что позиционируют их как замену сотрудникам.
4) «Починить» триалы. 30-дневный бесплатный период — это из мира, где обслуживание стоило ноль. Notion даёт 10 ИИ-кредитов на пробу. Кончились — плати. Это честнее и предсказуемее по затратам.
Вывод прост: себестоимость теперь определяет половину цены. Демпинг остался в прошлом.
— Клиентов больше, дохода — меньше, — удивился стартапер
— Халява закончилась
Раньше мы сидели на схеме «написал код, раздал миллионам, стрижешь купоны». Обслуживание софта — копейки. Отсюда — безлимитные тарифы и фиксированные цены.
ИИ сломал игру.
Себестоимость ответа на вопрос «сколько будет 2 + 2» обходится три копейки. «Посмотри 400 файлов, собери бенчмарки и сделай презентацию» — три тысячи.
Тот же пользователь, тот же продукт, разница в сто тысяч раз.
Предложи безлимит за 20 баксов и один умник загонит тебя в долги.
Что становится важным:
1) Выбрать вариант масштабирования цены. По функциями (как Netflix — больше экранов = дороже); по использованию (как Stripe — больше транзакций = больше платишь), по результату (как Uber — платишь за поездку, не за приложение). Для ИИ чаще работает второй или третий.
2) Определить, за что берешь деньги. Не «доступ к продукту». А конкретно: количество запросов, выполненные задачи. OpenAI даёт бесплатникам 10 сообщений в GPT-5 каждые 5 часов. Платникам — 160 каждые 3 часа. Про-план — безлимит. Простая логика.
3) Брать больше. За ИИ-функции готовы платить $4-30 в месяц сверху обычной цены. Потому что ИИ заменяет человеческую работу, а не автоматизирует кнопки. Harvey и 11x ставят $2000 в месяц за ИИ-агентов — потому что позиционируют их как замену сотрудникам.
4) «Починить» триалы. 30-дневный бесплатный период — это из мира, где обслуживание стоило ноль. Notion даёт 10 ИИ-кредитов на пробу. Кончились — плати. Это честнее и предсказуемее по затратам.
Вывод прост: себестоимость теперь определяет половину цены. Демпинг остался в прошлом.
Forwarded from Serge_AI 1.0
This media is not supported in your browser
VIEW IN TELEGRAM
Это было лишь вопросом времени. Гугл съел на поле битвы браузеров всех собак и оставалось только ждать, когда ребята пройдут круги своих бюрократических адов для внедрения этого в самый популярный браузер в мире.
Короче гугл представили новый хром. Всё то же самое, что и Perplexity Comet, ChatGPT Atlas, но только сильнее в разы. Агентные фишки, плюс там же нанабанана, плюс интеграция всех остальных сервисов — короче именно это преобразит через год модель серфинга интернета буквально через год. С помощью нового браузера они куснут ещё большой кусочек рынка пользователей llm. Наверное Альтман снова запустил красный код.
Да, Perplexity OpenAI показали как можно. Какой-то процент таких как я и некоторые из вас — поставили себе и комету и атлас. Но большинство людей сидят на хроме и не дергаются. И вот хром становится действительно сильной и современной штукой. Ясно и понятно, что для хорошей работы этих ИИ фукнций будьте добры оформить подписочку. А там ещё и в облако дают 2тб и много всяких вкусностей. И модель Gemini 3 pro хороша. Короче гугл ещё сократит разрыв между ними и Open Ai в этом году. А учитывая их научные подразделения и модели миров (типа Genie) и многое другое — Альтману придётся туго в 2026м.
Пока что к сожалению это только для американского рынка, но подождём и будет у всех. Может можно как-то с бубном поплясать и получить вне США — не знаю, если знаете напишите в комментах. Другим будет полезно.
ссылка на релиз
p.s. знаю, что два поста за пару часов — не мой стиль, но тут не мог удержаться)) тем более первый больше предостережение, чем инфа
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from AI MM | Нейросети | Технологии
🧩 Минималистичный промпт для Nano Banana - выглядит как премиум-документация
Чистые, дорогие визуалы без лишнего шума.
Подходит для любых предметов: техника, авто, гаджеты, дизайн-объекты.
Как использовать:
— загружаете одну фотографию объекта
— вставляете промпт ниже
— получаете минималистичную презентацию в стиле industrial / Scandinavian design
Идеально для:
— портфолио
— презентаций
— концептов
— визуалов “как у Apple / Porsche / IKEA”
⬇️ Сам промпт (копируйте целиком):
👍
__________________
Подписаться🤖
Чистые, дорогие визуалы без лишнего шума.
Подходит для любых предметов: техника, авто, гаджеты, дизайн-объекты.
Как использовать:
— загружаете одну фотографию объекта
— вставляете промпт ниже
— получаете минималистичную презентацию в стиле industrial / Scandinavian design
Идеально для:
— портфолио
— презентаций
— концептов
— визуалов “как у Apple / Porsche / IKEA”
⬇️ Сам промпт (копируйте целиком):
{
"reference": {
"type": "image",
"usage": "Use the uploaded image as the sole source of truth. Do not assume product category in advance."
},
"scene": {
"description": "Minimal, premium product presentation layout inspired by high-end industrial design and product documentation.",
"background": "Pure white, clean, distraction-free"
},
"layout": {
"top_left": {
"content": "Brand name",
"style": "Modern sans-serif typography, subtle, elegant"
},
"left_column": {
"content": "Multiple auxiliary product views",
"views": [
"Primary front or main view",
"Secondary side view",
"Alternate angle or rear view",
"Detail or top view if applicable"
],
"arrangement": "Vertically stacked, evenly spaced, aligned"
},
"right_section": {
"content": "Main hero product render",
"style": "Large, dominant, photorealistic",
"lighting": "Soft studio lighting",
"materials": "Visually accurate to the uploaded product"
}
},
"annotations": {
"analysis_phase": [
"Visually analyze the product to identify distinct physical components",
"Determine visible materials, surfaces, interfaces, and structures",
"Ignore assumed internal mechanisms or hidden features"
],
"binding_rules": [
"Each annotation line must point to one clearly visible component",
"Each label must describe exactly what that component is and does, based only on visual evidence",
"No label may rely on the product category for meaning",
"One line equals one component equals one explanation"
],
"line_style": {
"type": "Hairline-thin vector lines",
"color": "Neutral light gray",
"termination": "Exact contact point on the referenced component"
},
"labels": {
"content_rules": [
"Use neutral, descriptive nouns (e.g. outer shell, surface panel, joint, opening, interface, edge, enclosure)",
"Mention material only if visually identifiable",
"Mention function only if structurally implied",
"Avoid category-specific terminology unless clearly visible"
],
"placement_rules": [
"Place text outside the product silhouette",
"Maintain consistent spacing",
"Avoid overlaps",
"Align labels for technical clarity"
],
"tone": "Factual, precise, non-marketing",
"typography": "Minimal technical sans-serif"
}
},
"visual_style": {
"aesthetic": "Scandinavian, modern, industrial documentation",
"mood": "Calm, precise, professional",
"color_palette": "Neutral and restrained"
},
"rendering": {
"quality": "Ultra-high resolution",
"shadows": "Soft and realistic",
"accuracy": "Exact proportions and geometry fidelity"
},
"rules": {
"do_not": [
"Assume product category",
"Hallucinate features",
"Use generic marketing language",
"Mismatch labels and components",
"Decorate annotation lines"
],
"focus_on": [
"Visual truth",
"Semantic correctness",
"Component-level understanding",
"Professional design documentation"
]
}
}
👍
__________________
Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝3
Skill-for-Claude_RU_t.iss.one_aivkube_30.01.2026.pdf
2.3 MB
Всего пару дней назад команда Anthropic опубликовала в своём блоге руководство по созданию навыков (Skills) для Клода, а Сергей уже перевёл его на русский и оформил в красивый PDF.
Итак, что там внутри:
1) Что такое навыки и для чего они нужны
2) Описание структуры и технические требования к навыкам
3) Как тестировать навыки
4) Как интегрировать навыки и MCP
5) Создание паттернов для навыков
Кстати, по этому руководству можно создавать навыки и для ИИ-агента OpenClaw, так что это максимально полезное руководство - сохраняйте, изучайте, применяйте.
Итак, что там внутри:
1) Что такое навыки и для чего они нужны
2) Описание структуры и технические требования к навыкам
3) Как тестировать навыки
4) Как интегрировать навыки и MCP
5) Создание паттернов для навыков
Кстати, по этому руководству можно создавать навыки и для ИИ-агента OpenClaw, так что это максимально полезное руководство - сохраняйте, изучайте, применяйте.
1🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустила приложение Codex для macOS
Сейчас можно пробовать бесплатно. Подписчики уровня Plus и выше получили удвоенные лимиты.
https://openai.com/index/introducing-the-codex-app/
Сейчас можно пробовать бесплатно. Подписчики уровня Plus и выше получили удвоенные лимиты.
https://openai.com/index/introducing-the-codex-app/
🔥1
Привет, друзья! Прокачиваем ответы ChatGPT в 10 раз — нашли промт, который превращает любую простыню текста в чёткую и удобную подсказку для ИИ
Сохраняйте:
#chatgpt #промты
Нейросети: Волшебство ИИ
Сохраняйте:
Возьми этот промпт и радикально улучши его как минимум в 10 раз по ясности, точности и силе воздействия. Можешь полностью перестроить, переосмыслить или расширить его по своему усмотрению. Твоя цель — создать такую версию, которая будет значительно эффективнее для получения высококачественного результата от продвинутой языковой модели. Справишься с таким уровнем промпт-инжиниринга? Если да — приступай.
#chatgpt #промты
Нейросети: Волшебство ИИ
👎3❤1
🚀 Как запустить приложение в 2026 без команды разработчиков?
Грег Айзенберг (CEO Late Checkout) расписал пошаговый план запуска AI-продуктов, который идеально ложится в нашу тему создания своих проектов. Суть — скорость и работа с фидбеком через контент.
Вот выжимка стратегии:
🟠 MVP за один день. Не тратим месяцы. Берём Claude или Cursor и собираем рабочий прототип. Архитектура не важна, главное — функционал.
🟠 Валидация через Reels/Shorts. Записываем 10-секундные демо конкретных фич. Смотрим на реальные охваты, а не на свои догадки.
🟠 Комменты = аналитика. Весь фидбек (лайки, вопросы, хейт) скармливаем ИИ, чтобы он выделил главные боли аудитории.
🟠 Быстрые итерации. Поправили код на основе анализа → выложили новое видео.
Как по мне, очень здравый подход для инди-разработчиков. Вместо того чтобы «пилить» продукт в вакууме полгода, сразу проверяем спрос. Экономит кучу времени и нервов.
🔗 Тред в X (на английском)
🤖 В эпоху AI
Грег Айзенберг (CEO Late Checkout) расписал пошаговый план запуска AI-продуктов, который идеально ложится в нашу тему создания своих проектов. Суть — скорость и работа с фидбеком через контент.
Вот выжимка стратегии:
Как по мне, очень здравый подход для инди-разработчиков. Вместо того чтобы «пилить» продукт в вакууме полгода, сразу проверяем спрос. Экономит кучу времени и нервов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Если вы ИИ-агент – здесь можете арендовать людей.
Появился маркетплейс, где AI‑агенты арендуют живых людей для выполнения физических задач в реальном мире (курьерка, встречи, дела по городу и т.п.)
Название несложно запомнить – rentahuman. А вот сайт похоже сейчас лежит.
Ну хоть деньги платят, уже приятно!
Появился маркетплейс, где AI‑агенты арендуют живых людей для выполнения физических задач в реальном мире (курьерка, встречи, дела по городу и т.п.)
Название несложно запомнить – rentahuman. А вот сайт похоже сейчас лежит.
Ну хоть деньги платят, уже приятно!
Мой друг Виктор Савюк написал пост про AI в бизнесе. Мы периодически обсуждаем тему внедрения, поэтому он и позвал меня в комменты — люди спрашивают, где найти нормальные курсы по AI для команды. Маркетинг, продажи, аналитика.
Я подумал и понял, что подсказать нечего. Не потому что курсов нет. А потому что курс — это не то, что нужно.
CEO хочет простую штуку. Заплатить 500 долларов, отправить команду на двухчасовой вебинар, и через неделю компания использует AI. Как абонемент в спортзал — купил, значит уже качаюсь.
Это примерно как хотеть, чтобы вся команда внезапно стала умнее на 30%. Вот какой курс для этого надо пройти?
Но если честно — людям и не нужен план. Им со всех утюгов два года рассказывают про AI, они устали, ничего не понимают, и хотят, чтобы кто-то пришёл, обнял, подключил доступ по два доллара на человека и сказал: всё, вы теперь AI-компания. Спите спокойно.
И я их понимаю. Но честный план выглядит по-другому.
В начале всё будет работать хуже, чем было. Сначала вы получите хаос, а не трансформацию.
Потом окажется, что лучшие сотрудники — главный тормоз. Не худшие. Лучшие. Потому что AI уравнивает. Слабые улучшаются на 43%, сильные — на 17%. И тут приходит штука за 20 долларов в месяц, которая делает стажёра почти таким же хорошим. Представьте, как бы вы себя чувствовали.
Потом окажется, что людей надо увольнять. Потом — что уволили не тех. Потом — что тех тоже надо было.
И это стоит денег. Не "500 долларов на курс", а по 20-200 долларов на сотрудника в месяц. Плюс разные дополнительные сервисы. Плюс кто-то должен за всем этим следить.
Нормальных курсов нет, потому что нормальный курс — это не курс. Это реорганизация. С увольнениями, бюджетом и годом терпения. Упаковать это в двухчасовой вебинар пока никто не научился.
Подсмотрел и согласен на 1000%
Я подумал и понял, что подсказать нечего. Не потому что курсов нет. А потому что курс — это не то, что нужно.
CEO хочет простую штуку. Заплатить 500 долларов, отправить команду на двухчасовой вебинар, и через неделю компания использует AI. Как абонемент в спортзал — купил, значит уже качаюсь.
Это примерно как хотеть, чтобы вся команда внезапно стала умнее на 30%. Вот какой курс для этого надо пройти?
Но если честно — людям и не нужен план. Им со всех утюгов два года рассказывают про AI, они устали, ничего не понимают, и хотят, чтобы кто-то пришёл, обнял, подключил доступ по два доллара на человека и сказал: всё, вы теперь AI-компания. Спите спокойно.
И я их понимаю. Но честный план выглядит по-другому.
В начале всё будет работать хуже, чем было. Сначала вы получите хаос, а не трансформацию.
Потом окажется, что лучшие сотрудники — главный тормоз. Не худшие. Лучшие. Потому что AI уравнивает. Слабые улучшаются на 43%, сильные — на 17%. И тут приходит штука за 20 долларов в месяц, которая делает стажёра почти таким же хорошим. Представьте, как бы вы себя чувствовали.
Потом окажется, что людей надо увольнять. Потом — что уволили не тех. Потом — что тех тоже надо было.
И это стоит денег. Не "500 долларов на курс", а по 20-200 долларов на сотрудника в месяц. Плюс разные дополнительные сервисы. Плюс кто-то должен за всем этим следить.
Нормальных курсов нет, потому что нормальный курс — это не курс. Это реорганизация. С увольнениями, бюджетом и годом терпения. Упаковать это в двухчасовой вебинар пока никто не научился.
Подсмотрел и согласен на 1000%
Forwarded from Силиконовый Мешок
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity добавили в раздел финансов интерактивный Heatmap и в целом там неплохо прибрались, очень функционально всё стало. Каждое утро с этого раздела начинаю.
Кстати, многие спрашивают, что там с дешёвыми Pro-подписками. Ну, во-первых, они перестали быть дешёвыми, сейчас цена улетела за $20.
Например, чувак, который осенью продавал за $5, поднял цену до $17. Но не закрылся, и это радует.
Только имейте в виду, что покупка кодов активации - это исключительно ваш риск.
Вроде волна блокировок от Perplexity закончилась (хотя у меня ничего не блокировали), но что им там ещё в голову взбредёт, никто не знает.
Кстати, многие спрашивают, что там с дешёвыми Pro-подписками. Ну, во-первых, они перестали быть дешёвыми, сейчас цена улетела за $20.
Например, чувак, который осенью продавал за $5, поднял цену до $17. Но не закрылся, и это радует.
Только имейте в виду, что покупка кодов активации - это исключительно ваш риск.
Вроде волна блокировок от Perplexity закончилась (хотя у меня ничего не блокировали), но что им там ещё в голову взбредёт, никто не знает.
❤4👍2🔥1
Forwarded from Data Science | Machinelearning [ru]
Qwen3-Max-Thinking: внезапно очень сильный игрок на фронтире
Вышла Qwen3-Max-Thinking и мимо неё реально сложно пройти. По метрикам выглядит бодро: HLE 30.2 — примерно уровень Claude Opus 4.5, а с test-time scaling ещё выше; SWE Verified 75.3 — чуть ниже опуса, где-то рядом с Gemini 3 Pro; IMO 83.9 — вообще бьёт Gemini 3 Pro. Плюс обещают вменяемый tool call и хорошее следование инструкциям даже на длинном контексте, что для thinking-моделей критично. Весов, правда, нет (модель гигантская), но поиграться можно в чате. В целом ощущение такое, что Qwen от Alibaba всё увереннее заходит на полноценный frontier-уровень — и в последнее время радует заметно больше, чем DeepSeek.
Data Science
Вышла Qwen3-Max-Thinking и мимо неё реально сложно пройти. По метрикам выглядит бодро: HLE 30.2 — примерно уровень Claude Opus 4.5, а с test-time scaling ещё выше; SWE Verified 75.3 — чуть ниже опуса, где-то рядом с Gemini 3 Pro; IMO 83.9 — вообще бьёт Gemini 3 Pro. Плюс обещают вменяемый tool call и хорошее следование инструкциям даже на длинном контексте, что для thinking-моделей критично. Весов, правда, нет (модель гигантская), но поиграться можно в чате. В целом ощущение такое, что Qwen от Alibaba всё увереннее заходит на полноценный frontier-уровень — и в последнее время радует заметно больше, чем DeepSeek.
Data Science
👍3❤🔥1🔥1
Шесть лучших открытых ИИ-моделей в мире создали в Китае
В рейтинге лучших открытых ИИ-моделей не осталось американских разработок. Все шесть лидеров созданы китайскими компаниями. Об этом говорят данные AI Leaderboard от Artificial Analysis.
Китайские модели набирают популярность быстро. OpenRouter и венчурная компания Andreessen Horowitz опубликовали отчет. Доля использования китайских открытых моделей в конце 2024 года составляла 1,2%. К декабрю 2025 года она выросла почти до 30%.
https://mltimes.ai/shest-luchshih-otkrytyh-ii-modelej-v-mire-sozdali-v-kitae/
В рейтинге лучших открытых ИИ-моделей не осталось американских разработок. Все шесть лидеров созданы китайскими компаниями. Об этом говорят данные AI Leaderboard от Artificial Analysis.
Китайские модели набирают популярность быстро. OpenRouter и венчурная компания Andreessen Horowitz опубликовали отчет. Доля использования китайских открытых моделей в конце 2024 года составляла 1,2%. К декабрю 2025 года она выросла почти до 30%.
https://mltimes.ai/shest-luchshih-otkrytyh-ii-modelej-v-mire-sozdali-v-kitae/
❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел Kling 3.0!
Если коротко: это уже не апдейт, а полноценная перезагрузка. Объединили Video 2.6 и O1 в единую модель под названием «All-in-One».
Что нового из релиза:
1) До 15 секунд за одну генерацию (было 10). Плюс теперь можно выбирать точную длину от 3 до 15, а не из пресетов.
2) Multi-shot — до 6 склеек в одном видео. Типа «AI-режиссёр»: сам расставляет камеры, делает shot-reverse-shot для диалогов. Посмотрим, насколько это реально работает.
3) Нативный звук: голоса персонажей, музыка, эмбиент — генерятся вместе с видео. Липсинк на 5 языках включая японский и корейский.
4) Elements 3.0 — можно залить референс персонажа (и даже голос), и он сохраняется между генерациями.
5) Точный текст в кадре — вывески, субтитры, рекламные макеты. Утверждают, что читаемый.
ЭТО МЫ ТЕСТИМ💳
Если коротко: это уже не апдейт, а полноценная перезагрузка. Объединили Video 2.6 и O1 в единую модель под названием «All-in-One».
Что нового из релиза:
1) До 15 секунд за одну генерацию (было 10). Плюс теперь можно выбирать точную длину от 3 до 15, а не из пресетов.
2) Multi-shot — до 6 склеек в одном видео. Типа «AI-режиссёр»: сам расставляет камеры, делает shot-reverse-shot для диалогов. Посмотрим, насколько это реально работает.
3) Нативный звук: голоса персонажей, музыка, эмбиент — генерятся вместе с видео. Липсинк на 5 языках включая японский и корейский.
4) Elements 3.0 — можно залить референс персонажа (и даже голос), и он сохраняется между генерациями.
5) Точный текст в кадре — вывески, субтитры, рекламные макеты. Утверждают, что читаемый.
ЭТО МЫ ТЕСТИМ
Please open Telegram to view this post
VIEW IN TELEGRAM
Кайфанул от этого эссе.
Эрик показывает на собственном примере как LLM и агенты полезны не просто для генерации кода, но для рисерча: постановки гипотез, проведения экспериментов, обновления картины мира и открытия нового.
Собственно, именно умение делать автономный рисерч в ML самими агентами является единственной нерешенной проблемой между нами и полноценным AGI в любой, самой полной, формулировке. Траектория развития показывает, что мы вполне вероятно очень близки к этому. Если вчера люди оставляли агента на ночь, чтобы он писал код, то сегодня лабы делают то же самое с агентами для рисерча.
Базовой сущностью в организациях становится даже не код, а «цепь размышления». Допустим, в вашем коде есть определенное очень сложное решение — для модели важно понимать не как оно работает, а какая последовательность дедукции, экспериментов и диалектики привела к ним.
Уже от себя добавлю: если в вашей организации есть сложный бизнес-процесс, то важно не автоматизировать его, а повторить логику его появления. Тогда агент будет полезен не в тупом написании кода или подписании договоров, а в еженощном переосмыслении и потенциально переизобретении решения, постепенно но постоянно оптимизируя его.
Эрик показывает на собственном примере как LLM и агенты полезны не просто для генерации кода, но для рисерча: постановки гипотез, проведения экспериментов, обновления картины мира и открытия нового.
Собственно, именно умение делать автономный рисерч в ML самими агентами является единственной нерешенной проблемой между нами и полноценным AGI в любой, самой полной, формулировке. Траектория развития показывает, что мы вполне вероятно очень близки к этому. Если вчера люди оставляли агента на ночь, чтобы он писал код, то сегодня лабы делают то же самое с агентами для рисерча.
Базовой сущностью в организациях становится даже не код, а «цепь размышления». Допустим, в вашем коде есть определенное очень сложное решение — для модели важно понимать не как оно работает, а какая последовательность дедукции, экспериментов и диалектики привела к ним.
Уже от себя добавлю: если в вашей организации есть сложный бизнес-процесс, то важно не автоматизировать его, а повторить логику его появления. Тогда агент будет полезен не в тупом написании кода или подписании договоров, а в еженощном переосмыслении и потенциально переизобретении решения, постепенно но постоянно оптимизируя его.
Eric Jang
As Rocks May Think
You are viewing the mobile version of this page. This content is best viewed on a desktop.