Если у вас не работает ChatGPT или Codex,- дело не в вас.
Пишут,- у всех сломалось
#fail #openai #chatgpt
------
@tsingular
Пишут,- у всех сломалось
#fail #openai #chatgpt
------
@tsingular
👻9 5😢2🎃1
Forwarded from Наука и Техника: Промпт
Западные юзеры нашли альтернативу платным нейросетям — это бот поддержки Макдональдса.
МАКжпт
МАКжпт
😁71🔥8❤2
Forwarded from Machinelearning
В блоге о запуске новой модели Kimi есть история, от которой немного отвисает челюсть.
Моделька сама, без человека, поставила себе на мак Qwen3.5-0.8B и решила, что дефолтный инференс её не устраивает. Дальше она села писать свой, причём не на привычном питоне или C++, а на Zig.
В итоге скорость генерации выросла примерно с 15 до 193 токенов в секунду. То есть больше чем в десять раз.
И это оказалось на 20 процентов быстрее, чем LM Studio, которой пользуются тысячи людей именно для локального запуска моделей.
Больше 4000 вызовов инструментов, 12 часов непрерывной работы и 14 итераций, пока всё не сошлось.
Метрики K2.6 выглядят пртилично: SOTA среди опенсорса на HLE с тулзами, сильные результаты на SWE-Bench Pro, BrowseComp и математических бенчах с питоном.
Но запоминается больше всего этот эпизод с Zig. Потому что одно дело проходить тесты, и совсем другое- взять незнакомый язык и переписать на нём чужой рантайм так, чтобы он обогнал популярный продукт.
🔗 API: https://platform.moonshot.ai
🔗 Tech blog: https://kimi.com/blog/kimi-k2-6
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.6
@ai_machinelearning_big_data
#KIMI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥31👀20❤3❤🔥1⚡1👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
... всегда найдется какой-то китаец.
В Вавилонском твиттере китаец реверснул claude design
Утром обещает выложить в оупенсорс
Так что я в машину времени пошёл, перемещаюсь в утро.
#opensource #китай #huashu
------
@tsingular
В Вавилонском твиттере китаец реверснул claude design
Утром обещает выложить в оупенсорс
Так что я в машину времени пошёл, перемещаюсь в утро.
#opensource #китай #huashu
------
@tsingular
👻15🤔4❤3
Qwen3.6-Max-Preview: новый флагман от Alibaba
Alibaba выпустила превью своей новой модели Qwen3.6-Max-Preview.
Модель возглавила шесть ключевых бенчмарков по агентному программированию и обошла Claude 4.5 и GLM 5.1 в следовании инструкциям.
Веса пока закрыты, но они обычно появляются в течение следующих недель, так что ждём.
⚡️ Агентный рывок: Qwen3.6-Max-Preview занял первое место в SWE-bench Pro (реальный софт-инжиниринг), Terminal-Bench 2.0 (командная строка), SkillsBench (решение задач), QwenClawBench (использование инструментов), QwenWebBench (веб-взаимодействие) и SciCode (научное программирование). Шесть из шести.
🧠 Знания и точность: SuperGPQA (продвинутое рассуждение) вырос на 2.3%, QwenChineseBench (китайский язык) на 5.3% относительно Qwen3.6-Plus. ToolcallFormatIFBench — способность точно следовать инструкциям — обходит Claude.
🔗 preserve_thinking: Новая фича: модель переносит цепочку рассуждений между ходами диалога. Для автономных агентов и длинных сессий генерации кода — прямое усиление контекстной связности.
Ну и это не финальная версия, модель ещё в разработке.
Пробуем тут:
https://chat.qwen.ai/
#Qwen #Alibaba #ИИ #агенты #Китай
———
@tsingular
Alibaba выпустила превью своей новой модели Qwen3.6-Max-Preview.
Модель возглавила шесть ключевых бенчмарков по агентному программированию и обошла Claude 4.5 и GLM 5.1 в следовании инструкциям.
Веса пока закрыты, но они обычно появляются в течение следующих недель, так что ждём.
⚡️ Агентный рывок: Qwen3.6-Max-Preview занял первое место в SWE-bench Pro (реальный софт-инжиниринг), Terminal-Bench 2.0 (командная строка), SkillsBench (решение задач), QwenClawBench (использование инструментов), QwenWebBench (веб-взаимодействие) и SciCode (научное программирование). Шесть из шести.
🧠 Знания и точность: SuperGPQA (продвинутое рассуждение) вырос на 2.3%, QwenChineseBench (китайский язык) на 5.3% относительно Qwen3.6-Plus. ToolcallFormatIFBench — способность точно следовать инструкциям — обходит Claude.
🔗 preserve_thinking: Новая фича: модель переносит цепочку рассуждений между ходами диалога. Для автономных агентов и длинных сессий генерации кода — прямое усиление контекстной связности.
Ну и это не финальная версия, модель ещё в разработке.
Пробуем тут:
https://chat.qwen.ai/
#Qwen #Alibaba #ИИ #агенты #Китай
———
@tsingular
🔥10👍4❤2⚡2
Kimi K2.6 cloud уже в ollama, переключаем Крабов/Гермесов, пробуем.
https://ollama.com/library/kimi-k2.6
#Kimi #ollama
———
@tsingular
https://ollama.com/library/kimi-k2.6
ollama launch openclaw --model kimi-k2.6:cloud
#Kimi #ollama
———
@tsingular
🔥12⚡4👍3✍1
This media is not supported in your browser
VIEW IN TELEGRAM
Huashu Design: китаец сказал, - китаец сделал. Open-source конкурент Claude Design
Если дизайн-способности ИИ-агента можно упаковать в один текстовый файл и переносить между Cursor, Codex и Hermes, зачем платить за проприетарный встроенный skill?
花叔 (AlchainHust) задался этим вопросом и написал huashu-design: уже 185 звёзд с релиза, агентонезависимость, устанавливается одной командой как навык.
⚙️ Как устроен: Весь дизайн-вывод идет через однофайловый HTML. Промпт в терминале, 10-15 минут и агент выдаёт кликабельный прототип с точным безелем iPhone 15 Pro, Dynamic Island и state-machine навигацией по экранам.
Перед сдачей пробегает Playwright-тестами на клики по всем кнопкам.
В Claude Design, кстати, такого нет.
🎨 Семь режимов из одного навыка: Прототипы, презентации (HTML-дек + редактируемый PPTX через
🛡 Anti AI-Slop: Запрещены фиолетовые градиенты, эмодзи-иконки, скруглённые углы с левым бордером (все что бесит в ИИ дизайне последние месяцы), SVG-люди, Inter как display-шрифт и CSS-силуэты вместо настоящих скриншотов.
Замена:
🔗 Brand Asset Protocol: Пятишаговый жёсткий протокол для брендовых задач: спросить ассеты, найти официальный источник (
Никаких цветов из памяти агента.
A/B-тест: v2 с протоколом снизил variance стабильности в 5 раз по сравнению с v1 без него.
🤖 Советник направлений: Если бриф размытый, навык включает fallback и подбирает 3 дифференцированных направления из 5 школ дизайна (Pentagram, Field.io, Kenya Hara, Sagmeister и др.) и 20 философий.
Показывает 24 префетченных showcase (8 сцен × 3 стиля), генерирует параллельные демо для выбора.
У Claude Design такого режима нет вообще.
📊 Автор и контекст: 花叔 (AlchainHust) это не просто рандомный разработчик, а достаточно известный в своей области, - создал Nuwa Skill (12,6K звёзд) про размышления экспертов в навыки для Claude Code.
Huashu Design был выпущен 20 апреля 2026, за сутки набрал 185 звёзд и 27 форков.
Лицензия: Personal Use Only, коммерческое использование требует авторизации.
💼 Зачем бизнесу: Если вы используете несколько ИИ-агентов (Claude Code + Cursor + что-то ещё), портативный агент-агностик навык дешевле и гибче встроенного вендорного решения.
Протокол Brand Asset предотвращает типичную проблему: агент угадывает брендовые цвета вместо того, чтобы искать их в источниках. Антимусорные правила экономят время на ревью AI-дизайна.
Очень полезно, добавляем в коллекцию базовых навыков наравне с obra/superpowers в любого агента.
#huashu-design #ClaudeCode #дизайн #skills #OpenSource #навыки
------
@tsingular
Если дизайн-способности ИИ-агента можно упаковать в один текстовый файл и переносить между Cursor, Codex и Hermes, зачем платить за проприетарный встроенный skill?
花叔 (AlchainHust) задался этим вопросом и написал huashu-design: уже 185 звёзд с релиза, агентонезависимость, устанавливается одной командой как навык.
⚙️ Как устроен: Весь дизайн-вывод идет через однофайловый HTML. Промпт в терминале, 10-15 минут и агент выдаёт кликабельный прототип с точным безелем iPhone 15 Pro, Dynamic Island и state-machine навигацией по экранам.
Перед сдачей пробегает Playwright-тестами на клики по всем кнопкам.
В Claude Design, кстати, такого нет.
🎨 Семь режимов из одного навыка: Прототипы, презентации (HTML-дек + редактируемый PPTX через
html2pptx.js, который парсит DOM и переводит каждый элемент в настоящий PowerPoint-объект, а не картинку под текст), моушн-дизайн (Stage + Sprite, экспорт MP4 25/60 fps + GIF + BGM), дизайн-варианты (Tweaks-панель с живой настройкой параметров), инфографики (журнальная типографика, экспорт PDF/PNG 300 dpi/SVG), советник направлений и 5-мерная экспертиза.🛡 Anti AI-Slop: Запрещены фиолетовые градиенты, эмодзи-иконки, скруглённые углы с левым бордером (все что бесит в ИИ дизайне последние месяцы), SVG-люди, Inter как display-шрифт и CSS-силуэты вместо настоящих скриншотов.
Замена:
text-wrap: pretty, CSS Grid, serif display-шрифты, oklch-цвета. Эти правила отличаются от встроенного Claude Design, где таких ограничений нет.🔗 Brand Asset Protocol: Пятишаговый жёсткий протокол для брендовых задач: спросить ассеты, найти официальный источник (
<brand>.com/brand), скачать с тремя фоллбэками по типу ассета, grep-экстракция цветов из реальных файлов, заморозка в brand-spec.md + CSS-переменные. Никаких цветов из памяти агента.
A/B-тест: v2 с протоколом снизил variance стабильности в 5 раз по сравнению с v1 без него.
🤖 Советник направлений: Если бриф размытый, навык включает fallback и подбирает 3 дифференцированных направления из 5 школ дизайна (Pentagram, Field.io, Kenya Hara, Sagmeister и др.) и 20 философий.
Показывает 24 префетченных showcase (8 сцен × 3 стиля), генерирует параллельные демо для выбора.
У Claude Design такого режима нет вообще.
📊 Автор и контекст: 花叔 (AlchainHust) это не просто рандомный разработчик, а достаточно известный в своей области, - создал Nuwa Skill (12,6K звёзд) про размышления экспертов в навыки для Claude Code.
Huashu Design был выпущен 20 апреля 2026, за сутки набрал 185 звёзд и 27 форков.
Лицензия: Personal Use Only, коммерческое использование требует авторизации.
💼 Зачем бизнесу: Если вы используете несколько ИИ-агентов (Claude Code + Cursor + что-то ещё), портативный агент-агностик навык дешевле и гибче встроенного вендорного решения.
Протокол Brand Asset предотвращает типичную проблему: агент угадывает брендовые цвета вместо того, чтобы искать их в источниках. Антимусорные правила экономят время на ревью AI-дизайна.
Очень полезно, добавляем в коллекцию базовых навыков наравне с obra/superpowers в любого агента.
#huashu-design #ClaudeCode #дизайн #skills #OpenSource #навыки
------
@tsingular
🔥19 6❤2👍2✍1😍1🏆1
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
SSoT: Sakana AI научила LLM быть по-настоящему случайными
Попросите любую LLM 100 раз «подбрось монету», и распределение орла и решки перекосится далеко от честных 50 на 50. Похожая история с «придумай 10 идей для романа»: вместо десяти разных сюжетов модель выдаёт десять вариаций одного и того же. Даже если явно передать ей вероятности, генерировать выборку, строго соответствующую распределению, у LLM получается плохо.
Японская лаборатория Sakana AI в новой статье «SSoT: Prompting LLMs for Distribution-Faithful and Diverse Generation», принятой на ICLR 2026, показывает, что эту проблему можно закрыть одним только промптом, без дообучения и без внешних генераторов случайных чисел.
Приём называется String Seed of Thought и устроен максимально просто: модель сначала генерирует у себя в «голове» случайную строку, а потом использует её как сид при формировании итогового ответа. Никаких внешних инструментов и случайных чисел извне не требуется, всё делается средствами самой LLM.
Авторы прогнали SSoT на широком наборе моделей, и картина получилась убедительная. Смещение выборки у открытых и закрытых LLM заметно уменьшается, а у части reasoning-моделей точность распределений почти неотличима от настоящего ГСЧ. Метод работает не только на бинарном выборе вроде монетки, но и на произвольных дискретных распределениях.
SSoT резко повышает разнообразие генерации в задачах, где важна креативность. В экспериментах с написанием коротких художественных текстов добавление одной строчки SSoT в промпт ощутимо увеличивает разнообразие выходных документов, не ломая их качества. То есть один и тот же трюк одновременно чинит и «честную случайность», и типичную проблему с однообразными идеями.
Для AI-инженеров это интересно по нескольким причинам. SSoT можно воспринимать как дешёвый кирпич для построения продакшен-систем на LLM: там, где раньше приходилось прикручивать внешние сэмплеры или городить костыли, чтобы модель не залипала в одном и том же ответе, теперь иногда достаточно грамотно оформленного промпта. Sakana AI прямо называет SSoT базовой техникой для будущих подходов к inference-time scaling, интеграции LLM в реальные пайплайны и для задач, где нужны честные выборки из распределений.
Подробный разбор механизма, теоретический анализ и интерактивное демо лежат в блоге и в статье на arXiv.
Блог: https://pub.sakana.ai/ssot
Статья: https://arxiv.org/abs/2510.21150
Попросите любую LLM 100 раз «подбрось монету», и распределение орла и решки перекосится далеко от честных 50 на 50. Похожая история с «придумай 10 идей для романа»: вместо десяти разных сюжетов модель выдаёт десять вариаций одного и того же. Даже если явно передать ей вероятности, генерировать выборку, строго соответствующую распределению, у LLM получается плохо.
Японская лаборатория Sakana AI в новой статье «SSoT: Prompting LLMs for Distribution-Faithful and Diverse Generation», принятой на ICLR 2026, показывает, что эту проблему можно закрыть одним только промптом, без дообучения и без внешних генераторов случайных чисел.
Приём называется String Seed of Thought и устроен максимально просто: модель сначала генерирует у себя в «голове» случайную строку, а потом использует её как сид при формировании итогового ответа. Никаких внешних инструментов и случайных чисел извне не требуется, всё делается средствами самой LLM.
Авторы прогнали SSoT на широком наборе моделей, и картина получилась убедительная. Смещение выборки у открытых и закрытых LLM заметно уменьшается, а у части reasoning-моделей точность распределений почти неотличима от настоящего ГСЧ. Метод работает не только на бинарном выборе вроде монетки, но и на произвольных дискретных распределениях.
SSoT резко повышает разнообразие генерации в задачах, где важна креативность. В экспериментах с написанием коротких художественных текстов добавление одной строчки SSoT в промпт ощутимо увеличивает разнообразие выходных документов, не ломая их качества. То есть один и тот же трюк одновременно чинит и «честную случайность», и типичную проблему с однообразными идеями.
Для AI-инженеров это интересно по нескольким причинам. SSoT можно воспринимать как дешёвый кирпич для построения продакшен-систем на LLM: там, где раньше приходилось прикручивать внешние сэмплеры или городить костыли, чтобы модель не залипала в одном и том же ответе, теперь иногда достаточно грамотно оформленного промпта. Sakana AI прямо называет SSoT базовой техникой для будущих подходов к inference-time scaling, интеграции LLM в реальные пайплайны и для задач, где нужны честные выборки из распределений.
Подробный разбор механизма, теоретический анализ и интерактивное демо лежат в блоге и в статье на arXiv.
Блог: https://pub.sakana.ai/ssot
Статья: https://arxiv.org/abs/2510.21150
1🔥10🤔7⚡2❤1
Forwarded from Искусственный интеллект. Высокие технологии
Kimi накосячил: ИИ выплюнул чужое резюме с именем, телефоном и почтой
Вчера вечером блогер закинул в Kimi 2.6 случайную картинку, просто чтобы погонять модель перед официальным анонсом.
Сначала нейронка понесла какую-то чушь не по теме, а потом ни с того ни с сего выдала в ответ целое резюме. С настоящим именем, рабочим телефоном, почтой и прочими контактами.
Сначала он подумал, что модель по привычке что-то нагаллюцинировала. Но на всякий случай пробил данные и офигел: человек существует, телефон живой, по WeChat добавляется, почта рабочая.
Это произошло ровно накануне громкого релиза Kimi K2.6, который Moonshot пиарит как новый опенсорсный SOTA по кодингу: топовые цифры на SWE-Bench Pro, BrowseComp, HLE и длинный горизонт на 4000+ шагов.
Красивый лаунч, презентация, бенчмарки и тут же утечка чужих данных в проде.
По словам автора поста, продакт Kimi уже списался с владельцем резюме и сейчас разруливает ситуацию с утечкой приватных данных.
https://x.com/yyyole/status/2046393481132900596
Вчера вечером блогер закинул в Kimi 2.6 случайную картинку, просто чтобы погонять модель перед официальным анонсом.
Сначала нейронка понесла какую-то чушь не по теме, а потом ни с того ни с сего выдала в ответ целое резюме. С настоящим именем, рабочим телефоном, почтой и прочими контактами.
Сначала он подумал, что модель по привычке что-то нагаллюцинировала. Но на всякий случай пробил данные и офигел: человек существует, телефон живой, по WeChat добавляется, почта рабочая.
Это произошло ровно накануне громкого релиза Kimi K2.6, который Moonshot пиарит как новый опенсорсный SOTA по кодингу: топовые цифры на SWE-Bench Pro, BrowseComp, HLE и длинный горизонт на 4000+ шагов.
Красивый лаунч, презентация, бенчмарки и тут же утечка чужих данных в проде.
По словам автора поста, продакт Kimi уже списался с владельцем резюме и сейчас разруливает ситуацию с утечкой приватных данных.
https://x.com/yyyole/status/2046393481132900596
👀15🔥3 3
Forwarded from Diving Deep 🤿 • Василий Рассказов
🧑🏫 Небольшой pet-проект, или как обучать взрослых ИИ-навыкам без боли с меньшей болью (практический гайд)
Собрали для вас методичку и подход: как учить взрослых AI-навыкам на ваших тренингах, да и так по жизни. Кого как делить на группы, как выстраивать коммуникацию с ребятами разного уровня, какие инструменты подсунуть продвинутым. Три шага — погнали.
---
1️⃣ Методология обучения взрослых, «что делать»
Большой лонгрид-исследование про то, как взрослые учатся (это не как детей учить, спойлер: там прикольнее, наука целая оказалась…). Лучшие практики, фреймворки, как выстраивать обучение, чтобы не было «скучно как на алгебре в 8-м классе».
🔗 Андрагогика для бизнеса - https://rasskazov.io/blog/andragogy-handbook/ — 20–25 минут чтения
---
2️⃣ Кого как учить?
Это всё классно, но как делить людей на группы при обучении AI?
- Кого вести за ручку и поддерживать плотно (Педагогика)
- Кому давать свободу и самостоятельное обучение (Андрагогика)
- А кого вообще не трогать и просто ждать, что чел создаст что-то весёлое (Хьютагогика)
Сделали для этого тест. 10 вопросов, 3 минуты, на выходе — чёткое разделение на группы A / B / C с рекомендациями, что делать дальше. Берите для себя или для корпоративных тренингов и оценок на входе.
Работает как с телефона (можно давать прям перед тренингом пройти по ссылке с iPhone и узнать уровень), так и с компа — письмо людям разослать за день до тренинга, чтобы все уже с «буковкой своей» пришли.
🔗 Тест: ваш уровень владения ИИ-скиллами, клик - https://rasskazov.io/tools/ai-level-evaluation.html
---
3️⃣ Для продвинутых — TaskSpec
Если вы уже в группе B или C — ловите методологию постановки задач для AI. Доступна как навык / системный промпт. Просто подаёте на вход как markdown-файл, и Claude / Cursor / Codex помогут вам сформулировать хотелку
🔗 TaskSpec — как ставить задачи AI like a pro - https://rasskazov.io/blog/task-spec-ai-prompting/
---
📺 Лучшие каналы со знаниями и практиками, которые «выжили» после трёх чисток папки «Полезное» в ТГ чтобы давать людям
Полезные практические кейсы и глубокий личный опыт:
• @tsingular — агенты, OpenClaw, Hermes, промпты
• @maxvotek — самый крутой опыт осмысления ИИ на каждый день, свои сетапы и подходы
• @countwithsasha — самые практичные рекомендации для продвинутых, особенно рекомендую
#обучение #AI #андрагогика #методологии #педагогика
---
@rasskazov_io_channel
Закончили тут мини-проект с образовательной командой одной жёлтой и пернатой торговой сети 💛 (пасиб, ребят)
Собрали для вас методичку и подход: как учить взрослых AI-навыкам на ваших тренингах, да и так по жизни. Кого как делить на группы, как выстраивать коммуникацию с ребятами разного уровня, какие инструменты подсунуть продвинутым. Три шага — погнали.
---
1️⃣ Методология обучения взрослых, «что делать»
Большой лонгрид-исследование про то, как взрослые учатся (это не как детей учить, спойлер: там прикольнее, наука целая оказалась…). Лучшие практики, фреймворки, как выстраивать обучение, чтобы не было «скучно как на алгебре в 8-м классе».
💡 Совет: скормите эту статью вашему Claude или Cursor при подготовке образовательных материалов и презентаций. Поможет выстроить коммуникацию по современным фреймворкам — PAH (ПиЭйЭйч читается, не благодарите) Continuum и таксономии Блума (это и есть андрагогика, наука обучения взрослых).
🔗 Андрагогика для бизнеса - https://rasskazov.io/blog/andragogy-handbook/ — 20–25 минут чтения
---
2️⃣ Кого как учить?
Это всё классно, но как делить людей на группы при обучении AI?
- Кого вести за ручку и поддерживать плотно (Педагогика)
- Кому давать свободу и самостоятельное обучение (Андрагогика)
- А кого вообще не трогать и просто ждать, что чел создаст что-то весёлое (Хьютагогика)
Сделали для этого тест. 10 вопросов, 3 минуты, на выходе — чёткое разделение на группы A / B / C с рекомендациями, что делать дальше. Берите для себя или для корпоративных тренингов и оценок на входе.
Работает как с телефона (можно давать прям перед тренингом пройти по ссылке с iPhone и узнать уровень), так и с компа — письмо людям разослать за день до тренинга, чтобы все уже с «буковкой своей» пришли.
🔗 Тест: ваш уровень владения ИИ-скиллами, клик - https://rasskazov.io/tools/ai-level-evaluation.html
---
3️⃣ Для продвинутых — TaskSpec
Если вы уже в группе B или C — ловите методологию постановки задач для AI. Доступна как навык / системный промпт. Просто подаёте на вход как markdown-файл, и Claude / Cursor / Codex помогут вам сформулировать хотелку
Для тренеров: через этот промпт вы можете готовить большие и сложные демо, которые сможете показывать на митапах и воркшопах), так что «забирайте».
🔗 TaskSpec — как ставить задачи AI like a pro - https://rasskazov.io/blog/task-spec-ai-prompting/
---
📺 Лучшие каналы со знаниями и практиками, которые «выжили» после трёх чисток папки «Полезное» в ТГ чтобы давать людям
Полезные практические кейсы и глубокий личный опыт:
• @tsingular — агенты, OpenClaw, Hermes, промпты
• @maxvotek — самый крутой опыт осмысления ИИ на каждый день, свои сетапы и подходы
• @countwithsasha — самые практичные рекомендации для продвинутых, особенно рекомендую
Поделитесь постом с коллегой, который собрался учить команду AI — сэкономите ему месяц подготовки🫡
#обучение #AI #андрагогика #методологии #педагогика
---
@rasskazov_io_channel
🔥7👀7❤4🆒2✍1👍1
GPT Image 2 вышел.
Выкидываем NanoBanana2
Найдёте хоть одну ошибку? я не нашел..
highrez в комментарии
промпт:
#OpenAI #Image
———
@tsingular
Выкидываем NanoBanana2
Найдёте хоть одну ошибку? я не нашел..
highrez в комментарии
промпт:
нарисуй инструкцию к GPT Image 2 русским текстом в виде бесконечного фрактального узора инфографики в стиле киберпанк хохломы
#OpenAI #Image
———
@tsingular
🔥45❤7🏆5⚡3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Hugging Face выпустила ml-intern — ИИ-стажёра для пост-обучения LLM
Hugging Face опубликовали ml-intern — автономного агента на базе их фреймворка smolagents, который заменяет исследовательский цикл пост-обучения. Одной команды достаточно и агент сам найдет статьи, подберет датасеты, запустит обучение (на вашем железе или на облачном от HF), диагностирует ошибки и переобучит модели, если необходимо.
🧪 Цикл работы: arXiv → чтение методик → поиск датасетов на HF Hub → инспекция качества → реформатирование → запуск обучения (локально или через HF Jobs) → чтение логов → диагноз ошибок (reward collapse в RLHF, переобучение) → повтор. Всё без человека.
📊 Результат на PostTrainBench: Qwen3-1.7B base (10% GPQA) → 32% за 10 часов на одном H100. 27.5% достигнуто за 3 часа. Claude Code, для сравнения, на том же бенчмарке — 22.99%.
Превышение на 9 процентных пунктов от модели в 4 раза меньше Gemma-3-4B (33% SOTA).
🛠 Архитектура: smolagents + ToolRouter (документация HF, репозитории, датасеты, papers, GitHub Code Search, sandbox, MCP-серверы) + ContextManager с авто-компрессией на 170K токенов + Doom Loop Detector (детекция зацикливаний с инъекцией корректирующих промптов).
Модели: Claude Opus 4.6 по умолчанию, через litellm!! Можно заменитьна свои.
📡 Trackio: Встроенный трекер экспериментов на HF Hub — открытая альтернатива Weights & Biases. Логи, метрики, артефакты — всё привязано к репозиторию модели.
⚡️ Режимы: интерактивный (чат) и headless (одна команда, auto-approve).
💼 Зачем бизнесу: Пост-обучение — самый трудоёмкий этап в продакшене LLM. ml-intern автоматизирует рутину, которая занимает дни у ML-инженеров. Результат: 32% на GPQA с 1.7B моделью за 10 часов. Один H100, ноль ручного труда.
🔮 Будущее: Агенты, которые сами читают статьи и улучшают модели — это следующий шаг после coding-агентов. HF уже использует ml-intern в своём post-training процессе.
ML интерн как часть CI/CD процесса или как агентский навык.
Агентизация профессий происходит на наших глазах.
#HuggingFace #ml-intern #smolagents #LLM #постобучение #ИИ #агенты
------
@tsingular
Hugging Face опубликовали ml-intern — автономного агента на базе их фреймворка smolagents, который заменяет исследовательский цикл пост-обучения. Одной команды достаточно и агент сам найдет статьи, подберет датасеты, запустит обучение (на вашем железе или на облачном от HF), диагностирует ошибки и переобучит модели, если необходимо.
🧪 Цикл работы: arXiv → чтение методик → поиск датасетов на HF Hub → инспекция качества → реформатирование → запуск обучения (локально или через HF Jobs) → чтение логов → диагноз ошибок (reward collapse в RLHF, переобучение) → повтор. Всё без человека.
📊 Результат на PostTrainBench: Qwen3-1.7B base (10% GPQA) → 32% за 10 часов на одном H100. 27.5% достигнуто за 3 часа. Claude Code, для сравнения, на том же бенчмарке — 22.99%.
Превышение на 9 процентных пунктов от модели в 4 раза меньше Gemma-3-4B (33% SOTA).
🛠 Архитектура: smolagents + ToolRouter (документация HF, репозитории, датасеты, papers, GitHub Code Search, sandbox, MCP-серверы) + ContextManager с авто-компрессией на 170K токенов + Doom Loop Detector (детекция зацикливаний с инъекцией корректирующих промптов).
Модели: Claude Opus 4.6 по умолчанию, через litellm!! Можно заменитьна свои.
📡 Trackio: Встроенный трекер экспериментов на HF Hub — открытая альтернатива Weights & Biases. Логи, метрики, артефакты — всё привязано к репозиторию модели.
⚡️ Режимы: интерактивный (чат) и headless (одна команда, auto-approve).
ml-intern "fine-tune llama on my dataset" — и агент начинает работать.💼 Зачем бизнесу: Пост-обучение — самый трудоёмкий этап в продакшене LLM. ml-intern автоматизирует рутину, которая занимает дни у ML-инженеров. Результат: 32% на GPQA с 1.7B моделью за 10 часов. Один H100, ноль ручного труда.
🔮 Будущее: Агенты, которые сами читают статьи и улучшают модели — это следующий шаг после coding-агентов. HF уже использует ml-intern в своём post-training процессе.
ML интерн как часть CI/CD процесса или как агентский навык.
Агентизация профессий происходит на наших глазах.
#HuggingFace #ml-intern #smolagents #LLM #постобучение #ИИ #агенты
------
@tsingular
✍9❤5🔥4⚡2👏1
Вы не поверите, но у нас новый навык дизайнера.
На этот раз Google Stich.
https://github.com/google-labs-code/design.md
Скоро весь интернет будет красивым по умолчанию. :)
#skills #stitch #Google
———
@tsingular
На этот раз Google Stich.
https://github.com/google-labs-code/design.md
Скоро весь интернет будет красивым по умолчанию. :)
#skills #stitch #Google
———
@tsingular
🔥13❤6⚡3
This media is not supported in your browser
VIEW IN TELEGRAM
Google открывает AI Studio для подписчиков Pro и Ultra
Google расширил лимиты подписчикам платных тарифов AI Pro и Ultra в AI Studio. Плюсом открыл доступ к моделям Nano Banana Pro и Gemini Pro без отдельной настройки API-ключей.
🚀 Прототипирование без проблем: Раньше для экспериментов нужен был API-ключ и отслеживание расходов. Теперь подписчики Google One AI получают AI Studio как часть пакета — идея превращается в приложение за минуты.
⚡️ Модельная линейка: Nano Banana Pro + Gemini Pro доступны сразу. Nano для edge-задач и мобильных приложений, Gemini Pro для сложных мультимодальных пайплайнов.
💳 Billing bridge: Те, кто выбрал free tier, теперь могут перейти на Google AI plan без интеграции платёжной системы. Предсказуемые затраты для прототипирования, но для production по-прежнему рекомендуются pay-per-request API keys.
На фоне того, что Антропик вырезал claudecode из дешёвой подписки для новых подписчиков - это прям огонь.
#Google #AIStudio #Gemini #dev
───
@tsingular
Google расширил лимиты подписчикам платных тарифов AI Pro и Ultra в AI Studio. Плюсом открыл доступ к моделям Nano Banana Pro и Gemini Pro без отдельной настройки API-ключей.
🚀 Прототипирование без проблем: Раньше для экспериментов нужен был API-ключ и отслеживание расходов. Теперь подписчики Google One AI получают AI Studio как часть пакета — идея превращается в приложение за минуты.
⚡️ Модельная линейка: Nano Banana Pro + Gemini Pro доступны сразу. Nano для edge-задач и мобильных приложений, Gemini Pro для сложных мультимодальных пайплайнов.
💳 Billing bridge: Те, кто выбрал free tier, теперь могут перейти на Google AI plan без интеграции платёжной системы. Предсказуемые затраты для прототипирования, но для production по-прежнему рекомендуются pay-per-request API keys.
На фоне того, что Антропик вырезал claudecode из дешёвой подписки для новых подписчиков - это прям огонь.
#Google #AIStudio #Gemini #dev
───
@tsingular
👍8🔥6⚡3❤1
💀 Anthropic Mythos: Несанкционированная группа получила доступ к самой защищаемой модели мира
Bloomberg сообщает: приватный онлайн-форум взломан через подрядчика третьей стороны.
⚙️ Вектор атаки: Группа из Discord-сервера, специализирующегося на незапущенных моделях, использовала комбинацию методов: анализ публичных сервисов Anthropic (GitHub), угадывание формата URL по паттернам других моделей, и ключевое — эксплуатация прав доступа сотрудника подрядчика.
Социальная инженерия + OSINT + инсайд.
🔍 Позиция Anthropic: Компания подтвердила расследование, но заявила об отсутствии доказательств влияния на собственные системы. Форумчане утверждают, что используют Mythos «для экспериментов, а не для злонамеренных действий».
Утешение сомнительное: доступ уже есть, мотивация может смениться быстро.
Пока из эффектов Мифоса на безопасность только утечки. С момента появления и до сих пор. Когда уже пользу начнут извлекать хотя бы для себя?!
#Anthropic #Mythos #кибербезопасность #AI #утечки #ProjectGlasswing #cybersecurity
───
@tsingular
Bloomberg сообщает: приватный онлайн-форум взломан через подрядчика третьей стороны.
⚙️ Вектор атаки: Группа из Discord-сервера, специализирующегося на незапущенных моделях, использовала комбинацию методов: анализ публичных сервисов Anthropic (GitHub), угадывание формата URL по паттернам других моделей, и ключевое — эксплуатация прав доступа сотрудника подрядчика.
Социальная инженерия + OSINT + инсайд.
🔍 Позиция Anthropic: Компания подтвердила расследование, но заявила об отсутствии доказательств влияния на собственные системы. Форумчане утверждают, что используют Mythos «для экспериментов, а не для злонамеренных действий».
Утешение сомнительное: доступ уже есть, мотивация может смениться быстро.
Пока из эффектов Мифоса на безопасность только утечки. С момента появления и до сих пор. Когда уже пользу начнут извлекать хотя бы для себя?!
#Anthropic #Mythos #кибербезопасность #AI #утечки #ProjectGlasswing #cybersecurity
───
@tsingular
👍6😁3👻3⚡2❤1
Kimi-k2.6 через ollama в 8 раз медленнее, чем glm-5.1
при этом замечены смысловые неточности в генерируемом русском тексте.
Может она и хороша для программирования и для агентской работы, но точно не быстрее и точно не для русского языка.
#kimi #glm #ollama
———
@tsingular
при этом замечены смысловые неточности в генерируемом русском тексте.
Может она и хороша для программирования и для агентской работы, но точно не быстрее и точно не для русского языка.
#kimi #glm #ollama
———
@tsingular
✍12💯3⚡2😭2👍1