Технозаметки Малышева

Геймдев можно агентизировать смело.

ассеты можно генерить автоматом и не переживать за косяки

по шаблону

#Image #GPT #gamedev
———
@tsingular

🔥178⚡2✍1😐1

2.26K viewsedited 10:16

Технозаметки Малышева

Forwarded from Russian OSINT

🈁

Anthropic тайно устанавливает🕵️шпионское ПО при установке Claude Desktop?

Исследователь Александр Ханфф обнаружил, что приложение Claude Desktop для macOS от компании Anthropic тайно и без согласия пользователей устанавливает незадокументированный мост Native Messaging.В ходе отладки он нашел в папке своего браузера 🌐Brave конфигурационный файл (com.anthropic.claude_browser_extension.json), который заранее дает разрешение трем конкретным расширениям 🧊 Chrome запускать исполняемый файл (chrome-native-host) вне защищенной «песочницы» браузера на уровне привилегий пользователя. Утверждается, что скрытая установка бэкдора происходит в момент установки десктопного приложения, даже если пользователь никогда не устанавливал сами браузерные расширения Claude.

При установке и запуске Claude Desktop (macOS) приложение автоматически (без какого-либо уведомления, галочки или запроса согласия) создаёт в папках браузеров файл: ~/Library/Application Support/[Browser]/NativeMessagingHosts/com.anthropic.claude_browser_extension.json

— возмущается исследователь.

Приложение целенаправленно и массово внедряет этот манифест в системные пути семи различных браузеров на базе Chromium (Chrome, Edge, Brave, Arc, Chromium, Vivaldi, Opera), причем создает нужные папки даже для тех браузеров, которые вообще не установлены на компьютере. Журналы (логи) самого Claude Desktop подтверждают эти действия.

🧹

🧹Простое удаление файла пользователем не решает проблему: при каждом новом запуске Claude Desktop автоматически восстанавливает и перезаписывает эти манифесты, что является классическим «темным паттерном» (dark pattern).

В случае активации хотя бы одним из указанных расширений этот мост предоставляет Anthropic пугающе широкие возможности по контролю над браузером. Согласно собственной документации компании, функционал включает использование текущих авторизованных сессий пользователя (без необходимости повторного входа на сайты), чтение отрендеренного DOM-дерева и автоматическое заполнение форм. На практике это означает, что мост способен считывать в виде простого текста пароли в момент их ввода, номера кредитных карт и расшифрованные личные сообщения прямо с экрана, обходя защиту HTTPS и сводя на нет изоляцию между различными пользовательскими профилями.

По мнению исследователя, наличие такого «спящего» бэкдора создает критические угрозы безопасности компьютера, значительно расширяя поверхность атаки. Если хотя бы одно из трех разрешенных расширений будет скомпрометировано (например, через атаку на цепочку поставок, взлом аккаунта разработчика или вредоносное обновление), злоумышленники получат прямой доступ к выполнению кода вне песочницы браузера на устройстве жертвы. Ситуация усугубляется тем, что по собственным данным Anthropic расширение Claude для Chrome уязвимо к атакам типа «инъекция промпта» (с вероятностью успеха до 23,6%), что дает потенциальный вектор атаки от вредоносного веб-сайта прямо к операционной системе.

🥷 Автор статьи классифицирует этот скрытый механизм чуть ли не как spyware.

🤖Другие эксперты считают, что в данном случае Anthropic не пытается тайно следить за пользователями. Проблема возникала не из-за злого умысла, а из-за вопиющей инженерной небрежности и наплевательского отношения к приватности (UX поставили выше безопасности).

⚖️Ханфф утверждает, что подобные действия нарушают статью 5(3) Директивы ЕС о конфиденциальности электронных коммуникаций (ePrivacy Directive), которая требует получения явного согласия пользователя перед сохранением информации на его устройстве, за исключением случаев, когда это строго необходимо для предоставления услуги. Исследователь пока не подал официальную жалобу в регулирующие органы, но заявляет, что планирует сделать это, если Anthropic не примет должные меры.

👆Anthropic пока никак не отреагировали.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

23✍83❤1

2.11K views11:50

Технозаметки Малышева

Forwarded from GPT/ChatGPT/AI Central Александра Горного

Услышал на звонке:

— У меня было два правильных решения в жизни. Жениться и скачать Claude Code.

😁27✍6🔥6

2.07K views12:10

Технозаметки Малышева

Forwarded from Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Text-to-SQL ломается не из-за модели. Он ломается из-за схемы

Большинство думает, что проблема в LLM или плохом промпте. На практике всё проще. Модель не видит правильные связи между таблицами.

Пример. Запрос вроде “какие издатели получили выплаты выше 5000”. Векторный поиск подтянет publisher и royalty_ledger. Всё логично. Но пропустит vendor_agreement, ту самую таблицу, которая их связывает.

В итоге SQL выглядит валидно. Но возвращает ноль строк.

Это системная проблема всех решений на embeddings. Они ищут по смыслу, но не понимают структуру базы.

Нормальный подход другой. Схему нужно рассматривать как граф.

Таблицы это узлы. Foreign keys это связи. Запрос решается не поиском похожих слов, а обходом графа и поиском join-пути.

Именно так работает QueryWeaver.

Он строит граф базы и при запросе сам находит весь путь, включая промежуточные таблицы. Даже если это цепочка из нескольких шагов.

На практике это выглядит так. В тесте с базой на 60 таблиц он разобрал 5-шаговый запрос через цепочку superpower → capability_matrix → stakeholder_registry → resource_requisition → budget_allocation.

Векторный поиск увидел только начало и конец. Всё между ними потерял, потому что “stakeholder” никак не связан по смыслу с “superpower”.

Графу на это всё равно. Он просто находит единственный путь между сущностями.

И это меняет всё.

Open-source, можно развернуть у себя и наконец получить text-to-SQL, который реально работает.

https://github.com/FalkorDB/QueryWeaver

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10✍8⚡3

2.06K views12:45

Технозаметки Малышева

Forwarded from Анализ данных (Data analysis)

Kimi K2.6 теперь можно запускать почти на чём угодно

Модель на 1 триллион параметров ужали до 340 ГБ через Dynamic GGUF. Ключевые слои оставили в более высокой точности, остальное оптимизировали.

В итоге получился компромисс, который реально работает.
Больше не нужен только кластер на сотни GPU.

Сейчас это выглядит так.
Запуск на CPU, GPU и даже SSD-сетапах.
Скорость больше 40 токенов в секунду на конфигурациях с ~350 ГБ RAM или VRAM.
Полная точность доступна при 610 ГБ.

По сути, это один из первых кейсов, когда модель такого масштаба становится доступной вне датацентров.

Если тренд продолжится, граница между локальными и облачными моделями начнёт быстро стираться.

Гайд: https://unsloth.ai/docs/models/kimi-k2.6
GGUF: https://huggingface.co/unsloth/Kimi-K2.6-GGUF

🔥298⚡4😁1

2.26K views12:46

Технозаметки Малышева

GoogleResearch ReasoningBank: агенты учатся на собственных ошибках

Часто LLM-агентам приходится повторять одно и то же по несколько раз.
Для решения этой проблемы Google Research представил фреймворк, который заставляет агентов извлекать уроки из провалов и позволяет из сырых логов построить обобщённые стратегии.

🧠 Память о провалах: ReasoningBank строит банк памяти из двух источников: удачные траектории дают подтверждённые стратегии, неудачные — контрфактические сигналы и ловушки. Каждый элемент памяти содержит заголовок, описание и содержание с рассуждениями. Оценка успеха/провала через LLM-as-a-Judge.

⚙️ MaTTS, масштабирование с памятью: Комбинация ReasoningBank с test-time scaling. Параллельное масштабирование (k траекторий на одну задачу) создаёт контрастные сигналы: спонтанные совпадения отфильтровываются, устойчивые паттерны усиливаются.
Последовательное масштабирование фиксирует промежуточные инсайты из итеративного улучшения.

📊 Результаты: На WebArena прирост SR на +8.3% относительно агента без памяти, на SWE-Bench-Verified на +4.6%. Сокращение шагов до 1.4 на задачу. С MaTTS (k=5) ещё +3% SR.
На Gemini-2.5-Pro достигнут SR 53.9% на WebArena против 46.7% без памяти.

💼 Зачем бизнесу: Агентные системы в продакшене повторяют одни и те же ошибки.
ReasoningBank даёт механизм самообучения без дообучения модели: агент эволюционирует в рантайме, накапливая стратегическую память.
Для компаний, запускающих автономных агентов в поддержку, DevOps и аналитику, это прямой путь к сокращению стоимости итераций при росте качества.

🔮 Будущее: Memory-driven scaling — новая размерность для агентных систем. Банки рассуждений станут стандартным слоем инфраструктуры, как RAG сегодня.
И стать основой для обучения моделей следующего поколения.
Не просто рассуждающие модели, а модели сразу с опытом работы с инструментами с размышлениями.

paper | GitHub

#ReasoningBank #GoogleResearch #агенты #памятьИИ #LLM #самообучение
------
@tsingular

🔥12✍6⚡3❤2

2.26K viewsedited 10:30

Технозаметки Малышева

О а вот и подтверждение подъехало по оценке появления этого бесячего паттерна, - "Это уже не X, но Y"

Уже глаз дёргается от него.

Иногда по 5 раз за абзац встречается, как явный признак генерации с помощью ИИ.

Кажется, что это и есть вариант водяных знаков, потому что даже промптами тяжело такой стиль убирается.

Причём люди же заражаются этим стилем и уже скоро можно будет по таким признакам определить в каком году был написан документ, даже если его писал человек.

#ИИслоп
———
@tsingular

😁23💯2❤1✍1👾1

2.29K viewsedited 12:37

Технозаметки Малышева

2:02

This media is not supported in your browser

VIEW IN TELEGRAM

По следам обсуждений в чате :)

Вредные советы

mp3 и аккорды для гитары сразу в комментарии

#вредный #музыка
———
@tsingular

11🔥6🤣3👏1

2.23K viewsedited 15:30

Технозаметки Малышева

Forwarded from Russian OSINT

✒️ В Meta* будут фиксировать движения мыши и нажатия клавиш сотрудников, чтобы обучать свои 🤖ИИ-модели

Цукерберг одобрил решение установить ПО для отслеживания действий своих сотрудников в США, чтобы фиксировать их движения мыши, клики и нажатия клавиш с целью обучения своих моделей искусственного интеллекта.

👁 Инструмент Model Capability Initiative (MCI) будет работать в рабочих приложениях и на веб-сайтах, а также периодически делать снимки контента на экранах сотрудников.

Данная инициатива является частью масштабной реструктуризации компании с упором на искусственный интеллект, которая сопровождается планами по увольнению 10% сотрудников по всему миру.

Руководство Meta утверждает, что собранная информация не будет использоваться для оценки эффективности работы персонала, а послужит исключительно для реализации концепции будущего, в котором ИИ-агенты будут выполнять основную работу, а люди — лишь контролировать, направлять и помогать им совершенствоваться.

Журналисты отмечают иронию происходящего: сотрудники Meta теперь сами являются подопытными ~~крысами~~ кроликами, над которыми проводят эксперименты с использованием 😹агрессивной слежки, на которой построена бизнес-модель компании. В перспективе работников компании оптимизируют и заменят их работу ИИ-агентами.

*Meta (соцсети Facebook, Instagram) запрещена в РФ как 🏴‍☠️экстремистская.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

14👀10😁4🤯4❤3💯1🤨1

2.07K views15:33

Технозаметки Малышева

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Разработчики HuggingFace с помощью Opus 4.7 переписали WebGPU-ядро, которое ускорило инференс Qwen3.5 в 13 раз с помощью операции fused LinearAttention! 🤯

Агентная оптимизация ядер,- уже реальность.

Уже доступно в 🤗 Transformers.js v4.2.0!

💡 Это шаг к тому, чтобы модели сами формировали системы, на которых они работают.

#opus #huggingface #qwen #transformers
------
@tsingular

13🤯10🔥4❤2👀1

2.41K views16:59

Технозаметки Малышева

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

#OpenAI #юмор #карусель
———
@tsingular

😁13👍2

2.26K views18:35

Технозаметки Малышева

OpenAI выпустил GPT-5.5: первая модель после GPT-4.5 собранная с нуля

OpenAI выпустил GPT-5.5 (кодовое имя «Spud») — первую модель, обученную с нуля после GPT-4.5. Это не файн-тюн, а полноценный претрейн. Результат — скачок в агентных задачах при сохранении скорости GPT-5.4.

📊 Бенчмарки:
Terminal-Bench 2.0: 82.7% (GPT-5.4: 75.1%, Claude Opus 4.7: 69.4%).
OSWorld-Verified: 78.7%.
CyberGym: 81.8%.
FrontierMath Tier 4: 35.4% (GPT-5.4: 27.1%, Opus 4.7: 22.9%).
GDPval: 84.9%.
При этом GPT-5.5 тратит меньше токенов на те же задачи Codex.

💻 Агентный кодинг: Модель понимает «форму системы» — почему что-то ломается, где нужно исправление, и что ещё в кодовой базе пострадает. Dan Shipper (Every) назвал GPT-5.5 «первой кодинг-моделью с серьёзной концептуальной ясностью».
Pietro Schirano (MagicPath) смёржил ветку с сотнями изменений за 20 минут одним проходом.
Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать конечность».
:)
Неизвестный опрошенный: чтобы купить доступ, придется продать почку и сменить гражданство.

🔬 Наука: GPT-5.5 нашёл новое доказательство о числах Рамсея (комбинаторика), верифицированное в Lean. GeneBench (генетика) и BixBench (биоинформатика) — лидер среди моделей с опубликованными результатами.
Профессор иммунологии Derya Unutmaz проанализировал датасет из 62 образцов и 28 000 генов за часы вместо месяцев.

🔮 Будущее: GPT-5.5 — это переход от «модели, которая отвечает» к «модели, которая работает». Операции с компьютером и приложениями, научные исследования, документооборот — модель перемещается между инструментами и доводит задачи до конца.
API скоро.
Конкуренция с Claude Mythos (Anthropic) и Gemini 3.1 Pro (Google) выходит на новый уровень: battleground уже не бенчмарки, а способность автономно завершать многошаговые рабочие процессы.

#OpenAI #GPT55 #AI #кодинг #агенты #Codex #Spud
───
@tsingular

🔥31113⚡2❤11

2.58K views18:40

Технозаметки Малышева

0:08

Media is too big

VIEW IN TELEGRAM

#юмор #DeepSeek #карусель
———
@tsingular

🐳7❤1

2.25K views04:04

Технозаметки Малышева

DeepSeek V4: триллион параметров, миллион токенов, MIT-лицензия

DeepSeek V4 вышел с двумя моделями: Pro (1,6T параметров, 49B активных) и Flash (284B, 13B активных), обе с контекстом 1M токенов. Лицензия MIT.
1M контекст теперь стандарт всех сервисов DeepSeek, включая веб и приложение.
Ценник по API:
- V4-Flash: $0,14/$0,28 ($0.028/1M cache hit)
- V4-Pro: $1,74/$3,48 ($0,145/1M cache hit)

⚙️ Архитектура: MoE с тремя нововведениями.
Engram: условная память O(1) для статических фактов, хранится в DRAM, разгружает GPU на 20-25%.
Manifold-Constrained Hyper-Connections: ограничение матриц смесей бипвирхорным многогранником через Sinkhorn-Knopp, стабильность обучения при 1T+.
DeepSeek Sparse Attention: сжатие по токенам + DSA-внимание, убирает квадратичную стоимость на длинных контекстах.
Предобучение на 32T токенов, постобучение через калибровку доменных экспертов (SFT+RL/GRPO) с последующей on-policy дистилляцией.

📊 Бенчмарки V4-Pro-Max vs фронтвар:

Агентский кодинг (terminal, computer use)-> GPT-5.5
Production software engineering (SWE-Bench)-> Opus 4.7 и DS-V4-Pro практически вровень
Олимпиадная математика + чистые алгоритмы -> DeepSeek-V4-Pro-Max
Long context retrieval на полный 1M-> GPT-5.5 (MRCR v2), но Opus 4.7 лучше на CorpusQA
Reasoning на знаниях (GPQA, HLE)-> Opus 4.7
Factual QA (SimpleQA) -> DeepSeek-V4-Pro-Max

🤖 Агентная специализация: V4 оптимизирован под Claude Code, OpenClaw, OpenCode, CodeBuddy. Внутри DeepSeek V4-Pro уже используют как основную модель для Agentic Coding — по оценкам сотрудников превосходит Sonnet 4.5, приближается к Opus 4.6 вне thinking-режима, но уступает Opus 4.6 в thinking-режиме.

🔬 Три режима рассуждения:
Non-Think (быстрый),
Think High (логический анализ),
Think Max (максимум).
HMMT 2026 Feb: Flash Non-Think даёт 40,8, Flash-Max даёт 94,8. Разница в 54 пункта за thinking budget. FP4+FP8 mixed: эксперты в FP4, остальное в FP8.

API: deepseek-v4-pro / deepseek-v4-flash, старые имена deepseek-chat и deepseek-reasoner устареют 24.07.2026.

💼 Зачем бизнесу:
Внутренний бенчмарк DeepSeek: стоимость решения SWE-bench задачи на V4 ~$0,03 vs ~$0,72 на Opus.

Массовая автогенерация кода, анализ длинных документов, чат-боты на контекстах 1M — V4 это структурное снижение себестоимости.

Ну т.е. если нужно вдолгую что-то поисследовать и порешать за копейки - DeepseekV4 может вполне сгодится.
Но если результат нужен быстро, - Opus4.7 или GPT-5.5 лидеры

пробовать тут:
https://chat.deepseek.com

Конечно, очевидный плюс, - по факту в веб бесплатный аналог Opus 4.6

API, кстати, отвечает шустро

Ждём ответку от Google. У них скоро ежегодная конфа Google I/O - Gemini 4 может выкатят или, как сейчас модно, - 3.5

#DeepSeek #OpenSource #Китай
------
@tsingular

👀12🐳7🔥5🎉4❤3🍓111

2.95K viewsedited 04:07

Технозаметки Малышева

забавно. по API, когда DeepSeek готовит ответ, - в размышлениях он себя видит как Мы.
Типа, - Нас спросили.
Т.е. он и свои MoE видит как коллектив, работающий над задачей и у этого совета экспертов есть "делегат"-ассистент, который за всех и отвечает.
такой "капитан команды Что? Где? Когда?"
- Уважаемые Знатоки, внимание вопрос:
- Отвечать будет капитан Очевидность

#DeepSeek #MoE
———
@tsingular

⚡25🤣13✍7🍓11

2.45K viewsedited 05:09

Технозаметки Малышева

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

Unitree добавили мобильности.

Колеса, ролики, коньки.
Фляк на роликах вообще убил

Хейтеры скажут,- нейрорендер

#Unitree #роботы
------
@tsingular

1⚡10❤3👾3

2.37K viewsedited 10:25

Технозаметки Малышева

Forwarded from Наука и Техника: Промпт

Мы живём в удивительное время: чувак написал приложение, чтобы посмотреть фильм с ребёнком.

Парень рассказал, что в аэропорту хотел включить видео на ноутбуке, но столкнулся с банальной проблемой: у него одни наушники, у ребёнка — другие.

Вместо того чтобы искать переходники или страдать, он просто написал своё приложение, которое раздаёт звук сразу на несколько устройств.

Сделал это буквально на коленке с помощью ИИ — теперь он спокойно смотрит фильмы вдвоём с одного ноутбука.

🔥41🤯11⚡7

2.05K views11:29

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Kling 4K нативно

Завезли уже везде.

На самом Клинге до 7 мая скида 20% именно на 4К.

@cgevent

🔥12✍6⚡2❤1

2.06K views12:03

Технозаметки Малышева

Forwarded from Data Secrets

SakanaAI выпускают систему оркестрации агентов Sakana Fugu

Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.

Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.

Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.

Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.

Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.

Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).

P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.

🔥13❤1

2.25K views12:17

About

Blog

Apps

Platform