Технозаметки Малышева – Telegram

Технозаметки Малышева

11.1K subscribers

4.58K photos

1.69K videos

41 files

4.65K links

Новости инноваций из мира Искусственного Интеллекта. 🤖 [РКН: 7021469833 ]

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸: https://pay.cloudtips.ru/p/c8960bb

Download Telegram

About

Blog

Apps

Platform

Технозаметки Малышева

11.1K subscribers

Технозаметки Малышева

Forwarded from Russian OSINT

✒️ В Meta* будут фиксировать движения мыши и нажатия клавиш сотрудников, чтобы обучать свои 🤖ИИ-модели

Цукерберг одобрил решение установить ПО для отслеживания действий своих сотрудников в США, чтобы фиксировать их движения мыши, клики и нажатия клавиш с целью обучения своих моделей искусственного интеллекта.

👁 Инструмент Model Capability Initiative (MCI) будет работать в рабочих приложениях и на веб-сайтах, а также периодически делать снимки контента на экранах сотрудников.

Данная инициатива является частью масштабной реструктуризации компании с упором на искусственный интеллект, которая сопровождается планами по увольнению 10% сотрудников по всему миру.

Руководство Meta утверждает, что собранная информация не будет использоваться для оценки эффективности работы персонала, а послужит исключительно для реализации концепции будущего, в котором ИИ-агенты будут выполнять основную работу, а люди — лишь контролировать, направлять и помогать им совершенствоваться.

Журналисты отмечают иронию происходящего: сотрудники Meta теперь сами являются подопытными ~~крысами~~ кроликами, над которыми проводят эксперименты с использованием 😹агрессивной слежки, на которой построена бизнес-модель компании. В перспективе работников компании оптимизируют и заменят их работу ИИ-агентами.

*Meta (соцсети Facebook, Instagram) запрещена в РФ как 🏴‍☠️экстремистская.

✋

@Russian_OSINT

Please open Telegram to view this post

VIEW IN TELEGRAM

14👀10😁4🤯4❤3💯1🤨1

2.07K views15:33

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Разработчики HuggingFace с помощью Opus 4.7 переписали WebGPU-ядро, которое ускорило инференс Qwen3.5 в 13 раз с помощью операции fused LinearAttention! 🤯

Агентная оптимизация ядер,- уже реальность.

Уже доступно в 🤗 Transformers.js v4.2.0!

💡 Это шаг к тому, чтобы модели сами формировали системы, на которых они работают.

#opus #huggingface #qwen #transformers
------
@tsingular

13🤯10🔥4❤2👀1

2.41K views16:59

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

#OpenAI #юмор #карусель
———
@tsingular

😁13👍2

2.26K views18:35

Технозаметки Малышева

OpenAI выпустил GPT-5.5: первая модель после GPT-4.5 собранная с нуля

OpenAI выпустил GPT-5.5 (кодовое имя «Spud») — первую модель, обученную с нуля после GPT-4.5. Это не файн-тюн, а полноценный претрейн. Результат — скачок в агентных задачах при сохранении скорости GPT-5.4.

📊 Бенчмарки:
Terminal-Bench 2.0: 82.7% (GPT-5.4: 75.1%, Claude Opus 4.7: 69.4%).
OSWorld-Verified: 78.7%.
CyberGym: 81.8%.
FrontierMath Tier 4: 35.4% (GPT-5.4: 27.1%, Opus 4.7: 22.9%).
GDPval: 84.9%.
При этом GPT-5.5 тратит меньше токенов на те же задачи Codex.

💻 Агентный кодинг: Модель понимает «форму системы» — почему что-то ломается, где нужно исправление, и что ещё в кодовой базе пострадает. Dan Shipper (Every) назвал GPT-5.5 «первой кодинг-моделью с серьёзной концептуальной ясностью».
Pietro Schirano (MagicPath) смёржил ветку с сотнями изменений за 20 минут одним проходом.
Инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать конечность».
:)
Неизвестный опрошенный: чтобы купить доступ, придется продать почку и сменить гражданство.

🔬 Наука: GPT-5.5 нашёл новое доказательство о числах Рамсея (комбинаторика), верифицированное в Lean. GeneBench (генетика) и BixBench (биоинформатика) — лидер среди моделей с опубликованными результатами.
Профессор иммунологии Derya Unutmaz проанализировал датасет из 62 образцов и 28 000 генов за часы вместо месяцев.

🔮 Будущее: GPT-5.5 — это переход от «модели, которая отвечает» к «модели, которая работает». Операции с компьютером и приложениями, научные исследования, документооборот — модель перемещается между инструментами и доводит задачи до конца.
API скоро.
Конкуренция с Claude Mythos (Anthropic) и Gemini 3.1 Pro (Google) выходит на новый уровень: battleground уже не бенчмарки, а способность автономно завершать многошаговые рабочие процессы.

#OpenAI #GPT55 #AI #кодинг #агенты #Codex #Spud
───
@tsingular

🔥31113⚡2❤11

2.58K views18:40

Технозаметки Малышева

Media is too big

VIEW IN TELEGRAM

#юмор #DeepSeek #карусель
———
@tsingular

🐳7❤1

2.25K views04:04

Технозаметки Малышева

DeepSeek V4: триллион параметров, миллион токенов, MIT-лицензия

DeepSeek V4 вышел с двумя моделями: Pro (1,6T параметров, 49B активных) и Flash (284B, 13B активных), обе с контекстом 1M токенов. Лицензия MIT.
1M контекст теперь стандарт всех сервисов DeepSeek, включая веб и приложение.
Ценник по API:
- V4-Flash: $0,14/$0,28 ($0.028/1M cache hit)
- V4-Pro: $1,74/$3,48 ($0,145/1M cache hit)

⚙️ Архитектура: MoE с тремя нововведениями.
Engram: условная память O(1) для статических фактов, хранится в DRAM, разгружает GPU на 20-25%.
Manifold-Constrained Hyper-Connections: ограничение матриц смесей бипвирхорным многогранником через Sinkhorn-Knopp, стабильность обучения при 1T+.
DeepSeek Sparse Attention: сжатие по токенам + DSA-внимание, убирает квадратичную стоимость на длинных контекстах.
Предобучение на 32T токенов, постобучение через калибровку доменных экспертов (SFT+RL/GRPO) с последующей on-policy дистилляцией.

📊 Бенчмарки V4-Pro-Max vs фронтвар:

Агентский кодинг (terminal, computer use)-> GPT-5.5
Production software engineering (SWE-Bench)-> Opus 4.7 и DS-V4-Pro практически вровень
Олимпиадная математика + чистые алгоритмы -> DeepSeek-V4-Pro-Max
Long context retrieval на полный 1M-> GPT-5.5 (MRCR v2), но Opus 4.7 лучше на CorpusQA
Reasoning на знаниях (GPQA, HLE)-> Opus 4.7
Factual QA (SimpleQA) -> DeepSeek-V4-Pro-Max

🤖 Агентная специализация: V4 оптимизирован под Claude Code, OpenClaw, OpenCode, CodeBuddy. Внутри DeepSeek V4-Pro уже используют как основную модель для Agentic Coding — по оценкам сотрудников превосходит Sonnet 4.5, приближается к Opus 4.6 вне thinking-режима, но уступает Opus 4.6 в thinking-режиме.

🔬 Три режима рассуждения:
Non-Think (быстрый),
Think High (логический анализ),
Think Max (максимум).
HMMT 2026 Feb: Flash Non-Think даёт 40,8, Flash-Max даёт 94,8. Разница в 54 пункта за thinking budget. FP4+FP8 mixed: эксперты в FP4, остальное в FP8.

API: deepseek-v4-pro / deepseek-v4-flash, старые имена deepseek-chat и deepseek-reasoner устареют 24.07.2026.

💼 Зачем бизнесу:
Внутренний бенчмарк DeepSeek: стоимость решения SWE-bench задачи на V4 ~$0,03 vs ~$0,72 на Opus.

Массовая автогенерация кода, анализ длинных документов, чат-боты на контекстах 1M — V4 это структурное снижение себестоимости.

Ну т.е. если нужно вдолгую что-то поисследовать и порешать за копейки - DeepseekV4 может вполне сгодится.
Но если результат нужен быстро, - Opus4.7 или GPT-5.5 лидеры

пробовать тут:
https://chat.deepseek.com

Конечно, очевидный плюс, - по факту в веб бесплатный аналог Opus 4.6

API, кстати, отвечает шустро

Ждём ответку от Google. У них скоро ежегодная конфа Google I/O - Gemini 4 может выкатят или, как сейчас модно, - 3.5

#DeepSeek #OpenSource #Китай
------
@tsingular

👀12🐳7🔥5🎉4❤3🍓111

2.94K viewsedited 04:07

Технозаметки Малышева

забавно. по API, когда DeepSeek готовит ответ, - в размышлениях он себя видит как Мы.
Типа, - Нас спросили.
Т.е. он и свои MoE видит как коллектив, работающий над задачей и у этого совета экспертов есть "делегат"-ассистент, который за всех и отвечает.
такой "капитан команды Что? Где? Когда?"
- Уважаемые Знатоки, внимание вопрос:
- Отвечать будет капитан Очевидность

#DeepSeek #MoE
———
@tsingular

⚡25🤣13✍7🍓11

2.44K viewsedited 05:09

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Unitree добавили мобильности.

Колеса, ролики, коньки.
Фляк на роликах вообще убил

Хейтеры скажут,- нейрорендер

#Unitree #роботы
------
@tsingular

1⚡10❤3👾3

2.37K viewsedited 10:25

Технозаметки Малышева

Forwarded from Наука и Техника: Промпт

Мы живём в удивительное время: чувак написал приложение, чтобы посмотреть фильм с ребёнком.

Парень рассказал, что в аэропорту хотел включить видео на ноутбуке, но столкнулся с банальной проблемой: у него одни наушники, у ребёнка — другие.

Вместо того чтобы искать переходники или страдать, он просто написал своё приложение, которое раздаёт звук сразу на несколько устройств.

Сделал это буквально на коленке с помощью ИИ — теперь он спокойно смотрит фильмы вдвоём с одного ноутбука.

🔥41🤯11⚡7

2.05K views11:29

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Kling 4K нативно

Завезли уже везде.

На самом Клинге до 7 мая скида 20% именно на 4К.

@cgevent

🔥12✍6⚡2❤1

2.06K views12:03

Технозаметки Малышева

Forwarded from Data Secrets

SakanaAI выпускают систему оркестрации агентов Sakana Fugu

Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем.

Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте.

Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос.

Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов.

Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7.

Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле).

P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.

🔥13❤1

2.25K views12:17

Технозаметки Малышева

Deepseek v4 flash уже в олламе cloud:

Можно попробовать на агентах, кто на подписке

ollama run deepseek-v4-flash:cloud
#Deepseek
------
@tsingular

⚡14✍6❤4👍1🔥1

2.14K viewsedited 14:44

Технозаметки Малышева

Media is too big

VIEW IN TELEGRAM

Алибаба готовит к релизу новую "Модель мира"

Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.

Цитата от тестера:
Я не испытывал такого технического шока со времён первого дня беты DALL-E. Наконец получил инвайт в Happy Oyster (Alibaba) и провёл день, тестируя его возможности.

Мы слышали о «World Models» и Project Genie от Google месяцами, но это конкретная реализация. Другой подход по сравнению с инструментами вроде Marble Studio. Пока большинство моделей анимируют плоское изображение, Happy Oyster трактует творения как реальные физические пространства.

Под капотом: вместо простого предсказания пикселей модель интерпретирует изображения Flux и Midjourney как 3D-латентные среды. Она предсказывает геометрию и освещение в реальном времени на основе пользовательского ввода (WASD). Это позволяет перемещаться по изображению без потери пространственной согласованности.

Я не просто смотрел на свои изображения — я ходил сквозь них. Видеть, как статичное искусство становится исследуемым миром — ощущается как рождение нового медиума.

Автор: Damien Miri

Ещё примеры: Youtube

#Alibaba #WorldModels #HappyOyster
———
@tsingular

🔥249🤯43❤1😐1

2.62K viewsedited 15:37

Технозаметки Малышева

Google Agents CLI — CLI, который учит кодинг-агентов строить агентов

Google выпустил Agents CLI, - и это уже не просто очеред... (попались :) )
короче, - это CLI + набор скиллов, которые превращают Gemini CLI, Claude Code, Codex и любых других ассистенты в экспертов по сборке и деплою агентов на ADK.

⚙️ Прокачиваем агента:

uvx google-agents-cli setup

И вот ваш основной агент уже научился собирать ADKшных агентов.
Агент узнает про ADK Python API, методологию пайплайнов, правила кода, как деплоить на Agent Runtime / Cloud Run / GKE, как собирать трейсы и как регистрировать в Gemini Enterprise.

🔧 Скиллы под капотом (7 штук):
- workflow (жизненный цикл),
- adk-code (ADK API + оркестрация),
- scaffold (генерация проектов),
- eval (метрики + LLM-as-judge + траектории),
- deploy (Agent Runtime/Cloud Run/GKE/CI-CD),
- publish (Gemini Enterprise),
- observability (Cloud Trace + логи).

🧪 CLI как самостоятельный инструмент: работает и без кодинг-агента. scaffold, eval run, deploy, infra, data-ingestion — всё из терминала. agents-cli scaffold enhance добавляет CI/CD и RAG в существующий проект.

💼 Зачем бизнесу: Стандартизация. Вместо того чтобы каждый агент-разработчик осваивал ADK, Cloud Run, Cloud Trace, IAM, CI/CD и Gemini Enterprise по отдельности — один CLI закрывает весь пайплайн от scaffold до publish. Снижает порог входа для корпоративных команд.

🔮 Будущее: Google делает ставку на агентную платформу как экосистему. Agents CLI — это мост между кодинг-агентами (Gemini CLI, Codex, Claude Code) и Google Cloud. Open-source, скиллы по открытой спецификации Agent Skills, совместимость с gh skill.
Вопрос времени когда подобное появится аналогичное от AWS и Azure.

Github

Кстати, - крайне рекомендую изучить для сборки собственных навыков деплоя агентами в корпоративной среде.

#Google #AgentsCLI #ADK #AgentPlatform #Gemini #DevOps #GoogleCloud
───
@tsingular

🔥7👍3⚡2❤1🎄111

2.72K viewsedited 16:21

Технозаметки Малышева

Forwarded from Data Secrets

Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.

Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.

1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.

2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.

3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.

Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)

Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем ☕️

www.anthropic.com/engineering/april-23-postmortem

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16⚡55❤4🔥22

2.12K views16:51

Технозаметки Малышева

Как следствие мы получим полностью генерируемые и управляемые по наполнению среды.

Технозаметки Малышева

Алибаба готовит к релизу новую "Модель мира"

Посмотрите видео, - эти миры нейронка генерит в реальном времени. Вы просто даете ей фотографии или картинки и она из них восстанавливает целый мир.

Цитата от тестера:
Я не испытывал такого технического шока…

А прикольно состарилось.
всего 2 года, как что-то там не укладывалось в голове, и вот уже у нас волна моделей мира.

Та же история с Дипсиком, кстати, - что контекст на 1 миллион тепень норма.
Пару лет назад всем хватало 8К :)
Как вам идея, что через пару лет 10М контекста будут нормой? укладывается в голове ? :)

#worldmodels
———
@tsingular

🔥16🤯54⚡1❤11

2.19K viewsedited 06:29

Технозаметки Малышева

MIT MathNet — 30 000 олимпиадных задач по математике в открытом доступе

MIT CSAIL совместно с KAUST и HUMAIN собрали MathNet — крупнейший датасет доказательных математических задач. 30 000+ задач и решений из 47 стран, 17 языков, 143 соревнований. В 5 раз больше любого предыдущего аналога.

🏛 Архитектура: 1 595 PDF-томов (25 000+ страниц). Основа — личная коллекция Navid Safaei, который с 2006 года вручную сканировал буклеты национальных олимпиад. В отличие от AoPS (форумные решения), MathNet использует только официальные буклеты с рецензированными решениями.

🌍 Покрытие: Не только США и Китай, как во всех прошлых датасетах, — 6 континентов, 17 языков. Монгольские, румынские, бразильские задачи. Текстовые и графические формулировки. 4 десятилетия.

🤖 AI-бенчмарк: Результаты сложнее, чем «золото IMO». GPT-5 — лучший среди протестированных — набрал лишь 69.3% на основном бенчмарке (6 400 задач). Каждый третий олимпиадный уровень — мимо. Задачи с рисунками — провал у всех моделей. Open-source модели показали 0% на монгольском.

🔍 Retrieval benchmark: Модели ищут структурно похожие задачи. Лучшая нашла эквивалент с первого раза только в 5% случаев. DeepSeek-V3.2-Speciale при качественном retrieval получал +12 п.п., но плохой retrieval ухудшал результат в 22% случаев.

💼 Зачем бизнесу: Датасет — публичное достояние (open access). Для AI-команд: реалистичный бенчмарк математического рассуждения, который не затачивался под LLM. Для EdTech: 30К задач с рецензированными решениями на 17 языках — материал для адаптивного обучения.

🔮 Будущее: MathNet ставит вопрос: «настоящий» прогресс ИИ в математике или переобучение на узкий пул англо-китайских задач? Когда модель решает 69% — это впечатляет. Когда 0% на монгольском — напоминает, что reasoning ≠ memorization.

#MIT #MathNet #AI #математика #LLM #бенчмарки #образование #OpenData
───
@tsingular

🔥12❤3⚡321

2.67K views06:44

Технозаметки Малышева

Forwarded from IT is my job

С современными технологиями практически безразлично, на каком языке писать книгу. И я решил это проверить.

Сдав экзамен Anthropic Claude Certified Architect, я понял, что знания, которые я получил в процессе почти трёхлетней подготовки, внезапно собрались в логичную структуру повествования. Поэтому пока сын занимался футболом, я начал гулять вокруг поля и надиктовывать главы будущей книги в виде голосовых заметок.

Потом они были переведены, отредактированы, обогащены точными фактами и красиво оформлены. В итоге меньше чем за месяц пылающим пером и современными инструментами была написана эта книга. А потом я подумал, что раз мы оснащены такими прекрасными технологиями, то можно её и перевести обратно на русский и поделиться со всеми.

Скачать можно в предыдущем посте: https://t.iss.one/itismyjob/76

🔥15👍742✍1⚡1

2.52K views07:01

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Грок прокачал липсинк :)

#Grok #lipsync
———
@tsingular

🔥33👍5😁3

2.56K views07:08