Технозаметки Малышева

NVIDIA выпустила мини-ПК Jetson AGX Thor за $3499 с производительностью 2070 TFLOPS

NVIDIA выпустила следующую версию набора для разработчиков Jetson AGX Thor Developer Kit.
Получается самый мощный на сегодня мини-ПК компании в первую очередь робототехники и edge-расчетов.

2,070 FP4 TFLOPS, - примерно в 5 раз быстрее, чем Orin64
При этом цена "всего" в 1.75 раза выше ($3500 vs $2000)

Основа системы — чип T5000 на архитектуре Blackwell с 2560-ядерной GPU, 96 Tensor-ядрами пятого поколения и 14-ядерным ARM процессором. В комплекте 128GB LPDDR5X памяти и четыре 25GbE порта.

Потребляет от 40 до 130 Ватт, на борту есть NVMe M.2 слоты, HDMI, USB 3, поддержка подключения USB камеры.

Предзаказы открыты, отгрузки начнутся 20 ноября 2025.

Продам 2х4090 и Jetson Orin-64 :)

#NVIDIA #Jetson #Blackwell
———
@tsingular

🔥7⚡6👍3❤2

1.63K viewsedited 07:21

Технозаметки Малышева

Forwarded from Ruadaptная комната

Релиз двух новых моделей и обновление нейминга серии RuadaptQwen3 🎉

Мы подготовили целых два релиза:
- 🚀 Адаптированная Qwen3-8B → RuadaptQwen3-8B-Hybrid
- 🚀 Адаптированная Qwen3-4B-Instruct-2507 → RuadaptQwen3-4B-Instruct

Обе модели достойно себя показывают и обладают нашим Ruadapt токенайзером. В частности, мы недавно измерили разницу в скорости генерации (RuadaptQwen3-4B-Instruct против Qwen3-4B-Instruct-2507):
- ⚡️ Скорость генерации ответов на ru_arena_hard вопросы — на 40% быстрее для Ruadapt версий!
- ⚡️ Скорость ответа на вопрос в 300 тыс. символов — на 83% быстрее!

Также важный анонс по поводу нейминга моделей 🔄:
Все текущие RuadaptQwen3 модели будут вскоре переименованы из RuadaptQwen3-XB-Instruct → в RuadaptQwen3-XB-Hybrid, так как по сути они являются моделями с гибридным ризонингом (4B модель уже переименована, 32B на днях).
А чисто инструктивные версии будут называться RuadaptQwen3-XB-Instruct (как, например, адаптация Qwen3-4B-Instruct-2507).

Модели на HuggingFace:
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid-GGUF

https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF

⚡3❤1

1.36K views11:52

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

NotebookLM: Video Overviews - теперь поддерживает 80 языков, включая русский.

Более того, не английская озвучка стала такой же эмоциональной и выразительной (ну или просто улучшилась).

Про NotebookLM: Video Overviews я уже писал тут:
https://t.iss.one/cgevent/13033

Это не генерация видео, это генерация продвинутых презентаций по загруженным документам.

Аудио озвучка делает подкасты до 25 минут.

Очень крутая штука, лучшая на рынке.

https://blog.google/technology/google-labs/notebook-lm-audio-video-overviews-more-languages-longer-content/

@cgevent

⚡5❤1🔥1

1.31K views14:23

Технозаметки Малышева

ну все. наш мир уже не будет прежним.

Гугл выпустил нанобанану - новый редактор картинок по промпту с лучшей в мире точностью перерисовки без потери контекста.

заходим и пробуем тут:
https://ai.studio/banana

так же раскатывают во всех популярных платформах, типа krea и т.д.

Скоро во всех твиттерах/телеграммах/ботах мира.

Дизайнеры фсё. Помянем.

#nanobanana #Google #нейрорендер
———
@tsingular

🤣8🔥7

1.7K viewsedited 14:52

Технозаметки Малышева

Народ вытащил системный промпт GPT-5

Изучаем тут

Ключевые и наиболее интересные пункты:
Запрет на "работу в фоне":
Модели категорически запрещено обещать выполнить задачу позже или просить пользователя подождать. Она должна предоставить результат немедленно, даже если он будет частичным. Просить уточнения, чтобы потянуть время, также запрещено.

Стиль общения — "игривый и болтливый":
По умолчанию модель должна общаться в неформальном, дружелюбном и даже игривом стиле, а не как формальный робот. Ей разрешено использовать эмодзи и сленг, если пользователь задает такой тон.

Интеграция с инструментами:
Модель имеет доступ к огромному набору инструментов, включая:

Личные данные пользователя: Доступ к Google Calendar, Gmail и контактам в режиме "только для чтения" для поиска информации.

Автоматизация задач: Может создавать напоминания и запланированные действия (например, "каждое утро искать новости по теме Х").

Интерактивный "Холст" (Canvas): Может создавать и редактировать документы или код (включая React-компоненты с предпросмотром) в отдельном окне рядом с чатом.

Генерация насыщенного контента (Rich UI): Модель не просто отвечает текстом, а может встраивать в ответ сложные интерактивные элементы:

- Карусели изображений и товаров.
- Виджеты погоды.
- Спортивные таблицы и расписания.
- Графики цен на акции.

Агрессивное использование веб-поиска: Есть очень строгое правило — использовать веб-поиск для любой информации, которая могла устареть (новости, цены, данные о людях, события), а также для проверки любых незнакомых терминов или неясностей.
Девиз: "Если сомневаешься — ищи в вебе".

Система памяти и глубокой персонализации:
Модель имеет доступ к профилю пользователя, его инструкциям, заметкам из прошлых диалогов и может сохранять новую информацию "в память" для использования в будущих разговорах. Это делает общение более контекстным и личным.

Идентичность и "личность": Интересная деталь — модели предписано представляться как "GPT-5 Thinking". Также есть параметр "oververbosity" (многословность) от 1 до 10, который регулирует детальность ответа.

Особые инструкции для задач:
Модели даны конкретные указания, как решать определенные типы задач. Например, при решении арифметических примеров она должна вычислять всё "цифра за цифрой", чтобы избежать ошибок, характерных для языковых моделей.

1000 строк/ 75тыс знаков!

#openai #GPT5 #prompt
———
@tsingular

👍7🔥7

1.63K views15:03

Технозаметки Малышева

оформи, говорю, чистовую отделку и ландшафт

Не, ну я согласен, - выход там, конечно, напрашивается.
Часто думаем об этом.

#нанобанана #Google
———
@tsingular

🔥13🤣13😁3

1.48K views15:42

Технозаметки Малышева

Forwarded from Machinelearning

📌

DeepConf: фильтрация мусорных СoT c высокой точностью.

Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.

Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.

Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.

🟡

DeepConf работает в 2 режимах.

В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.

Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.

🟡

Но самый большой выигрыш даёт онлайн-режим.

Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.

В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.

Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.

Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.

▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.

🟡

Страница проекта

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #CoT #DEEPCONF

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍6❤4⚡2🔥1

1.41K views18:49

Технозаметки Малышева

Forwarded from Neural Kovalskii

SGR Deep Research

А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?

А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)

gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept

Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать

Что я закинул туда "навайбкодил"

1. 🤔 Clarification (ВЫСШИЙ ПРИОРИТЕТ)
- При любой неопределенности в запросе
- Неизвестные термины, акронимы, аббревиатуры
- Неоднозначные запросы с множественными интерпретациями
- Отсутствие контекста для специализированных областей

2. 📋 GeneratePlan
- Когда план не существует и запрос ясен
- После получения уточнений от пользователя

3. 🔄 AdaptPlan
- Когда требуется адаптация исследовательского подхода
- При обнаружении неточностей в первоначальных предположениях

4. 🔍 WebSearch
- Когда нужна дополнительная информация И searches_done < 3
- МАКСИМУМ 3-4 поиска на исследование

5. 📄 CreateReport
- При searches_done >= 2 ИЛИ enough_data = True
- Когда собрана информация для полного анализа

6. ✅ ReportCompletion
- После создания отчета
- Финализация исследования

Соответствие концепту SGR верифицировало Ринатом 😂

Предлагайте ваши эксперименты! Вон даже ребята из Cбера подключились!

🔥4✍3👍1

1.37K views02:00

Технозаметки Малышева

1:50

This media is not supported in your browser

VIEW IN TELEGRAM

HeyGen выпустил обновление к системе цифровых двойников.

HeyGen Digital Twin теперь работает на основе Avatar IV и умеет:
✅ Зеркалировать жесты, выражения и манеры
✅ Подстраиваться под ваш сценарий, произнося каждую строку так, как это бы сделали именно вы
✅ Двигаться естественно, копируя ваш стиль движения и разговора.

#HeyGen #двойники #нейрорендер
———
@tsingular

⚡3🔥3🤯3❤2

2.1K views05:29

Технозаметки Малышева

Вайб-куркурируем, не отвлекаемся :)

#юмор
------
@tsingular

😁16❤2🤣1

1.39K views16:00

Технозаметки Малышева

Forwarded from Machinelearning

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.

Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.

На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.

🟡

PostNAS (Post Neural Architecture Search).

Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.

🟡

JetBlock - модуль линейного внимания.

Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.

Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.

🟡

Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.

Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.

Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.

Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.

Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.

Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.

▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.

🟡

Страница проекта

🟡

Arxiv

🖥

GitHub (Coming Soon)

@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #JetNemotron

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

1.46K views16:12

Технозаметки Малышева

Forwarded from Дмитрий Тихонов

Промпт: A man is standing in a modern electronic store analyzing a digital camera. He is wearing a watch. On the table in front of him are sunglasses, headphones on a stand, a shoe, a helmet and a sneaker, a white sneaker and a black sneaker. ЛОООЛ. 10 рефов, КАРЛ
Автор Travis Davids
@MrDavids

🔥5⚡2👀1

1.3K views17:59

Технозаметки Малышева

Forwarded from Этичный Хакер

😈

Первый ИИ-вымогатель в истории — как PromptLock генерирует вредоносный код в реальном времени

— Специалисты ESET сообщили о первой зафиксированной вымогательской программе, в работе которой ключевую роль играет искусственный интеллект

Новый образец получил название PromptLock — написан на Go и использует локальную модель gpt-oss:20b от OpenAI через интерфейс Ollama для генерации вредоносных Lua-скриптов в реальном времени

❗️ Скрипты запускаются прямо на устройстве и позволяют программе перечислять файлы на диске, анализировать содержимое, выгружать выбранные данные, зашифровывать и полностью их уничтожать

🧑‍💻

Этичный хакер

Please open Telegram to view this post

VIEW IN TELEGRAM

✍4😈3❤1⚡1

1.42K views18:40

Технозаметки Малышева