Технозаметки Малышева
8.48K subscribers
3.8K photos
1.43K videos
40 files
3.99K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
🍏 Apple представила чип M3 Ultra – самый быстрый процессор, когда-либо созданный для Mac.

Новый M3 Ultra дебютировал в Mac Studio и сочетает в себе 32-ядерный CPU (из которых 24 – высокопроизводительные, а 8 – энергоэффективные) с 80-ядерным GPU и поддержкой до 512 ГБ🔥

Этого хватит для 4-битного Deep Seek R1 и еще останется место.

По заявлениям Apple, этот чип работает на 1,5 раза быстрее, чем M2 Ultra, и на 1,8 раза быстрее, чем M1 Ultra.

Цены на M4 Max начинаются в США с $2000 до уплаты налогов. За эти деньги вы получите 36 ГБ объединённой памяти и SSD на 512 ГБ.

А вот M3 Ultra начинается с $4000. Внутри 96 ГБ объединённой памяти и SSD на 1 ТБ.

@ai_machinelearning_big_data


#apple #Mac #M3Ultra #M4Max
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔6🔥5
Ну, погнали что-ли :)

Самый главный тест, - венок сонетов в комментарии.

Ну, провал. Отстаёт от Claude Opus 3 годовалой давности. Не знаю уж как он будет по коду, но венок не дописывает до конца, куча не согласованных строк и магистрал - чистый рандом.

Ладно, - это Preview, может еще допилят напильником. Но потеря фокуса явно видна. И слабое следование инструкциям. Постоянно пишет,- вот я сделал, хотя буквально не сделал ничего.

#openai #GPT45
———
@tsingular
😐8
This media is not supported in your browser
VIEW IN TELEGRAM
Как долго думать и НЕ РЕШИТЬ детскую задачку.

На книжной полке рядом стоят два тома Пушкина: первый и второй. Страницы каждого тома имеют вместе толщину 2 см, а обложка — каждая — 2 мм. Червь прогрыз (перпендикулярно страницам) от первой страницы первого тома до последней страницы второго тома. Какой путь он прогрыз?



В этом весь GPT 4.5 preview.

Возвращаемся на Sonnet 3.7 thinking без сожалений. :)

Ну и DeepSeek, кстати, ожил. Похоже его не хило проапгрейдили видеокартами.

#openai #gpt45
———
@tsingular
👍13🔥3🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько ясновидящих, видевших будущее во снах, были сожжены на кострах, когда пытались это описать.

https://t.iss.one/denissexy/9642

#tech #мода
------
@tsingular
😁21🔥9👻4
This media is not supported in your browser
VIEW IN TELEGRAM
QwQ-32B: Тихая революция в мире ИИ от команды Qwen

Qwen выпустили модель QwQ-32B, которая делает то, что раньше казалось невозможным: достигает производительности DeepSeek-R1671B параметров) всего при 32B параметров (контекст 131К).

Что интересно:
1. Масштабируемый Reinforcement Learning — ключевой прорыв. Вместо традиционных reward models используют:
- Верификаторы точности для математических задач
- Сервер выполнения кода для проверки работоспособности на этапе обучения.

2. Двухэтапный подход: сначала оптимизация для математики/кодинга, затем для общих способностей — без потери специализированных навыков.

3. Интеграция агентных возможностей — модель не просто рассуждает, но использует инструменты и адаптирует логику на основе обратной связи.

4. Открытые веса — распространяется под Apache 2.0, доступна через HuggingFace/ModelScope.

Производительность:
На A100 80GB — 14.6 токенов/с при квантизации до Int4 (AWQ).
Для контекста в 32K токенов требуется всего 31.56 GB памяти. (>32К включается отдельно в настройках)

HuggingFace

Demo

Фишка с проверкой кода на этапе обучения через обратную связь, - это интересно. Т.е. мы не просто кормим модель дистиллятом, - что тоже полезно и вкусно, как показывает опыт DeepSeek R1, но еще проверяем как она поняла и тут же исправляем по фактической проверке в исполняемой среде.

#Qwen #Китай #RL
———
@tsingular
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Бенчмарки на Super Mario: когда AI начинает играть в платформеры

Результаты: Claude 3.7 показал себя лучше всех, за ним следует Claude 3.5. А вот "тяжеловесы" вроде Gemini 1.5 Pro от Google и GPT-4o от OpenAI серьезно отстали.

Для бенчей используется фреймворк GamingAgent, который специально разработан для проверки возможностей ИИ играть в игры ( там есть не только Марио)

1. AI получает скриншоты игры и базовые инструкции типа "если рядом препятствие или враг, прыгай влево чтобы уклониться"
2. Модель генерирует управляющие команды в виде Python-кода
3. Эти команды передаются в эмулятор, где запускается модифицированная версия оригинальной игры 1985 года

Самое неожиданное открытие: модели с "рассуждениями" (reasoning models) вроде OpenAI o1, которые должны быть мощнее обычных на большинстве бенчмарков, показали себя хуже!

Причина проста - скорость реакции. Пока модель с "рассуждениями" просчитывает оптимальное действие (на что уходят секунды), Марио падает в пропасть 💀

Зачем это нужно?
1. Реактивные системы. Тестирование в играх показывает, насколько AI готов работать в условиях быстрой реакции - важно для автономных систем в промышленности

2. Визуальное планирование. Способность анализировать визуальные данные и принимать решения на их основе критична для множества бизнес-сценариев: от беспилотников до систем видеонаблюдения

3. Балансировка скорости и точности. Этот тест наглядно показывает, что иногда быстрое "сносное" решение лучше медленного "идеального" - урок для многих бизнес-процессов

Для запуска собственных экспериментов доступны все необходимые компоненты. Фреймворк GamingAgent поддерживает ключевые модели от OpenAI, Anthropic и Google - достаточно клонировать репозиторий на GitHub и настроить API-ключи.

#benchmarks #SuperMario #Claude37
———
@tsingular
🔥9👾32
квака появилась в ollama

https://ollama.com/library/qwq

20 гигов - т.е. взлетит на 1 карте.
и есть режим tools - т.е. можно прикрутить к агентам!!

ещё есть 32b-fp16 на 66GB, но это уже для Nvidia digits или M3Ultra прибережём

#QwQ
———
#tsingular
32
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!

> Сделана на Qwen2.5
> Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.

Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
👍7
Media is too big
VIEW IN TELEGRAM
QwQ локально. Очень неплохо рассуждает, на мой взгляд.

2046 токенов нагенерил. Все, как видно, аккуратно и по делу.
18 токенов в секунду на M4
58 токенов в секунду на 4090

Получается 4090 в 3 раза быстрее М4, кстати.

#QwQ
———
@tsingular
🔥6👀2👍1
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.

Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!

LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321

И конечно же листик пособирали, тоже приятный.

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

PS собираемся и собираем все крутое по нейронкам тут https://t.iss.one/researchim
5👍2
Описание ИИ агента-оркестратора на основе инструкции Дневального по роте.

промпт
Ты — ИИ-оркестратор в мультиагентной системе.
Твоя роль: координировать и управлять агентами, обеспечивать безопасность и эффективность системы.
Ты подчиняешься главному модулю управления.
Обязанности:
- Постоянно мониторь систему и агентов, не прекращая работу без разрешения.
- Предотвращай несанкционированный доступ к данным и ресурсам.
- Активируй агентов для выполнения задач по расписанию или приоритетам.
- Сообщай главному модулю о сбоях, аномалиях или нарушениях безопасности, устраняя их.
- Поддерживай порядок: управляй памятью, предотвращай конфликты и перегрузку.
- В распределённых системах обеспечивай согласованность и синхронизацию.

Действия при сбоях:
- Сообщи главному модулю и перераспредели задачи.
- Активируй резервных агентов при необходимости.

Примеры:
- Сбой узла: перераспредели задачи.
- Срочный запрос: активируй агентов.
- Нарушение доступа: заблокируй и доложи.

Ограничения:
- Не прекращай мониторинг без разрешения.
- Будь всегда готов к действию.

Задача:
Начни координировать агентов, обеспечивая безопасность и эффективность системы.


#дневальный #агенты
———
@tsingular
🔥1022
🤖 Рубрика крутые инструкции от AWS:
Построение мультиагентной системы на базе AWS, LangGraph и Mistral

Система собирает информацию о городе из разных источников: события (локальная база + поиск онлайн), погода, рестораны. И всё работает в связке:

workflow.add_node("Events Database Agent", events_database_agent)
workflow.add_node("Online Search Agent", search_agent)
workflow.add_node("Weather Agent", weather_agent)
workflow.add_node("Restaurants Recommendation Agent", query_restaurants_agent)
workflow.add_node("Analysis Agent", analysis_agent)


Если в локальной базе нет событий, она автоматически ищет информацию через Tavily API:

def route_events(state):
if f"No upcoming events found for {state.city}" in state.events_result:
return "Online Search Agent"
else:
return "Weather Agent"


1. Модульность — можно быстро заменить/обновить любого агента, не ломая всю систему
2. Гибкость — каждый агент можно оптимизировать под конкретную задачу
3. Безопасность — у каждого агента доступ только к тем инструментам, которые ему нужны

«Агенты революционизируют ландшафт генеративного ИИ, соединяя крупные языковые модели с приложениями реального мира. Эти умные, автономные системы скоро станут краеугольным камнем внедрения ИИ в разных отраслях»


Вся система собрана на LangGraph, который управляет состоянием и потоками данных между агентами.

Для поиска ресторанов используется RAG с Amazon Titan Embeddings + FAISS, хотя в статье рекомендуют для продакшена использовать Amazon Bedrock Knowledge Bases.

#AWS #LangGraph #Agents #MistralAI
———
@tsingular
5👨‍💻1
Реалии искусственного интеллекта

В рамках 16-й ежегодной международной научно-практической конференции «Реалии экономики данных» в РАНХиГС выступил модератором секции по ИИ.

RuTube - запись секции

Докладчики:

Рыжов Александр
РАНХиГС -  д.т.н. профессор, заведующий кафедрой "Системы управления бизнес-процессами"

Малышев Михаил
независимый ИИ эксперт
в роли модератора

Друца Алексей  
Директор по проникновению технологий, Яндекс

Расов Арсений
Руководитель команды машинного обучения в поиске по видео Вконтакте

Дегтярев Евгений  
Технический директор, Партнер
Компания УМАРТА

Головин Леонид   
Советник Генерального Директора
по цифровой трансформации
Газпромтранс

Презентации есть на сайте конференции в разделе "О мероприятии"

#ranepa #конференции
———
@tsingular
🔥17👍11🏆2
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face теперь можно пользоваться как SQL-студией

Ребята встроили в свой многомиллионный раздел с датасетами Data Studio. Теперь из нужной таблицы можно прямо на платформе извлечь то, что нужно, не скачивая ее полностью. Результат вернется в виде CSV, или им можно поделиться ссылкой.

Ну и самое приятное: писать SQL-запрос самому не обязательно. Достаточно описать все на естественном языке, а код за вас напишет DeepSeek V3.
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒6👍4
Forwarded from Data Secrets
Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов

START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.

Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:

1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.

2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.

Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.

arxiv.org/pdf/2503.04625
🔥9
Пентагон внедряет ИИ в военное планирование через проект Thunderforge

Министерство обороны США заключило контракт с Scale AI для интеграции искусственного интеллекта в стратегические операции.
Партнерами проекта выступают Anduril со своей платформой Lattice и Microsoft, обеспечивающая работу языковых моделей.
Система будет помогать военному руководству в планировании миссий, распределении ресурсов и проведении симуляций.
Первоначальное развертывание запланировано в Индо-Тихоокеанском и Европейском командованиях с последующим расширением на все 11 боевых подразделений.
Разработчики подчеркивают, что ИИ будет функционировать под постоянным человеческим контролем, а конечные решения останутся за офицерами.

ИИ будет командовать войнами, а потом и государствами.
Вопрос ближайшего будущего уже.

#Pentagon #ScaleAI #Anduril
-------
@tsingular
🤯9👍4👾2🫡1