Технозаметки Малышева
8.49K subscribers
3.8K photos
1.42K videos
40 files
3.98K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия
: Apache 2.0

Model: https://huggingface.co/THUDM/CogView4-6B
Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Github: https://github.com/THUDM/CogView4
Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data


#AI #CogView4 #OpenSource #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3
This media is not supported in your browser
VIEW IN TELEGRAM
Без комментариев.

P.S.: Я потом ещё посмотрел как это сделано- оказалось что это скрипт

Т.е. робот не принимает решение как именно двигаться.

Это предзаписанный танец.

#unitree #robots
———
@tsingular
👀12🔥7🤔3👾1
Media is too big
VIEW IN TELEGRAM
🌐 Консорциум NextGenAI: OpenAI раздаёт $50М на образование и исследования

OpenAI запускает масштабный консорциум с 15 исследовательскими институтами — с громким названием NextGenAI.

Суть такая: они вкладывают $50 миллионов в гранты, вычислительные мощности и доступ к API. Всё это для исследователей, студентов и преподавателей.

В списке участников настоящие тяжеловесы мировой науки:
- Caltech
- MIT и Гарвард
- Оксфорд
- Университет Мичигана
- Бостонская детская больница
- И даже Бостонская публичная библиотека

На что потратят деньги?

🏥 Медицина: Гарвард вместе с Бостонской детской больницей будут использовать ИИ для ускорения диагностики редких заболеваний.

📚 Оцифровка знаний: Оксфордская библиотека Бодлиана начала оцифровывать редкие тексты и использует API OpenAI для их транскрипции — это сделает многовековые знания доступными для поиска.

🧪 Метанаука: В Университете Дьюка исследуют, где ИИ может принести наибольшую пользу науке — причём используют для этого сам ИИ. Мета-подход!

Зачем это OpenAI?
Очевидно, это не просто благотворительность. Тут сразу несколько выгод:

1. Выращивают будущие кадры под свои инструменты
2. Получают тестовые площадки для своих технологий
3. Доступ к реальным данным в области медицины, науки и образования
4. Создают экосистему вокруг своего API

Кстати, это продолжение их образовательной стратегии — в мае 2024 они уже запустили ChatGPT Edu для университетов.

Жду когда Яндекс достроит свой новый офис на Косыгина и возьмёт шефство над Дворцом Пионеров на Воробьёвых :)

#NextGenAI #OpenAI #образование
———
@tsingular
👍11🔥6😁2
Forwarded from Machinelearning
🍏 Apple представила чип M3 Ultra – самый быстрый процессор, когда-либо созданный для Mac.

Новый M3 Ultra дебютировал в Mac Studio и сочетает в себе 32-ядерный CPU (из которых 24 – высокопроизводительные, а 8 – энергоэффективные) с 80-ядерным GPU и поддержкой до 512 ГБ🔥

Этого хватит для 4-битного Deep Seek R1 и еще останется место.

По заявлениям Apple, этот чип работает на 1,5 раза быстрее, чем M2 Ultra, и на 1,8 раза быстрее, чем M1 Ultra.

Цены на M4 Max начинаются в США с $2000 до уплаты налогов. За эти деньги вы получите 36 ГБ объединённой памяти и SSD на 512 ГБ.

А вот M3 Ultra начинается с $4000. Внутри 96 ГБ объединённой памяти и SSD на 1 ТБ.

@ai_machinelearning_big_data


#apple #Mac #M3Ultra #M4Max
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔6🔥5
Ну, погнали что-ли :)

Самый главный тест, - венок сонетов в комментарии.

Ну, провал. Отстаёт от Claude Opus 3 годовалой давности. Не знаю уж как он будет по коду, но венок не дописывает до конца, куча не согласованных строк и магистрал - чистый рандом.

Ладно, - это Preview, может еще допилят напильником. Но потеря фокуса явно видна. И слабое следование инструкциям. Постоянно пишет,- вот я сделал, хотя буквально не сделал ничего.

#openai #GPT45
———
@tsingular
😐8
This media is not supported in your browser
VIEW IN TELEGRAM
Как долго думать и НЕ РЕШИТЬ детскую задачку.

На книжной полке рядом стоят два тома Пушкина: первый и второй. Страницы каждого тома имеют вместе толщину 2 см, а обложка — каждая — 2 мм. Червь прогрыз (перпендикулярно страницам) от первой страницы первого тома до последней страницы второго тома. Какой путь он прогрыз?



В этом весь GPT 4.5 preview.

Возвращаемся на Sonnet 3.7 thinking без сожалений. :)

Ну и DeepSeek, кстати, ожил. Похоже его не хило проапгрейдили видеокартами.

#openai #gpt45
———
@tsingular
👍13🔥3🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько ясновидящих, видевших будущее во снах, были сожжены на кострах, когда пытались это описать.

https://t.iss.one/denissexy/9642

#tech #мода
------
@tsingular
😁21🔥9👻4
This media is not supported in your browser
VIEW IN TELEGRAM
QwQ-32B: Тихая революция в мире ИИ от команды Qwen

Qwen выпустили модель QwQ-32B, которая делает то, что раньше казалось невозможным: достигает производительности DeepSeek-R1671B параметров) всего при 32B параметров (контекст 131К).

Что интересно:
1. Масштабируемый Reinforcement Learning — ключевой прорыв. Вместо традиционных reward models используют:
- Верификаторы точности для математических задач
- Сервер выполнения кода для проверки работоспособности на этапе обучения.

2. Двухэтапный подход: сначала оптимизация для математики/кодинга, затем для общих способностей — без потери специализированных навыков.

3. Интеграция агентных возможностей — модель не просто рассуждает, но использует инструменты и адаптирует логику на основе обратной связи.

4. Открытые веса — распространяется под Apache 2.0, доступна через HuggingFace/ModelScope.

Производительность:
На A100 80GB — 14.6 токенов/с при квантизации до Int4 (AWQ).
Для контекста в 32K токенов требуется всего 31.56 GB памяти. (>32К включается отдельно в настройках)

HuggingFace

Demo

Фишка с проверкой кода на этапе обучения через обратную связь, - это интересно. Т.е. мы не просто кормим модель дистиллятом, - что тоже полезно и вкусно, как показывает опыт DeepSeek R1, но еще проверяем как она поняла и тут же исправляем по фактической проверке в исполняемой среде.

#Qwen #Китай #RL
———
@tsingular
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Бенчмарки на Super Mario: когда AI начинает играть в платформеры

Результаты: Claude 3.7 показал себя лучше всех, за ним следует Claude 3.5. А вот "тяжеловесы" вроде Gemini 1.5 Pro от Google и GPT-4o от OpenAI серьезно отстали.

Для бенчей используется фреймворк GamingAgent, который специально разработан для проверки возможностей ИИ играть в игры ( там есть не только Марио)

1. AI получает скриншоты игры и базовые инструкции типа "если рядом препятствие или враг, прыгай влево чтобы уклониться"
2. Модель генерирует управляющие команды в виде Python-кода
3. Эти команды передаются в эмулятор, где запускается модифицированная версия оригинальной игры 1985 года

Самое неожиданное открытие: модели с "рассуждениями" (reasoning models) вроде OpenAI o1, которые должны быть мощнее обычных на большинстве бенчмарков, показали себя хуже!

Причина проста - скорость реакции. Пока модель с "рассуждениями" просчитывает оптимальное действие (на что уходят секунды), Марио падает в пропасть 💀

Зачем это нужно?
1. Реактивные системы. Тестирование в играх показывает, насколько AI готов работать в условиях быстрой реакции - важно для автономных систем в промышленности

2. Визуальное планирование. Способность анализировать визуальные данные и принимать решения на их основе критична для множества бизнес-сценариев: от беспилотников до систем видеонаблюдения

3. Балансировка скорости и точности. Этот тест наглядно показывает, что иногда быстрое "сносное" решение лучше медленного "идеального" - урок для многих бизнес-процессов

Для запуска собственных экспериментов доступны все необходимые компоненты. Фреймворк GamingAgent поддерживает ключевые модели от OpenAI, Anthropic и Google - достаточно клонировать репозиторий на GitHub и настроить API-ключи.

#benchmarks #SuperMario #Claude37
———
@tsingular
🔥9👾32
квака появилась в ollama

https://ollama.com/library/qwq

20 гигов - т.е. взлетит на 1 карте.
и есть режим tools - т.е. можно прикрутить к агентам!!

ещё есть 32b-fp16 на 66GB, но это уже для Nvidia digits или M3Ultra прибережём

#QwQ
———
#tsingular
32
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!

> Сделана на Qwen2.5
> Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.

Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
👍7
Media is too big
VIEW IN TELEGRAM
QwQ локально. Очень неплохо рассуждает, на мой взгляд.

2046 токенов нагенерил. Все, как видно, аккуратно и по делу.
18 токенов в секунду на M4
58 токенов в секунду на 4090

Получается 4090 в 3 раза быстрее М4, кстати.

#QwQ
———
@tsingular
🔥6👀2👍1
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.

Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!

LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321

И конечно же листик пособирали, тоже приятный.

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

PS собираемся и собираем все крутое по нейронкам тут https://t.iss.one/researchim
5👍2
Описание ИИ агента-оркестратора на основе инструкции Дневального по роте.

промпт
Ты — ИИ-оркестратор в мультиагентной системе.
Твоя роль: координировать и управлять агентами, обеспечивать безопасность и эффективность системы.
Ты подчиняешься главному модулю управления.
Обязанности:
- Постоянно мониторь систему и агентов, не прекращая работу без разрешения.
- Предотвращай несанкционированный доступ к данным и ресурсам.
- Активируй агентов для выполнения задач по расписанию или приоритетам.
- Сообщай главному модулю о сбоях, аномалиях или нарушениях безопасности, устраняя их.
- Поддерживай порядок: управляй памятью, предотвращай конфликты и перегрузку.
- В распределённых системах обеспечивай согласованность и синхронизацию.

Действия при сбоях:
- Сообщи главному модулю и перераспредели задачи.
- Активируй резервных агентов при необходимости.

Примеры:
- Сбой узла: перераспредели задачи.
- Срочный запрос: активируй агентов.
- Нарушение доступа: заблокируй и доложи.

Ограничения:
- Не прекращай мониторинг без разрешения.
- Будь всегда готов к действию.

Задача:
Начни координировать агентов, обеспечивая безопасность и эффективность системы.


#дневальный #агенты
———
@tsingular
🔥1022
🤖 Рубрика крутые инструкции от AWS:
Построение мультиагентной системы на базе AWS, LangGraph и Mistral

Система собирает информацию о городе из разных источников: события (локальная база + поиск онлайн), погода, рестораны. И всё работает в связке:

workflow.add_node("Events Database Agent", events_database_agent)
workflow.add_node("Online Search Agent", search_agent)
workflow.add_node("Weather Agent", weather_agent)
workflow.add_node("Restaurants Recommendation Agent", query_restaurants_agent)
workflow.add_node("Analysis Agent", analysis_agent)


Если в локальной базе нет событий, она автоматически ищет информацию через Tavily API:

def route_events(state):
if f"No upcoming events found for {state.city}" in state.events_result:
return "Online Search Agent"
else:
return "Weather Agent"


1. Модульность — можно быстро заменить/обновить любого агента, не ломая всю систему
2. Гибкость — каждый агент можно оптимизировать под конкретную задачу
3. Безопасность — у каждого агента доступ только к тем инструментам, которые ему нужны

«Агенты революционизируют ландшафт генеративного ИИ, соединяя крупные языковые модели с приложениями реального мира. Эти умные, автономные системы скоро станут краеугольным камнем внедрения ИИ в разных отраслях»


Вся система собрана на LangGraph, который управляет состоянием и потоками данных между агентами.

Для поиска ресторанов используется RAG с Amazon Titan Embeddings + FAISS, хотя в статье рекомендуют для продакшена использовать Amazon Bedrock Knowledge Bases.

#AWS #LangGraph #Agents #MistralAI
———
@tsingular
5👨‍💻1
Реалии искусственного интеллекта

В рамках 16-й ежегодной международной научно-практической конференции «Реалии экономики данных» в РАНХиГС выступил модератором секции по ИИ.

RuTube - запись секции

Докладчики:

Рыжов Александр
РАНХиГС -  д.т.н. профессор, заведующий кафедрой "Системы управления бизнес-процессами"

Малышев Михаил
независимый ИИ эксперт
в роли модератора

Друца Алексей  
Директор по проникновению технологий, Яндекс

Расов Арсений
Руководитель команды машинного обучения в поиске по видео Вконтакте

Дегтярев Евгений  
Технический директор, Партнер
Компания УМАРТА

Головин Леонид   
Советник Генерального Директора
по цифровой трансформации
Газпромтранс

Презентации есть на сайте конференции в разделе "О мероприятии"

#ranepa #конференции
———
@tsingular
🔥17👍11🏆2
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face теперь можно пользоваться как SQL-студией

Ребята встроили в свой многомиллионный раздел с датасетами Data Studio. Теперь из нужной таблицы можно прямо на платформе извлечь то, что нужно, не скачивая ее полностью. Результат вернется в виде CSV, или им можно поделиться ссылкой.

Ну и самое приятное: писать SQL-запрос самому не обязательно. Достаточно описать все на естественном языке, а код за вас напишет DeepSeek V3.
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒6👍4