Технозаметки Малышева

6:33

Как создать интерактивную презентацию с помощью ИИ моделей.

Вчера на конференции рассказывал про возможности моделей на сегодняшний день и в целях демонстрации подготовил презентацию-обзор.

Но, как настоящий ИИ энтузиаст :), решил это сделать с помощью моделей и получилось так, что по итогу очень многие стали обращаться с вопросам - а как именно ты это сделал, какие промпты и т.д.

Так что держите экспресс-курс.
Делитесь с друзьями, коллегами.

Rutube в высоком разрешении.

Сам код презентации в комментариях.

Использовались:
Grok3 + o3 mini high deep research - сбор и подготовка
Claude Sonnet 3.7 Thinking - отрисовка

Там, конечно, есть еще что улучшить, - например добавить адаптацию под разные экраны и чтобы он кликер ловил,- пока только с клавиатуры слайды переключаются.

#demo #презентация
———
@tsingular

2🔥28👍12✍5⚡1

1.55K viewsedited 04:00

0:17

В связи с переездом часть ботов может не работать ближайшие 3 часа.

UPD: переезд завершён. Все боты в штатном режиме.

#боты #переезд
------
@tsingular

🤝14

1.09K viewsedited 16:28

Google строит AGI. Планы Брина: 60-часовая рабочая неделя и AGI уже в этом году

Сергей Брин вернулся к активной работе и запустил серию внутренних изменений в компании! Сооснователь Google разослал мемо команде DeepMind с конкретными указаниями по ускорению разработки AGI.

Брин активно работает над проектом Gemini, числится среди "ключевых разработчиков". И теперь он хочет от команды:

- 60-часовую рабочую НЕДЕЛЮ (10 часов 6 дней или 12/5).
- Ежедневное присутствие в офисе – прощай, гибрид с 3 днями в неделю
- Забыть про "продукты-няньки" – меньше фильтров и ограничений в AI

Это явный сдвиг в сторону снятия ограничений с ИИ. Термин "nanny products" относится к чрезмерно отфильтрованным системам. Google уже изменил политику в феврале, сняв запреты на использование ИИ для оружия и слежки.

- Для поставщиков AI: Очевидный тренд на снятие ограничений с систем ИИ. Кто успеет предложить более мощные и менее "зарегулированные" решения, получит преимущество.

- Для корпоративных клиентов: Стоит готовиться к появлению значительно более мощных AI-систем уже к концу 2025 года.

- Для разработчиков: Похоже, индустрия снова движется к безумной культуре переработок. Но переплачивать будут только за результат, а не за часы.

Интересно, что Google пока не меняет официальную политику работы из дома, что говорит о том, что идеи Брина еще не стали корпоративной догмой. Но тренд очевиден — техногиганты возвращаются к культу трудоголизма.

Пора запасаться попкорном, ближайший год в AI будет диким и беспощадным. И если вы работаете в этой области – готовьтесь к бешеным дедлайнам и ночевкам в офисе. Брин сказал.

#AGI #SergeyBrin #Google #DeepMind #worklife
———
@tsingular

👍6🤯4😭1

1.27K viewsedited 04:28

Chain of Draft: ускорение через минимализм в промптах

Исследователи из Zoom Communications предложили новый подход к работе с языковыми моделями, который уменьшает многословность, сокращает задержки и снижает затраты.

Суть метода
Chain of Draft (CoD) похож на то, как мы, люди, делаем заметки — кратко, по существу, без лишней воды. Вместо подробных рассуждений (как в Chain of Thought) модель генерирует минималистичные промежуточные шаги — буквально 5 слов на шаг.

Посмотрите на разницу:
Вопрос:

Q: Jason had 20 lollipops. He gave Denny some lollipops. Now Jason has 12 lollipops. How many lollipops did Jason give to Denny?

Стандартный ответ:

А: 8

Chain of Thought:

А: Давайте рассуждать шаг за шагом:
1. Изначально у Джейсона было 20 леденцов.
2. После того, как он дал некоторое количество Денни, у Джейсона осталось 12 леденцов.
3. Чтобы узнать, сколько леденцов Джейсон дал Денни, нам нужно вычислить разницу между исходным количеством леденцов и оставшимся.
4. Составим простую задачу вычитания: Исходное количество леденцов - Оставшееся количество леденцов = Леденцы, отданные Денни
5. Подставляем числа: 20 - 12 = Леденцы, отданные Денни
6. Решаем вычитание: 20 - 12 = 8
Таким образом, Джейсон дал Денни 8 леденцов.
####
8 леденцов

Chain of Draft:

А: 20 - x = 12; x = 8. #### 8

И это работает! 🔥

- В задачах GSM8k (арифметика) CoD сохранил точность 91% вместо 95% у CoT, но сократил токены на 80% (с 200 до 40)
- В задачах понимания спорта CoD даже превзошел CoT по точности (97.3% против 93.2%), снизив токены на 92.4% (с 189.4 до 14.3)
- В символическом рассуждении оба метода показали 100% точность, но CoD использовал на 86% меньше токенов

Что особенно интересно — в некоторых задачах меньшее количество информации позволило достичь лучших результатов! Меньше шума = лучше концентрация модели на ключевых аспектах.

Практическое применение
Для бизнеса это открывает возможности значительной экономии:
1. Снижение затрат на API: токены = деньги, а CoD сокращает их количество до 7.6% от использования CoT
2. Увеличение пропускной способности: меньшая задержка = больше запросов за единицу времени
3. Улучшение UX: ответы приходят быстрее, иногда в 3-4 раза (с 4.2с до 1с на GSM8k)

Как внедрить
Техника до смешного проста — просто используйте промпт:

Think step by step, but only keep a minimum draft for each thinking step, with 5 words at most. Return the answer at the end of the response after a separator ####.

И всё! Никаких сложных доработок API или архитектуры.

Недостатки и ограничения
В исследовании модели просто инструктировали быть краткими, без жесткого ограничения. На практике они могут не всегда следовать рекомендации в 5 слов.

Также, хотя для многих задач потеря точности минимальна (с 95% до 91%), в критических сценариях даже такое снижение может быть неприемлемо.

Конкуренты метода
В статье упоминаются другие подходы к снижению задержек:
- Skeleton-of-Thought (SoT): сначала создается скелет ответа, затем параллельно декодируются части
- Token-budget-aware LLM reasoning (TALE): динамически оценивает глобальный бюджет токенов на основе сложности
- Coconut: выполняет рассуждение в скрытом пространстве, а не на естественном языке

Но CoD выигрывает своей простотой внедрения и гибкостью — он позволяет неограниченное количество шагов рассуждения, ограничивая длину каждого.

Похоже, что краткость действительно сестра таланта — даже для искусственного интеллекта. 🤔

#ChainOfDraft #prompts
———
@tsingular

👍14⚡3❤1✍1🤔1

1.05K views06:05

0:13

STORM: Агент для исследований от Stanford

Наткнулся на очень крутой open-source проект из Стэнфорда - STORM (Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking).

Наконец-то нормальная opensource реализация.

Суть в том, что STORM не просто гуглит информацию, а проводит настоящее исследование темы - задаёт умные вопросы, собирает информацию из разных источников и генерирует структурированные статьи с цитатами.

Технические особенности:
- Работает через два модуля: сначала исследует тему и составляет план, потом пишет полноценную статью
- Использует "перспективные вопросы" - смотрит на тему с разных углов, чтобы не пропустить важные аспекты
- Симулирует диалог между экспертом и писателем для глубокого понимания темы
- Интегрируется с разными LLM - можно использовать GPT-3.5 для более простых задач и GPT-4o для генерации итогового контента (экономия на токенах)
- Поддерживает несколько поисковых движков: YouRM, BingSearch, VectorRM и даже собственные документы

Недавние обновления:
- Интеграция с litellm для подключения любых языковых моделей 🔥
- Co-STORM - режим для совместной работы человека и ИИ над исследованиями
- Добавили VectorRM для работы с собственными документами

Установка через pip install knowledge-storm, но можно и напрямую с GitHub форкнуть. Уже набрал 22.2k звёзд!

Попробовать можно тут:
https://storm.genie.stanford.edu/

Лабораторный исследовательский проект. Работает только на английском, но поскольку это Open source - никто не мешает доработать напильником под свой язык, свои модели, свои поисковики.

#research #Stanford
———
@tsingular

🔥12👍7❤2

1.18K viewsedited 19:41

2:29

🏥 Microsoft Dragon Copilot: ИИ-помощник, который избавит врачей от бумажной рутины

Microsoft анонсировала новинку, которая может серьезно изменить работу медицинских специалистов — Dragon Copilot. Это первый в отрасли унифицированный голосовой ИИ-ассистент для документооборота в клиниках.

Dragon Copilot объединяет технологии, которые раньше существовали отдельно:
- Распознавание речи Dragon Medical One (DMO) — проверенный годами инструмент для голосового ввода
- Амбиентное слушание DAX — ведёт постоянную запись разговора врача с пациентом без необходимости активации
- Генеративный ИИ с дополнительной настройкой под медицину
- Специальные меры безопасности для здравоохранения

Польза в цифрах по итогам тестирования:
- Экономит 5 минут на каждую встречу с пациентом (это примерно 13 дополнительных приемов в месяц 💰)
- 70% врачей сообщают о снижении выгорания
- 62% специалистов говорят, что меньше склонны уволиться
- 93% пациентов отмечают улучшение качества общения с врачом

Технические особенности:
1. Автоматизация документирования:
- Создание заметок по разговору на нескольких языках
- Работа офлайн с последующей синхронизацией (круто для мест с нестабильной связью)
- Персонализированный стиль и форматирование
2. Умный информационный помощник:
- Поиск по медицинской информации из проверенных источников
- Анализ записей для быстрых ответов на вопросы (например, "принимает ли пациент определенное лекарство")
- Подсказки для более полного документирования приёма (например, если забыли записать температуру или ИМТ)
3. Автоматизация задач:
- Распознает и создает более 12 типов назначений прямо из разговора и интегрирует их в ЭМК
- Автоматически генерирует направления к специалистам
- Создает понятные для пациентов резюме визитов
- Суммирует клинические доказательства для обоснования диагноза
4. Мультиплатформенность:
- Веб-приложение без установки клиента
- Мобильное и десктопное приложения
- Нативная интеграция с популярными ЭМК, включая Epic

Безопасность
В основе — Microsoft Secure Future Initiative. Данные защищены принципами конфиденциальности Microsoft, что критично для медицинских учреждений.

Когда ждать?
Релиз в США и Канаде — май 2025 года. Затем Великобритания, Германия, Франция и Нидерланды. Для других рынков обещают "новый опыт Dragon".

Что это значит для медицины?
Технология решает реальную проблему — 48% медиков испытывают выгорание. А с учетом стареющего населения и нехватки персонала, автоматизация рутины становится не роскошью, а необходимостью.

Суть в том, что Dragon Copilot не просто транскрибирует разговоры или заполняет формы. Он создает интеллектуальное рабочее пространство для приёма пациентов, не отвлекая врача на работу с бумагой.

Официальный сайт

Интересно, как быстро подобные решения придут на наш рынок.
Только вот на днях обсуждали, что по нормам у наших врачей норматив - 7 минут и документацию им приходится заполнять в свободное время, а уж про интерактив с данными пациента речь вообще не идёт.

#Медицина #HealthTech #Microsoft
———
@tsingular

👍14🔥4⚡1

1K viewsedited 04:09

0:50

🤖 Google Colab получил мощный ИИ-инструмент для анализа данных

Google наконец-то интегрировал Data Science Agent в Colab! Штука, которую показывали на I/O прошлого года, теперь доступна всем пользователям этой платформы для дата-сайентистов и разработчиков.

Что умеет:
- Автоматически чистит данные
- Строит визуализации и выявляет тренды
- Проводит статистический анализ
- Создает предиктивные модели
- Генерирует полноценный Python-код прямо в ноутбуке

Не нужно возиться с кодом самостоятельно — загружаешь датасет, формулируешь вопрос на человеческом языке, и агент сам пишет весь необходимый код.

Технические детали:
- Работает на Gemini 2.0 Flash
- Поддерживает CSV, JSON и TXT-файлы размером до 1ГБ
- Может обрабатывать около 120 000 токенов (примерно 480 000 слов)
- Встроенные инструменты "reasoning" для инженерии признаков
- Использует техники RL для улучшения работы

Базовая версия доступна бесплатно, но с ограничениями вычислительных ресурсов. Для серьезных задач придется оформить подписку (от $9.99).

#DataScienceAgent #Google #Colab #Gemini
———
@tsingular

🔥7

990 views05:30

Эта мысль кому-то может испортить настроение с утра.

... или наоборот вдохновить, как меня, например. :)

Поэтому поделюсь.

Итак.

Готовы?

Представьте как должна выглядеть RAG система, для ведения диалогов в реальном времени.

Т.е. не диалоговый режим - вопрос-ответ. Не псевдо-реальное время, как сейчас в голосовых ассистентах.
А именно RAG, который предвытягивает и фоном держит в актуальном состоянии RAG контекст, до того, как пользователь еще даже подумал задать вопрос.

И сколько для этого нужно ресурсов. Так что ASI еще долго не будет. Потому, что на каждом шаге - кратный рост ресурсного потребления.

У меня всё. Хорошего продуктивного дня всем :)

#LiveRAG #TimeMachine
———
@tsingular

👍8🤔3🤯1

934 views06:41

Forwarded from Machinelearning

✅

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия: Apache 2.0

▪Model: https://huggingface.co/THUDM/CogView4-6B
▪Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
▪Github: https://github.com/THUDM/CogView4
▪Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data

#AI #CogView4 #OpenSource #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

✍3

1.08K views15:23

0:15

Без комментариев.

P.S.: Я потом ещё посмотрел как это сделано- оказалось что это скрипт

Т.е. робот не принимает решение как именно двигаться.

Это предзаписанный танец.

#unitree #robots
———
@tsingular

👀12🔥7🤔3👾1

5.76K viewsedited 17:38

2:55

🌐 Консорциум NextGenAI: OpenAI раздаёт $50М на образование и исследования

OpenAI запускает масштабный консорциум с 15 исследовательскими институтами — с громким названием NextGenAI.

Суть такая: они вкладывают $50 миллионов в гранты, вычислительные мощности и доступ к API. Всё это для исследователей, студентов и преподавателей.

В списке участников настоящие тяжеловесы мировой науки:
- Caltech
- MIT и Гарвард
- Оксфорд
- Университет Мичигана
- Бостонская детская больница
- И даже Бостонская публичная библиотека

На что потратят деньги?

🏥 Медицина: Гарвард вместе с Бостонской детской больницей будут использовать ИИ для ускорения диагностики редких заболеваний.

📚 Оцифровка знаний: Оксфордская библиотека Бодлиана начала оцифровывать редкие тексты и использует API OpenAI для их транскрипции — это сделает многовековые знания доступными для поиска.

🧪 Метанаука: В Университете Дьюка исследуют, где ИИ может принести наибольшую пользу науке — причём используют для этого сам ИИ. Мета-подход!

Зачем это OpenAI?
Очевидно, это не просто благотворительность. Тут сразу несколько выгод:

1. Выращивают будущие кадры под свои инструменты
2. Получают тестовые площадки для своих технологий
3. Доступ к реальным данным в области медицины, науки и образования
4. Создают экосистему вокруг своего API

Кстати, это продолжение их образовательной стратегии — в мае 2024 они уже запустили ChatGPT Edu для университетов.

Жду когда Яндекс достроит свой новый офис на Косыгина и возьмёт шефство над Дворцом Пионеров на Воробьёвых :)

#NextGenAI #OpenAI #образование
———
@tsingular

👍11🔥6😁2

1.01K views18:07

Forwarded from Machinelearning

🍏

Apple представила чип M3 Ultra – самый быстрый процессор, когда-либо созданный для Mac.

Новый M3 Ultra дебютировал в Mac Studio и сочетает в себе 32-ядерный CPU (из которых 24 – высокопроизводительные, а 8 – энергоэффективные) с 80-ядерным GPU и поддержкой до 512 ГБ🔥

Этого хватит для 4-битного Deep Seek R1 и еще останется место.

По заявлениям Apple, этот чип работает на 1,5 раза быстрее, чем M2 Ultra, и на 1,8 раза быстрее, чем M1 Ultra.

Цены на M4 Max начинаются в США с $2000 до уплаты налогов. За эти деньги вы получите 36 ГБ объединённой памяти и SSD на 512 ГБ.

А вот M3 Ultra начинается с $4000. Внутри 96 ГБ объединённой памяти и SSD на 1 ТБ.

@ai_machinelearning_big_data

#apple #Mac #M3Ultra #M4Max

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔6🔥5

932 views16:53

Ну, погнали что-ли :)

Самый главный тест, - венок сонетов в комментарии.

Ну, провал. Отстаёт от Claude Opus 3 годовалой давности. Не знаю уж как он будет по коду, но венок не дописывает до конца, куча не согласованных строк и магистрал - чистый рандом.

Ладно, - это Preview, может еще допилят напильником. Но потеря фокуса явно видна. И слабое следование инструкциям. Постоянно пишет,- вот я сделал, хотя буквально не сделал ничего.

#openai #GPT45
———
@tsingular

😐8

936 views18:44

0:15

Как долго думать и НЕ РЕШИТЬ детскую задачку.

На книжной полке рядом стоят два тома Пушкина: первый и второй. Страницы каждого тома имеют вместе толщину 2 см, а обложка — каждая — 2 мм. Червь прогрыз (перпендикулярно страницам) от первой страницы первого тома до последней страницы второго тома. Какой путь он прогрыз?

В этом весь GPT 4.5 preview.

Возвращаемся на Sonnet 3.7 thinking без сожалений. :)

Ну и DeepSeek, кстати, ожил. Похоже его не хило проапгрейдили видеокартами.

#openai #gpt45
———
@tsingular

👍13🔥3🐳1

940 viewsedited 18:53

0:22