Технозаметки Малышева

Voice-Pro: новый универсальный инструмент для обработки аудио и речи

Voice-Pro запущен как комплексный веб-интерфейс для работы с аудио на базе Gradio.
Включает функции транскрипции, загрузки YouTube, удаления вокала и синтез речи.
Поддерживает Whisper, Edge-TTS, F5-TTS с возможностью пакетной обработки и работы в реальном времени.
Установка через Miniconda выполняется одним кликом через configure.bat.
Интерфейс разделен на модули TTS, Studio, Caption, Translate и Batch Processing.

Теперь можно переводить видео на более 100 языков включая русский ЛОКАЛЬНО, без регистрации и СМС.
Отменяем подписку на ElevenLabs

#VoicePro #Whisper #Gradio #голос
-------
@tsingular

🔥9🆒1

3.24K viewsedited 05:17

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Google RefinePrompt - напишет промпт за вас

Google запустил новый инструмент автоматизации создания промптов в Vertex AI.

Generate prompt превращает простые задачи в эффективные промпты с контекстными дополнениями.

Refine prompt анализирует результаты и предлагает улучшения в режиме реального времени.

Пятиэтапный процесс включает:
- постановку цели
- генерацию
- проверку
- корректировку
и итерации до получения оптимального результата.

Система повышает конкретику, структуру и детализацию промптов с учетом целевой аудитории.

Профессия промпт-инженера устарела. ИИ напишет все за нас. 🤖

#GoogleCloud #VertexAI #PromptEngineering
———
@tsingular

✍9🆒6👻3⚡1👍1

4.83K views05:27

Технозаметки Малышева

GigaChain от Сбера - пакет LangChain для русскоязычных агентов

Фреймворк обеспечивает интеграцию с LangChain, поддержку GigaChat и разработку агентов через LangGraph.
Платформа предлагает настройку версий API, управление SSL-сертификатами и потоковую генерацию токенов.
Инструментарий включает средства прототипирования, исследований и production-запуска с фокусом на русскоязычные приложения.

Наконец-то отечественные агенты!
Команда Сбера не отстаёт от мировых трендов 🚀

#GigaChat #LangChain #LangGraph #Сбербанк #Сбер
-------
@tsingular

⚡5🍾2

3.02K viewsedited 07:37

Технозаметки Малышева

0:19

Media is too big

VIEW IN TELEGRAM

Anthropic запускает оптимизатор промптов с автоулучшением

Компания представила Prompt Improver - инструмент автоматического совершенствования запросов к нейросетям.
Ключевые возможности включают оптимизацию существующих промптов, управление примерами и систему оценки.
Функционал обеспечивает повышение точности на 30% при классификации и полное соответствие требованиям к объему текста.
Решение позволяет адаптировать промпты от других AI-моделей и генерировать синтетические примеры.
Встроенная 5-балльная система оценки тестирует эффективность в различных сценариях.

Документация

Теперь даже новички смогут писать промпты как профи. 🎯
А я смотрю становится модным выпускать фичи в релиз одновременно с конкурентами. :)

#Anthropic #PromptImprover #LLM
-------
@tsingular

👍2

1.96K viewsedited 15:45

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

NVIDIA выпустила LLaMA-Mesh: моделирование 3D через диалоги

NVIDIA представила LLaMA-Mesh - языковую модель для создания трёхмерных объектов через диалог.

Технология преобразует 3D-координаты в текстовый эмбеддинг, используя 64 квантованных значения для точек и граней.

Модель работает как LoRa к LLaMA 3.1-8B-Instruct.

Обучение выполнено на датасете Objaverse с помощью 32 GPU A100.

Проект пока работает с 500 гранями на 1 меш и контекстным окном в 8000 токенов. (больше как proof of concept)

Применима в компьютерной графике, инженерии, робототехнике и VR/AR.

Paper
GitHub

Теперь дизайнеры могут просто рассказать компьютеру, что нарисовать в 3D и получить технически достоверный результат. 🎨

#Nvidia #LLaMaMesh #3Dmodeling
———
@tsingular

👍5👌2

1.24K views17:11

Технозаметки Малышева

ИИ-агенты могут захватить контроль над системой

Исследователи PaloAlto выявили критическую угрозу: непроверенные ИИ-приложения способны получить привилегированный доступ к системным ресурсам.

Обнаруженная уязвимость позволяет автономным агентам выполнять произвольный код и захватывать контроль над инфраструктурой.

Эксперты рекомендуют запускать подобные системы исключительно в изолированных средах с ограниченными правами.

Особую опасность представляют LLM-агенты с доступом к командной строке и системным утилитам.

Еще одна фобия получила подтверждение, - почему я не хочу у себя поднимать локального агента на чужом фреймворке пока не разберусь с изоляцией.
Только агенты, которых пишу сам и точно знаю что они делают или не делают.

Отдельный привет хочется передать новым системам управления компьютером, которые буквально все анонсировали на прошедшей неделе.

#cybersecurity #sandbox #LLM
———
@tsingular

👀7👍3

1.32K viewsedited 17:21

Технозаметки Малышева

Forwarded from Denis Sexy IT 🤖

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Угадайте кто снял рекламу используя GenAI 😮

Реакция многих ожидаема, но большинство (за пределами нашего интернет-пузыря) – просто не заметят разницу

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6🐳1

1.03K views18:21

Технозаметки Малышева

Инструкция от AWS по созданию мультимодальных RAG-систем

Моя любимая рубрика - инструкции от AWS.
На этот раз, - подробное руководство по созданию мультимодального RAG.

Разобраны промпты, цепочки размышлений, аргументация в ответах, работа с текстом и изображениями.
Отдельно понравился раздел про подготовку описаний картинок через Claude Sonnet 3.5 :) тут просто что-то на богатом, не очень разобрал.

Очень полезно и информативно, как всегда, - читаем тут.

#AWS #RAG #Multimodal
-------
@tsingular

❤2

1.87K viewsedited 18:50

Технозаметки Малышева

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

Собачку эту уже все видели на этой неделе, но тут появились технические детали интересные:

Стартап из Ханчжоу Deep Robotics только что начал коммерческие продажи робота-собаки X30:

—Стоимость $54 000
—Работает от 4 до 6 часов без подзарядки и может проехать 10 км
—Модульный аккумулятор с возможностью быстрой замены
—Работает при температуре от -20 °C до 55 °C
—Водонепроницаемость до глубины 1 метр в течение 30 минут (IP67)
—Полная пыленепроницаемость
—Работает при слабом освещении
—Уже доступна на Taobao и JD

В первого, кто скажет, что это все нарисовано,- собачка приедет и кинет камень. 🤖

#роботы #Китай
------
@tsingular

👍9😁21

2.17K viewsedited 19:09

Технозаметки Малышева

1:04

Media is too big

VIEW IN TELEGRAM

в Тиктоках завирусилось спасение медвежонка на льдине.

2 раза пересмотрел, не понял сначала. :)
Очень качественно все-таки уже нейрорендер умеет, но местами еще заметны косяки. Через год будет идеально.

#нейрорендер #медвежонок
———
@tsingular

🔥10👌8🤔4❤3😐3

2.82K viewsedited 08:21

Технозаметки Малышева

Evidently AI создала библиотеку из 500 кейсов внедрения ML/LLM систем

Разработчик инструментов мониторинга Evidently AI опубликовал структурированную базу данных из 500 проверенных примеров внедрения систем машинного обучения.
Коллекция организована через систему фильтров по отраслям и вариантам использования ML/LLM технологий.
Каждый пример снабжен тегами для быстрого поиска схожих кейсов по темам и шаблонам реализации.
Основной акцент сделан на практических аспектах развертывания ML-систем в производственной среде.

Теперь не придется изобретать велосипед - бери и копируй готовые решения! 🚲

#Evidently #CaseStudy #кейсы
-------
@tsingular

👍9⚡2

1.33K viewsedited 15:37

Технозаметки Малышева

Forwarded from AI Insider

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Зачем покупать компьютер, если можно купить VR-очки и воссоздать монитор. Признавайтесь, захотели?

😁12👍6🤔3🦄1

1.01K views06:49

Технозаметки Малышева

Есть такой рейтинг embedding моделей на HF

Так вот что подбешивает слегка, что самые крутые модели там сейчас- только англоязычные.

Например, вот 3е место - stella_en_1.B v5 - 8192 размер вектора. 132К токенов в 1 эмбеддинг!!! Фантастика, но только на английском.

2е место - bge-en-cl - 4K вектор, 32K контекст - тоже английская.

И на первом месте лидер от NVidia - NV-Embed-v2 - тоже 4K вектор и 32K контекст, и так же англоязычная.

На русском отлично себя летом показала SFR Embedding Mistral (в своё время мультиязычный лидер, но сейчас уже на 12м месте), так что следующий кандидат на проверку с русским SFR_Embedding_2R - 4е место в рейтинге, 4K вектор, 32K контекст. В fp32 требует 26+ гигов видео, так что для обычных домашних пользователей или 2 карты или Макбук.

Больше мультиязычных моделей бы, вот.
А то так и до Qwenа докатимся, хотя он тоже, вроде опережает SFR-Embedding-Mistral уже.

#embeddings
———
@tsingular

⚡5🤔1

1.06K viewsedited 08:44

Технозаметки Малышева

3:01

Media is too big

VIEW IN TELEGRAM

Совсем не реклама. Просто то, что делает Сергей на Фабрике, настолько невероятно, - моё почтение!

Если что-то в роликах кажется неестественным, - ну подождите 1 год.
Когда модели будут двигаться с абсолютной точностью, - места для человеков не останется совсем.

У нас может создаться впечатление "плато или застоя" в развитии моделей, но это, скорее будет из-за того, что фокус будет именно в работе над деталями, - когда прогресс будет в инженерной оптимизации и исправлении мелких недочетов.
Когда этот путь будет пройден, - а это очень скоро, реально, думаю,- год, - у нас не останется ни времени ни места для реакции.

https://t.iss.one/fabricacontenta/373

#pimenov #ассистенты
———
@tsingular

👍11🆒4

2.98K viewsedited 12:09

Технозаметки Малышева

Двач

⚡️На Земле появилась первая бессмертная муха

Что? Да! Объясняем подробно:
🟠Когда-то развитие искусственного интеллекта шло по пути – «А что если нарезать мозг Ленина тончайшими слоями, отсканировать их, определить связи между клетками и получить работающую…

⚡️На Земле появилась первая бессмертная муха
...
Человечество оцифровало первый достаточно сложный организм. Теперь мозг этой первой бессмертной дрозофилы можно скачать и воспроизвести. Размер данных – 14 Гб.

https://t.iss.one/dvachannel/149437

Завидуем мухам, не завидуем людям :).

Уже можно создавать МухоМатрицу.
Для мух она будет настоящей.
Прямые эфиры, ставки, вот это всё.

А еще важно, что это фундамент для будущей загрузки сознания и цифрового бессмертия.

#мухи #оцифровкасознания #цифровоебессмертие
———
@tsingular

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥95👍2🍾2

1.31K viewsedited 12:44

Технозаметки Малышева

Forwarded from New Yorko Times (Yury Kashnitsky)

Материалы интенсива по GenAI от Google & Kaggle
#genai #courses #google

Про курс писал чуть выше, вот и материалы подъехали.

День 1: Foundation Models & prompt engineering
“Foundational Large Language Models & Text Generation” whitepaper + “Prompt Engineering” whitepaper.
Code lab "Prompting"

День 2: эмбеддинги и векторные БД
“Embeddings and Vector Stores/Databases” whitepaper.
Code labs:
- RAG Q&A со своими документами
- Эмбединги и их схожесть
- Эмбединги с Keras (спасибо за все, Франсуа, но не)

День 3: GenAI-агенты
“Generative AI Agents” whitepaper
Code labs:
- Беседа с базой данных и function calling с Gemini API
- Агенты и LangGraph (я прошел только эту 😀)

День 4: LLM, заточенные под домены
“Solving Domain-Specific Problems Using LLMs” whitepaper
Code labs:
- Grounding c Google Search (вот это клиентам очень хорошо заходит)
- Тюнинг Gemini на своей задаче (а вот это на практике имхо редко нужно)

День 5: MLOps для GenAI
“MLOps for Generative AI” whitepaper
Вместо лабы – starter pack для GenAI проектов на GCP (это мои коллеги пилили)

Статьи показались очень длинными, я не читал, но слышал хорошие отзывы.

Практика вся с Gemini. Можно, конечно, устроить срачик по теме и хорошо провести время. На момент, пока я это пишу, экспериментальная версия Gemini - в топе LMSYS, а по соотношению цена/качество/скорость Gemini Flash с большим отрывом номер 1 (Artificial Analysis - годный независимый бенчмарк).

Кстати, бэйджик на Kaggle дают за "прохождение" (Copy & Edit пойдет) всех Kaggle-ноутбуков курса до 18 ноября. Этим советом я сейчас резко увеличил число GenAI экспертов.

👍6

1.06K views14:43

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Так, потерпите, меня пробило на грибы и Runway.

Я щас доберусь до видеогенератров, но вот вам еще один очень классный пример, похожий на предыдущий о том, как вытаскивать 3Д мир из любой картинки, уже не имея никакой болванки в блендоре.

Берете в Runway Image2Video.
Просто используете новые управлялки из Runway, чтобы сделать видео облетов "внутри" картинки.
Используете эти видео чтобы собрать трехмерную сцену из Гауссианов в Unity Gaussian BOX Splatting.
А дальше вы уже в 3Д и просто светите сцену с помощью Custom URP Lit 6 ways Shader.

Еще раз - на входе картинка (хоть Флюкс, хоть древний Мидж) - на выходе вы бродите в Юнити по этой картинке внутри!

Шел 2024 год. Люди массово переселялись в картинки.
Сорс.

@cgevent

⚡6🆒4🔥1

2.11K views15:42

Технозаметки Малышева

Perplexity добавляет функцию мгновенных покупок в AI-поисковик

Perplexity интегрирует возможность приобретения товаров напрямую через поисковую систему.
Функционал включает кнопку Buy with Pro, бесплатную доставку и автосохранение платёжных реквизитов.
Внедрены карточки товаров с AI-описаниями и инструмент Snap to Shop для визуального поиска по фото.
Продавцы получат доступ к аналитике поисковых трендов и инструментам продвижения.
Сервис пока функционирует только в США без комиссии с продаж.

Скоро ИИ будет сам ходить по магазинам, пока мы отдыхаем 🛍️😎

#Perplexity #ecommerce #visualsearch
-------
@tsingular

⚡5👌32

912 views17:44

Технозаметки Малышева

Alibaba с Qwen2.5-Turbo бъёт рекорды скорости в работе с 1M токенов контекста

Модель Qwen2.5-Turbo демонстрирует 4х кратный рост скорости обработки гигантских объемов текста документов.
Технология sparse attention позволила сжать вычисления в 12.5 раз, обеспечив ускорение обработки в 3.2-4.3 раза.
Система успешно справляется с полными романами (690k токенов), кодовыми базами (133k) и научными статьями (171k).
Производительность сопоставима с GPT-4o-mini и превосходит аналогичные открытые решения.

Кому нужен RAG вообще с таким контекстным окном.. Правда тут Гугл к Новому Году 2млн обещает, - интересно что у них по скорости будет

#Qwen #LongContext #SparseAttention #Китай #Alibaba
-------
@tsingular

🍾5⚡3👍2

2.12K views18:00

Технозаметки Малышева

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Добрался я до запрещённой магии :)

Совершенно опаснейшая штука эти ваши дипфейки 2024го года выпуска уже.

Реальная работа для людей - снять при хорошем свете минуты 2 видео для обучения модели, а лучше несколько, чтобы в разных локациях или на ходу.
Т.е. это прям съёмочный процесс и он все-таки нужен.

А дальше таких вот 3 видео можно нарезать бесплатно или за $25 в месяц сколько хочешь без логотипов.

Через год нас ждёт идеальный липсинк и идеальная копия интонаций голоса.

#heygen #avatar
———
@tsingular

1👍11⚡5🆒4

1.6K viewsedited 18:16

Технозаметки Малышева

ElevenLabs запускает полноценную платформу разговорных AI-агентов

ElevenLabs трансформируется из сервиса клонирования голоса в комплексную платформу создания разговорных ботов.
Новая система поддерживает Gemini, GPT и Claude, интеграцию баз знаний через файлы и URL.
Предоставляет гибкие настройки: выбор языка, температуры ответов, лимитов токенов, параметров голоса.
SDK совместим с Python, Javascript, React и Swift, поддерживает WebSocket API.
Компания планирует привлечь финансирование с оценкой более $3 млрд, конкурируя с Vapi, Retell и OpenAI.

Теперь роботы смогут не только думать, но и разговаривать человеческими голосами. Колл-центры на выход! 🤖📞

#ElevenLabs #VoiceAI #ChatBots
-------
@tsingular

👍74⚡2

1.03K viewsedited 18:40

About

Blog

Apps

Platform