Я давно использую генерацию голосов, но во многом качество упиралось в разумное ограничение — если нужно сделать как у человека, то надо делать до 4 секунд. В ином случае будет монотонно, «палевно». А поскольку я еще делаю делаю это через API, то также делал фоновый шум, добавление пауз и кучу сложно-кастыльных вещей, чтобы получалось ок. Как же я рад, что теперь это можно удалить.
Теперь можно без ограничений по длине ставить генерацию. Но не кул, что переписать логику запросов. Раньше для запроса надо было написать текст, то сейчас надо подстроить к нему еще [теги], чтобы добавить эти самые эмоции в голос. То есть, надо написать предложение, а затем проставить теги в нем еще. Прикрепленный войс сделан так:
Привет! [sarcastic laughs] Сори за войс. [exited] Но новая генерилка голосов Elevenlabs это что-то невероятное и [curious] клевое по эмоциям. Дальше в тексте, поберегу ваши уши. [whispers] И кстати, это звучал сгенерированный голос какого-то Дениса, а не мой.
Огорчает, что голос даже в статусе Natural может чуть отличаться, но не критично. Помимо этого, есть еще Creative, который также подходит для обычного использования, там эмоции прям норм скачут как при записи в маршрутке на повороте — меняет звучание, добавляет даже всхлипы и глотания слюну на удержание с эмм аа. А вот Robust, честно, совсем не понял, но услышал тот самый роботизированный голос.
Также в режиме можно делать диалоги между двумя разными людьми, получается здорово, но это не супер мой режим.
Если желаете опробовать, то переходите на ElevenLabs и готовьте от 5$ в месяц — бесплатно не распространяется. Также это пока preview, поэтому через месяц другой станет еще лучше
P.S. Здесь еще клево написано про промптинг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤5
Forwarded from we all design 👑
Тут была презентация от Neuralink. Это компания Маска, которая делает имплант, вживляемый в мозг. Он распознаёт сигналы и даёт возможность, например, управлять компьютером одной только силой мысли.
У них, конечно, какие-то невероятные прогнозы. И нет, не как обычно «через 20 лет..». Они говорят о таймлайне 1–3 года.
Уже через несколько месяцев начинают тестировать воспроизведение речи с людьми, которые потеряли речь или никогда не говорили. В 2026 начинают клиническое испытание BlindSight для людей с полной потерей зрения (те, кто родился слепым или потерял глаза). Они снова смогут видеть. Сначала в низком разрешении, потом в очень высоком, с возможностью видеть в инфракрасном, ультрафиолете и других длинах волн. Буквально еще через год решения психиатрических заболеваний, парализованные смогут управлять всем своим телом.
Говорят, можно будет ставить несколько имплантов одновременно: моторика, речь, зрение. Появится возможность хранить всю нашу память с возможностью обращаться к ней в любой момент, с помощью ai.
Возможность управления на другом уровне. Можно будет не только управлять роботизированной рукой или ногой, а полноценным большим роботом, как Optimus от Tesla. Тоже силой мысли.
Маск давно топит, что не будет противостояния человека и ai, а скорее люди станут киборгами. Мы и сейчас вроде как уже ими являемся, с телефонами и chatGPT. А импланты neuralink дадут супервидение, суперпамять, суперинтеллект и невероятные физические возможности (в теле робота, например).
Короче, будем дарить на дни рождения не iphone, а суперспособности. Подписку на ночное зрение, суперобоняние, или «знание японского» 💁♀️
P.S. как обычно, привет Черное Зеркало “Common People”
@wealldesigners
У них, конечно, какие-то невероятные прогнозы. И нет, не как обычно «через 20 лет..». Они говорят о таймлайне 1–3 года.
Уже через несколько месяцев начинают тестировать воспроизведение речи с людьми, которые потеряли речь или никогда не говорили. В 2026 начинают клиническое испытание BlindSight для людей с полной потерей зрения (те, кто родился слепым или потерял глаза). Они снова смогут видеть. Сначала в низком разрешении, потом в очень высоком, с возможностью видеть в инфракрасном, ультрафиолете и других длинах волн. Буквально еще через год решения психиатрических заболеваний, парализованные смогут управлять всем своим телом.
Говорят, можно будет ставить несколько имплантов одновременно: моторика, речь, зрение. Появится возможность хранить всю нашу память с возможностью обращаться к ней в любой момент, с помощью ai.
Возможность управления на другом уровне. Можно будет не только управлять роботизированной рукой или ногой, а полноценным большим роботом, как Optimus от Tesla. Тоже силой мысли.
Маск давно топит, что не будет противостояния человека и ai, а скорее люди станут киборгами. Мы и сейчас вроде как уже ими являемся, с телефонами и chatGPT. А импланты neuralink дадут супервидение, суперпамять, суперинтеллект и невероятные физические возможности (в теле робота, например).
Короче, будем дарить на дни рождения не iphone, а суперспособности. Подписку на ночное зрение, суперобоняние, или «знание японского» 💁♀️
P.S. как обычно, привет Черное Зеркало “Common People”
@wealldesigners
🔥19🗿5❤2👍1
Хотел похоже написать, но Саша хорошо это сделала. Кстати, еще и много прикольно исследовательских штук с ai в дизайне, гляньте у нее в канале
❤2
Forwarded from Силиконовый Мешок
Только спустя несколько месяцев плотной работы с Deep Research от разных моделей я выработал для себя схему, которой полностью доволен.
И основную роль в ней играет Perplexity (годовая подписка на которую всё ещё стоит несколько баксов). Опишу свои кейсы:
Моя базовая модель для Deep Research — Gemini (тут писал почему), но основная работа с отчётом начинается уже после того, как тебе выдаётся PDF-ка в десятки, а иногда и сотню страниц. Нужно проверить результат и провести фактчекинг. Поэтому я вставляю получившийся текст или PDF в Perplexity и прошу его проверить каждое утверждение.
Мой промт к Perplexity немного длиннее, но суть такая:
- «Внимательно прочти документ и выдели основные тезисы/факты, чтобы я видел, не пропустил ли ты чего-нибудь важного»
- «Проверь факты»
- «Оцени каждое утверждение по 10-балльной шкале»
- «Если ты ставишь не 10/10, процитируй фрагмент, объясни, почему это не 10/10, и приведи правильные данные/интерпретацию и т. д.»
- «В конце дай мне краткий обзор достоверности документа»
Это работает довольно круто. Обычно претензии Perplexity (или той модели, что крутится у них в API) к выводу других LLM звучат примерно так: «Фактически верно, НО интерпретация данных не идеальна / слишком категорична».
Второй кейс работает похоже, но решает задачу, когда вы не удовлетворены результатом глубокого исследования.
Загружаете PDF с отчётом в Perplexity и просите «проверить факты», «выставить оценки» — всё как в кейсе выше. А дальше показываете промпт, с которого начинали исследование, и просите внести в него правки, которые помогут избежать выявленных ошибок.
И основную роль в ней играет Perplexity (годовая подписка на которую всё ещё стоит несколько баксов). Опишу свои кейсы:
Моя базовая модель для Deep Research — Gemini (тут писал почему), но основная работа с отчётом начинается уже после того, как тебе выдаётся PDF-ка в десятки, а иногда и сотню страниц. Нужно проверить результат и провести фактчекинг. Поэтому я вставляю получившийся текст или PDF в Perplexity и прошу его проверить каждое утверждение.
Мой промт к Perplexity немного длиннее, но суть такая:
- «Внимательно прочти документ и выдели основные тезисы/факты, чтобы я видел, не пропустил ли ты чего-нибудь важного»
- «Проверь факты»
- «Оцени каждое утверждение по 10-балльной шкале»
- «Если ты ставишь не 10/10, процитируй фрагмент, объясни, почему это не 10/10, и приведи правильные данные/интерпретацию и т. д.»
- «В конце дай мне краткий обзор достоверности документа»
Это работает довольно круто. Обычно претензии Perplexity (или той модели, что крутится у них в API) к выводу других LLM звучат примерно так: «Фактически верно, НО интерпретация данных не идеальна / слишком категорична».
Второй кейс работает похоже, но решает задачу, когда вы не удовлетворены результатом глубокого исследования.
Загружаете PDF с отчётом в Perplexity и просите «проверить факты», «выставить оценки» — всё как в кейсе выше. А дальше показываете промпт, с которого начинали исследование, и просите внести в него правки, которые помогут избежать выявленных ошибок.
❤10👍7🔥5⚡2🫡1
Например, вы общаетесь с кем-то оффлайн или онлайн, да даже сами с собой, а наговорённое затем саммаризируется и выводится как план действий с главными мыслями без «слово в слово». Работает хорошо, но на английском. Такой же штукой люблю пользоваться при записи онлайн-встреч через Tactiq, только теперь можно прямо в ChatGPT с такое провернуть
Режим доступен с подписки Plus
🤖 InNeuralNetwork
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
InNeuralNetwork
— Operator у аппарата 📞 OpenAI запустила Operator – первого агента, который может выполнять задачи на ПК за вас. Теперь AI не просто отвечает на вопросы, а реально действует: прокручивает страницы, кликает по кнопкам, заполняет формы и даже заказывает товары.…
Лучше и доступнее управляет комплюктером
Вышел ChatGPT Agent, который позволяет выполнять задачи автономно на компьютере. Забронировать отели, выпустить комит и даже сделать презентацию. Просто пишите промпт, ждете и все готово. Правда качество все также как у начинающего спеца.
OpenAI рекомендуют давать агентам минимальный доступ, необходимый для выполнения задачи, чтобы снизить риски для конфиденциальности и безопасности. Но, поживем и увидим. Кстати, наверное на следующей неделе покажу кое-что от себя по похожей, но чуть более требовательной задаче. (Или нет)
Режим доступен платным подписчикам ChatGPT
🤖 InNeuralNetwork
Вышел ChatGPT Agent, который позволяет выполнять задачи автономно на компьютере. Забронировать отели, выпустить комит и даже сделать презентацию. Просто пишите промпт, ждете и все готово. Правда качество все также как у начинающего спеца.
OpenAI рекомендуют давать агентам минимальный доступ, необходимый для выполнения задачи, чтобы снизить риски для конфиденциальности и безопасности. Но, поживем и увидим. Кстати, наверное на следующей неделе покажу кое-что от себя по похожей, но чуть более требовательной задаче. (Или нет)
Режим доступен платным подписчикам ChatGPT
🤖 InNeuralNetwork
1❤8🤩1
Для контекста, это ИИ-браузер на основе Chrome в комбинации с Perplexity. Поэтому каждый запрос заворачивается в отдельную ветку чата, доступны модели, источники и все то, что есть в Perplexity с подпиской Pro. Но дальше – интереснее.
Мощь Comet в режиме Assistant
Ещё удобна интеграция с Google Календарём и почтой. Можно попросить Comet найти информацию из ветки писем, а затем сразу выполнить нужное действие: создать событие, отправить письмо, и так далее.
Кайфанул с саммаризации текста или видео в одну кнопку без надобности куда-то переходить. А там сразу понятно, на каком моменте стоит сосредоточить внимание, а какое лучше пропустить.
А ещё отдельно помечу, что есть фича по работе с историей поиска. Вместо рытья в прошлых вкладках можно просто описать браузеру, что примерно я раньше и когда искал, и он тут же найдёт нужные страницы или цу. Суперски сработало, чтобы отыскать заброшенную презу, доволен!
Ну это всё хорошее балансирует с ограничениями. Comet пока раздаётся по приглашениям. Другое — нужна подписка на Pro аккаунт в Perplexity. Режим Assistant без неё не работает. Хотя купить подписку на Perplexity можно за несколько сотен рублей, в отличие от нескольких сотен долларов в год.
Самое пылающее, но не радостное, так Comet сделан на базе Chrome. На моем Mac с M4 Pro он прям нормально так температурно нагрузился, будто отрендерил часовое видео в 4K. Хотя он просто попытался разгрести свободные слоты в календаре. Но думаю, ещё оптимизируют (мой календарь).
Короче, Comet – очень крутая штука для тех, кто ценит удобство и хочет сэкономить ещё больше времени, чем с Perplexity. Рекомендую записаться в лист ожидания
🤖 InNeuralNetwork
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👍3😁1
GPT-5 выходит сегодня и другие новые фичи ChatGPT
- доступно бесплатно (mini версия, ограничена запросами), в Plus с расширенной квотой и размышлениями, в Pro с Pro версией и безлимитом на обычную версию
- минимальный процент галлюцинаций
- отлично подходит для натуральных текстов, рабочему коду
- прокачали голосовой режим
- можно доработать персону и внешний вид интерфейса ChatGPT
- работает быстрее предыдущих моделей в режиме исследования
- на темы «на грани» будет отвечать безопасно, а не отказывать в выполнении
- со всеми наворотами GPT-5 Pro с Python и интернетом чуть хуже справляется с тестом Last Human Exam, чем Grok 4 Heavy
- с 1 запроса делает красивый результат кода, участилось использование фиолетового
- доступно бесплатно (mini версия, ограничена запросами), в Plus с расширенной квотой и размышлениями, в Pro с Pro версией и безлимитом на обычную версию
- минимальный процент галлюцинаций
- отлично подходит для натуральных текстов, рабочему коду
- прокачали голосовой режим
- можно доработать персону и внешний вид интерфейса ChatGPT
- работает быстрее предыдущих моделей в режиме исследования
- на темы «на грани» будет отвечать безопасно, а не отказывать в выполнении
- со всеми наворотами GPT-5 Pro с Python и интернетом чуть хуже справляется с тестом Last Human Exam, чем Grok 4 Heavy
- с 1 запроса делает красивый результат кода, участилось использование фиолетового
🤩8❤5
InNeuralNetwork
GPT-5 выходит сегодня и другие новые фичи ChatGPT - доступно бесплатно (mini версия, ограничена запросами), в Plus с расширенной квотой и размышлениями, в Pro с Pro версией и безлимитом на обычную версию - минимальный процент галлюцинаций - отлично подходит…
В течение следующих нескольких дней GPT-5 reasoning будет бесплатной в Cursor с Pro тарифом (его можно сделать бесплатно на 2 недели при регистрации)
🔥8
Media is too big
VIEW IN TELEGRAM
За 2 запроса в Cursor с GPT-5 получилось собрать простую игру в червячков, логику и архитектуру при этом не прописывая
1❤10
Недавно друг попробовал агента в Comet, чтобы автоматизировать задачу, а на деле донять меня вопросами «почему он тупой?». Мол, добавить продукты в корзину для приготовления курицы с картошкой плохо выполнил, не добавив приправы
Недалеко от правды, что указывая детали будто бы проще самому сделать это руками, однако же в менее креативных задачах это не так. Агенты — это не «угадайку». Это исполнители с политикой по умолчанию. Если правил нет, вы получаете буквальный, часто неудобный результат
Навскидку приходит в голову подобный шаблон типовой задачи для сервисного агента:
Задача: <что нужно, для кого, на когда>
Контекст: <что уже есть / чего точно нет>
Ограничения: <бюджет, время, особенности>
Автономность: <буквальный / уточняющий>
Стоп-чеки: <авторизация, лимит цены, подтверждение шагов>
Вывод в одном предложении
В Comet ещё есть шаблоны для задач, чтобы каждый раз не пыхтеть над запросов. Так что один раз как надо сделали, далее пользуемся. И кстати, скидос на годовую подписку агентов в Comet ещё действует за несколько сотен рублей, а не долларов
🤖 InNeuralNetwork
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3