LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.
LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.
Для установки и локального запуска понадобятся GPU => 20GB и набор :
⚠️ Примечания:
omni_speech/infer/examples
, а затем обратитесь скрипту omni_speech/infer/run.sh
.# Clone repository
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni
# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .
# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation
# Install flash-attention
pip install flash-attn --no-build-isolation
https://localhost:8000/
@ai_machinelearning_big_data
#AI #ML #LLM #Llama #SpeechToSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤10🔥6
Новостной дайджест
✔️ Salesforce представила Industries AI: 100+ готовых возможностей искусственного интеллекта для решения задач в 15 отраслях бизнеса.
Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов.
Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов.
salesforce.com
✔️ NotebookLM: экспериментальная RAG-функция Google, которая делает подкаст из любого документа, текста или URL.
Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д.
С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое.
Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview.
techcrunch.com
✔️ Anthropic добавила "Workspaces" в консоли API для команд.
Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне.
С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API.
anthropic.com
✔️ Adobe анонсировала генерацию видео в своих продуктах в этом году.
Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте.
Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок.
Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года.
techcrunch.com
✔️ Stanford Research: AI-ресечеры превосходят человеческих экспертов в генерировании новых идей.
Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи.
Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP.
Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми.
Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов.
Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов.
salesforce.com
Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д.
С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое.
Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview.
techcrunch.com
Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне.
С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API.
anthropic.com
Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте.
Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок.
Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года.
techcrunch.com
Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи.
Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP.
Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми.
Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤11🔥5😁1
Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др.
Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач:
Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи.
Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта.
Практические примеры задач с детальными туториалами:
# Clone the Repository
git clone --recursive https://github.com/nyunAI/nyuntam.git
cd nyuntam
# Create & activate venv
python3 -m venv {ENVIRONMENT_NAME}
source {ENVIRONMENT_NAME}/bin/activate
# Install packages
# for text_generation
pip install -r text_generation/requirements.txt
# for vision
pip install -r vision/requirements.txt
# for nyuntam_adapt
pip install -r nyuntam_adapt/requirements.txt
# run an experiment
python main.py --yaml_path {path/to/recipe.yaml}
@ai_machinelearning_big_data
#AI #NynAI #MLTool #LLM #VLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥6❤5
rStar - метод, который помогает улучшить способности языковых моделей рассуждать и решать задачи. При этом не нужно переобучать модель или использовать более мощные модели. rStar делит процесс рассуждения на два этапа – самообучение с генерацией и проверка (дискриминация) полученной генерации.
На первом этапе модель использует алгоритм поиска по дереву Монте-Карло (MCTS). MCTS помогает модели построить разные варианты решения задачи, как будто она рассуждает, как человек. На втором этапе другая модель проверяет каждый вариант решения, который построила первая модель. Если обе модели согласны с каким-то вариантом решения, значит, он считается правильным.
Для того, чтобы в этом состязательном процессе генерации и дискриминации модели не ушли в бесконечный цикл, в rStar применяется способ достижения консенсуса, который называется «взаимная согласованность», а чтобы расширить траектории рассуждения, rStar использует набор дополнительных действий, которые имитируют мышление человека: разбивка на подзадачи, переформулировка задачи, прямое или последовательное решение и т.д
Эксперименты на пяти SLM показали, что rStar может успешно справляться с задачами рассуждения: GSM8K, GSM-Hard, MATH, SVAMP и StrategyQA.
Результаты тестов показали, что rStar повышает точность решения GSM8K с 12,51 % до 63,91 % для LLaMA2-7B, с 36,46 % до 81,88 % для Mistral-7B, с 74,53 % до 91,13 % для LLaMA3-8B-Instruct.
Программная реализация метода выполняется на условном датасете (MATH, GSM8K, GSM8KHARD, STG, SVAMP, MULTIARITH) запуском ролей генерации и дискриминации двух моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #rSar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥9❤5🤔4
⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,
Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.
Заявлено, что модель будет сильно лучше писать код и понимать физику и математику.
Тот самый секретны проект, над которым так долго работала компания.
Доступ обещают дать уже сегодня.
@ai_machinelearning_big_data
#openai #chatgpt
Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.
Заявлено, что модель будет сильно лучше писать код и понимать физику и математику.
Тот самый секретны проект, над которым так долго работала компания.
Доступ обещают дать уже сегодня.
@ai_machinelearning_big_data
#openai #chatgpt
🔥63👍15❤12🆒6
Можно посмотреть как ChatGPT проходит путь от быстрых интуитивных рассуждений до глубоких и осознанных выводов.
Посмотрите эти примеры:
- O1 смог создать полноценную игру всего за одну минуту, следуя каждому шагу инструкции.
- Модель демонстрирует свои способности в математике.
- O1 разгадал загадку о возрасте принцессы, демонстрируя логику своих рассуждений.
- O1 и в генетеке хорош
- O1 решил задачу по квантовой физике, подробно объясняя свои решения.
- O1 посчитал количества букв R в слове "strawberry".
- O1 написал Змейку на HTML прямо в чате, позволяя добавлять новые функции.
- O1 обучился переводу корейских иероглифов, предвещая скорое исчезновение языковых барьеров.
@ai_machinelearning_big_data
#openai #chatgpt #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍60🔥27❤15
Новостной дайджест
✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.
Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.
Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.
Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com
✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.
Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.
В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com
✔️ ell: Библиотека программирования LLM.
ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.
Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.
Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so
✔️ Loopy: генеративная модель портретного видео на основе аудио.
Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.
Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io
✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.
В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.
Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com
@ai_machinelearning_big_data
#news #ai #ml
Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.
Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.
Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com
Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.
В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com
ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.
Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.
Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so
Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.
Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io
В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.
Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤8🔥1
Reader-LM - это семейство мультиязычных компактных языковых моделей, разработанные специально для извлечения данных из web-контента. Обе модели имеют внушительное контекстное окно в 256 тыс. токенов и нацелены на преобразование "сырого", зашумленного HTML-кода в чистый и структурированный Markdown формат:
В основе Reader-LM лежит decoder-only архитектура, а обучение модели проводилось в два этапа. На первом этапе использовались короткие и простые HTML-документы (до 32 тысяч токенов). На втором этапе длина последовательностей была увеличена до 128 тысяч токенов.
Чтобы обработать такие длинные последовательности, разработчики применили механизм zigzag-ring-attention. В процессе обучения была выявлена проблема дегенерации, которая проявлялась в повторении одних и тех же токенов или зацикливании модели. Для борьбы с этим явлением были применены методы contrastive search и contrastive loss и, дополнительно, механизм ранней остановки декодирования при обнаружении повторяющихся токенов.
Корпус данных объемом 2,5 млрд. токенов для обучения Reader-LM состоял из синтетических пар "сырой HTML" - "Markdown", сгенерированные с помощью Jina Reader API и GPT-4o.
Для оценки производительности Reader-LM сравнивалась с несколькими большими языковыми моделями: GPT-4o, Gemini-1.5-Flash, Gemini-1.5-Pro, LLaMA-3.1-70B и Qwen2-7B-Instruct.
Оценка проводилась по метрикам ROUGE-L, Token Error Rate (TER) и Word Error Rate (WER). Результаты показали, что Reader-LM превосходит по качеству преобразования HTML в Markdown более крупные модели, при этом ее размер в 50 раз меньше.
Варианты запуска моделей: Goggle Collab (возможен запуск на бесплатном T4 тарифе), локально в Transformers. Неофициальные квантованные GGUF- версии для запуска в llama.cpp и LM Studio:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍19❤4