Machinelearning

⚡️ CogVideoX: Код и модель Text-to-video генерации.

CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :

🟠переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;
🟠использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.

CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.

CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.

CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.

CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.

Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.

Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.

▶️Локальный запуск доступен в нескольких вариантах:

🟢с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут;
🟢с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app.

Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.

▶️Установка и запуск:

# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference

# For Linux and Windows run GradioUI
python gradio_web_demo.py

# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

📌Лицензирование :

🟢

Код: Apache 2.0 License.

🟠

Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).

🟡

🟡

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 5.5K | Issues: 19 | Forks: 495]

@ai_machinelearning_big_data

#AI #VLM #ML #Text2Video #CogVideoX

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤8🔥7

10.4K views12:07

Machinelearning

🌟 InternLM2.5-20B-chat и InternLM2.5-1.8B-chat: Расширение семейства языковых моделей InternLM 2.5.

InternLM2.5-20B-chat - базовая модель с 20 миллиардами параметров ориентированная на чат-взаимодействие. Модель обладает математическими возможностями, поддерживает сбор информации с веб-страниц и получила улучшенный навык следования инструкциям.
Модель может быть развернута с помощью Transformers, vLLM и LMDeploy.

Доступна также версии GGUF для запуска в llama.cpp, LMStudio и Ollama с половинной точностью FP16 (39.7GB) и в малоразрядных квантованных вариациях c шагом в 1 bit : от 2-bit (7.55 GB) до 8-bit (21 GB).

InternLM2.5-1.8B-chat - модель с 1.8 миллиардами параметров и точно такой же направленности и возможностями, как и 20B-chat версия.

Для InternLM2.5-1.8B-chat тоже доступны GGUF версии с разрядностью от FP16 (3.78 GB) до до 2-bit (772 Mb), с шагом в 1 bit.

📌Лицензирование :

🟠InternLM2.5-20B-chat: бесплатно. Коммерческое применение требует подачи заявки через форму.
🟢InternLM2.5-1.8B-chat: Apache 2.0 License

🟡

Страница проекта

🟡

Набор моделей на HF

🟡

Сообщество в Discord

🖥

Github [ Stars: 6.1K | Issues: 7 | Forks: 431]

@ai_machinelearning_big_data

#AI #LLM #ML #InternLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤6🔥6

11.1K views17:09

Machinelearning

⚡️ Новостной дайджест

✔️Gemini Live - голосовой ассистент Google, доступен для пользователей.

Google запустила "Gemini Live" — новую функцию голосового взаимодействия для своей AI модели Gemini, которая конкурирует с продвинутым голосовым режимом ChatGPT. Технически, "Gemini Live" использует улучшенные алгоритмы распознавания речи и синтеза голоса, обеспечивая более естественное и контекстуально осведомленное общение.
techcrunch.com

✔️Microsoft Edge сможет объяснять PDF-документы с помощью ИИ.

Microsoft Edge скоро получит функцию, которая позволит считывать и анализировать PDF-файлы. Эта функция интегрирована с Copilot AI, который сможет обрабатывать текстовые данные, распознавать структуру документов, таблицы и графики, и отвечать на вопросы по содержанию файла.
pcworld.com

✔️Сервис ставок Polymarket стал партнером с Perplexity.

Polymarket объединился с Perplexity AI, чтобы предоставлять краткие сводки новостей на платформе для прогнозирования рынков. Perplexity AI использует алгоритмы обработки естественного языка (NLP) для генерации кратких, но информативных обзоров новостных событий. Эти обзоры интегрируются в интерфейс Polymarket, помогая его пользователям быстро оценивать текущие события и принимать решения на основе актуальной информации.
techcrunch.com

✔️

Developers Guide по NIM, платформе для приложений искусственного интеллекта от Nvidia.

NiM интегрирует различные инструменты NVIDIA, такие как TensorRT и Triton, и поддерживает работу с облачными и локальными ресурсами. Платформа облегчает управление жизненным циклом AI-моделей, обеспечивая автоматизацию этапов от разработки до внедрения.
В NIM гибко реализована поддержка распределенной обработки для эффективного использования вычислительных мощностей в процессе обучения и инференса моделей при внедрении их масштабах предприятия.
thenewstack.io

✔️

FruitNeRF: CV система поиска и подсчета фруктов на основе нейронного поля Radiance Field. Использует NeRFs для подсчета фруктов любого типа в 3D пространстве.

✔️

Anthropic запилили Context Caching!

Функция может кешировать промпты, которые вы регулярнее используете.
Это позволяет значительно в разы уменьшить стоимость запросов ускорить инференс. Использование кэшкэшируемых токенов стоит на 25% больше обычных.
https://www.anthropic.com

✔️

Модульный суперкомпьютер для рождения AGI, может быть запущен уже в следующем году

SingularityNET разрабатывает суперкомпьютер для достижения AGI к 2025 году.
Суперкомпьютер планируется построить за счет объединения распределенных вычислительных ресурсы через блокчейн, обеспечивая высокую производительность для сложных AI-задач. Технология состоит из модульной архитектуры, под управлением различных AI-моделей и децентрализованное распределение, чтобы предотвратить монополизацию вычислительных мощностей.
digitaltrends.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤7🔥5🤬1🎉1🥱1

8.05K viewsedited 07:32

Machinelearning

🌟 Palmyra-Med и Palmyra-Fin: специализированные модели с 70B параметров.

Writer представил две специализированные языковые модели:

🟢

Palmyra-Med-70B-32K

🟠

Palmyra-Fin-70B-32K

Palmyra-Med-70B-32K — LLM, специально разработанная для сектора здравоохранения, достигающая в тестах по Clinical KG, Medical Genetics и PubMedQA среднего балла 85,87% по биомедицинским показателям, что выше чем у GPT-4 и Med-PaLM-2.
Модель предназначена для некоммерческих и исследовательских целей на английском языке: для поддержки принятия клинических решений, фармнадзора и медицинских исследований.

*️⃣Авторы не рекомендуют применение модели для непосредственного ухода за пациентами или принятия клинических решений без человеческого контроля.

Palmyra-Fin-70B-32K предназначена для финансовой отрасли, решения различных финансовых задач и аналитических выводов.
Модель предназначена для финансового анализа и исследований на английском языке: прогнозирование рыночных тенденций, оценка рисков, составление финансовых отчетов с высокой точностью и для ответов на сложные вопросы из длинных финансовых документов.

*️⃣Подобно Palmyra-Med, авторы не рекомендуют использовать модель как единственный источник информации при принятии финансовых решений, а обратиться за профессиональной финансовой консультацией.

Обе модели доступны для локального инференса через Transformers, по API в сервисах Writer, напрямую в endpoints или используя Python SDK и NodeJS SDK Writers
Стоимость API за 1М токенов: Input - $5.00, Output - $12.00

⚠️ Все модели, созданные Writer.com, содержат водяные знаки для обнаружения и предотвращения неправомерного и незаконного использования.

📌Лицензирование : Writer open model

🟡

Страница проекта

🟡

Набор моделей на HF

🟡

Dev-документация

@ai_machinelearning_big_data

#AI #LLM #ML #Writer

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥7❤4🎃1

9.05K views11:17

Machinelearning

⚡️

Новостной дайджест:

✔️ MIT тестирует использование LLM для выявления проблем в сложных системах.

В MIT разработали методику SigLLM, которая использует большие языковые модели для обнаружения аномалий в данных временных рядов без необходимости обучения.
SigLLM включает преобразование данных во входы на основе текста, которые LLM обрабатывает для поиска аномалий. Было протестировано два подхода: Prompter и Detector, где последний оказался более эффективным, сопоставив предсказанные значения с реальными. Система перспективна для мониторинга сложных систем, таких как ветряные турбины и спутники, но требует дальнейших улучшений.
news.mit.edu

✔️ В бета-версии Claude доступно кеширование промптов.

Anthropic представила функцию кэширования промптов на API Claude, что позволяет сохранять контекст между вызовами и сокращать затраты на 90% и задержку до 85%. Функция полезна для задач, требующих частого использования одного и того же контекста, таких как чат-боты, ассистенты по программированию, обработка больших документов и многоэтапные операции.
Кэширование доступно в бета-версии для моделей Claude 3.5 Sonnet и Claude 3 Haiku, а поддержка Claude 3 Opus будет добавлена позже. Стоимость кэширования рассчитывается на основе количества и частоты использования токенов.
anthropic.com

✔️Agent Protocol представил ИИ-агент, обучаемый человеком на основе визуальных данных для геймеров.

Agent Protocol представил ИИ-агента как новый класс цифровых активов на блокчейне, позволяющий геймерам обучать, торговать и монетизировать персонализированных игровых агентов, используя децентрализованные вычисления.
Агент был создан на основе видеоматериалов игры профессионального игрока в Counter-Strike. Система поддерживает стандарты AI_NFT (OFT) и предлагает новые инструменты для создания и использования ИИ-агентов в различных играх. Инфраструктура базируется на технологии DePIN, с использованием распределенной сети GPU для обучения.
chainwire.org

✔️ Microsoft и Paige разработали модели Virchow2 и Virchow2G для вычислительной патологии.

Эти модели второго поколения используют данные гистопатологии и основаны на transformers. Virchow2G обучена на аннотациях и данных молекулярного профилирования, ее точность будет полезна в комплексной диагностике.
Virchow2 и Virchow2G предназначены для анализа медицинских изображений, обнаружение аномалий и диагностику рака. Разработка поможет автоматизировать и повысить точность патологических исследований, а также адаптироваться к новым задачам в медицинской диагностике.
microsoft.com

✔️ Даже самые лучшие LLM галлюцинируют.

Исследование, проведенное в Cornell показало, что даже лучшие ИИ-модели, такие как GPT-4 и PaLM 2, страдают от галлюцинаций, т.е. создают ложные или неточные факты.
В тестах модели выдавали неверную информацию примерно в 20% случаев, даже при решении задач, требующих базовых знаний. В техотчете отмечают, что более сложные запросы увеличивают вероятность ошибок. Галлюцинации остаются серьезной проблемой для внедрения ИИ в критически важные области: медицина и право, где точность имеет первостепенное значение.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤12🔥3🤔3🎉1

7.53K views06:51

Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Как нейросети трансформируют бизнес: кейс Ultima Guide Яндекс Еды.

Нейросети стремительно входят в мир бизнеса, преобразуя способы, которыми компании взаимодействуют с клиентами и оптимизируют свои процессы.

Один из наиболее ярких примеров успешного применения этой технологии — проект Ultima Guide Яндекс Еда.
Этот проект наглядно демонстрирует, как искусственный интеллект может помочь в создании продукта.

Основной задачей Ultima Guide Яндекс Еда было создание объективного и независимого ресторанного гида.

Для реализации этой идеи Яндекс выявил характеристики, по которым люди определяют хорошие рестораны и обучил на них собственную ML модель. Эти признаки она использовала, когда самостоятельно анализировала заведения в городе. Более 100 признаков учитывала нейросеть при анализе заведений в городе. В результате – составленный лонг-лист ресторанов. Далее проводилось голосование пользователей и экспертов индустрии, а итог подводила независимая консалтинговая компания.

Что особенно впечатляет в этом проекте — это полная автоматизация анализа. Благодаря нейросети, удалось оценить 36 тысяч ресторанов (на примере Москвы), из которых в итоговый гид вошли только 50 лучших. Этот подход гарантировал максимальную точность и объективность.

Еще одно свидетельство того, что внедрение передовых технологий может помочь бизнесу в создании продукта.

🤷‍♂17🥱12❤9👍5🤔4🔥3🥰1

7.31K viewsedited 10:06

Machinelearning

🌟 Lean-STaR: Учим чередовать мышление и доказательство в математических теоремах.

Lean-STaR — это фреймворк, который дает ИИ степень PhD по математике. Он учит языковые модели сочетать рассуждения с жесткими математическими доказательствами и переворачивает мир автоматизированного доказательства теорем.

Lean-STaR использует LLM, чтобы излагать мысли на простом английском языке для каждого этапа проверки, основываясь на примерах из Mathlib, которая, по сути, является Ленинкой для Lean доказательств.

Затем эти рассуждения объединяются с соответствующими шагами проверки, создавая прокачанный набор данных, который помогает модели не только предсказать следующий шаг в проверке, но и понять "почему", стоящее за ним.

Но на этом дело не заканчивается. Lean-STaR использует "expert iteration" для совершенствования своих навыков. Она отбирает потенциальные доказательства, и только те, которые проходят проверку, используются для повторного обучения модели. Представьте, что профессиональный спортсмен просматривает видеозапись игры, чтобы улучшить свои выступления - вот это оно.

Почему это важно? Неформальные знания — своего рода интуитивные рассуждения, которые обычно не учитываются при формальном доказательстве. Lean-STaR умеет изучать различные аспекты процесса доказательства, повышая его точность и масштабируемость.

Lean-STaR бьет рекорды в тестировании miniF2F, значительно превосходя другие модели. Это не просто расширяет границы доказательства теорем, это открывает новые возможности для искусственного интеллекта в математике.

Чтобы попробовать локально все прелести Lean-STaR, авторы подготовили для вас 4 модели:

Lean-CoT: Обе версии Lean-CoT генерируют идеи и предсказывают тактику проверки, но “plus” обладает лучшей логикой;

Lean-STaR: более продвинутая версия Lean-CoT, в нее добавлен этап expert iteration, "plus" обладает лучшей логикой, чем "base".

▶️Установка и запуск:

# # Install Python packages:
bash scripts/prepare_env.sh

# Install Lean:
curl https://raw.githubusercontent.com/leanprover/elan/master/elan-init.sh -sSf | sh
source $HOME/.elan/env
lake

# Configure LeanDojo:
export CONTAINER="native"

# Evaluation:
cd gpt-fast
bash scripts_intern/inverse_intern_math_7b.sh
bash scripts_intern/sample_cot_7b.sh

# Finetune:
cd gpt-fast
bash scripts_intern/prepare_intern_math_7b.sh
bash scripts_intern/finetune_7b_intern.sh
bash scripts_intern/finetune_7b_cot.sh
bash scripts_intern/finetune_7b_star.shy

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

Github [ Stars: 10 | Issues: 2 | Forks: 1]

@ai_machinelearning_big_data

#AI #LLM #ML #LeanSTaR

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍37❤10🔥8🤔1🥱1

9.94K views11:09

Machinelearning

⚡️ Новостной дайджест

✔️Google открывает доступ к Imagen 3 для всех американских пользователей.

Google сделала модель ИИ для генерации изображений Imagen 3 доступной для всех пользователей США через платформу ImageFX. Расширение доступа произошло вслед за ограниченным релизом для пользователей Vertex AI в июне.
Imagen 3 основана на модели диффузии, способной генерировать высококачественные изображения по текстовым запросам.
Получившие доступ пользователи выражают недовольство строгими фильтрами контента, которые блокируют даже безобидные запросы.
venturebeat.com

✔️Исследование техник и методов слияния моделей ИИ.

Слияние моделей - это экономически эффективный метод машинного обучения, не требующий сбора исходных данных и больших вычислительных затрат. В связи с его растущим использованием в различных отраслях необходимо сформировать понимание методов слияния моделей.
Исследование содержит всесторонний анализ методов слияния моделей, их теоретических основ, применения в больших языковых моделях, мультимодальных системах и более чем десяти подобластях машинного обучения, таких как непрерывное обучение и многозадачное обучение.
arxiv.org

✔️Medscape запустила поиск на основе ИИ для врачей.

Функция AI Search, доступная в мобильном приложении Medscape, обеспечивает мгновенные ответы на медицинские запросы через интерфейс чата. Сервис бесплатен и направлен на повышение эффективности и точности поиска медицинской информации.
AI Search использует собственный контент, регулярно обновляемый медицинскими экспертами, что гарантирует надежность информации. Функция была протестирована и подтверждена сотнями врачей, предлагая краткие ответы с прямыми ссылками на источники.
prnewswire.com

✔️Критические уязвимости обнаружены в инструментах с открытым исходным кодом, используемых в AI-проектах.

В отчете компании Protect AI Inc. говорится об уязвимостях, которые были обнаружены в рамках программы охоты на ошибки 'huntr'.
Отчет содержит 20 уязвимостей, среди которых выделяются проблемы в инструментах Setuptools, Lunary и Netaddr.
Уязвимость в Setuptools позволяет злоумышленникам выполнять произвольный код на системе через специально подготовленные URL пакетов.
Lunary имеет уязвимость обхода авторизации, позволяющую удаленным пользователям сохранять доступ к организационным шаблонам.
В Netaddr обнаружена уязвимость серверного подделывания запросов, которая может обойти защиту и предоставить доступ к внутренним сетям. Все уязвимости были переданы разработчикам за 45 дней до публикации.
siliconangle.com

✔️Geekbench выпустил приложение для оценки LLM.

Primate Labs выпустила приложение Geekbench AI 1.0, предназначенное для оценки производительности ИИ. Приложение доступно для Android, Linux, MacOS и Windows и применяет принципы Geekbench к задачам машинного и глубокого обучения. Это обновление является преемником Geekbench ML, который был анонсирован в 2021 году и на данный момент находится на версии 0.6.
Изменение названия связано с тем, что в последние годы компании начали активно использовать термин "AI" в своих маркетинговых материалах. Primate Labs подчеркивает, что обновление поможет лучше понять функциональность и цели этого бенчмарка.
techcrunch.com

✔️Машинное необучение: научить ИИ забывать - это крайне важно.

Концепция машинного "забывания" (machine unlearning) важна для искусственного интеллекта. Оно позволяет моделям ИИ удалять определенные данные из своей памяти без ухудшения производительности. Это становится особенно актуальным в свете растущих требований к конфиденциальности и безопасности данных, а также в контексте юридических обязательств.
Модели машинного обучения часто не могут просто "забыть" информацию, что создает проблемы, когда данные устаревают или содержат ошибки. Вместо того чтобы переобучать модель с нуля, что является неэффективным, машинное забывание является единственным выходом. С развитием этой области и стандартизацией метрик оценки, внедрение машинного забывания станет более управляемым процессом для бизнеса, работающего с большими объемами данных.
thenewstack.io

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤7🔥4

6.37K viewsedited 08:23

About

Blog

Apps

Platform