Machinelearning

⚡️ Новостной дайджест

✔️OpenAI запускает SWE-bench-verified для стандартизации оценки языковых моделей в программировании.

OpenAI представила SWE-bench-verified — инициативу для стандартизации и улучшения оценки производительности языковых моделей в задачах по программированию. Этот бенчмарк включает тщательно проверенные задания и решения на разных языках программирования. Он обеспечивает объективную и сопоставимую оценку возможностей моделей в области разработки программного обеспечения. SWE-bench-verified способствует более точному анализу и сравнению моделей.
openai.com

✔️ Вышла бета-версия Grok-2

Модель демонстрирует показатели на уровне Claude 3.5 и GPT-4. Уже доступна пользователям X Premium.

✔️Sonova выпустила слуховые аппараты с ИИ, который улучшает звук речи в шумных местах.

Sonova представила Phonak Audéo Sphere - слуховой аппарат с искусственным интеллектом и двухчиповой технологией, которая обеспечивает 53-кратное улучшение понимания речи в шумной обстановке.
Разработанная в течение многих лет платформа решает главную проблему пользователей слуховых аппаратов - разборчивость речи в шуме - с помощью чипа DEEPSONIC с расширенными возможностями DNN.
interestingengineering.com

✔️YouTube тестирует функцию, позволяющую авторам использовать Google Gemini для мозгового штурма идей для видео.

Платформа тестирует новую функцию, которая позволит создателям контента использовать Google Gemini для мозгового штурма идей для видео.
Этот инструмент будет помогать авторам генерировать темы, планы и даже названия для своих видео на основе трендового контента и предпочтений зрителей. Функция станет частью YouTube Studio. Эта инициатива является частью более широкой стратегии Google по улучшению инструментов авторов с использованием генеративного ИИ.
techcrunch.com

✔️Intel собирается поставлять графические процессоры для автомобилей.

Intel планирует поставлять дискретные графические процессоры в автомобильную индустрию, начиная с модели Arc A760A. Этот GPU предназначен для интеграции в автомобильные информационно-развлекательные системы, обеспечивая возможность "АААА" игрового опыта прямо в автомобиле.
Кроме того, Intel развивает свою платформу для обработки и анализа данных в реальном времени в автомобиле, которой необходимы вычислительные ресурсы.
engadget.com

✔️Новая инициатива Linux Foundation направлена на продвижение "необратимых" моделей ИИ с открытым исходным кодом.

Linux Foundation запускает инициативу Open Model Initiative (OMI) для продвижения «безотзывных» открытых AI моделей. Основная цель OMI — создание и поддержка генеративных AI моделей с открытым исходным кодом, которые будут доступны без ограничений, включая лицензии без условий удаления и без повторяющихся платежей.
Инициатива включает разработку стандартов для совместимости моделей, открытых наборов данных для обучения, и создание тестовой модели с альфа-версией. Это движение направлено на развитие этичных и высококачественных AI решений в рамках сообщества разработчиков.
siliconangle.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍12❤7

7.42K views06:58

Machinelearning

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ CogVideoX: Код и модель Text-to-video генерации.

CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :

🟠переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;
🟠использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.

CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.

CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.

CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.

CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.

Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.

Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.

▶️Локальный запуск доступен в нескольких вариантах:

🟢с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут;
🟢с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app.

Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.

▶️Установка и запуск:

# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference

# For Linux and Windows run GradioUI
python gradio_web_demo.py

# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

📌Лицензирование :

🟢

Код: Apache 2.0 License.

🟠

Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).

🟡

🟡

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 5.5K | Issues: 19 | Forks: 495]

@ai_machinelearning_big_data

#AI #VLM #ML #Text2Video #CogVideoX

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤8🔥7

10.4K views12:07

Machinelearning

🌟 InternLM2.5-20B-chat и InternLM2.5-1.8B-chat: Расширение семейства языковых моделей InternLM 2.5.

InternLM2.5-20B-chat - базовая модель с 20 миллиардами параметров ориентированная на чат-взаимодействие. Модель обладает математическими возможностями, поддерживает сбор информации с веб-страниц и получила улучшенный навык следования инструкциям.
Модель может быть развернута с помощью Transformers, vLLM и LMDeploy.

Доступна также версии GGUF для запуска в llama.cpp, LMStudio и Ollama с половинной точностью FP16 (39.7GB) и в малоразрядных квантованных вариациях c шагом в 1 bit : от 2-bit (7.55 GB) до 8-bit (21 GB).

InternLM2.5-1.8B-chat - модель с 1.8 миллиардами параметров и точно такой же направленности и возможностями, как и 20B-chat версия.

Для InternLM2.5-1.8B-chat тоже доступны GGUF версии с разрядностью от FP16 (3.78 GB) до до 2-bit (772 Mb), с шагом в 1 bit.

📌Лицензирование :

🟠InternLM2.5-20B-chat: бесплатно. Коммерческое применение требует подачи заявки через форму.
🟢InternLM2.5-1.8B-chat: Apache 2.0 License

🟡

Страница проекта

🟡

Набор моделей на HF

🟡

Сообщество в Discord

🖥

Github [ Stars: 6.1K | Issues: 7 | Forks: 431]

@ai_machinelearning_big_data

#AI #LLM #ML #InternLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤6🔥6

11.1K views17:09

Machinelearning

⚡️ Новостной дайджест

✔️Gemini Live - голосовой ассистент Google, доступен для пользователей.

Google запустила "Gemini Live" — новую функцию голосового взаимодействия для своей AI модели Gemini, которая конкурирует с продвинутым голосовым режимом ChatGPT. Технически, "Gemini Live" использует улучшенные алгоритмы распознавания речи и синтеза голоса, обеспечивая более естественное и контекстуально осведомленное общение.
techcrunch.com

✔️Microsoft Edge сможет объяснять PDF-документы с помощью ИИ.

Microsoft Edge скоро получит функцию, которая позволит считывать и анализировать PDF-файлы. Эта функция интегрирована с Copilot AI, который сможет обрабатывать текстовые данные, распознавать структуру документов, таблицы и графики, и отвечать на вопросы по содержанию файла.
pcworld.com

✔️Сервис ставок Polymarket стал партнером с Perplexity.

Polymarket объединился с Perplexity AI, чтобы предоставлять краткие сводки новостей на платформе для прогнозирования рынков. Perplexity AI использует алгоритмы обработки естественного языка (NLP) для генерации кратких, но информативных обзоров новостных событий. Эти обзоры интегрируются в интерфейс Polymarket, помогая его пользователям быстро оценивать текущие события и принимать решения на основе актуальной информации.
techcrunch.com

✔️

Developers Guide по NIM, платформе для приложений искусственного интеллекта от Nvidia.

NiM интегрирует различные инструменты NVIDIA, такие как TensorRT и Triton, и поддерживает работу с облачными и локальными ресурсами. Платформа облегчает управление жизненным циклом AI-моделей, обеспечивая автоматизацию этапов от разработки до внедрения.
В NIM гибко реализована поддержка распределенной обработки для эффективного использования вычислительных мощностей в процессе обучения и инференса моделей при внедрении их масштабах предприятия.
thenewstack.io

✔️

FruitNeRF: CV система поиска и подсчета фруктов на основе нейронного поля Radiance Field. Использует NeRFs для подсчета фруктов любого типа в 3D пространстве.

✔️

Anthropic запилили Context Caching!

Функция может кешировать промпты, которые вы регулярнее используете.
Это позволяет значительно в разы уменьшить стоимость запросов ускорить инференс. Использование кэшкэшируемых токенов стоит на 25% больше обычных.
https://www.anthropic.com

✔️

Модульный суперкомпьютер для рождения AGI, может быть запущен уже в следующем году

SingularityNET разрабатывает суперкомпьютер для достижения AGI к 2025 году.
Суперкомпьютер планируется построить за счет объединения распределенных вычислительных ресурсы через блокчейн, обеспечивая высокую производительность для сложных AI-задач. Технология состоит из модульной архитектуры, под управлением различных AI-моделей и децентрализованное распределение, чтобы предотвратить монополизацию вычислительных мощностей.
digitaltrends.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤7🔥5🤬1🎉1🥱1

8.05K viewsedited 07:32

Machinelearning

🌟 Palmyra-Med и Palmyra-Fin: специализированные модели с 70B параметров.

Writer представил две специализированные языковые модели:

🟢

Palmyra-Med-70B-32K

🟠

Palmyra-Fin-70B-32K

Palmyra-Med-70B-32K — LLM, специально разработанная для сектора здравоохранения, достигающая в тестах по Clinical KG, Medical Genetics и PubMedQA среднего балла 85,87% по биомедицинским показателям, что выше чем у GPT-4 и Med-PaLM-2.
Модель предназначена для некоммерческих и исследовательских целей на английском языке: для поддержки принятия клинических решений, фармнадзора и медицинских исследований.

*️⃣Авторы не рекомендуют применение модели для непосредственного ухода за пациентами или принятия клинических решений без человеческого контроля.

Palmyra-Fin-70B-32K предназначена для финансовой отрасли, решения различных финансовых задач и аналитических выводов.
Модель предназначена для финансового анализа и исследований на английском языке: прогнозирование рыночных тенденций, оценка рисков, составление финансовых отчетов с высокой точностью и для ответов на сложные вопросы из длинных финансовых документов.

*️⃣Подобно Palmyra-Med, авторы не рекомендуют использовать модель как единственный источник информации при принятии финансовых решений, а обратиться за профессиональной финансовой консультацией.

Обе модели доступны для локального инференса через Transformers, по API в сервисах Writer, напрямую в endpoints или используя Python SDK и NodeJS SDK Writers
Стоимость API за 1М токенов: Input - $5.00, Output - $12.00

⚠️ Все модели, созданные Writer.com, содержат водяные знаки для обнаружения и предотвращения неправомерного и незаконного использования.

📌Лицензирование : Writer open model

🟡

Страница проекта

🟡

Набор моделей на HF

🟡

Dev-документация

@ai_machinelearning_big_data

#AI #LLM #ML #Writer

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥7❤4🎃1

9.05K views11:17

Machinelearning

⚡️

Новостной дайджест:

✔️ MIT тестирует использование LLM для выявления проблем в сложных системах.

В MIT разработали методику SigLLM, которая использует большие языковые модели для обнаружения аномалий в данных временных рядов без необходимости обучения.
SigLLM включает преобразование данных во входы на основе текста, которые LLM обрабатывает для поиска аномалий. Было протестировано два подхода: Prompter и Detector, где последний оказался более эффективным, сопоставив предсказанные значения с реальными. Система перспективна для мониторинга сложных систем, таких как ветряные турбины и спутники, но требует дальнейших улучшений.
news.mit.edu

✔️ В бета-версии Claude доступно кеширование промптов.

Anthropic представила функцию кэширования промптов на API Claude, что позволяет сохранять контекст между вызовами и сокращать затраты на 90% и задержку до 85%. Функция полезна для задач, требующих частого использования одного и того же контекста, таких как чат-боты, ассистенты по программированию, обработка больших документов и многоэтапные операции.
Кэширование доступно в бета-версии для моделей Claude 3.5 Sonnet и Claude 3 Haiku, а поддержка Claude 3 Opus будет добавлена позже. Стоимость кэширования рассчитывается на основе количества и частоты использования токенов.
anthropic.com

✔️Agent Protocol представил ИИ-агент, обучаемый человеком на основе визуальных данных для геймеров.

Agent Protocol представил ИИ-агента как новый класс цифровых активов на блокчейне, позволяющий геймерам обучать, торговать и монетизировать персонализированных игровых агентов, используя децентрализованные вычисления.
Агент был создан на основе видеоматериалов игры профессионального игрока в Counter-Strike. Система поддерживает стандарты AI_NFT (OFT) и предлагает новые инструменты для создания и использования ИИ-агентов в различных играх. Инфраструктура базируется на технологии DePIN, с использованием распределенной сети GPU для обучения.
chainwire.org

✔️ Microsoft и Paige разработали модели Virchow2 и Virchow2G для вычислительной патологии.

Эти модели второго поколения используют данные гистопатологии и основаны на transformers. Virchow2G обучена на аннотациях и данных молекулярного профилирования, ее точность будет полезна в комплексной диагностике.
Virchow2 и Virchow2G предназначены для анализа медицинских изображений, обнаружение аномалий и диагностику рака. Разработка поможет автоматизировать и повысить точность патологических исследований, а также адаптироваться к новым задачам в медицинской диагностике.
microsoft.com

✔️ Даже самые лучшие LLM галлюцинируют.

Исследование, проведенное в Cornell показало, что даже лучшие ИИ-модели, такие как GPT-4 и PaLM 2, страдают от галлюцинаций, т.е. создают ложные или неточные факты.
В тестах модели выдавали неверную информацию примерно в 20% случаев, даже при решении задач, требующих базовых знаний. В техотчете отмечают, что более сложные запросы увеличивают вероятность ошибок. Галлюцинации остаются серьезной проблемой для внедрения ИИ в критически важные области: медицина и право, где точность имеет первостепенное значение.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤12🔥3🤔3🎉1

7.53K views06:51

Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Как нейросети трансформируют бизнес: кейс Ultima Guide Яндекс Еды.

Нейросети стремительно входят в мир бизнеса, преобразуя способы, которыми компании взаимодействуют с клиентами и оптимизируют свои процессы.

Один из наиболее ярких примеров успешного применения этой технологии — проект Ultima Guide Яндекс Еда.
Этот проект наглядно демонстрирует, как искусственный интеллект может помочь в создании продукта.

Основной задачей Ultima Guide Яндекс Еда было создание объективного и независимого ресторанного гида.

Для реализации этой идеи Яндекс выявил характеристики, по которым люди определяют хорошие рестораны и обучил на них собственную ML модель. Эти признаки она использовала, когда самостоятельно анализировала заведения в городе. Более 100 признаков учитывала нейросеть при анализе заведений в городе. В результате – составленный лонг-лист ресторанов. Далее проводилось голосование пользователей и экспертов индустрии, а итог подводила независимая консалтинговая компания.

Что особенно впечатляет в этом проекте — это полная автоматизация анализа. Благодаря нейросети, удалось оценить 36 тысяч ресторанов (на примере Москвы), из которых в итоговый гид вошли только 50 лучших. Этот подход гарантировал максимальную точность и объективность.

Еще одно свидетельство того, что внедрение передовых технологий может помочь бизнесу в создании продукта.

🤷‍♂17🥱12❤9👍5🤔4🔥3🥰1

7.31K viewsedited 10:06

Machinelearning

🌟 Lean-STaR: Учим чередовать мышление и доказательство в математических теоремах.

Lean-STaR — это фреймворк, который дает ИИ степень PhD по математике. Он учит языковые модели сочетать рассуждения с жесткими математическими доказательствами и переворачивает мир автоматизированного доказательства теорем.

Lean-STaR использует LLM, чтобы излагать мысли на простом английском языке для каждого этапа проверки, основываясь на примерах из Mathlib, которая, по сути, является Ленинкой для Lean доказательств.

Затем эти рассуждения объединяются с соответствующими шагами проверки, создавая прокачанный набор данных, который помогает модели не только предсказать следующий шаг в проверке, но и понять "почему", стоящее за ним.

Но на этом дело не заканчивается. Lean-STaR использует "expert iteration" для совершенствования своих навыков. Она отбирает потенциальные доказательства, и только те, которые проходят проверку, используются для повторного обучения модели. Представьте, что профессиональный спортсмен просматривает видеозапись игры, чтобы улучшить свои выступления - вот это оно.

Почему это важно? Неформальные знания — своего рода интуитивные рассуждения, которые обычно не учитываются при формальном доказательстве. Lean-STaR умеет изучать различные аспекты процесса доказательства, повышая его точность и масштабируемость.

Lean-STaR бьет рекорды в тестировании miniF2F, значительно превосходя другие модели. Это не просто расширяет границы доказательства теорем, это открывает новые возможности для искусственного интеллекта в математике.

Чтобы попробовать локально все прелести Lean-STaR, авторы подготовили для вас 4 модели:

Lean-CoT: Обе версии Lean-CoT генерируют идеи и предсказывают тактику проверки, но “plus” обладает лучшей логикой;

Lean-STaR: более продвинутая версия Lean-CoT, в нее добавлен этап expert iteration, "plus" обладает лучшей логикой, чем "base".

▶️Установка и запуск:

# # Install Python packages:
bash scripts/prepare_env.sh

# Install Lean:
curl https://raw.githubusercontent.com/leanprover/elan/master/elan-init.sh -sSf | sh
source $HOME/.elan/env
lake

# Configure LeanDojo:
export CONTAINER="native"

# Evaluation:
cd gpt-fast
bash scripts_intern/inverse_intern_math_7b.sh
bash scripts_intern/sample_cot_7b.sh

# Finetune:
cd gpt-fast
bash scripts_intern/prepare_intern_math_7b.sh
bash scripts_intern/finetune_7b_intern.sh
bash scripts_intern/finetune_7b_cot.sh
bash scripts_intern/finetune_7b_star.shy