Ученые из Penn State разработали электронный язык, способный различать жидкости - молоко с разным содержанием воды, различные виды соды и кофе, а также определять свежесть соков и потенциальные проблемы с безопасностью пищевых продуктов.
Язык использует графеновый ионно-чувствительный транзистор, подключенный к нейронной сети. ИИ сначала оценивал жидкости по 20 заданным параметрам, достигнув точности более 80%. Однако, когда ИИ самостоятельно определял параметры оценки, точность возросла до 95%.
Исследователи использовали метод Shapley Additive Explanations, чтобы понять, как ИИ принимает решения, и обнаружили, что он учитывает более тонкие характеристики данных. По словам исследователей, возможности языка ограничены только данными, на которых он был обучен.
psu.edu
Google представила новую большую языковую модель Tx-LLM, разработанную для прогнозирования свойств биологических объектов на всех этапах разработки лекарств. Tx-LLM обучена на 66 наборах данных, охватывающих задачи от ранней идентификации целевых генов до утверждения клинических испытаний на поздних стадиях.
Модель Tx-LLM, построенная на базе PaLM-2, достигла конкурентоспособных результатов по сравнению с современными моделями, превзойдя их в 22 из 66 задач. Tx-LLM продемонстрировала способность эффективно объединять молекулярную информацию с текстовой и переносить знания между задачами с различными типами терапии.
Google планирует предоставить доступ к Tx-LLM внешним исследователям для ускорения процесса разработки лекарств.
research.google
Tesla проводит мероприятие под названием «Мы, роботы», 10 октября в 19.00 EPT (2:00 11 октября GMT) на котором, как ожидается, будет представлен дизайн роботакси - автомобиля Tesla, предназначенного исключительно для перевозки пассажиров без водителя.
На мероприятии также может быть представлен гуманоидный робот Optimus.
npr.org
Liftoff, занимающаяся консалтингом мобильных приложений, запустила новую платформу машинного обучения под названием Cortex. Эта платформа использует специализированные модели нейронных сетей для повышения эффективности мобильных рекламных кампаний.
Cortex позволяет достичь более высокой рентабельности инвестиций в рекламу, определяя наилучшие каналы и аудитории для рекламных кампаний. По данным Liftoff, Cortex уже показал положительные результаты: снижение стоимости установки (CPI) на 23%, стоимости привлечения клиента (CPA) на 21% и увеличение рентабельности рекламных расходов (ROAS) на 16%.
venturebeat.com
Gradio выпустила стабильную версию Gradio 5, он получил ряд улучшений, направленных на решение проблем, с которыми сталкивались разработчики ранее.
Среди ключевых обновлений: улучшенная производительность за счет рендеринга на стороне сервера (SSR), обновленный дизайн основных компонентов и новые темы, поддержка потоковой передачи с низкой задержкой, включая WebRTC, экспериментальная AI-площадка для генерации и модификации приложений с помощью ИИ.
В ближайшее время планируется добавить поддержку многостраничных приложений, мобильных устройств и новые компоненты для работы с изображениями и видео.
huggingface.co
OpenAI объявила, что получила первые инженерные образцы DGX B200 от Nvidia. Они обещают трехкратное увеличение скорости обучения и 15-кратное увеличение производительности инференса по сравнению с предыдущими моделями.
Microsoft также сообщила, что ее платформа Azure первой использует систему Blackwell от Nvidia с AI-серверами на базе GB200.
analyticsindiamag.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥8❤6
Hugging Face выложила на Github руководство по оценке LLM.
В нем собраны различные способы оценки модели, руководства по разработке собственных оценок, а также советы и рекомендации из практического опыта. В руководстве рассказывается о разных способах оценки: с помощью автоматических тестов, людей или других моделей.
Особое внимание уделяется тому, как избежать проблем с инференсом модели и сделать результаты одинаковыми. В руководстве есть советы о том, как сделать данные чистыми, как использовать шаблоны для общения с LLM и как анализировать неожиданные плохие результаты.
Если вы ничего не знаете об оценке и бенчмарках, вам следует начать с разделов
Basics
в каждой главе, прежде чем погружаться глубже. В разделе базовые знания вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация. Более прикладными разделы: советы и рекомендации, устранение неполадок и разделы, посвященные дизайну.
@ai_machinelearning_big_data
#AI #ML #LLM #Huggingface #Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥12❤8🙉1
CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh
;train_image_to_video_lora.sh
;train_text_to_video_sft.sh
.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9❤5
Rhymes AI опубликовала Aria — первую в мире открытую MMLM, основанную на Mixture-of-Experts. Aria способна обрабатывать текст, изображения, видео и код одновременно, не требуя отдельных настроек для каждого типа данных.
Модель отличается высокой производительностью при обработке мультимодальных и языковых данных, включая изображения различных размеров и соотношений сторон.
Aria использует 3,9 млрд. активных параметров из 25 млрд. общих и обладает длинным контекстным окном в 64 тыс. токенов, что позволяет ей эффективно обрабатывать большие объемы данных, например, создавать аннотации к видео из 256 кадров за 10 секунд.
MoE-архитектура Aria состоит из 66 экспертов. Каждый эксперт структурно идентичен FFN в трансформере. Входной токен направляется только к подмножеству экспертов в каждом слое, это позволяет эффективно распределить вычислительные потребности модели.
ARIA отличается от предыдущих мультимодальных моделей MoE тем, что она обучается с нуля с использованием универсальных экспертов, а не специализированных для каждой модальности.
Обучение ARIA проходило на 6.4 трлн. языковых и 400 млрд. токенах в 4 этапа:
ARIA протестирована бенчмарках MMMU, MathVista, DocVQA, ChartQA, TextVQA, MMBench-1.1, EgoSchema, LongVideoBench, VideoMME, MMLU, MATH, ARC Challenge и HumanEval (задачи понимания кода).
Результаты тестирования показывают, что ARIA превосходит открытые модели Pixtral-12B и Llama3.2-11B и демонстрирует конкурентоспособные результаты по сравнению с проприетарными моделями GPT-4o и Gemini-1.5.
⚠️ Так как Aria имеет 25.3 млрд. общих параметров, они могут быть загружены в один A100 (80GB) с точностью bfloat16.
@ai_machinelearning_big_data
#AI #ML #MMLM #MoE #Aria #RhymesAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤15🔥10
Microsoft представила ряд инноваций в облачной платформе Microsoft Cloud for Healthcare, которые направлены на улучшение взаимодействия между пациентами и врачами, повышение эффективности работы медицинских бригад и расширение возможностей анализа данных.
Новые модели ИИ для здравоохранения в Azure AI Studio, решения для обработки медицинских данных в Microsoft Fabric, сервис медицинских агентов в Copilot Studio и решение для автоматизации рабочих процессов медсестер на основе ИИ.
Microsoft Cloud for Healthcare предлагает передовые модели медицинской визуализации, разработанные в сотрудничестве с Providence и PaigeAi.
news.microsoft.com
Производство MI325X начнется до конца 2024 года, а его выпуск ускорит график разработки новых процессоров AMD до одного в год.
MI325X получит до 288 GB HBM3E памяти, будет построен на новой CDNA4 архитектуре по 3-нм процессу.
MI325X бросит вызов грядущим чипам Blackwell от Nvidia, поставки которых в значительных объемах начнутся в начале 2025. AMD планирует улучшать свое программное обеспечение ROCm, чтобы разработчики ИИ могли легко переносить свои модели ИИ на процессоры AMD.
cnbc.com
TikTok увольняет сотрудников по всему миру, в том числе большое количество сотрудников в Малайзии, поскольку компания переключает внимание на более широкое использование ИИ в модерации контента. Два источника сообщили Reuters, что в Малайзии было сокращено более 700 рабочих мест. TikTok позже уточнил, что увольнения коснулись менее 500 сотрудников в стране.
TikTok подтвердил увольнения и заявил, что в рамках более широкого плана по совершенствованию операций по модерации, по всему миру, как ожидается, будет затронуто несколько сотен сотрудников.
reuters.com
Редакторы "Википедии" объединились в группу "WikiProject AI Cleanup" для борьбы с контентом, созданным ИИ, который содержит ошибки, галлюцинации и плохое оформление.
Цель группы — не запретить использование ИИ, а убедиться в качестве информации и исправить или удалить неприемлемый контент. Редакторы отмечают, что некоторые случаи использования ИИ очевидны, например, когда в статьях остаются типичные фразы чат-ботов. Однако, некоторые ошибки, особенно в сложных темах, трудно обнаружить.
Редакторы "Википедии" уже понизили рейтинг некоторых новостных сайтов, использующих ИИ для создания контента.
404media.co
Imagen 3 считается самой качественной моделью Google для генерации изображений, способной лучше понимать инструкции и создавать изображения с меньшим количеством визуальных артефактов. Однако есть одно ограничение: для создания изображений людей требуется подписка Gemini Advanced, которая стоит 19,99 долларов в месяц и входит в план Google One AI Premium, включающий 2 ТБ хранилища и доступ к Gemini в Google Docs.
В отличие от других генераторов, Imagen 3 создает одно изображение на каждый запрос, но позволяет уточнять изображение, запрашивая изменения. Скачать можно любое количество изображений в разрешении 2048 x 2048 в формате JPEG.. Google особо гордится возможностями Imagen 3 в области рендеринга текста, однако, по результатам тестирования, в этой области все еще есть над чем работать.
techradar.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤8🔥4
Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.
Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.
Фреймворк построен на двух основных абстракциях: агентах (
Agent
) и передачах управления (handoffs
):Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).
Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект
Result
.⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.
⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.
# Install from PIP
pip install git+https://github.com/openai/swarm.git
# Usage
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)
print(response.messages[-1]["content"])
@ai_machinelearning_big_data
#AI #ML #Agents #OpenAI #Swarm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥13❤8👏2
Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.
Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.
Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.
Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.
INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.
В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.
Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:
ElasticDeviceMesh
: распределенная абстракция для отказоустойчивой связи;Int8 All-Reduce
: квантование псевдоградиентов;PyTorch FSDP2
/ DTensor ZeRO-3
: шардинг весов модели.Дорожная карта Prime:
Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.
Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.
# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env
# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive
# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml
# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralized #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47❤10🔥6🤗3✍1
Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки.
RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста чтобы оценить состояние дыхательной системы по аудио.
GlucoBench - комплексныq ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM).
DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител.
DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста.
ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики.
Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями.
MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA).
Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM.
Конвейер, который улучшает работу LLM в медицинской области, добавляя к ним информацию из медицинских учебников.
Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥26👍13❤12🆒2
MaskLLM - метод обучения полуструктурированной разреженности для LLM, с которым можно сократить количество используемых параметров без ущерба для качества.
Суть - в моделировании паттернов N:M (где N - количество ненулевых значений в группе из M параметров) в виде обучаемого распределения.
Для дифференцируемой выборки маски используется дискретизация Gumbel Softmax, которая дает возможность проводить сквозное обучение на больших датасетах и получать более точные маски по сравнению с традиционными методами, основанными на эвристических критериях важности параметров.
Главное преимущество MaskLLM - метод может переносить паттерны разреженности между разными задачами и доменами. Это достигается путем обучения общего распределения масок, которое затем можно использовать для настройки на конкретные задачи без необходимости обучения с нуля.
Эффективность MaskLLM оценивали сравнением с другими методами на моделях LLaMA-2, Nemotron-4 и GPT-3.
Результаты показали, что MaskLLM достигает более низкой перплексии на наборе данных Wikitext при использовании 2:4 разреженности. Например, для LLaMA-2 7B MaskLLM достиг перплексии 6.72, в то время как SparseGPT показал результат 10.42.
После этого можно приступать к обрезке целевой модели, и, по завершению, сделать экспорт обученных разреженных моделей в формат Huggingface для дальнейшего использования.
⚠️ Скрипты и инструкции репозитория ориентированы на запуск MaskLLM-LLaMA-2/3 на одном узле с 8 GPU с тензорным параллелизмом и потребует ~40 ГБ на GPU для сквозного обучения.
@ai_machinelearning_big_data
#AI #ML #LLM #MaskLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍8🔥3