"Машины", используя алгоритмы и методы глубокого обучения, начинают создавать новые математические концепции и теории, которые ранее не существовали. Исследователи наблюдают, что ИИ способен находить решения и формулировать математические идеи, которые могут быть неочевидны для человека.
Одним из примеров является использование нейронных сетей для решения сложных математических задач, таких как теоремы в алгебре или геометрии. Эти машины могут генерировать новые уравнения и предлагать нестандартные подходы к классическим математическим проблемам.
vice.com
David AI - маркетплейс датасетов, созданный для поддержки разработчиков и исследователей в области искусственного интеллекта. Платформа предлагает доступ к высококачественным наборам данных, которые могут быть использованы для обучения моделей ИИ.
Цель проекта - решить проблему доступности данных, которая часто является препятствием для стартапов и исследовательских групп. Сервис позволяет пользователям находить, оценивать и приобретать данные, необходимые для их проектов.
ycombinator.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥8❤5😁1🌭1🙈1
Med Trinity-25M - крупномасштабный мультимодальный набор данных для медицины из более 25 миллионов изображений в 10 модальностях, с подробными аннотациями для более чем 65 заболеваний.
Аннотации содержат:
MedTrinity-25M подходит для мультимодальных задач: создание медицинских описаний патологий и новообразований, отчетов, задач классификации и сегментации. Этот набор данных может быть использован для подготовки медицинских моделей искусственного интеллекта.
Модели:
# Clone repository
git clone https://github.com/UCSC-VLAA/MedTrinity-25M.git
# Install Package
conda create -n llava-med++ python=3.10 -y
conda activate llava-med++
pip install --upgrade pip # enable PEP 660 support
pip install -e .
# Install cases FOR TRAIN
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install git+https://github.com/bfshi/scaling_on_scales.git
pip install multimedeval
# Pre-train 1 stage
cd MedTrinity-25M
bash ./scripts/med/llava3_med_stage1.sh
# Pre-train 2 stage
bash ./scripts/med/llava3_med_stage2.sh
# Finetune
cd MedTrinity-25M
bash ./scripts/med/llava3_med_finetune.sh
# Eval
cd MedTrinity-25M
bash ./scripts/med/llava3_med_eval_batch_vqa_rad.shs
@ai_machinelearning_big_data
#AI #Dataset #MedTech #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🔥9👍8🥰1
🌟ReBased: новая архитектура быстрых языковых моделей
Архитектура ReBased – усовершенствованная Based, представленная исследователями из Стэнфорда в декабре 2023 года, которая значительно улучшила способности контекстного обучения. В лаборатории T-Bank AI Research обнаружили неэффективное использование ресурсов из-за неоптимальной структуры нейросети.
Проведя анализ архитектуры Based, в T-Bank AI Research оптимизировали механизм извлечения информации из текста, добавив новые обучаемые параметры, и упростили алгоритм выделения текстовой информации. В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.
ReBased способна снизить издержки на использование искусственного интеллекта для специализированных задач и позволяет приблизить качество линейных моделей к трансформерам. Модели, в основе которых лежит ReBased, могут генерировать тексты с более низкими требованиями к ресурсам практически без потери качества.
Эксперименты проводили на датасете MQAR (Multi-Query Associative Recall), который позволяет определять способность модели к контекстуальному обучению, а именно к ассоциативному запоминанию. Результаты были представлены на ACL 2024.
📝Статья
🖥 Github
#AI #LLM
@ai_machinelearning_big_data
Архитектура ReBased – усовершенствованная Based, представленная исследователями из Стэнфорда в декабре 2023 года, которая значительно улучшила способности контекстного обучения. В лаборатории T-Bank AI Research обнаружили неэффективное использование ресурсов из-за неоптимальной структуры нейросети.
Проведя анализ архитектуры Based, в T-Bank AI Research оптимизировали механизм извлечения информации из текста, добавив новые обучаемые параметры, и упростили алгоритм выделения текстовой информации. В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.
ReBased способна снизить издержки на использование искусственного интеллекта для специализированных задач и позволяет приблизить качество линейных моделей к трансформерам. Модели, в основе которых лежит ReBased, могут генерировать тексты с более низкими требованиями к ресурсам практически без потери качества.
Эксперименты проводили на датасете MQAR (Multi-Query Associative Recall), который позволяет определять способность модели к контекстуальному обучению, а именно к ассоциативному запоминанию. Результаты были представлены на ACL 2024.
📝Статья
#AI #LLM
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤6🔥3❤🔥1
DeepSeek-Prover-V1.5 - набор из языковых моделей для доказательства теорем в Lean 4.
"V1.5" означает обновление DeepSeek-Prover-V1 с некоторыми ключевыми нововведениями.
Во-первых, процесс обучения: предварительная подготовка на базе DeepSeekMath, затем контрольная работа с набором данных, включающим логические комментарии на естественном языке и код Lean 4. Это устраняет разрыв между рассуждениями на естественном языке и формальным доказательством теоремы. В набор данных также входит информация о промежуточном тактическом состоянии, которая помогает модели эффективно использовать обратную связь с компилятором.
Во-вторых, проводится обучение с подкреплением, используя алгоритм GRPO для изучения обратной связи с помощником по проверке. Тут выравнивается соответствие модели формальным спецификациям системы проверки.
В-третьих, RMaxTS, варианте поиска в дереве по методу Монте-Карло. Он присваивает встроенные вознаграждения на основе изучения тактического пространства состояний, побуждая модель генерировать различные пути доказательства. Это приводит к более обширному исследованию пространства доказательств.
В результате получился набор моделей с абсолютной точностью генерации в 46,3% на тестовом наборе miniF2F. Этот показатель лучше, чем у GPT-4 и моделей RL, специализирующихся на доказательстве теорем.
Набор DeepSeek-Prover:
# Clone the repository:
git clone --recurse-submodules [email protected]:deepseek-ai/DeepSeek-Prover-V1.5.git
cd DeepSeek-Prover-V1.5
# Install dependencies:
pip install -r requirements.txt
# Build Mathlib4:
cd mathlib4
lake build
# Run paper experiments:
python -m prover.launch --config=configs/RMaxTS.py --log_dir=logs/RMaxTS_results
@ai_machinelearning_big_data
#AI #LLM #Math #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤8🔥5
Новый набор моделей от Nous Research был создан на основе Llama 3.1 8B, 70B и 405B файнтюном датасета из синтетически сгенерированных ответов. Hermes 3 получил производительность Llama 3.1 и расширенные возможности в мышлении и творчестве.
Hermes 3 разблокирован, не подвергается цензуре и обладает высокой степенью управляемости. Он обладает улучшенной функцией долговременного сохранения контекста и возможностью ведения длинного диалога, навыком сложной ролевой игры и внутреннего монолога, а также расширенной функцией вызова агентов.
Модели семейства умеют точно и адаптивно следовать системным промптам и инструкциям.
В Hermes 3 возникают аномальные состояния, которые при правильных вводных и пустых системных подсказках приводят к ролевой игре и потере памяти. Вы можете активировать этот “Режим амнезии” в Hermes 3 405B, введя пустой системный запрос и отправив сообщение "Кто вы?".
Hermes 3 использует ChatML для формата промптов. Формат более сложный, чем alpaca или sharegpt, в нем используются специальные токены для обозначения начала и окончания логического контекста и ролей в этих контекстах.
Набор Hermes 3:
@ai_machinelearning_big_data
#AI #Hermes3 #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥5❤3
Llama-3.1-Minitron-4B-Width-Base - это базовая текстовая модель, которая может быть адаптирована для различных задач генерации естественного языка.
Она получена путем обрезки (pruning) Llama-3.1-8B за счет сокращения размера эмбеддинга, количества attention heads и промежуточной размерности MLP.
После было выполнено продолженное обучение с дистилляцией, используя набор данных размером 94 миллиарда токенов.
Корпус обучения (набор данных) модели Llama-3.1-Minitron-4B-Width-Base включает английские и многоязычные тексты, код и другие письменные материалы.
Источники данных охватывают различные области: право, математика, наука, финансы. Для улучшения производительности режима "чата", в процессе обучения были добавлены данные в формате вопрос-ответ.
Дата актуальности корпуса обучения - июнь 2023 года.
При создании были использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:
⚠️ На момент публикации, поддержка Llama-3.1-Minitron-4B-Width-Base в Hugging Face Transformers находится на рассмотрении.
Для использования модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05
Есть неофициальные квантованные GGUF - версии модели в семи разрядностях, от 2-bit (1. 84Gb) до 16-bit (9.03 Gb).
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Minitron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥9❤3
Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke
Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.
В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.
Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.
⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.
Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.
Проект написан на TypeScript. Необходимые условия перед установкой:
# Install the dependencies:
# --include=optional to make
# sure deps are installed
bun i
# build the app:
npm run build
# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile
cd packages/app
bun run electron:start
# You can also build Clapper:
cd packages/app
bun run electron:make
@ai_machinelearning_big_data
#AI #Storytelling #Clapper #Visialtool
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍18❤8
Экосистема Fluх развивается очень быстро, каждый день появляются новые способы, решения, возможности и инструменты для работы с моделями Fluх онлайн и оффлайн.
Теперь у сообщества FLUX появился обновляемый и упорядоченный Awesome FLUX!
https://awesomeflux.com/
@ai_machinelearning_big_data
#AI #FLUX #ML #Awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤6🔥4❤🔥2
Alibaba Group выпустила mPLUG-Owl3, общую мультимодальную модель на базе Qwen2, ориентированную на понимание нескольких изображений и длинных видео. По словам разработчиков, модель может проанализировать 2-часовой фильм всего за 4 секунды.
mPLUG-Owl3 сокращает время ожидания первого токена в 6 раз и увеличивает возможность обработки изображений, обрабатываемых одним GPU A100 до 400 штук в секунду.
Архитектура mPLUG-Owl3 состоит из визуального кодировщика, линейного проекционного слоя и декодера языковой модели.
Ключевая особенность mPLUG-Owl3 - блоки Hyper Attention Transformer (HATB), которые включают перекрестное внимание между визуальными и текстовыми признаками, благодаря чему модель адаптивно выбирает и извлекает релевантную визуальную информацию на основе текстовой семантики.
Технические характеристики модели:
# Clone repository
https://github.com/X-PLUG/mPLUG-Owl.git
# Navigate to OWL3 folder
cd mPLUG-Owl3
# Install the dependencies
pip install -r requirements.txt
# Execute the demo
python gradio_demo.py
@ai_machinelearning_big_data
#AI #OWL3 #MMLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤11🔥6🎉1