Hugging Face выложила на Github руководство по оценке LLM.
В нем собраны различные способы оценки модели, руководства по разработке собственных оценок, а также советы и рекомендации из практического опыта. В руководстве рассказывается о разных способах оценки: с помощью автоматических тестов, людей или других моделей.
Особое внимание уделяется тому, как избежать проблем с инференсом модели и сделать результаты одинаковыми. В руководстве есть советы о том, как сделать данные чистыми, как использовать шаблоны для общения с LLM и как анализировать неожиданные плохие результаты.
Если вы ничего не знаете об оценке и бенчмарках, вам следует начать с разделов
Basics
в каждой главе, прежде чем погружаться глубже. В разделе базовые знания вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация. Более прикладными разделы: советы и рекомендации, устранение неполадок и разделы, посвященные дизайну.
@ai_machinelearning_big_data
#AI #ML #LLM #Huggingface #Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥12❤8🙉1
Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM.
В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности.
Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка.
Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры.
@ai_machinelearning_big_data
#AI #ML #LLM #Guide #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤13🔥8
Репозиторий Github облачного хостинг-провайдера Lambda Labs c исчерпывающим руководством по лучшим практикам распределенного обучения, диагностике часто возникающих ошибок, эффективном использовании доступных ресурсов и приемам логгирования в stdout/stderr и wandb.
Вопросы, на которые отвечает это руководство:
Руководство состоит из последовательных глав, каждая из которых содержит
readme
и скрипт train_llm.py
. В
readme
содержатся описания глав, а каждый из обучающих скриптов нацелен на обучение каузальной языковой модели.# Clone repo
git clone https://github.com/LambdaLabsML/distributed-training-guide.git
# Create venv
cd distributed-training-guide
python3 -m venv venv
source venv/bin/activate
python -m pip install -U pip
pip install -U setuptools wheel
pip install -r requirements.txt
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Guide
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥14❤5🫡3
Свежее руководство по обучению с подкреплением, которое очень подробно объясняет всю теорию и детали реализации каждого алгоритма в этой области со множеством примеров и кодом.
Наслаждайтесь чтением)
📌 Читать
@ai_machinelearning_big_data
#ml #reinforcementlearning #rl #guide
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤61👍36🔥12👏1👾1
💰 Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Вышел официальный код и чекпоинты для MicroDiffusion от Sony.
Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.
Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)
Здесь можно посмотреть конфигурацию обучения для каждого этапа.
▪Paper: https://arxiv.org/abs/2407.15811v1
▪Github: https://github.com/SonyResearch/micro_diffusion
▪HF: https://huggingface.co/VSehwag24/MicroDiT
▪Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md
@ai_machinelearning_big_data
#stablediffusion #guide #sd #ml #sony
Вышел официальный код и чекпоинты для MicroDiffusion от Sony.
Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.
Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)
Здесь можно посмотреть конфигурацию обучения для каждого этапа.
▪Paper: https://arxiv.org/abs/2407.15811v1
▪Github: https://github.com/SonyResearch/micro_diffusion
▪HF: https://huggingface.co/VSehwag24/MicroDiT
▪Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md
@ai_machinelearning_big_data
#stablediffusion #guide #sd #ml #sony
❤50🔥44👍20🫡2🥱1
Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.
Основные моменты:
— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
— Набрал 26.6 % на «Последнем экзамене человечества».
ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.
Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.
WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.
Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.
Очень интересная и наполненная техническими деталями беседа.
- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
Резюме самых интересных открытий за первую неделю с момента появления DS.
Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.
Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
@ai_machinelearning_big_data
#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102❤26🔥10👀2
Он уточнил, что среди инвесторов французских проектов в области ИИ будут компании из Объединенных Арабских Эмиратов, Соединенных Штатов, Канады и самой Франции.
Кроме того, Макрон подчеркнул намерение Парижа сотрудничать с Нью-Дели и Пекином для продвижения технологий искусственного интеллекта. «Мы стремимся к совместной работе с Индией», – сказал он, добавив, что Франция также намерена взаимодействовать с Китаем и Соединенными Штатами, однако не хочет зависеть ни от одной страны.
Относительно обсуждений о возможном запрете использования китайского чат-бота DeepSeek в некоторых странах, Макрон выразил мнение, что запрет технологических решений лишь на основании их происхождения является неоправданным шагом.
Новость
Видео
- Goku: генеративная модель видео на основе потоков.
- Goku+: Модель, которая позиционируется, как модель для генерации видеорекламы и обещает быть в 100 раз дешевле, чем традиционные методы создания видео-рекламы.
Аrxiv
С этим ноутбуком примерно за 2 часа можно обучить модель Qwen 0.5B на математическом наборе данных GSM8K, используя обучение с подкреплением!
Colab Demo
Проект предлагает платформу с готовыми моделями, наборами данных и инструментами для работы с робототехникой на базе PyTorch.
На данный момент доступны предварительно обученные модели, демонстрационные среды для симуляций, а также готовые скрипты для обучения и управления реальными роботами.
Также предоставляются рекомендации по ведению логов и оценке моделей, а также ссылки на исследовательские материалы и примеры кода для профилирования.
Github
Safe Superintellgence(SSI), основанная в июне 2024, еще ничего не выпускает и не зарабатывает, так как первым продуктом обещают сразу ни больше ни меньше — safe AGI.
А пока просто посмотрите на сайт компании, которая УЖЕ привлекла миллиард долларов и собирается привлечь еще. Сила имени.
ssi.inc.
@ai_machinelearning_big_data
#openai #deeplearning #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #qwen #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍38❤12😁7🥱3🤔2🌚1😭1
Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.
В итоге получился очень годный гайд, со множеством технических деталей.
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.
Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.
Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.
#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤18🤓5🔥3😁2🗿2👌1