This media is not supported in your browser
VIEW IN TELEGRAM
🔉 Hertz-dev 8.5B
Hertz-dev - это мощная 8.5B модель для работы с аудио с открытым исходным кодом.
Hertz-dev создан на основе 20 миллионов уникальных часов высококачественных аудиоданных.
Hertz-dev - это базовая модель, без тонкой настройки, RLHF.
Ее можно настроить практически для любой задачи моделирования звука, от трансляции в реальном времени до классификации аудио.
Поддерживает: преобразование речи в текст, перевод, классификация, распознавание речи, преобразование текста в речь и многое другое!
📌 Ссылка
@machinelearning_interview
Hertz-dev - это мощная 8.5B модель для работы с аудио с открытым исходным кодом.
Hertz-dev создан на основе 20 миллионов уникальных часов высококачественных аудиоданных.
Hertz-dev - это базовая модель, без тонкой настройки, RLHF.
Ее можно настроить практически для любой задачи моделирования звука, от трансляции в реальном времени до классификации аудио.
Поддерживает: преобразование речи в текст, перевод, классификация, распознавание речи, преобразование текста в речь и многое другое!
📌 Ссылка
@machinelearning_interview
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
GSCo (Generalist-Specialist Collaboration) - система, которая использует преимущества моделей общего назначения (GFM) и экспертных моделей для повышения точности анализа медицинских изображений.
В процессе создания GFM была разработана MedDr – самая большая на данный момент модель общего назначения с открытым исходным кодом для медицины. MedDr обучалась на наборе данных из 2 млн. пар "изображение - текст" различных медицинских модальностей. Параллельно были созданы небольшие экмпертные модели для конкретных задач.
На этапе совместного инференса используются два механизма: MoED (Mixture-of-Expert Diagnosis) и RAD (Retrieval-Augmented Diagnosis). MoED использует прогнозы экспертных моделей как справочную информацию, а RAD применяет их для поиска похожих случаев. Результаты MoED и RAD объединяются и предоставляются MedDr в качестве контекстной информации.
Чтобы оценить MedDr и GSCo был создан датасет из 28 наборов данных и 250 000 тестовых изображений из 10 медицинских модальностей.
Результаты экспериментов показали, что MedDr превосходит другие GFM в решении многих задач медицинской визуализации. GSCo демонстрирует высокую производительность по сравнению как с GFM, так и со специализированными моделями, особенно в задачах диагностики заболеваний вне области обучения.
📌 Читать полностью
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.
Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.
В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.
Настройка
Глава 2: Работа с текстовыми данными
Глава 3: Код механизмов внимания
Глава 4: Реализация модели GPT с нуля
Глава 5: Предварительное обучение на немаркированных данных
Глава 6: Тонкая настройка для классификации
Глава 7: Тонкая настройка для следования инструкциям
@ai_machinelearning_big_data
#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Deepseek #JanusFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Шпаргалка по ML от Стэнфорда, здесь даны метрики классификации, метрики регрессии, описывается кросс-валидация, регуляризация и не только
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
LLaMA-Mesh - метод, разработанный NVIDIA Labs, позволяющий генерировать 3D-модели с помощью текстовых инструкций, используя LLM. В отличие от других методов, LLaMA-Mesh представляет координаты вершин и определения граней 3D-сеток в виде простого текста, что позволяет напрямую интегрировать их с LLM без расширения словаря, минимизируя дополнительные затраты на обучение и позволяя использовать знания, которые уже имеют LLM.
Метод основан на файнтюне LLaMA-3.1-8B-Instruct на специальном наборе данных., который состоит из пар "текст-3D" и интерактивных диалогов, содержащих текст и 3D-модели.
В результате этого обучения, LLaMA-Mesh получает способность генерировать высококачественные 3D-сетки с различной топологией, сопоставимые по качеству с моделями, обученными с нуля, при этом сохраняя языковые способности, обеспечивая понимание сложных инструкций и ведения контекстуально-зависимых диалогов.
Оценка LLaMA-Mesh проводилась на качественных и количественных экспериментах.
Результаты качественных тестов демонстрируют высокую точность, качество и разнообразие сгенерированных 3D-моделей, а также сохраненные языковые возможности модели.
Количественные тесты в бенчмарках MMLU, PIQA, HellaSwag и GSM8K подтвердили сохранение языковых способностей, сравнимые с фундаментальными моделями LLaMA.
⚠️ Код и предварительно обученные веса обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#AI #ML #LLM #3DGen #LlamaMesh #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM