Neurohive - Нейронные сети, AI, ML, DL

DAF:re — это публичный датасет для распознавания аниме персонажей. Датасет состоит из 500 тысяч изображений с 3000 классов объектов.

#Dataset

2.23K views09:30

Читать подробнее

Twitter запустили новый тип подключения к их API, — Academic Research. Такая подписка откроет исследователям доступ ко всем методам из второй версии API Twitter.

#Dataset #Twitter

2.16K views09:16

Читать подробнее

Neurohive - Нейронные сети, AI, ML, DL

Facebook AI опубликовали мультилингвальный датасет для обучения моделей распознавания речи. Multilingual LibriSpeech (MLS) содержит 50 тысяч часов аудио с речью людей на 8 языках: английском, немецком, испанском, итальянском, португальском и польском.

#Dataset #FAIR

2.08K views09:30

Читать подробнее

Neurohive - Нейронные сети, AI, ML, DL

FiftyOne является наиболее удобным способом работы с изображениями из Open Images – крупнейшего датасета от Google, широко используемого в технологиях компьютерного зрения. Функционал инструмента включает выбор изображений определенного типа для загрузки, выявление закономерностей в данных и визуализацию их векторных представлений.

#Dataset

1.58K views09:01

Читать подробнее

Neurohive - Нейронные сети, AI, ML, DL

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic - датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.

Для создания датасета исследователи разработали веб-приложение на основе StableDiffusion 1.5 и SDXL beta генерирующее пару изображений по текстовой подсказке. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.

Датасет использовали для обучения функции оценки соответствия изображения введенному запросу. PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%.

#Dataset #StateoftheArt

🥰5❤1

2.3K viewsedited 05:00

Neurohive - Нейронные сети, AI, ML, DL

Zyda – это открытый датасет объемом 1.3 триллиона токенов для обучения больших языковых моделей от команды Zyphra.

Zyda был создан путем объединения и тщательной обработки семи датасетов: RefinedWeb, Starcoder, C4, Pile, SlimPajama, pe2so и arxiv. Процесс создания включал синтаксическую фильтрацию для удаления низкокачественных компонентов, за которой следовала агрессивная дедупликация как внутри, так и между датасетами. В итоге около 40% исходного датасета было удалено, что уменьшило количество токенов с 2T до 1.3T.

#Dataset

🔥10

1.41K views05:36

Neurohive - Нейронные сети, AI, ML, DL

Исследователи из Tencent опубликовали DeepMath-103K - крупный математический датасет для обучения с подкреплением продвинутых моделей рассуждения. Проект опубликован на Github.

DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.

Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.

Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.

#Dataset

👍4

2.18K views10:33

Neurohive - Нейронные сети, AI, ML, DL

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

Рекомендательные системы стали заложником проклятия качественного насыщения

The curse of quality saturation — это проблема, с которой сейчас столкнулись люди, разрабатывающие рекомендательные системы. Данных для обучения слишком много, и ленты уже настолько хороши, что их эффективность замедляется.

Одним из путей решения проблемы инженер рекомендательных систем Яндекса Николай Савушкин видит публикацию больших рекомендательных датасетов. Чтобы нивелировать разрыв между академическим сообществом и индустрией, Яндекс выложил в опенсорс Yambda.

#Dataset

👍2❤1

1.6K views15:35

About

Blog

Apps

Platform