FiftyOne является наиболее удобным способом работы с изображениями из Open Images – крупнейшего датасета от Google, широко используемого в технологиях компьютерного зрения. Функционал инструмента включает выбор изображений определенного типа для загрузки, выявление закономерностей в данных и визуализацию их векторных представлений.
#Dataset
#Dataset
Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей
Pick-a-Pic - датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.
Для создания датасета исследователи разработали веб-приложение на основе StableDiffusion 1.5 и SDXL beta генерирующее пару изображений по текстовой подсказке. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.
Датасет использовали для обучения функции оценки соответствия изображения введенному запросу. PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%.
#Dataset #StateoftheArt
Pick-a-Pic - датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.
Для создания датасета исследователи разработали веб-приложение на основе StableDiffusion 1.5 и SDXL beta генерирующее пару изображений по текстовой подсказке. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.
Датасет использовали для обучения функции оценки соответствия изображения введенному запросу. PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%.
#Dataset #StateoftheArt
🥰5❤1
Zyda – это открытый датасет объемом 1.3 триллиона токенов для обучения больших языковых моделей от команды Zyphra.
Zyda был создан путем объединения и тщательной обработки семи датасетов: RefinedWeb, Starcoder, C4, Pile, SlimPajama, pe2so и arxiv. Процесс создания включал синтаксическую фильтрацию для удаления низкокачественных компонентов, за которой следовала агрессивная дедупликация как внутри, так и между датасетами. В итоге около 40% исходного датасета было удалено, что уменьшило количество токенов с 2T до 1.3T.
#Dataset
Zyda был создан путем объединения и тщательной обработки семи датасетов: RefinedWeb, Starcoder, C4, Pile, SlimPajama, pe2so и arxiv. Процесс создания включал синтаксическую фильтрацию для удаления низкокачественных компонентов, за которой следовала агрессивная дедупликация как внутри, так и между датасетами. В итоге около 40% исходного датасета было удалено, что уменьшило количество токенов с 2T до 1.3T.
#Dataset
🔥10
Исследователи из Tencent опубликовали DeepMath-103K - крупный математический датасет для обучения с подкреплением продвинутых моделей рассуждения. Проект опубликован на Github.
DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.
Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.
Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.
#Dataset
DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.
Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.
Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.
#Dataset
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Рекомендательные системы стали заложником проклятия качественного насыщения
The curse of quality saturation — это проблема, с которой сейчас столкнулись люди, разрабатывающие рекомендательные системы. Данных для обучения слишком много, и ленты уже настолько хороши, что их эффективность замедляется.
Одним из путей решения проблемы инженер рекомендательных систем Яндекса Николай Савушкин видит публикацию больших рекомендательных датасетов. Чтобы нивелировать разрыв между академическим сообществом и индустрией, Яндекс выложил в опенсорс Yambda.
#Dataset
The curse of quality saturation — это проблема, с которой сейчас столкнулись люди, разрабатывающие рекомендательные системы. Данных для обучения слишком много, и ленты уже настолько хороши, что их эффективность замедляется.
Одним из путей решения проблемы инженер рекомендательных систем Яндекса Николай Савушкин видит публикацию больших рекомендательных датасетов. Чтобы нивелировать разрыв между академическим сообществом и индустрией, Яндекс выложил в опенсорс Yambda.
#Dataset
👍2❤1