Neurohive - Нейронные сети, AI, ML, DL
4.68K subscribers
263 photos
52 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
​​DAF:re — это публичный датасет для распознавания аниме персонажей. Датасет состоит из 500 тысяч изображений с 3000 классов объектов.

#Dataset
​​Twitter запустили новый тип подключения к их API, — Academic Research. Такая подписка откроет исследователям доступ ко всем методам из второй версии API Twitter.

#Dataset #Twitter
​​Facebook AI опубликовали мультилингвальный датасет для обучения моделей распознавания речи. Multilingual LibriSpeech (MLS) содержит 50 тысяч часов аудио с речью людей на 8 языках: английском, немецком, испанском, итальянском, португальском и польском.

#Dataset #FAIR
​​FiftyOne является наиболее удобным способом работы с изображениями из Open Images – крупнейшего датасета от Google, широко используемого в технологиях компьютерного зрения. Функционал инструмента включает выбор изображений определенного типа для загрузки, выявление закономерностей в данных и визуализацию их векторных представлений.

#Dataset
Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic - датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи представили функцию оценки качества сгенерированных изображений PickScore, которая превосходит людей в предсказании предпочтений пользователей.

Для создания датасета исследователи разработали веб-приложение на основе StableDiffusion 1.5 и SDXL beta генерирующее пару изображений по текстовой подсказке. Пользователи выбирают понравившийся вариант, либо отмечают, что среди вариантов нет явного победителя. Каждый пример в датасете содержит текстовый запрос, два сгенерированных изображения и метку, указывающую предпочтительный вариант.

Датасет использовали для обучения функции оценки соответствия изображения введенному запросу. PickScore превосходит людей в предсказании предпочтений с результатом 70,2% на 68,0%.

#Dataset #StateoftheArt
🥰51
Zyda – это открытый датасет объемом 1.3 триллиона токенов для обучения больших языковых моделей от команды Zyphra.

Zyda был создан путем объединения и тщательной обработки семи датасетов: RefinedWeb, Starcoder, C4, Pile, SlimPajama, pe2so и arxiv. Процесс создания включал синтаксическую фильтрацию для удаления низкокачественных компонентов, за которой следовала агрессивная дедупликация как внутри, так и между датасетами. В итоге около 40% исходного датасета было удалено, что уменьшило количество токенов с 2T до 1.3T.

#Dataset
🔥10
Исследователи из Tencent опубликовали DeepMath-103K - крупный математический датасет для обучения с подкреплением продвинутых моделей рассуждения. Проект опубликован на Github.

DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.

Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.

Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.

#Dataset
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Рекомендательные системы стали заложником проклятия качественного насыщения

The curse of quality saturation — это проблема, с которой сейчас столкнулись люди, разрабатывающие рекомендательные системы. Данных для обучения слишком много, и ленты уже настолько хороши, что их эффективность замедляется.

Одним из путей решения проблемы инженер рекомендательных систем Яндекса Николай Савушкин видит публикацию больших рекомендательных датасетов. Чтобы нивелировать разрыв между академическим сообществом и индустрией, Яндекс выложил в опенсорс Yambda.

#Dataset
👍21