Big Data AI
16.7K subscribers
792 photos
96 videos
19 files
804 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
​​В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.

#Datasets

https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/

@bigdatai
👍9🔥21
Forwarded from Machinelearning
📌Исследование различных типов связей между датасетами для улучшения их поиска.

В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

🟢Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

🟢Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

🟢Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

🟢Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

🟠Извлечение отношений из schema.org.
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

🟠Эвристический подход.
Набор правил, разработанных для каждого типа отношений.

🟠Градиентный бустинг деревьев решений (GBDT).
Метод машинного обучения, основанный на классификации.

🟠Модель T5.
Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.


🟡Статья в блоге
🟡Arxiv
🟡Поиск по датасетам


@ai_machinelearning_big_data

#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2