Forwarded from AI VK Hub
Всем привет! Продолжаем обозревать статьи, представленные на ICML.
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.
В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?
Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.
Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.
Детали
Авторы разработали два алгоритма:
1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.
2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.
Результаты
Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:
🔸 Датасеты с релевантным таргетом.
🔸 Датасеты с нерелевантным таргетом.
🔸 Графы, которые не подходят для ранжирования алгоритмов машинного обучения.
Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls
#ICML #обзорстатьи
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.
В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?
Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.
Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.
Детали
Авторы разработали два алгоритма:
1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.
2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.
Результаты
Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:
Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM