Истории (не)успеха (ИИ)ЕИ

📚 Подборка ключевых исследований

1. Zi Yin and Yuanyuan Shen (2108). On the Dimensionality of Word Embedding
🔗 PDF
🔍 Обьясняет оптимальный выбор размерностей эмбеддингов

2. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT.
ACL 2019
🔗 PDF
🔍 Исследуется анизотропность эмбеддингов: они концентрируются в узком подпространстве. В частности, автор показывает, что представления BERT становятся менее контекстуализированными на более глубоких слоях.

3. Mickus, T., & Wauquier, L. (2020). What do you mean, BERT? Assessing BERT embeddings with frequency and syntactic distribution.
LREC 2020
🔗 PDF
🔍 Анализирует влияние синтаксиса и частотности на геометрию BERT-эмбеддингов.

3. Kovaleva, O., Romanov, A., Rogers, A., & Rumshisky, A. (2019). Revealing the Dark Secrets of BERT.
EMNLP 2019
🔗 PDF
🔍 Метаанализ активаций слоёв и внимания в BERT. Обнаружено, что некоторые головы внимания избыточны и не вносят значимый вклад.

4. Gao, L., et al. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings.
EMNLP 2021
🔗 PDF
🔍 Один из ключевых подходов к улучшению геометрии эмбеддингов — контрастивное обучение. SimCSE делает эмбеддинги более изотропными, облегчая использование в downstream-задачах.

5. Reif, E., et al. (2019). Visualizing and Measuring the Geometry of BERT.
NeurIPS Workshop
🔗 PDF
🔍 Один из первых визуальных анализов внутренних представлений BERT. Используются PCA и центроидный анализ.

6. Durrani, N., et al. (2021). Analyzing Individual Neurons in Transformers.
ACL 2021
🔗 PDF
🔍 Вклад отдельных нейронов в формирование семантической геометрии.

7.Mary Phuong, et l. (2021). Understanding the Geometry of Knowledge Distillation.
ICLR 2021
🔗 PDF
🔍 Исследуется, как дистилляция влияет на геометрию скрытого пространства. Модели-ученики могут иметь совершенно иные структуры.

📌 Геометрия эмбеддингов — это не просто визуализация точек в пространстве, а важный аспект интерпретируемости, эффективности и надёжности современных трансформеров. Последние исследования показывают, что:

🍒 Эмбеддинги BERT часто анизотропны;
🍒 Контекстуализация сильно зависит от слоя и позиции токена;
🍒 Есть способы улучшения геометрии (SimCSE, dynaEval, Linear Probing);
🍒 Новые модели (LLM) требуют ещё более глубокого анализа из-за огромного числа параметров.

#LLM #Transformers #Embeddings #TransofermersGeometry

👍2

70 viewsDmytro, edited 14:30

About

Blog

Apps

Platform