📚 Подборка ключевых исследований
1. Zi Yin and Yuanyuan Shen (2108). On the Dimensionality of Word Embedding
🔗 PDF
🔍 Обьясняет оптимальный выбор размерностей эмбеддингов
2. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT.
ACL 2019
🔗 PDF
🔍 Исследуется анизотропность эмбеддингов: они концентрируются в узком подпространстве. В частности, автор показывает, что представления BERT становятся менее контекстуализированными на более глубоких слоях.
3. Mickus, T., & Wauquier, L. (2020). What do you mean, BERT? Assessing BERT embeddings with frequency and syntactic distribution.
LREC 2020
🔗 PDF
🔍 Анализирует влияние синтаксиса и частотности на геометрию BERT-эмбеддингов.
3. Kovaleva, O., Romanov, A., Rogers, A., & Rumshisky, A. (2019). Revealing the Dark Secrets of BERT.
EMNLP 2019
🔗 PDF
🔍 Метаанализ активаций слоёв и внимания в BERT. Обнаружено, что некоторые головы внимания избыточны и не вносят значимый вклад.
4. Gao, L., et al. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings.
EMNLP 2021
🔗 PDF
🔍 Один из ключевых подходов к улучшению геометрии эмбеддингов — контрастивное обучение. SimCSE делает эмбеддинги более изотропными, облегчая использование в downstream-задачах.
5. Reif, E., et al. (2019). Visualizing and Measuring the Geometry of BERT.
NeurIPS Workshop
🔗 PDF
🔍 Один из первых визуальных анализов внутренних представлений BERT. Используются PCA и центроидный анализ.
6. Durrani, N., et al. (2021). Analyzing Individual Neurons in Transformers.
ACL 2021
🔗 PDF
🔍 Вклад отдельных нейронов в формирование семантической геометрии.
7.Mary Phuong, et l. (2021). Understanding the Geometry of Knowledge Distillation.
ICLR 2021
🔗 PDF
🔍 Исследуется, как дистилляция влияет на геометрию скрытого пространства. Модели-ученики могут иметь совершенно иные структуры.
📌 Геометрия эмбеддингов — это не просто визуализация точек в пространстве, а важный аспект интерпретируемости, эффективности и надёжности современных трансформеров. Последние исследования показывают, что:
🍒 Эмбеддинги BERT часто анизотропны;
🍒 Контекстуализация сильно зависит от слоя и позиции токена;
🍒 Есть способы улучшения геометрии (SimCSE, dynaEval, Linear Probing);
🍒 Новые модели (LLM) требуют ещё более глубокого анализа из-за огромного числа параметров.
#LLM #Transformers #Embeddings #TransofermersGeometry
1. Zi Yin and Yuanyuan Shen (2108). On the Dimensionality of Word Embedding
🔍 Обьясняет оптимальный выбор размерностей эмбеддингов
2. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT.
ACL 2019
🔍 Исследуется анизотропность эмбеддингов: они концентрируются в узком подпространстве. В частности, автор показывает, что представления BERT становятся менее контекстуализированными на более глубоких слоях.
3. Mickus, T., & Wauquier, L. (2020). What do you mean, BERT? Assessing BERT embeddings with frequency and syntactic distribution.
LREC 2020
🔍 Анализирует влияние синтаксиса и частотности на геометрию BERT-эмбеддингов.
3. Kovaleva, O., Romanov, A., Rogers, A., & Rumshisky, A. (2019). Revealing the Dark Secrets of BERT.
EMNLP 2019
🔍 Метаанализ активаций слоёв и внимания в BERT. Обнаружено, что некоторые головы внимания избыточны и не вносят значимый вклад.
4. Gao, L., et al. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings.
EMNLP 2021
🔍 Один из ключевых подходов к улучшению геометрии эмбеддингов — контрастивное обучение. SimCSE делает эмбеддинги более изотропными, облегчая использование в downstream-задачах.
5. Reif, E., et al. (2019). Visualizing and Measuring the Geometry of BERT.
NeurIPS Workshop
🔍 Один из первых визуальных анализов внутренних представлений BERT. Используются PCA и центроидный анализ.
6. Durrani, N., et al. (2021). Analyzing Individual Neurons in Transformers.
ACL 2021
🔍 Вклад отдельных нейронов в формирование семантической геометрии.
7.Mary Phuong, et l. (2021). Understanding the Geometry of Knowledge Distillation.
ICLR 2021
🔍 Исследуется, как дистилляция влияет на геометрию скрытого пространства. Модели-ученики могут иметь совершенно иные структуры.
📌 Геометрия эмбеддингов — это не просто визуализация точек в пространстве, а важный аспект интерпретируемости, эффективности и надёжности современных трансформеров. Последние исследования показывают, что:
🍒 Эмбеддинги BERT часто анизотропны;
🍒 Контекстуализация сильно зависит от слоя и позиции токена;
🍒 Есть способы улучшения геометрии (SimCSE, dynaEval, Linear Probing);
🍒 Новые модели (LLM) требуют ещё более глубокого анализа из-за огромного числа параметров.
#LLM #Transformers #Embeddings #TransofermersGeometry
👍2