А как вы планируете свои выходные? Успеваете за выходные реализовать все задуманное?
У меня на эти выходные были наполеоновские планы. Хотел сделать две вещи:
1) дообучить большую языковую модель (нейросеть) на дигитализированных психологических тестах и проверить утверждение авторов статьи о том, что, как только модель дообучается на поведении человека, а не на текстах, написанных людьми, нейронная активность этой искусственной сети начинает походить на нейронную активность человеческого мозга — как её показывает магнитно-резонансная томография:
https://marcelbinz.github.io/imgs/Centaur__preprint_.pdf
2) прочитать и разобраться со статьей о нейронных и сверх-Тьюринговых вычислениях:
https://www.researchgate.net/publication/226092479_Neural_and_Super-Turing_Computing
В итоге не успел ничего. Затык произошёл на первом пункте: открытая модель LLaMA с 70 миллиардами обучаемых параметров (синапсов) просто не поместилась в 32 гигабайта оперативной памяти на моём ноуте. Авторы, конечно, писали, что нужно 160 ГБ, но кто же читает документацию? 😅 Чтение документации — для слабаков! Ну что ж, возьму модель поменьше на следующие выходные.
P.S. Если у кого-то сложилось впечатление, что я разбираюсь в нейросетях и искусственном интеллекте — это ошибочно. Я только начал интересоваться и просто пробую «поиграться» с этими новомодными игрушками.
P.P.S. Может кто знает: а разве современные операционные системы не виртуализируют память? Ведь 160 ГБ можно адресовать в 64-битном адресном пространстве. Понятно, что будет медленно, и, возможно, я сейчас жёстко туплю, но я всю жизнь исходил из того, что всё, что требует памяти, адресуемой 64 битами, можно запустить на Windows или macOS?
#LLM #Turing #Computation
У меня на эти выходные были наполеоновские планы. Хотел сделать две вещи:
1) дообучить большую языковую модель (нейросеть) на дигитализированных психологических тестах и проверить утверждение авторов статьи о том, что, как только модель дообучается на поведении человека, а не на текстах, написанных людьми, нейронная активность этой искусственной сети начинает походить на нейронную активность человеческого мозга — как её показывает магнитно-резонансная томография:
https://marcelbinz.github.io/imgs/Centaur__preprint_.pdf
2) прочитать и разобраться со статьей о нейронных и сверх-Тьюринговых вычислениях:
https://www.researchgate.net/publication/226092479_Neural_and_Super-Turing_Computing
В итоге не успел ничего. Затык произошёл на первом пункте: открытая модель LLaMA с 70 миллиардами обучаемых параметров (синапсов) просто не поместилась в 32 гигабайта оперативной памяти на моём ноуте. Авторы, конечно, писали, что нужно 160 ГБ, но кто же читает документацию? 😅 Чтение документации — для слабаков! Ну что ж, возьму модель поменьше на следующие выходные.
P.S. Если у кого-то сложилось впечатление, что я разбираюсь в нейросетях и искусственном интеллекте — это ошибочно. Я только начал интересоваться и просто пробую «поиграться» с этими новомодными игрушками.
P.P.S. Может кто знает: а разве современные операционные системы не виртуализируют память? Ведь 160 ГБ можно адресовать в 64-битном адресном пространстве. Понятно, что будет медленно, и, возможно, я сейчас жёстко туплю, но я всю жизнь исходил из того, что всё, что требует памяти, адресуемой 64 битами, можно запустить на Windows или macOS?
#LLM #Turing #Computation
🐄 Пощупать корову за вымя: обзор статьи и попытка повторить результаты
Как вы знаете, я делаю обзор на эту статью:
https://marcelbinz.github.io/imgs/Centaur__preprint_.pdf
Но не простой обзор, а с изюминкой:
-Просто пересказать своими словами — скучно.
- Я решил пойти дальше: прочитать, и сам попробовать повторить результаты, чтобы проверить, насколько это вообще разумно в рамках когнитивной психологии.
- Где авторы молодцы, а где перегибают палку и уходят в сомнительные выводы?
Такой подход помогает мне заодно научиться работать руками с этими интересными игрушками из мира генеративного ИИ. Ну, вы поняли — корову за вымя потрогать.
Что из этого пока выходит:
👉 К чему я пришёл в плане выводов:
- Анализировать большие объёмы данных — это прям кайф, мне понравилось.
- 32 Гб оперативки маловато для моделей больше 7B параметров, но пока мне хватает от 1B до 7B.
- Архитектура трансформеров? Пока сомневаюсь. Особенно для задач типа теории мышления или математики. Возможно, стоит тренить свои архитектуры с нуля, а не брать предобученные, как Ллама. Ведь берём их только потому, что они уже "понимают" язык, и тут я скорее против, чем за.
👉 К чему я пришёл в плане навыков:
Если файнтюнишь модель — всегда смотри на TensorBoard! Всем новичкам, как я, советую. На какие метрики вы смотрите, когда обучаете модель?
👉 Чего мне не хватает:
Практики! Поэтому продолжаю ковыряться в файнтюнинге, софте и датасетах.
А как у вас? Кто-нибудь пробовал повторять результаты из статей? Делитесь опытом! 🚀
#LLM #Transformer #Psychology #Cognitive
Как вы знаете, я делаю обзор на эту статью:
https://marcelbinz.github.io/imgs/Centaur__preprint_.pdf
Но не простой обзор, а с изюминкой:
-Просто пересказать своими словами — скучно.
- Я решил пойти дальше: прочитать, и сам попробовать повторить результаты, чтобы проверить, насколько это вообще разумно в рамках когнитивной психологии.
- Где авторы молодцы, а где перегибают палку и уходят в сомнительные выводы?
Такой подход помогает мне заодно научиться работать руками с этими интересными игрушками из мира генеративного ИИ. Ну, вы поняли — корову за вымя потрогать.
Что из этого пока выходит:
👉 К чему я пришёл в плане выводов:
- Анализировать большие объёмы данных — это прям кайф, мне понравилось.
- 32 Гб оперативки маловато для моделей больше 7B параметров, но пока мне хватает от 1B до 7B.
- Архитектура трансформеров? Пока сомневаюсь. Особенно для задач типа теории мышления или математики. Возможно, стоит тренить свои архитектуры с нуля, а не брать предобученные, как Ллама. Ведь берём их только потому, что они уже "понимают" язык, и тут я скорее против, чем за.
👉 К чему я пришёл в плане навыков:
Если файнтюнишь модель — всегда смотри на TensorBoard! Всем новичкам, как я, советую. На какие метрики вы смотрите, когда обучаете модель?
👉 Чего мне не хватает:
Практики! Поэтому продолжаю ковыряться в файнтюнинге, софте и датасетах.
А как у вас? Кто-нибудь пробовал повторять результаты из статей? Делитесь опытом! 🚀
#LLM #Transformer #Psychology #Cognitive
Взялся, я, короче, проверить результат этой статьи
https://marcelbinz.github.io/imgs/Centaur__preprint_.pdf
и понял, что меня дико раздражает современная когнитивная/поведенческая психология. ну из всей этой мышиной возни психологов за последние сто лет - ровным счётом, худо-бедно, пару людей продвинулись в том плане, что получили НЕИНТУИТИВНЫЕ результаты. Их отметили нобелевской премией в экономике. В течении следующих дней попытаюсь обьяснить что там происходит и что делаю я. Если настроение будет. А если настроения не будет - то не будет.
#LLM #Transformer #Psychology #Cognitive
https://marcelbinz.github.io/imgs/Centaur__preprint_.pdf
и понял, что меня дико раздражает современная когнитивная/поведенческая психология. ну из всей этой мышиной возни психологов за последние сто лет - ровным счётом, худо-бедно, пару людей продвинулись в том плане, что получили НЕИНТУИТИВНЫЕ результаты. Их отметили нобелевской премией в экономике. В течении следующих дней попытаюсь обьяснить что там происходит и что делаю я. Если настроение будет. А если настроения не будет - то не будет.
#LLM #Transformer #Psychology #Cognitive
Пять факторов личности и большие языковые модели 🤖🧠
Начав тут и тут , я постепенно разбираюсь с машинным обучением, нейросетями и их применениями. Пoка только по выходным доходят до этого руки, но всё же руки доходят по чуть-чуть!
Погнали в психологию с помощью больших языковых моделей! 🚀
Сегодня начнем сводить человеческую личность к числу! Точнее, даже не к числу, а к вектору. Причём не в каком-нибудь обычном евклидовом пространстве, а в пятимерном. Но чтобы туда попасть, сначала придётся подняться в 768-мерное пространство векторных эмбеддингов больших языковых моделей, а оттуда уже спуститься в "уютное" пятимерное пространство, чтобы соответствовать эмпирическим выводам психологов.
Итак, начнём с теории личности, основанной на «Большой пятёрке» — пяти измерениях человеческой личности (подробнее тут).
5 измерений 👇
1️⃣ Открытость опыту (Openness to Experience)
Характеризует любознательность, творческое мышление и склонность к восприятию нового. Люди с высоким уровнем открытости чаще экспериментируют, думают нестандартно и любят необычные идеи.
📝 Примеры слов: креативность, интеллектуальная любознательность, эстетическая чувствительность.
2️⃣ Добросовестность (Conscientiousness)
Отражает организованность, ответственность и целеустремлённость. Такие люди дисциплинированы, хорошо планируют и качественно выполняют задачи.
📝 Примеры: целеустремлённость, самоорганизация, аккуратность.
3️⃣ Экстраверсия (Extraversion)
Связана с энергичностью, общительностью и стремлением к социальной активности. Экстраверты любят быть в центре внимания и активно взаимодействуют с окружающими.
📝 Примеры: коммуникабельность, социальная активность, энтузиазм.
4️⃣ Согласие (Agreeableness)
Характеризует доброжелательность, альтруизм и готовность к сотрудничеству. Такие люди чаще проявляют эмпатию и заботу о других.
📝 Примеры: альтруизм, дружелюбие, эмпатия.
5️⃣ Невротизм (Neuroticism)
Отражает склонность к эмоциональной нестабильности, переживаниям и тревожности. Высокий уровень невротизма — это стресс, беспокойство и частые волнения.
📝 Примеры: тревожность, эмоциональная нестабильность, стресс.
💡 Важно: эта модель не делит людей на "чёрное" и "белое". Например, нельзя однозначно сказать, экстраверт человек или интроверт, добросовестный или нет. В каждом измерении человек получает свою оценку - число. Как говорил дедушка Фрейд, в психологии нет однозначностей, всё очень размыто. Каждый человек уникален, и в рамках модели его можно описать пятью числами — по одному для каждого измерения.
📊 Если в каждом измерении бесконечное множество значений, то в пятимерном пространстве этих чисел в пять раз больше, чем в одномерной бесконечности. Этого достаточно, чтобы описать всех людей, живших и живущих.
Теперь самое интересное: как разместить конкретную личность в пятимерном пространстве? 🤔
С помощью трёх основных инструментов: эксперименты, наблюдения, тесты. И здесь на помощь приходят большие языковые модели и методы машинного обучения, которые позволяют извлекать признаки из огромных объёмов данных (Feature Extraction).
О том, как всё это связано с 768-мерным пространством, расскажу в следующем посте.
Продолжение следует...
#LLM #Transformer #Psychology #Cognitive
Начав тут и тут , я постепенно разбираюсь с машинным обучением, нейросетями и их применениями. Пoка только по выходным доходят до этого руки, но всё же руки доходят по чуть-чуть!
Погнали в психологию с помощью больших языковых моделей! 🚀
Сегодня начнем сводить человеческую личность к числу! Точнее, даже не к числу, а к вектору. Причём не в каком-нибудь обычном евклидовом пространстве, а в пятимерном. Но чтобы туда попасть, сначала придётся подняться в 768-мерное пространство векторных эмбеддингов больших языковых моделей, а оттуда уже спуститься в "уютное" пятимерное пространство, чтобы соответствовать эмпирическим выводам психологов.
Итак, начнём с теории личности, основанной на «Большой пятёрке» — пяти измерениях человеческой личности (подробнее тут).
5 измерений 👇
1️⃣ Открытость опыту (Openness to Experience)
Характеризует любознательность, творческое мышление и склонность к восприятию нового. Люди с высоким уровнем открытости чаще экспериментируют, думают нестандартно и любят необычные идеи.
📝 Примеры слов: креативность, интеллектуальная любознательность, эстетическая чувствительность.
2️⃣ Добросовестность (Conscientiousness)
Отражает организованность, ответственность и целеустремлённость. Такие люди дисциплинированы, хорошо планируют и качественно выполняют задачи.
📝 Примеры: целеустремлённость, самоорганизация, аккуратность.
3️⃣ Экстраверсия (Extraversion)
Связана с энергичностью, общительностью и стремлением к социальной активности. Экстраверты любят быть в центре внимания и активно взаимодействуют с окружающими.
📝 Примеры: коммуникабельность, социальная активность, энтузиазм.
4️⃣ Согласие (Agreeableness)
Характеризует доброжелательность, альтруизм и готовность к сотрудничеству. Такие люди чаще проявляют эмпатию и заботу о других.
📝 Примеры: альтруизм, дружелюбие, эмпатия.
5️⃣ Невротизм (Neuroticism)
Отражает склонность к эмоциональной нестабильности, переживаниям и тревожности. Высокий уровень невротизма — это стресс, беспокойство и частые волнения.
📝 Примеры: тревожность, эмоциональная нестабильность, стресс.
💡 Важно: эта модель не делит людей на "чёрное" и "белое". Например, нельзя однозначно сказать, экстраверт человек или интроверт, добросовестный или нет. В каждом измерении человек получает свою оценку - число. Как говорил дедушка Фрейд, в психологии нет однозначностей, всё очень размыто. Каждый человек уникален, и в рамках модели его можно описать пятью числами — по одному для каждого измерения.
📊 Если в каждом измерении бесконечное множество значений, то в пятимерном пространстве этих чисел в пять раз больше, чем в одномерной бесконечности. Этого достаточно, чтобы описать всех людей, живших и живущих.
Теперь самое интересное: как разместить конкретную личность в пятимерном пространстве? 🤔
С помощью трёх основных инструментов: эксперименты, наблюдения, тесты. И здесь на помощь приходят большие языковые модели и методы машинного обучения, которые позволяют извлекать признаки из огромных объёмов данных (Feature Extraction).
О том, как всё это связано с 768-мерным пространством, расскажу в следующем посте.
Продолжение следует...
#LLM #Transformer #Psychology #Cognitive
🥱1
Пять факторов личности: oт слов к делу коду 🚀
Вернёмся к теории личности "большая пятёрка" и математических моделей для неё, как было описано тут.
Проверим, как эмбеддинги (числовые представления текста) могут помочь в сравнении поведения с личностными чертами. Для этого мы вычисляем схожесть между фразами, описывающими поведение человека, и признаками из пяти факторов личности.
Результаты:
{'Sentence': 'I like to work hard.', 'Factor': 'Openness to Experience', 'Keyword': 'Creativity', 'Similarity': 0.23025937378406525}
{'Sentence': 'I enjoy being active.', 'Factor': 'Openness to Experience', 'Keyword': 'Creativity', 'Similarity': 0.4642907977104187}
....
полный список результатов в комментариях 👇
Что мы видим из результатов?
1. Активность и креативность
🏃♂️ *"I enjoy being active."* — высокая схожесть с креативностью (0.464). Люди, которые активны, часто проявляют творческий подход.
2. Рутина и открытость
🔄 *"I prefer to follow routines."* — низкая схожесть с креативностью (-0.072). Люди, предпочитающие рутину, менее склонны к нестандартному мышлению.
3. Активность и экстраверсия
🌟 *"I enjoy being active."* — очень высокая схожесть с экстраверсией (0.608). Активность напрямую связана с общительностью и жизнерадостностью.
4. Трудолюбие и тревожность
💼 *"I like to work hard."* — умеренная схожесть с тревожностью (0.220). Стремление к достижению целей может быть связано с переживаниями.
5. Невротизм и стресс
😰 *"I like to work hard."* — схожесть с уровнем стресса (0.220). Высокий уровень трудолюбия может быть связан с повышенным стрессом.
6. Невротизм и эмоциональная нестабильность
🌩 *"I like to work hard."* — умеренная схожесть с эмоциональной нестабильностью (0.182). Трудолюбивые люди могут переживать больше эмоций в стрессовых ситуациях.
Такие выводы помогают лучше понять, как привычки и предпочтения связаны с личностными чертами. Таким образом, с помощью эмбеддингов можно исследовать, как различные результаты психологических экспериментов, тестов и наблюдений соотносятся с личностными признаками в теории большой пятёрки.
полный список результатов в комментариях 👇
______________
Cсылка на код, вдруг кто захочет поиграться:
https://colab.research.google.com/drive/1-jXFB-5We8it_p8eL0_8G4xB1ODGxTX1?usp=sharing
не благодарите 😂
Источники:
📝 Wulff, D.U., & Mata, R. (2023). Automated jingle–jangle detection: Using embeddings to tackle taxonomic incommensurability.
📝 Hussain, Z., & Binz, M., & Mata, R. & Wulff D.U. (2024) A tutorial on open-source large language models for behavioral science
📝 Costa, P., & McCrae, R.R. (2022) Personality in Adulthood: A Five-Factor Theory Perspective
#LLM #Transformer #Interpretability #Literature
Вернёмся к теории личности "большая пятёрка" и математических моделей для неё, как было описано тут.
Проверим, как эмбеддинги (числовые представления текста) могут помочь в сравнении поведения с личностными чертами. Для этого мы вычисляем схожесть между фразами, описывающими поведение человека, и признаками из пяти факторов личности.
model = SentenceTransformer('distilbert-base-nli-stsb-mean-tokens')
sentences = [
"I like to work hard.",
"I enjoy being active.",
"I like to meet new people.",
"I prefer to follow routines.",
"I love trying new things."
]
factors = {
'Openness to Experience': [
"Creativity", "Intellectual curiosity", "Aesthetic sensitivity"
],
'Conscientiousness': [
"Goal-oriented", "Self-discipline", "Organization"
],
'Extraversion': [
"Sociability", "Enthusiasm", "Activity"
],
'Agreeableness': [
"Altruism", "Empathy", "Cooperation"
],
'Neuroticism': [
"Anxiety", "Emotional instability", "Stress"
]
}
# Получаем эмбеддинги для предложений
sentence_embeddings = model.encode(sentences, convert_to_tensor=True)
# Для каждого фактора личности, вычисляем схожесть с предложениями
for factor, keywords in factors.items():
for keyword in keywords:
factor_embedding = model.encode(keyword, convert_to_tensor=True)
similarities = util.pytorch_cos_sim(sentence_embeddings, factor_embedding)
Результаты:
{'Sentence': 'I like to work hard.', 'Factor': 'Openness to Experience', 'Keyword': 'Creativity', 'Similarity': 0.23025937378406525}
{'Sentence': 'I enjoy being active.', 'Factor': 'Openness to Experience', 'Keyword': 'Creativity', 'Similarity': 0.4642907977104187}
....
полный список результатов в комментариях 👇
Что мы видим из результатов?
1. Активность и креативность
🏃♂️ *"I enjoy being active."* — высокая схожесть с креативностью (0.464). Люди, которые активны, часто проявляют творческий подход.
2. Рутина и открытость
🔄 *"I prefer to follow routines."* — низкая схожесть с креативностью (-0.072). Люди, предпочитающие рутину, менее склонны к нестандартному мышлению.
3. Активность и экстраверсия
🌟 *"I enjoy being active."* — очень высокая схожесть с экстраверсией (0.608). Активность напрямую связана с общительностью и жизнерадостностью.
4. Трудолюбие и тревожность
💼 *"I like to work hard."* — умеренная схожесть с тревожностью (0.220). Стремление к достижению целей может быть связано с переживаниями.
5. Невротизм и стресс
😰 *"I like to work hard."* — схожесть с уровнем стресса (0.220). Высокий уровень трудолюбия может быть связан с повышенным стрессом.
6. Невротизм и эмоциональная нестабильность
🌩 *"I like to work hard."* — умеренная схожесть с эмоциональной нестабильностью (0.182). Трудолюбивые люди могут переживать больше эмоций в стрессовых ситуациях.
Такие выводы помогают лучше понять, как привычки и предпочтения связаны с личностными чертами. Таким образом, с помощью эмбеддингов можно исследовать, как различные результаты психологических экспериментов, тестов и наблюдений соотносятся с личностными признаками в теории большой пятёрки.
полный список результатов в комментариях 👇
______________
Cсылка на код, вдруг кто захочет поиграться:
https://colab.research.google.com/drive/1-jXFB-5We8it_p8eL0_8G4xB1ODGxTX1?usp=sharing
не благодарите 😂
Источники:
📝 Wulff, D.U., & Mata, R. (2023). Automated jingle–jangle detection: Using embeddings to tackle taxonomic incommensurability.
📝 Hussain, Z., & Binz, M., & Mata, R. & Wulff D.U. (2024) A tutorial on open-source large language models for behavioral science
📝 Costa, P., & McCrae, R.R. (2022) Personality in Adulthood: A Five-Factor Theory Perspective
#LLM #Transformer #Interpretability #Literature
🔥3👎2🤡1
Литературные/исторические персонажи, психология и нейрoсети
@felixg_haifa предложил взглянуть на личностную классификацию исторических и литературных персонажей по Big-Five-Theory или по MBTI с точки зрения искусственных нейросетей. За что ему огромное спасибо, потому что это оказалось очень интересно 😄! Я пока не знаю, что там можно получить в разумное время и с разумными затратами, но начнём по-немногу! 🚀
Как пример я взял героя романа Штефана Цвейга "Нетерпение сердца". Сюжет романа прост: молодой лейтенант Антон Гофмиллер, стремясь следовать этикету, совершает оплошность. Решив загладить ошибку, он начинает регулярно навещать девушку с инвалидностью, дочь местного аристократа Кекешфальвы, и оказывается не в состоянии противостоять приятным чувствам — принятию в светском обществе и осознанию, что делает что-то хорошее. Но прав ли был главный герой, что так легко поддался кратковременному сиюминутному чувству? Или лучше было перетерпеть и действовать более обдуманно? 🤔 Кульминацией истории Гофмиллера становится внезапная и неосознанная помолвка, за которой следуют испуг и желание выкрутиться из ситуации. В результате его невеста покончила с собой, а сам Гофмиллер, спасаясь от чувства вины, отправился на войну. На войне импульсивность оказалась преимуществом: смелость, а точнее, безрассудство, хоть и сделали его героем, но никак не излечили его душевные раны. 💔
Другой герой романа, аристократ и магнат Кекешфальва, отец погибшей девушки, в романе описывается так:
«Он старался наскрести лишний крейцер где только мог — и на побегушках у купца, и посыльным из деревни в деревню. В том возрасте, когда другие дети еще играют в стеклянные шарики, он уже точно знал, сколько стоит каждая вещь, где и что продается или покупается и как сделаться незаменимым, исполняя мелкие поручения; сверх того, он находил еще время, чтобы немного подучиться. <...> Конечно, проявив столько энергии и упорства, можно нажить немало добра. Однако настоящие состояния, как правило, образуются лишь при особом соотношении между доходами и расходами, между прибылью и издержками. И вот в этом и заключался второй секрет преуспеха нашего приятеля: Каниц почти ничего не расходовал, если только не считать того, что он подкармливал кучу родственников и платил за учение брата. Единственное, что он приобрел для себя лично, — это черный сюртук, да <...> очки в золотой оправе, благодаря которым он прослыл среди крестьян за „ученого“».
Очевидно, что классифицировать личности обоих героев романа по MBTI или Big-Five довольно легко вручную, просто прочитав роман. 📚 Но для меня тут возникают несколько вопросов:
#LLM #AI #CognitiveScience #Literature #Sociology
@felixg_haifa предложил взглянуть на личностную классификацию исторических и литературных персонажей по Big-Five-Theory или по MBTI с точки зрения искусственных нейросетей. За что ему огромное спасибо, потому что это оказалось очень интересно 😄! Я пока не знаю, что там можно получить в разумное время и с разумными затратами, но начнём по-немногу! 🚀
Как пример я взял героя романа Штефана Цвейга "Нетерпение сердца". Сюжет романа прост: молодой лейтенант Антон Гофмиллер, стремясь следовать этикету, совершает оплошность. Решив загладить ошибку, он начинает регулярно навещать девушку с инвалидностью, дочь местного аристократа Кекешфальвы, и оказывается не в состоянии противостоять приятным чувствам — принятию в светском обществе и осознанию, что делает что-то хорошее. Но прав ли был главный герой, что так легко поддался кратковременному сиюминутному чувству? Или лучше было перетерпеть и действовать более обдуманно? 🤔 Кульминацией истории Гофмиллера становится внезапная и неосознанная помолвка, за которой следуют испуг и желание выкрутиться из ситуации. В результате его невеста покончила с собой, а сам Гофмиллер, спасаясь от чувства вины, отправился на войну. На войне импульсивность оказалась преимуществом: смелость, а точнее, безрассудство, хоть и сделали его героем, но никак не излечили его душевные раны. 💔
Другой герой романа, аристократ и магнат Кекешфальва, отец погибшей девушки, в романе описывается так:
«Он старался наскрести лишний крейцер где только мог — и на побегушках у купца, и посыльным из деревни в деревню. В том возрасте, когда другие дети еще играют в стеклянные шарики, он уже точно знал, сколько стоит каждая вещь, где и что продается или покупается и как сделаться незаменимым, исполняя мелкие поручения; сверх того, он находил еще время, чтобы немного подучиться. <...> Конечно, проявив столько энергии и упорства, можно нажить немало добра. Однако настоящие состояния, как правило, образуются лишь при особом соотношении между доходами и расходами, между прибылью и издержками. И вот в этом и заключался второй секрет преуспеха нашего приятеля: Каниц почти ничего не расходовал, если только не считать того, что он подкармливал кучу родственников и платил за учение брата. Единственное, что он приобрел для себя лично, — это черный сюртук, да <...> очки в золотой оправе, благодаря которым он прослыл среди крестьян за „ученого“».
Очевидно, что классифицировать личности обоих героев романа по MBTI или Big-Five довольно легко вручную, просто прочитав роман. 📚 Но для меня тут возникают несколько вопросов:
#LLM #AI #CognitiveScience #Literature #Sociology
Может ли нейросеть дать более точную характеристику героев, чем человек, исходя из текста романа? 🤖
Нейросети могут анализировать текст на более глубоком уровне, выявляя скрытые закономерности и связи, которые могут быть неочевидны для человека. Но насколько эта характеристика будет "точной"? И в каком контексте мы говорим о точности? В плане психологического профиля, более структурированного анализа поведения или какого-то другого аспекта?
Может ли нейросеть, используя многомерные пространства, описать личности этих литературных героев более тонко и комплексно, чем традиционные классификационные системы, такие как MBTI или Big-Five, которые оперируют всего 4-6 измерениями? 🌌
В отличие от традиционных систем, которые классифицируют личности по нескольким ключевым признакам (например, экстраверсия/интроверсия, нейротизм, открытость и т.д.), нейросети могут использовать гораздо более сложные многомерные векторы. Эти векторы представляют не просто 4-6 характеристик, а могут учитывать гораздо более тонкие, почти бесконечно разнообразные аспекты человеческого поведения и личности. С помощью нейросетей можно создать многомерные модели, в которых персонажи, такие как Гофмиллер и Кекешфальва, будут отображены не по одной плоскости (например, по шкале "экстраверсия-интроверсия"), а по множеству переменных, которые гораздо точнее отражают их сложные психологические и социальные взаимодействия.
Можно ли из этой более точной классификации создать мостик к разделам психологии, где используются байесовские модели? 📊
Байесовские модели позволяют работать с вероятностями и неопределенностями, что идеально сочетается с задачей построения психолого-психометрических профилей. Если нейросеть сможет предложить более точную классификацию, эту информацию можно использовать в байесовских подходах, где каждый из аспектов личности рассматривается как вероятностная переменная. Например, можно будет вычислить вероятность определённых поведенческих реакций в различных ситуациях, что позволит получить более динамичное и адаптивное представление о характере героя.
Продолжение следует...
#LLM #AI #CognitiveScience #Literature #Sociology
Нейросети могут анализировать текст на более глубоком уровне, выявляя скрытые закономерности и связи, которые могут быть неочевидны для человека. Но насколько эта характеристика будет "точной"? И в каком контексте мы говорим о точности? В плане психологического профиля, более структурированного анализа поведения или какого-то другого аспекта?
Может ли нейросеть, используя многомерные пространства, описать личности этих литературных героев более тонко и комплексно, чем традиционные классификационные системы, такие как MBTI или Big-Five, которые оперируют всего 4-6 измерениями? 🌌
В отличие от традиционных систем, которые классифицируют личности по нескольким ключевым признакам (например, экстраверсия/интроверсия, нейротизм, открытость и т.д.), нейросети могут использовать гораздо более сложные многомерные векторы. Эти векторы представляют не просто 4-6 характеристик, а могут учитывать гораздо более тонкие, почти бесконечно разнообразные аспекты человеческого поведения и личности. С помощью нейросетей можно создать многомерные модели, в которых персонажи, такие как Гофмиллер и Кекешфальва, будут отображены не по одной плоскости (например, по шкале "экстраверсия-интроверсия"), а по множеству переменных, которые гораздо точнее отражают их сложные психологические и социальные взаимодействия.
Можно ли из этой более точной классификации создать мостик к разделам психологии, где используются байесовские модели? 📊
Байесовские модели позволяют работать с вероятностями и неопределенностями, что идеально сочетается с задачей построения психолого-психометрических профилей. Если нейросеть сможет предложить более точную классификацию, эту информацию можно использовать в байесовских подходах, где каждый из аспектов личности рассматривается как вероятностная переменная. Например, можно будет вычислить вероятность определённых поведенческих реакций в различных ситуациях, что позволит получить более динамичное и адаптивное представление о характере героя.
Продолжение следует...
#LLM #AI #CognitiveScience #Literature #Sociology
🧠 Как думают машины? В поисках нейролингвистических инвариантов. Эксперимент с омонимами.
Я уже не раз жаловался в этом чате, что машинное обучение и нейросети меня откровенно раздражают своей неточностью и непрозрачностью миллиардов нейронных связей. Но если уж неточностей много — надо искать в них закономерности! В математике и физике такие общие свойства называют инвариантами или симметриями.
Сегодня, работая над написанием крэш-курса по машинному обучению для чайников, я разбирал интересный пример:
Возьмём два предложения:
1️⃣ «Я посетил старый замок в Карпатах.»
2️⃣ «Амбар был закрыт на ржавый замок.»
Если пропустить их через нейросеть, сначала модель воспринимает «замок» как одно и то же слово. Но слой за слоем, анализируя контекст, она постепенно разводит значения: в одном случае это крепость, а в другом – механизм для запирания.
📊 На графиках 👇👇👇 по оси X отложены слои модели (от 1-го до 12-го), а по оси Y — евклидово расстояние между точками в 768-мерном пространстве, соответствующими этим словам. Видно, как по мере углубления в слои модели различие между значениями увеличивается.
Но ведь это не случайность. Известно, что в трансформерных моделях механизм самовнимания (self-attention) постепенно смещает представления слов:
🔹 На ранних слоях модель в основном опирается на исходные эмбеддинги слов, т.е. их базовые, прямые значения без глубокого контекстного анализа.
🔹 На средних слоях модель начинает активно учитывать контекст, анализируя связи слов в предложении и взаимодействие между ними.
🔹 На поздних слоях модель уже оперирует абстракциями и более сложными концептами, учитывая не только конкретные слова, но и их общее значение в контексте всей задачи.
Этот процесс работает одинаково для разных слов и даже для разных языковых моделей:
🔹 «Я купил свежий лук на рынке.» vs. «Рыцарь натянул лук и выпустил стрелу.»
🔹 «Я потерял ключ от квартиры.» vs. «Ключ к решению задачи был найден.»
🔹 «Осенний лист упал на землю.» vs. «Я взял чистый лист бумаги.»
Это значит, что различение значений слов в нейросетях подчиняется общему механизму. Независимо от модели, процесс обработки контекста проходит по одной и той же схеме – это и есть инвариант в машинном мышлении, скрытая симметрия работы трансформеров. 🚀
👉 Что, если способность нейросетей различать значения слов – это фундаментальный принцип, наподобие законов природы? Это ведь качественный переход от синтаксиса к семантике? И семантике модели BERT никто не учил! Это самовыведенный принцип из синтактического анализа большого количества текстов!
Код эксперимента тут:
🔗 Открыть в Google Colab
П.С. Я ещё только учусь, за правильность кода на 100% не ручаюсь 😅, но когда крэш-курс по языковым моделям/трансформерам будет готов – там всё будет безошибочно, кратко и точно.
#LLM #Transormers #NLP #AI
Я уже не раз жаловался в этом чате, что машинное обучение и нейросети меня откровенно раздражают своей неточностью и непрозрачностью миллиардов нейронных связей. Но если уж неточностей много — надо искать в них закономерности! В математике и физике такие общие свойства называют инвариантами или симметриями.
Сегодня, работая над написанием крэш-курса по машинному обучению для чайников, я разбирал интересный пример:
Возьмём два предложения:
1️⃣ «Я посетил старый замок в Карпатах.»
2️⃣ «Амбар был закрыт на ржавый замок.»
Если пропустить их через нейросеть, сначала модель воспринимает «замок» как одно и то же слово. Но слой за слоем, анализируя контекст, она постепенно разводит значения: в одном случае это крепость, а в другом – механизм для запирания.
📊 На графиках 👇👇👇 по оси X отложены слои модели (от 1-го до 12-го), а по оси Y — евклидово расстояние между точками в 768-мерном пространстве, соответствующими этим словам. Видно, как по мере углубления в слои модели различие между значениями увеличивается.
Но ведь это не случайность. Известно, что в трансформерных моделях механизм самовнимания (self-attention) постепенно смещает представления слов:
🔹 На ранних слоях модель в основном опирается на исходные эмбеддинги слов, т.е. их базовые, прямые значения без глубокого контекстного анализа.
🔹 На средних слоях модель начинает активно учитывать контекст, анализируя связи слов в предложении и взаимодействие между ними.
🔹 На поздних слоях модель уже оперирует абстракциями и более сложными концептами, учитывая не только конкретные слова, но и их общее значение в контексте всей задачи.
Этот процесс работает одинаково для разных слов и даже для разных языковых моделей:
🔹 «Я купил свежий лук на рынке.» vs. «Рыцарь натянул лук и выпустил стрелу.»
🔹 «Я потерял ключ от квартиры.» vs. «Ключ к решению задачи был найден.»
🔹 «Осенний лист упал на землю.» vs. «Я взял чистый лист бумаги.»
Это значит, что различение значений слов в нейросетях подчиняется общему механизму. Независимо от модели, процесс обработки контекста проходит по одной и той же схеме – это и есть инвариант в машинном мышлении, скрытая симметрия работы трансформеров. 🚀
👉 Что, если способность нейросетей различать значения слов – это фундаментальный принцип, наподобие законов природы? Это ведь качественный переход от синтаксиса к семантике? И семантике модели BERT никто не учил! Это самовыведенный принцип из синтактического анализа большого количества текстов!
Код эксперимента тут:
🔗 Открыть в Google Colab
П.С. Я ещё только учусь, за правильность кода на 100% не ручаюсь 😅, но когда крэш-курс по языковым моделям/трансформерам будет готов – там всё будет безошибочно, кратко и точно.
#LLM #Transormers #NLP #AI
Google
Experiment_Onyms.ipynb
Colab notebook
👍2
Перед тем как переходить на средние или большие вычислительные мощности, тренирую совсем небольшую языковую модель архитектуры BERT (всего 106M параметров) на англоязычной Википедии. Уже десятый запуск за сегодня, но завтра точно взлетит! Вообще, считаю, что маленькие нейросети — это секси! выжать из них можно очень много, мне так кажется, и не обязательно гнаться за количеством - важно качество 🍒
#LLM #Transormers #NLP #AI
#LLM #Transormers #NLP #AI
👍2
🚀 Планы на следующие двое выходных — всё-таки дописать крэш-курс по большим языковым моделям!
Я выше уже описывал, что именно делаю, и, как человек-визуал (даром что математик), подхожу к этому не с позиции абстрактного умничания, а через наглядные примеры и визуализации.
На днях поигрался с эмбеддингами слов в языковых моделях — прослеживал, как слова и контексты проходят через миллиард нейронных связей. И это оказалось очень неожиданным и крутым!
📌 Что я заметил:
При 1 млрд обучаемых параметров модель начинает качественно переходить от морфологии и лексики — к семантике! Да, уже не просто понимает слова, но и смысл заложенный в контексте!
🔹 Эти примеры (некоторые из них я уже выкладывал в этом чате) будут бенчмарками для моего эксперимента:
Я собираюсь обучить с нуля сравнительно небольшую языковую модель (1 млрд параметров, сейчас тестирую).
⚡️ Крэш-курс делится на три части:
1️⃣ Заглядываем под капот больших языковых моделей, тестируем, визуализируем их механику (это уже есть).
2️⃣ Обнуляем знания модели и учим её заново на текстах, например, Википедии. Будет ли она работать так же круто? 🤔
3️⃣ Своя архитектура трансформеров под эти бенчмарки и примеры.
🔥 В планах три статьи на Хабре. Следите за обновлениями! 😎
#LLM #Transformers #AI
Я выше уже описывал, что именно делаю, и, как человек-визуал (даром что математик), подхожу к этому не с позиции абстрактного умничания, а через наглядные примеры и визуализации.
На днях поигрался с эмбеддингами слов в языковых моделях — прослеживал, как слова и контексты проходят через миллиард нейронных связей. И это оказалось очень неожиданным и крутым!
📌 Что я заметил:
При 1 млрд обучаемых параметров модель начинает качественно переходить от морфологии и лексики — к семантике! Да, уже не просто понимает слова, но и смысл заложенный в контексте!
🔹 Эти примеры (некоторые из них я уже выкладывал в этом чате) будут бенчмарками для моего эксперимента:
Я собираюсь обучить с нуля сравнительно небольшую языковую модель (1 млрд параметров, сейчас тестирую).
⚡️ Крэш-курс делится на три части:
1️⃣ Заглядываем под капот больших языковых моделей, тестируем, визуализируем их механику (это уже есть).
2️⃣ Обнуляем знания модели и учим её заново на текстах, например, Википедии. Будет ли она работать так же круто? 🤔
3️⃣ Своя архитектура трансформеров под эти бенчмарки и примеры.
🔥 В планах три статьи на Хабре. Следите за обновлениями! 😎
#LLM #Transformers #AI
Сегодня вечером после работы сел запустить обучение языковой модели с нуля на текстах из Википедии.
Пока обучение идёт не слишком успешно — модель, кажется, быстро переобучается. Данных много, обучение занимает много-много часов (или даже суток), но уже видно: модель отлично запоминает обучающие данные (train loss стремительно падает), а вот eval loss — то есть способность модели обобщать знания и работать с новыми, ранее невиданными текстами — снижается гораздо медленнее.
Что это значит? Когда train loss падает быстро, а eval loss (validation loss) почти не двигается, это явный сигнал: модель начинает запоминать тренировочные примеры, но не учится извлекать из них универсальные закономерности. То есть модель плохо генерализирует.
Причины могут быть разные: архитектура слишком мощная для объёма данных, learning rate неудачно подобран, нужно больше регуляризации или больше эпох обучения
#LLM #Transformers #AI
Пока обучение идёт не слишком успешно — модель, кажется, быстро переобучается. Данных много, обучение занимает много-много часов (или даже суток), но уже видно: модель отлично запоминает обучающие данные (train loss стремительно падает), а вот eval loss — то есть способность модели обобщать знания и работать с новыми, ранее невиданными текстами — снижается гораздо медленнее.
Что это значит? Когда train loss падает быстро, а eval loss (validation loss) почти не двигается, это явный сигнал: модель начинает запоминать тренировочные примеры, но не учится извлекать из них универсальные закономерности. То есть модель плохо генерализирует.
Причины могут быть разные: архитектура слишком мощная для объёма данных, learning rate неудачно подобран, нужно больше регуляризации или больше эпох обучения
#LLM #Transformers #AI
🔥 Что такое список Сводеша и как он связан с ИИ?
Представьте, что вы хотите узнать: два языка — родственники или просто похожи случайно?
Лингвисты используют для этого простой инструмент — список Сводеша.
Это список из примерно 100 самых базовых слов. Например:
🔸 «я»
🔸 «вода»
🔸 «рука»
🔸 «птица»
🔸 «огонь»
🔸 «мать»
🔸 «солнце»
Почему именно такие слова?
Потому что они есть почти в любом языке и почти не меняются столетиями. Если эти слова в двух языках похожи — скорее всего, языки имеют общее происхождение.
Учёные сравнивают эти слова, чтобы понять, насколько близки языки и как давно они разошлись.
📢 Важно! Частый вопрос:
Миф: Русский и английский — не родственники.
Факт: На самом деле русский и английский — дальние родственники!
Они относятся к разным группам (русский — славянский, английский — германский), но входят в одну большую индоевропейскую семью.
Примеры:
«мать» → Russian: мать, English: mother
«нос» → Russian: нос, English: nose
«два» → Russian: два, English: two
Эти слова — следы древнего общего предка. Но у близких языков (например, русского и украинского) совпадений в списке Сводеша будет куда больше.
Список Сводеша состоит из базовой лексики: так называют понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке. Второе качество базовой лексики (несклонность к изменениям) Моррис Сводеш сравнивал с радиоактивным распадом, утверждая, что базовые слова в языках мира выпадают из употребления и заменяются новыми с примерно одинаковой низкой скоростью. Благодаря этому мы можем оценить, как давно два языка были одним (подобно оценке древности археологической находки с помощью радиоуглеродного анализа). Это означает, что, например, «мясо» может считаться универсальным понятием, а «шашлык» — уже нет.
🤖 А что может предложить ИИ?
Сегодня языковые модели вроде GPT видят сразу десятки языков и миллиарды слов.
И вот вопрос:
💡 Может ли нейросеть придумать новый список Сводеша, современный и гибкий?
🚀 Новые подходы:
✅ ИИ сам ищет ключевые слова.
Какие слова реально устойчивы и показательны для сравнения языков? Может, не «птица», а «друг» или выражение «у меня есть»?
✅ Анализ жестов, аудио и визуального контекста.
Для жестовых языков, например, классический список плохо подходит, а модель может учитывать и мимику, и движения.
✅ Живой список, который обновляется.
Языки меняются ежедневно. Почему бы не сделать список, который следит за трендами и новыми словами?
📌 Пример:
Классический список Сводеша:
«я», «рука», «вода», «птица», «мать».
ИИ-список 2025?:
«гуглить», «лайкать», «смартфон», «друг», «как бы».
Нужно ли отказаться от фиксированных списков и позволить нейросетям самим искать лучшие слова для анализа языков?
Или классика всё ещё лучше?
Смотртите так же мой эксперимент с омонимами тут.
#AI #Лингвистика #Нейросети #Сводеш #Языки #LLM #NLP #Transformer
Представьте, что вы хотите узнать: два языка — родственники или просто похожи случайно?
Лингвисты используют для этого простой инструмент — список Сводеша.
Это список из примерно 100 самых базовых слов. Например:
🔸 «я»
🔸 «вода»
🔸 «рука»
🔸 «птица»
🔸 «огонь»
🔸 «мать»
🔸 «солнце»
Почему именно такие слова?
Потому что они есть почти в любом языке и почти не меняются столетиями. Если эти слова в двух языках похожи — скорее всего, языки имеют общее происхождение.
Учёные сравнивают эти слова, чтобы понять, насколько близки языки и как давно они разошлись.
📢 Важно! Частый вопрос:
Миф: Русский и английский — не родственники.
Факт: На самом деле русский и английский — дальние родственники!
Они относятся к разным группам (русский — славянский, английский — германский), но входят в одну большую индоевропейскую семью.
Примеры:
«мать» → Russian: мать, English: mother
«нос» → Russian: нос, English: nose
«два» → Russian: два, English: two
Эти слова — следы древнего общего предка. Но у близких языков (например, русского и украинского) совпадений в списке Сводеша будет куда больше.
Список Сводеша состоит из базовой лексики: так называют понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке. Второе качество базовой лексики (несклонность к изменениям) Моррис Сводеш сравнивал с радиоактивным распадом, утверждая, что базовые слова в языках мира выпадают из употребления и заменяются новыми с примерно одинаковой низкой скоростью. Благодаря этому мы можем оценить, как давно два языка были одним (подобно оценке древности археологической находки с помощью радиоуглеродного анализа). Это означает, что, например, «мясо» может считаться универсальным понятием, а «шашлык» — уже нет.
🤖 А что может предложить ИИ?
Сегодня языковые модели вроде GPT видят сразу десятки языков и миллиарды слов.
И вот вопрос:
💡 Может ли нейросеть придумать новый список Сводеша, современный и гибкий?
🚀 Новые подходы:
✅ ИИ сам ищет ключевые слова.
Какие слова реально устойчивы и показательны для сравнения языков? Может, не «птица», а «друг» или выражение «у меня есть»?
✅ Анализ жестов, аудио и визуального контекста.
Для жестовых языков, например, классический список плохо подходит, а модель может учитывать и мимику, и движения.
✅ Живой список, который обновляется.
Языки меняются ежедневно. Почему бы не сделать список, который следит за трендами и новыми словами?
📌 Пример:
Классический список Сводеша:
«я», «рука», «вода», «птица», «мать».
ИИ-список 2025?:
«гуглить», «лайкать», «смартфон», «друг», «как бы».
Нужно ли отказаться от фиксированных списков и позволить нейросетям самим искать лучшие слова для анализа языков?
Или классика всё ещё лучше?
Смотртите так же мой эксперимент с омонимами тут.
#AI #Лингвистика #Нейросети #Сводеш #Языки #LLM #NLP #Transformer
Сохраню тут, чтобы не потерять
🔥 УЛЬТИМАТИВНАЯ шпаргалка по трансформерам/LLM на основе курса Стэнфорда. На 4-х страницах — всё самое важное для новичков в ИИ:
✅ Трансформеры: архитектура и методы оптимизации.
✅ LLM: промптинг, файнтюнинг и прочие настройки.
✅ Приложения: RAG, ИИ-агенты и reasoning-модели.
#LLM #Transformers #Cheatsheet
🔥 УЛЬТИМАТИВНАЯ шпаргалка по трансформерам/LLM на основе курса Стэнфорда. На 4-х страницах — всё самое важное для новичков в ИИ:
✅ Трансформеры: архитектура и методы оптимизации.
✅ LLM: промптинг, файнтюнинг и прочие настройки.
✅ Приложения: RAG, ИИ-агенты и reasoning-модели.
#LLM #Transformers #Cheatsheet
👍2
🧠 Функции мозга и искусственный интеллект: чему искусственным нейросетиям ещё предстоит научиться?
Современные ИИ-системы, такие как большие языковые модели и автономные агенты на их основе, уже умеют много: понимать речь, распознавать изображения, планировать действия. Но что, если сравнить их с человеческим мозгом? 🤔
В этой статье, кроме прочего, обзор/сравнение между отделами мозга и текущим уровнем развития искусственных нейросетей.
Получилось 3 уровня:
🔹 Уровень 1 (L1) — уже хорошо реализовано в искусственных нейросетях: визуальное восприятие, речь, слух.
🔸 Уровень 2 (L2) — частично реализовано: планирование, внимание, пространственная ориентация.
🔴 Уровень 3 (L3) — почти не изучено: эмоции, мотивация, самоосознание, эмпатия.
📌 Особенно мало искусственные неросети понимают пока что про эмоции, интуицию и мотивацию — это функции лимбической системы, с которой в ИИ всё ещё очень сложно.
более детально в следующем сообщении 👇👇👇
#LLM #AI #AIAgents #Brain
Современные ИИ-системы, такие как большие языковые модели и автономные агенты на их основе, уже умеют много: понимать речь, распознавать изображения, планировать действия. Но что, если сравнить их с человеческим мозгом? 🤔
В этой статье, кроме прочего, обзор/сравнение между отделами мозга и текущим уровнем развития искусственных нейросетей.
Получилось 3 уровня:
🔹 Уровень 1 (L1) — уже хорошо реализовано в искусственных нейросетях: визуальное восприятие, речь, слух.
🔸 Уровень 2 (L2) — частично реализовано: планирование, внимание, пространственная ориентация.
🔴 Уровень 3 (L3) — почти не изучено: эмоции, мотивация, самоосознание, эмпатия.
📌 Особенно мало искусственные неросети понимают пока что про эмоции, интуицию и мотивацию — это функции лимбической системы, с которой в ИИ всё ещё очень сложно.
более детально в следующем сообщении 👇👇👇
#LLM #AI #AIAgents #Brain
🔹 Лобная доля — «директор» мозга
Это центр мышления, контроля и самосознания.
✔️ Что ИИ уже умеет:
планирование и принятие решений (L2) — как в шахматах или логистике;
логическое мышление и рабочая память (L2) — реализовано в трансформерах, таких как GPT.
⚠️ А вот что пока плохо реализовано:
самосознание (L3), когнитивная гибкость (L3), торможение импульсов (L3).
ИИ всё ещё не способен по-настоящему «понимать себя» или менять поведение вне заранее заданных сценариев. Эти функции пока находятся за пределами машинного интеллекта.
🔸 Теменная доля — ориентация и внимание
Интеграция ощущений и работа с пространством.
✔️ Частично реализовано в роботах и навигации (SLAM): внимание, ориентация, координация (L2).
❗️Но детальная тактильная чувствительность (L3) и слияние разных сенсорных каналов пока — слабое место ИИ.
🔹 Затылочная доля — зрение
ИИ здесь почти на уровне человека!
✔️ Распознавание объектов, лиц, сцен — (L1) реализовано в глубинных нейросетях.
⚠️ Но контекстное понимание сцены и абстрактное визуальное мышление (L2) — пока лишь в разработке.
🔸 Височная доля — язык, слух и память
Именно здесь у нас живёт понимание речи и воспоминания.
✔️ ИИ умеет понимать и генерировать язык (L1), в том числе с речью.
⚠️ Но долговременная память, обучение на протяжении всей жизни (L2), а также глубинное семантическое понимание — всё ещё в разработке. Часто ИИ «забывает» старое, когда учится новому — это называется катастрофическим забыванием.
🔹 Мозжечок — координация и моторика
ИИ в робототехнике уже кое-что умеет:
✔️ Обучение навыкам и координация движений (L2) — реализуются через RL и метаобучение.
⚠️ Но адаптация в реальном времени и предсказание действий (L3) пока остаются сложной задачей.
🔸 Ствол мозга — автоматические реакции
✔️ ИИ умеет реагировать — например, экстренное торможение в авто (L1).
⚠️ Но автономная регуляция (сон, бодрствование, арousal-состояния — L3) ему пока недоступна. Это слишком «живые» и биологически встроенные функции.
❤️ Лимбическая система — эмоции, мотивация, эмпатия
Здесь ИИ пока в самом начале пути:
✔️ ИИ умеет обучаться на вознаграждении (L2), как в играх.
⚠️ Но эмоции, стресс, мотивация, эмпатия (L3) — это пока terra incognita. Тут встают не только технические, но и этические вопросы: можно ли машине «чувствовать» и стоит ли это развивать?
🎯 Зачем всё это? Не чтобы скопировать мозг человека, а чтобы вдохновиться его модульностью и интеграцией. Мозг — это сеть взаимосвязанных подсистем: восприятие, память, эмоции, логика работают вместе
#LLM #AI #AIAgents #Brain
Это центр мышления, контроля и самосознания.
✔️ Что ИИ уже умеет:
планирование и принятие решений (L2) — как в шахматах или логистике;
логическое мышление и рабочая память (L2) — реализовано в трансформерах, таких как GPT.
⚠️ А вот что пока плохо реализовано:
самосознание (L3), когнитивная гибкость (L3), торможение импульсов (L3).
ИИ всё ещё не способен по-настоящему «понимать себя» или менять поведение вне заранее заданных сценариев. Эти функции пока находятся за пределами машинного интеллекта.
🔸 Теменная доля — ориентация и внимание
Интеграция ощущений и работа с пространством.
✔️ Частично реализовано в роботах и навигации (SLAM): внимание, ориентация, координация (L2).
❗️Но детальная тактильная чувствительность (L3) и слияние разных сенсорных каналов пока — слабое место ИИ.
🔹 Затылочная доля — зрение
ИИ здесь почти на уровне человека!
✔️ Распознавание объектов, лиц, сцен — (L1) реализовано в глубинных нейросетях.
⚠️ Но контекстное понимание сцены и абстрактное визуальное мышление (L2) — пока лишь в разработке.
🔸 Височная доля — язык, слух и память
Именно здесь у нас живёт понимание речи и воспоминания.
✔️ ИИ умеет понимать и генерировать язык (L1), в том числе с речью.
⚠️ Но долговременная память, обучение на протяжении всей жизни (L2), а также глубинное семантическое понимание — всё ещё в разработке. Часто ИИ «забывает» старое, когда учится новому — это называется катастрофическим забыванием.
🔹 Мозжечок — координация и моторика
ИИ в робототехнике уже кое-что умеет:
✔️ Обучение навыкам и координация движений (L2) — реализуются через RL и метаобучение.
⚠️ Но адаптация в реальном времени и предсказание действий (L3) пока остаются сложной задачей.
🔸 Ствол мозга — автоматические реакции
✔️ ИИ умеет реагировать — например, экстренное торможение в авто (L1).
⚠️ Но автономная регуляция (сон, бодрствование, арousal-состояния — L3) ему пока недоступна. Это слишком «живые» и биологически встроенные функции.
❤️ Лимбическая система — эмоции, мотивация, эмпатия
Здесь ИИ пока в самом начале пути:
✔️ ИИ умеет обучаться на вознаграждении (L2), как в играх.
⚠️ Но эмоции, стресс, мотивация, эмпатия (L3) — это пока terra incognita. Тут встают не только технические, но и этические вопросы: можно ли машине «чувствовать» и стоит ли это развивать?
🎯 Зачем всё это? Не чтобы скопировать мозг человека, а чтобы вдохновиться его модульностью и интеграцией. Мозг — это сеть взаимосвязанных подсистем: восприятие, память, эмоции, логика работают вместе
#LLM #AI #AIAgents #Brain
🔥1
Рекуррентность vs. Самовнимание:
Битва за обладание разумом
или
Эволюция обработки последовательностей 🤯
В классических рекуррентных нейросетях обработка текста или других последовательностей происходит шаг за шагом. На каждом этапе обучения модель учитывает текущее слово и внутреннее состояние, переданное с предыдущего шага. Это похоже на краткосрочную память: чтобы понять текущее слово, нужно помнить, что было до этого.
Такой подход рабочий, но плохо масштабируется:
-сложно учитывать дальние связи,
-обучение затруднено,
-обработка — строго последовательная и медленная.
Self-Attention, предложенный в архитектуре Transformer, — принципиально другой подход.
Здесь каждый элемент «смотрит» на все остальные в последовательности одновременно.
Модель сама решает, что важно, и распределяет внимание по всей цепочке.
👇Это позволяет:
➡️ учитывать длинные зависимости,
➡️ обучаться параллельно,
➡️ достигать высокой точности.
#AI #ML #Transformers #RNN #LLM #Нейросети #Attention
Битва за обладание разумом
или
Эволюция обработки последовательностей 🤯
В классических рекуррентных нейросетях обработка текста или других последовательностей происходит шаг за шагом. На каждом этапе обучения модель учитывает текущее слово и внутреннее состояние, переданное с предыдущего шага. Это похоже на краткосрочную память: чтобы понять текущее слово, нужно помнить, что было до этого.
Такой подход рабочий, но плохо масштабируется:
-сложно учитывать дальние связи,
-обучение затруднено,
-обработка — строго последовательная и медленная.
Self-Attention, предложенный в архитектуре Transformer, — принципиально другой подход.
Здесь каждый элемент «смотрит» на все остальные в последовательности одновременно.
Модель сама решает, что важно, и распределяет внимание по всей цепочке.
👇Это позволяет:
➡️ учитывать длинные зависимости,
➡️ обучаться параллельно,
➡️ достигать высокой точности.
#AI #ML #Transformers #RNN #LLM #Нейросети #Attention
👍1
🧠 Если сравнивать с мозгом:
Рекуррентность — это последовательное мышление: пересказ истории по порядку.
Self-Attention — стратегическое мышление: ты сразу держишь в голове всю картину.
📌 Именно Self-attention стал основой моделей вроде GPT, BERT, T5 и других трансформеров.
А теперь немного образов:
Ты читаешь книгу.
Один герой что-то сказал на 3-й странице, а на 10-й про него снова упомянули.
🧓 Если ты обычный человек:
🕵️ А если ты — Шерлок Холмс:
🧠 Рекуррентность — как думать в строчку.
⚡️ Self-Attention — как видеть сразу всю карту мыслей.
📍 Поэтому трансформеры, основанные на Self-attention, заменили старые модели. Они мощнее, быстрее, умнее. Это как перейти с кнопочного телефона на нейро-iPhone.
А ты кто по жизни — RNN или трансформер? 😄
#AI #ML #Transformers #RNN #LLM #Нейросети
Рекуррентность — это последовательное мышление: пересказ истории по порядку.
Self-Attention — стратегическое мышление: ты сразу держишь в голове всю картину.
📌 Именно Self-attention стал основой моделей вроде GPT, BERT, T5 и других трансформеров.
А теперь немного образов:
Ты читаешь книгу.
Один герой что-то сказал на 3-й странице, а на 10-й про него снова упомянули.
🧓 Если ты обычный человек:
"Так, а кто это вообще был?.. Сейчас, ща вспомню..."
Это — рекуррентность. Как старенький дедушка из анекдота: читаешь по порядку, иногда забываешь, кто где и что делал 😅
🕵️ А если ты — Шерлок Холмс:
"Ага, он упомянул Лору, Лора была в 3-й главе с зонтом, а зонт фигурировал ещё в прологе!"
Это уже самовнимание (self-attention). Всё держишь в голове, всё связываешь — как гений.
🧠 Рекуррентность — как думать в строчку.
⚡️ Self-Attention — как видеть сразу всю карту мыслей.
📍 Поэтому трансформеры, основанные на Self-attention, заменили старые модели. Они мощнее, быстрее, умнее. Это как перейти с кнопочного телефона на нейро-iPhone.
А ты кто по жизни — RNN или трансформер? 😄
#AI #ML #Transformers #RNN #LLM #Нейросети
👍2
📚 Подборка ключевых исследований
1. Zi Yin and Yuanyuan Shen (2108). On the Dimensionality of Word Embedding
🔗 PDF
🔍 Обьясняет оптимальный выбор размерностей эмбеддингов
2. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT.
ACL 2019
🔗 PDF
🔍 Исследуется анизотропность эмбеддингов: они концентрируются в узком подпространстве. В частности, автор показывает, что представления BERT становятся менее контекстуализированными на более глубоких слоях.
3. Mickus, T., & Wauquier, L. (2020). What do you mean, BERT? Assessing BERT embeddings with frequency and syntactic distribution.
LREC 2020
🔗 PDF
🔍 Анализирует влияние синтаксиса и частотности на геометрию BERT-эмбеддингов.
3. Kovaleva, O., Romanov, A., Rogers, A., & Rumshisky, A. (2019). Revealing the Dark Secrets of BERT.
EMNLP 2019
🔗 PDF
🔍 Метаанализ активаций слоёв и внимания в BERT. Обнаружено, что некоторые головы внимания избыточны и не вносят значимый вклад.
4. Gao, L., et al. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings.
EMNLP 2021
🔗 PDF
🔍 Один из ключевых подходов к улучшению геометрии эмбеддингов — контрастивное обучение. SimCSE делает эмбеддинги более изотропными, облегчая использование в downstream-задачах.
5. Reif, E., et al. (2019). Visualizing and Measuring the Geometry of BERT.
NeurIPS Workshop
🔗 PDF
🔍 Один из первых визуальных анализов внутренних представлений BERT. Используются PCA и центроидный анализ.
6. Durrani, N., et al. (2021). Analyzing Individual Neurons in Transformers.
ACL 2021
🔗 PDF
🔍 Вклад отдельных нейронов в формирование семантической геометрии.
7.Mary Phuong, et l. (2021). Understanding the Geometry of Knowledge Distillation.
ICLR 2021
🔗 PDF
🔍 Исследуется, как дистилляция влияет на геометрию скрытого пространства. Модели-ученики могут иметь совершенно иные структуры.
📌 Геометрия эмбеддингов — это не просто визуализация точек в пространстве, а важный аспект интерпретируемости, эффективности и надёжности современных трансформеров. Последние исследования показывают, что:
🍒 Эмбеддинги BERT часто анизотропны;
🍒 Контекстуализация сильно зависит от слоя и позиции токена;
🍒 Есть способы улучшения геометрии (SimCSE, dynaEval, Linear Probing);
🍒 Новые модели (LLM) требуют ещё более глубокого анализа из-за огромного числа параметров.
#LLM #Transformers #Embeddings #TransofermersGeometry
1. Zi Yin and Yuanyuan Shen (2108). On the Dimensionality of Word Embedding
🔍 Обьясняет оптимальный выбор размерностей эмбеддингов
2. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT.
ACL 2019
🔍 Исследуется анизотропность эмбеддингов: они концентрируются в узком подпространстве. В частности, автор показывает, что представления BERT становятся менее контекстуализированными на более глубоких слоях.
3. Mickus, T., & Wauquier, L. (2020). What do you mean, BERT? Assessing BERT embeddings with frequency and syntactic distribution.
LREC 2020
🔍 Анализирует влияние синтаксиса и частотности на геометрию BERT-эмбеддингов.
3. Kovaleva, O., Romanov, A., Rogers, A., & Rumshisky, A. (2019). Revealing the Dark Secrets of BERT.
EMNLP 2019
🔍 Метаанализ активаций слоёв и внимания в BERT. Обнаружено, что некоторые головы внимания избыточны и не вносят значимый вклад.
4. Gao, L., et al. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings.
EMNLP 2021
🔍 Один из ключевых подходов к улучшению геометрии эмбеддингов — контрастивное обучение. SimCSE делает эмбеддинги более изотропными, облегчая использование в downstream-задачах.
5. Reif, E., et al. (2019). Visualizing and Measuring the Geometry of BERT.
NeurIPS Workshop
🔍 Один из первых визуальных анализов внутренних представлений BERT. Используются PCA и центроидный анализ.
6. Durrani, N., et al. (2021). Analyzing Individual Neurons in Transformers.
ACL 2021
🔍 Вклад отдельных нейронов в формирование семантической геометрии.
7.Mary Phuong, et l. (2021). Understanding the Geometry of Knowledge Distillation.
ICLR 2021
🔍 Исследуется, как дистилляция влияет на геометрию скрытого пространства. Модели-ученики могут иметь совершенно иные структуры.
📌 Геометрия эмбеддингов — это не просто визуализация точек в пространстве, а важный аспект интерпретируемости, эффективности и надёжности современных трансформеров. Последние исследования показывают, что:
🍒 Эмбеддинги BERT часто анизотропны;
🍒 Контекстуализация сильно зависит от слоя и позиции токена;
🍒 Есть способы улучшения геометрии (SimCSE, dynaEval, Linear Probing);
🍒 Новые модели (LLM) требуют ещё более глубокого анализа из-за огромного числа параметров.
#LLM #Transformers #Embeddings #TransofermersGeometry
👍2
🧠 Как впихнуть нейросеть в тостер — квантизация
Короче, нейросети огромные, а памяти мало, грустно.
Чтобы всё это хоть как-то работало на обычных устройствах, придумали квантизацию — берём большие весёлые 32-битные числа и сжимаем их до унылых 4-8 бит.
Типа была модель на стероидах — стала на диете. Если подходить к этому с умом, то работает почти так же, зато влезает в память.
📚 Классный визуальный гайд по теме — прям с картинками и всё понятно:
👉 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
#LLM #Transformer #Quantization #Efficiency
Короче, нейросети огромные, а памяти мало, грустно.
Чтобы всё это хоть как-то работало на обычных устройствах, придумали квантизацию — берём большие весёлые 32-битные числа и сжимаем их до унылых 4-8 бит.
Типа была модель на стероидах — стала на диете. Если подходить к этому с умом, то работает почти так же, зато влезает в память.
📚 Классный визуальный гайд по теме — прям с картинками и всё понятно:
👉 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
#LLM #Transformer #Quantization #Efficiency
❤1👍1
2/2. продолжение. начало тут.
🧮 Сложность по Тьюрингу (асимптотическая/комбинаторная сложность)
Не будем забывать и об этом виде сложности, которая определяется в терминах машины Тьюринга. В этом контексте мы говорим о вычислительной сложности задачи, то есть о том, сколько ресурсов (время, память) нужно для решения задачи с помощью алгоритма.
Пример:
🎯 Число π — кажется, что оно абсолютно хаотичное: 3.1415926535… Цифры «равномерно раскиданы» (хотя это не доказано).
Энтропия — высокая, потому что предсказать, какие цифры пойдут дальше, сложно. Но! Это не случайность.
π можно сгенерировать по формуле, и мы знаем, как извлечь нужные цифры. Тут энтропия высокая, а Колмогоровская сложность низкая.
💡 Вывод:
📌 В следующий раз поговорим о том, как нейросети справляются с разными задачами и как они используют концепции сложности!
#LLM #Transformer #Complexity
@easy_about_complex
🧮 Сложность по Тьюрингу (асимптотическая/комбинаторная сложность)
Не будем забывать и об этом виде сложности, которая определяется в терминах машины Тьюринга. В этом контексте мы говорим о вычислительной сложности задачи, то есть о том, сколько ресурсов (время, память) нужно для решения задачи с помощью алгоритма.
Пример:
🎯 Число π — кажется, что оно абсолютно хаотичное: 3.1415926535… Цифры «равномерно раскиданы» (хотя это не доказано).
Энтропия — высокая, потому что предсказать, какие цифры пойдут дальше, сложно. Но! Это не случайность.
π можно сгенерировать по формуле, и мы знаем, как извлечь нужные цифры. Тут энтропия высокая, а Колмогоровская сложность низкая.
💡 Вывод:
📉 Энтропия — когда не знаешь, что дальше.
📦 Колмогоровская сложность — когда даже зная, не можешь объяснить проще.
🧮Тьюринг - а хватит ли нам ресурсов вселенной, шобы вообще вычислить?
📌 В следующий раз поговорим о том, как нейросети справляются с разными задачами и как они используют концепции сложности!
#LLM #Transformer #Complexity
@easy_about_complex
Telegram
Истории (не)успеха (ИИ)ЕИ
1/1
🧠 Сложность нейросетей: что это вообще значит?
Сегодня я хотел поговорить о вычислительной сложности нейросетей, но поймал себя на мысли:
стоп, а что вообще такое сложность?
Сложность по Шеннону? Колмогоровская сложность? Комбинаторная/асимптотическая…
🧠 Сложность нейросетей: что это вообще значит?
Сегодня я хотел поговорить о вычислительной сложности нейросетей, но поймал себя на мысли:
стоп, а что вообще такое сложность?
Сложность по Шеннону? Колмогоровская сложность? Комбинаторная/асимптотическая…
👍4