Истории (не)успеха (ИИ)ЕИ
417 subscribers
158 photos
87 videos
2 files
227 links
Просто о математике, нейросетях, программировании, спорте, политике, культуре. Общение, контакты, международные онлайн дискуссии/лекции в формате лайвстрим, встречи на спорт в Мюнхене.
Download Telegram
Forwarded from for all x, y, z
В Японии есть сайт, посвящённый числу Пи, доменное имя которого состоит из первых 65 цифр числа Пи:

3.141592653589793238462643383279502884197169399375105820974944592.jp

Говорят, если дождаться окончания загрузки страницы, то покажут аниме.

#математика #юмор #число_Пи
🔥 14 марта — день, когда вселенная решила пошутить!

Пишу с опозданием, но мимо пройти не могу.
14 марта я уже писал про День числа Пи — бесконечное число, которое путает умы.
Но, как оказалось, этот день намного богаче на события!

В этот день родились сразу три вселенских явления:

🧠 Альберт Эйнштейн — человек, который приручил пространство и время.

🥧 Число Пи — бесконечная головоломка для всех математиков.

😏 Саша Грей — девушка, которая оставила свой след в культуре. И тоже, кстати, внесла свой вклад в исследование человеческих границ... в своих сферах.

В общем, 14.03 — день, когда рождаются либо гении, либо бесконечные числа, либо те, кто знает, что делать с бесконечным вниманием.

👇👇👇
Сегодня вечером после работы сел запустить обучение языковой модели с нуля на текстах из Википедии.

Пока обучение идёт не слишком успешно — модель, кажется, быстро переобучается. Данных много, обучение занимает много-много часов (или даже суток), но уже видно: модель отлично запоминает обучающие данные (train loss стремительно падает), а вот eval loss — то есть способность модели обобщать знания и работать с новыми, ранее невиданными текстами — снижается гораздо медленнее.

Что это значит? Когда train loss падает быстро, а eval loss (validation loss) почти не двигается, это явный сигнал: модель начинает запоминать тренировочные примеры, но не учится извлекать из них универсальные закономерности. То есть модель плохо генерализирует.

Причины могут быть разные: архитектура слишком мощная для объёма данных, learning rate неудачно подобран, нужно больше регуляризации или больше эпох обучения

#LLM #Transformers #AI
Хотя, после 300 шагов - ещё не показатель, поглядим, что будет дальше...🤔
Для тех, кто не в теме, чем я тут занимаюсь: немного играюсь с языковыми моделями на основе нейросетей.

Принцип работы у них, на самом деле, довольно простой (и забавный): берём кучу текстов, закрываем кусочек предложения и заставляем модель угадать, что там должно быть. Потом открываем — ага, тут угадала, тут промахнулась. Модель подстраивает свои нейронные связи, чтобы в следующий раз ошибаться меньше. И так, круг за кругом, тысячу раз, миллион, миллиард... В итоге — начинает получаться всё лучше.

Что удивительно: я уже видел, как модель с 1.3 миллиарда параметров делает качественный скачок — переходит от банального угадывания морфологии и синтаксиса к пониманию смысла слов в зависимости от контекста. По сути, учится, как ребёнок, только на большом количестве текстов.

И это, на самом деле, каждый раз довольно нетривиально и немного магически выглядит.
Напоминаю, train-loss - показывает способность искуственной нейросети снижать ошибки в запоминаниеи тренировочных данных а eval-loss - способность снижать ошибки в обобщении на ранее невиданные тексты! Если две кривые ползут одинаково круто вниз, то это - круто! )
Что ещё можно увидеть в больших языковых моделях и миллиардах нейронных связей я вам расскажу на днях )
Тут прорабатываются большие данные, всей википеди и я уже немного учусь модели типа классифаеров на них обучать. Я расскажу об этом в своём ултимативном курсе по большим данным и основам программирования, но пока 👆👆👆
🏃‍♂️🏞️ Побегаем в Олимпиапарке, но без фанатизма!

Друзья из Мюнхена (и окрестностей), кто хочет размяться и встряхнуться этой весной — собираемся в это воскресенье в Олимпиапарке!

📏 Дистанция — примерно 9-10 км
📈 Перепад высоты — около 140 м (по ощущениям — чуть меньше 😄)
⏱️ Время в пути — ~1 час, но каждый бежит в своём темпе. Можно и пешком, можно и с паузами на болтовню и фоточки 📸

Формат супер-лайтовый! Это не чемпионат и не страдание, а скорее дружеская пробежка с видом на горки и весенний вайб 🌸

Буду я, коллега с работы (он обещал не ускоряться), и ещё один знакомый, который всегда знает короткие пути (но всё равно потеряемся — классика).

👉 Если интересно — пишите в комменты, договоримся о времени и точном месте встречи. Всё на расслабоне и по кайфу!

#running #sport #olympiapark #munich
Вчера прошли телефонные переговоры Трампа и Путина по Украине. Обе стороны в пресс-релизе высказались сдержанно:

- Переговоры прошли успешно, так заявили в официальном пресс-релизе обе стороны
- Сошлись на том, что РФ готова в обоюдном порядке на 30 дней прекратить удары по энергетической инфраструктуре, не вообще прекратить огонь, а только по энергообьектам
- Будет обмен 175-тью военнопленными
- Сборные США и РФ сыграют в хоккей на льду (wtf?!)
- Путин потребовал от Трампа прекращение военной помощи Украине и прекращение предоставления военных разведданных Украине
- Путин потребовал выборов в Украине, так как не считает Зеленского человеком способным вести переговоры

Напомню, что на фоне этого, речь не идет о снятии американских санкций против РФ, наоборот, предполагается, что они будут ужесточены. Так же не договорились о полном прекращении огня на 30 дней, как многие наблюдатели ожидали, лишь прекращение огня по энергетической инфраструктуре.

Что вы по этому поводу думаете?
🔥 Что такое список Сводеша и как он связан с ИИ?

Представьте, что вы хотите узнать: два языка — родственники или просто похожи случайно?

Лингвисты используют для этого простой инструмент — список Сводеша.
Это список из примерно 100 самых базовых слов. Например:

🔸 «я»
🔸 «вода»
🔸 «рука»
🔸 «птица»
🔸 «огонь»
🔸 «мать»
🔸 «солнце»

Почему именно такие слова?
Потому что они есть почти в любом языке и почти не меняются столетиями. Если эти слова в двух языках похожи — скорее всего, языки имеют общее происхождение.

Учёные сравнивают эти слова, чтобы понять, насколько близки языки и как давно они разошлись.

📢 Важно! Частый вопрос:

Миф: Русский и английский — не родственники.
Факт: На самом деле русский и английский — дальние родственники!

Они относятся к разным группам (русский — славянский, английский — германский), но входят в одну большую индоевропейскую семью.

Примеры:

«мать» → Russian: мать, English: mother

«нос» → Russian: нос, English: nose

«два» → Russian: два, English: two

Эти слова — следы древнего общего предка. Но у близких языков (например, русского и украинского) совпадений в списке Сводеша будет куда больше.

Список Сводеша состоит из базовой лексики: так называют понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке. Второе качество базовой лексики (несклонность к изменениям) Моррис Сводеш сравнивал с радиоактивным распадом, утверждая, что базовые слова в языках мира выпадают из употребления и заменяются новыми с примерно одинаковой низкой скоростью. Благодаря этому мы можем оценить, как давно два языка были одним (подобно оценке древности археологической находки с помощью радиоуглеродного анализа). Это означает, что, например, «мясо» может считаться универсальным понятием, а «шашлык» — уже нет.

🤖 А что может предложить ИИ?
Сегодня языковые модели вроде GPT видят сразу десятки языков и миллиарды слов.
И вот вопрос:

💡 Может ли нейросеть придумать новый список Сводеша, современный и гибкий?

🚀 Новые подходы:
ИИ сам ищет ключевые слова.
Какие слова реально устойчивы и показательны для сравнения языков? Может, не «птица», а «друг» или выражение «у меня есть»?

Анализ жестов, аудио и визуального контекста.
Для жестовых языков, например, классический список плохо подходит, а модель может учитывать и мимику, и движения.

Живой список, который обновляется.
Языки меняются ежедневно. Почему бы не сделать список, который следит за трендами и новыми словами?

📌 Пример:

Классический список Сводеша:
«я», «рука», «вода», «птица», «мать».

ИИ-список 2025?:
«гуглить», «лайкать», «смартфон», «друг», «как бы».

Нужно ли отказаться от фиксированных списков и позволить нейросетям самим искать лучшие слова для анализа языков?
Или классика всё ещё лучше?

Смотртите так же мой эксперимент с омонимами тут.


#AI #Лингвистика #Нейросети #Сводеш #Языки #LLM #NLP #Transformer