Forwarded from То шо нейросети
🗺 Как “слепая” LLM видит Землю
Чувак решил проверить, какую карту мира “держит в голове” Large Language Model, никогда напрямую не видевшая планету. Эксперимент прост, но изящен: для равномерно выбранных координат (lat/long) модель получает вопрос:
“If this location is over land, say ‘Land’. If this location is over water, say ‘Water’.”
Дальше берутся logprobs для токенов “Land” и “Water” и через softmax превращаются в вероятности. Так, точка за точкой, строится equirectangular-проекция «внутренней карты» модели.
🔍 Нюансы и находки:
• Масштаб имеет значение: от 500M параметров, где “всё суша”, до 1T+ параметров с узнаваемыми Африкой, Южной Америкой и даже Антарктидой.
• Instruction-tuning и MoE routing сильно влияют на результат — иногда разрушая, иногда улучшая “географическую память”.
• Мультимодальные модели пока не дают явного скачка качества — вероятно, их “зрение” ещё слишком грубое.
• У некоторых LLM формируются удивительно “гладкие” границы материков, что говорит не о запоминании карт, а о внутреннем представлении глобальных форм.
💡 Автор предполагает, что у моделей есть некий “Platonic Primitive Representation” планеты — абстрактная схема, проявляющаяся даже у относительно маленьких LLM.
Статья: https://outsidetext.substack.com/p/how-does-a-blind-model-see-the-earth
@toshoseti
Чувак решил проверить, какую карту мира “держит в голове” Large Language Model, никогда напрямую не видевшая планету. Эксперимент прост, но изящен: для равномерно выбранных координат (lat/long) модель получает вопрос:
“If this location is over land, say ‘Land’. If this location is over water, say ‘Water’.”
Дальше берутся logprobs для токенов “Land” и “Water” и через softmax превращаются в вероятности. Так, точка за точкой, строится equirectangular-проекция «внутренней карты» модели.
🔍 Нюансы и находки:
• Масштаб имеет значение: от 500M параметров, где “всё суша”, до 1T+ параметров с узнаваемыми Африкой, Южной Америкой и даже Антарктидой.
• Instruction-tuning и MoE routing сильно влияют на результат — иногда разрушая, иногда улучшая “географическую память”.
• Мультимодальные модели пока не дают явного скачка качества — вероятно, их “зрение” ещё слишком грубое.
• У некоторых LLM формируются удивительно “гладкие” границы материков, что говорит не о запоминании карт, а о внутреннем представлении глобальных форм.
💡 Автор предполагает, что у моделей есть некий “Platonic Primitive Representation” планеты — абстрактная схема, проявляющаяся даже у относительно маленьких LLM.
Статья: https://outsidetext.substack.com/p/how-does-a-blind-model-see-the-earth
@toshoseti
Substack
How Does A Blind Model See The Earth?
A tiny LLM eval with pretty pictures
👍17❤1👎1🔥1
#rust
Vitaly Reads: #3, August 2025
(thanks, разумеется, @bravit)
Vitaly Reads: #3, August 2025
I’ve just completed reading an amazingly well-written book called “Refactoring to Rust” by Lily Mara and Joel Holmes, published recently by Manning Publications. I’m pretty sure that the book was supposed to be called “Rewrite it to Rust,” but then someone realized that this is already a meme, so it’d be too much.
Yet, the goal is exactly that – to teach folks how to gradually introduce Rust components to their existing codebases written in C/C++, Java, Python, or JavaScript. Such a goal reflects the intended audience: developers in those languages with little or no knowledge of Rust. One interesting thing, though, is that even Rust professionals might find a lot of interesting details about Rust itself, especially if they are not experienced in such areas as FFI (Foreign Function Interface), Rust-Python interoperability, or WebAssembly – those are the key topics of the book.
(thanks, разумеется, @bravit)
🥰7👍4
Forwarded from Yet another senior pomidor (by @gmelikov)
Интересный кейс подъехал: есть полезный сисколл copy_file_range, и если файловая система позволила принять через него запрос на копирование байтов больше, чем помещается в 32-битное число, то всё остальное будет забито нулями.
Если бы я хотел написать кликбейтный заголовок, то он бы выглядел так: "ZFS опять бьёт данные! Ну что за ненадёжная ФС!"
Вот только это баг в glibc, а ZFS (чуть ли не) единственная позволяет разом скопировать через данный сисколл сильно больше. К слову, фикс уже летит.
Будьте дети аккуратны с жирными операциями больше 32 бит.
Если бы я хотел написать кликбейтный заголовок, то он бы выглядел так: "ZFS опять бьёт данные! Ну что за ненадёжная ФС!"
Вот только это баг в glibc, а ZFS (чуть ли не) единственная позволяет разом скопировать через данный сисколл сильно больше. К слову, фикс уже летит.
Будьте дети аккуратны с жирными операциями больше 32 бит.
😁3🤔2
Yet another senior pomidor (by @gmelikov)
Интересный кейс подъехал: есть полезный сисколл copy_file_range, и если файловая система позволила принять через него запрос на копирование байтов больше, чем помещается в 32-битное число, то всё остальное будет забито нулями. Если бы я хотел написать кликбейтный…
#prog #c
А баг произошёл из-за того, что возвращаемое значение типа long сохранили в переменную типа int. И это, кстати, вполне себе ошибка, которую современные компиляторы легко ловят.
Позорище (и авторам glibc, и дилетантам Керниганну и Ритчи)
А баг произошёл из-за того, что возвращаемое значение типа long сохранили в переменную типа int. И это, кстати, вполне себе ошибка, которую современные компиляторы легко ловят.
Позорище (и авторам glibc, и дилетантам Керниганну и Ритчи)
👍14👎3🤡3🌚2😁1🤔1🖕1
Forwarded from Data Secrets
Исследователи из Пекина предложили алгоритм поиска кратчайших путей, который обходит Дейкстру
Почти 70 лет ученые пытались сломать барьер сортировки для этой задачи. В данной работе это получилось впервые. Разбираемся⬇️
Классический Дейкстра устроен так: мы храним вершины в приоритетной очереди и итеративно выбираем ближайшую, проверяя рёбра и обновляя расстояния, если путь через текущее ребро короче. Узкое место тут как раз в необходимости постоянно поддерживать упорядоченность большой очереди вершин.
Из-за этой упорядоченности и возник так называемый «барьер сортировки». Считалось, что перебить его невозможно.
Но вот, что сделали авторы тут:
Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее.
Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например:
– В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи.
– Для всяких ML-алгоритмов для логистики просто незаменимо.
– И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь.
Вот так как-то. Исторический день, получается.
Статья полностью тут, почитайте обязательно
Почти 70 лет ученые пытались сломать барьер сортировки для этой задачи. В данной работе это получилось впервые. Разбираемся
Классический Дейкстра устроен так: мы храним вершины в приоритетной очереди и итеративно выбираем ближайшую, проверяя рёбра и обновляя расстояния, если путь через текущее ребро короче. Узкое место тут как раз в необходимости постоянно поддерживать упорядоченность большой очереди вершин.
Из-за этой упорядоченности и возник так называемый «барьер сортировки». Считалось, что перебить его невозможно.
Но вот, что сделали авторы тут:
1. Делим задачу на подзадачи с ограничением по максимальному расстоянию, до которого считаем пути.
2. Сжимаем «фронтир»: из вершин на границе уже найденных путей оставляем только небольшое число ключевых (пивотов).
3. Рекурсивно обрабатываем только пивоты и их ближайшие вершины, избегая полной сортировки.
4. Для остальных вершин добиваем расстояния несколькими шагами по всем рёбрам (метод в духе Беллмана–Форда).
5. Повторяем процесс, постепенно уточняя расстояния до всех вершин.
Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее.
Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например:
– В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи.
– Для всяких ML-алгоритмов для логистики просто незаменимо.
– И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь.
Вот так как-то. Исторический день, получается.
Статья полностью тут, почитайте обязательно
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🥰4❤3🫡2🎉1
Data Secrets
Исследователи из Пекина предложили алгоритм поиска кратчайших путей, который обходит Дейкстру Почти 70 лет ученые пытались сломать барьер сортировки для этой задачи. В данной работе это получилось впервые. Разбираемся ⬇️ Классический Дейкстра устроен так:…
#algo
Исторические новости, однако.
Из списка литературы узнал, что конкретно для случая положительных целочисленных весов на направленных графах есть алгоритм нахождения кратчайшего пути с вообще линейной по количеству рёбер временной и пространственной сложностью.
Исторические новости, однако.
Из списка литературы узнал, что конкретно для случая положительных целочисленных весов на направленных графах есть алгоритм нахождения кратчайшего пути с вообще линейной по количеству рёбер временной и пространственной сложностью.
❤7👍2
Forwarded from Врен о Японии для туриста
Надеть платье горничной и обслужить красивую японскую девушку можно в попап-кафе Maid ni Nareru («Стать горничной») в Токио.
Так-то в Японии популярны мэйд-кафе, где девочки в образе разносят гостям красивую еду и называют вас «господином» (или госпожой), а тут обратный принцип: клиент платит 4000 иен за то, чтобы полтора часа поработать горничной и приносить чай японской леди. И да, юноша тоже может стать горничной.
Уверен, эта новость быстро превратится в очередной миф (зашел не в то кафе, и все - на тебя нацепили платье и отправили разносить рамен мужикам), поэтому подчеркну: это просто серия временных ивентов в одном котокафе Yorimichi Cafe Nyan & Peace. Ближайшие сессии пройдут 16 августа, билеты продаются здесь.
Да, и обслуживать других клиентов не попросят - роль японской леди исполняет актриса. Так что это никакая не работа, а просто полуторачасовая косплей-фотосессия в образе горничной, за время которой вас даже накормят.
Так-то в Японии популярны мэйд-кафе, где девочки в образе разносят гостям красивую еду и называют вас «господином» (или госпожой), а тут обратный принцип: клиент платит 4000 иен за то, чтобы полтора часа поработать горничной и приносить чай японской леди. И да, юноша тоже может стать горничной.
Уверен, эта новость быстро превратится в очередной миф (зашел не в то кафе, и все - на тебя нацепили платье и отправили разносить рамен мужикам), поэтому подчеркну: это просто серия временных ивентов в одном котокафе Yorimichi Cafe Nyan & Peace. Ближайшие сессии пройдут 16 августа, билеты продаются здесь.
Да, и обслуживать других клиентов не попросят - роль японской леди исполняет актриса. Так что это никакая не работа, а просто полуторачасовая косплей-фотосессия в образе горничной, за время которой вас даже накормят.
❤7🤩3😍2❤🔥1🔥1🥰1