My monthly cost of living
🏠 1,400€ loan for the appartment
🥗 450€ food, organic only, with meat fish etc
📦 300€ average for various expenses (bars, orders, etc)
⚡160€ electricity + gaz
📱 45€ phone + internet
🚌 17€ average for transportation
🦪10000€ anthropic openclaws tokens
Total: 12,372€/month
🏠 1,400€ loan for the appartment
🥗 450€ food, organic only, with meat fish etc
📦 300€ average for various expenses (bars, orders, etc)
⚡160€ electricity + gaz
📱 45€ phone + internet
🚌 17€ average for transportation
🦪10000€ anthropic openclaws tokens
Total: 12,372€/month
2🔥140 65😭29😁16 11👍2🍓2💋2👾2😍1
О, кто-то таки затюнил квена на файлах Эпштейна
https://huggingface.co/ortegaalfredo/MechaEpstein-8000-GGUF
https://huggingface.co/ortegaalfredo/MechaEpstein-8000-GGUF
huggingface.co
ortegaalfredo/MechaEpstein-8000-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥78 47😁29🗿4💯3🌚2🍌1
Forwarded from Кофейный теоретик
Курс про мегаминкс.
Сначала фан факт: я знаком с чемпионами мира по футболу. По футболу среди человекоподобных роботов. Ну и вот, по предложению этого самого чемпиона мира по футболу, Ильи Осокина, решено сделать проект по постановке мирового рекорда по скорости сборки мегаминкса (см. рис. 1).
Мегаминкс - это перестановочный пазл, похожий на кубик Рубика, но имеющий гораздо больше состояний. У него не 6, а 12 граней (это правильный додекаэдр), и у каждой грани не 4 стороны, а 5. Для обычного кубика Рубика в 2010 году было показано, что диаметр графа состояний (самый длинный кратчайший путь между состояниями) составляет 20. Для мегаминкса есть оценка снизу в 48 и сверху в 116, но точное значение человечеству пока неизвестно. Мировой рекорд по сборке кубика Рубика 3x3 человеком составляет 2,76 секунды, а роботом - 103 миллисекунды. Это вполне объяснимо, поскольку робот может и крутить, и считать существенно быстрее. Однако для мегаминкса человеческий рекорд составляет 21,99 секунды, а рекордное время сборки роботом около 8 минут. Роботы могут быть и быстрее, и сильнее людей в отдельных задачах, но в универсальности пока отстают.
В наличии имеется робот, разработанный в Лаборатории Интеллектуальных Технологий Робототехники МФТИ. Это первый в мире робот для сборки мегаминкса, в котором обеспечивается независимое вращение всех граней.
С алгоритмом сложнее. Есть человеческий алгоритм сборки, требующий порядка 200 ходов. Но общего рецепта поиска коротких сборок (и тем более оптимальных) нет.
Теперь, куда я собственно всех приглашаю. Будет мини курс и соревнование.
Мини-курс
Формальным аппаратом для описания пазлов, подобных мегаминксу, являются группы, графы и всякие связанные штуки: графы Кэли. действия групп на графах и кое-какая наука связанная с этим. Так что теоретическая база будет изложена на мини курсе, который проведут Андроник Арутюнов, профессор ВШМ МФТИ, и Игорь Шиманогов.
В первой части курса расскажем про группы, графы и действия. Будут изучены ключевые аспекты того, как группы действуют на множествах — в частности, на графах — и как это связано с головоломками и прикладными задачами.
Определим действие группы на множестве и сразу узнаем сколькими способами можно раскрасить куб в заданное количество цветов. Потом поговорим про графы Кэли, и как это даёт наглядную геометрическую интерпретацию образующих и соотношений группы. Тут обсудим комбинаторный взгляд на алгоритмы, скорость работы и так называемое «число Бога».
В рамках второй части курса Игорь Шиманогов расскажет про классический результат вычислительной теории групп: алгоритм Шрайера-Симса. Этот алгоритм представляет интерес как один из основных способов решения произвольных перестановочных головоломок. В лекциях будет рассказана вся необходимая теория для доказательства корректности данного алгоритма. При наличии времени и желания у слушателей возможно как рассмотрение модификаций алгоритма, так и его применение к другим вопросам теории групп.
Лекциии будут проходить в очном формате, с задержкой в неделю будут выкладываться на канале Starkit Robots на youtube.
Соревнование
Мини-курс будет идти с 27 февраля в течение двух месяцев в 17:05 часов на физтехе. Аудитория будет опубликована в чате, см. ссылку в конце поста.
Для тестирования алгоритмов будет выложен в свободный доступ симулятор мегаминкса, с которым можно будет работать на Python.
В конце апреля или начале мая будет проведено оффлайн-соревнование, на котором будет определен победитель. Скорее всего, робот с этим алгоритмом будет самым быстрым в мире на тот момент.
Участвовать могут как студенты МФТИ, так и все остальные желающие. Для участия обязательно зарегистироваться в форме!
Ссылки и контакты
Форма для регистрации
Руководитель проекта: Илья Осокин tg @elijahmipt
Чат соревнования в тг: @starkitmega
Проект поддержал фонд целевого капитала.
Сначала фан факт: я знаком с чемпионами мира по футболу. По футболу среди человекоподобных роботов. Ну и вот, по предложению этого самого чемпиона мира по футболу, Ильи Осокина, решено сделать проект по постановке мирового рекорда по скорости сборки мегаминкса (см. рис. 1).
Мегаминкс - это перестановочный пазл, похожий на кубик Рубика, но имеющий гораздо больше состояний. У него не 6, а 12 граней (это правильный додекаэдр), и у каждой грани не 4 стороны, а 5. Для обычного кубика Рубика в 2010 году было показано, что диаметр графа состояний (самый длинный кратчайший путь между состояниями) составляет 20. Для мегаминкса есть оценка снизу в 48 и сверху в 116, но точное значение человечеству пока неизвестно. Мировой рекорд по сборке кубика Рубика 3x3 человеком составляет 2,76 секунды, а роботом - 103 миллисекунды. Это вполне объяснимо, поскольку робот может и крутить, и считать существенно быстрее. Однако для мегаминкса человеческий рекорд составляет 21,99 секунды, а рекордное время сборки роботом около 8 минут. Роботы могут быть и быстрее, и сильнее людей в отдельных задачах, но в универсальности пока отстают.
В наличии имеется робот, разработанный в Лаборатории Интеллектуальных Технологий Робототехники МФТИ. Это первый в мире робот для сборки мегаминкса, в котором обеспечивается независимое вращение всех граней.
С алгоритмом сложнее. Есть человеческий алгоритм сборки, требующий порядка 200 ходов. Но общего рецепта поиска коротких сборок (и тем более оптимальных) нет.
Теперь, куда я собственно всех приглашаю. Будет мини курс и соревнование.
Мини-курс
Формальным аппаратом для описания пазлов, подобных мегаминксу, являются группы, графы и всякие связанные штуки: графы Кэли. действия групп на графах и кое-какая наука связанная с этим. Так что теоретическая база будет изложена на мини курсе, который проведут Андроник Арутюнов, профессор ВШМ МФТИ, и Игорь Шиманогов.
В первой части курса расскажем про группы, графы и действия. Будут изучены ключевые аспекты того, как группы действуют на множествах — в частности, на графах — и как это связано с головоломками и прикладными задачами.
Определим действие группы на множестве и сразу узнаем сколькими способами можно раскрасить куб в заданное количество цветов. Потом поговорим про графы Кэли, и как это даёт наглядную геометрическую интерпретацию образующих и соотношений группы. Тут обсудим комбинаторный взгляд на алгоритмы, скорость работы и так называемое «число Бога».
В рамках второй части курса Игорь Шиманогов расскажет про классический результат вычислительной теории групп: алгоритм Шрайера-Симса. Этот алгоритм представляет интерес как один из основных способов решения произвольных перестановочных головоломок. В лекциях будет рассказана вся необходимая теория для доказательства корректности данного алгоритма. При наличии времени и желания у слушателей возможно как рассмотрение модификаций алгоритма, так и его применение к другим вопросам теории групп.
Лекциии будут проходить в очном формате, с задержкой в неделю будут выкладываться на канале Starkit Robots на youtube.
Соревнование
Мини-курс будет идти с 27 февраля в течение двух месяцев в 17:05 часов на физтехе. Аудитория будет опубликована в чате, см. ссылку в конце поста.
Для тестирования алгоритмов будет выложен в свободный доступ симулятор мегаминкса, с которым можно будет работать на Python.
В конце апреля или начале мая будет проведено оффлайн-соревнование, на котором будет определен победитель. Скорее всего, робот с этим алгоритмом будет самым быстрым в мире на тот момент.
Участвовать могут как студенты МФТИ, так и все остальные желающие. Для участия обязательно зарегистироваться в форме!
Ссылки и контакты
Форма для регистрации
Руководитель проекта: Илья Осокин tg @elijahmipt
Чат соревнования в тг: @starkitmega
Проект поддержал фонд целевого капитала.
🔥35 20🥱5 5🍓2
Forwarded from O
Всем привет! Выкладываем в опенсорс asr_eval - средства для оценки качества распознавания речи и построения пайплайнов (выравнивание строк, средства аннотации, диаграммы, дашборды, потоковые буферы, коллекция моделей и датасетов).
Это ранний релиз, скоро ещё выложим метрики моделей и новый размеченный датасет русскоязычной речи.
Репо: https://github.com/SibNN/asr_eval
Препринт: https://arxiv.org/abs/2601.20992
Это ранний релиз, скоро ещё выложим метрики моделей и новый размеченный датасет русскоязычной речи.
Репо: https://github.com/SibNN/asr_eval
Препринт: https://arxiv.org/abs/2601.20992
🔥51🥴6👍3💋1
Forwarded from Марков цепи пропил
Можно ли построить детерминированную систему на базе LLM
Последние несколько дней аутирую над этой темой, потому что периодически натыкаюсь на эксперименты, где люди пытаются заставить сетку что-нибудь дизассемблировать, перегонять разные форматы данных к одному типу и т.п. Поэтому у меня возник вопрос: насколько подобные проекты применимы в продакшене? Ведь если алгоритм выдает разные результаты на один и тот же набор данных, это может породить непредсказуемое поведение для всей системы. Кажется, будто ответ лежит на поверхности - ставишь temperature=0 и greedy decoding всегда берет один и тот же наиболее вероятный токен. Но на деле это работает не совсем так.
Чтобы понять почему, нужно взять во внимание одно фундаментальное свойство чисел с плавающей точкой - неассоциативность. В математике (a + b) + c = a + (b + c), но когда дело начинает касаться float, на сцену выходит стандарт IEEE 754. Float хранит фиксированное количество значимых цифр, и когда складываете числа с очень разными масштабами, хвост отбрасывается:
Ниже приведу несколько статей, которые отталкиваются от этого свойства, но подсвечивают разные причины и варианты решений:
1) Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [ссылка] - разное железо
Авторы взяли 4 модели - два reasoning-варианта на базе DeepSeek-R1 и два instruct-варианта (Qwen2.5 и Llama-3.1) и прогнали их на 12 разных конфигурациях: два типа GPU (A100 и L40S), разное их количество и разный размер батча. В результате разброс точности на AIME'24 достигал 9%, а длина ответа расходилась до 9000 токенов при одном и том же промпте и greedy decoding.
Здесь важен аппаратный контекст. Исследователи из Манчестерского университета экспериментально проверили [ссылка], как тензорные ядра считают на V100, T4 и A100 - и обнаружили, что поведение отличается в зависимости от микроархитектуры (например V100 выполняет матричное умножение тайлами 4x4x4, A100 - тайлами 8x8x4, т.е. одно и то же произведение разбивается на разное количество шагов с разными промежуточными суммами, и из-за неассоциативности float итог разный). При этом NVIDIA в официальной документации PTX ISA [ссылка] прямо указывает для операций с .f16 и .bf16: "The accumulation order, rounding and handling of subnormal inputs is unspecified".
А так как в LLM инференсе повсеместно используется BF16 (с 7 битами мантиссы), токены с близкими вероятностями могут поменяться местами. В статье приведен пример: в точке расхождения два прогона дают токену "know" вероятности 49.75% и 46.65% и в одном прогоне побеждает "know", в другом "have". Расхождение происходит в среднем на 45-82 токене в зависимости от модели. Для reasoning-моделей это особенно критично, потому что одно неверное слово в начале разворачивается в другую цепочку рассуждений.
Собственно, они предлагают решить эту проблему через LayerCast [GitHub]: веса модели хранятся в BF16, но все вычисления выполняются в FP32 (23 бита мантиссы). Оно не устраняет ключевую проблему, но делает модель более устойчивой. Однако FP32 вычисления медленнее, потому что современные GPU оптимизированы под 16-битные тензорные операции. Хз, насколько именно оно медленнее - авторы статьи не предоставили этих тестов
Последние несколько дней аутирую над этой темой, потому что периодически натыкаюсь на эксперименты, где люди пытаются заставить сетку что-нибудь дизассемблировать, перегонять разные форматы данных к одному типу и т.п. Поэтому у меня возник вопрос: насколько подобные проекты применимы в продакшене? Ведь если алгоритм выдает разные результаты на один и тот же набор данных, это может породить непредсказуемое поведение для всей системы. Кажется, будто ответ лежит на поверхности - ставишь temperature=0 и greedy decoding всегда берет один и тот же наиболее вероятный токен. Но на деле это работает не совсем так.
Чтобы понять почему, нужно взять во внимание одно фундаментальное свойство чисел с плавающей точкой - неассоциативность. В математике (a + b) + c = a + (b + c), но когда дело начинает касаться float, на сцену выходит стандарт IEEE 754. Float хранит фиксированное количество значимых цифр, и когда складываете числа с очень разными масштабами, хвост отбрасывается:
(0.1 + 1e20) - 1e20 # = 0.0
0.1 + (1e20 - 1e20) # = 0.1
Ниже приведу несколько статей, которые отталкиваются от этого свойства, но подсвечивают разные причины и варианты решений:
1) Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [ссылка] - разное железо
Авторы взяли 4 модели - два reasoning-варианта на базе DeepSeek-R1 и два instruct-варианта (Qwen2.5 и Llama-3.1) и прогнали их на 12 разных конфигурациях: два типа GPU (A100 и L40S), разное их количество и разный размер батча. В результате разброс точности на AIME'24 достигал 9%, а длина ответа расходилась до 9000 токенов при одном и том же промпте и greedy decoding.
Здесь важен аппаратный контекст. Исследователи из Манчестерского университета экспериментально проверили [ссылка], как тензорные ядра считают на V100, T4 и A100 - и обнаружили, что поведение отличается в зависимости от микроархитектуры (например V100 выполняет матричное умножение тайлами 4x4x4, A100 - тайлами 8x8x4, т.е. одно и то же произведение разбивается на разное количество шагов с разными промежуточными суммами, и из-за неассоциативности float итог разный). При этом NVIDIA в официальной документации PTX ISA [ссылка] прямо указывает для операций с .f16 и .bf16: "The accumulation order, rounding and handling of subnormal inputs is unspecified".
А так как в LLM инференсе повсеместно используется BF16 (с 7 битами мантиссы), токены с близкими вероятностями могут поменяться местами. В статье приведен пример: в точке расхождения два прогона дают токену "know" вероятности 49.75% и 46.65% и в одном прогоне побеждает "know", в другом "have". Расхождение происходит в среднем на 45-82 токене в зависимости от модели. Для reasoning-моделей это особенно критично, потому что одно неверное слово в начале разворачивается в другую цепочку рассуждений.
Собственно, они предлагают решить эту проблему через LayerCast [GitHub]: веса модели хранятся в BF16, но все вычисления выполняются в FP32 (23 бита мантиссы). Оно не устраняет ключевую проблему, но делает модель более устойчивой. Однако FP32 вычисления медленнее, потому что современные GPU оптимизированы под 16-битные тензорные операции. Хз, насколько именно оно медленнее - авторы статьи не предоставили этих тестов
5🔥87👍7🤔7 5😁1
Forwarded from Kali Novskaya
🌸Вакансии и Нетворкинг с OpenTalks.AI🌸
#карьера
Прошел второй день OpenTalks.AI, и почти на всех докладах есть какой-то классный call to action, предложение поколлаборировать или стажировка.
Мне захотелось поделиться с вами как с профессиональным сообществом:
🌸Открытые позиции:
🟣 Дмитрий Ветров набирает магистров в Constructor University на программу ML Research
Есть возможность получить финансирование от JetBrains
https://constructor.university/programs/graduate-education/advanced-software-technology
🟣 Андрей Устюжанин приглашает на позиции PhD и PostDoc в Constructor University
— PhD — Scale-aware reasoning architectures, causal representation learning
— PostDoc — Active experimentation strategies, self-driving laboratories
Напишите [email protected]
🟣 Bioptic ищет ML-инженеров для разработки агентов в биотехе:
https://docs.google.com/forms/d/e/1FAIpQLSfA8GkNcoPyySqI_1XB46VxJY-rK2k_sz25P5xDHwUeZUUdYA/viewform
🟣 White Circle (AI Safety) ищет ML-инженеров для работы с аудио и видео, MLOps, Data scientists:
https://jobs.ashbyhq.com/whitecircle
🌸Коллаборации
🟣 Евгений Ижикевич и Анатолий Старостин сделали новый фреймворк для обучения моделей с новой архитектурой на базе работы Spiking manifesto — и открыты к коллаборациям
https://github.com/anatoli-starostin/spiky
🟣 Андрей Устюжанин приглашает подать заявку на воркшопы:
— Meta-science, AI in Scientific process — Wurzburg, date TBD
— Experimental Physics meets Deep Learning — Bremen IJCAI August 26
Напишите [email protected]
🌸Каналы
🟣 Сергей Николенко завел канал и сделал целую серию постов с обзором актуальных работ по AI Safety https://t.iss.one/sinecor
🟣 Илья Макаров (наконец!) тоже завел канал и пишет про статьи своей лаборатории https://t.iss.one/imak_ai
Поскольку сессий параллельно было много, я точно упустила часть, поэтому, если у вас есть вакансии, можно постить их в комментариях к этому посту!
#карьера
Прошел второй день OpenTalks.AI, и почти на всех докладах есть какой-то классный call to action, предложение поколлаборировать или стажировка.
Мне захотелось поделиться с вами как с профессиональным сообществом:
🌸Открытые позиции:
Есть возможность получить финансирование от JetBrains
https://constructor.university/programs/graduate-education/advanced-software-technology
— PhD — Scale-aware reasoning architectures, causal representation learning
— PostDoc — Active experimentation strategies, self-driving laboratories
Напишите [email protected]
https://docs.google.com/forms/d/e/1FAIpQLSfA8GkNcoPyySqI_1XB46VxJY-rK2k_sz25P5xDHwUeZUUdYA/viewform
https://jobs.ashbyhq.com/whitecircle
🌸Коллаборации
https://github.com/anatoli-starostin/spiky
— Meta-science, AI in Scientific process — Wurzburg, date TBD
— Experimental Physics meets Deep Learning — Bremen IJCAI August 26
Напишите [email protected]
🌸Каналы
Поскольку сессий параллельно было много, я точно упустила часть, поэтому, если у вас есть вакансии, можно постить их в комментариях к этому посту!
Please open Telegram to view this post
VIEW IN TELEGRAM
constructor.university
Advanced Software Technology | Constructor University
Join Constructor University's Masters in Advanced Software Technology: A dynamic 2-year course with JetBrains, focusing on modern software solutions.
🔥13💩6💊2🦄1
RL SQUEEZES, SFT EXPANDS:
A COMPARATIVE STUDY OF REASONING LLMS
В чем проблема с RL? Он сильно уменьшает разнообразие генерацией, те если вы делаете RL поверх модели то веряотно вы уменьшаете количество уникальных траекторий, а это в свою очередь уменьшает вероятность хороших rollouts, а это уменьшает вероятность что модель станет хорошей
В целом довольно известная информация, но на удивление работ я не видел до этого по теме.
arxiv
A COMPARATIVE STUDY OF REASONING LLMS
В чем проблема с RL? Он сильно уменьшает разнообразие генерацией, те если вы делаете RL поверх модели то веряотно вы уменьшаете количество уникальных траекторий, а это в свою очередь уменьшает вероятность хороших rollouts, а это уменьшает вероятность что модель станет хорошей
В целом довольно известная информация, но на удивление работ я не видел до этого по теме.
arxiv
👍33🤔7
https://arxiv.org/pdf/2601.06521
Вообще ситуация с этим бенчом двоякая - с одной стороны он составлялся из задач которые плохо решают модели, но ничего принципиально нового не приносит, с другой стороны это все ещё лучше HLE построенного на "а вы знали что?"
Вообще ситуация с этим бенчом двоякая - с одной стороны он составлялся из задач которые плохо решают модели, но ничего принципиально нового не приносит, с другой стороны это все ещё лучше HLE построенного на "а вы знали что?"
😍51 9👍2