Media is too big
VIEW IN TELEGRAM
#эксперименты
Новый функционал Stage для работы со сценой и генерацией 3д в сервисе Krea.ai
Начинаем тестировать⚡️⚡️⚡️
Новый функционал Stage для работы со сценой и генерацией 3д в сервисе Krea.ai
Начинаем тестировать⚡️⚡️⚡️
⚡5👍2👌1
#вкопилкуэрудита #пытаюсьпонять
"Уверенность" LLM модели в своих ответах.
Функция потерь (Loss Function) — это математический инструмент, который измеряет, насколько предсказания модели отличаются от истинных данных. Она направляет обучение, помогая модели минимизировать ошибки.
Cross-Entropy Loss — самая эффективная и стандартная функция потерь для трансформеров в большинстве задач благодаря их вероятностной природе. И можно сказать, что это сердце LLM моделей.
LLM предсказывают вероятности слов или токенов, а Cross-Entropy идеально измеряет, насколько предсказания модели близки к истине. Будь то генерация текста, перевод или что-то еще — эта функция потерь помогает моделям учиться и становиться умнее.
Поскольку Кросс-энтропия работает с вероятностными предсказаниями, можно сделать описать ее так
Cross-Entropy Loss — это мера того, насколько модель "не уверена" в правильном ответе.
"Уверенность" LLM модели в своих ответах.
Функция потерь (Loss Function) — это математический инструмент, который измеряет, насколько предсказания модели отличаются от истинных данных. Она направляет обучение, помогая модели минимизировать ошибки.
Cross-Entropy Loss — самая эффективная и стандартная функция потерь для трансформеров в большинстве задач благодаря их вероятностной природе. И можно сказать, что это сердце LLM моделей.
LLM предсказывают вероятности слов или токенов, а Cross-Entropy идеально измеряет, насколько предсказания модели близки к истине. Будь то генерация текста, перевод или что-то еще — эта функция потерь помогает моделям учиться и становиться умнее.
Поскольку Кросс-энтропия работает с вероятностными предсказаниями, можно сделать описать ее так
Cross-Entropy Loss — это мера того, насколько модель "не уверена" в правильном ответе.
🔥5👍2⚡1
Forwarded from Альянс Цифровых Лидеров в стройке
This media is not supported in your browser
VIEW IN TELEGRAM
И снова LLM в архитектуре. На этот раз используют связку chatGPT и p5.js
Экспериментируете с нейросетями на благо стройки — делитесь в бота
@alliance_of_digital_leaders_bot
Экспериментируете с нейросетями на благо стройки — делитесь в бота
@alliance_of_digital_leaders_bot
👍7⚡5❤2
Media is too big
VIEW IN TELEGRAM
#unrealneural
Очень впечатляющее демо ИИ сервиса, будущее сервисов обслуживания клиентов.
Агенты, которые могут понимать текст, речь, изображения и даже живое видео.
Скоро все будет с открытым исходным кодом.
Очень впечатляющее демо ИИ сервиса, будущее сервисов обслуживания клиентов.
Агенты, которые могут понимать текст, речь, изображения и даже живое видео.
Скоро все будет с открытым исходным кодом.
❤6⚡2🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
#ЛабораторияИИ #Эксперименты
Генерация планировки квартиры с помощью нейронной сети
Наша лаборатория активно работает над решением задачи генерации планировочных решений. Очень важно учитывать весь спектр ограничений и контекста, положение квартиры на типовом этаже и т.д, Это очень важно при генерации результата. В рамках модуля R2.ОПР нашей платформы мы начали тестирование технологий на базе нейронных сетей, которые позволяют учитывать ряд нужных критериев, а самое главное, понимают неявные принципы, признаки получения результата - для этого и нужны нейронные сети. Вот несколько экспериментов на пути решения этой задачи.
Генерация планировки квартиры с помощью нейронной сети
Наша лаборатория активно работает над решением задачи генерации планировочных решений. Очень важно учитывать весь спектр ограничений и контекста, положение квартиры на типовом этаже и т.д, Это очень важно при генерации результата. В рамках модуля R2.ОПР нашей платформы мы начали тестирование технологий на базе нейронных сетей, которые позволяют учитывать ряд нужных критериев, а самое главное, понимают неявные принципы, признаки получения результата - для этого и нужны нейронные сети. Вот несколько экспериментов на пути решения этой задачи.
1🔥8❤7👍7⚡1
Forwarded from Data Secrets
Google предложили новую обобщенную архитектуру нейросетей, устроенную так, что трансформеры и RNN являются ее частными случаями
Основная проблема сегодняшних моделей – память. У нас есть трансформеры, но их сложно масштабировать на длинный контекст из-за квадратичной сложности операций. У нас есть RNN, но они не параллелятся и постоянно все забывают.
Так что в последнее время выходит все больше работ про все новые и новые подходы к моделированию памяти. И все они строятся на каких-то видах скрещивания: атеншена с линейностью, или гейтов забывания с трансформерами, или скалярной памяти с матричной, ну и тд и тп.
В Google заметили, что почти все эти методы можно описать единым набором правил. Свой фреймворк они назвали MIRAS, и его главная идея в том, что любое проектирование памяти нейросетей сводится к четырем основным выборам:
Вот и все. Похоже на выбор гиперпараметров. Перебираем набор по рамке и получаем либо уже известную модель, либо новую, с нужными свойствами по стоимости/емкости/устойчивости. И да, трансформеры, RNN и всякие Mamba – тоже частные случаи MIRAS (картинка 2).
И главное: получается, по этому пространству параметров можно гулять и искать локальные минимумы. Google для примера показали три MIRAS инстанса: Moneta, Yaad, Memora. Moneta достигает 93.5% на иголке в стоге сена, при этом перплексия падает мягко и метрики вполне себе на уровне.
Красивая и стройная работа. Читаем полностью тут
Основная проблема сегодняшних моделей – память. У нас есть трансформеры, но их сложно масштабировать на длинный контекст из-за квадратичной сложности операций. У нас есть RNN, но они не параллелятся и постоянно все забывают.
Так что в последнее время выходит все больше работ про все новые и новые подходы к моделированию памяти. И все они строятся на каких-то видах скрещивания: атеншена с линейностью, или гейтов забывания с трансформерами, или скалярной памяти с матричной, ну и тд и тп.
В Google заметили, что почти все эти методы можно описать единым набором правил. Свой фреймворк они назвали MIRAS, и его главная идея в том, что любое проектирование памяти нейросетей сводится к четырем основным выборам:
1. Выбор архитектуры памяти. Память может быть вектором, как в RNN, матрицей, как в трансформерах, отдельной маленькой нейросетью, как в test-time-training подходах, ну или чем-то другим.
2. Выбор attentional bias. Это функция потерь, которую память будет оптимизировать при обновлении. Цель, по сути, всегда одна: точно сопоставлять ключи со значениями, то есть верно восстаналивать связи между словами. В трансформерах, например, attention bias – это непараметрический ℓ₂‑MSE.
3. Retention Gate. Это регуляризация, которая контролирует, как и когда мы избавляемся от ненужной информации. Другими словами, мера консервативности или забывания.
4. Выбор метода оптимизации. Это конкретный рецепт того, как перейти из прошлого состояния памяти в новое, учитывая все компоненты выше. Например, в трансформерах это просто вычисление softmax‑attention, но также это может быть градиентный спуск или его модификации.
Вот и все. Похоже на выбор гиперпараметров. Перебираем набор по рамке и получаем либо уже известную модель, либо новую, с нужными свойствами по стоимости/емкости/устойчивости. И да, трансформеры, RNN и всякие Mamba – тоже частные случаи MIRAS (картинка 2).
И главное: получается, по этому пространству параметров можно гулять и искать локальные минимумы. Google для примера показали три MIRAS инстанса: Moneta, Yaad, Memora. Moneta достигает 93.5% на иголке в стоге сена, при этом перплексия падает мягко и метрики вполне себе на уровне.
Красивая и стройная работа. Читаем полностью тут
⚡4❤1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #mcp
Twitter MCP
MCP протокол и Твиттер!
Поиск и получение твитов и профилей пользователей (без необходимости использования Twitter/X API)
https://github.com/exa-labs/exa-mcp-server
Twitter MCP
MCP протокол и Твиттер!
Поиск и получение твитов и профилей пользователей (без необходимости использования Twitter/X API)
https://github.com/exa-labs/exa-mcp-server
👍3🤯3❤2
#лабораторияИИ #PROГОРОD2025
Фотоотчет о посещении форума PROГОРОD2025
Выступал с рассказом о наших экспериментах
Фотоотчет о посещении форума PROГОРОD2025
Выступал с рассказом о наших экспериментах
👍11❤4⚡3🔥3
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
О, Perplexity анонсировали крутого голосового ассистента для iOS
Это Siri на максималках (наверное, стоило написать в заголовке Siri – ВСЕ): агент сможет использовать браузер и некоторые приложения, рассылать письма, создавать брони, управлять календарем, проигрывать подкасты, YouTube ролики и другое медиа.
Обновить приложение в AppStore и попробовать (это бесплатно) можно уже сейчас
Это Siri на максималках (наверное, стоило написать в заголовке Siri – ВСЕ): агент сможет использовать браузер и некоторые приложения, рассылать письма, создавать брони, управлять календарем, проигрывать подкасты, YouTube ролики и другое медиа.
Обновить приложение в AppStore и попробовать (это бесплатно) можно уже сейчас
👍4🔥3
Метаверсище и ИИще
И тут я опять взвою вопросом: будут ли Deemos, Tripo, Hunyuan или Trellis изобретать свою Web-Maya или Nano-Blender внутри своих платформ, или кто-то типа Адобченко с готовым 3Д на борту прикрутит генерацию внутри имеющихся пайплайнов.
Понятно, что путь опенсорса лежит через плагины к Блендору.
Но я также подозреваю, что кто-то из больших игроков рано или поздно прикупит один из 3Д-генераторов и сделает свое решение.
Понятно, что путь опенсорса лежит через плагины к Блендору.
Но я также подозреваю, что кто-то из больших игроков рано или поздно прикупит один из 3Д-генераторов и сделает свое решение.
#пытаюсьпонять
Согласен с автором относительно незавершенности результатов подобных инструментов, что это лишь один из этапов, который пока работает как начальная стадия генерации.
И тем более в архитектурном проектировании. Мы работаем не просто с оболочкой а с цифровой моделью и в контексте наших задач модель массинга - это сложаная "цифровая книга", в которой учитывается много факторов.
А генераторы 3д в чистом виде - это лишь этап формирования такой "книги". Но стек LLM + HunYuan(как пример 3д генераторов) + Revit с MCP = уже становится реалистичным конвейером.
Согласен с автором относительно незавершенности результатов подобных инструментов, что это лишь один из этапов, который пока работает как начальная стадия генерации.
И тем более в архитектурном проектировании. Мы работаем не просто с оболочкой а с цифровой моделью и в контексте наших задач модель массинга - это сложаная "цифровая книга", в которой учитывается много факторов.
А генераторы 3д в чистом виде - это лишь этап формирования такой "книги". Но стек LLM + HunYuan(как пример 3д генераторов) + Revit с MCP = уже становится реалистичным конвейером.
👍5⚡3❤2