This media is not supported in your browser
VIEW IN TELEGRAM
#эксперименты
играюсь с генераторами
играюсь с генераторами
⚡5❤3👎2
Forwarded from Наука, Техника и нейровайб
This media is not supported in your browser
VIEW IN TELEGRAM
Новейшая ИИ-модель Claude 3.7 Sonnet может на ходу генерировать игры. Её попросили создать платформер о космосе, и она выдала 3200 строк кода — результат на видео.
Игровые разработчики идут на завод
Игровые разработчики идут на завод
🤯2😱2
This media is not supported in your browser
VIEW IN TELEGRAM
#эксперименты
делаю генератор планировок вместе с Claude
делаю генератор планировок вместе с Claude
🐳4🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
#эксперименты
делаю интерактивные эффекты с Claude
делаю интерактивные эффекты с Claude
⚡4🦄2
Forwarded from NN
Microsoft Copilot открыли для всех пользователей Voice и Think Deeper. Инструменты на базе модели OpenAI o1 теперь бесплатные и вообще без ограничений.
Голосовой режим Voice знает русский язык, можно задавать любые вопросы или использовать для изучения язков.
Think Deeper включает бесконечное размышление — ИИ будет перепроверять ответ на запрос, пока он не станет максимально точным.
Забираем по ссылке.
Голосовой режим Voice знает русский язык, можно задавать любые вопросы или использовать для изучения язков.
Think Deeper включает бесконечное размышление — ИИ будет перепроверять ответ на запрос, пока он не станет максимально точным.
Забираем по ссылке.
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Всего 3 дня с тех пор, как вышел Claude 3.7 Sonnet и уже столько крутых результатов и экспериментов
Вот примеры: симулятор 3D-города
Вот примеры: симулятор 3D-города
🤯3👍2
#вкопилкуэрудита
В архитектуре Transformer к каждому эмбеддингу токена добавляется позиционный эмбеддинг (Positional Embedding) . Это позволяет модели знать позиции токенов в исходном тексте, как абсолютные, так и относительные. Позиции слов играет важную роль при передаче смысла исходного текста. Они имеют ту же размерность что и эмбеддинг токена. Они вычисляются с помощью синусоидальных функций. На рисунке схема, чтобы понять, как это работает.
Почему они вычисляются именно так?
Такое математическое представление позволяет описывать положение элементов оставаясь в пределах значений от -1 до 1 и при этом условно без ограничений максимальной позиции (ограничение все же есть и оно зависит от размерности эмбеддингов).
Пример позиционного кодирования, иллюстрирующий ПОДХОД - двоичная система исчисления, где комбинация символов "0" и "1" могут иллюстрировать уникальные представления.
В архитектуре Transformer к каждому эмбеддингу токена добавляется позиционный эмбеддинг (Positional Embedding) . Это позволяет модели знать позиции токенов в исходном тексте, как абсолютные, так и относительные. Позиции слов играет важную роль при передаче смысла исходного текста. Они имеют ту же размерность что и эмбеддинг токена. Они вычисляются с помощью синусоидальных функций. На рисунке схема, чтобы понять, как это работает.
Почему они вычисляются именно так?
Такое математическое представление позволяет описывать положение элементов оставаясь в пределах значений от -1 до 1 и при этом условно без ограничений максимальной позиции (ограничение все же есть и оно зависит от размерности эмбеддингов).
Пример позиционного кодирования, иллюстрирующий ПОДХОД - двоичная система исчисления, где комбинация символов "0" и "1" могут иллюстрировать уникальные представления.
🤔4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Процесс диффузии в новой моделе LlaDa (первая языковая диффузионная модель)
🔥3❤2
#пытаюсьпонять
Память трансформеров: почему размер имеет значение?
Трансформеры — мощные модели, но их память ограничена. Механизм внимания требует O(n^2)
памяти, где n
— длина текста. Чем длиннее контекст, тем больше ресурсов нужно: для 4096 токенов это уже серьезная нагрузка! А что за пределами? Ничего — классические трансформеры "забывают" все, что не помещается ...
Решения вроде Sparse Attention или внешней памяти спасают ситуацию, но идеала пока нет. С человеком не сравниться...
Память трансформеров: почему размер имеет значение?
Трансформеры — мощные модели, но их память ограничена. Механизм внимания требует O(n^2)
памяти, где n
— длина текста. Чем длиннее контекст, тем больше ресурсов нужно: для 4096 токенов это уже серьезная нагрузка! А что за пределами? Ничего — классические трансформеры "забывают" все, что не помещается ...
Решения вроде Sparse Attention или внешней памяти спасают ситуацию, но идеала пока нет. С человеком не сравниться...
🤔3⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
Появился AI BIM асситсент для Revit - Pele AI
AI помощник понимает инструкции на простом языке.
Pele AI анализирует запрос, определяет необходимые шаги, а затем выполняет задачу в Revit. Если команда неясна или слишком сложна, программное обеспечение попытается выполнить ее повторно. Если он все еще не может выполнить задачу, он уведомит пользователя и предложит, что уточнение ввода может улучшить результаты.
https://www.pele-assistant.online/
AI помощник понимает инструкции на простом языке.
Pele AI анализирует запрос, определяет необходимые шаги, а затем выполняет задачу в Revit. Если команда неясна или слишком сложна, программное обеспечение попытается выполнить ее повторно. Если он все еще не может выполнить задачу, он уведомит пользователя и предложит, что уточнение ввода может улучшить результаты.
https://www.pele-assistant.online/
❤3👍3
Media is too big
VIEW IN TELEGRAM
MeshPad
позволяет интерактивно создавать и редактировать mesh геометрию с помощью эскизов
https://derkleineli.github.io/meshpad/
позволяет интерактивно создавать и редактировать mesh геометрию с помощью эскизов
https://derkleineli.github.io/meshpad/
👍4🔥2
Forwarded from Нейросеть
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Google анонсировал "AI Mode" — новую вкладочку в поиске, которая заменит весь Perplexity AI и ChatGPT Search.
Функция одновременно запускает несколько связанных поисков по разным источникам, позволяет задавать сложные многосоставные вопросы и продолжать диалог уточняющими запросами. Работает на специальной версии Gemini 2.0.
По статистике Google, пользователи уже задают запросы вдвое длиннее обычных и в 25% случаев продолжают диалог дополнительными вопросами.
Функция одновременно запускает несколько связанных поисков по разным источникам, позволяет задавать сложные многосоставные вопросы и продолжать диалог уточняющими запросами. Работает на специальной версии Gemini 2.0.
По статистике Google, пользователи уже задают запросы вдвое длиннее обычных и в 25% случаев продолжают диалог дополнительными вопросами.
🔥5⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
#вкопилкуэрудита
Graphormer и его эмбеддинги.
Graphormer — это архитектура трансформеров, специально адаптированная для работы с графами. В отличие от LLM, таких как GPT, которые обрабатывают последовательности токенов, Graphormer предназначен для обработки графовых структур. А графы очень подходят для описания векторных данных.
Про эмбеддинги граформера.
В отличие от LLM, где эмбеддинги кодируют текстовую информацию и позицию их в контексте, в граформере они представлены в 3 видах:
1. Node embeddings – кодируют каждую вершину графа, тут могут кодироваться характеристики вершин и их атрибуты
2. Edge embeddings – кодируют связи между вершинами, тут может бить тип связи, также атрибудты связи
3. Spatial embeddings – кодируют относительное положение узлов в графе
Помимо этих, в некоторых присутствуют и другие типы эмбеддингов
- Degree Embeddings - кодирует количество соседей у вершины
- Centrality Embeddings - кодирует значимость узлов
Граформер использует Attention Bias — механизм, который добавляет корректирующие коэффициенты в стандартный self-attention
Graphormer и его эмбеддинги.
Graphormer — это архитектура трансформеров, специально адаптированная для работы с графами. В отличие от LLM, таких как GPT, которые обрабатывают последовательности токенов, Graphormer предназначен для обработки графовых структур. А графы очень подходят для описания векторных данных.
Про эмбеддинги граформера.
В отличие от LLM, где эмбеддинги кодируют текстовую информацию и позицию их в контексте, в граформере они представлены в 3 видах:
1. Node embeddings – кодируют каждую вершину графа, тут могут кодироваться характеристики вершин и их атрибуты
2. Edge embeddings – кодируют связи между вершинами, тут может бить тип связи, также атрибудты связи
3. Spatial embeddings – кодируют относительное положение узлов в графе
Помимо этих, в некоторых присутствуют и другие типы эмбеддингов
- Degree Embeddings - кодирует количество соседей у вершины
- Centrality Embeddings - кодирует значимость узлов
Граформер использует Attention Bias — механизм, который добавляет корректирующие коэффициенты в стандартный self-attention
🔥3👍2⚡1
Forwarded from Наука, Техника и нейровайб
This media is not supported in your browser
VIEW IN TELEGRAM
Программисты исчезнут к 2026 году. Глава ИИ-компании Anthropic подарившей нам Claude Дарио Амодей считает, что айтишники вымрут через год, т.к. нейронки будут генерировать весь код.
🤔 — Тревожно / 😁 — Ага, конечно
🤔 — Тревожно / 😁 — Ага, конечно
😁16⚡2👍2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Иллюстрация механизма внимания в Transformer. Каждое слово (или токен) может относиться к разным частям последовательности по-разному в зависимости от выбранного измерения
👍4
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
В alphaXiv теперь можно создавать красивые конспекты статей с помощью одной кнопки
Помните, мы рассказывали про то, что в проект AlphaXiv (зеркало архива) добавили бесплатный чат с Gemini 2 Flash, которая объяснит вам любой текст и ответит на вопросы?
Так вот теперь ребята, видимо, решили окончательно захватить нишу и релизнули тулзу для создания полноценных конспектов по статьям с картинками и наглядными объяснениями. При этом о галлюцинациях можно не переживать: для точности обработки изображений прикрутили новый хайповый Mistral OCR, а объянения генерирует свежий Claude 3.7.
Все, что надо сделать – перейти на страницу нужной статьи и нажать "blog". А в чате с ботом-объяснятором, кстати, теперь можно общаться и задавать вопросы голосом🔥
Пробуйте: www.alphaxiv.org
Помните, мы рассказывали про то, что в проект AlphaXiv (зеркало архива) добавили бесплатный чат с Gemini 2 Flash, которая объяснит вам любой текст и ответит на вопросы?
Так вот теперь ребята, видимо, решили окончательно захватить нишу и релизнули тулзу для создания полноценных конспектов по статьям с картинками и наглядными объяснениями. При этом о галлюцинациях можно не переживать: для точности обработки изображений прикрутили новый хайповый Mistral OCR, а объянения генерирует свежий Claude 3.7.
Все, что надо сделать – перейти на страницу нужной статьи и нажать "blog". А в чате с ботом-объяснятором, кстати, теперь можно общаться и задавать вопросы голосом
Пробуйте: www.alphaxiv.org
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
#пытаюсьпонять
Память АИ Агента
Память агента — это контекст, который передаётся в LLM через подсказку (prompt). Она помогает агенту учитывать предыдущие взаимодействия и данные, которые в данный момент недоступны.
Память можно разделить на следующие типы:
1. Эпизодическая память – хранит прошлые взаимодействия и действия агента. После выполнения действия система записывает его в постоянное хранилище (например, векторную базу данных), чтобы в будущем можно было извлечь и использовать этот опыт.
2. Семантическая память – содержит внешнюю информацию, доступную агенту, а также его “внутренние” знания. Это можно представить как контекст в RAG (Retrieval-Augmented Generation): например, справочные данные, документация или специализированные сведения, которые помогают агенту давать точные ответы.
3. Процедурная память – включает системную информацию: структуру системных подсказок (prompts), доступные инструменты, ограничения безопасности и другие настройки работы агента. Обычно она хранится в Git-репозиториях или конфигурационных файлах.
4. Оперативная память – временное хранилище информации, извлекаемой из долговременной памяти, если она нужна для выполнения текущей задачи.
5. Рабочая (кратковременная) память – включает всю информацию, собранную из долговременной и оперативной памяти, которая затем используется для формирования финальной подсказки (prompt) перед отправкой в LLM. Она определяет, какие действия агент выполнит далее.
Обычно эпизодическая, семантическая и процедурная память относятся к долговременной, а рабочая память – к кратковременной.
Обычно эпизодическая, семантическая и процедурная память относятся к долговременной памяти, а оперативная – к кратковременной.
Все зависит от того, как вы спроектируете архитектуру агентной системы. Грамотное управление памятью позволяет агенту лучше планировать и адаптироваться к задачам.
Память АИ Агента
Память агента — это контекст, который передаётся в LLM через подсказку (prompt). Она помогает агенту учитывать предыдущие взаимодействия и данные, которые в данный момент недоступны.
Память можно разделить на следующие типы:
1. Эпизодическая память – хранит прошлые взаимодействия и действия агента. После выполнения действия система записывает его в постоянное хранилище (например, векторную базу данных), чтобы в будущем можно было извлечь и использовать этот опыт.
2. Семантическая память – содержит внешнюю информацию, доступную агенту, а также его “внутренние” знания. Это можно представить как контекст в RAG (Retrieval-Augmented Generation): например, справочные данные, документация или специализированные сведения, которые помогают агенту давать точные ответы.
3. Процедурная память – включает системную информацию: структуру системных подсказок (prompts), доступные инструменты, ограничения безопасности и другие настройки работы агента. Обычно она хранится в Git-репозиториях или конфигурационных файлах.
4. Оперативная память – временное хранилище информации, извлекаемой из долговременной памяти, если она нужна для выполнения текущей задачи.
5. Рабочая (кратковременная) память – включает всю информацию, собранную из долговременной и оперативной памяти, которая затем используется для формирования финальной подсказки (prompt) перед отправкой в LLM. Она определяет, какие действия агент выполнит далее.
Обычно эпизодическая, семантическая и процедурная память относятся к долговременной, а рабочая память – к кратковременной.
Обычно эпизодическая, семантическая и процедурная память относятся к долговременной памяти, а оперативная – к кратковременной.
Все зависит от того, как вы спроектируете архитектуру агентной системы. Грамотное управление памятью позволяет агенту лучше планировать и адаптироваться к задачам.
👍3⚡1
Forwarded from vc.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Пока в соцсетях обсуждали китайского ИИ-агента Manus, OpenAI выпустила инструменты для создания «самостоятельных» ИИ-помощников на базе Operator и GPT-4o.
В заметке собрали отзывы, инструкции разработчиков и примеры компаний, которые уже запустили своих ИИ-агентов
vc.ru/ai/1862076
В заметке собрали отзывы, инструкции разработчиков и примеры компаний, которые уже запустили своих ИИ-агентов
vc.ru/ai/1862076
👍3⚡1
Forwarded from NN
AirPods могут получить функцию синхронного перевода. Можно будет разговаривать с иностранцами на любых языках и понимать их.
В момент разговора понадобятся AirPods и iPhone. Смартфон будет автоматически улавливать речь, переводить ее и отдавать обратно в наушники.
По словам Марка Гурмана, новая функция может появиться уже в конце года, вместе с выходом iOS 19.
В момент разговора понадобятся AirPods и iPhone. Смартфон будет автоматически улавливать речь, переводить ее и отдавать обратно в наушники.
По словам Марка Гурмана, новая функция может появиться уже в конце года, вместе с выходом iOS 19.
👍4👏1