Извините :)
Ну раз выходной, - мемы.
Добавляйте свои в комментарии, что прикольного накопилось по теме.
#мемы #юмор
———
@tsingular
Ну раз выходной, - мемы.
Добавляйте свои в комментарии, что прикольного накопилось по теме.
#мемы #юмор
———
@tsingular
😁33😢2❤1
Forwarded from Анализ данных (Data analysis)
🧩 The Ultimate LLM Benchmark Collection
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
🏆5✍4🔥1
Станислава Лема если кто не читал,- рекомендую.
Вот, например, в свое время в Компьютерре читал главами :)
Сумма технологии (1964)
#futurology #Станислав #Лем
———
@tsingular
Вот, например, в свое время в Компьютерре читал главами :)
Сумма технологии (1964)
#futurology #Станислав #Лем
———
@tsingular
🔥29❤11😁3👍1
Amazon Q в GitHub: ИИ-разработка через тикеты — Cursor всё?
Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.
Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review
Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.
Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.
Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.
Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.
Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.
Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏
#AmazonQ #GitHub #dev
———
@tsingular
Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.
Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review
Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.
Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.
Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.
Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.
Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.
Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏
#AmazonQ #GitHub #dev
———
@tsingular
❤7🤯5👍3✍2
Graphiti: революция темпоральных графов знаний для AI-агентов
Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.
В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.
Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой
Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска
Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.
Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд
Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".
Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.
#Graphiti #KnowledgeGraphs #RAG
———
@tsingular
Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.
В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.
Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой
Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска
Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.
Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд
Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".
Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.
#Graphiti #KnowledgeGraphs #RAG
———
@tsingular
🔥5⚡1
ИИ-агенты перевернут игру: младшие разработчики берут реванш
Волны трансформации в разработке программного обеспечения
Стив Егге в статье от 22 марта 2025 года описывает радикальные изменения в программировании, вызванные появлением ИИ-агентов для кодирования. По его мнению, индустрия разработки ПО проходит через несколько "волн" развития технологий программирования с ИИ:
1. Традиционное кодирование (2022)
2. Программирование с автодополнением кода (2023)
3. Чат-программирование (2024)
4. Агенты для программирования (2025 H1)
5. Кластеры агентов (2025 H2)
6. Флоты агентов (2026)
Что такое Vibe Coding и как это меняет работу разработчиков
"Vibe coding" — термин, который ввел Андрей Карпати в начале февраля 2025 года. Это подход к программированию через чат, когда разработчик просит LLM написать код, получает результат и продолжает диалог в непрерывном цикле.
Однако, новая парадигма — агенты для разработки, такие как Aider.chat и Claude Code — уже начинает вытеснять чат-программирование.
Егге утверждает, что каждая последующая "волна", начиная с чата, примерно в 5 раз продуктивнее предыдущей.
Финансовые последствия и трансформация рабочего процесса
Агенты-разработчики стоят примерно $10-12 в час при текущих тарифах. По оценке Егге, один активный экземпляр агента можно приблизительно приравнять по ценности к младшему разработчику программного обеспечения, если кто-то (человек или ИИ) поддерживает его занятость 8-10 часов в день.
Ожидается, что следующая волна "кластеров агентов" позволит каждому разработчику управлять несколькими агентами одновременно, работающими над разными задачами: исправлением ошибок, доработкой задач, новыми функциями, разбором бэклога, развертыванием, документацией — фактически над любой задачей, которую может выполнять разработчик.
Изменение роли разработчика и "месть" младших разработчиков
Егге отмечает интересную тенденцию: младшие разработчики гораздо охотнее принимают ИИ-технологии, чем старшие. Он отмечает, что многие опытные разработчики сопротивляются изменениям, ошибочно считая, что сохранение статус-кво обеспечивает безопасность работы.
По словам Егге, "это не работа ИИ — доказать, что он лучше вас. Это ваша работа — стать лучше, используя ИИ". Он предсказывает, что к концу 2025 года новые должности "инженеров-программистов" будут включать мало прямого кодирования и много "присмотра" за агентами.
Прогноз на будущее
Егге прогнозирует, что появится много новых рабочих мест, но они будут иными. Компании смогут быть амбициознее, чем когда-либо прежде. Исторические прецеденты (пар, электричество, вычисления) показывают, что мы скоро увидим гораздо больше людей, создающих программное обеспечение, а волна продуктивности может увеличить национальный ВВП на поразительные суммы, 100% и более.
Чтобы не отставать, Егге советует: "Переходите на чат. Откажитесь от автодополнений. Перестаньте писать код вручную... И прежде всего, обратите пристальное внимание на новых агентов для программирования."
Например AmazonQ из предыдущей статьи
Забавно: из программистов мы превращаемся в пастухов ИИ-стада.
А потом ИИ научится пасти сам себя...
#Agents #Programming #VibeCoding #DeveloperEvolution
———
@tsingular
Волны трансформации в разработке программного обеспечения
Стив Егге в статье от 22 марта 2025 года описывает радикальные изменения в программировании, вызванные появлением ИИ-агентов для кодирования. По его мнению, индустрия разработки ПО проходит через несколько "волн" развития технологий программирования с ИИ:
1. Традиционное кодирование (2022)
2. Программирование с автодополнением кода (2023)
3. Чат-программирование (2024)
4. Агенты для программирования (2025 H1)
5. Кластеры агентов (2025 H2)
6. Флоты агентов (2026)
Что такое Vibe Coding и как это меняет работу разработчиков
"Vibe coding" — термин, который ввел Андрей Карпати в начале февраля 2025 года. Это подход к программированию через чат, когда разработчик просит LLM написать код, получает результат и продолжает диалог в непрерывном цикле.
Однако, новая парадигма — агенты для разработки, такие как Aider.chat и Claude Code — уже начинает вытеснять чат-программирование.
Егге утверждает, что каждая последующая "волна", начиная с чата, примерно в 5 раз продуктивнее предыдущей.
Финансовые последствия и трансформация рабочего процесса
Агенты-разработчики стоят примерно $10-12 в час при текущих тарифах. По оценке Егге, один активный экземпляр агента можно приблизительно приравнять по ценности к младшему разработчику программного обеспечения, если кто-то (человек или ИИ) поддерживает его занятость 8-10 часов в день.
Ожидается, что следующая волна "кластеров агентов" позволит каждому разработчику управлять несколькими агентами одновременно, работающими над разными задачами: исправлением ошибок, доработкой задач, новыми функциями, разбором бэклога, развертыванием, документацией — фактически над любой задачей, которую может выполнять разработчик.
Изменение роли разработчика и "месть" младших разработчиков
Егге отмечает интересную тенденцию: младшие разработчики гораздо охотнее принимают ИИ-технологии, чем старшие. Он отмечает, что многие опытные разработчики сопротивляются изменениям, ошибочно считая, что сохранение статус-кво обеспечивает безопасность работы.
По словам Егге, "это не работа ИИ — доказать, что он лучше вас. Это ваша работа — стать лучше, используя ИИ". Он предсказывает, что к концу 2025 года новые должности "инженеров-программистов" будут включать мало прямого кодирования и много "присмотра" за агентами.
Прогноз на будущее
Егге прогнозирует, что появится много новых рабочих мест, но они будут иными. Компании смогут быть амбициознее, чем когда-либо прежде. Исторические прецеденты (пар, электричество, вычисления) показывают, что мы скоро увидим гораздо больше людей, создающих программное обеспечение, а волна продуктивности может увеличить национальный ВВП на поразительные суммы, 100% и более.
Чтобы не отставать, Егге советует: "Переходите на чат. Откажитесь от автодополнений. Перестаньте писать код вручную... И прежде всего, обратите пристальное внимание на новых агентов для программирования."
Например AmazonQ из предыдущей статьи
Забавно: из программистов мы превращаемся в пастухов ИИ-стада.
А потом ИИ научится пасти сам себя...
#Agents #Programming #VibeCoding #DeveloperEvolution
———
@tsingular
✍7⚡5👍3💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Тоже про вайб-кодинг в Cursor.
Такое переводить, - только портить :)
Источник
#vibecoding #юмор #Cursor
———
@tsingular
Такое переводить, - только портить :)
Источник
#vibecoding #юмор #Cursor
———
@tsingular
😁18🤣10❤🔥2😢2✍1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Sonnet 3.7 thinking
запрос:
код в комментарии.
Это к вопросу о том, что сегодня могут сделать модели с одного запроса, чтобы точно отражало желания пользователя без особой расшифровки и запускалось сразу без ошибок.
#Sonnet #dev #обучение
———
@tsingular
запрос:
нужен js код который рисует процесс генерации текста LLM моделью. токен за токеном должен наглядно показывать процесс инференса
код в комментарии.
Это к вопросу о том, что сегодня могут сделать модели с одного запроса, чтобы точно отражало желания пользователя без особой расшифровки и запускалось сразу без ошибок.
#Sonnet #dev #обучение
———
@tsingular
👍14🔥7
Media is too big
VIEW IN TELEGRAM
а это после серии уточнений.
чистый вайб. ни строчки вручную.
#demo #обучение #vibecoding
———
@tsingular
чистый вайб. ни строчки вручную.
#demo #обучение #vibecoding
———
@tsingular
👍16🆒2
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
❤4👍4
вот чем, конечно, Google может задавить конкурентов, - это поиском, доступным для ИИ моделей.
236 сайтов уже, и это он еще не закончил.
Ни один Perplexity не может себе такого позволить.
#Gemini #google #search
———
@tsingular
236 сайтов уже, и это он еще не закончил.
Ни один Perplexity не может себе такого позволить.
#Gemini #google #search
———
@tsingular
👍13✍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что ж.
В городе реально новый герой.
Gemini 2.5 Pro preview 0506 прекрасно справился с моим любимым тестом:
Напиши венок сонетов
Без уточнений что это и как это.
Выдал точно 14 сонетов и 15й магистрал собрал.
К магистралу, конечно, вопросы - рифмы нет, но в целом гораздо лучше чем любые другие модели.
До этого с такой задачей справлялся только Sonnet 3.7
Так что можно говорить о реальном прогрессе.
С 0506 Gemini можно будет создавать шедевры и в коде и в тексте.
Полный стих в комментариях.
#Gemini #0506 #сонет
———
@tsingular
В городе реально новый герой.
Gemini 2.5 Pro preview 0506 прекрасно справился с моим любимым тестом:
Напиши венок сонетов
Без уточнений что это и как это.
Выдал точно 14 сонетов и 15й магистрал собрал.
К магистралу, конечно, вопросы - рифмы нет, но в целом гораздо лучше чем любые другие модели.
До этого с такой задачей справлялся только Sonnet 3.7
Так что можно говорить о реальном прогрессе.
С 0506 Gemini можно будет создавать шедевры и в коде и в тексте.
Полный стих в комментариях.
#Gemini #0506 #сонет
———
@tsingular
🔥16
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Офигенный пример из нового Gemini 2.5 (I/O Edition)
- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.
Поглядите на эти анимации.
Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.
I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.
@cgevent
- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.
Поглядите на эти анимации.
Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.
I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.
@cgevent
🔥10❤🔥6👍1
Forwarded from Анализ данных (Data analysis)
🚀 LTX-Video 13B — один из самых мощных open-source видеогенераторов.
Разработчики внедрили в модель мультимасштабный рендеринг.
✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением.
Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план.
📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации:
один поток отвечает за фон (низкая детализация, большой масштаб),
другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб).
Потом всё объединяется в один кадр, как слои в Photoshop.
🎯 Зачем это нужно?
Фон остаётся стабильным, не "дергается"
Движущиеся объекты остаются чёткими и отдельными от фона
Картинка в целом не разваливается (нет смешивания движений, артефактов)
Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города.
👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении.
Что нового?
– Модель 13 миллиардов параметров
– Multiscale rendering → больше деталей, чётче текстуры
– Лучше понимает движение и сцену
– Запускается локально на GPU
– Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций
Запускается даже на RTX 4090.
#AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video
Разработчики внедрили в модель мультимасштабный рендеринг.
✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением.
Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план.
📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации:
один поток отвечает за фон (низкая детализация, большой масштаб),
другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб).
Потом всё объединяется в один кадр, как слои в Photoshop.
🎯 Зачем это нужно?
Фон остаётся стабильным, не "дергается"
Движущиеся объекты остаются чёткими и отдельными от фона
Картинка в целом не разваливается (нет смешивания движений, артефактов)
Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города.
👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении.
Что нового?
– Модель 13 миллиардов параметров
– Multiscale rendering → больше деталей, чётче текстуры
– Лучше понимает движение и сцену
– Запускается локально на GPU
– Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций
Запускается даже на RTX 4090.
#AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video
👍9⚡4🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Comfy-трансформация
Есть у нас свой макаронный монстр - ComfyUI.
Глядя на название, уже чувствуешь подвох с UI - в общем пакет сложный. Тем кто не нюхал пороха с Houdini, Nuke, Тач, разными Shader Graph или упасихоспади Natron, будет сложно.
Тут надо отметить, что прикручивание нодового интерфейса к генерациям - это не эксклюзив, этим занимаются Glif.app, florafauna.ai, даже InvokeAI лепит свой нетворк граф.
Но по степени низкоуровневости и опенсорсности альтернатив у Комфи нет.
Как и по степени сложности освоения.
И если раньше Комфи всегда ассоциировался как альтернатива почившему Автоматик1111 или полупочившему Forge для генерации картинок, то потом он превратился в комбайн для ЛОКАЛЬНОЙ работы с любыми моделями (видео, аудио, ллм).
Но вчера произошел тектонический сдвиг:
Теперь в комфи завезли 65 готовых API-нод, которые позволяют подключать разные облачные (платные или нет) модели — от Veo2 до GPT4o и даже до Flux Ultra.
Вот список моделей:
Black Forest Labs Flux 1.1[pro] Ultra, Flux .1[pro]
Kling 2.0, 1.6, 1.5 & Various Effects
Luma Photon, Ray2, Ray1.6
MiniMax Text-to-Video, Image-to-Video
PixVerse V4 & Effects
Recraft V3, V2 & Various Tools
Stability AI Stable Image Ultra, Stable Diffusion 3.5 Large
Google Veo2
Ideogram V3, V2, V1
OpenAI GPT4o image
Pika 2.2
Думаю, список будет расширяться.
Но почему я думаю, что это тектоника плит?
Комфи таким образом превращается в аггрегатор моделей, коммерческих в том числе. Ну то есть он одной ногой влезает на поляну, где топчутся Fal.ai или Replicate, а другой - на поляну где рядятся Krea и Freeplik и Флора.
Вот если бы кто-то ввалил им денег и они бы написать нормальную UI морду ПОВЕРХ макаронных изделий, что был бы хит (SwarmUI - это очень-очень плохо, как по замыслу, так и по исполнению).
В общем шаг исторический.
https://blog.comfy.org/p/comfyui-native-api-nodes
@cgevent
Есть у нас свой макаронный монстр - ComfyUI.
Глядя на название, уже чувствуешь подвох с UI - в общем пакет сложный. Тем кто не нюхал пороха с Houdini, Nuke, Тач, разными Shader Graph или упасихоспади Natron, будет сложно.
Тут надо отметить, что прикручивание нодового интерфейса к генерациям - это не эксклюзив, этим занимаются Glif.app, florafauna.ai, даже InvokeAI лепит свой нетворк граф.
Но по степени низкоуровневости и опенсорсности альтернатив у Комфи нет.
Как и по степени сложности освоения.
И если раньше Комфи всегда ассоциировался как альтернатива почившему Автоматик1111 или полупочившему Forge для генерации картинок, то потом он превратился в комбайн для ЛОКАЛЬНОЙ работы с любыми моделями (видео, аудио, ллм).
Но вчера произошел тектонический сдвиг:
Теперь в комфи завезли 65 готовых API-нод, которые позволяют подключать разные облачные (платные или нет) модели — от Veo2 до GPT4o и даже до Flux Ultra.
Вот список моделей:
Black Forest Labs Flux 1.1[pro] Ultra, Flux .1[pro]
Kling 2.0, 1.6, 1.5 & Various Effects
Luma Photon, Ray2, Ray1.6
MiniMax Text-to-Video, Image-to-Video
PixVerse V4 & Effects
Recraft V3, V2 & Various Tools
Stability AI Stable Image Ultra, Stable Diffusion 3.5 Large
Google Veo2
Ideogram V3, V2, V1
OpenAI GPT4o image
Pika 2.2
Думаю, список будет расширяться.
Но почему я думаю, что это тектоника плит?
Комфи таким образом превращается в аггрегатор моделей, коммерческих в том числе. Ну то есть он одной ногой влезает на поляну, где топчутся Fal.ai или Replicate, а другой - на поляну где рядятся Krea и Freeplik и Флора.
Вот если бы кто-то ввалил им денег и они бы написать нормальную UI морду ПОВЕРХ макаронных изделий, что был бы хит (SwarmUI - это очень-очень плохо, как по замыслу, так и по исполнению).
В общем шаг исторический.
https://blog.comfy.org/p/comfyui-native-api-nodes
@cgevent
👍6
Media is too big
VIEW IN TELEGRAM
🤖 AgenticSeek: бесплатная локальная альтернатива Manus AI
AgenticSeek представляет собой 100% локальную альтернативу Manus AI — голосовой ИИ-ассистент, который просматривает веб, пишет код и планирует задачи, сохраняя все данные на вашем устройстве.
Ключевые преимущества:
• 🔒 Полностью локальный и приватный. Ваши файлы, беседы и поисковые запросы остаются у вас.
• 🌐 Умный веб-браузинг — AgenticSeek может самостоятельно просматривать интернет: искать, читать, извлекать информацию, заполнять веб-формы — всё без вашего участия.
• 💻 Автономный помощник для разработки — нужен код? Он может писать, отлаживать и запускать программы на Python, C, Go, Java и других языках.
• 🧠 Интеллектуальный выбор агентов — вы спрашиваете, он автоматически подбирает лучшего агента для задачи.
• 📋 Планирует и выполняет сложные задачи — от планирования поездок до комплексных проектов — может разбивать большие задачи на этапы и выполнять их с помощью нескольких ИИ-агентов.
• 🎙 С голосовым управлением — чистый, быстрый, футуристичный голос и распознавание речи, позволяющие разговаривать с ним как с вашим персональным ИИ из научно-фантастического фильма.
Технические особенности:
• Поддержка различных LLM-провайдеров: Ollama, lm-studio, OpenAI API и др.
• Работает с моделями от 7B до 70B+ (рекомендуется от 14B и выше)
• Распознавание и синтез речи работают полностью локально
• Поддержка нескольких языков
• Автоматический старт всех необходимых сервисов через Docker
Для работы требуется хотя бы GPU с 12 ГБ VRAM, но для полноценного использования рекомендуется 24+ ГБ.
Теперь бесплатный Манус есть у нас дома. :)
#AgenticSeek #LocalLLM #агенты #deepresearch
———
@tsingular
AgenticSeek представляет собой 100% локальную альтернативу Manus AI — голосовой ИИ-ассистент, который просматривает веб, пишет код и планирует задачи, сохраняя все данные на вашем устройстве.
Ключевые преимущества:
• 🔒 Полностью локальный и приватный. Ваши файлы, беседы и поисковые запросы остаются у вас.
• 🌐 Умный веб-браузинг — AgenticSeek может самостоятельно просматривать интернет: искать, читать, извлекать информацию, заполнять веб-формы — всё без вашего участия.
• 💻 Автономный помощник для разработки — нужен код? Он может писать, отлаживать и запускать программы на Python, C, Go, Java и других языках.
• 🧠 Интеллектуальный выбор агентов — вы спрашиваете, он автоматически подбирает лучшего агента для задачи.
• 📋 Планирует и выполняет сложные задачи — от планирования поездок до комплексных проектов — может разбивать большие задачи на этапы и выполнять их с помощью нескольких ИИ-агентов.
• 🎙 С голосовым управлением — чистый, быстрый, футуристичный голос и распознавание речи, позволяющие разговаривать с ним как с вашим персональным ИИ из научно-фантастического фильма.
Технические особенности:
• Поддержка различных LLM-провайдеров: Ollama, lm-studio, OpenAI API и др.
• Работает с моделями от 7B до 70B+ (рекомендуется от 14B и выше)
• Распознавание и синтез речи работают полностью локально
• Поддержка нескольких языков
• Автоматический старт всех необходимых сервисов через Docker
Для работы требуется хотя бы GPU с 12 ГБ VRAM, но для полноценного использования рекомендуется 24+ ГБ.
Теперь бесплатный Манус есть у нас дома. :)
#AgenticSeek #LocalLLM #агенты #deepresearch
———
@tsingular
🔥11👍2🤯2🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Anthropic API теперь с веб-поиском для Claude
Anthropic запустил новую функцию веб-поиска в своем API — теперь Claude может получать доступ к текущей информации со всего интернета.
Это серьезно расширяет возможности для разработчиков, которые теперь могут создавать приложения с актуальными данными.
Когда Claude получает запрос, требующий актуальной информации или специализированных знаний, он использует свои способности рассуждения, чтобы сначала определить, поможет ли инструмент веб-поиска предоставить более точный ответ.
При необходимости модель генерирует поисковый запрос, анализирует результаты и предоставляет комплексный ответ со ссылками на источники.
Техническая начинка:
• Claude может работать как агент, проводя несколько последовательных поисков, используя ранние результаты для формирования последующих запросов
• Каждый ответ включает цитаты с материалами, позволяя пользователям проверять информацию
• Настраиваемые списки разрешенных и заблокированных доменов — можно указать, из каких источников Claude может получать информацию
• Управление функцией на уровне организации через админ-настройки
Практическое применение:
• Финансовые сервисы: анализ цен акций в реальном времени, рыночных трендов и нормативных обновлений
• Юридические исследования: доступ к недавним судебным решениям и правовым новостям
• Инструменты для разработчиков: использование последней документации API и технологических обновлений
• Повышение продуктивности аналитиков через доступ к последним отчетам и исследованиям
Функция веб-поиска также интегрирована в Claude Code, что особенно ценно при работе с новыми или быстро развивающимися фреймворками и библиотеками.
Важно: Сервис доступен для моделей Claude 3.7 Sonnet, обновленной Claude 3.5 Sonnet и Claude 3.5 Haiku по цене $10 за 1000 поисковых запросов ПОВЕРХ стандартной стоимость токенов моделей.
#Claude #API #поиск #агенты
———
@tsingular
Anthropic запустил новую функцию веб-поиска в своем API — теперь Claude может получать доступ к текущей информации со всего интернета.
Это серьезно расширяет возможности для разработчиков, которые теперь могут создавать приложения с актуальными данными.
Когда Claude получает запрос, требующий актуальной информации или специализированных знаний, он использует свои способности рассуждения, чтобы сначала определить, поможет ли инструмент веб-поиска предоставить более точный ответ.
При необходимости модель генерирует поисковый запрос, анализирует результаты и предоставляет комплексный ответ со ссылками на источники.
Техническая начинка:
• Claude может работать как агент, проводя несколько последовательных поисков, используя ранние результаты для формирования последующих запросов
• Каждый ответ включает цитаты с материалами, позволяя пользователям проверять информацию
• Настраиваемые списки разрешенных и заблокированных доменов — можно указать, из каких источников Claude может получать информацию
• Управление функцией на уровне организации через админ-настройки
Практическое применение:
• Финансовые сервисы: анализ цен акций в реальном времени, рыночных трендов и нормативных обновлений
• Юридические исследования: доступ к недавним судебным решениям и правовым новостям
• Инструменты для разработчиков: использование последней документации API и технологических обновлений
• Повышение продуктивности аналитиков через доступ к последним отчетам и исследованиям
Функция веб-поиска также интегрирована в Claude Code, что особенно ценно при работе с новыми или быстро развивающимися фреймворками и библиотеками.
Важно: Сервис доступен для моделей Claude 3.7 Sonnet, обновленной Claude 3.5 Sonnet и Claude 3.5 Haiku по цене $10 за 1000 поисковых запросов ПОВЕРХ стандартной стоимость токенов моделей.
#Claude #API #поиск #агенты
———
@tsingular
🔥5
Media is too big
VIEW IN TELEGRAM
Удобно, конечно, что теперь результаты поиска можно представить сразу в виде приложения наглядного.
Gemini 2.5 pro preview 0506 - такое рисует за 95 секунд.
Код в комментарии.
#gemini #timeline
———
@tsingular
Gemini 2.5 pro preview 0506 - такое рисует за 95 секунд.
Код в комментарии.
#gemini #timeline
———
@tsingular
🔥5⚡1✍1