Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.
Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.
Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.
Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.
Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.
В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.
Модели доступны на Hugging Face в двух вариантах:
@ai_machinelearning_big_data
#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍65❤17🔥12🤔1
Ученые все чаще переходят на облачные технологии, чтобы решать сложнейшие задачи — от прогнозирования погоды до симуляции квантовых систем. Google Cloud сделала новый шаг им навстречу, представив супервычислительные решения, ИИ-модели и сервисы, которые помогут делать открытия быстрее:
Google также добавил в Agentspace двух ИИ-агентов. Первый, Deep Research, за минуты анализирует горы данных и генерирует детальные отчёты. Второй, Idea Generation, помогает учёным быстро придумывать гипотезы для экспериментов. Оба инструмента уже доступны в тестовом режиме.
Не забыли и о хранении данных: новая управляемая файловая система Lustre, созданная с DDN, справится с нагрузками даже самых требовательных проектов. А для тех, кто только начинает, Google Cloud предлагает гранты, обучение и доступ к сообществу Advanced Computing Community.
Эти обновления — не просто апдейты. Они меняют правила игры, объединяя вычислительную мощь, ИИ и удобство облака.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥20❤13🤬4🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
• Помнит все интересы и стиль общения пользователя
• Подстраивается под цели: учёба, код, тексты, советы
• Работает незаметно, но помогает как будто «знает пользователя давно»
Например:
• Если раньше вы часто спрашивали про японский язык — ChatGPT может сам использовать это в будущих ответах.
• Если вы писали статьи — он подстроит стиль под вас.
Это новый уровень взаимодействия с ИИ — теперь он не просто отвечает, а действительно работает как личный ассистент.
Таким образом, ИИ сможет оказывать контекстную и индивидуальную поддержку, будь то в области здравоохранения, зная историю болезни пользователя (которую не нужно постоянно повторять), или в личной сфере, понимая текущие жизненные ситуации (траур, радость и т. д.).
Улучшенная память в ChatGPT доступна с сегодняшнего дня всем пользователям Plus и Pro, за исключением стран EEA, Великобритании, Швейцарии, Норвегии, Исландии и Лихтенштейна.
Пользователи Team, Enterprise и Edu получат доступ через несколько недель.
🔐 Контроль за памятью — полностью у пользователя
- Вы можете отключить использование памяти в любое время в настройках.
- Если память у вас уже отключена — ИИ не будет использовать старые чаты.
- Хотите изменить то, что он о вас помнит? Просто напишите об этом в чат.
- Хотите поговорить без памяти? Используйте временный чат (temporary chat)👌
https://x.com/OpenAI/status/1910378768172212636
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🔥32❤21🤷♀8👏4💯2⚡1🥰1😐1
Этот набор данных включает 1 266 задач, требующих от моделей глубокого понимания контекста и эффективного поиска информации.
Особенности:
▪ В отличие от существующих бенчмарков, таких как SimpleQA, BrowseComp фокусируется на вопросах, ответы на которые трудно найти и которые требуют анализа множества источников.
Например, “Найдите мне статью из EMNLP 2018–2023, где первый автор учился в бакалавриате в Dartmouth, а четвёртый — в UPenn”
→ Ответ: Frequency Effects on Syntactic Rule Learning in Transformers
▪ Структура вопросов: Каждый вопрос имеет однозначный, короткий ответ, что облегчает оценку результатов и снижает вероятность неоднозначности.
OpenAI
▪ Примеры вопросов: Вопросы охватывают различные темы и требуют от модели способности устанавливать связи между разрозненными фактами.
OpenAI
💡 По аналогии с тем, как CodeForces навыки программирования, BrowseComp показывает, насколько модель способна ориентироваться в "диких" условиях в вебе.
@ai_machinelearning_big_data
#openai #benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥26❤8😁5
Forbes выпустил ежегодный рейтинг AI 50, составленный в сотрудничестве с Sequoia и Meritech Capital, который показал смещение акцента среди ИИ-стартапов с разработки моделей на создание практических приложений. Новички списка:, Anysphere (Cursor) и Speak (обучение английскому и испанскому с аудиторией 10 млн пользователей).
Лидеры прежние: OpenAI и Anthropic. Впервые в список попали xAI и проект Миры Мурати Thinking Maсhine. В этом году было подано 1860 заявок, а суммарное финансирование участников составило 142,45 млрд. долл.
forbes.com
На TED2025 в Ванкувере глава подразделения Android X продемонстрировал прототип умных очков от Google. Устройство получило функции перевода в реальном времени, распознавание изображений и интеграцию с Gemini.
Параллельно Samsung представила свой X-rеality шлем с акцентом на многозадачность. Оба проекта развиваются в рамках Android XR, но детали их релиза и даты выхода остаются неизвестными.
9to5google.com
QodoAI выпустила обновление для своего инструмента проверки кода Qodo Merge, интегрировав технологию RAG. Это позволит разработчикам анализировать код в контексте всей базы проекта, ускоряя ревью и упрощая коммуникацию по правкам.
RAG даёт ИИ доступ к полной истории и зависимостям кода - теперь система может автоматически предлагать исправления, ссылаясь на ранее написанные модули.
bito.ai
Adobe анонсировала разработку ИИ-агентов для Photoshop и Premiere Pro, которые упростят рутинные задачи в редакторах. Например, ИИ может автоматически убрать людей с фона или настроить глубину резкости — пользователю достаточно кликнуть по подсказке.
Для Premiere Pro агенты помогут создавать черновые монтажи, корректировать цвет и звук, опираясь на функцию Media Intelligence, которая распознаёт объекты в видео. При этом ИИ не заменяет креативность, а ускоряет работу: система обучаема, а пользователи смогут давать команды на естественном языке.
Презентация технологии для Photoshop состоится 24 апреля на мероприятии Max в Лондоне.
blog.adobe.com
SentinelLabs обнаружили, что спамеры используют модели OpenAI для массовой рассылки сообщений, обходящих стандартные фильтры. Бот AkiraBot генерировал уникальный контент через API ChatGPT (модель gpt-4o-mini), подставляя в шаблон название целевого сайта. Это делало каждое сообщение «персонализированным», усложняя его блокировку.
Вместо шаблонных фраз AkiraBot создавал описания услуг под конкретный ресурс, имитируя ручную работу. По данным логов, с сентября 2024 по январь 2025 года бот успешно отправил сообщения на 80 000 доменов, тогда как 11 000 попыток завершились ошибкой.
OpenAI подтвердила, что подобное использование ChatGPT нарушает её политику, и поблагодарила экспертов за информацию.
arstechnica.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍33❤15🥰4🤝1
Google анонсировала запуск тестовой программы новых геопространственных и Population Dynamics моделей.
Эти инструменты объединяют генеративный ИИ (под капотом - Gemini), с данными спутниковых снимков и социальными индексами, чтобы ускорить анализ в сферах урбанистики, экологии и кризисного управления.
Модели позволяют находить объекты по описанию («дороги с заторами»), сегментировать ландшафты и предсказывать динамику населения. Интеграция с Google Cloud и Earth Engine дает разработчикам возможность для создания собственных решений — от медиапланирования до мониторинга сельхозугодий.
Первыми тестерами стали Airbus, Maxar и Planet Labs: они используют модели для анализа спутниковых данных в реальном времени. Сейчас доступ к моделям открыт через программу Trusted Tester, а детали Google обещает раскрыть в ближайшие месяцы.
🔗 research.google
@ai_machinelearning_big_data
#google #geospatialreasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48❤15🔥14
This media is not supported in your browser
VIEW IN TELEGRAM
Можно создавать 5, 6, 7 и 8 секундные видеоролики.
Генерация 6-секундного заняла примерно 45 секунд.
Примечание: доступ пока открыт появился не у всех (у меня появился на бесплатном акке), ждем анонса от Google
https://aistudio.google.com/
Напишите в комментах появился ли Veo у вас?
@ai_machinelearning_big_data
#video #veo2
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍69❤18🔥13🥰2
Недавно был представлен HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) — data-free метод квантизации, который позволяет запускать большие языковые модели локально, за минуты, без GPU.
Применение:
🛠 Установка:
pip install flute-kernel
python
from transformers import AutoModelForCausalLM, AutoTokenizer, HiggsConfig
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
quantization_config=HiggsConfig(bits=4),
device_map="auto",
)
@ai_machinelearning_big_data
#quantization #LLM #opensource #HIGGS #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118🔥39❤32🥱8👏2
Это open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM
Пройтись по конкретному URL и его подстраницам можно так:
Firecrawl обрабатывает сложные случаи, включая динамический контент, JavaScript-рендеринг, PDF, изображения и защищённые страницы.
Поддерживает интеграцию с Langchain, LlamaIndex, Dify и другими инструментами, поддерживает Python, Node.js, Go и Rust.
Пройтись по конкретному URL и его подстраницам можно так:
curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'
# { "jobId": "1234-5678-9101" }
Лиценизровавние: AGPL-3.0 license
▪GitHub
▪ Инструкция по запуску локально
@ai_machinelearning_big_data
#llm #crawler
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70🔥36🥰9❤5🤬1👨💻1💘1
🌟 В ElevenLabs обновили процесс профессионального клонированиея голоса (PVC) — теперь он стал максимально удобным:
Загружаете запись ваших диалогов или соло-записи (например, подкасты)
AI сам разделит голос по спикерам, дальше вы выбираете только голос для обучения
Второе прикрепленное видео - это туториал, который поможет добиться максимально реалистичного результата
🔒 По умолчанию ваш клон голоса — приватный и доступен только вам.
💸 Но так же у вас есть возможность монетизировать свой голос и получать роялти, когда кто-то генерирует аудио с вашим голосом.
🚀 elevenlabs.io/app/voice-lab
#voiceclone #ai #elevenlabs #voiceai #texttospeech
Загружаете запись ваших диалогов или соло-записи (например, подкасты)
AI сам разделит голос по спикерам, дальше вы выбираете только голос для обучения
Второе прикрепленное видео - это туториал, который поможет добиться максимально реалистичного результата
🔒 По умолчанию ваш клон голоса — приватный и доступен только вам.
💸 Но так же у вас есть возможность монетизировать свой голос и получать роялти, когда кто-то генерирует аудио с вашим голосом.
🚀 elevenlabs.io/app/voice-lab
#voiceclone #ai #elevenlabs #voiceai #texttospeech
❤51👍40🔥22