Forwarded from Machinelearning
Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.
Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.
Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.
Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.
Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.
Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.
Тестовые
GatedDeltaNet-H1 и GatedDeltaNet-H2
дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.
🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github
📌Лицензирование:
🟢Некоммерческое использование: Nvidia Source Code License-NC
🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing
🟡Arxiv
🟡GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #GatedDeltaNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🙏1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3🥰2👍1
💥Релиз Qwen2.5-1M!
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@bigdatai
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@bigdatai
👍9❤2🔥2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Forwarded from Machinelearning
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.
Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.
https://huggingface.co/deepseek-ai/Janus-Pro-7B
@ai_machinelearning_big_data
#ai #deepseek #opensource #Janus
Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.
https://huggingface.co/deepseek-ai/Janus-Pro-7B
@ai_machinelearning_big_data
#ai #deepseek #opensource #Janus
👍11❤3
Microsoft представляет: Chain-of-Retrieval Augmented Generation
- Наблюдается улучшение более чем на 10 баллов в оценке EM - Устанавливает новый уровень производительности SotA в широком спектре наукоемких задач
https://arxiv.org/abs/2501.14342
- Наблюдается улучшение более чем на 10 баллов в оценке EM - Устанавливает новый уровень производительности SotA в широком спектре наукоемких задач
https://arxiv.org/abs/2501.14342
❤4👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Inference Providers on the Hub!
С сегодняшнего дня вы можете получить доступ к тысячам моделей, таким как DeepSeek R1, Llama, Flux, Whisper и прямо из Hugging Face!
https://huggingface.co/blog/inference-providers
#huggingface #ml #providers
С сегодняшнего дня вы можете получить доступ к тысячам моделей, таким как DeepSeek R1, Llama, Flux, Whisper и прямо из Hugging Face!
https://huggingface.co/blog/inference-providers
#huggingface #ml #providers
👍6❤2👎1
✔ MM-IQ: крупнейший бенчмарк для абстрактного визуального мышления
- 2710 образцов
- три формата ввода, шесть конфигураций задач и восемь моделей рассуждений
- таблица лидеров для оценки мультимодальных моделей
https://huggingface.co/datasets/huanqia/MM-IQ
@bigdatai
- 2710 образцов
- три формата ввода, шесть конфигураций задач и восемь моделей рассуждений
- таблица лидеров для оценки мультимодальных моделей
https://huggingface.co/datasets/huanqia/MM-IQ
@bigdatai
👍3❤1👎1🔥1🤡1
🔥 WILDCHAT-50M: крупнейший открытый набор данных c чатов
- 125 млн+ стенограмм чатов
- 1 млн+ разговоров
- Создано на основе WildChat
- Используется для создания RE-WILD SFT
Один из лучших открытых бенчмарков данной категории.
https://huggingface.co/collections/nyu-dice-lab/wildchat-50m-679a5df2c5967db8ab341ab7
@bigdatai
- 125 млн+ стенограмм чатов
- 1 млн+ разговоров
- Создано на основе WildChat
- Используется для создания RE-WILD SFT
Один из лучших открытых бенчмарков данной категории.
https://huggingface.co/collections/nyu-dice-lab/wildchat-50m-679a5df2c5967db8ab341ab7
@bigdatai
👍4❤2🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.
Для этого он использует несколько сервисов:
- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.
▪ Github
▪Google Colab
@ai_machinelearning_big_data
#opensource #llm #ai #ml #DeepResearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Демо новой модели стало доступно на huggingface 🚀
Отличная модель для OCR задач, извлечения текста и использования в чате.
🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
#deepseek #OCR #demo #prerelease
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2❤1
Xwen 🔥 серия открытых моделей, основанных на моделях Qwen2.5, разработанных блестящей исследовательской группой аспирантов из Китая.
✨ 7B/72B
✨ Apache 2.0
✨ Xwen-72B-Chat превзошел DeepSeek V3 на Arena Hard Auto
https://huggingface.co/collections/shenzhi-wang/xwen-chat-679e30ab1f4b90cfa7dbc49e
@bigdatai
✨ 7B/72B
✨ Apache 2.0
✨ Xwen-72B-Chat превзошел DeepSeek V3 на Arena Hard Auto
https://huggingface.co/collections/shenzhi-wang/xwen-chat-679e30ab1f4b90cfa7dbc49e
@bigdatai
👍3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🛠 SmolLM2-135M-Instruct, крошечный LLM, который квантуется до размера чуть меньше 100 МБ... что означает, что он может поместиться в PyPI-пакет!
Вот первый плагин LLM, который включает в себя полную модель в составе пакета:
https://simonwillison.net/2025/Feb/7/pip-install-llm-smollm2/
@bigdatai
Вот первый плагин LLM, который включает в себя полную модель в составе пакета:
llm install llm-smollm2
https://simonwillison.net/2025/Feb/7/pip-install-llm-smollm2/
@bigdatai
🔥5❤3👍3
Forwarded from Machinelearning
OpenAI планирует создать местную команду, которая будет заниматься продажами, развитием, коммуникациями, лоббированием и укрепить связи с немецкими университетами. По словам Сэма Альтмана, репутация Германии в области технического совершенства и промышленных инноваций сделала ее естественным выбором для расширения OpenAI. Германия - один из ключевых рынков OpenAI , а за последний год количество платных пользователей ChatGPT в Германии увеличилось в три раза.
heise.de
Объединенные Арабские Эмираты и Франция подписали соглашение о строительстве масштабного ИИ-кампуса с ЦОД мощностью в 1 гигаватт. Проект потребует инвестиций в размере от 30 до 50 миллиардов евро и станет крупнейшим объектом такого рода в Европе.
Проект кампуса, подписанный президентом Франции и президентом ОАЭ будет разработан консорциумом французских и эмиратских компаний, с участием инвестиционного фонда MGX. Точное местоположение объекта еще не определено.
france24.com
ИИ AlphaGeometry2, улучшенная версия системы AlphaGeometry, превзошла среднего золотого медалиста в решении задач по геометрии на международном математическом конкурсе. DeepMind утверждает, что их ИИ может решить 84% всех олимпиадных задач по геометрии за последние 25 лет.
AlphaGeometry2 состоит из языковой модели из семейства Gemini и "символьного движка". Модель Gemini помогает символьному движку, который использует математические правила для вывода решений задач, приходить к возможным доказательствам для целевой теоремы. AlphaGeometry2 считает проблему "решенной", когда приходит к доказательству, которое объединяет предположения Gemini с принципами символьного движка. DeepMind создала свои собственные синтетические данные для обучения AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.
techcrunch.com
Новая функция Microsoft Edge на базе ИИ работает на компьютерах с Windows. Она способна выявлять и блокировать существующие мошеннические схемы и обнаруживать новые благодаря локальной модели машинного обучения.
Когда обнаруживается мошенничество, Microsoft Edge автоматически выходит из полноэкранного режима, который пытаются навязать вредоносные сайты, останавливает воспроизведение аудио и предупреждает пользователя миниатюрой просматриваемой страницы. После этого пользователь может сообщить о сайте, чтобы его добавили в службу Microsoft Defender SmartScreen.
Функция блокировки теперь доступна в предварительной версии в последней стабильной ветке браузера. Чтобы получить доступ к этой функции, необходимо вручную включить блокировку scareware в настройках конфиденциальности Edge и перезапустить браузер. Модель машинного обучения, используемая для блокировки, работает локально, не сохраняя и не отправляя данные в Microsoft.
theverge.com
Компания разработала систему, способную анализировать мозговую активность человека во время набора текста и определять, какие клавиши он нажимает, основываясь только на мыслях. Система использует магнитно-энцефалографический сканер для сбора сигналов, производимых в коре головного мозга.
Несмотря на то, что система способна определять буквы с точностью до 80%, она далека от коммерческого применения из-за своего размера, стоимости в 2 миллиона долларов и необходимости работы в экранированной комнате. Разработчики рассматривают ее как фундаментальное исследование принципов интеллекта, которое может быть использовано для создания более мощных систем искусственного интеллекта, способных учиться и рассуждать, как люди.
technologyreview.com
🤗 Kokoro
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2👍1