Forwarded from Machinelearning
Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные?
Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход.
Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей.
Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных.
MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности.
Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог.
Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами.
В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда.
На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности.
@ai_machinelearning_big_data
#AI #ML #Selection #MAD #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Это топ Google сделали свою хайповую нейронку Veo 3 бесплатной на все выходные
Заходит сюда — жмём плюс и выбираем генерацию видео.
Ограничение:всего три видео .
Заходит сюда — жмём плюс и выбираем генерацию видео.
Ограничение:
This media is not supported in your browser
VIEW IN TELEGRAM
Strudel - ИИ Который превращает строки кода в РЕАЛЬНЫЕ мелодии отличного качества.
• Основа — JavaScript, но знать его необязательно: гайд выучить создать всё.
• Учит программированию и музыке через практику, без скучного сольфеджио.
• Поддерживает MIDI и OSC для интеграции с синтезаторами или музыкальными сетапами.
• Создавайте крутые треки без знаний нот и ритма — Strudel сделает всё за вас!
Айтишники, становятся диджеями ! 🚀
https://strudel.cc/
• Основа — JavaScript, но знать его необязательно: гайд выучить создать всё.
• Учит программированию и музыке через практику, без скучного сольфеджио.
• Поддерживает MIDI и OSC для интеграции с синтезаторами или музыкальными сетапами.
• Создавайте крутые треки без знаний нот и ритма — Strudel сделает всё за вас!
Айтишники, становятся диджеями ! 🚀
https://strudel.cc/
Forwarded from Machinelearning
Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.
OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.
Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.
Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.
Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.
Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.
Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.
При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.
Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.
@ai_machinelearning_big_data
#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌪️ ИИ-модель Google предсказала траекторию самого сильного шторма Атлантики в этом году
> «Внутренние тесты показывают, что прогнозы нашей модели по траектории и интенсивности циклона столь же точны или даже точнее, чем современные физические методы», — сообщили в компании.
📊 По точности прогноза траектории модель Google обошла не только «официальный» прогноз Национального центра по изучению ураганов (NHC), но и несколько физических моделей — как глобальных, так и специализированных под предсказание ураганов.
#ИИ #Google #Погода #Климат
> «Внутренние тесты показывают, что прогнозы нашей модели по траектории и интенсивности циклона столь же точны или даже точнее, чем современные физические методы», — сообщили в компании.
📊 По точности прогноза траектории модель Google обошла не только «официальный» прогноз Национального центра по изучению ураганов (NHC), но и несколько физических моделей — как глобальных, так и специализированных под предсказание ураганов.
#ИИ #Google #Погода #Климат
This media is not supported in your browser
VIEW IN TELEGRAM
Чем хороша модель:
- 8B параметров - лёгкая для локального инференса.
- Средний балл 77.0 на OpenCompass - сводная оценка по 8 популярным бенчмаркам.
- По этим тестам обгоняет ряд проприетарных моделей уровня GPT-4o-latest и Gemini-2.0 Pro, а также сильный опенсорс Qwen2.5-VL 72B в задачах vision-language.
- Фактически самый результативный MLLM до 30B параметров.
Что соберём за сессию:
1) Мини-API для инференса - роут /chat с приемом текста и изображения.
2) Ультралёгкий фронт в anycoder - поле ввода, загрузка картинки, предпросмотр.
3) Набор промпт-темплейтов - описание изображения, OCR-вопросы, разбор скриншотов кода.
Где модель особенно заходит:
- Разбор скринов UI и PDF с таблицами.
- Вопросы по диаграммам и графикам.
- Помощь по коду по фотографиям экрана.
https://huggingface.co/spaces/akhaliq/MiniCPM-V-4_5
Please open Telegram to view this post
VIEW IN TELEGRAM
📊 Исследователи AI VK выложили в открытый доступ VK-LSVD — датасет коротких видео для рекомендательных систем.
🤝 VK-LSVD содержит 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за январь–июнь 2025. Включены лайки, дизлайки, шеры, длительность просмотров и контекст воспроизведения.
⚡️ Датасет даёт возможность формировать объем выборки под задачи конкретного исследования и доступные ресурсы команд. Это делает VK-LSVD инструментом, с помощью которого можно проверять гипотезы и строить более точные рекомендательные модели на актуальных данных. Доступен на Hugging Face.
🤝 VK-LSVD содержит 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за январь–июнь 2025. Включены лайки, дизлайки, шеры, длительность просмотров и контекст воспроизведения.
⚡️ Датасет даёт возможность формировать объем выборки под задачи конкретного исследования и доступные ресурсы команд. Это делает VK-LSVD инструментом, с помощью которого можно проверять гипотезы и строить более точные рекомендательные модели на актуальных данных. Доступен на Hugging Face.
Telegram
AI VK Hub
Датасет VK-LSVD (Large Short-Video Dataset) для развития рекомендательных систем
Сейчас в открытом доступе не так много больших открытых датасетов, на базе которых инженеры и ученые могут обучать и оценивать модели. Для построения точных рекомендательных…
Сейчас в открытом доступе не так много больших открытых датасетов, на базе которых инженеры и ученые могут обучать и оценивать модели. Для построения точных рекомендательных…
Forwarded from Machinelearning
Stax - экспериментальный инструмент для разработчиков, который предлагает замену неформальному «вайб-тестингу» больших языковых моделей на структурированный, основанный на данных подход.
Stax оценивает модели на кастомных или готовых автоматизированных оценщиках, фокусируясь на метриках: беглость ответа, безопасность, задержка и процент успешного прохождения ручной проверки.
Есть дашборд для сравнения результатов разных моделей с визуальными индикаторами производительности.
Ключевые возможности: быстрые и повторяемые оценки, настройка метрик под конкретные продукты и сквозной рабочий процесс для экспериментов от прототипа до продакшена.
Инструмент должен помочь разработчикам принимать обоснованные решения при выборе и развертывании моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌍🚀 Многоязычная модель перевода Hunyuan-MT
Hunyuan-MT — это мощная модель перевода, поддерживающая 33 языка, включая редкие языки Китая. Она включает в себя как базовую модель Hunyuan-MT-7B, так и ансамблевую модель Hunyuan-MT-Chimera, обеспечивая высокое качество перевода и выдающиеся результаты на международных конкурсах.
🚀Основные моменты:
- Первое место в 30 из 31 категории на WMT25.
- Лидер по производительности среди моделей аналогичного масштаба.
- Первая открытая ансамблевая модель перевода.
- Комплексная структура обучения для достижения SOTA результатов.
📌 GitHub: https://github.com/Tencent-Hunyuan/Hunyuan-MT
#python
Hunyuan-MT — это мощная модель перевода, поддерживающая 33 языка, включая редкие языки Китая. Она включает в себя как базовую модель Hunyuan-MT-7B, так и ансамблевую модель Hunyuan-MT-Chimera, обеспечивая высокое качество перевода и выдающиеся результаты на международных конкурсах.
🚀Основные моменты:
- Первое место в 30 из 31 категории на WMT25.
- Лидер по производительности среди моделей аналогичного масштаба.
- Первая открытая ансамблевая модель перевода.
- Комплексная структура обучения для достижения SOTA результатов.
📌 GitHub: https://github.com/Tencent-Hunyuan/Hunyuan-MT
#python
GitHub
GitHub - Tencent-Hunyuan/Hunyuan-MT
Contribute to Tencent-Hunyuan/Hunyuan-MT development by creating an account on GitHub.
Forwarded from AI VK Hub
Media is too big
VIEW IN TELEGRAM
Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга.
Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа.
#aivk #aivkpro
Please open Telegram to view this post
VIEW IN TELEGRAM
⚖️ NEWS: Суд поддержал xAI против бывшего инженера
Федеральный судья ввёл временный запрет для Xuechen Li, который недавно ушёл из xAI и устроился в OpenAI.
📌 Что значит решение суда:
Li нельзя работать в OpenAI над генеративным ИИ.
Ему нельзя обсуждать темы генеративного ИИ с сотрудниками OpenAI.
Запрет будет действовать, пока xAI не убедится, что у него не осталось их конфиденциальных данных.
🗓 Следующий этап: слушание 7 октября 2025 года, где решат, продлевать ли запрет на более долгий срок.
👉 История о том, как компании теперь воюют не только моделями, но и за людей и их знания.
Федеральный судья ввёл временный запрет для Xuechen Li, который недавно ушёл из xAI и устроился в OpenAI.
📌 Что значит решение суда:
Li нельзя работать в OpenAI над генеративным ИИ.
Ему нельзя обсуждать темы генеративного ИИ с сотрудниками OpenAI.
Запрет будет действовать, пока xAI не убедится, что у него не осталось их конфиденциальных данных.
🗓 Следующий этап: слушание 7 октября 2025 года, где решат, продлевать ли запрет на более долгий срок.
👉 История о том, как компании теперь воюют не только моделями, но и за людей и их знания.
🧠 Прогноз сооснователя DeepMind Шейна Легга
Ещё 16 лет назад он предсказал:
В течение 10–20 лет организация SIAI (ныне MIRI, основанная Элиезером Юдковски) поднимет осведомлённость о рисках AGI.
По мере прогресса в ИИ эти предупреждения будут восприниматься всё серьёзнее.
С 2011 года Легг стабильно указывает 2028 год как медианную дату наступления AGI — то есть 50% шанс появления к этому времени.
https://vetta.org/2009/08/funding-safe-agi/
Ещё 16 лет назад он предсказал:
В течение 10–20 лет организация SIAI (ныне MIRI, основанная Элиезером Юдковски) поднимет осведомлённость о рисках AGI.
По мере прогресса в ИИ эти предупреждения будут восприниматься всё серьёзнее.
С 2011 года Легг стабильно указывает 2028 год как медианную дату наступления AGI — то есть 50% шанс появления к этому времени.
https://vetta.org/2009/08/funding-safe-agi/
Forwarded from Machinelearning
По бенчмаркам Qwen3-Max-Preview опережает предыдущий флагман Qwen3-235B-A22B-2507.
Внутренние тесты и первые отзывы пользователей говорят о том, что модель стала сильнее в диалогах, агентных задачах, следовании инструкциям и обладает более широкими знаниями.
Qwen обещают очень скоро выпустить ещё что-то интересное.
Qwen3-Max-Preview уже доступна в Qwen Chat и через Alibaba Cloud API.
@ai_machinelearning_big_data
#AI #Qwen3 #LLM #AlibabaCloud #QwenChat
Please open Telegram to view this post
VIEW IN TELEGRAM