Big Data AI
16.8K subscribers
840 photos
99 videos
19 files
838 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Xwen 🔥 серия открытых моделей, основанных на моделях Qwen2.5, разработанных блестящей исследовательской группой аспирантов из Китая.

7B/72B
Apache 2.0
Xwen-72B-Chat превзошел DeepSeek V3 на Arena Hard Auto

https://huggingface.co/collections/shenzhi-wang/xwen-chat-679e30ab1f4b90cfa7dbc49e

@bigdatai
👍31🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🛠 SmolLM2-135M-Instruct, крошечный LLM, который квантуется до размера чуть меньше 100 МБ... что означает, что он может поместиться в PyPI-пакет!

Вот первый плагин LLM, который включает в себя полную модель в составе пакета:

llm install llm-smollm2

https://simonwillison.net/2025/Feb/7/pip-install-llm-smollm2/

@bigdatai
🔥53👍3
Forwarded from Machinelearning
✔️ OpenAI открывает свой первый немецкий офис в Мюнхене.

OpenAI планирует создать местную команду, которая будет заниматься продажами, развитием, коммуникациями, лоббированием и укрепить связи с немецкими университетами. По словам Сэма Альтмана, репутация Германии в области технического совершенства и промышленных инноваций сделала ее естественным выбором для расширения OpenAI. Германия - один из ключевых рынков OpenAI , а за последний год количество платных пользователей ChatGPT в Германии увеличилось в три раза.
heise.de

✔️ ОАЭ инвестируют до 50 миллиардов евро в кампус искусственного интеллекта во Франции.

Объединенные Арабские Эмираты и Франция подписали соглашение о строительстве масштабного ИИ-кампуса с ЦОД мощностью в 1 гигаватт. Проект потребует инвестиций в размере от 30 до 50 миллиардов евро и станет крупнейшим объектом такого рода в Европе.

Проект кампуса, подписанный президентом Франции и президентом ОАЭ будет разработан консорциумом французских и эмиратских компаний, с участием инвестиционного фонда MGX. Точное местоположение объекта еще не определено.
france24.com

✔️ ИИ от DeepMind превосходит золотых медалистов Международной математической олимпиады в решении задач по геометрии.

ИИ AlphaGeometry2, улучшенная версия системы AlphaGeometry, превзошла среднего золотого медалиста в решении задач по геометрии на международном математическом конкурсе. DeepMind утверждает, что их ИИ может решить 84% всех олимпиадных задач по геометрии за последние 25 лет.

AlphaGeometry2 состоит из языковой модели из семейства Gemini и "символьного движка". Модель Gemini помогает символьному движку, который использует математические правила для вывода решений задач, приходить к возможным доказательствам для целевой теоремы. AlphaGeometry2 считает проблему "решенной", когда приходит к доказательству, которое объединяет предположения Gemini с принципами символьного движка. DeepMind создала свои собственные синтетические данные для обучения AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.
techcrunch.com

✔️ Microsoft Edge получил новую функцию блокировки scareware на базе ИИ для защиты от онлайн-мошенничества.

Новая функция Microsoft Edge на базе ИИ работает на компьютерах с Windows. Она способна выявлять и блокировать существующие мошеннические схемы и обнаруживать новые благодаря локальной модели машинного обучения.

Когда обнаруживается мошенничество, Microsoft Edge автоматически выходит из полноэкранного режима, который пытаются навязать вредоносные сайты, останавливает воспроизведение аудио и предупреждает пользователя миниатюрой просматриваемой страницы. После этого пользователь может сообщить о сайте, чтобы его добавили в службу Microsoft Defender SmartScreen.

Функция блокировки теперь доступна в предварительной версии в последней стабильной ветке браузера. Чтобы получить доступ к этой функции, необходимо вручную включить блокировку scareware в настройках конфиденциальности Edge и перезапустить браузер. Модель машинного обучения, используемая для блокировки, работает локально, не сохраняя и не отправляя данные в Microsoft.
theverge.com

✔️ Цукерберг и ко разрабатывают систему "чтения мыслей" для набора текста.

Компания разработала систему, способную анализировать мозговую активность человека во время набора текста и определять, какие клавиши он нажимает, основываясь только на мыслях. Система использует магнитно-энцефалографический сканер для сбора сигналов, производимых в коре головного мозга.

Несмотря на то, что система способна определять буквы с точностью до 80%, она далека от коммерческого применения из-за своего размера, стоимости в 2 миллиона долларов и необходимости работы в экранированной комнате. Разработчики рассматривают ее как фундаментальное исследование принципов интеллекта, которое может быть использовано для создания более мощных систем искусственного интеллекта, способных учиться и рассуждать, как люди.
technologyreview.com

✔️ НОВИНКА: Kokoro v1.0 с параметрами 82M, многоязычная модель TTS - работает в браузере!
🤗 Kokoro

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔬MedRAX: новаторский ИИ-агент, разработанный для медицинских задач!

Что такое MedRAX?

MedRAX - это первый универсальный ИИ-агент, который объединяет современные инструменты для анализа рентгеновских снимков грудной клетки и мультимодальные большие языковые модели в единую структуру, позволяющую динамически обосновывать сложные медицинские запросы без дополнительного обучения.

🎯 Чем хорош именно MedRAX?

Хотя специализированные модели ИИ отлично справляются с конкретными задачами рентгенографии грудной клетки, они часто не справляются с комплексным анализом и могут выдавать неточные рекомендации . Многим медицинским работникам нужна единая, надежная система, способная обрабатывать сложные запросы, сохраняя при этом точность. MedRAX призван стать таким инструментом

🛠️ Интегрированные инструменты:


- Визуальный контроль качества: CheXagent и LLaVA-Med
- Сегментация: MedSAM & ChestX-Det
- Формирование отчетов: CheXpert Plus
- Классификация: TorchXRayVision
- Grounding Maira-2
- Синтетические данные: RoentGen

💡 Ключевые особенности:

- Бесшовная интеграция специализированных медицинских инструментов с мультимодальными рассуждениями на основе больших языковых моделей.
- Динамическая оркестровка: Интеллектуальный выбор и координация инструментов для сложных запросов.
- Клиническая направленность: Разработан для реальных медицинских процессов.

📊 ChestAgentBench:

Разработчики также выпустили ChestAgentBench, комплексный эталон медицинского агента, созданный на основе 675 клинических случаев, проверенных экспертами, и включающий 2500 сложных медицинских запросов по 7 категориям.

🎉 Результаты говорят сами за себя:
- 63,1% точности на ChestAgentBench
- Sota результативность на CheXbench
- Превосходит как универсальные, так и специализированные медицинские модели

Paper: https://arxiv.org/abs/2502.02673
Код: https://github.com/bowang-lab/MedRAX

#ai #agents #ml #opensource #med #medicine

@bigdatai
👍73🔥2
Forwarded from Machinelearning
🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding


VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!

🌟 Модели поддерживают возможности обработки текста, изображений и видео.

Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.

🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4

🔐 Лицензирование: Apache-2.0

Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

@ai_machinelearning_big_data

#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
🔥 ReAG (Reasoning Augmented Generation) — это подход к генерации ответов, который улучшает традиционные системы Retrieval-Augmented Generation (RAG)!

🌟 Вместо стандартного двухэтапного процесса, где сначала выполняется семантический поиск для извлечения документов, а затем языковая модель генерирует ответы на их основе, ReAG позволяет языковой модели напрямую обрабатывать исходные документы. Это обеспечивает более глубокое понимание контекста и приводит к созданию более точных и содержательных ответов.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53❤‍🔥2👎1
🖥 Voluptuous — это библиотека на языке Python, предназначенная для валидации данных!

💡 Она позволяет разработчикам определять схемы для проверки структуры и типов данных, что особенно полезно при работе с конфигурационными файлами, пользовательским вводом или данными из внешних источников. С помощью Voluptuous можно легко описать ожидаемый формат данных и автоматически проверять соответствие входных данных этой схеме.

🔐 Лицензия: BSD-3-Clause

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥1
Forwarded from Machinelearning
✔️ Макрон объявил, что Франция планирует инвестировать в развитие ИИ 109 миллиардов евро в ближайшие годы.

Он уточнил, что среди инвесторов французских проектов в области ИИ будут компании из Объединенных Арабских Эмиратов, Соединенных Штатов, Канады и самой Франции.

Кроме того, Макрон подчеркнул намерение Парижа сотрудничать с Нью-Дели и Пекином для продвижения технологий искусственного интеллекта. «Мы стремимся к совместной работе с Индией», – сказал он, добавив, что Франция также намерена взаимодействовать с Китаем и Соединенными Штатами, однако не хочет зависеть ни от одной страны.

Относительно обсуждений о возможном запрете использования китайского чат-бота DeepSeek в некоторых странах, Макрон выразил мнение, что запрет технологических решений лишь на основании их происхождения является неоправданным шагом.
Новость

✔️OpenAI дебютировал на Super Bowl, выпустив рекламу ChatGPT стоимостью 14 миллионов долларов.
Видео

✔️ ByteDance показали новый генератор видео Goku.

- Goku: генеративная модель видео на основе потоков.
- Goku+: Модель, которая позиционируется, как модель для генерации видеорекламы и обещает быть в 100 раз дешевле, чем традиционные методы создания видео-рекламы.
Аrxiv

✔️ Свежий гайд, который поможет вам тренировать свой собственный ризониг LLM.

С этим ноутбуком примерно за 2 часа можно обучить модель Qwen 0.5B на математическом наборе данных GSM8K, используя обучение с подкреплением!
Colab Demo

✔️ LeRobot — это образовательный проект, направленный на создание бюджетного робота, стоимость каждой руки которого составляет всего 110 долларов. С помощью обычного ноутбука пользователи могут обучать робота различным навыкам.

Проект предлагает платформу с готовыми моделями, наборами данных и инструментами для работы с робототехникой на базе PyTorch.

На данный момент доступны предварительно обученные модели, демонстрационные среды для симуляций, а также готовые скрипты для обучения и управления реальными роботами.

Также предоставляются рекомендации по ведению логов и оценке моделей, а также ссылки на исследовательские материалы и примеры кода для профилирования.
Github

✔️ Стартап Ильи Суцкевера, сооснователя OpenAI, оценили в $20 миллиардов.

Safe Superintellgence(SSI), основанная в июне 2024, еще ничего не выпускает и не зарабатывает, так как первым продуктом обещают сразу ни больше ни меньше — safe AGI.

А пока просто посмотрите на сайт компании, которая УЖЕ привлекла миллиард долларов и собирается привлечь еще.
ssi.inc

Уверенность в себе и команде выглядит именно так 😎

@ai_machinelearning_big_data


#openai #deeplearning #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #qwen #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3😁21🔥1
✔️ Запущен архив данных data.gov

Library Innovation Lab (Гарвардский университет) запустила архив данных data.gov на платформе Source Cooperative. Коллекция объемом 16 ТБ включает более 311 000 наборов данных, собранных в 2024 и 2025 годах, и представляет собой полный архив федеральных публичных данных, связанных через data.gov. Архив будет ежедневно обновляться по мере добавления новых данных.

Этот проект является частью инициативы по сохранению важных публичных данных для академических исследований и общественного использования. Также опубликовано открытое ПО для создания подобных репозиториев. Проект поддерживается Filecoin Foundation и Rockefeller Brothers Fund.

Github
lil.law.harvard.edu

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1