Big Data AI
16.7K subscribers
792 photos
96 videos
19 files
804 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Forwarded from Machinelearning
📌Исследование различных типов связей между датасетами для улучшения их поиска.

В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.

Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:

🟢Поиск. Огромное количество данных в сети затрудняет поиск нужных датасетов.

🟢Оценка достоверности. В отличие от научных публикаций, датасеты редко проходят рецензирование, поэтому пользователям приходится полагаться на метаданные для оценки их надежности.

🟢Цитирование. Корректное цитирование требует наличия постоянных идентификаторов, метаданных и точного описания происхождения данных.

🟢Курирование: Курирование включает сбор, организацию и поддержку датасетов из разных источников, а для этого кураторам необходимо понимать связи между ними.

Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).

Для автоматического определения отношений между датасетами применяли 4 метода:

🟠Извлечение отношений из schema.org.
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.

🟠Эвристический подход.
Набор правил, разработанных для каждого типа отношений.

🟠Градиентный бустинг деревьев решений (GBDT).
Метод машинного обучения, основанный на классификации.

🟠Модель T5.
Генеративная модель, также используемая для классификации.

Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже молодец показал схожие результаты.

Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.


🟡Статья в блоге
🟡Arxiv
🟡Поиск по датасетам


@ai_machinelearning_big_data

#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
Forwarded from Machinelearning
⚡️ PaliGemma 2: Новое семейство VLMs от Google.

PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).

PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.

В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.

Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.

В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.

Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.

Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.

▶️Пример инференса модели paligemma2-10b-ft-docci-448 на Transformers:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])


📌Лицензирование: Gemma License.


🟡Статья
🟡Коллекция на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #VLM #Google #PaliGemma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥1
Forwarded from Machinelearning
✔️ Google представила новые геопространственные модели для анализа данных.

Google анонсировала запуск тестовой программы новых геопространственных и Population Dynamics моделей.

Эти инструменты объединяют генеративный ИИ (под капотом - Gemini), с данными спутниковых снимков и социальными индексами, чтобы ускорить анализ в сферах урбанистики, экологии и кризисного управления.

Модели позволяют находить объекты по описанию («дороги с заторами»), сегментировать ландшафты и предсказывать динамику населения. Интеграция с Google Cloud и Earth Engine дает разработчикам возможность для создания собственных решений — от медиапланирования до мониторинга сельхозугодий.

Первыми тестерами стали Airbus, Maxar и Planet Labs: они используют модели для анализа спутниковых данных в реальном времени. Сейчас доступ к моделям открыт через программу Trusted Tester, а детали Google обещает раскрыть в ближайшие месяцы.

🔗 research.google

@ai_machinelearning_big_data

#google #geospatialreasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍2