Big Data AI – Telegram

Big Data AI

16.9K subscribers

867 photos

101 videos

19 files

865 links

@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe

Download Telegram

About

Blog

Apps

Platform

16.9K subscribers

Forwarded from Machinelearning

🌟 LAION-DISCO-12M: большой датасет музыки с Youtube.

Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.

Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".

Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.

Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.

Поля метаданных:

🟢song_id - идентификатор трека;
🟢title - название;
🟢artist_names - имя исполнителя;
🟢artist_ids - идентификатор исполнителя;
🟢album_name - название альбома;
🟢album_id - идентификатор альбома;
🟢isExplicit - признак наличия ненормативной лексики;
🟢views - количество просмотров;
🟢duration - продолжительность трека.

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Датасет

@ai_machinelearning_big_data

#AI #ML #LAION #Audio #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2

1.93K views13:32

Новая открытая версия от Apple - AIMv2 - крупномасштабные визуальные кодеры 🔥

> > Превосходит CLIP и SigLIP по основным показателям мультимодального понимания
> Превосходит DINOv2 по обнаружению объектов
> Высокая эффективность распознавания с помощью AIMv2-3B, достигающая 89,5% на ImageNet
> Интегрированные трансформаторы (пользовательский код)

▪HF: https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c
▪Paper: https://huggingface.co/papers/2411.14402

@bigdatai

👍3❤1👎1🔥1💩1🤡1

2.59K views14:47

🔥

Selective Context — полезный инструмент, который сжимает ваш запрос и контекст, позволяя LLM (например, ChatGPT) обрабатывать в 2 раза больше контента. Это особенно полезно при работе с длинными документами и поддержании длительных разговоров без ущерба для производительности при выполнении различных задач!

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤3👌2🥰1

2.45K views12:01

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 LogoCreator — приложение с открытым исходным кодом, которое использует Flux 1.1 для генерации разнообразных логотипов по вашему запросу!

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🔥2👌1

2.24K views13:01

🖥

SQLFluff — это инструмент для статического анализа SQL-кода (SQL-linter), который помогает проверять и форматировать SQL-запросы в соответствии с определёнными стилевыми правилами!

🌟 Этот проект поддерживает гибкость за счёт настройки под разные диалекты SQL, такие как ANSI SQL, PostgreSQL, MySQL, BigQuery, Snowflake и многие другие.

🌟 Он особенно полезен в проектах ETL и ELT, а также совместим с такими инструментами, как Jinja и dbt (Data Build Tool), поддерживая шаблонизированные SQL-запросы. SQLFluff может автоматически исправлять большинство ошибок форматирования, экономя время разработчиков и позволяя сосредоточиться на задачах высокой важности. Для удобства пользователей доступно расширение для Visual Studio Code и подробная документация.

🔐 Лицензия: MIT

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3😍3👌2

2.3K views13:01

Forwarded from Machinelearning

🌟 SmolTalk: синтетический англоязычный датасет для обучения LLM.

SmolTalk - это синтетический датасет, разработанный HuggingFace для обучения SmolTalk: новый синтетический набор данных для обучения больших языковых моделей LLM с учителем. Он состоит из 2 млн. строк и был использован для создания семейства моделей SmolLM2-Instruct. SmolTalk включает в себя как новые, так и существующие наборы данных.

Новые наборы данных:

🟢Smol-Magpie-Ultra (400 тыс. строк);
🟢Smol-constraints (36 тыс. строк);
🟢Smol-rewrite (50 тыс. строк);
🟢Smol-summarize (101 тыс. строк).

Существующие общедоступные наборы данных:

🟠OpenHermes2.5 (100 тыс. строк);
🟠MetaMathQA (50 тыс. строк);
🟠NuminaMath-CoT (1120 тыс. строк);
🟠Self-Oss-Starcoder2-Instruct (1120 тыс. строк);
🟠SystemChats2.0 (30 тыс. строк);
🟠LongAlign (примеры на английском языке с менее 16 тыс. токенов);
🟠Everyday-conversations (50 тыс. строк);
🟠APIGen-Function-Calling (80 тыс. строк);
🟠Explore-Instruct-Rewriting (30 тыс. строк).

SmolTalk сравнили недавно выпущенным набором данных Orca AgentInstruct 1M, обучив SmolLM2 на обоих наборах данных с использованием одинаковой конфигурации обучения.

Результаты показали, что SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следованию системным промптам. Наблюдались также значительные улучшения в масштабе 7B при обучении Mistral-7B на SmolTalk, особенно по показателям IFEval, BBH, GS8Mk и MATH.

▶️Загрузка датасета для трейна:

from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/smoltalk", "all", split="train")
# to load the train split of a specific subset such as smol-magpie-ultra, you can do
ds = load_dataset("HuggingFaceTB/smoltalk", "smol-magpie-ultra", split="train")

📌Лицензирование: Apache 2.0 License.

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

2.25K views21:24

📝

LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы!

🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных.

🔍 Основные функции:

🌟 Генерация графов знаний на основе предоставленных данных.

🌟 Возможность работы с собственными схемами данных или готовыми шаблонами.

🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов.

🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных.

🔐 Лицензия: Apache-2.0

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2👌2

1.97K views12:00

🔥Интересная дискуссия на reddit о 4-битном квантовании без потерь для Qwen2.5 от Intel AutoRound!

🎯Полный текст: https://reddit.com/r/LocalLLaMA/comments/1h0aev6/lossless_4bit_quantization_for_large_models_are/?rdt=60370

@bigdatai

From the LocalLLaMA community on Reddit: Lossless 4-bit quantization for large models, are we there?

Explore this post and more from the LocalLLaMA community

❤4👍2🔥2

1.91K views17:27

🔥

Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!

🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.

🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.

🔐 Лицензия: Apache-2.0

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥3👍2

2.27K views09:00

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ ERPoT: Эффективное и надежное отслеживание движения мобильных роботов на основе легких и компактных полигональных карт

https://github.com/ghm0819/ERPoT

@bigdatai

👎2💩2🤡2❤1👍1🔥1

2.14K views12:01

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.iss.one/ai_machinelearning_big_data
C++ t.iss.one/cpluspluc
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
АНАЛИЗ Данных: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/javatg
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/DevopsDocker
Golang: t.iss.one/golang_interview
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
Собеседования МЛ: t.iss.one/machinelearning_interview
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

👍2❤1🔥1

2.05K views10:49

📖

Эта статья описывает подход для улучшения процесса отладки кода, сгенерированного LLM!

🌟 Исследователи представляют метод MGDebugger, который использует иерархическую стратегию отладки. Этот метод включает разбиение кода на древовидную структуру подфункций и их независимую проверку. Это позволяет находить ошибки на различных уровнях детализации: от синтаксических до алгоритмических.

🌟 MGDebugger использует симуляцию выполнения кода внутри LLM для выявления и исправления ошибок. Он генерирует тесты для подфункций на основе публичных тестов основной функции, а затем анализирует их выполнение. В процессе исправления исправленный код обновляет всю структуру. Такой подход упрощает отладку сложных функций и делает процесс более систематичным и эффективным.

🔗 Читать: *клик*

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4👌2👎1🥰1

2.24K views13:01

🔍

fast-graphrag — инструмент, предназначенный для оптимизации работы Retrieval-Augmented Generation (RAG) с использованием графовых структур знаний!

🌟 Он расширяет возможности GraphRAG, добавляя поддержку алгоритма PageRank для улучшения поиска и обработки данных. Этот подход позволяет быстрее находить ключевую информацию, улучшать точность на 20% и снижать затраты на обработку данных примерно в 6 раз по сравнению с традиционными методами RAG.

🔐 Лицензия: MIT

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4👌3✍1🍌1

2.26K views14:02

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Все инструменты Flux.1 теперь находятся на HuggingFace Spaces!

🖌

🖼

⛱

Canny
🩻 Depth

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤4🥰2👍1👌1

2.3K views13:00

🔥

nsfw_detector — инструмент для автоматического распознавания NSFW-контента (неподходящего или откровенного)!

💡 Он основан на модели Google ViT, обеспечивает точную классификацию файлов и поддерживает обработку изображений, видео, PDF-документов и файлов в архиве.

🔍 Основные особенности:

🌟 Поддержка работы на CPU, без необходимости использования GPU, что делает его универсальным для большинства серверов.

🌟 Локальная обработка данных для защиты конфиденциальности.

🌟 Легкая интеграция через API и возможность развертывания через Docker.

🔐 Лицензия: Apache-2.0

🖥

Github

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4🔥1😁1👌1

2.22K views13:01

🪐 Multimodal Universe: Свежий датасет 100 ТБ научных астрономических данных

Мультимодальный набор данных Universe - это крупномасштабная коллекция мультимодальных астрономических данных, включая изображения, спектры и кривые блеска, предназначеный для проведения исследований в области астрономии и астрофизики.


python
from datasets import load_dataset

dset = load_dataset('MultimodalUniverse/plasticc', 
                    split='train', streaming=True)

example = next(iter(dset))

Github: https://github.com/MultimodalUniverse/MultimodalUniverse
Colab: https://colab.research.google.com/github/MultimodalUniverse/MultimodalUniverse/blob/main/notebooks/getting_started.ipynb
HF: huggingface.co/MultimodalUniverse

@bigdatai

❤6👍4🔥2👎1🤡1

2.23K views22:11

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ PaliGemma 2: Новое семейство VLMs от Google.

PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).

PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.

В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.

Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.

В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.

Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.

Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.

▶️Пример инференса модели paligemma2-10b-ft-docci-448 на Transformers:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])

📌Лицензирование: Gemma License.

🟡

🟡

Коллекция на HF

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #VLM #Google #PaliGemma

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥1

1.88K views11:45