Big data world
2.39K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
IMAGDressing-v1: настраиваемая виртуальная одежда

Последние достижения позволили добиться реалистичной виртуальной примерки (VTON) посредством локализованной прорисовки одежды с использованием моделей скрытой диффузии, что значительно улучшило опыт онлайн-покупок для потребителей. https://github.com/muzishen/imagdressing
DataComp-LM (DCLM) — это комплексная структура, разработанная для создания и обучения больших языковых моделей (LLM) с разнообразными наборами данных.

https://github.com/mlfoundations/dclm
Викторина «Трансформеры с обнимашками»

В этом тесте вы проверите свое понимание Hugging Face Transformers . Эта библиотека является популярным выбором для работы с моделями трансформаторов в задачах обработки естественного языка, компьютерного зрения и других приложениях машинного обучения.

https://realpython.com/quizzes/hugging-face-transformers
Прикладное машинное обучение для табличных данных

Мы хотим создать практическое руководство по разработке качественных предиктивных моделей из табличных данных… Книга дает целостный взгляд на процесс предиктивного моделирования и фокусируется на нескольких областях, которые обычно остаются вне подобных работ. Например, эффективность модели может зависеть от того, как представлены предикторы. Из-за этого мы тесно связываем методы проектирования признаков с моделями машинного обучения. Кроме того, довольно много работы происходит после того, как мы определили нашу лучшую модель и создали окончательную подгонку. Эти действия после моделирования являются важной частью процесса разработки модели и будут подробно описаны…

https://aml4td.org/
MINT-1T: мультимодальный чередующийся набор данных объемом один триллион токенов.

Мультимодальные чередующиеся наборы данных, включающие чередующиеся последовательности изображений и текста свободной формы, имеют решающее значение для обучения передовых больших мультимодальных моделей (LMM). Несмотря на быстрое развитие LMM с открытым исходным кодом, по-прежнему наблюдается выраженный дефицит крупномасштабных разнообразных мультимодальных чередующихся наборов данных с открытым исходным кодом. В ответ на это мы представляем MINT-1T, самый обширный и разнообразный набор данных Multimodal INTerleaved с открытым исходным кодом на сегодняшний день.

https://github.com/mlfoundations/mint-1t
👍2
Изучите основы RAG и продвинутые методы

Понимание того, как улучшить возможности систем ИИ и машинного обучения, является ценным навыком. Одним из методов является Retrieval-Augmented Generation (RAG), мощная техника, которая сочетает методы, основанные на поиске, с генеративными моделями для создания более точных и контекстно-релевантных ответов.

https://www.freecodecamp.org/news/learn-rag-fundamentals-and-advanced-techniques
Потенциальное применение LLM, которое привлекло внимание и инвестиции, связано с их способностью генерировать SQL-запросы. Запросы к большим базам данных с использованием естественного языка открывают несколько привлекательных вариантов использования: от повышения прозрачности данных до улучшения доступности для нетехнических пользователей.

Однако, как и в случае с любым контентом, сгенерированным ИИ, вопрос оценки важен. Как мы можем определить, является ли SQL-запрос, сгенерированный LLM, правильным и дает ли он предполагаемые результаты? Наше недавнее исследование углубляется в этот вопрос и изучает эффективность использования LLM в качестве судьи для оценки генерации SQL.

https://towardsdatascience.com/evaluating-sql-generation-with-llm-as-a-judge-1ff69a70e7cf
Наглядное руководство по квантованию — демистификация сжатия LLM

Большие языковые модели (LLM) часто слишком велики для запуска на потребительском оборудовании. Эти модели могут содержать миллиарды параметров и, как правило, требуют графических процессоров с большим объемом видеопамяти для ускорения вывода. Таким образом, все больше исследований было сосредоточено на том, чтобы сделать эти модели меньше за счет улучшения обучения, адаптеров и т. д. Одна из основных методик в этой области называется квантованием. В этой статье я представлю область квантования в контексте моделирования языка и рассмотрю концепции одну за другой, чтобы развить интуицию об этой области. Мы рассмотрим различные методологии, варианты использования и принципы, лежащие в основе квантования… https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

Интерпретируемое машинное обучение

Руководство по созданию объяснимых моделей черного ящика
https://christophm.github.io/interpretable-ml-book
Многоагентная структура веб-поисковой системы на основе LLM (например, Perplexity.ai Pro и SearchGPT)

MindSearch — это фреймворк поисковой системы ИИ с открытым исходным кодом и производительностью Perplexity.ai Pro. Вы можете просто развернуть его с собственной поисковой системой в стиле perplexity.ai с закрытыми исходными кодами LLM (GPT, Claude) или с открытыми исходными кодами LLM (InternLM2.5-7b-chat). https://github.com/internlm/mindsearch
Создавайте более надежные деревья решений с помощью самонастройки и генетических алгоритмов

Метод, позволяющий лучше использовать деревья решений в качестве интерпретируемых моделей. https://towardsdatascience.com/create-stronger-decision-trees-with-bootstrapping-and-genetic-algorithms-1ae633a993c9
Spark!= Pandas + Поддержка больших данных
Будьте осторожны, перенося свои знания с Pandas на Spark.

Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.

Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
2👍1
Как справиться с отсутствующими данными с помощью методов интерполяции в Pandas

Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas