Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Бесплатный курс Python для науки о данных

https://www.youtube.com/playlist?list=PLeLGx0BaYD6bsy5mfwo0mxONYWfR1VVbO
Квантование наборов данных (DQ) - это новая схема сжатия больших наборов данных в небольшие наборы, которые могут быть использованы для обучения любых нейросетевых архитектур.


🖥 Github: https://github.com/magic-research/dataset_quantization

📕 Статья: https://arxiv.org/abs/2308.10524v1

☑️ Dataset: https://paperswithcode.com/dataset/gsm8k
Понимание автоматической дифференциации в 30 строках Python

Я инженер по машинному обучению и использую в своей работе такие библиотеки, как Tensorflow и Pytorch, для обучения нейронных сетей. И я давно не хотел написать простейший фрагмент кода для выполнения так называемого автоматического дифференцирования , которое лежит в основе обучения нейронных сетей. https://vmartin.fr/understanding-automatic-differentiation-in-30-lines-of-python.html?utm_source=substack&utm_medium=email
Сможет ли Python пережить это? Компания Modular, стоящая за Mojo, только что собрала 100 миллионов долларов на исправление инфраструктуры искусственного интеллекта для разработчиков. Это много денег! Mojo — это язык программирования для разработчиков искусственного интеллекта, который в 35 000 раз быстрее Python https://venturebeat.com/ai/modular-looks-to-boost-ai-mojo-with-100m-funding-raise/
Современные большие языковые модели (Large Language Models, LLM) произвели революцию в нашей способности обрабатывать и понимать огромные объемы текстовых данных. Однако эти модели, такие как LLaMA и LLaMA2, часто имеют недостаток: они ограничены фиксированной длиной контекста, что означает, что они не могут работать с длинными последовательностями входных данных при оценке. В данной работе это ограничение решается путем исследования различных методов "экстраполяции длины контекста", что, по сути, позволяет этим моделям понимать и работать с более длинными текстовыми последовательностями.

Ссылка на статью: https://arxiv.org/abs/2308.10882
Ссылка на код: https://github.com/abacusai/Long-Context

Обзор статьи: https://andlukyane.com/blog/paper-review-giraffe
Создание простого образа Docker Data Science

В этом кратком руководстве рассказывается о настройке среды обработки данных Python с использованием Docker, описывается создание файла Dockerfile, создание образа, запуск контейнера, совместное использование и развертывание изображений, а также их отправка в Docker Hub. https://www.kdnuggets.com/2023/08/simple-docker-data-science-image.html
Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1).

Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.

Что такое Segment Anything (SAM)? 

SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI*  весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.

Читать далее https://habr.com/ru/companies/sberdevices/articles/757606/
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
CoTracker — модель для отслеживания любой точки (пикселя) на видео.

Эта архитектура основана на нескольких идеях из литературы по оптическим потокам и отслеживанию и объединяет их в новую, гибкую и мощную конструкцию. Он основан на сети преобразователей, которая моделирует корреляцию различных моментов времени с помощью специализированных уровней внимания.

Бумага: https://arxiv.org/abs/2307.07635
Код: https://github.com/facebookresearch/co-tracker
Демо: https://huggingface.co/spaces/facebook/cotracker

Сайт: https://co-tracker.github.io/
This media is not supported in your browser
VIEW IN TELEGRAM
В этой работе разрабатывается оптимизированный подход машинного обучения для оценки позы рук человека с помощью одних умных часов.

На двух примерах использования мы демонстрируем, что этот интуитивно понятный интерфейс управления позволяет пользователям быстро вмешиваться в поведение робота, временно корректировать свои цели или обучать совершенно новым политикам управления путем имитации.

https://arxiv.org/abs/2306.13192
Наблюдение и аналитика с открытым исходным кодом для приложений LLM

Langfuse — это решение для наблюдения и аналитики с открытым исходным кодом для приложений на основе LLM. Он в основном ориентирован на производственное использование, но некоторые пользователи также используют его для локальной разработки своих приложений LLM.

https://github.com/langfuse/langfuse
This media is not supported in your browser
VIEW IN TELEGRAM
От экспериментов 🧪 к развертыванию 🚀: MLflow 101 | Часть 01
Улучшите свое путешествие по MLOps, создав спам-фильтр с помощью Streamlit и MLflow

Давайте посмотрим на конвейер, который мы собираемся построить к концу этого блога 👆

Держитесь крепче, потому что это не будет быстрым чтением! потому что сжатие означало бы упущение важных деталей. Мы создаем комплексное решение MLOps https://pub.towardsai.net/from-experiments-to-deployment-mlflow-101-40638d0e7f26
👍3
Работайте с большими, уродливыми, уродливыми файлами CSV.

Советы и подсказки , вдохновленные DuckDB, файлами Parquet и OpenCoesione.
https://shly.link/TSkxv
Сегментация медицинских изображений достигла впечатляющих успехов! Специальная группа исследователей из Шанхайской лаборатории искусственного интеллекта при Сычуаньском университете добилась значительных успехов в анализе медицинских изображений. Они значительно улучшили интерпретацию медицинских изображений, используя безграничный потенциал модели Segment Anything для 2D (SAM-Med2D).

SAM-Med2D предлагает современные методы повышения точности и эффективности сегментации медицинских изображений. Это достижение может изменить то, как врачи классифицируют и идентифицируют заболевания, улучшая лечение пациентов и улучшая результаты.

Github: https://github.com/uni-medical/sam-med2d

Colab: https://colab.research.google.com/github/uni-medical/SAM-Med2D/blob/main/predictor_example.ipynb

Paper: https://arxiv.org/abs/2308.16184

Dataset: https://paperswithcode.com/dataset/sa-1b
👍32
🤖 🔥AI Copilot для вашего собственного SaaS-продукта. Помощник по искусственному интеллекту с открытым исходным кодом для всех.

https://github.com/openchatai/OpenCopilot
RecMind: Агент для рекомендаций на основе больших языковых моделей

Недавние достижения значительно расширили возможности больших языковых моделей (LLM) в различных задачах, однако их потенциал в области персонализированных рекомендаций остается относительно неизученным. Для устранения этого пробела был разработан новый автономный агент-рекомендатор на базе LLM под названием RecMind. RecMind предназначен для предоставления высокоперсонализированных рекомендаций за счет использования алгоритмов планирования, подключения к внешним источникам данных и использования индивидуальных данных.

Paper: https://arxiv.org/abs/2308.14296

Подробный неофициальный обзор статьи:
https://andlukyane.com/blog/paper-review-recmind
👍2
Forwarded from General programming
Представляем freeCodeCamp Press — бесплатные книги для разработчиков

Сообщество freeCodeCamp за годы опубликовало более 10 000 руководств. Но в последнее время мы сосредоточились на создании еще более объемных ресурсов для изучения математики, программирования и информатики.

Вот почему мы создали freeCodeCamp Press — подразделение freeCodeCamp, где мы публикуем полноформатные книги и справочники — все они доступны каждому бесплатно. https://www.freecodecamp.org/news/freecodecamp-press-books-handbooks/
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса.

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.

Читать далее https://habr.com/ru/companies/itsumma/articles/758996