Big data world

Наблюдение и аналитика с открытым исходным кодом для приложений LLM

Langfuse — это решение для наблюдения и аналитики с открытым исходным кодом для приложений на основе LLM. Он в основном ориентирован на производственное использование, но некоторые пользователи также используют его для локальной разработки своих приложений LLM.

https://github.com/langfuse/langfuse

GitHub

GitHub - langfuse/langfuse: 🪢 Open source LLM engineering platform: LLM Observability, metrics, evals, prompt management, playground…

🪢 Open source LLM engineering platform: LLM Observability, metrics, evals, prompt management, playground, datasets. Integrates with OpenTelemetry, Langchain, OpenAI SDK, LiteLLM, and more. 🍊YC W23 ...

561 views13:13

Big data world

Проектирование глубоких сетей для обработки других глубоких сетей

https://developer.nvidia.com/blog/designing-deep-networks-to-process-other-deep-networks/

NVIDIA Technical Blog

Designing Deep Networks to Process Other Deep Networks

Deep neural networks (DNNs) are the go-to model for learning functions from data, such as image classifiers or language models.

631 views07:12

Big data world

This media is not supported in your browser

VIEW IN TELEGRAM

От экспериментов 🧪 к развертыванию 🚀: MLflow 101 | Часть 01
Улучшите свое путешествие по MLOps, создав спам-фильтр с помощью Streamlit и MLflow

Давайте посмотрим на конвейер, который мы собираемся построить к концу этого блога 👆

Держитесь крепче, потому что это не будет быстрым чтением! потому что сжатие означало бы упущение важных деталей. Мы создаем комплексное решение MLOps https://pub.towardsai.net/from-experiments-to-deployment-mlflow-101-40638d0e7f26

👍3

595 views05:57

Big data world

Работайте с большими, уродливыми, уродливыми файлами CSV.

Советы и подсказки , вдохновленные DuckDB, файлами Parquet и OpenCoesione.
https://shly.link/TSkxv

aborruso-github-io.translate.goog

aborruso’s website - Gestire file CSV grandi, brutti e cattivi

Tips & tricks, ispirati da DuckDB, file Parquet e OpenCoesione

632 views06:27

Big data world

Сегментация медицинских изображений достигла впечатляющих успехов! Специальная группа исследователей из Шанхайской лаборатории искусственного интеллекта при Сычуаньском университете добилась значительных успехов в анализе медицинских изображений. Они значительно улучшили интерпретацию медицинских изображений, используя безграничный потенциал модели Segment Anything для 2D (SAM-Med2D).

SAM-Med2D предлагает современные методы повышения точности и эффективности сегментации медицинских изображений. Это достижение может изменить то, как врачи классифицируют и идентифицируют заболевания, улучшая лечение пациентов и улучшая результаты.

Github: https://github.com/uni-medical/sam-med2d

Colab: https://colab.research.google.com/github/uni-medical/SAM-Med2D/blob/main/predictor_example.ipynb

Paper: https://arxiv.org/abs/2308.16184

Dataset: https://paperswithcode.com/dataset/sa-1b

👍3❤2

655 views07:46

Big data world

🤖 🔥AI Copilot для вашего собственного SaaS-продукта. Помощник по искусственному интеллекту с открытым исходным кодом для всех.

https://github.com/openchatai/OpenCopilot

GitHub

GitHub - openchatai/copilot

Contribute to openchatai/copilot development by creating an account on GitHub.

609 views06:24

Big data world

RecMind: Агент для рекомендаций на основе больших языковых моделей

Недавние достижения значительно расширили возможности больших языковых моделей (LLM) в различных задачах, однако их потенциал в области персонализированных рекомендаций остается относительно неизученным. Для устранения этого пробела был разработан новый автономный агент-рекомендатор на базе LLM под названием RecMind. RecMind предназначен для предоставления высокоперсонализированных рекомендаций за счет использования алгоритмов планирования, подключения к внешним источникам данных и использования индивидуальных данных.

Paper: https://arxiv.org/abs/2308.14296

Подробный неофициальный обзор статьи:
https://andlukyane.com/blog/paper-review-recmind

Andlukyane

Paper Review: RecMind: Large Language Model Powered Agent For Recommendation – Andrey Lukyanenko

My review of the paper RecMind Large Language Model Powered Agent For Recommendation

👍2

761 views16:13

Big data world

Forwarded from General programming

Представляем freeCodeCamp Press — бесплатные книги для разработчиков

Сообщество freeCodeCamp за годы опубликовало более 10 000 руководств. Но в последнее время мы сосредоточились на создании еще более объемных ресурсов для изучения математики, программирования и информатики.

Вот почему мы создали freeCodeCamp Press — подразделение freeCodeCamp, где мы публикуем полноформатные книги и справочники — все они доступны каждому бесплатно. https://www.freecodecamp.org/news/freecodecamp-press-books-handbooks/

freeCodeCamp.org

Introducing freeCodeCamp Press – Free Books for Developers

The freeCodeCamp community has published more than 10,000 tutorials on our publication over the years. But lately we've focused on creating even longer resources for learning math, programming, and computer science. This is why we've created freeCode...

491 views05:23

Big data world

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса.

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.

Читать далее https://habr.com/ru/companies/itsumma/articles/758996

Хабр

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани , инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе...

591 views06:03

Big data world

Клонирование голоса, замена лица по фото, удаления объектов в видео и все в одном open-source проекте Wunjo AI.

Привет, читатель! В этой статье вы погрузитесь в захватывающий мир новых возможностей для создания дипфейков и синтеза речи в Wunjo AI v1.5, проект полностью с открытым исходным кодом. Вы узнаете о последних фичах, которые позволяют помимо синтеза речи, теперь клонировать голос из аудиофайлов или даже в режиме реального времени, меняют лица на видео с использованием всего одной фотографии, удаляют объекты с видеороликов и значительно повышают качество дипфейков с помощью нейронных сетей для ретуширования. К тому же остается возможность создавать анимацию лица из обычных картинок и анимирования движение губ по аудио в Wunjo AI, Вы не только увидите и услышите результаты этих функций, но и окунетесь в мир приложения, которое делает это возможным.

Важно отметить, что Wunjo AI с открытым исходным кодом доступен для установки локально на операционных системах Windows, Ubuntu и MacOS, и это абсолютно бесплатно, без ограничений.

Готовы? Погнали! https://habr.com/ru/articles/759566

Хабр

Клонирование голоса, замена лица по фото, удаления объектов в видео и все в одном open-source проекте Wunjo AI

Привет всем! В этой статье я хочу поделиться с вами новостями об недавнем обновлении, рассказать какие появились новые функции в моем open-source проекте Wunjo AI v1.5. Изначально я начал...

535 views07:17

Big data world

Лучшие практики в области науки о данных, часть 1. Тестируйте свои запросы

Как убедиться, что наши запросы выполняют то, что мы от них ожидаем, и другие будущие блага.
https://towardsdatascience.com/data-science-better-practices-part-1-test-your-queries-629ad5209f28

Medium

Data Science Better Practices, Part 1 — Test Your Queries

How to increase the correctness and stability of our code, better manage our models, and improve teamwork

526 views07:30

Big data world

Как (быстро) сделать русский локальный ChatGPT.

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

Читать далее https://habr.com/ru/articles/759386

Хабр

Как (быстро) сделать русский локальный ChatGPT

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей...

559 views09:38

Big data world

Углубленное изучение фундаментальных принципов и широкого спектра применения LLM

Модели больших языков (LLM) являются центральной темой современного машинного обучения. Это статистические модели, обученные на огромных объемах текста, позволяющие им понимать и генерировать язык. Их сила заключается в обработке сложной информации, понимании контекста и предоставлении соответствующих результатов. Продолжая, мы обсудим основы и применение программ LLM, а также их роль в современном технологическом ландшафте. https://dev.to/ulianaev/in-depth-exploration-of-the-fundamental-principles-and-broad-spectrum-applications-of-llms-3p90

DEV Community

In-depth Exploration of the Fundamental Principles and Broad-Spectrum Applications of LLMs

What exactly are LLMs? Large Language Models (LLMs) are a central topic in modern machine...

648 views11:15

Big data world

Список, поясняющий основные концепции и работы в области ML

https://github.com/dair-ai/ML-Papers-Explained

645 views06:34

Big data world

Обучение LLM: RLHF и его альтернативы

Я часто ссылаюсь на процесс под названием «Обучение с подкреплением с обратной связью с человеком» (RLHF) при обсуждении LLM, будь то в исследовательских новостях или в учебных пособиях. RLHF является неотъемлемой частью современного процесса обучения LLM благодаря своей способности учитывать человеческие предпочтения в среде оптимизации, что может повысить полезность и безопасность модели.

В этой статье я пошагово разберу RLHF

https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives

Sebastianraschka

LLM Training: RLHF and Its Alternatives

I frequently reference a process called Reinforcement Learning with Human Feedback (RLHF) when discussing LLMs, whether in the research news or tutorials.

581 views08:04

Big data world

📝Построение моделей на основе SQL в MLflow для оптимизированного управления жизненным циклом машинного обучения

Пошаговое руководство по интеграции моделей SQL в экосистему MLflow

https://levelup.gitconnected.com/bridging-the-gap-constructing-sql-based-models-in-mlflow-for-streamlined-ml-lifecycle-management-f7c4b9e4e667

📝Точная настройка больших языковых моделей (LLM)

https://towardsdatascience.com/fine-tuning-large-language-models-llms-23473d763b91
Концептуальный обзор с примером кода Python

Medium

Bridging the Gap: Constructing SQL-Based Models in MLflow for Streamlined ML Lifecycle Management

A Step-by-Step Guide to Integrating SQL Models into the MLflow Ecosystem

👍2

599 views11:37

Big data world

В последнее время HN проявляет большой интерес к тонкой настройке LLM с открытым исходным кодом. Я несколько лет экспериментировал с тонкой настройкой моделей и хотел поделиться некоторыми идеями и практическим кодом. Я собрал все, что узнал, в небольшой набор блокнотов по адресу

https://github.com/OpenPipe/OpenPipe/tree/main/examples/classify-recipes

GitHub

OpenPipe/examples/classify-recipes at main · OpenPipe/OpenPipe

Turn expensive prompts into cheap fine-tuned models - OpenPipe/OpenPipe

573 views07:00

Новая модель сегментации видео для "отслеживания чего угодно" без обучения по видео для любой отдельной задачи.

🖥

Github: https://github.com/hkchengrex/Tracking-Anything-with-DEVA

🖥

Colab: https://colab.research.google.com/drive/1OsyNVoV_7ETD1zIE8UWxL3NXxu12m_YZ?usp=sharing

⏩

Project: https://hkchengrex.github.io/Tracking-Anything-with-DEVA/

📕

Paper: https://arxiv.org/abs/2309.03903v1

⭐️

Docs: https://paperswithcode.com/dataset/burst

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

570 views12:17

Big data world

Создание модели линейной регрессии в Python

В этом посте я создам модель линейной регрессии, используя библиотеку scipy , и сравню эту модель с моделью линейной регрессии, найденной в библиотеке sklearn . Конечно, наша цель здесь — не конкурировать с библиотекой sklearn, однако по мере построения модели вы узнаете больше о том, как работает линейная регрессия и лежащая в ее основе динамика. https://medium.com/@ozzgur.sanli/creating-a-linear-regression-model-in-python-c5ee20b50aec

Medium

Creating a Linear Regression Model in Python

In this post, I will create a linear regression model using the scipy library and I will compare this model with the linear regression…

660 views12:33

Big data world

Комплексное руководство по созданию приложений LLM на основе RAG

https://github.com/ray-project/llm-applications/blob/main/notebooks/rag.ipynb

576 views05:43

Big data world

Создаём субтитры для любого видео в интернете с помощью нейросети в браузере.

Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто-то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно. Или пользователь включает субтитры, когда ему непонятно, что говорит спикер. Для слабослышащих людей субтитры — это один из немногих способов ознакомиться с содержанием видеороликов.

Но чаще всего включить субтитры в видеоплеере сайта доступны, только когда владелец веб-ресурса предусмотрел такую возможность. Яндекс Браузер решил эту проблему: он научился самостоятельно генерировать субтитры для видео на русском языке. Новая функция работает на любых сайтах: видеохостинги, социальные сети, страницы телеканалов. Также субтитры работают для роликов, которые доступны только после авторизации или загружены в облачные хранилища. Это стало возможным благодаря нейросети, встроенной в десктопную версию Браузера.

В этой статье я расскажу, как мы построили модель для генерации субтитров и на что нам пришлось пойти, чтобы она стала потреблять в 5 раз меньше оперативной памяти. А ещё поговорим про квантизацию свёрток и трансформеров и почему fp16 не так прост, как кажется.

Читать далее https://habr.com/ru/companies/yandex/articles/758782/

Хабр

Создаём субтитры для любого видео в интернете с помощью нейросети в браузере

Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто‑то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно....

607 views05:44

About

Blog

Apps

Platform