Big Data AI

👉 Обзоры по ML

Обзорные статьи, обобщающие достижения в области глубокого обучения, НЛП, CV, графов, обучения с подкреплением, рекомендаций, графов и т.д.

🔗 https://github.com/eugeneyan/ml-surveys
Перевести пост

@bigdatai

👍8❤2🔥1

2.64K views18:15

Big Data AI

Новая библиотека с открытым исходным кодом для всех, кто работает с данными.

Их инструмент поражает воображение. С помощью одной строки кода на языке Python он позволяет:

- Обнаружить распространенные проблемы с данными (неправильное наложение меток, пропуски, дубликаты, дрейф)
- Настройка и тестирование модели
- Проанализировать данные
- Активное обучение

Я потратил тысячи часов на проверку и исправление данных для обучения моделей машинного обучения. Этот инструмент может делать это автоматически.

Этот инструмент - волшебство.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2

2.92K views11:41

Big Data AI

⭐️ 10 способов повысить эффективность RAG-системы

LLM — удивительное изобретение, но с одной ключевой проблемой. Эти модели придумывают всякую ерунду. RAG (Retrieval Augmented Generation — генерация ответа, дополненная результатами поиска) повышает эффективность модели, предоставляя ей фактический контекст, необходимый при ответах на запросы.

Используя краткое руководство по запуску таких фреймворков, как LangChain и LlamaIndex, каждый может создать простую RAG-систему (например, чат-бота для работы с документами) с помощью примерно пяти строк кода.

Но бот, сконструированный с помощью этих пяти строк кода, не будет работать ожидаемо хорошо. RAG легко прототипировать, но очень трудно внедрить в производство, т. е. довести до состояния, которым будут довольны пользователи.

В базовой учебной версии RAG может работать на 80%. Но чтобы обеспечить недостающие 20%, часто требуются серьезные эксперименты. Лучшие практики еще не отработаны и могут варьироваться в зависимости от конкретной ситуации. Но ознакомление с ними стоит вашего времени, поскольку RAG — пожалуй, единственный наиболее эффективный способ применения LLM.

В этой статье рассматриваются стратегии повышения качества RAG-систем. Она предназначена для тех, кто создает RAG, стремясь преодолеть разрыв между базовыми настройками и достижением эффективности производственного уровня. В рамках данной статьи под оптимизацией понимается увеличение доли запросов, для которых система находит нужный контекст и генерирует соответствующий ответ.

Предполагаю, что читатель уже имеет представление о RAG-процессе и знаком со стандартными фреймворками, используемыми для реализации подобных стратегий: LangChain и LlamaIndex. Тем не менее обсуждаемые здесь идеи не зависят от фреймворка.

⚡️Читать дальше

@bigdatai

👍4❤3🔥1

2.84K views08:21

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

🧩

Визуизация работы сессии, файлов cookie, JWT, токенов, SSO и OAuth 2.0 на одной диаграмме

Когда вы входите на веб-сайт, возникает необходимость управления вашей учетной записью. Вот как работают разные решения:

▪ Токен — Ваша учетная запись закодирована в токене, отправленном в браузер. Браузер отправляет этот токен при будущих запросах аутентификации. Хранилище сеансов сервера не требуется. Но токены нуждаются в шифровании/дешифровании.

▪ Сессия — Сервер сохраняет вашу учетную запись и передает браузеру файл cookie с идентификатором сеанса. Это позволяет серверу отслеживать состояние входа в систему. Но файлы cookie не работают на разных устройствах.

▪ JWT — Веб-токены JSON стандартизируют токены идентификации, используя цифровые подписи для обеспечения проверки подлинности. Подпись содержится в токене, поэтому сеанс сервера не требуется.

▪ SSO — Система единого входа использует центральную службу аутентификации. Это позволяет одному логину работать на нескольких сайтах.

▪ OAuth2 — Разрешает ограниченный доступ к вашим данным на одном сайте другому сайту без разглашения паролей.

▪ QR-код — Набирающий популярность метод аутентификации. Кодирует случайный токен в QR-код для входа в систему с мобильного устройства. Сканирование кода позволяет войти в систему без ввода пароля.

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3🔥1

2.68K views11:01

Big Data AI

💥 Оcновные функции Pandas!

#pandas #datascience

@bigdatai

🥰7🔥3👍2❤1

3.32K views19:17

Big Data AI

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Новый Florence 2 от Microsoft имеет большое значение для компьютерного зрения.
Это слияние текста и зрения.

С помощью одного запроса вы можете поручить модели выполнение таких задач, как создание надписей, обнаружение объектов, выделение и сегментация.

Самое приятное, что для всего этого используется только одна основа.

▸ Превосходная производительность
▸ Единая модель для обнаружения, создания титров и т. д.
▸ Набор данных FLD-5B: 5B+ аннотаций, 126M изображений
▸ Новые бенчмарки (>5.5+) на COCO, ADE20K

https://arxiv.org/abs/2311.06242

@bigdatai

❤3🔥3👍1

2.74K views08:59

Big Data AI

🔥 Practical_RL

В этом репозитории вы найдете открытый курс по обучению с подкреплением в дикой природе. Этот курс уже преподается на кампусе ВШЭ и YSDA.

https://github.com/yandexdataschool/Practical_RL

@bigdatai

❤6🔥5👍1

2.64K views08:02

Big Data AI

💥 Архив из 32 датасетов, которые вы можете использовать для практики и совершенствования своих навыков исследователя данных

https://datasciencedojo.com/blog/datasets-data-science-skills

@bigdatai

👍10🔥4❤1

3.17K views03:25

Big Data AI

🔥 LLM могут почти идеально восстанавливать предложения

-GPT-4 почти безупречно обрабатывает входные данные с неестественными ошибками и восстанавливает оригиналы.
-Даже если все буквы в каждом слове зашифрованы, а токенизация радикально изменена.
-Сложная задача для других LLM и людей

arxiv.org/abs/2311.18805

❤6👍1🔥1

3.23K views16:07

Big Data AI

🔥

Алгоритмы и структуры данных

1. Введение
2. Временная сложность и Анализ алгоритмов
3. Массивы
4. Базовые алгоритмы сортировки
5. Эффективные алгоритмы сортировки # Рекурсия
6. Списки
7. Стек
8. Очереди
9. Линейный поиск и Бинарный поиск
10. Символьный таблицы / Словари

#video #algorithm

https://www.youtube.com/watch?v=jlheNrmPIQQ&list=PLBheEHDcG7-n6VhwSPZI64LwFmriuEvvR

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤2🥰1

3.69K viewsedited 16:19

Big Data AI

🔥 Простая и эффективная генерация текста с помощью pytorch-native трансформера на python <1000 LOC.

https://github.com/pytorch-labs/gpt-fast #deeplearning #machinelearning #ml #ai #neuralnetworks #datascience #pytorch

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2👎1

2.75K views09:01

Big Data AI

⚡️ Курсы бесплатно:

Excel: https://excel-practice-online.com

SQL: https://sqlbolt.com

Tableau: https://tableau.com/learn/starter-kits

Power BI: https://powerbi.microsoft.com/en-us/learning/

Python: https://freecodecamp.org/news/learn-data-analysis-with-python-course/

AI и ML: https://freecodecamp.org/news/machine-learning-with-python-and-scikit-learn/

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤4🔥2

3.28K views11:02

Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

Что такое MLX?

MLX - это фреймворк, выпущенный компанией Apple для эффективного обучения и вывода ML-моделей. MLX имеет Python API, который очень похож на NumPy.

pip install mlx - это все, что вам нужно! ✨

Фреймворк нем поддерживает Mixtral MoE, Llama, Whisper, Stable Diffusion и многое другое!

В видео запускаем его локально на M2 MBP Pro (24 ГБ).

Краткое руководство:
1. Создайте виртуальную среду

python -m venv mlx_experiments

2. активируйте виртуальную среду

source mlx_experiments/bin/activate

3. клонируйте репозиторий mlx-examples
git clone https://github.com/ml-explore/mlx-examples/

4. установите все requirements

pip install -r mlx-examples/whisper/requirements.txt

5. Используйте whisper в бэкенде mlx ✨

import whisper
whisper.transcribe(<file_name>, model="large-v2")

Код: Github

@bigdatai

👍7❤2🔥2

2.54K views09:43

Big Data AI

⚡️ Production Machine Learning

Этот репозиторий содержит список замечательных библиотек с открытым исходным кодом, которые помогут вам развертывать, отслеживать, версионировать, масштабировать и защищать производственное машинное обучение.

🔗 https://github.com/EthicalML/awesome-production-machine-learning

@bigdatai

👍7❤2🔥2

2.51K views13:35

Big Data AI

📚

The Breaking Into Data Handbook

В этом репозитории вы найдете ценные ресурсы, которые помогут вам начать работу в области
Аналитика данных, наука о данных, инженерия данных, машинное обучение и компьютерные науки.

https://github.com/meri-nova/breaking-into-data-handbook

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - break-into-data/break-into-data-handbook: Breaking Into Data Handbook

Breaking Into Data Handbook. Contribute to break-into-data/break-into-data-handbook development by creating an account on GitHub.

👍3🔥2❤1

4.51K views16:02

Big Data AI

🤗 Diffusers benchmarks - очень простой способ отслеживать производительность самых популярных и важных пайплайнов.

https://huggingface.co/datasets/diffusers/benchmarks

@bigdatai

❤3👍2🔥1

2.58K views10:01

Big Data AI

🔥 Дайджест полезных материалов из мира Больших данных за неделю

Почитать:
— Разметка данных: неочевидные затраты на голосовые технологии
— Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— RFM-сегментация в оптимизации CRM-стратегий
— MDM и CDP: различия систем. Как сделать выбор
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Survey: Retrieving Supporting Evidence for Generative Question Answering
— Introduction to NannyML: Model Evaluation without labels
— Revolutionizing Data Integration: The Role of AI and ML
— How to Use Pandas for Data Analysis
— Open Source Advent
— Bulk Text Analytics with Azure AI Language
— Top 10 Benefits of Artificial Intelligence (AI)
— Deciphering the EU's AI Act - A Technical Perspective
— Harness the power of multiple LLMs 🤝
— Google Gemini and Face Recognition

Посмотреть:

🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)

Хорошего дня!

@bigdatai

❤6👍3🔥2

2.92K views08:38

Big Data AI

Учёным и преподавателям в области Machine Learning вручили премию Yandex ML Prize

Это пятая премия Яндекса, направленная на развитие области машинного обучения. В этом году лауреатами стали 11 исследователей, среди их научных работ — разработка новых алгоритмов для решения задачи Шрёдингера, генеративные модели для компьютерного зрения и синтеза речи и решение проблемы архитектуры глубоких нейронных сетей. Исследования лауреатов расширяют возможности для прикладного применения ML-технологий.

Коммерсантъ

Петербуржец стал лауреатом международной премии Yandex ML Prize

Подробнее на сайте

👍6❤2🔥1

3.28K views08:29

Big Data AI

⬆️

Удобная шпаргалка по самым популярным облачным сервисам (выпуск 2023 года)

https://nodownload.org/image/ib/bTSIyMYgcz

@bigdatai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2

3.01K viewsedited 11:44

Big Data AI

Как построить собственный эффективный ИТ-конвейер?

Крупные компании с 2018 года переходят на отечественное программное обеспечение. И если раньше это делали неохотно, потому что не было адекватной замены, то сегодня все иначе. Более того, сейчас реально выстроить сквозной процесс управления производством ПО на всех этапах жизненного цикла DevSecOps и импортозаместить продукты Atlassian, Microfocus, Microsoft Azure, JetBrains, Informatica.

Платформа Сфера — это более 40 различных инструментов для всех этапов жизненного цикла ПО. В Telegram-канале «Сфера IT» рассказывают об удобных инструментах для бизнеса, делятся новостями мира технологий и дают анонсы полезных вебинаров.

Подписывайтесь на «Сфера IT» !

Реклама. Информация о рекламодателе

👍3

3.21K views09:02

About

Blog

Apps

Platform