Big data world
2.36K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь вы можете запускать популярные LLM HF Space локально.

Для работы не требуется GPU, только обычные процессоры

https://github.com/neuralmagic/examples/tree/main/demos/sparse-mpt-7b-gsm8k
Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей!

Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве.

Кейсы:

• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах

🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года
❗️Даты финала: 24-25 ноября 2023 года
📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/136a20ebe22d

Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KXsfC
📝[Перевод] Объясняем простым языком, что такое трансформеры.

Облако предлагает много возможностей для развития ИИ. С помощью облачных вычислений проще масштабировать ML-модели, повышать точность обучения и предоставлять данные удаленно пользователям. Однако масштабное развертывание ML-моделей требует понимания архитектуры нейронных сетей. 

Один из важнейших инструментов машинного обучения — трансформеры. Популярность трансформеров взлетела до небес в связи с появлением больших языковых моделей вроде ChatGPT, GPT-4 и LLama. Эти модели созданы на основе трансформерной архитектуры и демонстрируют отличную производительность в понимании и синтезе естественных языков. 

Хотя в сети уже есть хорошие статьи, в которых разобран принцип действия трансформеров, большинство материалов изобилует запутанными терминами. Мы подготовили перевод статьи, в которой без кода и сложной математики объясняют современную трансформерную архитектуру.

Читать далее https://habr.com/ru/companies/cloud_mts/articles/770202

📝6 обязательных навыков в области науки о данных — полное руководство

Читать далее https://towardsdatascience.com/dont-apply-to-tech-without-mastering-these-6-must-have-data-science-skills-a-spotify-data-8b1b7b8cc0ba
3
Система оценки больших языковых моделей (GitHub Repo) В данном исследовании представлен "JudgeLM" - новый метод эффективной оценки больших языковых моделей в универсальных ситуациях. Авторы разработали обширный набор данных и систему бенчмаркинга. подробнее→ https://github.com/baaivision/judgelm

Эмулируйте обучение большой модели, просто обучая маленькую (28 минут чтения)

Программа Emulator Fine Tuning (EFT), разработанная группой оптимизации прямых предпочтений, изучает, что произойдет, если выполнить тонкую настройку небольшой модели, а затем спроецировать эту настройку на большую модель. https://arxiv.org/abs/2310.12962
Insanely Fast Whisper (GitHub Repo)

Расшифровка 300 минут аудиозаписей менее чем за 10 минут с помощью OpenAI's Whisper Large v2. подробнее→ https://github.com/Vaibhavs10/insanely-fast-whisper
Шаблоны Langchain-самый быстрый способ создать готовое к производству приложение LLM.

https://github.com/langchain-ai/langchain/tree/master/templates
👍2
10 основных навыков использования Jupyter Notebook для специалистов по обработке данных

Jupyter Notebook, веб-приложение с открытым исходным кодом, стало популярным инструментом для специалистов по данным во всем мире. Его интерактивный и удобный интерфейс делает его отличным выбором для анализа данных, визуализации и обмена информацией. Если вы занимаетесь анализом данных или стремитесь им стать, вам необходимо освоить Jupyter Notebook. В этой статье мы рассмотрим десять важнейших навыков, которые помогут повысить ваш уровень владения Jupyter Notebook https://www.analyticsinsight.net/10-essential-jupyter-notebook-skills-for-data-scientists
🚂 Онлайн-хакатон DataWagon с призовым фондом 900 000 рублей от Первой грузовой компании!

🛤 Треки:

1. ПГК Оракул - Прогнозирование спроса на грузовые ЖД перевозки
2. Чек-ап вагона - Прогнозирование отправления вагонов в ремонт
3. ЖД карта желаний - Создание карты движения поездов

🔝 Тебя ждут:
- Прокачка в решении практических задач на основе реальных данных
- Поддержка опытных экспертов ПГК Диджитал
- Погружение в атмосферу кодинга и фана

Если нет своей команды поможем ее собрать!
Регистрируйся и вступай в чат участников, получи ответы на волнующие вопросы, найди команду или создай свою.

▶️ Регистрация уже идет, успевай подать заявку по ссылке

Реклама. ООО "ФИЗТЕХ ДЖЕНЕЗИС". ИНН 7735184156. erid: LjN8KYtZV
This media is not supported in your browser
VIEW IN TELEGRAM
Фундаментальные понятия статистики и строительные блоки #DataAnalytics и #MachineLearning.

Набор Python matplotlib интерактивных приборных панелей, чтобы помочь вам понять эти фундаментальные концепции

https://github.com/GeostatsGuy/PythonNumericalDemos/blob/master/Interactive_MarginalJointConditional.ipynb
Математика для глубокого обучения 🧑‍🎓

Лучший ресурс для изучения математических концепций и лучшего понимания концепций машинного обучения и глубокого обучения:
https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html
Mimesis: идеальное решение для генерации данных.

Сбор данных имеет решающее значение для каждого проекта, связанного с машинным обучением. Однако не всегда искомые данные существуют или общедоступны. Во многих случаях получение данных является дорогостоящим или затрудненным из-за внешних условий. Кроме того, правила конфиденциальности влияют на способы использования или распространения набора данных. По всем этим причинам использование синтетических данных является хорошей альтернативой, поскольку с их помощью можно удовлетворить те же потребности без особых усилий.

В этой статье мы рассмотрим один из лучших пакетов для генерации синтетических данных.

Читать далее https://habr.com/ru/articles/771950/
Lazy Predict помогает создавать множество базовых моделей без большого количества кода и помогает понять, какие модели работают лучше без какой-либо настройки параметров.

Библиотека Python, которая позволяет обучать, тестировать и оценивать несколько моделей машинного обучения одновременно, используя всего несколько строк кода. https://github.com/shankarpandala/lazypredict
101 упражнение Pandas для анализа данных

101 упражнение Python Pandas предназначены для того, чтобы бросить вызов вашим логическим мышцам и помочь усвоить манипулирование данными с помощью любимого пакета Python для анализа данных.

https://www.machinelearningplus.com/python/101-pandas-exercises-python/
Примеры, показывающие, как использовать API-интерфейс OpenAI Vision для обработки изображений, видеофайлов и потоков веб-камеры. Полностью автоматизированная маркировка изображений с помощью кода API GroundingDINO + SAM + OpenAI Vision: https://github.com/roboflow/awesome-openai-vision-api-experiments
Создание поиска в видео

Сегодня мы собираемся взглянуть на закулисную технологию, лежащую в основе того, как Netflix создает великолепные трейлеры, ролики для Instagram, короткометражные видеоролики и другие рекламные видеоролики.

Предположим, вы пытаетесь создать трейлер к боевику «Серый человек» и знаете, что хотите использовать кадр взрывающейся машины. Вы не знаете, существует ли этот кадр и где он находится в фильме, и вам приходится искать его, просматривая весь фильм.

Мы создали внутреннюю систему, которая позволяет кому-то выполнять поиск внутри видео по всему видеокаталогу Netflix, и мы хотели быподелиться своим опытом создания этой системы.

https://netflixtechblog.com/building-in-video-search-936766f0017c
👍2
Бесплатный практический вебинар: Рабочий день аналитика данных.

Когда: 15 ноября в 19:00 по мск.


✔️Погружаемся в профессию и составляем отчет о продажах интернет-магазина.

✔️Покажем, какие задачи решают аналитики данных, какие проекты реализуют и как помогают бизнесу принимать решения и расти.

✔️Расскажем, как пройти собеседование, найти удаленную работу и начать менять свою жизнь уже сегодня.

🎁 Дарим скидку 100 000 рублей на курс «Аналитик данных» и 20 000 рублей депозит до 19 ноября, а еще + 6 месяцев сопровождения наставника и карьерного трека после обучения!


Реклама. АНПОО "ХЕКСЛЕТ КОЛЛЕДЖ". ИНН 7839056670. erid: LjN8JycWu
Выпустив недавно отличную языковую модель Zephyr, команда HuggingFace демонстрирует, как можно обучать персонализированные модели, построенные на основе нескольких мощных предварительно обученных моделей с открытым исходным кодом. подробнее→ https://github.com/huggingface/alignment-handbook

Суперразрешение аудио (GitHub Repo
) Сверхразрешение звука - это процесс повышения качества и достоверности любого звука, реального или синтетического. Большинство систем суперразрешения ориентированы на конкретные задачи, при этом отдельные модели обучаются для отдельных типов аудиоданных. Эта новая работа - удивительный шаг вперед, когда одна модель может служить для повышения качества звука в разных задачах. подробнее→ https://github.com/haoheliu/versatile_audio_super_resolution
This media is not supported in your browser
VIEW IN TELEGRAM
Итак, Генеративный ИИ в РЕАЛЬНОМ ВРЕМЕНИ уже здесь. 🔥

Все инструменты проектирования, все рабочие процессы — ВСЕ изменится.

💡Вот все, что вам нужно знать о LCM-LoRA.

https://arxiv.org/abs/2311.05556

https://latent-consistency-models.github.io/