Big data world
2.36K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин.

У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы обсудили: позабытые ML-фреймворки и перспективы Reinforcement Learning, выяснили, какие платы с NPU лучше подходят для pet-project и зачем норвежцам роборуки.

Читать далее https://habr.com/ru/companies/magnus-tech/articles/768476/
Построение ML модели для оценки текста языкового экзамена.

Путешествуя по просторам Kaggle, я встретила обычный, на первый взгляд, датасет с результатами письменной части языкового экзамена IELTS. Так как недавно я сама активно готовилась к сдаче подобного экзамена, тема меня чрезвычайно заинтересовала и я решила попробовать создать модель, способную предсказывать оценку на основе текста эссе.

Итак, сначала определимся с постановкой задачи. Результаты экзамена оцениваются по шкале от 0.0 до 9.0, с шагом 0.5, поэтому я рассматривала задачу как многоклассовую классификацию.

Читать далее https://habr.com/ru/companies/otus/articles/768594
LoRA — один из наиболее широко используемых и эффективных по параметрам методов точной настройки для обучения пользовательских LLM. В этой статье представлены практические советы для тех, кто заинтересован в ее применении: от экономии памяти с помощью QLoRA до выбора оптимальных настроек LoRA. https://lightning.ai/pages/community/lora-insights
❤‍🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь вы можете запускать популярные LLM HF Space локально.

Для работы не требуется GPU, только обычные процессоры

https://github.com/neuralmagic/examples/tree/main/demos/sparse-mpt-7b-gsm8k
Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей!

Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве.

Кейсы:

• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах

🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года
❗️Даты финала: 24-25 ноября 2023 года
📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/136a20ebe22d

Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KXsfC
📝[Перевод] Объясняем простым языком, что такое трансформеры.

Облако предлагает много возможностей для развития ИИ. С помощью облачных вычислений проще масштабировать ML-модели, повышать точность обучения и предоставлять данные удаленно пользователям. Однако масштабное развертывание ML-моделей требует понимания архитектуры нейронных сетей. 

Один из важнейших инструментов машинного обучения — трансформеры. Популярность трансформеров взлетела до небес в связи с появлением больших языковых моделей вроде ChatGPT, GPT-4 и LLama. Эти модели созданы на основе трансформерной архитектуры и демонстрируют отличную производительность в понимании и синтезе естественных языков. 

Хотя в сети уже есть хорошие статьи, в которых разобран принцип действия трансформеров, большинство материалов изобилует запутанными терминами. Мы подготовили перевод статьи, в которой без кода и сложной математики объясняют современную трансформерную архитектуру.

Читать далее https://habr.com/ru/companies/cloud_mts/articles/770202

📝6 обязательных навыков в области науки о данных — полное руководство

Читать далее https://towardsdatascience.com/dont-apply-to-tech-without-mastering-these-6-must-have-data-science-skills-a-spotify-data-8b1b7b8cc0ba
3
Система оценки больших языковых моделей (GitHub Repo) В данном исследовании представлен "JudgeLM" - новый метод эффективной оценки больших языковых моделей в универсальных ситуациях. Авторы разработали обширный набор данных и систему бенчмаркинга. подробнее→ https://github.com/baaivision/judgelm

Эмулируйте обучение большой модели, просто обучая маленькую (28 минут чтения)

Программа Emulator Fine Tuning (EFT), разработанная группой оптимизации прямых предпочтений, изучает, что произойдет, если выполнить тонкую настройку небольшой модели, а затем спроецировать эту настройку на большую модель. https://arxiv.org/abs/2310.12962
Insanely Fast Whisper (GitHub Repo)

Расшифровка 300 минут аудиозаписей менее чем за 10 минут с помощью OpenAI's Whisper Large v2. подробнее→ https://github.com/Vaibhavs10/insanely-fast-whisper
Шаблоны Langchain-самый быстрый способ создать готовое к производству приложение LLM.

https://github.com/langchain-ai/langchain/tree/master/templates
👍2
10 основных навыков использования Jupyter Notebook для специалистов по обработке данных

Jupyter Notebook, веб-приложение с открытым исходным кодом, стало популярным инструментом для специалистов по данным во всем мире. Его интерактивный и удобный интерфейс делает его отличным выбором для анализа данных, визуализации и обмена информацией. Если вы занимаетесь анализом данных или стремитесь им стать, вам необходимо освоить Jupyter Notebook. В этой статье мы рассмотрим десять важнейших навыков, которые помогут повысить ваш уровень владения Jupyter Notebook https://www.analyticsinsight.net/10-essential-jupyter-notebook-skills-for-data-scientists
🚂 Онлайн-хакатон DataWagon с призовым фондом 900 000 рублей от Первой грузовой компании!

🛤 Треки:

1. ПГК Оракул - Прогнозирование спроса на грузовые ЖД перевозки
2. Чек-ап вагона - Прогнозирование отправления вагонов в ремонт
3. ЖД карта желаний - Создание карты движения поездов

🔝 Тебя ждут:
- Прокачка в решении практических задач на основе реальных данных
- Поддержка опытных экспертов ПГК Диджитал
- Погружение в атмосферу кодинга и фана

Если нет своей команды поможем ее собрать!
Регистрируйся и вступай в чат участников, получи ответы на волнующие вопросы, найди команду или создай свою.

▶️ Регистрация уже идет, успевай подать заявку по ссылке

Реклама. ООО "ФИЗТЕХ ДЖЕНЕЗИС". ИНН 7735184156. erid: LjN8KYtZV
This media is not supported in your browser
VIEW IN TELEGRAM
Фундаментальные понятия статистики и строительные блоки #DataAnalytics и #MachineLearning.

Набор Python matplotlib интерактивных приборных панелей, чтобы помочь вам понять эти фундаментальные концепции

https://github.com/GeostatsGuy/PythonNumericalDemos/blob/master/Interactive_MarginalJointConditional.ipynb
Математика для глубокого обучения 🧑‍🎓

Лучший ресурс для изучения математических концепций и лучшего понимания концепций машинного обучения и глубокого обучения:
https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html
Mimesis: идеальное решение для генерации данных.

Сбор данных имеет решающее значение для каждого проекта, связанного с машинным обучением. Однако не всегда искомые данные существуют или общедоступны. Во многих случаях получение данных является дорогостоящим или затрудненным из-за внешних условий. Кроме того, правила конфиденциальности влияют на способы использования или распространения набора данных. По всем этим причинам использование синтетических данных является хорошей альтернативой, поскольку с их помощью можно удовлетворить те же потребности без особых усилий.

В этой статье мы рассмотрим один из лучших пакетов для генерации синтетических данных.

Читать далее https://habr.com/ru/articles/771950/
Lazy Predict помогает создавать множество базовых моделей без большого количества кода и помогает понять, какие модели работают лучше без какой-либо настройки параметров.

Библиотека Python, которая позволяет обучать, тестировать и оценивать несколько моделей машинного обучения одновременно, используя всего несколько строк кода. https://github.com/shankarpandala/lazypredict