Big data world
2.35K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Бесплатные сертификационные курсы от MIT University

1. Introduction to Computational Thinking and Data Science https://edx.org/course/introduction-to-computational-thinking-and-data-4

2. Introduction to Computer Science and Programming Using Python https://edx.org/course/introduction-to-computer-science-and-programming-7

3. Machine Learning with Python: from Linear Models to Deep Learning https://edx.org/course/machine-learning-with-python-from-linear-models-to

4. Data Analysis: Statistical Modeling and Computation in Applications https://edx.org/course/statistics-computation-and-applications

5. Cybersecurity for Critical Urban Infrastructure https://edx.org/course/cybersecurity-clinic

6. Startup Success: How to Launch a Technology Company in 6 Steps https://edx.org/course/startup-success-how-to-launch-a-technology-company

7. Software Construction https://ocw.mit.edu/courses/6-005-software-construction-spring-2016/

8. Becoming an Entrepreneur https://edx.org/course/becoming-an-entrepreneur

9. Structure And Interpretation Of Computer Programs https://ocw.mit.edu/courses/6-001-structure-and-interpretation-of-computer-programs-spring-2005/
ECGAN новая система для решения сложной задачи семантического синтеза изображений.

https://github.com/ha0tang/ecgan

📕 Paper: https://arxiv.org/abs/2307.12084v1
[Перевод] Качественный набор данных от Microsoft для обучения компактных, но мощных языковых моделей, генерирующих код.

Обучение больших нейронных сетей — это искусство. В сфере ИИ уже давно известны следующие два факта. Во-первых — высококачественные учебные данные оказывают значительное влияние на улучшение результатов работы больших моделей. Во-вторых — применение таких данных способно бросить вызов законам масштабирования, имеющим отношение к размерам моделей и данных.

Исследовательская команда Microsoft, вдохновлённая этими идеями, провела эксперимент, отчёт о котором — Textbooks Are All You Need — можно найти на arXiv.org. В рамках эксперимента была создана большая языковая модель для генерирования кода, названная phi-1. Обучение этой модели проводилось с использованием специально подготовленного набора данных, качество которого сопоставимо с учебниками по программированию. В результате модель phi-1, при том, что в ней используется всего 1,3 миллиарда параметров, показала результаты, превосходящие то, на что способны самые совершенные большие языковые модели.

Исследование направлено на обучение языковых моделей для генерирования кода. Оно ориентировано на демонстрацию того, что в высококачественных данных есть сила, способная изменить текущую ситуацию, когда улучшение возможностей моделей напрямую связано с увеличением их размеров.

Читать далее https://habr.com/ru/companies/wunderfund/articles/749314/
👍4
Какие графические процессоры выбрать для глубокого обучения: мой опыт и советы по использованию графических процессоров в глубоком обучении

https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/
🐍📚Начало работы с векторными базами данных в Python

В последнее время в моде векторные базы данных, особенно с учетом популярности LLM. Что выбрать? Вот отличный обзор девяти популярных опций для Python, включая сильные стороны каждой из них, примеры кода и полезные ссылки.
https://code.dblock.org/2023/06/16/getting-started-with-vector-dbs-in-python.html
⚡️От нуля до героя: комплексные приложения для работы с данными с SQL и Jupyter

В этом онлайн-курсе вы узнаете, как разработать и развернуть комплексное приложение для работы с данными с помощью SQL, Python и Jupyter. Охватывает исследовательский анализ данных, основы SQL, воспроизводимость рабочего процесса, конвейеры данных, развертывание и многое другое.
https://ploomber-sql.readthedocs.io/en/latest/index.html
🌎Введение в облачный геопространственный анализ

Хорошее введение в облачный геопространственный анализ с использованием Google Earth Engine и пакета geemap Python. Охватывает основы типов данных Earth Engine и способы визуализации, анализа и экспорта данных Earth Engine в среде Jupyter с использованием geemap.
https://cfp.scipy.org/2023/talk/GQ7PG3
👨‍🍳Поваренная книга Polars для R

Цель поваренной книги — предоставить решения общих задач и проблем при использовании Polars с R.
https://ddotta.github.io/cookbook-rpolars


Полная шпаргалка по Python

Исчерпывающий и лаконичный — настоящяя Pythonic шпаргалка по языку программирования Python.
https://gto76.github.io/python-cheatsheet
Учебные пособия по машинному и глубокому обучению, статьи и другие ресурсы

Этот репозиторий содержит тематический список руководств, статей и других ресурсов по машинному обучению и глубокому обучению.

https://github.com/ujjwalkarn/Machine-Learning-Tutorials
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Крупномасштабные наборы данных, используемые в корпоративной аналитике данных и машинном обучении, часто полны ошибок, что приводит к снижению надежности, потере производительности и увеличению затрат. Современным решением этой проблемы является ИИ, ориентированный на данные , но применение этих методов в масштабе раньше было сложной задачей даже для группы экспертов. Пару лет назад это была работа , на выполнение которой у выпускников Массачусетского технологического института уходили месяцы. Теперь вы можете автоматически находить и устранять проблемы в данных в любом масштабе , без особых усилий создавая высококачественные наборы данных https://cleanlab.ai/blog/automated-data-quality-at-scale/
statistical_learning_with_math_and_python_100_exercises_for_building.pdf
4.6 MB
Статистическое обучение с помощью математики и Python: 100 упражнений для построения логики
mathematics_and_programming_for_machine_learning_with_r_from_the.pdf
10.3 MB
Математика и программирование для машинного обучения с помощью R: с нуля
Большие языковые модели, объясненные с минимумом математики и жаргона

Цель этой статьи — сделать большой объем знаний доступным для широкой аудитории. Мы постараемся объяснить, что известно о внутренней работе этих моделей, не прибегая к техническому жаргону или сложной математике. https://www.understandingai.org/p/large-language-models-explained-with
7 фреймворков для обслуживания LLM

Подробное сравнение https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407
Это видео содержит пошаговую реализацию обучающего набора данных распознавания эмоций или выражения лица с использованием Tensorflow-Keras API.

(00:00:00) Концепции
(00:23:01) Установка
(00:30:52) Реализация
(1:15:08) Демонстрация Live Webcam

https://www.youtube.com/watch?v=avv9GQ3b6Qg&t=40s
Матричное исчисление, необходимое для глубокого обучения

Эта статья представляет собой попытку объяснить все матричное исчисление, необходимое для понимания обучения глубоких нейронных сетей. https://explained.ai/matrix-calculus/
Прогнозирование: принципы и практика (3-е изд.) https://otexts.com/fpp3/
IBM предлагает БЕСПЛАТНЫЙ курс Deep Learning with Python и PyTorch!
Этот курс является второй частью курса из двух частей о том, как разрабатывать модели глубокого обучения с использованием Pytorch. https://www.edx.org/course/deep-learning-with-python-and-pytorch
Набор инструментов с открытым исходным кодом для разработки LLM

🚀LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и мультимодальных LLM . https://github.com/Alpha-VLLM/LLaMA2-Accessory
Шаблоны для создания систем и продуктов на основе LLM

Этот пост посвящен практическим шаблонам интеграции больших языковых моделей (LLM) в системы и продукты. Мы будем опираться на академические исследования, отраслевые ресурсы и ноу-хау практиков и пытаться превратить их в ключевые идеи и практики. https://eugeneyan.com/writing/llm-patterns/
👍1