MLBooks. Книги по машинному обучению.
3.62K subscribers
169 photos
1 video
194 links
Админ: @anothertechrock

Из своего опыта мы будем делиться нужной информацией по :
Maschine Learning(ML)
Big Data, Deep Learning(DL).

Реклама: @viktorreh
Download Telegram
🧾 Чек-лист. Основные этапы создания Корпоративного Хранилища данных

В зависимости от компании, подход к созданию КХД может различаться: одни видят его как монолитную систему, другие — как распределенную архитектуру. Мы под КХД будем понимать как ядровую БД, так и все дополнительные инструменты для переливки информации, базы данных, BI, утилиты для мониторинга и алертинга и многое другое.

1. Определение целей и задач
Рекомендуется не отталкиваться от технических возможностей, а начинать с бизнес-контекста.

- Четко сформулируйте цели хранилища (аналитика, отчетность, оптимизация процессов и т.д.)
- Определите ключевых заинтересованных лиц (stakeholders) и их ожидания
- Изучите нюансы бизнеса

2. Анализ источников данных
В зависимости от свойств источника происходит различная работа по “вытаскиванию” необходимой информации. Активный/пассивный, имеющий дубли и вложенность хранения, типизация и эволюция схемы, а также многое другое.

- Проведите инвентаризацию всех источников данных (CRM, ERP, веб-приложения, файлы, БД, API и т.д.)
- Определите форматы данных (структурированные, неструктурированные)
- Выясните объем и частоту обновления данных и т.д.

3. Определение архитектуры хранилища
Самый сложный и важный этап.

- Выберите подход (ETL или ELT)
- Решите, будет ли хранилище on-premise, облачным или гибридным
- Определите слои хранилища: staging (сырые данные), ODS (операционные данные), DWH (исторические данные)
- Обозначьте, где будут содержаться витрины данных и “сырая” информация
- Уточните, как будет предоставляться информация конечным пользователям и т.д.

4. Выбор технологий
- Определите, нужны ли вам БД отдельно для OLAP и OLTP?
- Выберите СУБД (Greenplum, Snowflake, PosgtreSQL, ClickHouse и т.д.)
- Подберите инструменты интеграции данных (Apache NiFi, Dagster, Airflow)
- Подумайте о Вl-инструментах (Tableau, Superset, Looker)
- А так же не забывайте об инструментах мониторинга, бекапирования и алертинга

5. Проектирование модели данных
- Определите уровень нормализации данных (3NF, звездная или снежинка — или более продвинутые, Data Vault)
- Создайте ЕR-диаграммы и схемы таблиц
- Проработайте “узкие места” и слепые зоны, подумайте о связи модели данных и пользовательских ролей и доступов

6. Реализация ETL/ELT процессов
- Настройте коннекторы к источникам данных
- Создайте пайплайны для извлечения, трансформации и загрузки данных
- Автоматизируйте обновление данных

7. Управление качеством данных
- Внедрите процессы проверки данных (data validation)
- Реализуйте контроль на дубликаты, пропуски и несоответствия форматов

8. Обеспечение безопасности
- Настройте роли и права доступа. Подумайте о внедрении Active Directory для унифицирования доступа ко всем текущим инструментам
- Реализуйте шифрование данных (в покое и в процессе передачи)
- Подготовьте план аварийного восстановления

9. Тестирование и валидация
- Проведите нагрузочное тестирование (stress test)
- Убедитесь в корректности обработки данных на всех этапах
- Проверьте интеграцию с BI и всеми другими инструментами

10. Документация и обучение
- Подготовьте документацию: схемы данных, описания ETL-процессов, инструкции для пользователей
- Изучите представленные на рынке инструменты для автоматизации сбора документации
- Проведите обучение сотрудников, которые будут работать с хранилищем

11. Запуск и эксплуатация
Убедитесь, что у вас настроены как минимум области DEV, Stage, Prom
Подготовьтесь к автоматизированной раскатке в production
Настройте мониторинг производительности
Определите процессы для обновления, расширения и поддержки хранилища

12. Постоянное улучшение
- Анализируйте обратную связь от пользователей
- Оптимизируйте процессы обработки данных
- Добавляйте новые источники данных по мере необходимости

Для системного обучения рекомендуем профессиональный курс по DWH от Otus, где вы получите хорошую базу и практику.

➡️ Регистрируйтесь прямо сейчас, чтобы воспользоваться 10% скидкой на курс и учиться  по 🏖 летним ценам! Условия актуальны только до 31.07.2025: https://vk.cc/cNXy5l

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
1👍1🙉1
Нейросети на Python.
Основы ИИ и машинного обучения

Автор:
Куликова И. В.
Год издания: 2024

#ml #python #ru

Скачать книгу
👎1
Глубокое обучение на Python

Автор: Шолле Ф.
Год издания: 2023

#dl #python #ru

Скачать книгу
Analytical Skills for AI and Data Science

Автор: Daniel Vaughan
Год издания: 2020

#ds #ai #en

Скачать книгу
Introduction to Python and Large
Language Models

Автор
: Dilyan Grigorov
Год издания: 2024

#python #ml #en

Скачать книгу
🚩Pattern Gury. Шаблоны проектирования - канал, который поможет прокачать архитектурное мышление.

Простым языком разбираем:
🟠 Как работает Singleton и где его лучше не трогать
🟠 Зачем нужен Decorator, и как его написать самому
🟠 Что такое шаблоны проектирования и как они делают код чище
🟠 Что скрывается за терминами "Best Practices", SOLID, KISS и DRY

Канал поможет:
🟣 Уверенно проходить собеседования
🟣 Понимать архитектуру, а не просто копировать код

🗂 Подписывайся: @highloadmicro
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
Network Science with Python

Автор:
David Knickerbocker
Год издания: 2023

#ml #python #en

Скачать книгу
Прикладная линейная алгебра
для исследователей данных


Автор: Коэн Майк Икс
Год издания: 2023

#python #ds #ru

Скачать книгу
1
Data Science at the Command Line

Автор: Jeroen Janssens
Год издания: 2021

#ds #en

Скачать книгу
A Practical Guide to Quantum Machine Learning

Автор: Elías Combarro
Год издания: 2023

#ml #en

Скачать книгу
Data Science Fundamentals with R,
Python, and Open Data

Автор:
Marco Cremonini
Год издания: 2024

#python #ds #en

Скачать книгу
Data Labeling in Machine Learning with Python

Автор
: Vijaya Kumar Suda
Год издания: 2024

#python #ml #en

Скачать книгу
🔥1
Data Science для карьериста

Автор:
Жаклин Нолис
Год издания: 2021

#ds #ru

Скачать книгу
Python for Data Science For Dummies

Автор:
John Paul Mueller
Год издания: 2024

#python #ds #en

Скачать книгу
Deep Reinforcement Learning with Python

Автор
: Nimish Sanghi
Год издания: 2024

#python #dl #en

Скачать книгу
R for Data Science

Автор:
G. Grolemund
Год издания: 2023

#ds #en

Скачать книгу
Python Debugging
for AI, Machine Learning, and
Cloud Computing

Автор:
Dmitry Vostokov
Год издания: 2024

#python #ml #en

Скачать книгу
Как учится машина

Автор:
Ян Лекун
Год издания: 2021

#ml #ru

Скачать книгу
Инструментарий хранения и анализа
данных. Полное руководство по
размерному моделированию

Автор:
Марджи Росс
Год издания: 2024

#ds #ru

Скачать книгу
Глубокое обучение. Легкая разработка
проектов на Python

Автор:
Сет Вейдман
Год издания: 2021

#python #ru #dl

Скачать книгу
2
Книги по машинному обучению
Скачивайте и читайте.

Machine Learning Production Systems
Автор: Di Zhu

Machine Learning System Design
Автор: Arseny Kravchenko

Introduction to Python and Large Language Models
Автор: Dilyan Grigorov

Генеративное глубокое обучение
Автор: Фостер Дэвид

GoLang for Machine Learning
Автор: Evan Atkins

Deep Reinforcement Learning with Python
Автор: Nimish Sanghi

Машинное обучение с использованием Python
Автор: Кайл Галлатин

Машинное обучение для абсолютных новичков
Автор: Оливер Теобальд

Грокаем машинное обучение
Автор: Луис Серрано

Нейросети на Python. Основы ИИ и машинного обучения
Автор: Куликова И. В.

Python 3 and Machine Learning
Автор: Oswald Campesato

Machine Learning For Network Traffic and Video Quality Analysis
Автор: Lavesh Babooram

Введение в статистическое обучение
Автор: Гарет Джеймс

Глубокое обучение на Python
Автор: Шолле Ф.

#ml #подборка