Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
270 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Выполнение SQL непосредственно в Jupyter Notebook с помощью IPython-SQL

IPython-SQL – это мощный инструмент, позволяющий легко интегрировать язык SQL (Structured Query Language) в среду IPython или Jupyter Notebook. Такая интеграция позволяет выполнять SQL-запросы и взаимодействовать с базами данных, используя при этом интерактивные возможности IPython. В этом руководстве мы рассмотрим установку, настройку и базовое использование IPython-SQL.

✔️ Установка

pip install ipython-sql

✔️ Подключение к базе данных

Для подключения к базе данных сначала необходимо загрузить расширение IPython-SQL, а затем с помощью магической команды %sql задать строку подключения к базе данных. Синтаксис команды следующий:
%load_ext sql
%sql dialect+driver://username:password@host:port/database

Например, для подключения к базе данных SQLite с именем example.db, расположенной в текущем каталоге, используйте:
%load_ext sql
%sql sqlite:///example.db


Замените dialect+driver на соответствующий диалект и драйвер базы данных (например, mysql, postgresql, sqlite и т.д.), а также укажите необходимую информацию об аутентификации и подключении.

✔️ Выполнение SQL-запросов

После подключения к базе данных можно выполнять SQL-запросы с помощью команды %sql magic, за которой следует сам SQL-запрос. Запросы могут состоять из нескольких строк для улучшения читаемости. Вот пример:
%sql SELECT * FROM employees WHERE department = 'HR';

✔️ Доступ к результатам запросов

IPython-SQL предоставляет различные способы доступа к результатам запросов. По умолчанию результаты запроса возвращаются в виде Pandas DataFrame, что облегчает работу с данными и их анализ. Чтобы присвоить результаты запроса переменной, используйте флаг -o, за которым следует имя переменной:
result = %sql -o SELECT * FROM products;

Также можно получить прямой доступ к результатам запроса, используя переменную _:
result = %sql SELECT * FROM orders;
print(_.head()) # Display the first few rows of the result

✔️ Магические команды

IPython-SQL предлагает дополнительные магические команды для улучшения взаимодействия с базами данных:

▪️%config SqlMagic.autocommit: Включает или отключает режим автокоммита для транзакций.
▪️%config SqlMagic.displaylimit: установка максимального количества строк для отображения в результатах запроса.
▪️%%sql: Использование двойных знаков процента для выполнения многострочных SQL-запросов.

Рассмотрим пример использования магической команды %%sql для многострочных запросов:
%%sql
SELECT department, AVG(salary) as avg_salary
FROM employees
GROUP BY department
ORDER BY avg_salary DESC;


✔️ Расширенное использование

Продолжение
Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥32🤨2🤔1😍1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Список лучших Data Science шпаргалок

🔸Статистика - https://res.cloudinary.com/dyd911kmh/image/upload/v1662111933/Marketing/Blog/Descriptive_Statistics_Cheat_Sheet.pdf

🔸Теория вероятностей - https://res.cloudinary.com/dyd911kmh/image/upload/v1674822557/Marketing/Blog/Probability_Cheat_Sheet.pdf

🔸Data storytelling - https://res.cloudinary.com/dyd911kmh/image/upload/v1662633286/Marketing/Blog/Data_Storytelling_Cheat_Sheet.pdf

🔸Data Visualization - https://s3.amazonaws.com/assets.datacamp.com/email/other/Data+Visualizations+-+DataCamp.pdf

🔸Machine Learning - https://s3.amazonaws.com/assets.datacamp.com/email/other/ML+Cheat+Sheet_2.pdf

🔸Deep Learning - https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf

🔸Big Data - https://github.com/Ritik2703/Data-Science-Cheat-Notes-/blob/master/Big%20Data/Hadoop-and-mapreduce-cheat-sheet.pdf

🔸NLP - https://cheatography.com/sree017/cheat-sheets/nlp/

🔸SQL - https://s3.amazonaws.com/assets.datacamp.com/email/other/SQL+for+Data+Science.pdf

🔸Python - https://res.cloudinary.com/dyd911kmh/image/upload/v1673614153/Marketing/Blog/Python_Cheat_Sheet_for_Beginners.pdf

🔸R Programming - https://res.cloudinary.com/dyd911kmh/image/upload/v1654763044/Marketing/Blog/R_Cheat_Sheet.pdf

🔸Plotly Express - https://res.cloudinary.com/dyd911kmh/image/upload/v1668605954/Marketing/Blog/Plotly_Cheat_Sheet.pdf

🔸Git - https://res.cloudinary.com/dyd911kmh/image/upload/v1656573882/Marketing/Blog/git_cheat_sheet.pdf

🔸Excel - https://res.cloudinary.com/dyd911kmh/image/upload/v1674225421/Marketing/Blog/Excel_Cheat_Sheet.pdf

🔸Tableau - https://s3.amazonaws.com/assets.datacamp.com/email/other/Tableau+Cheat+Sheet.pdf

🔸Power BI - https://s3.amazonaws.com/assets.datacamp.com/email/other/Power+BI_Cheat+Sheet.pdf

@data_analysis_ml
🔥16👍108🤨2😁1
🗣💭 Speech Wikimedia: A 77 Language Multilingual Speech Dataset

Speech-wikimedia - это общедоступная компиляция аудиозаписей с транскрипциями, взятых из Wikimedia. Она включает 1780 часов (195 ГБ) транскрибированной речи с лицензией CC-BY-SA из различных источников и дикторов на 77 различных языках.

from datasets import load_dataset

dataset = load_dataset("MLCommons/speech-wikimedia")


🤗 HH: https://huggingface.co/datasets/MLCommons/speech-wikimedia

📌Статья: https://arxiv.org/abs/2308.15710v1

⭐️ Dataset: https://paperswithcode.com/dataset/voxpopuli

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥1
🖥 Бесплатные сертификационные курсы по изучению Git и GitHub в 2023 году

Введение в управление версиями с помощью Git
https://learn.microsoft.com/en-us/training/paths/intro-to-vc-git

Курс GitHub от Microsoft
https://learn.microsoft.com/en-us/training/github

Начало работы с GitHub
https://udemy.com/course/git-started-with-github

5-дневное испытание The Ultimate GIT
https://udemy.com/course/the-ultimate-git-5-day-challenge

Контроль версий с помощью Git от Atlassian
https://coursera.org/learn/version-control-with-git

Интерактивное руководство по Git
https://learngitbranching.js.org

Основы командной строки: Git Bash для Windows
https://udemy.com/course/git-bash

Изучение Git с помощью Bitbucket Cloud
https://hackernoon.com/top-5-free-courses-to-learn-git-and-github-best-of-lot-2f394c6533b0

Изучайте Git: Все, что нужно знать
https://udemy.com/course/learngit

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍32
🔥 Дайджест полезных материалов из мира : Data Science за неделю

Почитать:
Таблица-справочник – генератор DAG? А что так можно было?
Как создать привлекательные графики с рейтингами стран с помощью Python и Matplotlib
Как полностью устранить дублирующие записи в ClickHouse
Как подружить Spark и S3 для обработки файлов
Первые шаги в ML на обучающем хакатоне: обнаружение птиц на фотографиях yolov8s + sahi
Просто о Deep #1
How AI models are transforming evidence-based predictions
Auto-Synchronizing an Entire MySQL Database for Data Analysis
"Which job sectors are witnessing a surge in demand for AI and Data Science professionals?"
NumPy Tutorial #14: Random
5 Completely FREE Data Analytics Online Courses
Innovative Smart Surfaces: Walls That Can Generate Energy and Data
Python Cheat Sheet for Data Engineers and Data Scientists!
Harnessing the Power of Accountability Buddies for Learning
NumPy Tutorial #13: Array Filtering
Exploring Connections: How Meeting People Enriched My Master's Journey

Посмотреть:
🌐 How to Use the Open-Source Hugging Chat API in Python ( 07:38)
🌐 Продвинутый парсинг на Python со сменой прокси ( 10:27)
🌐 Уроки Golang с нуля /#25 - Интерфейсы ( 10:51)
🌐 Многопоточный парсер на Python. ООП подход ( 08:24)
🌐 AI in a Minefield: Learning from Poisoned Data - Johnathan Roy Azaria ( 37:07)
🌐 Orchestrating Data Assets instead of Tasks, with Dagster - Sandy Ryza ( 31:06)
🌐 1,000,000,000 Parameter Super Resolution AI! ( 04:59)
🌐 DeepMind-Like Gaming AI: Incredible Driving Skills! ( 05:09)

Хороших выходных!

@data_analysis_ml
10👍7🔥1🤯1
Media is too big
VIEW IN TELEGRAM
🖥 Полный курс по библиотеке Numpy. Урок 1 Матрицы.

Видео
Код из видео
Упражнения по Numpy

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍276🔥5
🔥История LLM с открытым исходным кодом: Ранние разработки (часть первая)
Понимание принципов работы GPT-Neo, GPT-J, GLM, OPT, BLOOM и других.


https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-early

@data_analysis_ml
👍13🔥32
Media is too big
VIEW IN TELEGRAM
🖥 Полный курс по библиотеке Numpy. Урок 2 Полезные функции.

Видео
Код из видео
Часть 1
Упражнения

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥41
Овладейте основными навыками работы с искусственным интеллектом с помощью этих 10 бесплатных курсов:

1. Google - искусственный интеллект для всех
https://edx.org/learn/artificial-intelligence/google-google-ai-for-anyone

2. Microsoft - ИИ для начинающих
https://microsoft.github.io/AI-For-Beginners

3. IBM - AI for Everyone: Освоить основы
https://edx.org/learn/artificial-intelligence/ibm-ai-for-everyone-master-the-basics

4. Гарвард - Введение в искусственный интеллект с помощью Python
https://cs50.harvard.edu/ai/2023

5. Google - Введение в генеративный ИИ

https://cloudskillsboost.google/journeys/118

6. Deep Learning - Finetuning Large Language Models
https://deeplearning.ai/short-courses/finetuning-large-language-models/

7. Microsoft - Основы ИИ в Azure
https://learn.microsoft.com/en-us/training/paths/create-no-code-predictive-models-azure-machine-learning/

8. Linux Foundation - Основы работы с данными и искусственным интеллектом
https://edx.org/learn/computer-programming/the-linux-foundation-data-and-ai-fundamentals

9. Alison - 13 бесплатных курсов по ИИ
https://alison.com/tag/artificial-intelligence

10. Проекты по искусственному интеллекту
https://mygreatlearning.com/academy/learn-for-free/courses/artificial-intelligence-projects


@data_analysis_ml
15👍9❤‍🔥2🔥2
Media is too big
VIEW IN TELEGRAM
🖥 Полный курс по библиотеке Numpy. Урок 3: применение Numpy

Видео
Код из видео
Часть 1
Часть 2
Упражнения

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍4🔥3
🦅 Falcon 180B is here!

Falcon 180B устанавливает новый уровень для открытых моделей. Это самая большая открытая языковая модель со 180 миллиардами параметров, которая была обучена на огромном массиве данных TII RefinedWeb, насчитывающем 3,5 триллиона лексем. Это самый продолжительный период предварительного обучения открытой модели на одной эпохе.

По своим возможностям Falcon 180B достигает самых высоких результатов в задачах на естественном языке. Он занимает первое место в рейтинге предварительно обученных моделей открытого доступа и конкурирует с собственными моделями, такими как PaLM-2.

🤗 HF: https://huggingface.co/blog/falcon-180b

🖥 Github: https://github.com/huggingface/blog/blob/main/falcon-180b.md

📕 Demo: https://huggingface.co/spaces/tiiuae/falcon-180b-demo

https://t.iss.one/data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥52👎1
🖥 Полный курс по библиотеке Numpy. Урок 4: Создание матриц из файла.

Видео
Код из видео
Часть 1
Часть 2
Часть 3

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135🔥3
👆 Принципы SOLID в инженерии данных. Часть 1.

SOLID — это набор основных принципов процесса разработки ПО, направленных на упрощение чтения, тестирования и сопровождения кода.

Как расшифровывается SOLID

Акроним SOLID расшифровывается так:

Single responsibility principle («Принцип единственной ответственности»).
Open/close principle («Принцип открытости/закрытости»).
Liskov substitution principle («Принцип подстановки Лисков»).
Interface segregation principle («Принцип разделения интерфейса»).
Dependency inversion principle («Принцип инверсии зависимостей).

1. Принцип единственной ответственности
Согласно этому принципу, класс должен меняться только по одной причине. То есть у каждого модуля должно быть только одно назначение, отчего код становится удобнее для восприятия и тестирования.

Примеры
Продемонстрируем нарушение и соблюдение принципа единственной ответственности, создав простой класс для банковского счета:

а) нарушение принципа:
class BankAccount:
def __init__(self, account_number: int, balance: float):
self.account_number = account_number
self.balance = balance

def deposit_money(self, amount: float):
self.balance += amount

def withdraw_money(self, amount: float):
if amount > self.balance:
raise ValueError("Unfortunately your balance is insufficient for any withdrawals right now ... ")
self.balance -= amount

def print_balance(self):
print(f'Account no: {self.account_number}, Balance: {self.balance} ')

def change_account_number(self, new_account_number: int):
self.account_number = new_account_number
print(f'Your account number has changed to "{self.account_number}" ')

Принцип нарушается, поскольку классом BankAccount контролируется больше одной задачи, связанной с банковскими счетами: управление профилями счетов и управление денежными средствами.

б) соблюдение принципа:

А вот пример соблюдения принципа:
class DepositManager:
def deposit_money(self, account, amount):
account.balance += amount


class WithdrawalManager:
def withdraw_money(self, account, amount):
if amount > account.balance:
raise ValueError("Unfortunately your balance is insufficient for any withdrawals right now ... ")
account.balance -= amount


class BalancePrinter:
def print_balance(self, account):
print(f'Account no: {account.account_number}, Balance: {account.balance} ')


class AccountNumberManager:
def change_account_number(self, account, new_account_number):
account.account_number = new_account_number
print(f'Your account number has changed to "{account.account_number}" ')


class BankAccount:
def __init__(self, account_number: int, balance: float):
self.account_number = account_number
self.balance = balance
self.deposit_manager = DepositManager()
self.withdrawal_manager = WithdrawalManager()
self.balance_printer = BalancePrinter()
self.account_number_manager = AccountNumberManager()

def deposit_money(self, amount: float):
self.deposit_manager.deposit_money(self, amount)

def withdraw_money(self, amount: float):
self.withdrawal_manager.withdraw_money(self, amount)

def print_balance(self):
self.balance_printer.print_balance(self)

def change_account_number(self, new_account_number: int):
self.account_number_manager.change_account_number(self, new_account_number)

Задачи, связанные с управлением банковским счетом, мы разделили на отдельные классы, упростив в случае необходимости изменение классов одинакового назначения.

в) пример расширения кодовой базы:

🔘 Продолжение части 1.
🔘 Часть 2.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥43
🖥 Полный курс по библиотеке Numpy. Урок 5: Продвинутые функции.

Видео
Код из видео
Часть 1
Часть 2
Часть 3
Часть4

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
🗺Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда.

Leafmap теперь поддерживает загрузку и визуализацию данных из Google Solar API, включая аэроснимки, маску зданий, цифровую модель поверхности, годовой/месячный/часовой солнечный поток 🛰️☀️.

Github
Documentation
Лекции по работе с Leafmap

@data_analysis_ml
👍14🔥72
🔥 Дайджест полезных материалов из мира : Data Science за неделю

Почитать:
Руководство по масштабированию MLOps
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
Что нового в Pandas 2.1
Готовые скрипты Python
Machine Learning: хорошая подборка книг для начинающего специалиста
Как понять, что клиента пора реактивировать?
Data Vendor Lock-In and Web3
Mastering Data Preparation for Your Dream Data Job: Using Job Postings Data
Matplotlib Tutorial #7: Plot Color Customization
10 NoSQL databases available as alternatives to MongoDB
Data Science in Human Resources: Talent Acquisition and Retention
Explain the Central Limit Theorem in Data Science with Python?
Ultimate Guide: Best Books for Data Science with Ratings for All Levels
Professional literature as a way to improve your analytics skills
Top 10 Online Courses to Learn ChatGPT in 2023
Matplotlib Tutorial #6: Plot Line Customization

Посмотреть:
🌐 Streamlit LLM Hackathon ( 03:27)
🌐 Полный курс по библиотеке Numpy. Матрицы ( 11:24)
🌐 Python+SQL работа с базами данных. ( 11:10)
🌐 Полный курс по библиотеке Numpy. Полезные функции ( 11:05)
🌐 Полный курс по библиотеке Numpy. Применение Numpy ( 11:52)
🌐 Полный курс по библиотеке Numpy. Создание матриц из файла ( 15:55)
🌐 Python Атоматизация отправки email с selenium ( 04:59)
🌐 Полный курс по библиотеке Numpy. Продвинутые методы работы с матрицами ( 07:28)
🌐 Python анализ данных с Pandas. ( 17:04)
🌐 Lightning Interview “Beyond the Code: How AI Is Disrupting the Programmer's Role” ( 58:40)
🌐 Уроки Golang с нуля /#26 - Обработка ошибок ( 08:14)
🌐 Introduction to Generative Art with Stable Diffusion, presented by HP Inc - Hunter Kempf ( 43:48)
🌐 Emerging Approaches to AI Governance: Tech-Led vs Policy-Led - Ilana Golbin ( 44:36)
🌐 Wow, NVIDIA’s Rendering, But 10X Faster! ( 06:58)

Хорошего дня!

@data_analysis_ml
🔥14👍84
7 БЕСПЛАТНЫХ курсов по математике для Аналитиков данных.

1. Linear Algebra Refresher Course
Это бесплатный курс для изучения основ линейной алгебры.

2. Intro to Statistics
Курс "Введение в статистику" - это совершенно БЕСПЛАТНЫЙ курс для начинающих. Курс ведет сооснователь Udacity Себастьян Трун. Структура курса интересна и увлекательна для начинающих.

3. Intro to Inferential Statistics
Более продвинутый курс - "Введение в описательную и инференциальную статистику".

4. Intro to Descriptive Statistics
Курс "Введение в описательную статистику" - это объемный курс с уклоном в практику.

5. Eigenvectors and Eigenvalues
Это очень короткий курс, в котором вы изучите линейные преобразования, векторы, метод главных компонентов.

6. Intro to Artificial Intelligence
Курс начинается с основ искусственного интеллекта и его приложений. В рамках этого курса вы познакомитесь с различными алгоритмами поиска, такими как поиск по дереву, поиск по графу, поиск по ширине, поиск по A* и т.д.

7. Differential Equations in Action
В этом курсе 7 уроков. В нем вы научитесь находить решения систем дифференциальных уравнений.

@data_analysis_ml
18👍8🔥5🤨2
Легкий способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Go: t.iss.one/Golang_google
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Машинное обучение: t.iss.one/ai_machinelearning_big_data
Data Science: t.iss.one/machinelearning_ru
C/C++/ t.iss.one/cpluspluc
C#: t.iss.one/csharp_ci
Хакинг: t.iss.one/linuxkalii
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/+0WdB4uvOwCY0Mjdi
Python: t.iss.one/python_job_interview
Rust: t.iss.one/rust_code
Javascript: t.iss.one/javascriptv
React: t.iss.one/react_tg
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Linux: t.iss.one/+A8jY79rcyKJlYWY6
Big Data: t.iss.one/bigdatai
Devops: t.iss.one/devOPSitsec
Тестирование:https://t.iss.one/+F9jPLmMFqq1kNTMy
Собеседования: https://t.iss.one/machinelearning_interview

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy

😆ИТ-Мемы: t.iss.one/memes_prog

🇬🇧Английский: t.iss.one/english_forprogrammers

ИИ: t.iss.one/vistehno

📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
👍132🔥2
🎥 7 лучших бесплатных курсов по Feature Engineering, которые вам стоит пройти.

1. Feature Engineering – Coursera
Этот курс предлагается компанией Google Cloud. В этом курсе вы узнаете, что является хорошим признаком и как работать с ним в модели машинного обучения.

2. Feature Engineering for Machine Learning in Python– DataCamp
Это еще один хороший курс по отбору признаков. В этом курсе вы узнаете об основах отбора признаков и о том, как конструировать новые признаки с помощью pandas.

3. Feature Engineering for Machine Learning– Udemy
В этом курсе Udemy вы узнаете о различных методах по работе с данными.

4. Data Processing and Feature Engineering with MATLAB– Coursera
В этом курсе вы будете объединять данные из различных датасетов и работать с примерами, когда часть дынных отсутствует. В начале курса вы изучите различные типы распределений.

5. Feature Engineering in R– Datacamp
В данном курсе используется программирование на языке R для отбора признаков. В этом курсе вы узнаете, как преобразовывать категориальные признаки в числовые представления и техники кодирования данных.

6. Feature Engineering with PySpark– Datacamp
Это еще один курс по работе с признаками от Datacamp. В этом курсе вы узнаете, как подготовить и очистить данные и как создать новые функции для модели машинного обучения. Затем вы узнаете, как построить модель машинного обучения и как оценить ее.

7. Feature Engineering– Kaggle
Этот курс доступен на сайте Kaggle. В этом курсе вы изучите процесс отбора признаков. В ходе курса вы научитесь определять важные признаки из вашего датасета.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍246🔥4