Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Media is too big
VIEW IN TELEGRAM
🖥 Полный курс по библиотеке Numpy. Урок 3: применение Numpy

Видео
Код из видео
Часть 1
Часть 2
Упражнения

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍4🔥3
🦅 Falcon 180B is here!

Falcon 180B устанавливает новый уровень для открытых моделей. Это самая большая открытая языковая модель со 180 миллиардами параметров, которая была обучена на огромном массиве данных TII RefinedWeb, насчитывающем 3,5 триллиона лексем. Это самый продолжительный период предварительного обучения открытой модели на одной эпохе.

По своим возможностям Falcon 180B достигает самых высоких результатов в задачах на естественном языке. Он занимает первое место в рейтинге предварительно обученных моделей открытого доступа и конкурирует с собственными моделями, такими как PaLM-2.

🤗 HF: https://huggingface.co/blog/falcon-180b

🖥 Github: https://github.com/huggingface/blog/blob/main/falcon-180b.md

📕 Demo: https://huggingface.co/spaces/tiiuae/falcon-180b-demo

https://t.iss.one/data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥52👎1
🖥 Полный курс по библиотеке Numpy. Урок 4: Создание матриц из файла.

Видео
Код из видео
Часть 1
Часть 2
Часть 3

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135🔥3
👆 Принципы SOLID в инженерии данных. Часть 1.

SOLID — это набор основных принципов процесса разработки ПО, направленных на упрощение чтения, тестирования и сопровождения кода.

Как расшифровывается SOLID

Акроним SOLID расшифровывается так:

Single responsibility principle («Принцип единственной ответственности»).
Open/close principle («Принцип открытости/закрытости»).
Liskov substitution principle («Принцип подстановки Лисков»).
Interface segregation principle («Принцип разделения интерфейса»).
Dependency inversion principle («Принцип инверсии зависимостей).

1. Принцип единственной ответственности
Согласно этому принципу, класс должен меняться только по одной причине. То есть у каждого модуля должно быть только одно назначение, отчего код становится удобнее для восприятия и тестирования.

Примеры
Продемонстрируем нарушение и соблюдение принципа единственной ответственности, создав простой класс для банковского счета:

а) нарушение принципа:
class BankAccount:
def __init__(self, account_number: int, balance: float):
self.account_number = account_number
self.balance = balance

def deposit_money(self, amount: float):
self.balance += amount

def withdraw_money(self, amount: float):
if amount > self.balance:
raise ValueError("Unfortunately your balance is insufficient for any withdrawals right now ... ")
self.balance -= amount

def print_balance(self):
print(f'Account no: {self.account_number}, Balance: {self.balance} ')

def change_account_number(self, new_account_number: int):
self.account_number = new_account_number
print(f'Your account number has changed to "{self.account_number}" ')

Принцип нарушается, поскольку классом BankAccount контролируется больше одной задачи, связанной с банковскими счетами: управление профилями счетов и управление денежными средствами.

б) соблюдение принципа:

А вот пример соблюдения принципа:
class DepositManager:
def deposit_money(self, account, amount):
account.balance += amount


class WithdrawalManager:
def withdraw_money(self, account, amount):
if amount > account.balance:
raise ValueError("Unfortunately your balance is insufficient for any withdrawals right now ... ")
account.balance -= amount


class BalancePrinter:
def print_balance(self, account):
print(f'Account no: {account.account_number}, Balance: {account.balance} ')


class AccountNumberManager:
def change_account_number(self, account, new_account_number):
account.account_number = new_account_number
print(f'Your account number has changed to "{account.account_number}" ')


class BankAccount:
def __init__(self, account_number: int, balance: float):
self.account_number = account_number
self.balance = balance
self.deposit_manager = DepositManager()
self.withdrawal_manager = WithdrawalManager()
self.balance_printer = BalancePrinter()
self.account_number_manager = AccountNumberManager()

def deposit_money(self, amount: float):
self.deposit_manager.deposit_money(self, amount)

def withdraw_money(self, amount: float):
self.withdrawal_manager.withdraw_money(self, amount)

def print_balance(self):
self.balance_printer.print_balance(self)

def change_account_number(self, new_account_number: int):
self.account_number_manager.change_account_number(self, new_account_number)

Задачи, связанные с управлением банковским счетом, мы разделили на отдельные классы, упростив в случае необходимости изменение классов одинакового назначения.

в) пример расширения кодовой базы:

🔘 Продолжение части 1.
🔘 Часть 2.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥43
🖥 Полный курс по библиотеке Numpy. Урок 5: Продвинутые функции.

Видео
Код из видео
Часть 1
Часть 2
Часть 3
Часть4

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
🗺Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда.

Leafmap теперь поддерживает загрузку и визуализацию данных из Google Solar API, включая аэроснимки, маску зданий, цифровую модель поверхности, годовой/месячный/часовой солнечный поток 🛰️☀️.

Github
Documentation
Лекции по работе с Leafmap

@data_analysis_ml
👍14🔥72
🔥 Дайджест полезных материалов из мира : Data Science за неделю

Почитать:
Руководство по масштабированию MLOps
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
Что нового в Pandas 2.1
Готовые скрипты Python
Machine Learning: хорошая подборка книг для начинающего специалиста
Как понять, что клиента пора реактивировать?
Data Vendor Lock-In and Web3
Mastering Data Preparation for Your Dream Data Job: Using Job Postings Data
Matplotlib Tutorial #7: Plot Color Customization
10 NoSQL databases available as alternatives to MongoDB
Data Science in Human Resources: Talent Acquisition and Retention
Explain the Central Limit Theorem in Data Science with Python?
Ultimate Guide: Best Books for Data Science with Ratings for All Levels
Professional literature as a way to improve your analytics skills
Top 10 Online Courses to Learn ChatGPT in 2023
Matplotlib Tutorial #6: Plot Line Customization

Посмотреть:
🌐 Streamlit LLM Hackathon ( 03:27)
🌐 Полный курс по библиотеке Numpy. Матрицы ( 11:24)
🌐 Python+SQL работа с базами данных. ( 11:10)
🌐 Полный курс по библиотеке Numpy. Полезные функции ( 11:05)
🌐 Полный курс по библиотеке Numpy. Применение Numpy ( 11:52)
🌐 Полный курс по библиотеке Numpy. Создание матриц из файла ( 15:55)
🌐 Python Атоматизация отправки email с selenium ( 04:59)
🌐 Полный курс по библиотеке Numpy. Продвинутые методы работы с матрицами ( 07:28)
🌐 Python анализ данных с Pandas. ( 17:04)
🌐 Lightning Interview “Beyond the Code: How AI Is Disrupting the Programmer's Role” ( 58:40)
🌐 Уроки Golang с нуля /#26 - Обработка ошибок ( 08:14)
🌐 Introduction to Generative Art with Stable Diffusion, presented by HP Inc - Hunter Kempf ( 43:48)
🌐 Emerging Approaches to AI Governance: Tech-Led vs Policy-Led - Ilana Golbin ( 44:36)
🌐 Wow, NVIDIA’s Rendering, But 10X Faster! ( 06:58)

Хорошего дня!

@data_analysis_ml
🔥14👍84
7 БЕСПЛАТНЫХ курсов по математике для Аналитиков данных.

1. Linear Algebra Refresher Course
Это бесплатный курс для изучения основ линейной алгебры.

2. Intro to Statistics
Курс "Введение в статистику" - это совершенно БЕСПЛАТНЫЙ курс для начинающих. Курс ведет сооснователь Udacity Себастьян Трун. Структура курса интересна и увлекательна для начинающих.

3. Intro to Inferential Statistics
Более продвинутый курс - "Введение в описательную и инференциальную статистику".

4. Intro to Descriptive Statistics
Курс "Введение в описательную статистику" - это объемный курс с уклоном в практику.

5. Eigenvectors and Eigenvalues
Это очень короткий курс, в котором вы изучите линейные преобразования, векторы, метод главных компонентов.

6. Intro to Artificial Intelligence
Курс начинается с основ искусственного интеллекта и его приложений. В рамках этого курса вы познакомитесь с различными алгоритмами поиска, такими как поиск по дереву, поиск по графу, поиск по ширине, поиск по A* и т.д.

7. Differential Equations in Action
В этом курсе 7 уроков. В нем вы научитесь находить решения систем дифференциальных уравнений.

@data_analysis_ml
18👍8🔥5🤨2
Легкий способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Go: t.iss.one/Golang_google
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Машинное обучение: t.iss.one/ai_machinelearning_big_data
Data Science: t.iss.one/machinelearning_ru
C/C++/ t.iss.one/cpluspluc
C#: t.iss.one/csharp_ci
Хакинг: t.iss.one/linuxkalii
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/+0WdB4uvOwCY0Mjdi
Python: t.iss.one/python_job_interview
Rust: t.iss.one/rust_code
Javascript: t.iss.one/javascriptv
React: t.iss.one/react_tg
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Linux: t.iss.one/+A8jY79rcyKJlYWY6
Big Data: t.iss.one/bigdatai
Devops: t.iss.one/devOPSitsec
Тестирование:https://t.iss.one/+F9jPLmMFqq1kNTMy
Собеседования: https://t.iss.one/machinelearning_interview

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy

😆ИТ-Мемы: t.iss.one/memes_prog

🇬🇧Английский: t.iss.one/english_forprogrammers

ИИ: t.iss.one/vistehno

📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
👍132🔥2
🎥 7 лучших бесплатных курсов по Feature Engineering, которые вам стоит пройти.

1. Feature Engineering – Coursera
Этот курс предлагается компанией Google Cloud. В этом курсе вы узнаете, что является хорошим признаком и как работать с ним в модели машинного обучения.

2. Feature Engineering for Machine Learning in Python– DataCamp
Это еще один хороший курс по отбору признаков. В этом курсе вы узнаете об основах отбора признаков и о том, как конструировать новые признаки с помощью pandas.

3. Feature Engineering for Machine Learning– Udemy
В этом курсе Udemy вы узнаете о различных методах по работе с данными.

4. Data Processing and Feature Engineering with MATLAB– Coursera
В этом курсе вы будете объединять данные из различных датасетов и работать с примерами, когда часть дынных отсутствует. В начале курса вы изучите различные типы распределений.

5. Feature Engineering in R– Datacamp
В данном курсе используется программирование на языке R для отбора признаков. В этом курсе вы узнаете, как преобразовывать категориальные признаки в числовые представления и техники кодирования данных.

6. Feature Engineering with PySpark– Datacamp
Это еще один курс по работе с признаками от Datacamp. В этом курсе вы узнаете, как подготовить и очистить данные и как создать новые функции для модели машинного обучения. Затем вы узнаете, как построить модель машинного обучения и как оценить ее.

7. Feature Engineering– Kaggle
Этот курс доступен на сайте Kaggle. В этом курсе вы изучите процесс отбора признаков. В ходе курса вы научитесь определять важные признаки из вашего датасета.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍246🔥4
Please open Telegram to view this post
VIEW IN TELEGRAM
👍226🔥31
📌esProc SPL - это скриптовый язык для обработки данных, с хорошо продуманными богатыми функциями и мощным синтаксисом, который может исполняться в Java-программе через интерфейс JDBC и вычисляться независимо.

Github
Документация

@data_analysis_ml
👍124🥰2
Media is too big
VIEW IN TELEGRAM
🖥 Python анализ данных с Pandas. Join, merge, concat в Pandas

Видео
Код из видео
Часть 1
Часть 2

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍222🔥2
🌝 Крутые data science проекты с исходным кодом

1. Создание чат-ботов:
https://dzone.com/articles/python-chatbot-project-build-your-first-python-pro

2. Обнаружение мошенничества с кредитными картами:
https://kaggle.com/renjithmadhavan/credit-card-fraud-detection-using-python

3. Обнаружение фальшивых новостей
https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/

4. Определение сонливости водителя
https://data-flair.training/blogs/python-project-driver-drowsiness-detection-system/

5. Рекомендательные системы (рекомендация фильмов)
https://data-flair.training/blogs/data-science-r-movie-recommendation/

6. Анализ настроений
https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/

7. Определение пола и прогнозирование возраста
https://pyimagesearch.com/2020/04/13/opencv-age-detection-with-deep-learning/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍14🔥4
Yachay AI — открытое сообщество по машинному обучению

Проект предназначен для поддержки разработчиков в создании и обучении собственных моделей геотеггинга.

Представленная здесь архитектура моделей геотаггинга позволяет настраивать и обучать их. Кроме того проект содержит даатсеты, которые хорошо подходят для обучения в различных сценариях определения геолокации.


Из интересного: сообщество также разработало инструмент для определения геолокации

Github
Проект
Датасеты

@data_analysis_ml
👍135🔥4
🤖 Как использовать агенты Hugging Face для решения задач NLP

Hugging Face  — ИИ-сообщество с открытым исходным кодом для практиков машинного обучения — недавно интегрировало концепцию инструментов и агентов в свою популярную библиотеку Transformers.

Если вы уже использовали Hugging Face для решения задач обработки естественного языка (NLP), компьютерного зрения и работой над аудио/речью, вам будет интересно узнать о дополнительных возможностях Transformers.

Агент Transformers: реализация
В этом разделе я использовал документацию Hugging Face об агентах и реализовал их на собственных примерах.

Шаг 1. Требования
Начнем с импорта нескольких библиотек, которые будем использовать. Обратите внимание: я включил версии этих библиотек в результаты, чтобы вы могли создать идентичную среду.

import transformers, huggingface_hub, diffusers, torch
from platform import python_version
print(f'python: {python_version()}')
print(f'transformers: {transformers.__version__}')
print(f'huggingface_hub: {huggingface_hub.__version__}')
print(f'diffusers: {diffusers.__version__}')
print(f'torch: {torch.__version__}')


Результаты:

📌 Продолжение

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥2
💻 Принципы SOLID в инженерии данных.

Как принципы SOLID трансформируются в функциональном программировании?

▪️Принцип единственной ответственности: у каждой функции должно быть одно назначение, то есть возможно несколько задач, но одна достигаемая цель.
▪️Принцип открытости/закрытости: исходный код каждой функции открыт для расширения, но закрыт для модификации.
▪️Принцип подстановки Лисков: каждая функция заменяется на другую с той же сигнатурой без изменения поведения программы.
▪️Принцип разделения интерфейса: каждая функция не зависит от ненужных ей функций.
▪️Принцип инверсии зависимостей: все функции зависят от входных аргументов, а не жестко заданного в функции поведения.

Интерпретация принципов SOLID: ООП против функционального программирования (в изображении)

Нарушение и соблюдение принципов SOLID на примерах

1. Принцип единственной ответственности
Согласно этому принципу, функция должна меняться только по одной причине. То есть у нее может быть несколько задач, но лишь одна цель в большой единице работы. Именно здесь осуществляется разделение обязанностей, когда каждой частью программы выполняется только одна задача, и выполняется хорошо.

Например, если единственная причина изменений конвейера данных для обслуживания команды — ускорение обработки, занятый улучшением производительности код отделяется от частей программы с другими задачами.


🔘 Примеры
🔘 Часть 1.
🔘 Часть 2.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3🎉2
🔥 Дайджест полезных материалов из мира : Data Science за неделю

Почитать:
Как мы решили вопрос нехватки кадров, обучив соискателей работе с Apache Spark
Создание приложения для потоковой передачи видео с физическими элементами управления
Пять подходов к созданию ad-hoc-датафреймов в PySpark
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
7 аргументов почему UUID лучше, чем автоинкрементные идентификаторы
Тестирование производительности на Python: Пошаговое руководство с Flask
Boosting Resiliency with ML-Based Telemetry Analytics Architecture
Dominando a função WITH: Criando Consultas Temporárias no SQL
The Secret Sauce of Success: Soft Skills Every data Scientist needs
What AI-driven analytics tools aid in data-driven decision-making for businesses?
Unlocking Computational Efficiency in Event Analysis Through Centroids and Blocks: A Conceptual Exploration
How can AI-driven cybersecurity tools protect businesses from daily threats and breaches?
SQL Roadmap for Data Analysts[Step-by-Step]
Dataviz accessibility review: what we can learn from the Norwegian 2023 election graphs
Data Science Mentorship in Ahmedabad Learning from the Best
7-Stage Roadmap for Data Science

Посмотреть:
🌐 Leveraging Generative AI in Education - A M Aditya ( 31:24)
🌐 Невероятная нейросеть переводит любое видео на другие языки с сохранением оригинального голоса. ( 00:55)
🌐 Python анализ данных с Pandas. PandaSQL ( 12:13)
🌐 Python анализ данных с Pandas. Join, merge, concat в Pandas ( 19:25)
🌐 Python+SQL часть2 создание таблиц. ( 05:15)
🌐 Управление жестами всегда было в ваших часах, просто его нужно было активировать. ( 00:11)
🌐 Уроки Golang с нуля /#28 - Встраивание типов ( 06:16)
🌐 Уроки Golang с нуля /#27 - Bufio. Чтение и запись ( 10:35)
🌐 Python анализ данных с Pandas. ( 17:04)
🌐 ODSC Webinar | A Path to Insights Starts with Trusted Data ( 23:23)
🌐 Not Just Deep Fakes: Apps of Visual Generative Models in Pharma Manufacturing - Guglielmo Iozzia ( 01:18:40)
🌐 Lightning Interview “Beyond the Code: How AI Is Disrupting the Programmer's Role” ( 58:40)
🌐 AI Reads Minds of 29 Patients! ( 06:01)
🌐 OpenAI’s ChatGPT Nails 150+ Difficult Tasks! ( 05:54)

Хорошего дня!

@data_analysis_ml
👍15🔥31