Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

47.1K subscribers

2.65K photos

303 videos

1 file

2.3K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

47.1K subscribers

Анализ данных (Data analysis)

Ребята из Авито ищут аналитиков в кластеры Trust and Safety и Business Security.

Открыты позиции:
➡️ Команда жилой недвижимости
➡️ Команда модерации
➡️ Команда рейтингов и отзывов

Из приятного:
• Много качественных данных, мощная инфраструктура и инструменты, любое необходимое железо — всё готово для продуктивной работы;
• Возможность влиять на бизнес и развитие продукта;
• Прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
• Личный бюджет на обучение — книги, курсы и конференции;
• ДМС со стоматологией с первого дня, в офисе принимают терапевт и массажист;
• Возможность совмещать работу из дома и комфортного офиса в 2 минутах от «Белорусской» с панорамным видом на центр города, местами для уединенной работы, двумя спортивными залами, зонами отдыха и гамаками.

Не откладываем (а то мы вас знаем), а сразу переходим по ссылкам и откликаемся!

❤12

5.3K views16:02

Анализ данных (Data analysis)

🖥

snoop : Интеллектуальная печать для отладки вашей функции Python

Если вы хотите понять, что происходит в вашем коде, без использования множества операторов print, попробуйте использовать snoop. Вы увидите журнал работы вашей функции, включая то, какие строки выполнялись и когда, и что происходит с каждой из переменных.

Чтобы использовать библиотеку, просто добавьте декоратор @snoop в свою функцию.

import snoop 

@snoop
def factorial(x: int):
    if x == 1:
        return 1
    else: 
        return (x * factorial(x-1))

if __name__ == '__main__':
    num = 2
    print(f'The factorial of {num} is {factorial(num)}')

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥3❤2

5.43K viewsedited 18:03

Анализ данных (Data analysis)

🔥 Data scientist и другие digital-специалисты! Открыта регистрация на онлайн-чемпионат по анализу данных SIBUR CHALLENGE 2023 // ГЕНЕРАЛИЗАЦИЯ.

Участникам предстоит поработать с реальными кейсами крупной нефтехимической компании Сибур и решить две задачи на выбор.

Вы получите поддержку от экспертов индустрии, доступ к сообществу единомышленников и дополнительные вознаграждения за активности. А еще — шанс получить приглашение на работу или стажировку!

🏆 Призовой фонд — 1 млн рублей.
На каждую из двух задач приходится по 3 места:
1 место — 250 тысяч рублей.
2 место — 150 тысяч рублей.
3 место — 100 тысяч рублей.

Основная работа будет проходить в онлайне на платформе AI Today. Можно участвовать индивидуально или в команде.
Присоединиться к соревнованию можно до 7 июня.

Успейте подать заявку и побороться за призовой фонд в 1 млн рублей.

👨‍💻 Регистрация и подробности: https://clck.ru/34WAyY

Организаторы: Сибур Диджитал, AI Community и AI Today.

❤9🔥4

5.77K views08:02

Анализ данных (Data analysis)

🖥

faker: Create Fake Data in One Line of Code

Чтобы быстро создать фейковые данные для тестов, попробуйте использовать faker. В приведенном коде показаны некоторые возможности быстрой генерации данных с faker.

pip install Faker

from faker import Faker
fake = Faker()

fake.name()
# 'Lucy Cechtelar'

fake.address()
# '426 Jordy Lodge
#  Cartwrightshire, SC 88120-6700'

fake.text()
# 'Sint velit eveniet. Rerum atque repellat voluptatem quia rerum. Numquam excepturi'

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥6👍3

5.76K viewsedited 10:02

Анализ данных (Data analysis)

🗺 Создание географической карты с интерактивными маркерами: руководство по Plotly Dash

Хочу поделиться с вами решением задачи наглядного представления большого объёма данных с возможностью детального просмотра информации по интересующим объектам.

▪Читать

@data_analysis_ml

👍15🔥3❤2

5.03K views08:21

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Полезные инструменты: RATH — альтернатива Tableau с открытым исходным кодом

RATH относительно новый инструмент, который имеет одно из самых быстрорастущих сообществ на GitHub. Благодаря передовым технологиям и новаторскому подходу к анализу и визуализации данных, RATH быстро завоевала популярность среди профессионалов по работе с данными.

Сообщество RATH быстро растет: разработчики, специалисты по данным и бизнес-аналитики вносят свой вклад в его развитие и делятся идеями о том, как максимально использовать его потенциал. Независимо от того, являетесь ли вы опытным аналитиком данных или только начинаете, RATH является обязательным инструментом для всех, кто хочет улучшить свои навыки анализа и визуализации данных.

▪Kanaries(k6s) RATH
▪Больше информации о RATH

@data_analysis_ml

👍22🔥3❤2

5.16K views09:58

Анализ данных (Data analysis)

🖥 Полезая подборка бесплатных курсов по Python и R

1. Автоматизация тестирования с помощью Selenium и Python - Stepik (INT)

2. Добрый, добрый Python - обучающий курс от Сергея Балакирева - Сергей Балакирев (Stepik) (BEG)

3. Основы программирования на Python - Coursera (BEG)

4. Питонтьютор: Бесплатный курс по программированию с нуля - Виталий Павленко, Владимир Соломатин, Д. П. Кириенко, команда Pythontutor (BEG)

5. "Поколение Python": курс для начинающих - Тимур Гуев, Руслан Чаниев, Анри Табуев (Stepik) (BEG)

6. "Поколение Python": курс для продвинутых - Тимур Гуев, Руслан Чаниев, Благотворительный фонд "Айкью Опшн" (Stepik) (INT)

7. Программирование на Python - Тимофей Бондарев, Павел Федотов (Stepik) (BEG)

8. Python: быстрый старт - Дмитрий Фёдоров (BEG)

9. Python для начинающих (BEG)

10. Python для тех, у кого лапки - Мария Чакчурина, Дмитрий Колосов (Stepik) (INT)

11. Python: основы и применение - Константин Зайцев, Антон Гардер (Stepik) (INT)

🖊 Курсы по R

1. Анализ данных в R - Stepik (INT)

2. Анализ данных в R. Часть 2 - Stepik (INT)

3. Основы программирования на R - Stepik (BEG)

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥4❤3🥰1

7.09K views08:51

Анализ данных (Data analysis)

🖥

dtreeviz: инструмент визуализации и интерпретации деревьев решений

Если вы хотите найти простой способ визуализации и интерпретации модели дерева решений, используйте dtreeviz.

На изображении выше показан результат работы dtreeviz при применении инструмента к DecisionTreeClassifier.

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🔥2

6.45K views10:02

Анализ данных (Data analysis)

📌 Полезные бесплатные курсы от Google.

▪Ускоренный курс Google машинное обучение — база машинного обучения, включает видеолекции от исследователей из Google.

▪Основы Python для анализа данных — программирование на Python.

▪Введение в Data Science и аналитику — курс по Data Science и Data Science Life Cycle.

@data_analysis_ml

🔥15👍9❤3👎1

7.72K views09:38

Анализ данных (Data analysis)

📌 Предлагаем вам подборку бесплатных курсов по аналитике и визуализации данных

▪Digital-аналитика — This is Data

▪Визуализация данных - Онлайн-школа ILYN

▪Microsoft Power BI — Microsoft Learn

▪Power Bi для интернет-маркетинга — NeedForData

▪Основы работы с DataLens — Яндекс Практикум

▪Google Data Studio (2022) — Яков Осипенков

▪Google Data Studio (2022) — Школа аналитики "Байкал"

@data_analysis_ml

❤18🔥6👍4

6.11K views13:16

Анализ данных (Data analysis)

В сервисе Yandex Data Proc стало доступно создание управляемых кластеров Hive Metastore (Public Preview)

Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.

Теперь решать задачи подготовки и очистки данных, создания хранилищ и предметно-ориентированных витрин данных стало проще.

➡️ Подробнее о новинке и о том, как первым получить доступ по ссылке

👍8❤4

4.51K views09:01

Анализ данных (Data analysis)

💡 Начало работы с pytest

Если вы хотите протестировать свою функцию на разных примерах, используйте декоратор pytest.mark.parametrize из библиотеки pytest.

В приведенном выше коде ожидается, что первое предложение будет содержать слово "duck", а второе предложение не будет содержать этого слова. При запуске pytest прошло 2 теста.


import pytest

def text_contain_word(word: str, text: str):
    '''Find whether the text contains a particular word'''
    
    return word in text

test = [
    ('There is a duck in this text',True),
    ('There is nothing here', False)
    ]

@pytest.mark.parametrize('sample, expected', test)
def test_text_contain_word(sample, expected):

    word = 'duck'

    assert text_contain_word(word, sample) == expected

▪Github
▪Python Testing с pytest

@data_analysis_ml

❤9👍2🔥1

4.44K views11:01

Анализ данных (Data analysis)

🗺 Список полезных Python-библиотек для работы с геоданными:

1. Gmaps - библиотека для работы с Google maps, кот позволяет визуализировать и взаимодействовать с геоданными.

2. Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда.

3. Folium - это Python-библиотека для бычтрой визуализации геоданных, которая предоставляет интерфейс Python для работы с leaflet.js, одной из самых популярных библиотек JavaScript, используемых для создания интерактивных карт. Библиотека позволяет работать с файлами GeoJSON и TopoJSON, создавать фоновые картограммы с различными цветовыми схемами, персонализировать всплывающие подсказки и интерактивные карты-врезки.

4. Geopandas - это библиотека, которая предназначена для работы с геоданными в Python. Она предоставляет объект геодатафрейм, который по своей сущности аналогичен датафрейму Pandas, но который содержит информацию о геометрии, являющейся определением пространственного объекта.

5. Ipyleaflet - это интерактивная и многофункциональная библиотека виджетов, которая предоставляет возможность визуализировать карты.

👍11🔥6❤4

4.99K views10:02

Анализ данных (Data analysis)

🔥 Подборка полезных папок с каналами для датасаентисов

Папки, где вы найдете каналы с разбором лучших практик написания кода на Python и Golang до каналов по машинному обучению и нейросетям (папки работают на последних версиях тг).

https://t.iss.one/addlist/2Ls-snqEeytkMDgy - Машинное обучение

https://t.iss.one/addlist/8vDUwYRGujRmZjFi - Python

https://t.iss.one/addlist/MUtJEeJSxeY2YTFi - Golang

👍11🔥2

4.3K viewsedited 07:48

Анализ данных (Data analysis)

🖥

Как переписать и оптимизировать ваши SQL-запросы к Pandas на пяти простых примерах

Аналитики данных, инженеры и учёные одинаково знакомы с SQL. Язык запросов по-прежнему широко используется для работы с реляционными базами данных любого типа.

Однако, в настоящее время, всё больше и больше, особенно для аналитиков данных, растут технические требования, и ожидается, что люди, по крайней мере, знают основы языка программирования. При работе с данными Python и Pandas являются обычным дополнением к списку требований в описании вакансий.

Хотя Pandas может быть новым для людей, знакомых с SQL, концепции выбора, фильтрации и агрегирования данных в SQL легко переносятся в Pandas. Давайте рассмотрим в этой статье некоторые распространённые SQL-запросы и способы их написания и оптимизации в Pandas.

▪ Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍6🔥3💔1

4.39K views09:48

Анализ данных (Data analysis)

🔥 5 примеров использования Redis с кодом на Python

1. Caching
Redis можно использовать для кэширования часто используемых данных, снижая нагрузку на ваше основное хранилище данных. Вот пример того, как реализовать кэширование с помощью Redis в Python

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def get_data_from_cache(key):
    # Check if data exists in the cache
    if r.exists(key):
        # Retrieve data from the cache
        data = r.get(key)
        return data.decode('utf-8')  # Convert bytes to string
    else:
        # Fetch data from the primary data source
        data = fetch_data_from_source()

        # Store data in the cache with a timeout of 1 hour
        r.setex(key, 3600, data)
        return data

2. Pub/Sub (Publish/Subscribe):
Redis поддерживает паттерн pub/sub, позволяя вам создавать системы обмена сообщениями. Вот пример:

import redis
import time

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def publish_message(channel, message):
    # Publish a message to the specified channel
    r.publish(channel, message)

def subscribe_channel(channel):
    # Subscribe to a channel and process incoming messages
    pubsub = r.pubsub()
    pubsub.subscribe(channel)

    for message in pubsub.listen():
        print(message['data'].decode('utf-8'))  # Process the received message

3. Rate Limiting:
Redis можно использовать для реализации ограничения скорости, чтобы контролировать количество запросов или операций за период времени. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def check_rate_limit(ip_address):
    # Increment the request count for the IP address
    request_count = r.incr(ip_address)

    # If the count exceeds the limit (e.g., 100 requests per minute), deny the request
    if request_count > 100:
        return False

    return True

4. Session Storage:
Redis можно использовать для хранения данных сеанса в веб-приложениях. Пример:

import redis
import uuid

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def create_session(user_id):
    # Generate a unique session ID
    session_id = str(uuid.uuid4())

    # Store the session data in Redis with a timeout of 30 minutes
    r.setex(session_id, 1800, user_id)

    return session_id

def get_user_id_from_session(session_id):
    # Retrieve the user ID from the session data in Redis
    user_id = r.get(session_id)

    if user_id is not None:
        return user_id.decode('utf-8')  # Convert bytes to string
    else:
        return None

5. Leaderboard:
Redis можно использовать для создания таблиц лидеров или рейтингов на основе набранных баллов. Пример:

import redis

# Connect to Redis
r = redis.Redis(host='localhost', port=6379, db=0)

def update_score(player_id, score):
    # Update the score of a player
    r.zadd('leaderboard', {player_id: score})

def get_leaderboard():
    # Get the top 10 players from the leaderboard
    leaderboard = r.zrevrange('leaderboard', 0, 9, withscores=True)

    for player, score in leaderboard:
        print(f"Player: {player.decode('utf-8')}, Score: {score}")

Это лишь несколько примеров того, как Redis можно использовать в Python. Redis предоставляет множество других мощных функций и структур данных, которые можно использовать в различных приложениях.

▪Github

@data_analysis_ml

👍18❤3🔥1

9.07K viewsedited 16:01

Анализ данных (Data analysis)

Прощайте, циклы в Python: знакомство с возможностями векторизации

В этой статье я хочу поделиться с вами захватывающей техникой, которая произвела революцию в моём подходе к анализу и визуализации данных в Python.

Она называется векторизацией и позволяет вам попрощаться с циклами и использовать более эффективный и элегантный способ программирования.

▪ Читать

@data_analysis_ml

👍23🔥2❤1

5.3K viewsedited 10:05

Анализ данных (Data analysis)

8 инструментов распознавания речи:

1. DeepSpeech на базе Baidu DeepSpeech, позволяющий расшифровать аудиофайлы с использованием предварительно обученных моделей или обучить пользовательский набор данных.

2. wav2letter - open-course набор инструментов от Facebook AI Research, объединенный с библиотекой Flashlight.

3. OpenSeq2Seq- исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности.

4. TensorFlowASR – это бесплатный набор инструментов с открытым исходным кодом от Tensorflow, который включает в себя обученные модели на основе рекуррентных нейронных сетей с CTC.

5. SpeechRecognition - проект, предоставляющий доступ к нескольким моделям автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM.

6. Yandex SpeechKit от Яндекса - программный продукт, который полностью разработан и настроен.

7. SmartSpeech от СберDevices - проект предоставляет возможность использовать несколько моделей для автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM.

8. Сервис Google Документы позволяет переводить устную речь в записанный текст. Это встроенная функция с поддержкой разных языков. Для активации голосового ввода перейдите в раздел «Инструменты» и кликните на «Голосовой ввод»

@data_analysis_ml

👍6🔥5❤1

5.17K viewsedited 17:03

Анализ данных (Data analysis)

💬 Полезные NLP инструменты: Библиотека fastText

fastText - это библиотека для анализа и классификации текста.

Вот как загрузить и использовать предварительно обученные модели:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-vectors", filename="model.bin")
model = fasttext.load_model(model_path)
model.words

['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]

len(model.words)

145940

model['bread']

array([ 4.89417791e-01,  1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
       -1.04577184e-01,  1.17962055e-01,  1.34821936e-01, -2.41778508e-01, ...])

В следующем примеры мы будем использовать метод ближайших соседей:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
model = fasttext.load_model(model_path)
model.get_nearest_neighbors("bread", k=5)

[(0.5641006231307983, 'butter'), 
 (0.48875734210014343, 'loaf'), 
 (0.4491206705570221, 'eat'), 
 (0.42444291710853577, 'food'), 
 (0.4229326844215393, 'cheese')]

Вот как использовать эту модель для определения языка из введенного текста:

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
 array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

▪Github

@data_analysis_ml

👍8❤3🥰1

4.68K views10:02