Анализ данных (Data analysis)

🔥 Бесплатные курсы и ресурсы для подготовке к алгоритмической части собеседования

▪the-algorithms.com/ru
▪www.piratekingdom.com/leetcode/cheat-sheet
▪www.programiz.com/dsa/algorithm
▪stepik.org/course/1547/promo
▪stepik.org/course/217/promo
▪https://t.iss.one/addlist/2Ls-snqEeytkMDgy
▪https://discopal.ispras.ru/img_auth.php/f/f4/Book-advanced-algorithms.pdf

@data_analysis_ml

❤12🔥4🤨2🥰1

5.94K views09:02

Анализ данных (Data analysis)

🔍 Где искать работу Дата Саентисту?

Собрали для вас список площадок для поиска работы или фрланс-проекта в области Data Science.

1. Toptal
Toptal - один из крупнейших фриланс сайтов для специалистов по анализу данных. В отличие от многих других бирж фриланса в Toptal соискатели проходят тестирование в различных областях, включая знание английского языка и технические навыки, в области SQL и Python для data science.

2. Open Data Science Jobs
Open Data Science Jobs - одна из крупнейших площадок вакансий, посвященных только науке о данных. Такие компании, как Bose, использовали эту доску объявлений для поиска специалистов по науке о данных для оптимизации своей бизнес-аналитики.

3. Kaggle
Kaggle - одно из крупнейших сообществ датасаентистов. Kaggle предоставляет наборы данных, проводит соревнования и вообще способствует процветанию сообщества специалистов по анализу данных.

Доска вакансий Kaggle - один из лучших вариантов для начала поиска проекта для рабрты. Ее услугами пользуются крупнейшие компании (Amazon, Capital One и AIG и тд).

4. Scalable Path

Если у вас есть готовая команда датасаентистов и вы хотите найти интерсный проект , Scalable Path - отличный вариант.

5. Gigster
Еще одина крупная фриланс площадка с проектами ds.

6. iCrunchData - это доска объявлений c вакансиями в области науки о данных.

7. X-Team
X-Team - рынок фриланса, где можно работать, как одному, так и в команде.

8. Gun.io
Gun.io очень похож на Toptal, быстро и эффективно подбирая для компаний квалифицированных инженеров по науке о данных. С тысячами зарегистрированных членов Gun.io является восходящей звездой в индустрии фриаланса.

9. R-users
Простой поиск по сайту R-users позволяет найти десятки вакансий в области науки о данных, в которых используется язык программирования R.

10. AngelList
AngelList - это место, где встречаются ит- предприниматели и инвесторы.

11. Engineering Jobs
Если вы ищете ds проект Engineering Jobs может стать отличным местом для поиска интересной работы.

12. Dice
Dice - доскоа объявлений о карьере в сфере технологий и ИТ. Эта доска известна тем, что привлекает архитекторов программного обеспечения, инженеров, QA-тестеров и инженеров по анализу данных.

13. SimplyHired
SimplyHired - это еще одна крупная доска объявлений о работе, похожая на Indeed или Monster.

14. Папка с каналами для поиска работы в телеграме.

Телеграм каналы и чаты, где публикуются вакансии ds, python и не только. Очень полезная папка (папки поддерживаются только в последних версиях тг), где можно найти вакансию на любой ЯП.

Ставьте 👍 , если полезно.

@data_analysis_ml

👍38🔥9❤7

7.37K viewsedited 09:44

Анализ данных (Data analysis)

🖥

Полезный интсрумент Класс ChainMap() модуля collections в Python.

Обновляемый, производительный контейнер словарей dict().

Класс ChainMap() предназначен для быстрого объединения нескольких словарей, чтобы их можно было рассматривать как единое целое. Такой контейнер объединяет словари и ищет ключи намного быстрее, чем создание нового словаря и выполнение объединения при помощи вызовов dict.update().

Класс ChainMap() может использоваться для имитации вложенных областей и полезен при создании шаблонов. Смотрите примеры использования ChainMap

Синтаксис:

import collections

d = collections.ChainMap(*maps)
Параметры:

*maps - один или несколько словарей.

Возвращаемое значение:
собственный тип ChainMap.

Описание:
Класс ChainMap() модуля collections группирует несколько словарей или других сопоставлений для создания единого обновляемого представления. Если словари maps не указаны, то будет создан один пустой словарь.

>>> from collections import ChainMap
>>> first = {'two': 22, 'three': 3}
>>> last = {'one': 1, 'two': 2}
>>> d = ChainMap(first, last)
>>> d

# ChainMap({'two': 22, 'three': 3}, {'one': 1, 'two': 2})

При добавлении словарей, одинаковые ключи не затираются новыми значениями, вместо этого словари добавляются и хранятся в обновляемом списке. Доступ к этому списку можно получить используя атрибут d.maps.

Класс поддерживает все основные методы словарей dict(). Операции добавления, обновления и удаления значений могут быть произведены только со словарем, который был добавлен первым.

Через атрибут maps можно изменять ВСЕ словари. Доступ к конкретному словарю осуществляется по индексу в списке атрибута d.maps[i], а изменения осуществляются через их методы dict().

# доступ к словарям
>>> d.maps[0]
# {'one': 1, 'two': 2, 'four': 4}
>>> d.maps[1]['three']
# 3

# изменяем словари и не забываем, что мы 
# поменяли их местами - 'd.maps.reverse()' 
>>> d.maps[0]['five'] = 5
>>> del d.maps[0]['four']
>>> d.maps[1]['four'] = 4
>>> d
# ChainMap({'one': 1, 'two': 2, 'five': 5}, {'three': 3, 'one': 11, 'four': 4})

# исходные словари то же изменились
>>> first
# {'three': 3, 'one': 11, 'four': 4}
>>> last
# {'one': 1, 'two': 2, 'five': 5}

# изменяем список словарей
>>> d.maps.pop()
# {'three': 3, 'one': 11, 'four': 4}
>>> d
# ChainMap({'one': 1, 'two': 2, 'five': 5})

# добавляем в экземпляр `ChainMap()` новый словарь
>>> new_dict = {'a': 10, 'b': 20, 'c': 30}
>>> d.maps.append(new_dict)
>>> d
# ChainMap({'one': 1, 'two': 2, 'five': 5}, {'a': 10, 'b': 20, 'c': 30})
>>> del d.maps[1]['c']
>>> d.maps[0]['one'] = 0
>>> d
# ChainMap({'one': 0, 'two': 2, 'five': 5}, {'a': 10, 'b': 20})

# исходные словари 
>>> last
{'one': 0, 'two': 2, 'five': 5}
>>> new_dict
{'a': 10, 'b': 20}

▪Подробнее

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍5❤3

5.99K viewsedited 09:01

Анализ данных (Data analysis)

Я попробовал 84 плагина на ChatGPT. Вот лучшие из них!

Плагины — это новые модули, доступные пользователям ChatGPT Plus, которые навсегда изменят ChatGPT, поскольку они добавляют множество функций к тому, что искусственный интеллект может делать изначально.

На сегодняшний день в магазине плагинов их насчитывается около 84. Я попробовал их все, и в этой статье я поделюсь с вами теми, которые я считаю лучшими.

▪Читать

@data_analysis_ml

👍14🔥2❤‍🔥1👎1🥰1

6.53K viewsedited 10:47

Анализ данных (Data analysis)

nbdime: Полезная библиотека для контроля версий для Jupyter Notebook

Если вы хотите сравнить предыдущую и текущую версии ноутбука, используйте nbdime. На картинке выше показано, как сравниваются две версии ноутбука с помощью nbdime. Так же инструмент позволяет удобно мерджить ноутбуки.

pip install nbdime

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤2🔥2

5.77K viewsedited 16:22

Анализ данных (Data analysis)

📖wordfreq: оценка частоты слова на 40 языках

Если вы хотите определить частоту употребления определенного слова в вашем тексте, попробуйте использовать wordfreq.

wordfreq поддерживает 40 языков. Библиотека охватывает даже слова, которые встречаются хотя бы один раз на 10 миллионов слов.

Пример использования приведен выше.

pip3 install wordfreq

Пример работы:

import matplotlib.pyplot as plt
import seaborn as sns
from wordfreq import word_frequency

print(word_frequency("eat", "en"))  # 0.000135
print(word_frequency("the", "en"))  # 0.0537

sentence = "There is a dog running in a park"
words = sentence.split(" ")
word_frequencies = [word_frequency(word, "en") for word in words]

sns.barplot(words, word_frequencies)
plt.show()

▪Ссылка на wordfreq

@data_analysis_ml

👍21🔥4❤1

5.56K views11:06

Анализ данных (Data analysis)

Ребята из Авито ищут аналитиков в кластеры Trust and Safety и Business Security.

Открыты позиции:
➡️ Команда жилой недвижимости
➡️ Команда модерации
➡️ Команда рейтингов и отзывов

Из приятного:
• Много качественных данных, мощная инфраструктура и инструменты, любое необходимое железо — всё готово для продуктивной работы;
• Возможность влиять на бизнес и развитие продукта;
• Прозрачная система премий, достойная зарплата — размер обсудим на собеседовании;
• Личный бюджет на обучение — книги, курсы и конференции;
• ДМС со стоматологией с первого дня, в офисе принимают терапевт и массажист;
• Возможность совмещать работу из дома и комфортного офиса в 2 минутах от «Белорусской» с панорамным видом на центр города, местами для уединенной работы, двумя спортивными залами, зонами отдыха и гамаками.

Не откладываем (а то мы вас знаем), а сразу переходим по ссылкам и откликаемся!

❤12

5.3K views16:02

Анализ данных (Data analysis)

🖥

snoop : Интеллектуальная печать для отладки вашей функции Python

Если вы хотите понять, что происходит в вашем коде, без использования множества операторов print, попробуйте использовать snoop. Вы увидите журнал работы вашей функции, включая то, какие строки выполнялись и когда, и что происходит с каждой из переменных.

Чтобы использовать библиотеку, просто добавьте декоратор @snoop в свою функцию.

import snoop 

@snoop
def factorial(x: int):
    if x == 1:
        return 1
    else: 
        return (x * factorial(x-1))

if __name__ == '__main__':
    num = 2
    print(f'The factorial of {num} is {factorial(num)}')

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥3❤2

5.43K viewsedited 18:03

Анализ данных (Data analysis)

🔥 Data scientist и другие digital-специалисты! Открыта регистрация на онлайн-чемпионат по анализу данных SIBUR CHALLENGE 2023 // ГЕНЕРАЛИЗАЦИЯ.

Участникам предстоит поработать с реальными кейсами крупной нефтехимической компании Сибур и решить две задачи на выбор.

Вы получите поддержку от экспертов индустрии, доступ к сообществу единомышленников и дополнительные вознаграждения за активности. А еще — шанс получить приглашение на работу или стажировку!

🏆 Призовой фонд — 1 млн рублей.
На каждую из двух задач приходится по 3 места:
1 место — 250 тысяч рублей.
2 место — 150 тысяч рублей.
3 место — 100 тысяч рублей.

Основная работа будет проходить в онлайне на платформе AI Today. Можно участвовать индивидуально или в команде.
Присоединиться к соревнованию можно до 7 июня.

Успейте подать заявку и побороться за призовой фонд в 1 млн рублей.

👨‍💻 Регистрация и подробности: https://clck.ru/34WAyY

Организаторы: Сибур Диджитал, AI Community и AI Today.

❤9🔥4

5.77K views08:02

Анализ данных (Data analysis)

🖥

faker: Create Fake Data in One Line of Code

Чтобы быстро создать фейковые данные для тестов, попробуйте использовать faker. В приведенном коде показаны некоторые возможности быстрой генерации данных с faker.

pip install Faker

from faker import Faker
fake = Faker()

fake.name()
# 'Lucy Cechtelar'

fake.address()
# '426 Jordy Lodge
#  Cartwrightshire, SC 88120-6700'

fake.text()
# 'Sint velit eveniet. Rerum atque repellat voluptatem quia rerum. Numquam excepturi'

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥6👍3

5.76K viewsedited 10:02

Анализ данных (Data analysis)

🗺 Создание географической карты с интерактивными маркерами: руководство по Plotly Dash

Хочу поделиться с вами решением задачи наглядного представления большого объёма данных с возможностью детального просмотра информации по интересующим объектам.

▪Читать

@data_analysis_ml

👍15🔥3❤2

5.03K views08:21

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Полезные инструменты: RATH — альтернатива Tableau с открытым исходным кодом

RATH относительно новый инструмент, который имеет одно из самых быстрорастущих сообществ на GitHub. Благодаря передовым технологиям и новаторскому подходу к анализу и визуализации данных, RATH быстро завоевала популярность среди профессионалов по работе с данными.

Сообщество RATH быстро растет: разработчики, специалисты по данным и бизнес-аналитики вносят свой вклад в его развитие и делятся идеями о том, как максимально использовать его потенциал. Независимо от того, являетесь ли вы опытным аналитиком данных или только начинаете, RATH является обязательным инструментом для всех, кто хочет улучшить свои навыки анализа и визуализации данных.

▪Kanaries(k6s) RATH
▪Больше информации о RATH

@data_analysis_ml

👍22🔥3❤2

5.16K views09:58

Анализ данных (Data analysis)

🖥 Полезая подборка бесплатных курсов по Python и R

1. Автоматизация тестирования с помощью Selenium и Python - Stepik (INT)

2. Добрый, добрый Python - обучающий курс от Сергея Балакирева - Сергей Балакирев (Stepik) (BEG)

3. Основы программирования на Python - Coursera (BEG)

4. Питонтьютор: Бесплатный курс по программированию с нуля - Виталий Павленко, Владимир Соломатин, Д. П. Кириенко, команда Pythontutor (BEG)

5. "Поколение Python": курс для начинающих - Тимур Гуев, Руслан Чаниев, Анри Табуев (Stepik) (BEG)

6. "Поколение Python": курс для продвинутых - Тимур Гуев, Руслан Чаниев, Благотворительный фонд "Айкью Опшн" (Stepik) (INT)

7. Программирование на Python - Тимофей Бондарев, Павел Федотов (Stepik) (BEG)

8. Python: быстрый старт - Дмитрий Фёдоров (BEG)

9. Python для начинающих (BEG)

10. Python для тех, у кого лапки - Мария Чакчурина, Дмитрий Колосов (Stepik) (INT)

11. Python: основы и применение - Константин Зайцев, Антон Гардер (Stepik) (INT)

🖊 Курсы по R

1. Анализ данных в R - Stepik (INT)

2. Анализ данных в R. Часть 2 - Stepik (INT)

3. Основы программирования на R - Stepik (BEG)

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥4❤3🥰1

7.09K views08:51

Анализ данных (Data analysis)

🖥

dtreeviz: инструмент визуализации и интерпретации деревьев решений

Если вы хотите найти простой способ визуализации и интерпретации модели дерева решений, используйте dtreeviz.

На изображении выше показан результат работы dtreeviz при применении инструмента к DecisionTreeClassifier.

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🔥2

6.45K views10:02

Анализ данных (Data analysis)

📌 Полезные бесплатные курсы от Google.

▪Ускоренный курс Google машинное обучение — база машинного обучения, включает видеолекции от исследователей из Google.

▪Основы Python для анализа данных — программирование на Python.

▪Введение в Data Science и аналитику — курс по Data Science и Data Science Life Cycle.

@data_analysis_ml

🔥15👍9❤3👎1

7.72K views09:38

Анализ данных (Data analysis)

📌 Предлагаем вам подборку бесплатных курсов по аналитике и визуализации данных

▪Digital-аналитика — This is Data

▪Визуализация данных - Онлайн-школа ILYN

▪Microsoft Power BI — Microsoft Learn

▪Power Bi для интернет-маркетинга — NeedForData

▪Основы работы с DataLens — Яндекс Практикум

▪Google Data Studio (2022) — Яков Осипенков

▪Google Data Studio (2022) — Школа аналитики "Байкал"

@data_analysis_ml

❤18🔥6👍4

6.11K views13:16

Анализ данных (Data analysis)

В сервисе Yandex Data Proc стало доступно создание управляемых кластеров Hive Metastore (Public Preview)

Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными и упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.

Теперь решать задачи подготовки и очистки данных, создания хранилищ и предметно-ориентированных витрин данных стало проще.

➡️ Подробнее о новинке и о том, как первым получить доступ по ссылке

👍8❤4

4.51K views09:01

Анализ данных (Data analysis)

💡 Начало работы с pytest

Если вы хотите протестировать свою функцию на разных примерах, используйте декоратор pytest.mark.parametrize из библиотеки pytest.

В приведенном выше коде ожидается, что первое предложение будет содержать слово "duck", а второе предложение не будет содержать этого слова. При запуске pytest прошло 2 теста.


import pytest

def text_contain_word(word: str, text: str):
    '''Find whether the text contains a particular word'''
    
    return word in text

test = [
    ('There is a duck in this text',True),
    ('There is nothing here', False)
    ]

@pytest.mark.parametrize('sample, expected', test)
def test_text_contain_word(sample, expected):

    word = 'duck'

    assert text_contain_word(word, sample) == expected

▪Github
▪Python Testing с pytest

@data_analysis_ml

❤9👍2🔥1

4.44K views11:01

Анализ данных (Data analysis)

🗺 Список полезных Python-библиотек для работы с геоданными:

1. Gmaps - библиотека для работы с Google maps, кот позволяет визуализировать и взаимодействовать с геоданными.

2. Leafmap - Python пакет для создания интерактивных карт для геопространственного анализа. Эта библиотека доступна в среде Jupyter, Google Colab, Jupyter Notebook и JupyterLab, и позволяет анализировать и визуализировать геоданные без особого труда.

3. Folium - это Python-библиотека для бычтрой визуализации геоданных, которая предоставляет интерфейс Python для работы с leaflet.js, одной из самых популярных библиотек JavaScript, используемых для создания интерактивных карт. Библиотека позволяет работать с файлами GeoJSON и TopoJSON, создавать фоновые картограммы с различными цветовыми схемами, персонализировать всплывающие подсказки и интерактивные карты-врезки.

4. Geopandas - это библиотека, которая предназначена для работы с геоданными в Python. Она предоставляет объект геодатафрейм, который по своей сущности аналогичен датафрейму Pandas, но который содержит информацию о геометрии, являющейся определением пространственного объекта.

5. Ipyleaflet - это интерактивная и многофункциональная библиотека виджетов, которая предоставляет возможность визуализировать карты.

👍11🔥6❤4

4.99K views10:02

About

Blog

Apps

Platform