Типичный программист
81.6K subscribers
2.66K photos
908 videos
8 files
7.46K links
Всё самое интересное по программированию

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

VK: vk.com/tproger

Регистрация в перечне РКН: https://tprg.ru/mJwo
Download Telegram
Математика для Data Science: 3 полезных закона

В зависимости от сферы, программистам нужно понимать разные разделы математики. Например, в криптографии это общая и линейная алгебра, а в сфере Data Science — статистика и теория вероятностей.

На примере песен из Spotify и необычных математических законов, показываем как математика может пригодиться в Data Science:

https://tprg.ru/DZng

#datascience #математика
Основные инструменты Data Science

Какие языки используются в работе дата-сайентиста? В каких средах разработки они работают? Как обрабатывают данные? Читайте в статье:

https://tprg.ru/bvs7

#datascience
Что делать датасаентисту, если у него есть неверно размеченные данные, но уж очень хочется их использовать?

Рассказываем и показываем в этой статье: https://tprg.ru/Sr91

#datascience #python
Начинающим специалистам в Data Science бывает сложно понять, что изучать в первую очередь

В этой статье вместе с экспертами, разбираемся, с чего лучше начать свой путь в Data Science и на какие алгоритмы и структуры данных стоит обратить внимание:

https://tprg.ru/POQ4

#datascience #ml
7 советов для новичков в Data Science

Большая часть курсов и учебников по Data Science описывает базовые алгоритмы и навыки. Но когда дело доходит до настоящих проектов, оказывается, что эти знания далеки от реальности.

Как получить максимум практического опыта и подготовиться к работе Data Scientist’ом? Вот несколько рекомендаций:

https://tprg.ru/Dspm

#datascience
5 неожиданных мест работы дата-сайентиста: от йоги до борьбы с deepfakes

На первый взгляд, дата-сайентисты востребованны в основном в финансовом секторе и IT-компаниях. Однако хорошие дата-сайентисты давно нужны и не только в этих отраслях.

В этой статье читатель Tproger рассказал о 5 неожиданных местах работы дата-сайентистов: https://tprg.ru/TWrn

#datascience
Для анализа данных и машинного обучения требуется много данных. Но где их взять? Рассказываем

Конечно же, можно было бы собрать их самостоятельно. Но это долго, дорого, а иногда и вообще невозможно. А тем временем, есть огромное количество открытых датасетов по самым разным категориям, о которых вы могли не знать. Некоторыми из них открыто делятся госструктуры, банки, международные организации и крупные компании. Более того, для их поиска уже давно разработали удобные инструменты.

В статье рассказываем о лучших местах для поиска качественных датасетов: tproger.ru/translations/the-best-datasets-for-machine-learning-and-data-science/

#datascience #ml
Зачем аналитикам данных знать SQL?

SQL — мощный инструмент для анализа и преобразования данных, который позволяет разработчикам обращаться к различным базам данных. И чтобы аналитику не приходилось просить помощи у кого-то ещё, полезно знать и уметь применять SQL.

О том, как это делать правильно, рассказываем в статье:

https://tprg.ru/LzRB

#sql #datascience
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати о Wordle, тут один дата-сайентист рассчитал самое оптимальное слово для начала игры

Наконец-то действительно достойное применение Data Science!

Уже ни для кого не секрет, что первое слово, которое напишет игрок, может иметь решающее значение для всей игры. И один из самых больших вопросов с момента запуска игры — с какого слова лучше начинать.

И у этого выбора есть вполне логичное математическое объяснение. Разработчик с ником crvlwanek доказал это, написав скрипт, который проанализировал словарь игры и оценил частоту и порядок появления букв в словах. Так, лучшим словом для старта оказалось слово «later». В топ-10 также вошли «alter», «alert», «arose», «stare», «arise», «raise», «learn» «renal» и «irate».

Кому интересно, свою реализацию кода crvlwanek выложил на гитхаб: https://github.com/crvlwanek/wordle

#datascience #кек
​​Поиск наборов данных с Google Data Search

На платформе доступно более 25 миллионов датасетов. Их количество и разнообразие постоянно растет за счет хранилищ, использующих schema.org. Найти нужные данные максимально просто с помощью ключевых слов. Пригодится студентам, исследователям и дата-сайентистам для обучения моделей.

https://datasetsearch.research.google.com/

#datascience #google
Веб-парсер на Python всего за 5 минут

Интернет — огромный источник ценной информации для дата-сайентиста. Конечно, если уметь её правильно добывать. И этот небольшой гайд в этом вам поможет. В нём подробно рассмотрели создание парсера сайтов с использованием BeautifulSoup и Pandas:

https://www.kdnuggets.com/2022/02/build-web-scraper-python-5-minutes.html

#python #веб #datascience