Data Analysis / Big Data
2.84K subscribers
566 photos
4 videos
2 files
2.77K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Ambrosia – Open Source-библиотека для работы с A/B-тестами

Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.


Читать: https://habr.com/ru/post/700992/
Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech

Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.


Читать: https://habr.com/ru/post/701442/
👍3
Парсинг Яндекс Карт или как найти целевую аудиторию

Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории


Читать: https://habr.com/ru/post/701478/
🔥1
Структура команды Data Science: ключевые модели и роли

Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.

Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.

В этот раз мы поговорим о структуре команд data science и их сложности.


Читать: https://habr.com/ru/post/697630/
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?


Читать: https://habr.com/ru/post/701794/
Поиск инновационных приложений для работы с большими данными. Кейс Банка Даляня

Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.

Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи

Читать: https://habr.com/ru/post/702182/
👍1
Дельта BI глазами (и руками) разработчика Tableau

Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.

Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.


Читать: https://habr.com/ru/post/702660/
Five new features in the Dataset Editor to improve your data preparation productivity!

This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.

Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity
👍1
Query your OAC semantic model from an OCI Data Science environment

Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.

Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment
Выбросьте блокноты, или почему заниматься Data Science нужно так, будто вы разработчик

Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.


Читать: https://habr.com/ru/post/702798/
НЕЙРОННАЯ СЕТЬ ДЛЯ РАСПОЗНАВАНИЯ ОБРАЗОВ С TENSORFLOW: КАК С НЕЙ РАБОТАТЬ

Привет, Хабр! В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.

Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.


Читать: https://habr.com/ru/post/703130/
Эффективная работа со строками в JavaScript

Хочу предложить вашему вниманию перевод своей статьи на dev.to об эффективной работе со строками в Javascript. Все что отображает браузер кроме картинок и видео это строки, поэтому грамотная работа с ними может значительно увеличить скорость работы веб-приложений как на стороне клиента так и на стороне сервера. Итак, начнем.

Что нужно знать о строках с позиции эффективности их использования? Во первых, строки относятся к примитивным типам данных. Во вторых, значения примитивных (простых) типов данных, в отличии от составных, таких как массивы и структуры не изменяемы. Это значит, что если вы присвоили значение переменной строкового типа один раз, то в дальнейшем эту строку изменить невозможно. Однако такое утверждение может удивить. Что это значит на практике? Если, например, выполнить этот код...


Читать: https://habr.com/ru/post/703238/
Прогнозирование продаж Python. Как находить и сглаживать выбросы с помощью фильтра Хэмплея

Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.

Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.

Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.


Читать: https://habr.com/ru/post/703246/
👍2
Как я писал трекинг парковочных мест

Рассказываю, как я делал трекинг свободных парковочных мест руками новичка. Получилось интересно :)


Читать: https://habr.com/ru/post/703276/
2003–2023: Краткая история Big Data


Когда, играя в ту или иную RPG, я оказываюсь в библиотеке, то обязательно перечитываю все книги на полках, чтобы лучше вникнуть во вселенную игры. Помнит кто-нибудь «Краткую историю империи» в Morrowind?

Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.

Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.

Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…

Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.


Читать: https://habr.com/ru/post/702932/
Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных  (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных.  Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.

В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.


Читать: https://habr.com/ru/post/703608/