Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь
Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.
Читать: https://habr.com/ru/post/699490/
Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.
Читать: https://habr.com/ru/post/699490/
Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark
Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать: https://habr.com/ru/post/698038/
Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать: https://habr.com/ru/post/698038/
Self-checkout takes another hit
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/self-checkout-takes-another-hit.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/self-checkout-takes-another-hit.html
Подборка актуальных вакансий
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
Data Engineering Weekly #108
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-108
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-108
ETL и ELT: ключевые различия, о которых должен знать каждый
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.
В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать: https://habr.com/ru/post/695546/
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.
В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать: https://habr.com/ru/post/695546/
Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Читать: https://habr.com/ru/post/700910/
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Читать: https://habr.com/ru/post/700910/
👍2
Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений
Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.
Читать: https://habr.com/ru/post/700900/
Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.
Читать: https://habr.com/ru/post/700900/
ClickHouse: как обрабатывать big data в 800 раз быстрее
Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.
Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.
Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Ambrosia – Open Source-библиотека для работы с A/B-тестами
Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.
Читать: https://habr.com/ru/post/700992/
Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.
Читать: https://habr.com/ru/post/700992/
Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech
Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.
Читать: https://habr.com/ru/post/701442/
Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.
Читать: https://habr.com/ru/post/701442/
👍3
Парсинг Яндекс Карт или как найти целевую аудиторию
Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории
Читать: https://habr.com/ru/post/701478/
Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории
Читать: https://habr.com/ru/post/701478/
🔥1
Структура команды Data Science: ключевые модели и роли
Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.
Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.
В этот раз мы поговорим о структуре команд data science и их сложности.
Читать: https://habr.com/ru/post/697630/
Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.
Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.
В этот раз мы поговорим о структуре команд data science и их сложности.
Читать: https://habr.com/ru/post/697630/
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?
Читать: https://habr.com/ru/post/701794/
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?
Читать: https://habr.com/ru/post/701794/
Data Engineering Weekly #109
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109
👍1
Поиск инновационных приложений для работы с большими данными. Кейс Банка Даляня
Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.
Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи
Читать: https://habr.com/ru/post/702182/
Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.
Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи
Читать: https://habr.com/ru/post/702182/
👍1
Дельта BI глазами (и руками) разработчика Tableau
Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.
Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.
Читать: https://habr.com/ru/post/702660/
Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.
Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.
Читать: https://habr.com/ru/post/702660/
Top 5 Tips for Optimal Oracle Database Performance of Data Warehouse Queries
Achieving optimal performance of data warehouse queries takes planning. This article provides the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.
Read: https://blogs.oracle.com/analytics/post/top-5-tips-for-optimal-oracle-database-performance-of-data-warehouse-queries
Achieving optimal performance of data warehouse queries takes planning. This article provides the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.
Read: https://blogs.oracle.com/analytics/post/top-5-tips-for-optimal-oracle-database-performance-of-data-warehouse-queries
Oracle
Top 5 Tips for Optimal Oracle Database Performance of Data Warehouse Queries
Achieving optimal performance of data warehouse queries doesn’t happen by accident. In this blog, I will provide the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.
Five new features in the Dataset Editor to improve your data preparation productivity!
This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.
Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity
This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.
Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity
👍1
Query your OAC semantic model from an OCI Data Science environment
Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.
Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment
Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.
Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment
Oracle
Query your OAC semantic model from OCI Data Science environment
Use your OAC semantic model as a metrics store to query verified measures from a data science notebook session.
Выбросьте блокноты, или почему заниматься Data Science нужно так, будто вы разработчик
Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.
Читать: https://habr.com/ru/post/702798/
Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.
Читать: https://habr.com/ru/post/702798/