Oracle Analytics Server (OAS) 2023 Update (7.0.0) is live
Oracle Analytics Server (OAS) 2023 Update (7.0.0) is live
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-oas-2023-update-700-is-live
Oracle Analytics Server (OAS) 2023 Update (7.0.0) is live
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-oas-2023-update-700-is-live
Oracle
Oracle Analytics Server (OAS) 2023 Update (7.0.0) is live
131 вопрос с собеседованиях про SQL
SQL является одним из самых популярных языков для работы с базами данных. Каждый, кто работает с данными, должен знать основы SQL, включая такие понятия, как создание и модификация таблиц, выборка данных из таблиц, обновление и удаление записей, агрегирование данных и многое другое. Если вы ищете работу, связанную с базами данных, вероятность высока, что на собеседовании вам зададут несколько вопросов про SQL. Подготовьтесь к собеседованию c помощью списка из 131 вопроса, которые могут попасться на собеседование про SQL.
Пройти собеседование
Читать: https://habr.com/ru/post/725780/
SQL является одним из самых популярных языков для работы с базами данных. Каждый, кто работает с данными, должен знать основы SQL, включая такие понятия, как создание и модификация таблиц, выборка данных из таблиц, обновление и удаление записей, агрегирование данных и многое другое. Если вы ищете работу, связанную с базами данных, вероятность высока, что на собеседовании вам зададут несколько вопросов про SQL. Подготовьтесь к собеседованию c помощью списка из 131 вопроса, которые могут попасться на собеседование про SQL.
Пройти собеседование
Читать: https://habr.com/ru/post/725780/
🔥1
Как я из специалиста по защите информации стал аналитиком данных. Моя история
Привет, хабр! Меня зовут Алексей, я работаю аналитиком данных в компании "Мегапьютер", но я не сразу стал им. Чтобы понять, кем я действительно хочу работать, потребовалось время.
В 2017 я закончил ЧГУ (Чебоксарский Государственный Университет) по специальности защита информации, но и начал свой трудовой путь в телекоммуникационной компании специалистом по защите информации.
И пошло-поехало первое, что я делал, приходя на работу изо дня в день - проверял свой почтовый ящик на наличие уведомлений о событиях информационной безопасности (ИБ). Данные уведомления поступали из различных источников, включая системы обнаружения вторжений, брандмауэры и антивирусное программное обеспечение. Специалист по ИТ-безопасности, то есть я, должен знать эти предупреждения, чтобы определить, представляют ли они реальную угрозу или ложное срабатывание.
При определении события, как инцидент ИБ, я должен был немедленно отреагировать на него. Мне требовалось определить источник атаки и принять меры для его сдерживания, предотвращения дальнейшего ущерба и восстановления потерянных данных. Этот процесс мог занимать много времени и требовал огромного терпения и выдержки.
В общем, такая работа постоянно держала меня в напряжении и не давала полета творчества. И самое главное, я был загнан в рамки свода правил, определенных федеральными законами.
Но я продолжал работать. Что, зря учился, что ли, думал я. И все это длилось бы долгие и долгие годы, если случайно в торговом центре я не встретил своего бывшего одноклассника, который, как оказалось, уже несколько лет успешно работал аналитиком данных. Он интересно рассказывал мне о характере своей деятельности, основных обязанностях. Придя домой, под впечатлением рассказа друга, я стал изучать информацию о данной профессии в интернете. Заказал книгу Эрика Сигеля «Просчитать будущее: Кто кликнет, купит, соврет или умрет», открывающую завесу профессии аналитика данных.
Читать: https://habr.com/ru/post/725896/
Привет, хабр! Меня зовут Алексей, я работаю аналитиком данных в компании "Мегапьютер", но я не сразу стал им. Чтобы понять, кем я действительно хочу работать, потребовалось время.
В 2017 я закончил ЧГУ (Чебоксарский Государственный Университет) по специальности защита информации, но и начал свой трудовой путь в телекоммуникационной компании специалистом по защите информации.
И пошло-поехало первое, что я делал, приходя на работу изо дня в день - проверял свой почтовый ящик на наличие уведомлений о событиях информационной безопасности (ИБ). Данные уведомления поступали из различных источников, включая системы обнаружения вторжений, брандмауэры и антивирусное программное обеспечение. Специалист по ИТ-безопасности, то есть я, должен знать эти предупреждения, чтобы определить, представляют ли они реальную угрозу или ложное срабатывание.
При определении события, как инцидент ИБ, я должен был немедленно отреагировать на него. Мне требовалось определить источник атаки и принять меры для его сдерживания, предотвращения дальнейшего ущерба и восстановления потерянных данных. Этот процесс мог занимать много времени и требовал огромного терпения и выдержки.
В общем, такая работа постоянно держала меня в напряжении и не давала полета творчества. И самое главное, я был загнан в рамки свода правил, определенных федеральными законами.
Но я продолжал работать. Что, зря учился, что ли, думал я. И все это длилось бы долгие и долгие годы, если случайно в торговом центре я не встретил своего бывшего одноклассника, который, как оказалось, уже несколько лет успешно работал аналитиком данных. Он интересно рассказывал мне о характере своей деятельности, основных обязанностях. Придя домой, под впечатлением рассказа друга, я стал изучать информацию о данной профессии в интернете. Заказал книгу Эрика Сигеля «Просчитать будущее: Кто кликнет, купит, соврет или умрет», открывающую завесу профессии аналитика данных.
Читать: https://habr.com/ru/post/725896/
👍2❤1😁1
Long story behind simple metrics
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/long-story-behind-simple-metrics.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/long-story-behind-simple-metrics.html
20 практических советов для разработчиков использующих базы данных SQL
Практически все разрабатываемые системы включают использование баз данных, часто база данных, ее проектирование и обработка являются ключевыми аспектами системы в отношении добавления стоимости бизнесу, безопасности, производительности, организационной политики и других факторов, которые делают этот слой наших приложений чрезвычайно важным и заслуживающим особого внимания со стороны нас в роли разработчиков.
Я всегда сторонник мнения, что для разработчика рекомендуется иметь некоторое понимание о том, как работают базы данных.
Учитывая огромное количество различных рекомендаций и советов по использованию баз данных, этот простой список, содержащийся в данной статье, представляет лишь часть того, что может быть рассмотрено.
Читать: https://habr.com/ru/post/726376/
Практически все разрабатываемые системы включают использование баз данных, часто база данных, ее проектирование и обработка являются ключевыми аспектами системы в отношении добавления стоимости бизнесу, безопасности, производительности, организационной политики и других факторов, которые делают этот слой наших приложений чрезвычайно важным и заслуживающим особого внимания со стороны нас в роли разработчиков.
Я всегда сторонник мнения, что для разработчика рекомендуется иметь некоторое понимание о том, как работают базы данных.
Учитывая огромное количество различных рекомендаций и советов по использованию баз данных, этот простой список, содержащийся в данной статье, представляет лишь часть того, что может быть рассмотрено.
Читать: https://habr.com/ru/post/726376/
❤3👍1
Data Engineering Weekly #125
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-125
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-125
Пять причин, по которым вам нужны синтетические данные
Сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием. Кроме того, у этих данных могут быть проблемы с качеством, разнообразием и количеством. К счастью, подобные проблемы можно решать при помощи синтетических данных.
Для обучения модели машинного обучения нужны данные. Задачи data science обычно непохожи на соревнования Kaggle, где у вас есть отличный крупный датасет с готовой разметкой. Иногда приходится собирать, упорядочивать и очищать данные самостоятельно. Такой процесс сбора и разметки данных в реальном мире может быть долгим, неудобным, неточным, а иногда и опасным. Более того, в конце этого процесса может оказаться, что полученные в реальном мире данные не соответствуют вашим требованиям с точки зрения качества, разнообразия (например, дисбаланс классов) и количества.
Читать: https://habr.com/ru/post/725810/
Сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием. Кроме того, у этих данных могут быть проблемы с качеством, разнообразием и количеством. К счастью, подобные проблемы можно решать при помощи синтетических данных.
Для обучения модели машинного обучения нужны данные. Задачи data science обычно непохожи на соревнования Kaggle, где у вас есть отличный крупный датасет с готовой разметкой. Иногда приходится собирать, упорядочивать и очищать данные самостоятельно. Такой процесс сбора и разметки данных в реальном мире может быть долгим, неудобным, неточным, а иногда и опасным. Более того, в конце этого процесса может оказаться, что полученные в реальном мире данные не соответствуют вашим требованиям с точки зрения качества, разнообразия (например, дисбаланс классов) и количества.
Читать: https://habr.com/ru/post/725810/
Oracle Analytics Server is Available on Oracle Cloud Marketplace
Oracle Analytics Server (OAS) is available on Oracle Cloud Marketplace to make deployment on Oracle Cloud Infrastructure (OCI) quick and easy. With just a few short clicks, you have a fully configurable Oracle Analytics Server instance deployed securely in OCI.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-servernow-available-on-oci-marketplace
Oracle Analytics Server (OAS) is available on Oracle Cloud Marketplace to make deployment on Oracle Cloud Infrastructure (OCI) quick and easy. With just a few short clicks, you have a fully configurable Oracle Analytics Server instance deployed securely in OCI.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-servernow-available-on-oci-marketplace
Oracle
Oracle Analytics Server is Available on Oracle Cloud Marketplace
Oracle Analytics Server (OAS) is available on Oracle Cloud Marketplace to make deployment on Oracle Cloud Infrastructure (OCI) quick and easy. With just a few short clicks, you have a fully configurable Oracle Analytics Server instance deployed securely in…
Oracle Analytics Server 2022 is available!
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2022. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy analytics on-premises or customer-managed in the cloud.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-2022-v64-is-available
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2022. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy analytics on-premises or customer-managed in the cloud.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-2022-v64-is-available
Oracle
Oracle Analytics Server 2022 is available!
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2022. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy…
Oracle Analytics Server 2023 is available
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2023. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy analytics on-premises or customer-managed in the cloud. Extend with AI & ML, access, enrich and model data, visualize data with OAS 2023.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-2023-is-available
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2023. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy analytics on-premises or customer-managed in the cloud. Extend with AI & ML, access, enrich and model data, visualize data with OAS 2023.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-2023-is-available
Oracle
Oracle Analytics Server 2023 is available
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2023. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy…
Leverage Parameters for dynamic data manipulations
Parameters assist in solving use cases for dynamically passing values within and across workbooks, while enhancing dashboard interactions and the overall user experience.
Read: https://blogs.oracle.com/analytics/post/build-delightful-dashboard-experience-using-parameters
Parameters assist in solving use cases for dynamically passing values within and across workbooks, while enhancing dashboard interactions and the overall user experience.
Read: https://blogs.oracle.com/analytics/post/build-delightful-dashboard-experience-using-parameters
Oracle
Build a delightful dashboard experience using Parameters
Parameters aims at solving use case for dynamically passing values to workbook definition enhancing the end user experience and interactions on the dashboard.
Частотный vs байесовский подходы: оцениваем True Positive Rate при неполной разметке данных
Привет, Хабр! Меня зовут Алан Савушкин (@naive_bayes), я — дата-сайентист в команде Data Science & Big Data «Лаборатории Касперского», и мы отвечаем в том числе за фильтрацию нерелевантных алертов при телеметрии киберугроз в проекте Kaspersky Managed Detection and Response (MDR).
В данной статье хочу с вами поделиться, как мы решали задачу построения оценки TPR (True Positive Rate) в условиях неполной разметки данных. Может возникнуть вопрос: а что там оценивать? TPR по своей сути всего лишь доля, а построить доверительный интервал на долю легче простого.
Спорить не буду, но добавлю, что из статьи вы узнаете:
— Что даже в использовании такого интервала есть свои условия.
— Как на основе серии проверки гипотез получить доверительный интервал, используя под капотом гипергеометрическое распределение. А можно ли использовать биномиальное? Спойлер: можно, но тогда важно понимать, на какой вопрос вы отвечаете, пользуясь такой оценкой. Здесь мы рассмотрим задачу с частотной точки зрения.
— Что будет, если скрестить биномиальное распределение с бета‑распределением, и как этот гибрид используется в качестве сопряженного априорного распределения для гипергеометрического распределения. А здесь мы рассмотрим задачу с байесовской точки зрения.
— И, собственно, в чем прикол этой неполной разметки данных, и как мы докатились до всего перечисленного выше.
Тизер получился обширным, и если вам стало интересно — что ж, тогда давайте разбираться.
Читать: https://habr.com/ru/post/726764/
Привет, Хабр! Меня зовут Алан Савушкин (@naive_bayes), я — дата-сайентист в команде Data Science & Big Data «Лаборатории Касперского», и мы отвечаем в том числе за фильтрацию нерелевантных алертов при телеметрии киберугроз в проекте Kaspersky Managed Detection and Response (MDR).
В данной статье хочу с вами поделиться, как мы решали задачу построения оценки TPR (True Positive Rate) в условиях неполной разметки данных. Может возникнуть вопрос: а что там оценивать? TPR по своей сути всего лишь доля, а построить доверительный интервал на долю легче простого.
Спорить не буду, но добавлю, что из статьи вы узнаете:
— Что даже в использовании такого интервала есть свои условия.
— Как на основе серии проверки гипотез получить доверительный интервал, используя под капотом гипергеометрическое распределение. А можно ли использовать биномиальное? Спойлер: можно, но тогда важно понимать, на какой вопрос вы отвечаете, пользуясь такой оценкой. Здесь мы рассмотрим задачу с частотной точки зрения.
— Что будет, если скрестить биномиальное распределение с бета‑распределением, и как этот гибрид используется в качестве сопряженного априорного распределения для гипергеометрического распределения. А здесь мы рассмотрим задачу с байесовской точки зрения.
— И, собственно, в чем прикол этой неполной разметки данных, и как мы докатились до всего перечисленного выше.
Тизер получился обширным, и если вам стало интересно — что ж, тогда давайте разбираться.
Читать: https://habr.com/ru/post/726764/
👍1
Apache Sedona — как быстро работать с геоданными
Привет! В рамках своей работы в beeline tech мы часто взаимодействуем с геоданными. Для решения проблем, связанных с хранением, обработкой и анализом большого объема распределенных пространственных данных, мы используем Apache Sedona (бывший Geospark). Мы — Денис Афанасьев, аналитик больших данных, и Женя Рыбалкин, инженер больших данных, под катом расскажем, почему выбрали именно этот инструмент и что он умеет. А чтобы показать, зачем вообще работать с геоданными, давайте возьмем пример расчета посещаемости хоккейных матчей в Москве, как-никак плей-офф в разгаре.
Давайте по порядку. Почти любой доступный смартфон, умные часы, фитнес-браслеты, оборудование для IoT — всё это может получать и передавать данные о собственном местоположении. Кроме потребительского железа серьезную эволюцию прошёл и интернет вещей в целом, причем как классический IoT для умного дома и других полезностей, так и индустриальный IIoT, заточенный под мониторинг сложных технологических систем, сельское хозяйство, мониторинг окружающей среды и многое другое.
Следствием такого развития, как в количественном, так и в качественном плане, стал ощутимый рост того объёма данных, который все эти устройства генерируют. Ну и что нам с ними делать? Давайте разберемся на примере геоданных!
Зачем вообще кому-то нужны геоданные?
Читать: https://habr.com/ru/post/726614/
Привет! В рамках своей работы в beeline tech мы часто взаимодействуем с геоданными. Для решения проблем, связанных с хранением, обработкой и анализом большого объема распределенных пространственных данных, мы используем Apache Sedona (бывший Geospark). Мы — Денис Афанасьев, аналитик больших данных, и Женя Рыбалкин, инженер больших данных, под катом расскажем, почему выбрали именно этот инструмент и что он умеет. А чтобы показать, зачем вообще работать с геоданными, давайте возьмем пример расчета посещаемости хоккейных матчей в Москве, как-никак плей-офф в разгаре.
Давайте по порядку. Почти любой доступный смартфон, умные часы, фитнес-браслеты, оборудование для IoT — всё это может получать и передавать данные о собственном местоположении. Кроме потребительского железа серьезную эволюцию прошёл и интернет вещей в целом, причем как классический IoT для умного дома и других полезностей, так и индустриальный IIoT, заточенный под мониторинг сложных технологических систем, сельское хозяйство, мониторинг окружающей среды и многое другое.
Следствием такого развития, как в количественном, так и в качественном плане, стал ощутимый рост того объёма данных, который все эти устройства генерируют. Ну и что нам с ними делать? Давайте разберемся на примере геоданных!
Зачем вообще кому-то нужны геоданные?
Читать: https://habr.com/ru/post/726614/
Какие профессии выбирают женщины в столице и регионе
Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.
В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.
Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.
Читать: https://habr.com/ru/articles/722056/
Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.
В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.
Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.
Читать: https://habr.com/ru/articles/722056/
Медицинские датасеты для машинного обучения: цели, типы и способы применения
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать: https://habr.com/ru/articles/718438/
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать: https://habr.com/ru/articles/718438/
Процесс ELT: основные компоненты, преимущества и инструменты создания
Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.
Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).
В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать: https://habr.com/ru/articles/719594/
Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.
Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).
В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать: https://habr.com/ru/articles/719594/
Генерация DAG в Apache Airflow
Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.
Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.
Читать: https://habr.com/ru/articles/722688/
Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.
Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.
Читать: https://habr.com/ru/articles/722688/
Синтетические данные для машинного обучения: их природа, типы и способы генерации
Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать: https://habr.com/ru/articles/721170/
Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать: https://habr.com/ru/articles/721170/
Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику
Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.
Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать: https://habr.com/ru/companies/selectel/articles/722612/
Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.
Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать: https://habr.com/ru/companies/selectel/articles/722612/
Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут
Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.
В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.
Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.
Далее про наш кейс
Читать: https://habr.com/ru/companies/otkritie/articles/722882/
Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.
В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.
Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.
Далее про наш кейс
Читать: https://habr.com/ru/companies/otkritie/articles/722882/
Работа с научными данными в рамках data-driven подхода
В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.
В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.
Читать: https://habr.com/ru/articles/723402/
В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.
В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.
Читать: https://habr.com/ru/articles/723402/