Data Engineering Projects
Read: https://www.startdataengineering.com/post/data-engineering-projects/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Read: https://www.startdataengineering.com/post/data-engineering-projects/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Интеграция LLM в корпоративное хранилище данных
В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.
Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.
Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.
Читать: https://habr.com/ru/articles/822771/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.
Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.
Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.
Читать: https://habr.com/ru/articles/822771/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Повышаем Data Quality: щепотка Soda для ваших данных
Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.
Читать: https://habr.com/ru/companies/banki/articles/822601/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.
Читать: https://habr.com/ru/companies/banki/articles/822601/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Building Models with OML4R and Deploying them in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes. This article guides you through using Oracle Machine Learning for R (OML4R) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4r-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Oracle Analytics Cloud (OAC) offers various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes. This article guides you through using Oracle Machine Learning for R (OML4R) to train and test models in the database and deploy them in OAC.
Read: https://blogs.oracle.com/analytics/post/building-oracle-machine-learning-models-with-oml4r-and-deploying-in-oracle-analytics-cloud
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Oracle
Building Oracle Machine Learning Models with OML4R and Deploying in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes. This article guides you through using Oracle Machine Learning for R (OML4R) to train and test…
Use Custom Hostnames for Oracle Fusion Analytics
Custom hostnames for Oracle Fusion Analytics series overview.
Read: https://blogs.oracle.com/analytics/post/use-custom-hostnames-for-oracle-fusion-analytics
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Custom hostnames for Oracle Fusion Analytics series overview.
Read: https://blogs.oracle.com/analytics/post/use-custom-hostnames-for-oracle-fusion-analytics
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Get Started with Oracle Analytics Cloud APIs
Learn how to use the OAC Public REST APIs with a Postman Collection.
Read: https://blogs.oracle.com/analytics/post/get-started-with-oracle-analytics-cloud-apis
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Learn how to use the OAC Public REST APIs with a Postman Collection.
Read: https://blogs.oracle.com/analytics/post/get-started-with-oracle-analytics-cloud-apis
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Oracle
Get Started with Oracle Analytics Cloud APIs
Learn how to use the OAC Public REST APIs with a Postman Collection.
Внедрение Business Intelligence с нуля — первые шаги
Внедрение системы Business Intelligence в рамках компании - одновременно уникально для каждой компании, и в то же время может быть унифицировано за счет использования существующего опыта и знаний. В этой статье приведены базовые принципы построения BI систем, на которые можно ориентироваться, чтобы сэкономить время и получить качественную BI систему для компании. Тем, кому интересны основы BI систем - добро пожаловать :)
В качестве небольшого вступления имеет смысл отметить две особенности BI систем. BI системы основаны на рассчитываемых ключевых показателях эффективности (KPI), но тем не менее, для управления компанией представляет ценность именно система или набор показателей, а не какой-либо единственный показатель. Другой особенностью является то, что BI система аккумулирует данные из различных систем и различной периодичностью, например, финансовые показатели из учетных систем, данные о клиентах из CRM систем или из систем обратной связи с клиентами, и все эти задачи интеграции встают перед компанией, которая внедряет BI.
Рассморим выбор ключевых показателей BI системы "с нуля", что определит суть будущей BI системы компании. Конечно, можно использовать и готовый набор показателей, которые часто имеются для разных предметных областей в различных BI платформах, в этой статье обращается внимание на выбор системы KPI "с нуля".
Популярным подходом к управлению по KPI является сбалансированная система показателей (Balances Scorecards, BCS), предложенная Р. Капланом и Д. Нортоном "Сбалансированная система показателей" в 1996 году. В книге рекомендуется подход к управлению, основанный на ключевых показателях эффективности (KPI), отслеживающих стратегический прогресс в достижении основных целей по четырем направлениям: финансовые показатели, взаимодействие с клиентами компании, внутренние процессы компании и обучение/рост сотрудников компании.
Читать: https://habr.com/ru/articles/824268/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Внедрение системы Business Intelligence в рамках компании - одновременно уникально для каждой компании, и в то же время может быть унифицировано за счет использования существующего опыта и знаний. В этой статье приведены базовые принципы построения BI систем, на которые можно ориентироваться, чтобы сэкономить время и получить качественную BI систему для компании. Тем, кому интересны основы BI систем - добро пожаловать :)
В качестве небольшого вступления имеет смысл отметить две особенности BI систем. BI системы основаны на рассчитываемых ключевых показателях эффективности (KPI), но тем не менее, для управления компанией представляет ценность именно система или набор показателей, а не какой-либо единственный показатель. Другой особенностью является то, что BI система аккумулирует данные из различных систем и различной периодичностью, например, финансовые показатели из учетных систем, данные о клиентах из CRM систем или из систем обратной связи с клиентами, и все эти задачи интеграции встают перед компанией, которая внедряет BI.
Рассморим выбор ключевых показателей BI системы "с нуля", что определит суть будущей BI системы компании. Конечно, можно использовать и готовый набор показателей, которые часто имеются для разных предметных областей в различных BI платформах, в этой статье обращается внимание на выбор системы KPI "с нуля".
Популярным подходом к управлению по KPI является сбалансированная система показателей (Balances Scorecards, BCS), предложенная Р. Капланом и Д. Нортоном "Сбалансированная система показателей" в 1996 году. В книге рекомендуется подход к управлению, основанный на ключевых показателях эффективности (KPI), отслеживающих стратегический прогресс в достижении основных целей по четырем направлениям: финансовые показатели, взаимодействие с клиентами компании, внутренние процессы компании и обучение/рост сотрудников компании.
Читать: https://habr.com/ru/articles/824268/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
👍3
Почему Starburst Icehouse подходит не всем
Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она отличается от любой другой архитектуры Data Lakehouse?». Команда VK Cloud перевела статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и почему она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.
Читать: https://habr.com/ru/companies/vk/articles/824258/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она отличается от любой другой архитектуры Data Lakehouse?». Команда VK Cloud перевела статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и почему она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.
Читать: https://habr.com/ru/companies/vk/articles/824258/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Почему стоит использовать Apache Airflow?
Apache Airflow — это мощный инструмент для управления сложными данными. Он позволяет удобно планировать задачи, упорядочивать их выполненеие и анализировать результаты с помощью визуального интерфейса. Узнайте больше о фичах, которые помогут эффективно управлять данными!
Читать подробнее
___
Другие наши проекты
Apache Airflow — это мощный инструмент для управления сложными данными. Он позволяет удобно планировать задачи, упорядочивать их выполненеие и анализировать результаты с помощью визуального интерфейса. Узнайте больше о фичах, которые помогут эффективно управлять данными!
Читать подробнее
___
Другие наши проекты
👍1
Создание и обработка Excel файлов с использованием Python
Всем привет! Работа с Excel файлами — одна из частых задач, встречающихся в повседневной разработке. В этой статье рассмотрим, как с помощью Python можно создавать, заполнять, и стилизовать Excel файлы. Для этого мы будем использовать библиотеки pandas, openpyxl и faker (для тестов).
Читать: https://habr.com/ru/articles/824050/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Всем привет! Работа с Excel файлами — одна из частых задач, встречающихся в повседневной разработке. В этой статье рассмотрим, как с помощью Python можно создавать, заполнять, и стилизовать Excel файлы. Для этого мы будем использовать библиотеки pandas, openpyxl и faker (для тестов).
Читать: https://habr.com/ru/articles/824050/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
strtree — классификатор строк на основе регулярных выражений
Вы хотите найти короткие регулярные выражения, полно и точно отделяющие один класс строк от другого? Это статья для вас. Мы поговорим про задачу классификации строк с помощью автоматически определяемых паттернов, а в конце я предоставлю пример такой процедуры с кодом на Python. Пользоваться мы будем небольшой open-source библиотекой strtree.
Читать: https://habr.com/ru/articles/824544/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Вы хотите найти короткие регулярные выражения, полно и точно отделяющие один класс строк от другого? Это статья для вас. Мы поговорим про задачу классификации строк с помощью автоматически определяемых паттернов, а в конце я предоставлю пример такой процедуры с кодом на Python. Пользоваться мы будем небольшой open-source библиотекой strtree.
Читать: https://habr.com/ru/articles/824544/
@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Восстановление после сбоев Oracle Analytics Server на Oracle Cloud
В статье обсуждается использование инструмента OCI Full Stack Disaster Recovery для обеспечения непрерывной работы Oracle Analytics Server в облаке Oracle. Решение позволяет быстро восстановить данные и минимизировать потери при сбоях.
Читать подробнее
___
Другие наши проекты
В статье обсуждается использование инструмента OCI Full Stack Disaster Recovery для обеспечения непрерывной работы Oracle Analytics Server в облаке Oracle. Решение позволяет быстро восстановить данные и минимизировать потери при сбоях.
Читать подробнее
___
Другие наши проекты
Oracle
Disaster Recovery of Oracle Analytics Server on Oracle Cloud using OCI Full Stack Disaster Recovery
Как создать отчет о разрешениях каталога в Oracle Analytics Cloud с помощью REST API
Узнайте, как с помощью REST API создать детальный отчет о разрешениях каталога в Oracle Analytics Cloud. Статья объясняет все шаги, начиная с подключения к API и заканчивая анализом полученных данных.
Читать подробнее
___
Другие наши проекты
Узнайте, как с помощью REST API создать детальный отчет о разрешениях каталога в Oracle Analytics Cloud. Статья объясняет все шаги, начиная с подключения к API и заканчивая анализом полученных данных.
Читать подробнее
___
Другие наши проекты
Oracle
How to Create a Catalog Permissions Report in Oracle Analytics Cloud using REST APIs
Oracle Analytics признан лидером 2024 года!
Поздравляем сообщество Oracle Analytics с достижением значительного успеха. Благодаря их усилиям Oracle Analytics был признан лидером в Magic Quadrant от Gartner по аналитике и бизнес-интеллекту за 2024 год.
Читать подробнее
___
Другие наши проекты
Поздравляем сообщество Oracle Analytics с достижением значительного успеха. Благодаря их усилиям Oracle Analytics был признан лидером в Magic Quadrant от Gartner по аналитике и бизнес-интеллекту за 2024 год.
Читать подробнее
___
Другие наши проекты
Oracle
Oracle Analytics Named a Leader in the 2024 Gartner® Magic Quadrant™ for Analytics & Business Intelligence Platforms
Congratulations to the Oracle Analytics community on their analytics leadership, which has helped Oracle Analytics become a leader in the Gartner ABI Magic Quadrant.
Ускорение Python в 2 раза с помощью multiprocessing, async и MapReduce
Python действительно может считаться относительно медленным языком программирования по сравнению с некоторыми другими языками, такими как C++ или Java. Однако, существуют различные библиотеки и инструменты, которые позволяют ускорить выполнение счетных задач в Python. Рассмотрим как можно ускорить анализ данных в 2 раза!
Читать: https://habr.com/ru/articles/825206/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Python действительно может считаться относительно медленным языком программирования по сравнению с некоторыми другими языками, такими как C++ или Java. Однако, существуют различные библиотеки и инструменты, которые позволяют ускорить выполнение счетных задач в Python. Рассмотрим как можно ускорить анализ данных в 2 раза!
Читать: https://habr.com/ru/articles/825206/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Как упаковать бэкенд-код на Go для аналитики на базе Spark
Всем привет! Я Ваня Ахлестин, занимаюсь поддержкой и развитием аналитической платформы кластера Search&Recommendations на базе Spark и Hadoop в Авито. Сегодня расскажу, как начать использовать ваш код из Python или PySpark и не тратить много времени дорогих разработчиков.
Читать: https://habr.com/ru/companies/avito/articles/824746/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Всем привет! Я Ваня Ахлестин, занимаюсь поддержкой и развитием аналитической платформы кластера Search&Recommendations на базе Spark и Hadoop в Авито. Сегодня расскажу, как начать использовать ваш код из Python или PySpark и не тратить много времени дорогих разработчиков.
Читать: https://habr.com/ru/companies/avito/articles/824746/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
👍1
GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее
Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.
Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело!
Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку.
В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь.
Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!
Читать: https://habr.com/ru/articles/825606/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.
Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело!
Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку.
В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь.
Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!
Читать: https://habr.com/ru/articles/825606/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
PandasA — кратно ускоряем работу аналитика данных в одну строчку
Ускоряем написание кода при работе с таблицами и библиотекой Pandas с помощью PandasAI в несколько раз за пару строк. Хитрецы уже используют ...
Читать: https://habr.com/ru/articles/825572/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Ускоряем написание кода при работе с таблицами и библиотекой Pandas с помощью PandasAI в несколько раз за пару строк. Хитрецы уже используют ...
Читать: https://habr.com/ru/articles/825572/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Графы в рекомендательных системах [часть 1]
Привет, ХАБР! Недавно я писал научную статью с AIRI по графовым рекомендательным системам. Это был мой первый практический опыт работы с этой технологией, поэтому пришлось углубиться в исследования и изучение доступных материалов. Я решил, что пока я разбираюсь в этой теме, было бы полезно поделиться своими находками с вами.
Эта статья будет частью серии, состоящей из двух или трех частей. В первой части мы рассмотрим базовые понятия, концепции и простые модели, а также выделим их ключевые особенности. Вторую часть напишут мои знакомые из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели. Все остальные части можно будет найти в моем телеграм канале, поэтому приглашаю подписаться что бы не пропустить, а вам приятного чтения.
📖 Идем разбираться!
Читать: https://habr.com/ru/articles/825896/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Привет, ХАБР! Недавно я писал научную статью с AIRI по графовым рекомендательным системам. Это был мой первый практический опыт работы с этой технологией, поэтому пришлось углубиться в исследования и изучение доступных материалов. Я решил, что пока я разбираюсь в этой теме, было бы полезно поделиться своими находками с вами.
Эта статья будет частью серии, состоящей из двух или трех частей. В первой части мы рассмотрим базовые понятия, концепции и простые модели, а также выделим их ключевые особенности. Вторую часть напишут мои знакомые из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели. Все остальные части можно будет найти в моем телеграм канале, поэтому приглашаю подписаться что бы не пропустить, а вам приятного чтения.
📖 Идем разбираться!
Читать: https://habr.com/ru/articles/825896/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Настройка собственных имен хостов для доступа к Oracle Fusion Analytics
Узнайте, как подготовить сетевые компоненты с пользовательскими именами хостов для доступа к конечным точкам службы Oracle Fusion Analytics. Обеспечьте бесперебойное соединение и безопасность вашего корпоративного анализа. В статье подробно описаны все шаги настройки.
Читать подробнее
___
Другие наши проекты
Узнайте, как подготовить сетевые компоненты с пользовательскими именами хостов для доступа к конечным точкам службы Oracle Fusion Analytics. Обеспечьте бесперебойное соединение и безопасность вашего корпоративного анализа. В статье подробно описаны все шаги настройки.
Читать подробнее
___
Другие наши проекты
Oracle
Prepare Custom Hostnames for Oracle Fusion Analytics Service Endpoints Internet Access
Prepare Custom Hostnames Internet Access Network Components for Oracle Fusion Analytics Service Endpoints
👍1
Какой у вас профессиональный уровень в IT?
Anonymous Poll
24%
Ещё не работаю в IT
4%
Intern / Стажер-разработчик или т.п.
17%
Junior / Младший разработчик или т.п.
30%
Middle / «Миддл»
7%
Senior / Старший разработчик или т.п.
7%
(Team) Lead / Руководитель команды, группы и т.п. или ведущий разработчик
1%
Руководитель разработки, департамента, топ-менеджер
8%
Связан с IT, но не занимаюсь и не руковожу разработкой (дизайнер, аналитик, продакт, ...)
2%
Другое (пожалуйста, укажите в комментариях ваш вариант)