Создание организационных диаграмм в Oracle Analytics
Пост: Хотите научиться визуализировать структуру вашей компании? Изучите, как с помощью расширения Org Chart в Oracle Analytics преобразовать плоские данные в иерархию родитель-дитя, используя наборы данных и потоки данных. Узнайте, как эффективно отображать организационные структуры!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Хотите научиться визуализировать структуру вашей компании? Изучите, как с помощью расширения Org Chart в Oracle Analytics преобразовать плоские данные в иерархию родитель-дитя, используя наборы данных и потоки данных. Узнайте, как эффективно отображать организационные структуры!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Creating Dynamic Organizational Charts with Oracle Fusion Data Intelligence (FDI)
This article covers how to create an organizational chart using the Org Chart extension in Oracle Analytics. It explains how to transform flat hierarchy data into a parent-child structure using data sets and data flows, enabling efficient visualization of…
Открытый датасет TelecomX
Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.
Читать: https://habr.com/ru/companies/arenadata/articles/856366/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.
Читать: https://habr.com/ru/companies/arenadata/articles/856366/
#ru
@big_data_analysis | Другие наши каналы
Оценка LLM: комплексные оценщики и фреймворки оценки
В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.
Читать: https://habr.com/ru/articles/855644/
#ru
@big_data_analysis | Другие наши каналы
В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.
Читать: https://habr.com/ru/articles/855644/
#ru
@big_data_analysis | Другие наши каналы
Apache Flink: Сериализация и JacksonStateSerializer
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.
В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.
Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.
По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
Читать: https://habr.com/ru/companies/ru_mts/articles/856774/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.
В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.
Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.
По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
Читать: https://habr.com/ru/companies/ru_mts/articles/856774/
#ru
@big_data_analysis | Другие наши каналы
Что такое Data Driven подход
В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.
В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.
Читать: https://habr.com/ru/articles/856920/
#ru
@big_data_analysis | Другие наши каналы
В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.
В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.
Читать: https://habr.com/ru/articles/856920/
#ru
@big_data_analysis | Другие наши каналы
Как разметить данные для классификации изображений: руководство с примерами
Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель?
В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.
Читать: https://habr.com/ru/companies/data_light/articles/856886/
#ru
@big_data_analysis | Другие наши каналы
Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель?
В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.
Читать: https://habr.com/ru/companies/data_light/articles/856886/
#ru
@big_data_analysis | Другие наши каналы
Как мы в билайне боремся со спам-звонками с помощью машинного обучения, часть 1
Всем привет! Меня зовут Наталья Багрова, сегодня расскажу, какие есть возможности у крупного телеком-оператора для борьбы с таким неприятным явлением как голосовой спам; какие логические и технические трудности ждали нас на этом пути, как мы их решали и к чему пришли. Мы сконцентрируемся в первую очередь на том, как мы строили модель с нуля до первого жизнеспособного прототипа.
Давайте начнем с краткого обзора рынка антиспам-услуг.
Очень условно всех поставщиков антиспам услуг можно разделить на две категории: те, кто видят трафик (телеком-операторы) и те, кто видят отзывы (приложения Яндекса, Тинькофф или Kaspersky, которые собирают отзывы с абонентов). Если посмотреть на то, как устроен дизайн услуги, то это либо блокировки, когда спам-звонок в принципе не доводится до абонента или же уводится на голосового ассистента, а затем присылается текстовая расшифровка, либо же просто подсвечивается, кто сейчас звонит, и всю ответственность за решение, разговаривать сейчас или нет, несет сам клиент. Если мы говорим о билайне, то мы себя относим в первую очередь к тем, кто видит трафик, и идем путем голосового ассистента.
Плюсы и минусы
Какие у нас есть сильные стороны?
Читать: https://habr.com/ru/companies/beeline_tech/articles/857082/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Наталья Багрова, сегодня расскажу, какие есть возможности у крупного телеком-оператора для борьбы с таким неприятным явлением как голосовой спам; какие логические и технические трудности ждали нас на этом пути, как мы их решали и к чему пришли. Мы сконцентрируемся в первую очередь на том, как мы строили модель с нуля до первого жизнеспособного прототипа.
Давайте начнем с краткого обзора рынка антиспам-услуг.
Очень условно всех поставщиков антиспам услуг можно разделить на две категории: те, кто видят трафик (телеком-операторы) и те, кто видят отзывы (приложения Яндекса, Тинькофф или Kaspersky, которые собирают отзывы с абонентов). Если посмотреть на то, как устроен дизайн услуги, то это либо блокировки, когда спам-звонок в принципе не доводится до абонента или же уводится на голосового ассистента, а затем присылается текстовая расшифровка, либо же просто подсвечивается, кто сейчас звонит, и всю ответственность за решение, разговаривать сейчас или нет, несет сам клиент. Если мы говорим о билайне, то мы себя относим в первую очередь к тем, кто видит трафик, и идем путем голосового ассистента.
Плюсы и минусы
Какие у нас есть сильные стороны?
Читать: https://habr.com/ru/companies/beeline_tech/articles/857082/
#ru
@big_data_analysis | Другие наши каналы
Определяем доли и коэффициенты проникновения с помощью DAX
Привет, Хабр! Одной из важных задач в аналитических запросах является расчет долей, который позволяет узнать, какая часть записей из общего количества по всей таблице соответствует какому-либо критерию. Также нередко полезными оказываются коэффициенты проникновения (в общем-то тоже являющиеся долями). Они позволяют оценить продажи, найти взаимосвязи признаков и сделать много еще чего полезного. Чтобы проводить такого рода расчеты идеально подходит язык DAX. Если Вам интересно, насколько это удобно и как именно сделать это в DAX — добро пожаловать под кат :)
Читать: https://habr.com/ru/companies/visiology/articles/857102/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Одной из важных задач в аналитических запросах является расчет долей, который позволяет узнать, какая часть записей из общего количества по всей таблице соответствует какому-либо критерию. Также нередко полезными оказываются коэффициенты проникновения (в общем-то тоже являющиеся долями). Они позволяют оценить продажи, найти взаимосвязи признаков и сделать много еще чего полезного. Чтобы проводить такого рода расчеты идеально подходит язык DAX. Если Вам интересно, насколько это удобно и как именно сделать это в DAX — добро пожаловать под кат :)
Читать: https://habr.com/ru/companies/visiology/articles/857102/
#ru
@big_data_analysis | Другие наши каналы
Как создать датасет для машинного обучения за 6 шагов
Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.
Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.
Читать: https://habr.com/ru/companies/data_light/articles/857142/
#ru
@big_data_analysis | Другие наши каналы
Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.
Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.
Читать: https://habr.com/ru/companies/data_light/articles/857142/
#ru
@big_data_analysis | Другие наши каналы
Support Vector Machine: +1 алгоритм машинного обучения для начинающих
Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.
Читать: https://habr.com/ru/articles/857162/
#ru
@big_data_analysis | Другие наши каналы
Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.
Читать: https://habr.com/ru/articles/857162/
#ru
@big_data_analysis | Другие наши каналы
Support Vector Machine: +1 алгоритм машинного обучения для начинающих
Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.
Читать: https://habr.com/ru/companies/skillfactory/articles/857162/
#ru
@big_data_analysis | Другие наши каналы
Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.
Читать: https://habr.com/ru/companies/skillfactory/articles/857162/
#ru
@big_data_analysis | Другие наши каналы
Выбираем BI платформу для начинающего специалиста
Привет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.
Читать: https://habr.com/ru/articles/857234/
#ru
@big_data_analysis | Другие наши каналы
Привет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.
Читать: https://habr.com/ru/articles/857234/
#ru
@big_data_analysis | Другие наши каналы
❤2
Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0
Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.
Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.
Читать: https://habr.com/ru/companies/yandex/articles/857708/
#ru
@big_data_analysis | Другие наши каналы
Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.
Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.
Читать: https://habr.com/ru/companies/yandex/articles/857708/
#ru
@big_data_analysis | Другие наши каналы
👍2
Инхаус-разметка с нуля. Реально ли это и насколько полезно?
Разметка данных нужна для обучения нейронных сетей. К примеру, если мы учим сеть отличать живое лицо человека от фотографии или силиконовой маски для Face ID, то нам нужно разметить много-много фотографий человека, показать ИИ его маску и живое лицо. В этом посте расскажу, как мы это делаем в NtechLab и где берем людей для разметки большого объема данных. Также попытаюсь ответить на вопрос, стоит ли создавать собственные отделы по разметке данных внутри компании или можно ограничиться краудсорсингом или аутсорсингом, расскажу о некоторых рабочих кейсах. Приятного чтения!)
Что такое разметка данных?
Привет, Хабр! Меня зовут Надя Глебко. В NtechLab я проработала почти 4 года. Когда-то я пришла в компанию в качестве junior менеджера по разметке без особого опыта – но уже спустя полгода начала строить команду внутри компании. А уже через три года стала руководителем команды в составе 8 менеджеров и 3 валидаторов, а база наших инхаус-разметчиков составила около 100 человек. За это время был пройден невероятный путь роста и развития, проб и ошибок – и мне видится полезным поделиться этим опытом со всеми, кому интересна эта сфера. Но начнем с базы)
Читать: https://habr.com/ru/companies/ntechlab/articles/858234/
#ru
@big_data_analysis | Другие наши каналы
Разметка данных нужна для обучения нейронных сетей. К примеру, если мы учим сеть отличать живое лицо человека от фотографии или силиконовой маски для Face ID, то нам нужно разметить много-много фотографий человека, показать ИИ его маску и живое лицо. В этом посте расскажу, как мы это делаем в NtechLab и где берем людей для разметки большого объема данных. Также попытаюсь ответить на вопрос, стоит ли создавать собственные отделы по разметке данных внутри компании или можно ограничиться краудсорсингом или аутсорсингом, расскажу о некоторых рабочих кейсах. Приятного чтения!)
Что такое разметка данных?
Привет, Хабр! Меня зовут Надя Глебко. В NtechLab я проработала почти 4 года. Когда-то я пришла в компанию в качестве junior менеджера по разметке без особого опыта – но уже спустя полгода начала строить команду внутри компании. А уже через три года стала руководителем команды в составе 8 менеджеров и 3 валидаторов, а база наших инхаус-разметчиков составила около 100 человек. За это время был пройден невероятный путь роста и развития, проб и ошибок – и мне видится полезным поделиться этим опытом со всеми, кому интересна эта сфера. Но начнем с базы)
Читать: https://habr.com/ru/companies/ntechlab/articles/858234/
#ru
@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
Если вам нужен швейцарский нож для работы с базами данных, попробуйте DBeaver
Это бесплатный инструмент для разработчиков, администраторов баз данных и аналитиков, поддерживающий практически любую базу данных с драйвером JDBC (что по сути означает - ЛЮБУЮ базу данных).
Функционал: DBeaver предлагает мощный SQL-редактор с подсветкой синтаксиса, автодополнением и форматированием запросов, редактор метаданных, диаграммы ERD, инструменты для экспорта, импорта и миграции данных, а также анализ планов выполнения SQL и т.д.
А благодаря поддержке плагинов, DBeaver можно легко адаптировать к вашим нуждам, добавляя специальные функции для работы с различными базами данных.
Осталось только лайк поставить и сохранить👍
#SQL #инструменты #dbeaver
Это бесплатный инструмент для разработчиков, администраторов баз данных и аналитиков, поддерживающий практически любую базу данных с драйвером JDBC (что по сути означает - ЛЮБУЮ базу данных).
Функционал: DBeaver предлагает мощный SQL-редактор с подсветкой синтаксиса, автодополнением и форматированием запросов, редактор метаданных, диаграммы ERD, инструменты для экспорта, импорта и миграции данных, а также анализ планов выполнения SQL и т.д.
А благодаря поддержке плагинов, DBeaver можно легко адаптировать к вашим нуждам, добавляя специальные функции для работы с различными базами данных.
Осталось только лайк поставить и сохранить👍
#SQL #инструменты #dbeaver
👍6