Data Analysis / Big Data
2.84K subscribers
566 photos
3 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Создаем сервис для serverless перевода голоса, как в Cyberpunk 2077

На днях мне наконец-то удалось поиграть в Cybperunk 2077, и я заметил, что в игре есть одна интересная особенность: Когда персонаж говорит на иностранном языке, текст сначала появляется над ним в оригинале, а затем как бы вживую переводится на английский.

Тогда я задался вопросом: сколько работы потребуется, чтобы создать нечто подобное с помощью современного DL-стека? Можно ли сделать это за выходные?


Читать: https://habr.com/ru/post/707250/
Как вы себе представляете современную птицеферму?

Если первое, что приходит вам на ум – это страшного вида покосившийся сарай, то это очень далеко от истины. А как насчет светлого, кондиционируемого помещения, оборудованного диско-светом, игровой площадкой, роботом-пылесосом, подключенного к датчикам на основе IoT и находящегося под круглосуточным мониторингом с помощью облачных технологий? Это уже гораздо ближе к правде. Давайте разбираться.


Читать: https://habr.com/ru/post/707304/
Как развернуть Apache Superset в облаке: Docker, ВМ, Kubernetes

В последнее время многие российские компании столкнулись с задачей по выстраиванию системы бизнес-аналитики на новом технологическом стеке. В качестве замены Tableau, Power BI и Qlik одни рассматривают BI-решения российских вендоров — с лицензионной поддержкой, постоянными обновлениями версий и возможностью влиять на roadmap. Другие — Open-Source-инструменты: они бесплатны, однако их придётся развертывать, настраивать и администрировать своими силами. Один из таких инструментов — Apache Superset.

Мы расскажем о способах развёртывания Apache Superset на разных платформах (Docker, ВМ, Kubernetes), а также дадим подробные инструкции на примере облака VK Cloud.


Читать: https://habr.com/ru/post/706418/
Копирайтеры больше не нужны? Просим новую нейросеть Notion AI написать про Python

В ноябре 2022 года компания Notion представила нейронную сеть для генерации текстов — и на днях мы получили доступ к альфа-версии. Вы не поверите, на что она способна. Notion AI умеет писать статьи, посты и даже твиты — и это вам не Балабоба!

Но настолько ли хороша Notion AI, как может показаться? И умеет ли она писать технические статьи? Под катом — первый на Хабре обзор новой нейронки.


Читать: https://habr.com/ru/post/707346/
Генерация конвейеров обработки данных в Dataflow



Эта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix.

О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство с одним из наиболее технических аспектов Dataflow, но сам этот инструмент толком не описывала. На сей раз мы оправдаем заявленное вступление, после чего сосредоточимся на одной из основных возможностей Dataflow — образцах рабочих потоков. Для начала же мы коротко разберём Dataflow в общем.

Читать: https://habr.com/ru/post/707006/
Restricting Access to Data in a Manager Hierarchy using Oracle Fusion Analytics Security Extensions

Restricting Access to Data in a Human Capital Management (HCM) Manager Hierarchy using Oracle Fusion Analytics Warehouse Security Extensions

Read: https://blogs.oracle.com/analytics/post/faw-exclude-access-to-supervisor-hierarchy
ML алгоритм нашел баг в моем коде…

Я играл с языковой моделью SalesForce CodeGen. Она генерирует новый код по подсказкам. Но я хотел посмотреть, как она будет анализировать уже написанный код.

Я попросил модель посмотреть на существующий код и оценить вероятность появления каждого слова с учетом предыдущих слов. Далее я сравнил вероятность появления моего слова с вероятностью слова предсказанного моделью

Я взял один из файлов моего проекта. Яркость отражает маловероятность каждого слова. Красный цвет показывает, насколько более вероятен токен модели.


Читать: https://habr.com/ru/post/707442/
Oracle Fusion Analytics: Migrate Oracle Analytics Content, KPIs, and Decks Across Environments using a Content Bundle

This article describes how to use Content Bundles to migrate Oracle Analytics Cloud (Oracle Analytics) content, KPIs, and Decks from one environment to another.

Read: https://blogs.oracle.com/analytics/post/faw-migrate-oac-content-kpis-and-decks-using-a-content-bundle
Большой Брат для новичков: как работают системы распознавания лиц

Одно из направлений Data Science — системы распознавания лиц. Благодаря им московские камеры признаны одними из самых совершенных в мире. Ловить преступников и входить в приложения с ними проще, а прятаться от правосудия и выдавать себя за другого человека — сложнее. Вместе с экспертом Вадимом Лукмановым разбираемся на базовом уровне, где применяются системы распознавания лиц и как они работают.


Читать: https://habr.com/ru/post/707566/
Шесть шагов для создания более качественных моделей Computer Vision

Компьютерное зрение (computer vision, CV) — подраздел искусственного интеллекта, использующий алгоритмы машинного обучения и глубокого обучения для распознавания и интерпретации объектов на изображениях и видео. CV сосредоточено на воссоздании аспектов сложности зрительной системы человека, позволяя компьютерам определять и анализировать предметы на фотографиях и видео точно так же, как это делают люди.

За последние годы в области компьютерного зрения произошёл существенный прогресс, благодаря прорывам в искусственном интеллекте и инновациям в глубоком обучении и нейронных сетях компьютеры превзошли людей в различных задачах, связанных с распознаванием объектов. Одним из движущих факторов эволюции компьютерного зрения является объём генерируемых сегодня данных, которые применяются для обучения и совершенствования CV.

В этой статье мы сначала рассмотрим способы применения моделей компьютерного зрения в реальном мире, чтобы понять, почему нам нужно создавать более качественные модели. Затем мы перечислим шесть способов совершенствования моделей компьютерного зрения при помощи улучшения обработки данных. Но для начала давайте вкратце обсудим различия между моделями компьютерного зрения и машинного обучения.


Читать: https://habr.com/ru/post/705008/
Глубокое погружение в данные

В этой статье мы поговорим об особенностях машинного обучения, и о том, как можно соединить Deep Learning и Master Data Management. Разберем достаточно подробный пример использования глубокого обучения для управления данными.
Читать статью

Читать: https://habr.com/ru/post/707340/
👍1
Лучшие новые библиотеки Python за 2022 год

В пост включены библиотеки, которые были запущены или приобрели популярность в этом году, хорошо поддерживаются, а также просто классные и достойные внимания. Подборка в значительной степени ориентирована на библиотеки по ИИ и науке о данных, но сюда так же включен ряд библиотек, которые могут быть полезны для целей, не связанных с наукой о данных.


Читать: https://habr.com/ru/post/707916/
🤔2🔥1
Как внедрить Data Driven подход в систему управления поставками

В уходящем году для многих компаний остро встал вопрос своевременного пополнения запасов комплектующих и запасных частей. В этой статье хотим рассказать о том, как с помощью современных инструментов по анализу больших данных оптимизировать управление цепью поставок и принимать взвешенные управленческие решения, основанные на реальных данных.


Читать: https://habr.com/ru/post/708004/
👍2
Текст-майнинг с пандами, облаками и яблоками

Привет, Хабр!

Меня зовут Пётр Мананников я Data Scientist и являюсь участником профессионального сообщества NTA. Представьте ситуацию: вас назначили спикером на мероприятии, и вы даже знаете, о чем хотите рассказать аудитории. Но будет ли публикой воспринят ваш доклад так, как вы себе это представляли? Давайте посмотрим, что может пойти не так, и как это исправить.


Читать: https://habr.com/ru/post/708100/
👍1
Введение в архитектуру Greenplum

В этой статье поговорим о Greenplum — СУБД, основанной на PostgreSQL. Разберём её общую архитектуру, способы хранения данных, а также перечислим проблемы, с которыми можно столкнуться в ходе эксплуатации.


Читать: https://habr.com/ru/post/708124/
Миф или реальность? Типовые заблуждения про low-code инструменты анализа данных

Вокруг технологий всегда появляются мифы: фотоаппараты, похищающие душу, подавляющий свободную волю 5G, искусственный интеллект, который захватывает планету и отправляет киборга в прошлое… Всё это - примеры, основанные на страхе неизвестного, который, в свою очередь, является неотъемлемым свойством человеческого мышления.

Анализ данных и машинное обучение, упоминаемые под термином «искусственный интеллект», за последние годы постепенно становятся обыденностью. Использование инструментов продвинутой аналитики для многих организаций стало столь же привычным делом, как автоматизация бухгалтерского учёта или внедрение электронного документооборота.

В этой статье отобраны шесть наиболее популярных мифов вокруг low-code инструментов анализа данных. Насколько они близки к действительности - давайте обсудим.
Поехали!

Читать: https://habr.com/ru/post/707336/
Как стать дата-сайентистом в МТС и не только

Можно ли научиться Data Science на корпоративных курсах, кому и зачем они полезны, и как устроиться на работу в Big Data МТС.

Читать: «Как стать дата-сайентистом в МТС и не только»
Как стать дата-сайентистом в МТС и не только

Можно ли научиться Data Science на корпоративных курсах, кому и зачем они полезны, и как устроиться на работу в Big Data МТС.

Читать: «Как стать дата-сайентистом в МТС и не только»
Pyspark. Анализ больших данных, когда Pandas не достаточно

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...


Читать: https://habr.com/ru/post/708468/