Data Analysis / Big Data

Invoke a Data Science Model from Oracle Analytics Cloud

This blog explains how to successfully invoke an OCI Data Science Model in OAC from data flows.

Read: https://blogs.oracle.com/analytics/post/invoke-a-data-science-model-from-oac

637 views06:09

Викторианская история больших данных

В весьма впечатлившей меня книге «Информация. История. Теория. Поток» Джеймса Глика, о которой я уже упоминал ранее, страннейшим образом обойдён вопрос о том, как возник феномен «Big Data». В той же книге упоминается первый авторский словарь английского языка, составленный в начале XVII века неким Кодри, а далее развивается идея о том, что феномен концептуализируется в языке после того, как попадает в словарь – в английской культуре таким словарём является оксфордский.

Тогда я попробовал проверить, когда же в английском и русском языке закрепилось понятие «BigData» и, соответственно, «большие данные». Распространено мнение, что выражение «BigData» впервые было употреблено в 2008 году в статье Клиффорда Линча «Big data: how do your data grow?», опубликованной в журнале «Nature», но даже это небольшое исследование подсказывает, что всё гораздо сложнее.

Читать: https://habr.com/ru/post/718846/

👍1

699 views12:40

Data Analysis / Big Data

Как перебрать бэкенд так, чтобы для 20 миллионов юзеров всё прошло гладко?

На связи разработчики Дзена. На Дзене сотни тысяч авторов публикуют посты, лонгриды, длинные видео и короткие ролики, а умные алгоритмы подстраивают ленту под интересы миллионов пользователей.

За два года разработчики полностью переписали инфраструктуру — и ни юзеры, ни авторы контента не заметили перехода. В статье рассказали, как это удалось:

https://tprg.ru/fKMm

👍2

690 views12:03

Data Analysis / Big Data

Data Engineering Weekly #120

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-120

633 views01:04

Data Analysis / Big Data

Особенности автоматического дифференцирования в PyTorch. Часть 1

Привет! На связи команда «БАРС Груп». Мы разработали и совершенствуем российскую BI-платформу Alpha BI. Это возможно благодаря таким фреймворкам, как PyTorch.

PyTorch активно развивается более пяти лет и представляет собой целую экосистему для создания моделей машинного обучения на основе глубоких нейронных сетей. У подобных ИТ-продуктов широкий спектр применения. В частности, они помогают научному и бизнес-сообществу проводить исследования, вести разведку данных и проверять гипотезы. Несмотря на то, что на сегодняшний день это один из самых популярных фреймворков машинного обучения в мире, в рунете пока довольно мало статей о его технических особенностях. Попытаемся это исправить

Читать: https://habr.com/ru/post/719196/

667 views11:35

Data Analysis / Big Data

Реализация мультиоблачной стратегии для Cloud Storage в Битрикс24

Битрикс24 — корпоративное SaaS-решение (Software as a Service, программное обеспечение как услуга), которым пользуются компании разного масштаба и профиля для коммуникации между сотрудниками, хранения файлов, документов, ведения CRM. Битрикс24 используют тысячи клиентов, каждый из которых генерирует и хранит на базе сервиса гигабайты и даже терабайты данных. Для их хранения используется объектное S3-хранилище Cloud Storage от VK Cloud.

Директор направления облачных сервисов Битрикс24 Александр Демидов рассказал команде VK Cloud, зачем понадобилось S3-хранилище, как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.

Читать: https://habr.com/ru/post/717940/

👍1

634 views14:46

Data Analysis / Big Data

Generate OAC Snapshot using REST API

This blog will help you with the steps involved in generating OAC Snapshot using REST API

Read: https://blogs.oracle.com/analytics/post/generate-oac-snapshot-using-rest-api

Oracle

Generate OAC Snapshot using REST API

This blog will help you with the steps involved in generating OAC Snapshot using REST API

606 views22:13

Data Analysis / Big Data

Как ускорить пилотные проекты по анализу больших данных

Всем привет! Меня зовут Диляра. Я дата-сайентист команды разработки F5 Platform — low-code платформы для аналитики данных средних и крупных предприятий. Наша команда разрабатывает математический сервис продукта, алгоритмы обработки данных и модели для пресейл и пилотных проектов, а также занимается их запуском в эксплуатацию.

В статье я расскажу о том, с какими типовыми проблемами мы столкнулись при внедрении F5 Platform, какой инструмент разработали для их преодоления, и как он помог нам ускорить проведение пилотных проектов. Я хочу поделиться историей создания F5 Future — no-code сервиса приложений, призванного облегчить работу дата-сайентистов и бизнес-пользователей при проверке гипотез и проведении пилотных проектов по анализу данных.

Читать: https://habr.com/ru/post/719396/

❤1

650 views08:06

Data Analysis / Big Data

«Еще умнее — еще проще для пользователя»: CEO Postgres Pro Олег Бартунов о будущем СУБД, open source и астрономии

Большие данные — вещь относительная. Посмотрите на любого блогера: он генерирует кучу данных, в его телефоне десятки, а то и сотни гигабайтов изображений и видео. Если он не может обработать их с помощью подручных средств, их вполне можно считать большими данными.

При этом оцифрованная Библиотека конгресса в США совсем маленькая, хранить ее у себя дома может любой. Телескопы, на которых работают в Америке, могут производить несколько десятков терабайт за одну ночь. А радиотелескоп, размер которого квадратный километр, будет производить петабайты.

Читать: https://habr.com/ru/post/719424/

614 views09:37

Data Analysis / Big Data

Чего компании ждут от специалистов по Data Science в 2023 году

Проанализировали несколько десятков вакансий и выяснили, что должен знать и уметь специалист по Data Science в 2023 году.

Читать: «Чего компании ждут от специалистов по Data Science в 2023 году»

740 views09:44

Data Analysis / Big Data

Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода

Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.

Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»

👍1

701 views13:31

Data Analysis / Big Data

Practical issues in observational studies

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html

👍1

689 views17:10

Data Analysis / Big Data

Большие данные мертвы. Это нужно принять

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую-нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по-прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

Читать: https://habr.com/ru/post/720058/

👍1

780 views14:09

Data Analysis / Big Data

Почему буксует трансформация процессов эксплуатации российских телеком-сетей к data-driven network operations

Сегодня у всех без исключения российских телеком-провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно "(Биг) Дате". В пресс-релизах наши операторы соревнуются за звание самой дата-дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата-дривен решениях для них. Автор задается вопросом почему - резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.

Читать: https://habr.com/ru/post/720064/

669 views14:50

Data Analysis / Big Data

Тысяча и один справочник в Master Data Management Ростелекома Импортозамещение

Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.

Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ

Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.

Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.

Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.

С чего начинался продукт

Разработку мы начали традиционно: с функциональных требования, выбора стека и архитектуры будущего продукта.

Был выбран актуальный на сегодняшний день стек:

·         Java-платформа для разработки - Spring Boot.

·         Фреймворк для фронтэнда MVM - Vue.JS.

·         Для реализации базы данных PostgreSQL.

Почему именно он. Spring Boot предоставляет большую гибкость во внутренней архитектуре приложения и его настройке, базовый проект включает в себя "из коробки" многие вещи, такие как маршрутизацию, соединение с БД, профили, транзакции и многое другое. А почему Vue - из всех наших популярных SPA-фреймворков (AngularJS, Vue.JS и ReactJS) Vue – один из самых простых с лаконичным синтаксисом кода.

Читать: https://habr.com/ru/post/720054/

👍1

660 views11:03

Data Analysis / Big Data

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города – будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.

Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.

Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата-сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.

Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т.п. (Самокат, самокаты Whoosh передают привет!)

История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть-чуть про технику, чуть-чуть про бизнес – нескучно и с ветерком (как на самокате).

Whoosh!

Читать: https://habr.com/ru/post/720194/

👍4

780 views12:03

Data Analysis / Big Data

Data Engineering Weekly #121

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-121

653 views01:07

Data Analysis / Big Data

Особенности автоматического дифференцирования в PyTorch. Часть 2

Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.

Это вторая часть статьи-перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).
, узнать более

Читать: https://habr.com/ru/post/720676/

723 views08:55

Data Analysis / Big Data

Как устроен виртуальный помощник для data-сервисов в «Магните»

Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.

Читать: https://habr.com/ru/post/720730/

❤1

727 views11:46

Data Analysis / Big Data

Who's the richest person in the world right now?

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/whos-the-richest-person-in-the-world-right-now.html

662 views16:07

About

Blog

Apps

Platform