Invoke a Data Science Model from Oracle Analytics Cloud
This blog explains how to successfully invoke an OCI Data Science Model in OAC from data flows.
Read: https://blogs.oracle.com/analytics/post/invoke-a-data-science-model-from-oac
This blog explains how to successfully invoke an OCI Data Science Model in OAC from data flows.
Read: https://blogs.oracle.com/analytics/post/invoke-a-data-science-model-from-oac
Викторианская история больших данных
В весьма впечатлившей меня книге «Информация. История. Теория. Поток» Джеймса Глика, о которой я уже упоминал ранее, страннейшим образом обойдён вопрос о том, как возник феномен «Big Data». В той же книге упоминается первый авторский словарь английского языка, составленный в начале XVII века неким Кодри, а далее развивается идея о том, что феномен концептуализируется в языке после того, как попадает в словарь – в английской культуре таким словарём является оксфордский.
Тогда я попробовал проверить, когда же в английском и русском языке закрепилось понятие «BigData» и, соответственно, «большие данные». Распространено мнение, что выражение «BigData» впервые было употреблено в 2008 году в статье Клиффорда Линча «Big data: how do your data grow?», опубликованной в журнале «Nature», но даже это небольшое исследование подсказывает, что всё гораздо сложнее.
Читать: https://habr.com/ru/post/718846/
В весьма впечатлившей меня книге «Информация. История. Теория. Поток» Джеймса Глика, о которой я уже упоминал ранее, страннейшим образом обойдён вопрос о том, как возник феномен «Big Data». В той же книге упоминается первый авторский словарь английского языка, составленный в начале XVII века неким Кодри, а далее развивается идея о том, что феномен концептуализируется в языке после того, как попадает в словарь – в английской культуре таким словарём является оксфордский.
Тогда я попробовал проверить, когда же в английском и русском языке закрепилось понятие «BigData» и, соответственно, «большие данные». Распространено мнение, что выражение «BigData» впервые было употреблено в 2008 году в статье Клиффорда Линча «Big data: how do your data grow?», опубликованной в журнале «Nature», но даже это небольшое исследование подсказывает, что всё гораздо сложнее.
Читать: https://habr.com/ru/post/718846/
👍1
Как перебрать бэкенд так, чтобы для 20 миллионов юзеров всё прошло гладко?
На связи разработчики Дзена. На Дзене сотни тысяч авторов публикуют посты, лонгриды, длинные видео и короткие ролики, а умные алгоритмы подстраивают ленту под интересы миллионов пользователей.
За два года разработчики полностью переписали инфраструктуру — и ни юзеры, ни авторы контента не заметили перехода. В статье рассказали, как это удалось:
https://tprg.ru/fKMm
На связи разработчики Дзена. На Дзене сотни тысяч авторов публикуют посты, лонгриды, длинные видео и короткие ролики, а умные алгоритмы подстраивают ленту под интересы миллионов пользователей.
За два года разработчики полностью переписали инфраструктуру — и ни юзеры, ни авторы контента не заметили перехода. В статье рассказали, как это удалось:
https://tprg.ru/fKMm
👍2
Data Engineering Weekly #120
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-120
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-120
Особенности автоматического дифференцирования в PyTorch. Часть 1
Привет! На связи команда «БАРС Груп». Мы разработали и совершенствуем российскую BI-платформу Alpha BI. Это возможно благодаря таким фреймворкам, как PyTorch.
PyTorch активно развивается более пяти лет и представляет собой целую экосистему для создания моделей машинного обучения на основе глубоких нейронных сетей. У подобных ИТ-продуктов широкий спектр применения. В частности, они помогают научному и бизнес-сообществу проводить исследования, вести разведку данных и проверять гипотезы. Несмотря на то, что на сегодняшний день это один из самых популярных фреймворков машинного обучения в мире, в рунете пока довольно мало статей о его технических особенностях. Попытаемся это исправить
Читать: https://habr.com/ru/post/719196/
Привет! На связи команда «БАРС Груп». Мы разработали и совершенствуем российскую BI-платформу Alpha BI. Это возможно благодаря таким фреймворкам, как PyTorch.
PyTorch активно развивается более пяти лет и представляет собой целую экосистему для создания моделей машинного обучения на основе глубоких нейронных сетей. У подобных ИТ-продуктов широкий спектр применения. В частности, они помогают научному и бизнес-сообществу проводить исследования, вести разведку данных и проверять гипотезы. Несмотря на то, что на сегодняшний день это один из самых популярных фреймворков машинного обучения в мире, в рунете пока довольно мало статей о его технических особенностях. Попытаемся это исправить
Читать: https://habr.com/ru/post/719196/
Реализация мультиоблачной стратегии для Cloud Storage в Битрикс24
Битрикс24 — корпоративное SaaS-решение (Software as a Service, программное обеспечение как услуга), которым пользуются компании разного масштаба и профиля для коммуникации между сотрудниками, хранения файлов, документов, ведения CRM. Битрикс24 используют тысячи клиентов, каждый из которых генерирует и хранит на базе сервиса гигабайты и даже терабайты данных. Для их хранения используется объектное S3-хранилище Cloud Storage от VK Cloud.
Директор направления облачных сервисов Битрикс24 Александр Демидов рассказал команде VK Cloud, зачем понадобилось S3-хранилище, как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.
Читать: https://habr.com/ru/post/717940/
Битрикс24 — корпоративное SaaS-решение (Software as a Service, программное обеспечение как услуга), которым пользуются компании разного масштаба и профиля для коммуникации между сотрудниками, хранения файлов, документов, ведения CRM. Битрикс24 используют тысячи клиентов, каждый из которых генерирует и хранит на базе сервиса гигабайты и даже терабайты данных. Для их хранения используется объектное S3-хранилище Cloud Storage от VK Cloud.
Директор направления облачных сервисов Битрикс24 Александр Демидов рассказал команде VK Cloud, зачем понадобилось S3-хранилище, как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.
Читать: https://habr.com/ru/post/717940/
👍1
Generate OAC Snapshot using REST API
This blog will help you with the steps involved in generating OAC Snapshot using REST API
Read: https://blogs.oracle.com/analytics/post/generate-oac-snapshot-using-rest-api
This blog will help you with the steps involved in generating OAC Snapshot using REST API
Read: https://blogs.oracle.com/analytics/post/generate-oac-snapshot-using-rest-api
Oracle
Generate OAC Snapshot using REST API
This blog will help you with the steps involved in generating OAC Snapshot using REST API
Как ускорить пилотные проекты по анализу больших данных
Всем привет! Меня зовут Диляра. Я дата-сайентист команды разработки F5 Platform — low-code платформы для аналитики данных средних и крупных предприятий. Наша команда разрабатывает математический сервис продукта, алгоритмы обработки данных и модели для пресейл и пилотных проектов, а также занимается их запуском в эксплуатацию.
В статье я расскажу о том, с какими типовыми проблемами мы столкнулись при внедрении F5 Platform, какой инструмент разработали для их преодоления, и как он помог нам ускорить проведение пилотных проектов. Я хочу поделиться историей создания F5 Future — no-code сервиса приложений, призванного облегчить работу дата-сайентистов и бизнес-пользователей при проверке гипотез и проведении пилотных проектов по анализу данных.
Читать: https://habr.com/ru/post/719396/
Всем привет! Меня зовут Диляра. Я дата-сайентист команды разработки F5 Platform — low-code платформы для аналитики данных средних и крупных предприятий. Наша команда разрабатывает математический сервис продукта, алгоритмы обработки данных и модели для пресейл и пилотных проектов, а также занимается их запуском в эксплуатацию.
В статье я расскажу о том, с какими типовыми проблемами мы столкнулись при внедрении F5 Platform, какой инструмент разработали для их преодоления, и как он помог нам ускорить проведение пилотных проектов. Я хочу поделиться историей создания F5 Future — no-code сервиса приложений, призванного облегчить работу дата-сайентистов и бизнес-пользователей при проверке гипотез и проведении пилотных проектов по анализу данных.
Читать: https://habr.com/ru/post/719396/
❤1
«Еще умнее — еще проще для пользователя»: CEO Postgres Pro Олег Бартунов о будущем СУБД, open source и астрономии
Большие данные — вещь относительная. Посмотрите на любого блогера: он генерирует кучу данных, в его телефоне десятки, а то и сотни гигабайтов изображений и видео. Если он не может обработать их с помощью подручных средств, их вполне можно считать большими данными.
При этом оцифрованная Библиотека конгресса в США совсем маленькая, хранить ее у себя дома может любой. Телескопы, на которых работают в Америке, могут производить несколько десятков терабайт за одну ночь. А радиотелескоп, размер которого квадратный километр, будет производить петабайты.
Читать: https://habr.com/ru/post/719424/
Большие данные — вещь относительная. Посмотрите на любого блогера: он генерирует кучу данных, в его телефоне десятки, а то и сотни гигабайтов изображений и видео. Если он не может обработать их с помощью подручных средств, их вполне можно считать большими данными.
При этом оцифрованная Библиотека конгресса в США совсем маленькая, хранить ее у себя дома может любой. Телескопы, на которых работают в Америке, могут производить несколько десятков терабайт за одну ночь. А радиотелескоп, размер которого квадратный километр, будет производить петабайты.
Читать: https://habr.com/ru/post/719424/
Чего компании ждут от специалистов по Data Science в 2023 году
Проанализировали несколько десятков вакансий и выяснили, что должен знать и уметь специалист по Data Science в 2023 году.
Читать: «Чего компании ждут от специалистов по Data Science в 2023 году»
Проанализировали несколько десятков вакансий и выяснили, что должен знать и уметь специалист по Data Science в 2023 году.
Читать: «Чего компании ждут от специалистов по Data Science в 2023 году»
Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода
Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»
Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»
👍1
Practical issues in observational studies
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html
👍1
Большие данные мертвы. Это нужно принять
Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую-нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по-прежнему возникают проблемы с пониманием своих данных.
В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.
Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.
А дальше будет и того интереснее.
Читать: https://habr.com/ru/post/720058/
Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую-нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по-прежнему возникают проблемы с пониманием своих данных.
В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.
Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.
А дальше будет и того интереснее.
Читать: https://habr.com/ru/post/720058/
👍1
Почему буксует трансформация процессов эксплуатации российских телеком-сетей к data-driven network operations
Сегодня у всех без исключения российских телеком-провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно "(Биг) Дате". В пресс-релизах наши операторы соревнуются за звание самой дата-дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата-дривен решениях для них. Автор задается вопросом почему - резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.
Читать: https://habr.com/ru/post/720064/
Сегодня у всех без исключения российских телеком-провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно "(Биг) Дате". В пресс-релизах наши операторы соревнуются за звание самой дата-дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата-дривен решениях для них. Автор задается вопросом почему - резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.
Читать: https://habr.com/ru/post/720064/
Тысяча и один справочник в Master Data Management Ростелекома Импортозамещение
Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.
Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ
Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.
Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.
Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.
С чего начинался продукт
Разработку мы начали традиционно: с функциональных требования, выбора стека и архитектуры будущего продукта.
Был выбран актуальный на сегодняшний день стек:
· Java-платформа для разработки - Spring Boot.
· Фреймворк для фронтэнда MVM - Vue.JS.
· Для реализации базы данных PostgreSQL.
Почему именно он. Spring Boot предоставляет большую гибкость во внутренней архитектуре приложения и его настройке, базовый проект включает в себя "из коробки" многие вещи, такие как маршрутизацию, соединение с БД, профили, транзакции и многое другое. А почему Vue - из всех наших популярных SPA-фреймворков (AngularJS, Vue.JS и ReactJS) Vue – один из самых простых с лаконичным синтаксисом кода.
Читать: https://habr.com/ru/post/720054/
Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.
Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ
Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.
Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.
Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.
С чего начинался продукт
Разработку мы начали традиционно: с функциональных требования, выбора стека и архитектуры будущего продукта.
Был выбран актуальный на сегодняшний день стек:
· Java-платформа для разработки - Spring Boot.
· Фреймворк для фронтэнда MVM - Vue.JS.
· Для реализации базы данных PostgreSQL.
Почему именно он. Spring Boot предоставляет большую гибкость во внутренней архитектуре приложения и его настройке, базовый проект включает в себя "из коробки" многие вещи, такие как маршрутизацию, соединение с БД, профили, транзакции и многое другое. А почему Vue - из всех наших популярных SPA-фреймворков (AngularJS, Vue.JS и ReactJS) Vue – один из самых простых с лаконичным синтаксисом кода.
Читать: https://habr.com/ru/post/720054/
👍1
Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh
Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города – будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.
Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.
Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата-сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.
Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т.п. (Самокат, самокаты Whoosh передают привет!)
История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть-чуть про технику, чуть-чуть про бизнес – нескучно и с ветерком (как на самокате).
Whoosh!
Читать: https://habr.com/ru/post/720194/
Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города – будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.
Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.
Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата-сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.
Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т.п. (Самокат, самокаты Whoosh передают привет!)
История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть-чуть про технику, чуть-чуть про бизнес – нескучно и с ветерком (как на самокате).
Whoosh!
Читать: https://habr.com/ru/post/720194/
👍4
Data Engineering Weekly #121
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-121
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-121
Особенности автоматического дифференцирования в PyTorch. Часть 2
Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.
Это вторая часть статьи-перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).
, узнать более
Читать: https://habr.com/ru/post/720676/
Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.
Это вторая часть статьи-перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).
, узнать более
Читать: https://habr.com/ru/post/720676/
Как устроен виртуальный помощник для data-сервисов в «Магните»
Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.
Читать: https://habr.com/ru/post/720730/
Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.
Читать: https://habr.com/ru/post/720730/
❤1
Who's the richest person in the world right now?
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/whos-the-richest-person-in-the-world-right-now.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/whos-the-richest-person-in-the-world-right-now.html