Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода
Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»
Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»
👍1
Practical issues in observational studies
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html
👍1
Большие данные мертвы. Это нужно принять
Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую-нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по-прежнему возникают проблемы с пониманием своих данных.
В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.
Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.
А дальше будет и того интереснее.
Читать: https://habr.com/ru/post/720058/
Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую-нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по-прежнему возникают проблемы с пониманием своих данных.
В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.
Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.
А дальше будет и того интереснее.
Читать: https://habr.com/ru/post/720058/
👍1
Почему буксует трансформация процессов эксплуатации российских телеком-сетей к data-driven network operations
Сегодня у всех без исключения российских телеком-провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно "(Биг) Дате". В пресс-релизах наши операторы соревнуются за звание самой дата-дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата-дривен решениях для них. Автор задается вопросом почему - резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.
Читать: https://habr.com/ru/post/720064/
Сегодня у всех без исключения российских телеком-провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно "(Биг) Дате". В пресс-релизах наши операторы соревнуются за звание самой дата-дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата-дривен решениях для них. Автор задается вопросом почему - резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.
Читать: https://habr.com/ru/post/720064/
Тысяча и один справочник в Master Data Management Ростелекома Импортозамещение
Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.
Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ
Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.
Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.
Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.
С чего начинался продукт
Разработку мы начали традиционно: с функциональных требования, выбора стека и архитектуры будущего продукта.
Был выбран актуальный на сегодняшний день стек:
· Java-платформа для разработки - Spring Boot.
· Фреймворк для фронтэнда MVM - Vue.JS.
· Для реализации базы данных PostgreSQL.
Почему именно он. Spring Boot предоставляет большую гибкость во внутренней архитектуре приложения и его настройке, базовый проект включает в себя "из коробки" многие вещи, такие как маршрутизацию, соединение с БД, профили, транзакции и многое другое. А почему Vue - из всех наших популярных SPA-фреймворков (AngularJS, Vue.JS и ReactJS) Vue – один из самых простых с лаконичным синтаксисом кода.
Читать: https://habr.com/ru/post/720054/
Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.
Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ
Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.
Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.
Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.
С чего начинался продукт
Разработку мы начали традиционно: с функциональных требования, выбора стека и архитектуры будущего продукта.
Был выбран актуальный на сегодняшний день стек:
· Java-платформа для разработки - Spring Boot.
· Фреймворк для фронтэнда MVM - Vue.JS.
· Для реализации базы данных PostgreSQL.
Почему именно он. Spring Boot предоставляет большую гибкость во внутренней архитектуре приложения и его настройке, базовый проект включает в себя "из коробки" многие вещи, такие как маршрутизацию, соединение с БД, профили, транзакции и многое другое. А почему Vue - из всех наших популярных SPA-фреймворков (AngularJS, Vue.JS и ReactJS) Vue – один из самых простых с лаконичным синтаксисом кода.
Читать: https://habr.com/ru/post/720054/
👍1
Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh
Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города – будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.
Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.
Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата-сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.
Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т.п. (Самокат, самокаты Whoosh передают привет!)
История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть-чуть про технику, чуть-чуть про бизнес – нескучно и с ветерком (как на самокате).
Whoosh!
Читать: https://habr.com/ru/post/720194/
Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города – будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.
Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.
Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата-сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.
Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т.п. (Самокат, самокаты Whoosh передают привет!)
История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть-чуть про технику, чуть-чуть про бизнес – нескучно и с ветерком (как на самокате).
Whoosh!
Читать: https://habr.com/ru/post/720194/
👍4
Data Engineering Weekly #121
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-121
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-121
Особенности автоматического дифференцирования в PyTorch. Часть 2
Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.
Это вторая часть статьи-перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).
, узнать более
Читать: https://habr.com/ru/post/720676/
Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.
Это вторая часть статьи-перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).
, узнать более
Читать: https://habr.com/ru/post/720676/
Как устроен виртуальный помощник для data-сервисов в «Магните»
Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.
Читать: https://habr.com/ru/post/720730/
Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.
Читать: https://habr.com/ru/post/720730/
❤1
Who's the richest person in the world right now?
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/whos-the-richest-person-in-the-world-right-now.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/whos-the-richest-person-in-the-world-right-now.html
Data Mesh: что это такое и для чего он нужен инженерам
Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.
Читать: https://habr.com/ru/post/720652/
Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.
Читать: https://habr.com/ru/post/720652/
They call me the boomerang kid
How Oracle has shaped my career and why I wanted to return.
Read: https://blogs.oracle.com/analytics/post/they-call-me-the-boomerang-kid
How Oracle has shaped my career and why I wanted to return.
Read: https://blogs.oracle.com/analytics/post/they-call-me-the-boomerang-kid
Data Fusion Contest 2023. Для опыта и не только… Соревнование от ВТБ с призовым фондом в 2 млн рублей
Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?
Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.
В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:
🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.
Читать: https://habr.com/ru/post/721174/
Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?
Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.
В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:
🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.
Читать: https://habr.com/ru/post/721174/
dc263cfd-b08c-461a-a299-dc1b28fd17af_1600x500.jpg
23.8 KB
Unlocking data stream processing [Part 2] - realtime server logs monitoring with a sliding window
Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing
Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing
Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff
Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.
Читать полностью
Читать: https://habr.com/ru/post/721230/
Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.
Читать полностью
Читать: https://habr.com/ru/post/721230/
Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями
MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.
Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.
Читать: https://habr.com/ru/post/720654/
MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.
Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.
Читать: https://habr.com/ru/post/720654/
Change Data Capture, with Debezium
Read: https://www.startdataengineering.com/post/change-data-capture-using-debezium-kafka-and-pg/
Read: https://www.startdataengineering.com/post/change-data-capture-using-debezium-kafka-and-pg/
«Топ 10» популярных мужских профессий в столице и регионах в 2023 году
Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново. Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.
Читать: https://habr.com/ru/post/721400/
Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново. Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.
Читать: https://habr.com/ru/post/721400/
👍1
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter
Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.
Read: https://blogs.oracle.com/analytics/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.
Read: https://blogs.oracle.com/analytics/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
Oracle
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter
Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.
👍1
Using a JavaScript Object Notation Web Token with Oracle Fusion Analytics
This post describes using a JavaScript Object Notation (JSON) Web Token, or JWT, with Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/using-jwt-token-with-faw
This post describes using a JavaScript Object Notation (JSON) Web Token, or JWT, with Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/using-jwt-token-with-faw
Oracle
Configuring a JavaScript Object Notation Web Token for Oracle Fusion Analytics
This post guides you through configuring a JavaScript Object Notation (JSON) Web Token for Oracle Fusion Analytics.