Снежинка, Data Vault, Anchor Modeling. Какая методология проектирования DWH подойдет для вашего бизнеса?
Зачем тратить время на выбор методологии построения DWH? Крайне важно правильно выбрать методологию моделирования данных для хранилища еще на этапе проектирования, это поможет обеспечить необходимый уровень гибкости и масштабируемости, а также позволит синхронизоваться с поставленными бизнес-задачами.
Сравниваем Снежинку, Data Vault и Anchor Modeling и предлагаем алгоритм выбора методологии построения DWH.
Читать: https://habr.com/ru/articles/786822/
Зачем тратить время на выбор методологии построения DWH? Крайне важно правильно выбрать методологию моделирования данных для хранилища еще на этапе проектирования, это поможет обеспечить необходимый уровень гибкости и масштабируемости, а также позволит синхронизоваться с поставленными бизнес-задачами.
Сравниваем Снежинку, Data Vault и Anchor Modeling и предлагаем алгоритм выбора методологии построения DWH.
Читать: https://habr.com/ru/articles/786822/
MongoDB Named a Leader in the 2023 Gartner® Magic Quadrant™ for Cloud Database Management Systems
Read: https://www.mongodb.com/blog/post/mongodb-named-leader-2023-gartner-magic-quadrant-cloud-database-management-systems
Read: https://www.mongodb.com/blog/post/mongodb-named-leader-2023-gartner-magic-quadrant-cloud-database-management-systems
Полиграф: проблемы найма и информационной безопасности
Хочу поделиться своим опытом прохождения полиграфа в качестве кандидата, а так же тем какие проблемы я увидел в этом процессе, какие есть пути решения, а так же почему вам оно точно не нужно.
Началось все как обычно: перед Новым годом очередной сорсер написал мне в телеграм, что есть интересная позиция руководителя небольшой бекенд команды на новый проект. Так как в данный момент я открыт для потенциально интересных предложений мы быстро назначили первое техническое собеседование.
Само собеседование мне скорее понравилось, оно было 1 на 1 сразу с CTO, стандартные вопросы по java в стиле чему равно Integer.valueOf(10) == Integer.valueOf(10). Такие модно было спрашивать в 2008 году. Немного задач на ревью кода, немного на sql. Но собеседование затянулось на 2 часа, о чем меня конечно не предупредили, и из-за этого я пропустил рабочую встречу, мелочь, а неприятно. Так же на этом же собеседовании мне заявили, что необходимо пройти комплекс тестов на интеллект и психологию онлайн и полиграф. Тут бы уже стоило прекратить общение, но в силу того что времени поразмыслить обо всем этом у меня не было, а так же в силу природного любопытства - я согласился.
Читать: https://habr.com/ru/articles/786502/
Хочу поделиться своим опытом прохождения полиграфа в качестве кандидата, а так же тем какие проблемы я увидел в этом процессе, какие есть пути решения, а так же почему вам оно точно не нужно.
Началось все как обычно: перед Новым годом очередной сорсер написал мне в телеграм, что есть интересная позиция руководителя небольшой бекенд команды на новый проект. Так как в данный момент я открыт для потенциально интересных предложений мы быстро назначили первое техническое собеседование.
Само собеседование мне скорее понравилось, оно было 1 на 1 сразу с CTO, стандартные вопросы по java в стиле чему равно Integer.valueOf(10) == Integer.valueOf(10). Такие модно было спрашивать в 2008 году. Немного задач на ревью кода, немного на sql. Но собеседование затянулось на 2 часа, о чем меня конечно не предупредили, и из-за этого я пропустил рабочую встречу, мелочь, а неприятно. Так же на этом же собеседовании мне заявили, что необходимо пройти комплекс тестов на интеллект и психологию онлайн и полиграф. Тут бы уже стоило прекратить общение, но в силу того что времени поразмыслить обо всем этом у меня не было, а так же в силу природного любопытства - я согласился.
Читать: https://habr.com/ru/articles/786502/
Integrate OPC UA With MongoDB - A Feasibility Study With Codelitt
Read: https://www.mongodb.com/blog/post/integrate-opc-ua-mongodb-feasibility-study-codelitt
Read: https://www.mongodb.com/blog/post/integrate-opc-ua-mongodb-feasibility-study-codelitt
Фамильный вики-движок Bonsai: 6 лет спустя
Прошло шесть с лишним лет с момента, когда я начал работать над проектом Bonsai. Если в двух словах, то это вики-движок, заточенный под хранение семейной истории и построение генеалогических деревьев. Он распространяется в полностью открытом и бесплатном виде, подразумевая установку на ваш собственный сервер в качестве docker-контейнера.
Более подробно о его устройстве и истории создания можно почитать в моих предыдущих статьях 3+ годичной давности: раз, два. Изначально я планировал выпускать мажорную версию и писать про нее статью раз в год, но родительство и переезд вносят в планы изрядную долю хаоса. Тем не менее, проект все еще активен и развивается. Сегодня я расскажу о том, что было реализовано и улучшено за последнее время.
Читать: https://habr.com/ru/articles/786518/
Прошло шесть с лишним лет с момента, когда я начал работать над проектом Bonsai. Если в двух словах, то это вики-движок, заточенный под хранение семейной истории и построение генеалогических деревьев. Он распространяется в полностью открытом и бесплатном виде, подразумевая установку на ваш собственный сервер в качестве docker-контейнера.
Более подробно о его устройстве и истории создания можно почитать в моих предыдущих статьях 3+ годичной давности: раз, два. Изначально я планировал выпускать мажорную версию и писать про нее статью раз в год, но родительство и переезд вносят в планы изрядную долю хаоса. Тем не менее, проект все еще активен и развивается. Сегодня я расскажу о том, что было реализовано и улучшено за последнее время.
Читать: https://habr.com/ru/articles/786518/
Сжимаем текст в изображения PNG
(Наверно, это глупая идея. Но иногда даже самые глупые идеи приводят к неожиданным результатам.)
Текст шекспировской трагедии «Ромео и Джульетта» состоит примерно из 146 тысяч символов. Благодаря английскому алфавиту каждый символ можно описать одним байтом. Так что размер текстового файла в обычном Unicode составляет примерно 142 КБ.
В статье Adventures With Compression её автор JamesG размышляет о соревнованиях по сжатию текста и предлагает интересную мысль...
Читать: https://habr.com/ru/articles/786968/
(Наверно, это глупая идея. Но иногда даже самые глупые идеи приводят к неожиданным результатам.)
Текст шекспировской трагедии «Ромео и Джульетта» состоит примерно из 146 тысяч символов. Благодаря английскому алфавиту каждый символ можно описать одним байтом. Так что размер текстового файла в обычном Unicode составляет примерно 142 КБ.
В статье Adventures With Compression её автор JamesG размышляет о соревнованиях по сжатию текста и предлагает интересную мысль...
Читать: https://habr.com/ru/articles/786968/
A Discussion with VISO TRUST: Expanding Atlas Vector Search to Provide Better-Informed Risk Decisions
VISO TRUST, an AI-powered cyber risk and trust platform, has expanded its use of MongoDB's Atlas Vector Search to improve its risk decision-making process. They have adopted MongoDB's new dedicated Search Nodes architecture and scaled up their embeddings and retrieval capabilities. VISO TRUST uses PDF and image extraction techniques to gather accurate information and has implemented a re-ranking architecture for its intelligent question-answering service. They are also using MongoDB for storing and retrieving training data for machine learning models. The adoption of Atlas Search Nodes has allowed VISO TRUST to scale their search capabilities independently from their database needs, resulting in faster and more streamlined processes. The company measures the success of their retrieval efforts based on the scalability and low latency of their system. MongoDB has played a crucial role in helping VISO TRUST deliver accurate and efficient risk assessments. This text discusses the importance of having a well-integrated data platform that works seamlessly with other technology partners. MongoDB has cultivated a partner ecosystem with various AI, cloud, and technology integration partners. They have also certified over 10,000 system integrators in the past year. MongoDB has been recognized by leading analyst firms and has received awards from top technology partners. They have strategic partnerships with Microsoft and Alibaba, as well as collaborations with AWS and Google Cloud. MongoDB has been evaluated by Gartner as a leader in cloud database management systems. They offer training programs and resources for developers to familiarize themselves with MongoDB. The text also explains how OPC UA, a communication standard for Industry 4.0, can be easily integrated with MongoDB's document model to store OPC UA semantic information models. Codelitt, a software strategy company, is developing a connector to ingest real-time OPC UA data into MongoDB. The technical details of the solution are also provided.
Read: https://www.mongodb.com/blog/post/discussion-viso-trust-expanding-atlas-vector-search-provide-better-informed-risk-decisions
VISO TRUST, an AI-powered cyber risk and trust platform, has expanded its use of MongoDB's Atlas Vector Search to improve its risk decision-making process. They have adopted MongoDB's new dedicated Search Nodes architecture and scaled up their embeddings and retrieval capabilities. VISO TRUST uses PDF and image extraction techniques to gather accurate information and has implemented a re-ranking architecture for its intelligent question-answering service. They are also using MongoDB for storing and retrieving training data for machine learning models. The adoption of Atlas Search Nodes has allowed VISO TRUST to scale their search capabilities independently from their database needs, resulting in faster and more streamlined processes. The company measures the success of their retrieval efforts based on the scalability and low latency of their system. MongoDB has played a crucial role in helping VISO TRUST deliver accurate and efficient risk assessments. This text discusses the importance of having a well-integrated data platform that works seamlessly with other technology partners. MongoDB has cultivated a partner ecosystem with various AI, cloud, and technology integration partners. They have also certified over 10,000 system integrators in the past year. MongoDB has been recognized by leading analyst firms and has received awards from top technology partners. They have strategic partnerships with Microsoft and Alibaba, as well as collaborations with AWS and Google Cloud. MongoDB has been evaluated by Gartner as a leader in cloud database management systems. They offer training programs and resources for developers to familiarize themselves with MongoDB. The text also explains how OPC UA, a communication standard for Industry 4.0, can be easily integrated with MongoDB's document model to store OPC UA semantic information models. Codelitt, a software strategy company, is developing a connector to ingest real-time OPC UA data into MongoDB. The technical details of the solution are also provided.
Read: https://www.mongodb.com/blog/post/discussion-viso-trust-expanding-atlas-vector-search-provide-better-informed-risk-decisions
Evolve Your Data Models as You Modernize with Hackolade and Relational Migrator
The text discusses two main topics:
1. The use of Hackolade and Relational Migrator in modernizing data models for MongoDB.
- Many developers and database administrators are finding that their legacy relational databases are no longer effective for emerging use cases.
- MongoDB Relational Migrator simplifies the migration process from relational databases to MongoDB.
- Hackolade Studio allows teams to design and document MongoDB data models and collaborate with other teams.
- Hackolade Studio can import Relational Migrator files, allowing for a seamless transition between the two tools.
2. The integration of OPC UA with MongoDB for Industry 4.0 and industrial IoT applications.
- OPC UA is a communication standard for interoperability in industrial settings.
- MongoDB's document model is well-suited for storing OPC UA information models.
- The text discusses the architecture and data flow of connecting OPC UA servers to MongoDB.
- Various technical details are provided, including the use of a message broker and the MongoDB Kafka connector.
- MongoDB's aggregation framework and Atlas Charts can be used for querying and visualization of OPC UA data. The text discusses the use of Vector Search in the context of a Q&A system for security documents. The system allows clients to ask questions and receive answers with evidence without needing to manually search through the documents. The system relies on three main collections: paragraphs, sentences, and table rows. Sparse and dense retrieval methods are used to filter and rank the sentences based on similarity to the question. The results are merged and passed through additional models for scoring and ranking. MongoDB's Atlas Search is used to store and query the data for the AI-based results. The text also mentions the scalability and performance benefits of using MongoDB.
Read: https://www.mongodb.com/blog/post/evolve-your-data-models-as-you-modernize-with-hackolade-relational-migrator
The text discusses two main topics:
1. The use of Hackolade and Relational Migrator in modernizing data models for MongoDB.
- Many developers and database administrators are finding that their legacy relational databases are no longer effective for emerging use cases.
- MongoDB Relational Migrator simplifies the migration process from relational databases to MongoDB.
- Hackolade Studio allows teams to design and document MongoDB data models and collaborate with other teams.
- Hackolade Studio can import Relational Migrator files, allowing for a seamless transition between the two tools.
2. The integration of OPC UA with MongoDB for Industry 4.0 and industrial IoT applications.
- OPC UA is a communication standard for interoperability in industrial settings.
- MongoDB's document model is well-suited for storing OPC UA information models.
- The text discusses the architecture and data flow of connecting OPC UA servers to MongoDB.
- Various technical details are provided, including the use of a message broker and the MongoDB Kafka connector.
- MongoDB's aggregation framework and Atlas Charts can be used for querying and visualization of OPC UA data. The text discusses the use of Vector Search in the context of a Q&A system for security documents. The system allows clients to ask questions and receive answers with evidence without needing to manually search through the documents. The system relies on three main collections: paragraphs, sentences, and table rows. Sparse and dense retrieval methods are used to filter and rank the sentences based on similarity to the question. The results are merged and passed through additional models for scoring and ranking. MongoDB's Atlas Search is used to store and query the data for the AI-based results. The text also mentions the scalability and performance benefits of using MongoDB.
Read: https://www.mongodb.com/blog/post/evolve-your-data-models-as-you-modernize-with-hackolade-relational-migrator
Audit Active Data Guard with Data Safe in Oracle Cloud
Data Safe can now audit Active Data Guard, including cross-region Data Guard peers, in the Oracle Cloud. Data Safe collects audit records from all Active Data Guard peers (including read-only peers) in addition to assessing configuration and user risk.
Read: https://blogs.oracle.com/database/post/audit-active-dataguard-with-data-safe-in-oracle-cloud
Data Safe can now audit Active Data Guard, including cross-region Data Guard peers, in the Oracle Cloud. Data Safe collects audit records from all Active Data Guard peers (including read-only peers) in addition to assessing configuration and user risk.
Read: https://blogs.oracle.com/database/post/audit-active-dataguard-with-data-safe-in-oracle-cloud
Oracle
Audit Active Dataguard with Data Safe in Oracle Cloud
Data Safe can now audit Active Data Guard, including cross-region Data Guard peers, in the Oracle Cloud. Data Safe collects audit records from all Active Data Guard peers (including read-only peers) in addition to assessing configuration and user risk.
Как содержать пароли. Мой сетап
Я долго собирал информацию о том, как организовать свои аккаунты. Как сделать доступ к ним достаточно надёжным и стойким к утере девайсов.
Меня интересовало, как я могу залогиниться туда, где многофакторная авторизация через телефон, в случае потери телефона.
Или, как обезопасить себя от забывания мастер пароля от менеджера паролей? На моей практике я несколько раз забывал пин-код от банковской карты, состоящий из 4-ёх цифр, после ежедневного использования на протяжении многих месяцев. Мозг - странная штука.
В итоге, спустя месяцы изучения темы, я пришёл к следующему сетапу, который решил описать в виде мануала.
Читать: https://habr.com/ru/articles/787158/
Я долго собирал информацию о том, как организовать свои аккаунты. Как сделать доступ к ним достаточно надёжным и стойким к утере девайсов.
Меня интересовало, как я могу залогиниться туда, где многофакторная авторизация через телефон, в случае потери телефона.
Или, как обезопасить себя от забывания мастер пароля от менеджера паролей? На моей практике я несколько раз забывал пин-код от банковской карты, состоящий из 4-ёх цифр, после ежедневного использования на протяжении многих месяцев. Мозг - странная штука.
В итоге, спустя месяцы изучения темы, я пришёл к следующему сетапу, который решил описать в виде мануала.
Читать: https://habr.com/ru/articles/787158/
Улучшаем динамические таблицы YTsaurus с помощью алгоритмов
Динамические таблицы в YTsaurus занимают заметное место во внутренней инфраструктуре Яндекса. В них можно хранить огромные массивы данных, и читать их можно настолько быстро, что многие сервисы Яндекса используют YTsaurus при построении ответа внешним пользователям.
Всё это звучит здорово, но стоять на месте никак нельзя. Поэтому мы постоянно работаем над всякого рода улучшениями и оптимизациями. Зачастую новые фичи хранят под капотом не самую тривиальную идею. И сегодня я хочу рассказать о нескольких таких улучшениях, которые мы затащили в виде новых фич в последнем релизе.
В этой статье разберёмся, как работает xor-фильтр, в чём особенность чанкового хеш-индекса и как overload controller повышает стабильность работы. Все примеры разберём на примере YTsaurus, но они будут полезны любому разработчику СУБД.
Читать: https://habr.com/ru/companies/yandex/articles/785994/
Динамические таблицы в YTsaurus занимают заметное место во внутренней инфраструктуре Яндекса. В них можно хранить огромные массивы данных, и читать их можно настолько быстро, что многие сервисы Яндекса используют YTsaurus при построении ответа внешним пользователям.
Всё это звучит здорово, но стоять на месте никак нельзя. Поэтому мы постоянно работаем над всякого рода улучшениями и оптимизациями. Зачастую новые фичи хранят под капотом не самую тривиальную идею. И сегодня я хочу рассказать о нескольких таких улучшениях, которые мы затащили в виде новых фич в последнем релизе.
В этой статье разберёмся, как работает xor-фильтр, в чём особенность чанкового хеш-индекса и как overload controller повышает стабильность работы. Все примеры разберём на примере YTsaurus, но они будут полезны любому разработчику СУБД.
Читать: https://habr.com/ru/companies/yandex/articles/785994/
17 мгновений миграции DWH X5 Group
Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой.
Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum.
В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.
Читать: https://habr.com/ru/companies/X5Tech/articles/787334/
Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой.
Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum.
В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.
Читать: https://habr.com/ru/companies/X5Tech/articles/787334/
Как сэкономить время на старте этапа макетирования отчетности или прочь «чистый лист»
Как правило, аналитики на этапе макетирования сталкиваются с одной и той же проблемой – нехваткой времени. Делюсь шаблоном для создания макетов отчетности, который поможет сэкономить время и силы!
В основе этого инструмента макетирования отчетности лежит сформированный в нашей компании принцип конструирования дашборда, исходя из решаемой бизнесом задачи, или «сценарный подход».
Читать: https://habr.com/ru/articles/787384/
Как правило, аналитики на этапе макетирования сталкиваются с одной и той же проблемой – нехваткой времени. Делюсь шаблоном для создания макетов отчетности, который поможет сэкономить время и силы!
В основе этого инструмента макетирования отчетности лежит сформированный в нашей компании принцип конструирования дашборда, исходя из решаемой бизнесом задачи, или «сценарный подход».
Читать: https://habr.com/ru/articles/787384/
Как сэкономить время на старте этапа макетирования отчетности или прочь «чистый лист»
Как правило, аналитики на этапе макетирования сталкиваются с одной и той же проблемой – нехваткой времени. Делюсь шаблоном для создания макетов отчетности, который поможет сэкономить время и силы!
В основе этого инструмента макетирования отчетности лежит сформированный в нашей компании принцип конструирования дашборда, исходя из решаемой бизнесом задачи, или «сценарный подход».
Читать: https://habr.com/ru/articles/787384/
Как правило, аналитики на этапе макетирования сталкиваются с одной и той же проблемой – нехваткой времени. Делюсь шаблоном для создания макетов отчетности, который поможет сэкономить время и силы!
В основе этого инструмента макетирования отчетности лежит сформированный в нашей компании принцип конструирования дашборда, исходя из решаемой бизнесом задачи, или «сценарный подход».
Читать: https://habr.com/ru/articles/787384/
Navigating the Landscape of Artificial Intelligence: How Can The Financial Sector Make Use of Generative AI
Read: https://www.mongodb.com/blog/post/navigating-landscape-artificial-intelligence-financial-sector-make-use-generative-ai
Read: https://www.mongodb.com/blog/post/navigating-landscape-artificial-intelligence-financial-sector-make-use-generative-ai
Collaboration for Breakfast: MongoDB and Partners Share AI Insights at AWS re:Invent
Read: https://www.mongodb.com/blog/post/collaboration-breakfast-mongodb-partners-share-ai-insights-aws-reinvent
Read: https://www.mongodb.com/blog/post/collaboration-breakfast-mongodb-partners-share-ai-insights-aws-reinvent
10,000 SI Certifications and Counting: MongoDB and System Integrator Partners Reach Major Milestone Supporting GenAI Initiatives
Read: https://www.mongodb.com/blog/post/10-000-certifications-counting-major-milestone-mongodb-system-integrator-partners
Read: https://www.mongodb.com/blog/post/10-000-certifications-counting-major-milestone-mongodb-system-integrator-partners
Customizing risk assessment in Oracle Data Safe
We are pleased to announce that you can now “defer risk” or “change risk” level to match your specific environment and deployment. “Defer Risk” allows you to indicate that you have reviewed the finding and will work on it later (or, eventually, never) so that it doesn’t show up again as a finding in subsequent reports. “Change Risk,” allows you to raise or lower the severity of a finding to suit your requirements.
Read: https://blogs.oracle.com/database/post/customize-data-safe-assessment
We are pleased to announce that you can now “defer risk” or “change risk” level to match your specific environment and deployment. “Defer Risk” allows you to indicate that you have reviewed the finding and will work on it later (or, eventually, never) so that it doesn’t show up again as a finding in subsequent reports. “Change Risk,” allows you to raise or lower the severity of a finding to suit your requirements.
Read: https://blogs.oracle.com/database/post/customize-data-safe-assessment
Oracle
Customizing risk assessment in Oracle Data Safe
We are pleased to announce that you can now “defer risk” or “change risk” level to match your specific environment and deployment. “Defer Risk” allows you to indicate that you have reviewed the finding and will work on it later (or, eventually, never) so…
Seagate выпустит HDD с лазерным подогревом емкостью от 30 ТБ уже в этом квартале. Что это за диски?
Корпорация Seagate уже достаточно давно анонсировала свои жесткие диски нового типа с очень высокой плотностью хранения информации. Речь идет о HDD с необычной технологией прогрева «блинов» дисков при помощи лазера. Это нужно для повышения плотности записи данных, в результате чего производителю и удалось достичь весьма высокой емкости диска — от 30 терабайт. Подробности — под катом.
Читать: https://habr.com/ru/companies/selectel/articles/787450/
Корпорация Seagate уже достаточно давно анонсировала свои жесткие диски нового типа с очень высокой плотностью хранения информации. Речь идет о HDD с необычной технологией прогрева «блинов» дисков при помощи лазера. Это нужно для повышения плотности записи данных, в результате чего производителю и удалось достичь весьма высокой емкости диска — от 30 терабайт. Подробности — под катом.
Читать: https://habr.com/ru/companies/selectel/articles/787450/
Почему текст в нижнем регистре сжимается лучше
Буквы в нижнем и верхнем регистре содержат одинаковое количество данных — по
Поэтому удивительно, что замена заглавных букв на строчные снижает объём данных.
Пример: я взял главную страницу Hacker News и переписал заголовок каждой статьи, капитализировав только первые буквы в предложениях (sentence case) вместо первых букв во всех словах (title case). Это позволило мне снизить размер на
Sentence case: The cat sat on the mat
Title case: The Cat Sat on the Mat
Как может замена нескольких заглавных букв на строчные снижать объём? Всё дело в сжатии.
Это непривычно, но если понять, как работает сжатие текста, то начинает казаться логичным.
Читать: https://habr.com/ru/articles/787722/
Буквы в нижнем и верхнем регистре содержат одинаковое количество данных — по
1 байту каждая.Поэтому удивительно, что замена заглавных букв на строчные снижает объём данных.
Пример: я взял главную страницу Hacker News и переписал заголовок каждой статьи, капитализировав только первые буквы в предложениях (sentence case) вместо первых букв во всех словах (title case). Это позволило мне снизить размер на
31 байт.Sentence case: The cat sat on the mat
Title case: The Cat Sat on the Mat
Как может замена нескольких заглавных букв на строчные снижать объём? Всё дело в сжатии.
Это непривычно, но если понять, как работает сжатие текста, то начинает казаться логичным.
Читать: https://habr.com/ru/articles/787722/