Цифровизируй это
1.65K subscribers
239 photos
4 videos
944 links
На этой площадке мы, команда VK Tech, собираем экспертные комментарии по текущей цифровой повестке, выясняем, что сейчас волнует бизнес, и выносим это на обсуждение.| tech.vk.com
Download Telegram
Подход Multicloud Native Service: как сделать систему максимально отказоустойчивой

Подход Multicloud Native Service сочетает в себе лучшее из подходов Multicloud и Cloud Native. Он позволяет построить 100% отказоустойчивую и высокодоступную систему. В статье подробно рассказываем о преимуществах и способах реализации подхода, а также о сложностях и методах их обхода.
​​Преимущества запуска Spark в Kubernetes

Для частого запуска Spark-приложений необходимо максимально упростить процесс запуска задач, а также уметь гибко настраивать их конфигурации. Для этого можно запускать Spark внутри Kubernetes. Вот основные преимущества такого подхода:

Изоляция сред. При переходе на новую версию Spark в традиционном Hadoop-кластере нужно организовать бесшовный апгрейд, проверить все приложения и пайплайны. Запуск Spark в Kubernetes решает эту проблему: каждый член команды может создать независимое окружение и использовать любую версию Spark.

Управление ресурсами. Kubernetes позволяет накладывать ограничения ресурсов на разные приложения и разные типы пайплайнов, например, используя Namespace.

Гибкое масштабирование. Kubernetes в облаке умеет задействовать огромное количество ресурсов при необходимости. Например, ваше приложение обычно использует 10 ядер процессора, но иногда ему нужно 500. Автомасштабирование кластера Kubernetes позволит получить дополнительные ресурсы лишь на то время, когда они реально нужны приложению.

Разделение Storage и Compute-слоев. В Hadoop-кластере каждая нода является и Storage, и Compute. Если приложению нужно добавить больше ядер, то добавляется новую ноду, которая также добавляет и диски, за которые надо платить. Аналогично и обратное. Облако же позволяет разделить Storage и Compute-слои: Kubernetes выступает в роли Compute, а S3-хранилище в роли Storage.

В статье мы подробнее рассказываем о запуске Spark внутри Kubernetes, а также на реальном примере показываем как это сделать.
​​В NERSC включили самый быстрый в мире суперкомпьютер с искусственным интеллектом

👉 Суперкомпьютер Perlmutter будет помогать в различных исследованиях, в том числе собирать воедино самую большую трехмерную карту видимой Вселенной и исследовать субатомные взаимодействия для создания более совершенных батарей и биотоплива.

👉 Но его главной задачей будет помощь в изучении темной энергии, которую открыл нобелевский лауреат Сол Перлмуттер, в честь которого и назван компьютер. Он будет обрабатывать данные от камеры для спектроскопии темной энергии (DESI), которая может захватывать до 5000 галактик за одну экспозицию.

👉 Perlmutter состоит из 6159 графических процессоров NVIDIA A100 с тензорными ядрами и 20-кратным ускорением, что делает его крупнейшей системой на базе A100 в мире. Он обеспечивает производительность ИИ почти в четыре экзафлопса.

👉 Раньше было невозможно провести полностью атомистическое моделирование больших систем из-за низкой скорости вычислений. Считается, что способность Perlmutter объединить ИИ и высокопроизводительные вычисления приведет к прорывам во многих областях науки: от материаловедения и квантовой физики до климатических прогнозов и биологических исследований.

Источник на английском
Как бизнесу использовать всю мощь GPU

Изначально графические процессоры использовались только для отрисовки графики. Но со временем они научились быстро обрабатывать большие объемы данных, и теперь используются в машинном обучении, промышленном интернете вещей и сейсморазведке.

В статье рассказываем, как и в каких сферах GPU помогает бизнесу сегодня.
Как «Ашан» построил платформу для работы с Big Data в публичном облаке

Современный ритейл уже не может обходиться без построения прогнозных и рекомендательных систем на основе Big Data. Но при больших объемах данных работать на локальных мощностях неэффективно. Поэтому некоторые компании приходят к облачной Big Data-платформе как к инструменту, который дает простую масштабируемость и управляемость.

Александр Дорофеев, ex Head of Big Data в компании «Ашан Ритейл Россия» рассказывает, зачем компании потребовалась специализированная Big Data-платформа, почему выбрали именно публичное облако и каких результатов удалось добиться после миграции.
​​К 2025 году 70% компаний сместят акцент с Big Data на Small Data и Wide Data

Компания Gartner опубликовала прогноз, согласно которому 70% компаний через 4 года переориентируются на использование «малых» и «широких» данных.

🤔 В чем проблема Big Data. Пандемия сломала многие модели AI/ML — они не успевают адаптироваться к глобальным изменениям. Для обучения моделей нужно много новых данных, а компании не успевают их собирать — все очень быстро меняется. Так что ИИ в некоторых сферах сейчас может испытывать «голод», когда данных для обучения не хватает.

👍 Решение: Small Data и Wide Data. Чтобы исправить эту проблему, можно использовать «малые» и «широкие» данные. Small Data — это данные, которые достаточно малы для понимания человеком: результаты исследований и опросов, эксперименты и интервью. А Wide Data позволяет анализировать и объединять структурированные и неструктурированные данные из различных источников.

🔁 Комбинация Small Data и Wide Data может заменить Big Data. Благодаря комбинации двух подходов можно создавать более надежные модели для искусственного интеллекта и решить проблему недостатка данных для обучения.

Подробнее: https://clck.ru/Vxqrw
Что такое Apache Spark и как он используется в Big Data

В работе с Big Data используется много разных инструментов. Даже для одних и тех же задач существует несколько технологий, у каждой из которых свои особенности и недостатки. Чтобы помочь разобраться во всех этих инструментах, мы рассказали об одном из них — Apache Spark. Вы узнаете, что это такое и как он используется в Big Data.
​​На платформе Mail․ru Cloud Solutions появилась Arenadata DB Enterprise

📊 Arenadata DB — распределенная аналитическая СУБД, построенная на основе open source-проекта Greenplum. Она предназначена для хранения и обработки больших объемов информации и позволяет построить надежное и масштабируемое корпоративное хранилище данных.

😍 Вы можете получить бесплатный доступ к Arenadata DB в версии Enterprise на три месяца, для этого оставьте заявку на странице решения: https://clck.ru/W3D6Z

🏢 В Enterprise-версию Arenadata DB встроены коннекторы к ClickHouse и Kafka, которые также доступны на платформе Mail․ru Cloud Solutions.

Благодаря коннекторам интеграция с этими продуктами пройдет заметно проще в сравнении с открытой версией Greenplum. Бизнес получит возможность быстро создать полноценную платформу для работы с Big Data.

☁️ Arenadata DB доступна на платформе Mail․ru Cloud Solutions в виде PaaS-сервиса. Это означает, что администрирование полностью переходит под ответственность провайдера.

Специалисты Mail․ru Group и Arenadata проконсультируют вас по построению платформ для работы с большими данными и помогут с интеграцией с другими решениями, в том числе развернутыми в локальной инфраструктуре. Также пользователям облачной Enterprise-версии будут доступны расширенная поддержка и обучение от разработчика.
​​Бесплатный вебинар от Mail․ru Cloud Solutions «Выбираем облачные системы хранения для ваших сервисов»

Выбрать правильное хранилище для своего проекта в первый раз может быть сложно: непонятно, по каким критериям сравнивать, и как вписаться в бюджет. Чтобы не искать ответы на вопросы самостоятельно, приходите на наш бесплатный вебинар. На нем поговорим про общие подходы к выбору хранилища вне зависимости от реализации — в облаке или On-Premise и расскажем о системах хранения от Mail․ru Cloud Solutions.

— Какими бывают облачные системы хранения данных и чем они отличаются от физических хранилищ;
— Какие нюансы стоит учитывать, чтобы добиться нужного уровня стабильности приложений;
— Как повысить утилизацию облачных вычислений и разгрузить блочные хранилища с помощью объектного;
— Как выбрать систему хранения в зависимости от типа приложения;
— Какая система хранения подойдет для big data и микросервисов;
— Как правильно реализовать резервное копирование и не потерять данные.

Ждем вас во вторник, 27 июля, онлайн.
Начало в 17:00 по Москве.

👉 Регистрируйтесь по ссылке
DRS как средство оптимизации размещения виртуальных машин в облаке

Планировщик распределенных ресурсов (DRS) помогает выравнивать нагрузку на виртуальные машины, чтобы приложения всегда получали ресурсы в нужном объеме. На платформе Mail․ru Cloud Solutions используется собственная реализация механизма DRS. В статье рассказываем о базовых принципах, на которых построена работа нашего решения.
Что умеет Kubernetes, чего не умеет Docker

Статья для тех, кто знаком с Docker и не знаком с Kubernetes. Мы рассказываем, зачем нужен Kubernetes, как он работает с контейнерами и зачем вообще его использовать, если уже есть Docker.
​​ИИ нагружает IT-инфраструктуру до предела возможностей

👉 Forrester и Redis Labs провели опрос IT-менеджеров и ЛПР, ответственных за AI/ML-стратегию, о том, хватает ли им имеющихся систем хранения для машинного обучения в реальном времени. Оказалось, что нет и облаками проблему не решить.

👉 Некоторые ИИ-приложения требуют предоставления обучающих данных в режиме реального времени. 41% компаний накладывают свои модели ИИ на устаревшие архитектуры внешних систем хранения, которые не справляются с объемами данных и не соответствуют требованиям к ИИ.

👉 Облака при обучении ИИ в реальном времени дают задержку. Решить проблему поможет переход на достаточную внутреннюю память оборудования компании — хороший повод для модернизации.

👉 Респонденты считают, что переход к хранилищам в памяти позволит IT-командам повысить эффективность подготовки (49%), аналитики (46%) и защиты (46%) данных. Планируют использовать периферийные устройства для запуска своих моделей и ИИ как услугу (AIaaS).

Читать подробнее
​​Появилась новая модель зрелости DevOps 2021

Компания GitLab опубликовала результаты опроса более 4300 человек о стиле работы команд-разработчиков в условиях глобальной пандемии.

Три главные черты модели: улучшение качества кода, ускорение выхода приложений на рынок и безопасность. Теперь говорят о DevSecOps.

К новой модели привело резкое увеличение автоматизации — на 10% больше, чем в допандемийный период; она существенно снижает Time-to-Market. 56% членов операционных команд заявили, что их работа полностью или в основном автоматизирована. Почти 25% респондентов заявили о полной автоматизации тестирования — это на 13% больше.

Тестирование остается узким местом DevOps: участники ежегодных опросов GitLab считают наиболее вероятной причиной задержек выпуска продуктов на рынок именно его. Но улучшения есть, и происходят они с помощью ИИ и машинного обучения: 75% команд либо уже используют AI/ML и ботов для тестирования и проверки кода, либо планируют это делать — это на 41% команд больше, чем в 2020 году.

Сегодня разработчики хотят быстрее инвестировать в облако и в ИИ, который в прошлом году занял 8-е место в планах на будущее.

Читать подробнее
Запускаем проект в Kubernetes за 60 минут

Kubernetes довольно сложно внедрять, особенно если разворачивать кластер самостоятельно. Но мы знаем, как за 60 минут получить с нуля готовый кластер Kubernetes, отказоустойчивое приложение и CI/CD-конвейер в придачу.
​​SRE-инженеры говорят, что AIOps не оправдывает ожиданий

DevOps институт и VMware Tanzu опросили 300 SRE-инженеров из разных компаний, в том числе крупных и инновационных. Они попытались понять, какие преимущества AIOps используются в реальности.

🤖 AIOps (Artificial Intelligence for IT Operations) — набор инструментов на основе ИИ для работы с IT-инфраструктурой. Оказалось, что только 12% используют AIOps как повседневную часть своего набора инструментов для мониторинга, почти 40% — вообще им не пользуются.

📲 В основном, инструменты AIOps используют для конкретного цифрового продукта или услуги. Компании пытаются применить их для поддержки всего, что связано с этим продуктом: DNS, API, CDN, облачного мониторинга.

Возможно, более успешная тактика — применять AIOps не ко всем элементам цифровой службы, а только к одной, например, сосредоточиться только на DNS или на API. Так команды будут хорошо знать интерфейс и инструменты функции от разных поставщиков. И затем смогут использовать модель в других проектах, обеспечивая, например, более продвинутые DNS-AIOps.

Источник на английском
​​На платформе Mail․ru Cloud Solutions открыт доступ к Hadoop 3 как сервис на базе Arenadata

Дистрибутив Hadoop компании Arenadata станет одним из компонентов экосистемы облачных сервисов Mail․ru Cloud Solutions для работы с большими данными, которая ориентирована на потребности крупного бизнеса.

Hadoop как управляемый сервис позволяет быстро создавать корпоративные хранилища и озера данных. У Enterprise-версии больше возможностей по настройке политик доступа, есть автоматическое восстановление кластера и автомасштабирование. Также, только в дистрибутиве Arenadata версия Hadoop 3 теперь впервые доступна как сервис на российском облачном рынке.

В Mail․ru Cloud Solutions отвечают за доступность сервиса, занимаются его администрированием и обновлением. Плюс совместно со специалистами Arenadata консультируют по миграции и сложным архитектурным решениям.

Новые пользователи платформы Mail․ru Cloud Solutions могут запросить бесплатный тест сервиса в течение трех месяцев. Для этого оставьте заявку на странице
​​82% руководителей отделов Big Data не доверяют данным, с которыми работают

📲 Проблемы с качеством корпоративных данных препятствуют успеху проектов, основанных на этих данных, показало исследование Precisely и Corinium Global Intelligence.

💸 Для стратегического планирования, привлечения, удержания клиентов и развития бизнеса в целом требуются, чтобы данные были надежными и им можно было доверять. Надежность данных базируется на трех характеристиках: точности, согласованности и контексте.

🙈 82% опрошенных руководителей отделов Big Data сложно обеспечить постоянный поток надежных данных, которые подходят для принятия обоснованных бизнес-решений.

☹️ Команды по работе с данными тратят много времени на очистку и подготовку данных для анализа. При этом сотрудников с нужными навыками не хватает — 9 из 10 руководителей отделов пожаловались на недостаток кадров.

⛅️ Собирать, анализировать большие данные и извлекать из них пользу для бизнеса помогают облачные платформы. Из статьи можно узнать, как они работают и какие проблемы решают.

Источник на английском
​​Пройдет чемпионат по созданию навыков для голосового помощника Маруся

Началась регистрация на первый раунд IT-чемпионата Marusia Skill Lab по разработке навыков для голосового помощника экосистемы VK — Маруси. Заявки принимают от индивидуальных разработчиков и команд, в которых не более трех человек.

Формат чемпионата — тематические раунды, который будут проходить каждые два месяца. Для Маруси нужно будет придумать голосовые навыки, решающие определенные задачи: например, помощь людям с ограниченными возможностями.

Принять участие могут даже новички: навыки можно как разрабатывать с нуля, так и создавать с помощью конструктора. Можно предлагать сразу несколько навыков в одном раунде и соревноваться в любом количестве раундов.

В каждом раунде выберут три лучших навыка, их создатели получат призы. За первое место — 100 000 рублей и умную колонку Капсула, за второе — 50 000 рублей и Капсулу Мини, за третье — Капсулу Мини и 50 000 бонусных рублей на облачной платформе Mail.ru Cloud Solutions.

Подать заявку
DBaaS есть у многих облачных платформ, это удобный способ создания БД в несколько кликов. Но всем ли он подходит? Как на старте проекта не ошибиться с выбором СУБД и в каких случаях стоит использовать DBaaS?

Разбираемся в статье