Сколько денег вы теряете на инцидентах
Привет! Меня зовут Женя, я аналитик данных в онлайн-школе Skyeng.
Недавно наши спецы на полтора часа уронили прод, и на этом мы потеряли… Кстати, а сколько?
Давайте разберёмся, зачем и как считать потери на инцидентах, можно ли делать это автоматически и как продать ценность расчётов бизнесу.
Читать: https://habr.com/ru/companies/skyeng/articles/832600/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Женя, я аналитик данных в онлайн-школе Skyeng.
Недавно наши спецы на полтора часа уронили прод, и на этом мы потеряли… Кстати, а сколько?
Давайте разберёмся, зачем и как считать потери на инцидентах, можно ли делать это автоматически и как продать ценность расчётов бизнесу.
Читать: https://habr.com/ru/companies/skyeng/articles/832600/
#ru
@big_data_analysis | Другие наши каналы
Потоковая обработка данных: анализ альтернативных решений
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Разбор SAM2 через колено в голову или революция в разметке видео
На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.
Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.
Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!
Читать: https://habr.com/ru/articles/833692/
#ru
@big_data_analysis | Другие наши каналы
На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.
Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.
Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!
Читать: https://habr.com/ru/articles/833692/
#ru
@big_data_analysis | Другие наши каналы
👍2
Искусственный интеллект в маркетинге: Революция, которая меняет правила игры
Искусственный интеллект революционизирует мир маркетинга, вводя новые правила игры, которые изменят саму суть взаимодействия с потребителями. Эксперты считают, что маркетологи пока могут обойтись без ИИ, но это лишь вопрос времени, когда он станет неотъемлемой частью их стратегий. Начнем погружение в тему с рассмотрения того, как ИИ применяют крупные компании и что изменится к 2030 году.
Читать: https://habr.com/ru/articles/833996/
#ru
@big_data_analysis | Другие наши каналы
Искусственный интеллект революционизирует мир маркетинга, вводя новые правила игры, которые изменят саму суть взаимодействия с потребителями. Эксперты считают, что маркетологи пока могут обойтись без ИИ, но это лишь вопрос времени, когда он станет неотъемлемой частью их стратегий. Начнем погружение в тему с рассмотрения того, как ИИ применяют крупные компании и что изменится к 2030 году.
Читать: https://habr.com/ru/articles/833996/
#ru
@big_data_analysis | Другие наши каналы
Полезные курсы по ИИ
Лето — прекрасное время для того, чтобы неспешно заниматься тем, что нам нравится. А что нам нравится? Конечно же, ИИ!
Мы хотим поделиться с вами бесплатными курсами по искусственному интеллекту и машинному обучению, которые идеально неспешно проходить летом. В следующий раз, когда будете смотреть очередной видосик на YouTube, подумайте про нашу подборочку!
1. Coursera “Deep Learning Specialization” (Специализация глубокое обучение)
Эта программа поможет понять возможности и проблемы глубокого обучения. Вы узнаете про архитектуры нейронных сетей, LSTM и трансформеры, освоите теоретические концепции и их применение, используя Python и TensorFlow, для решения задач распознавания речи, машинного перевода и др.
2. Coursera “ChatGPT Prompt Engineering for Developers” (Промт инжиниринг ChatGPT для разработчиков)
Маленький урок, в рамках которого вы научитесь быстро и эффективно создавать новые приложения с использованием LLM. Курс охватывает работу LLM, практики инженерии запросов и использование API LLM для различных задач. Знаете, кто ведет этот курс? Лиза Фулфорд (OpenAI) и Эндрю Нг (DeepLearningAI) —неплохой каст, да?
3. edX “HarvardX: Data Science: Machine Learning” (ГарвардХ: Наука о данных: Машинное обучение)
Крутой бесплатный курс от Гарвардского университета по машинному обучению — надо! Здесь вы пройдетесь по основам машинного обучения; узнаете, как выполнять кросс-валидацию; изучите несколько популярных алгоритмов машинного обучения и др.
4. Harvard University “Machine Learning and AI with Python” (Машинное обучение и ИИ на Python)
Читать: https://habr.com/ru/articles/834076/
#ru
@big_data_analysis | Другие наши каналы
Лето — прекрасное время для того, чтобы неспешно заниматься тем, что нам нравится. А что нам нравится? Конечно же, ИИ!
Мы хотим поделиться с вами бесплатными курсами по искусственному интеллекту и машинному обучению, которые идеально неспешно проходить летом. В следующий раз, когда будете смотреть очередной видосик на YouTube, подумайте про нашу подборочку!
1. Coursera “Deep Learning Specialization” (Специализация глубокое обучение)
Эта программа поможет понять возможности и проблемы глубокого обучения. Вы узнаете про архитектуры нейронных сетей, LSTM и трансформеры, освоите теоретические концепции и их применение, используя Python и TensorFlow, для решения задач распознавания речи, машинного перевода и др.
2. Coursera “ChatGPT Prompt Engineering for Developers” (Промт инжиниринг ChatGPT для разработчиков)
Маленький урок, в рамках которого вы научитесь быстро и эффективно создавать новые приложения с использованием LLM. Курс охватывает работу LLM, практики инженерии запросов и использование API LLM для различных задач. Знаете, кто ведет этот курс? Лиза Фулфорд (OpenAI) и Эндрю Нг (DeepLearningAI) —неплохой каст, да?
3. edX “HarvardX: Data Science: Machine Learning” (ГарвардХ: Наука о данных: Машинное обучение)
Крутой бесплатный курс от Гарвардского университета по машинному обучению — надо! Здесь вы пройдетесь по основам машинного обучения; узнаете, как выполнять кросс-валидацию; изучите несколько популярных алгоритмов машинного обучения и др.
4. Harvard University “Machine Learning and AI with Python” (Машинное обучение и ИИ на Python)
Читать: https://habr.com/ru/articles/834076/
#ru
@big_data_analysis | Другие наши каналы
Создание аналога Google Photos на собственном сервере
Создание собственного облачного хранилища с автоматическим менеджером фотографий.
Изучение опенсорс софта, нацеленного на автоматический менеджинг фотографий, сравнение софта между собой, установка на тестовый сервер, просмотр с разных устройств.
Читать: https://habr.com/ru/articles/834374/
#ru
@big_data_analysis | Другие наши каналы
Создание собственного облачного хранилища с автоматическим менеджером фотографий.
Изучение опенсорс софта, нацеленного на автоматический менеджинг фотографий, сравнение софта между собой, установка на тестовый сервер, просмотр с разных устройств.
Читать: https://habr.com/ru/articles/834374/
#ru
@big_data_analysis | Другие наши каналы
Анализ больших данных и «умный» компас для выбора локаций магазинов
Совместная магистратура по искусственному интеллекту ИТМО и Napoleon IT – AI Talent Hub в сентябре 2023 года запустила лабораторию по искусственному интеллекту c компанией X5 Tech на базе института. В течение 9 месяцев молодые ML-инженеры работали в одной команде с опытными экспертами X5 Tech и представили несколько новых продуктов для одного из крупнейших ритейлеров страны — X5 Group. По итогам стажировки, лучшие магистранты стали полноценными сотрудниками X5 Tech.
В рамках объединенной AI-лаборатории X5 Tech и AI Talent Hub разработали MVP системы с использованием моделей машинного обучения для внедрения в процессы ритейлера X5 Group.
Первый продукт, который создала команда, стал сервис с RAG (генерация с расширенным поиском). Сервис включает в себя генерацию ответа пользователям с учетом дополнительной релевантной информации из больших текстовых документов. Результат анализа больших данных формируется на основе технологии машинного обучения.
«Специалисты AI-лаборатории улучшили некоторые бизнес-метрики на 40% и встроили алгоритм RAG в нашу систему. Обновленная система позволит ускорить проверку актуальности информации в больших системах и автоматизировать QA-системы», — пояснил руководитель команды по разработке генеративных сетей в Х5 Group Мичил Егоров.
Вторым продуктом, который разработала объединенная команда, стала платформа Shop Placement Platform. Она позволяет прогнозировать выручку в определенной локации на основе геоданных и информации о продажах. Модель, наподобие компаса, помогает определить оптимальное местоположение новых магазинов для X5 Group, эффективно учитывая риски при планировании торговых точек.
Читать: https://habr.com/ru/articles/834504/
#ru
@big_data_analysis | Другие наши каналы
Совместная магистратура по искусственному интеллекту ИТМО и Napoleon IT – AI Talent Hub в сентябре 2023 года запустила лабораторию по искусственному интеллекту c компанией X5 Tech на базе института. В течение 9 месяцев молодые ML-инженеры работали в одной команде с опытными экспертами X5 Tech и представили несколько новых продуктов для одного из крупнейших ритейлеров страны — X5 Group. По итогам стажировки, лучшие магистранты стали полноценными сотрудниками X5 Tech.
В рамках объединенной AI-лаборатории X5 Tech и AI Talent Hub разработали MVP системы с использованием моделей машинного обучения для внедрения в процессы ритейлера X5 Group.
Первый продукт, который создала команда, стал сервис с RAG (генерация с расширенным поиском). Сервис включает в себя генерацию ответа пользователям с учетом дополнительной релевантной информации из больших текстовых документов. Результат анализа больших данных формируется на основе технологии машинного обучения.
«Специалисты AI-лаборатории улучшили некоторые бизнес-метрики на 40% и встроили алгоритм RAG в нашу систему. Обновленная система позволит ускорить проверку актуальности информации в больших системах и автоматизировать QA-системы», — пояснил руководитель команды по разработке генеративных сетей в Х5 Group Мичил Егоров.
Вторым продуктом, который разработала объединенная команда, стала платформа Shop Placement Platform. Она позволяет прогнозировать выручку в определенной локации на основе геоданных и информации о продажах. Модель, наподобие компаса, помогает определить оптимальное местоположение новых магазинов для X5 Group, эффективно учитывая риски при планировании торговых точек.
Читать: https://habr.com/ru/articles/834504/
#ru
@big_data_analysis | Другие наши каналы
👍3
Как правильно использовать большие данные: строим хранилища на MPP-СУБД
Немного контекста.
· Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики.
· Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.
· Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.
Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.
Читать: https://habr.com/ru/companies/mws/articles/834246/
#ru
@big_data_analysis | Другие наши каналы
Немного контекста.
· Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики.
· Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.
· Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.
Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.
Читать: https://habr.com/ru/companies/mws/articles/834246/
#ru
@big_data_analysis | Другие наши каналы
Уроки, извлеченные из масштабирования до многотерабайтных датасетов
В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.
Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/834506/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.
Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/834506/
#ru
@big_data_analysis | Другие наши каналы
Как настроить инкрементальную перезагрузку
В статье рассматриваются основные шаги по настройке инкрементальной перезагрузки данных. Детально объясняются все этапы процесса, что позволяет улучшить производительность и уменьшить время на обновление информации. Узнайте больше о тонкостях этой важной процедуры!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассматриваются основные шаги по настройке инкрементальной перезагрузки данных. Детально объясняются все этапы процесса, что позволяет улучшить производительность и уменьшить время на обновление информации. Узнайте больше о тонкостях этой важной процедуры!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Incrementally Reload Your Datasets
This blog serves as a guide to configure incremental reload.
Технологии в агрокомплексе: мастера, подмастерье и искусственный интеллект
Стартовал третий сезон нашего подкаста Data Therapy, в котором мы будем обсуждать практические кейсы применения ИИ и больших данных в конкретных сферах бизнеса. В первом эпизоде нового сезона мы говорим о применении искусственного интеллекта в сельском хозяйстве с экспертами из «Русагро», «Русагро Тех» и Х5 Tech.
Читать: https://habr.com/ru/companies/X5Tech/articles/834574/
#ru
@big_data_analysis | Другие наши каналы
Стартовал третий сезон нашего подкаста Data Therapy, в котором мы будем обсуждать практические кейсы применения ИИ и больших данных в конкретных сферах бизнеса. В первом эпизоде нового сезона мы говорим о применении искусственного интеллекта в сельском хозяйстве с экспертами из «Русагро», «Русагро Тех» и Х5 Tech.
Читать: https://habr.com/ru/companies/X5Tech/articles/834574/
#ru
@big_data_analysis | Другие наши каналы
Репликация: создание кластера, подключение, изменения настроек таблицы в кластере
Привет, я Майк.
Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками.
Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:
Читать: https://habr.com/ru/articles/834980/
#ru
@big_data_analysis | Другие наши каналы
Привет, я Майк.
Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками.
Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:
Читать: https://habr.com/ru/articles/834980/
#ru
@big_data_analysis | Другие наши каналы
Конспект-обзор на статьи по Recsys+Transformers
Конспект-обзор на статьи по Recsys+Transformers
Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.
Читать: https://habr.com/ru/articles/835380/
#ru
@big_data_analysis | Другие наши каналы
Конспект-обзор на статьи по Recsys+Transformers
Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.
Читать: https://habr.com/ru/articles/835380/
#ru
@big_data_analysis | Другие наши каналы
Как дообучать LLM с помощью Supervised Fine-Tuning
Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.
Этапы обучения LLM
На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать: https://habr.com/ru/articles/830396/
#ru
@big_data_analysis | Другие наши каналы
Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.
Этапы обучения LLM
На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать: https://habr.com/ru/articles/830396/
#ru
@big_data_analysis | Другие наши каналы
Как быстро и эффективно работать с большими JSON-файлами
Как работать с большими JSON файлами. Показываем основные способы работы с Big JSON и возможные проблемы. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Как быстро и эффективно работать с большими JSON-файлами»
#ru
@big_data_analysis | Другие наши каналы
Как работать с большими JSON файлами. Показываем основные способы работы с Big JSON и возможные проблемы. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Как быстро и эффективно работать с большими JSON-файлами»
#ru
@big_data_analysis | Другие наши каналы
Как построить и развернуть ML-пайплайн в Яндекс Облаке. Практическое руководство
В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.
Читать: https://habr.com/ru/companies/lanit/articles/830446/
#ru
@big_data_analysis | Другие наши каналы
В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.
Читать: https://habr.com/ru/companies/lanit/articles/830446/
#ru
@big_data_analysis | Другие наши каналы
Как подготовиться к собеседованию на инженера данных
Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
👍1
You Only Look Once… But it Sees Everything! Обзор YOLO детекторов. Часть 1
Вступление
Детекция объектов в реальном времени является важнейшей задачей и охватывает большое количество областей, таких как беспилотные транспортные средства, робототехника, видеонаблюдение, дополненная реальность и многие другие. Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.
Читать: https://habr.com/ru/articles/836306/
#ru
@big_data_analysis | Другие наши каналы
Вступление
Детекция объектов в реальном времени является важнейшей задачей и охватывает большое количество областей, таких как беспилотные транспортные средства, робототехника, видеонаблюдение, дополненная реальность и многие другие. Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.
Читать: https://habr.com/ru/articles/836306/
#ru
@big_data_analysis | Другие наши каналы
Data Lineage из топора
Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.
Разные самопальные data lineages
Читать: https://habr.com/ru/articles/836648/
#ru
@big_data_analysis | Другие наши каналы
Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.
Разные самопальные data lineages
Читать: https://habr.com/ru/articles/836648/
#ru
@big_data_analysis | Другие наши каналы
Инфраструктура для data engineer Kafka
В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".
Рекомендуется всем кто не знает что такое Kafka.
Читать: https://habr.com/ru/articles/836302/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".
Рекомендуется всем кто не знает что такое Kafka.
Читать: https://habr.com/ru/articles/836302/
#ru
@big_data_analysis | Другие наши каналы
Делаем своего AI стилиста на python
Привет, чемпионы!
AI решение, которые я разберу в этой статье - после запуска в телеграм привлекло почти органически внимание 70 000 новых пользователей за месяц, а всего было произведено 400 000 генераций. Разбираю, как реализовал сама ML модель. Погнали!
Переодеть коллег
Читать: https://habr.com/ru/articles/832850/
#ru
@big_data_analysis | Другие наши каналы
Привет, чемпионы!
AI решение, которые я разберу в этой статье - после запуска в телеграм привлекло почти органически внимание 70 000 новых пользователей за месяц, а всего было произведено 400 000 генераций. Разбираю, как реализовал сама ML модель. Погнали!
Переодеть коллег
Читать: https://habr.com/ru/articles/832850/
#ru
@big_data_analysis | Другие наши каналы