Инфраструктура для data engineer S3
S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.
В этой статье рассказывается о технологии S3 со стороны дата-инженерии.
Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии
Читать: https://habr.com/ru/articles/827052/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.
В этой статье рассказывается о технологии S3 со стороны дата-инженерии.
Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии
Читать: https://habr.com/ru/articles/827052/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
👍4
Создание голосового ассистента на Python с классификацией пользователей на основе нейронных сетей (аналог FaceID)
Всем привет!
Возвращаюсь к теме применения нейронных сетей в личных целях. На этот раз будем запускать долгий проект, по созданию голосового ассистента (ГА). Создать свою Алису или Siri довольно просто, есть уже много статей на Хабр (и не только), которые подробно описывают основные принципы, но чтобы было действительно профессионально и интересно мы углубимся в эту тему и «прикрутим» нейронные сети к нашему ГА. И в первой части начнем с того, что научим нашего голосового ассистента распознавать человека, который в данный момент пользуется компьютером.
Такой проект отлично будет смотреть в любом портфолио, тут будет присутствовать, как и общее программирование на Python, так и взаимодействие с нейронными сетями. Я считаю, что любой начинающий или практикующий питонист (аналитик, специалист по машинному обучению) разобрав, поняв, доработав (нужное подчеркнуть) данный проект, отлично прокачает свои навыки.
Первую часть нашего большого проекта поделим на несколько этапов:
Читать: https://habr.com/ru/articles/827216/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Всем привет!
Возвращаюсь к теме применения нейронных сетей в личных целях. На этот раз будем запускать долгий проект, по созданию голосового ассистента (ГА). Создать свою Алису или Siri довольно просто, есть уже много статей на Хабр (и не только), которые подробно описывают основные принципы, но чтобы было действительно профессионально и интересно мы углубимся в эту тему и «прикрутим» нейронные сети к нашему ГА. И в первой части начнем с того, что научим нашего голосового ассистента распознавать человека, который в данный момент пользуется компьютером.
Такой проект отлично будет смотреть в любом портфолио, тут будет присутствовать, как и общее программирование на Python, так и взаимодействие с нейронными сетями. Я считаю, что любой начинающий или практикующий питонист (аналитик, специалист по машинному обучению) разобрав, поняв, доработав (нужное подчеркнуть) данный проект, отлично прокачает свои навыки.
Первую часть нашего большого проекта поделим на несколько этапов:
Читать: https://habr.com/ru/articles/827216/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Услуги Data Warehouse от ScienceSoft
ScienceSoft с 2005 года предоставляет услуги по дата-вахтингам: консультации, разработка, поддержка и миграция. Компания помогает клиентам объединять данные в эффективные DWH решения для улучшения аналитики и отчетности. Узнайте больше о возможностях и обратитесь за консультацией. ScienceSoft: Преимущества построения DWH решений
ScienceSoft помогает компаниям строить эффективные DWH решения, снижая проектные и эксплуатационные затраты до 80%. Примеры успешных проектов включают построение хранилищ данных для авиакосмической, автомобильной, банковской и других отраслей. Убедитесь сами в их эффективности! ScienceSoft помогает bioAffinity Technologies в диагностике рака легких
bioAffinity Technologies выбрала ScienceSoft для разработки ПО автоматизированного анализа данных для выявления рака легких. Проект потребовал внедрения сложной отраслевой методологии и интеграции с медицинскими системами, что ScienceSoft успешно реализовала благодаря глубокому пониманию лабораторного ПО.
Читать подробнее
___
Другие наши проекты
ScienceSoft с 2005 года предоставляет услуги по дата-вахтингам: консультации, разработка, поддержка и миграция. Компания помогает клиентам объединять данные в эффективные DWH решения для улучшения аналитики и отчетности. Узнайте больше о возможностях и обратитесь за консультацией. ScienceSoft: Преимущества построения DWH решений
ScienceSoft помогает компаниям строить эффективные DWH решения, снижая проектные и эксплуатационные затраты до 80%. Примеры успешных проектов включают построение хранилищ данных для авиакосмической, автомобильной, банковской и других отраслей. Убедитесь сами в их эффективности! ScienceSoft помогает bioAffinity Technologies в диагностике рака легких
bioAffinity Technologies выбрала ScienceSoft для разработки ПО автоматизированного анализа данных для выявления рака легких. Проект потребовал внедрения сложной отраслевой методологии и интеграции с медицинскими системами, что ScienceSoft успешно реализовала благодаря глубокому пониманию лабораторного ПО.
Читать подробнее
___
Другие наши проекты
Scnsoft
Data Warehouse Services – ScienceSoft
Rendering data warehouse services: design, development, and consulting. Cloud, on-premises, and hybrid solutions. High-performing DWH no matter what!
Предсказание выбытия насосов или как я вошел в data science
Всем привет, меня зовут Богдан. В ML я начал свое посвящение осенью 2023 года и за этот год успел поработать над таким неоднозначным проектом как "Предсказание выбытия насосов". На данную тему на Хабре уже есть несколько статей, которые я в своё время нашел и опыт которых я пытался перенести в свой учебный big data пет проект :)
ссылки на других ребят тут: ссылка 1 и ссылка 2
Хочу сказать что в данной статье не будет кода, она будет посвящена размышлениям, неудачам и иногда смешным попыткам решить данную проблему. Ну а также наверное где-то я буду кидать ссылки на совершенно разные вещи и немного похвастаюсь нашим финальным решением и тем, к чему меня привело участие во всем этом.
Если вы хотите посмотреть на то как это реализовано под капотом, то добро пожаловать в репу на гитхабе
Здесь расписано множество вещей, которые я успел попробовать пока работал над этой задачей в них входят как удачные решения, так и не очень.
Читать: https://habr.com/ru/articles/827242/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Всем привет, меня зовут Богдан. В ML я начал свое посвящение осенью 2023 года и за этот год успел поработать над таким неоднозначным проектом как "Предсказание выбытия насосов". На данную тему на Хабре уже есть несколько статей, которые я в своё время нашел и опыт которых я пытался перенести в свой учебный big data пет проект :)
ссылки на других ребят тут: ссылка 1 и ссылка 2
Хочу сказать что в данной статье не будет кода, она будет посвящена размышлениям, неудачам и иногда смешным попыткам решить данную проблему. Ну а также наверное где-то я буду кидать ссылки на совершенно разные вещи и немного похвастаюсь нашим финальным решением и тем, к чему меня привело участие во всем этом.
Если вы хотите посмотреть на то как это реализовано под капотом, то добро пожаловать в репу на гитхабе
Здесь расписано множество вещей, которые я успел попробовать пока работал над этой задачей в них входят как удачные решения, так и не очень.
Читать: https://habr.com/ru/articles/827242/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
7 способов выгрузить данные из 1С для бизнес-аналитики
При загрузке данных из 1С во внешнюю BI-платформу обычно возникают трудности. 1C – закрытая проприетарная система, подключиться к которой напрямую и просто выгрузить данные без нарушения лицензионной политики нельзя.
Как решить эту проблему?
Рассматриваем 7 самых популярных способов извлечения данных из 1С для бизнес-аналитики, их плюсы и минусы.
Читать: https://habr.com/ru/articles/827992/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
При загрузке данных из 1С во внешнюю BI-платформу обычно возникают трудности. 1C – закрытая проприетарная система, подключиться к которой напрямую и просто выгрузить данные без нарушения лицензионной политики нельзя.
Как решить эту проблему?
Рассматриваем 7 самых популярных способов извлечения данных из 1С для бизнес-аналитики, их плюсы и минусы.
Читать: https://habr.com/ru/articles/827992/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Играем в GOLF. Как обучить нейросети точно предсказывать геометрию молекул, используя малое число данных
Привет! Меня зовут Артем Цыпин, я исследователь в Институте искусственного интеллекта AIRI. Наша команда занимается применением глубокого обучения в науках о жизни. В сферу наших интересов входят такие задачи как поиск новых лекарственных препаратов, дизайн материалов, анализ растворимости и другие.
Как вы уже наверное догадались, мы не химики и молекулы в лаборатории не синтерзируем. Вместо этого мы учимся предсказывать их свойства на компьютерах, причём, привлекаем для этого нейросети — оказывается, так выходит сильно быстрее, чем с помощью традиционных квантовохимических пакетов.
Но, есть и обратная сторона медали: чтобы нейросеть точно предсказывала энергии молекул, ей нужно очень много данных. Однако, мы нашли способ, как сильно ослабить это ограничение, и сегодня я вам о нём расскажу.
Читать: https://habr.com/ru/companies/airi/articles/815113/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Привет! Меня зовут Артем Цыпин, я исследователь в Институте искусственного интеллекта AIRI. Наша команда занимается применением глубокого обучения в науках о жизни. В сферу наших интересов входят такие задачи как поиск новых лекарственных препаратов, дизайн материалов, анализ растворимости и другие.
Как вы уже наверное догадались, мы не химики и молекулы в лаборатории не синтерзируем. Вместо этого мы учимся предсказывать их свойства на компьютерах, причём, привлекаем для этого нейросети — оказывается, так выходит сильно быстрее, чем с помощью традиционных квантовохимических пакетов.
Но, есть и обратная сторона медали: чтобы нейросеть точно предсказывала энергии молекул, ей нужно очень много данных. Однако, мы нашли способ, как сильно ослабить это ограничение, и сегодня я вам о нём расскажу.
Читать: https://habr.com/ru/companies/airi/articles/815113/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Войти в IT. Продуктовая аналитика. Гайд для новичков. Часть 1
Привет, Хабр!
Я Денис, Продуктовый Аналитик с большим опытом, а также ментор. Через меня прошло большое количество людей, которым я помог по абсолютно разным вопросам: от помощи с резюме и подготовкой к собеседованию до полного проведения до первого оффера, я сам провёл большое количество собеседований. Я прошёл довольно тяжелый путь и попал в аналитику полностью с нуля, не проходя курсов от Яндекса, Скиллбокса и т.д. У меня ушло около 11 месяцев на весь путь, чтобы получить свой первый оффер в Т-Банк (Тинькофф), я самостоятельно изучал много нового материала, смотрел видео на ютубе, где-то искал бесплатные курсы и двигался к своей цели. Моя дорога была вовсе не прямой, я много чего изучал ненужного, где-то останавливался и сворачивал не туда. В этой статье я хочу дать подробный гайд, как стать продуктовым аналитиком.
Поехали!
Окунуться в продуктовую аналитику
Читать: https://habr.com/ru/articles/828626/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Привет, Хабр!
Я Денис, Продуктовый Аналитик с большим опытом, а также ментор. Через меня прошло большое количество людей, которым я помог по абсолютно разным вопросам: от помощи с резюме и подготовкой к собеседованию до полного проведения до первого оффера, я сам провёл большое количество собеседований. Я прошёл довольно тяжелый путь и попал в аналитику полностью с нуля, не проходя курсов от Яндекса, Скиллбокса и т.д. У меня ушло около 11 месяцев на весь путь, чтобы получить свой первый оффер в Т-Банк (Тинькофф), я самостоятельно изучал много нового материала, смотрел видео на ютубе, где-то искал бесплатные курсы и двигался к своей цели. Моя дорога была вовсе не прямой, я много чего изучал ненужного, где-то останавливался и сворачивал не туда. В этой статье я хочу дать подробный гайд, как стать продуктовым аналитиком.
Поехали!
Окунуться в продуктовую аналитику
Читать: https://habr.com/ru/articles/828626/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Анализ тенденций в области антифрода: как технологии проверки личности меняются и совершенствуются
В современном мире антифрод — это скрытый, но ключевой элемент защиты как для крупных бизнесов, так и для небольших компаний. Некоторые платформы активно внедряют системы антифрода для обеспечения безопасности и доверия своим пользователям.
Системы антифрода становятся все более сложными и интеллектуальными, основанными на анализе множества факторов из различных источников. Эти данные включают в себя информацию о взаимодействии пользователей с платформой, их поведении и целевых действиях. Однако, чтобы достичь такого уровня комплексности, эти системы прошли через множество изменений и улучшений.
Ключевым аспектом этих изменений являются технологии проверки личности. Эффективная проверка личности стала одним из основных инструментов предотвращения мошенничества. В этой статье мы рассмотрим эволюцию технологий проверки личности, их противодействие мошенничеству и различные виды таких технологий.
Читать: https://habr.com/ru/articles/828746/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
В современном мире антифрод — это скрытый, но ключевой элемент защиты как для крупных бизнесов, так и для небольших компаний. Некоторые платформы активно внедряют системы антифрода для обеспечения безопасности и доверия своим пользователям.
Системы антифрода становятся все более сложными и интеллектуальными, основанными на анализе множества факторов из различных источников. Эти данные включают в себя информацию о взаимодействии пользователей с платформой, их поведении и целевых действиях. Однако, чтобы достичь такого уровня комплексности, эти системы прошли через множество изменений и улучшений.
Ключевым аспектом этих изменений являются технологии проверки личности. Эффективная проверка личности стала одним из основных инструментов предотвращения мошенничества. В этой статье мы рассмотрим эволюцию технологий проверки личности, их противодействие мошенничеству и различные виды таких технологий.
Читать: https://habr.com/ru/articles/828746/
@big_data_analysis
___
Другие наши проекты | Чат аналитиков данных
Обновление Oracle Analytics Cloud: новые возможности в июле 2024
В июле 2024 Oracle Analytics Cloud получит обновление с новыми функциями. Улучшены AutoML модели, добавлены более продвинутые инструменты визуализации и ускорены опции загрузки данных. Эти изменения помогут пользователям быстрее принимать обоснованные решения на основе данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В июле 2024 Oracle Analytics Cloud получит обновление с новыми функциями. Улучшены AutoML модели, добавлены более продвинутые инструменты визуализации и ускорены опции загрузки данных. Эти изменения помогут пользователям быстрее принимать обоснованные решения на основе данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как мы делали умного помощника: Use Case внедрения умного чат-бота на основе подхода “Карта знаний” и LLM GigaChat
Привет, Habr! Меня зовут Александр Сулейкин, архитектор Big Data решений, к. т. н. и CEO ИТ-компании “ДЮК Технологии”. Совместно с нашим экспертом по внедрению LLM, Анатолием Лапковым, мы подготовили статью по теме внедрения умного помощника в крупной некоммерческой организации. Под капотом - базовая модель от Сбера GigaChat, однако вся обвязка и подход к решению задачи - наши собственные. И это то, о чем пойдет речь в статье.
Исходная проблема
Одна из главных проблем использования LLM - это галлюцинации, которые появляются в результате неверного трактования моделью тех или иных запросов. Одна из основных причин - это разбиение исходного текста на чанки, которое, зачастую, делается с ошибками или неточностями в силу разных причин. По данной теме и детальнее про процесс разбиения на чанки и особенности процесса можно почитать, например, в этой статье: https://habr.com/ru/articles/779526/. Здесь лишь отметим, что процесс на данный момент сложно управляем, когда требуется повысить точность поиска наиболее релевантных векторов в векторной базе.
В последних трендах для разбиения на чанки стали использовать те же LLM - подробнее о методах разбиения текста на чанки можно найти, например, тут: https://dzen.ru/a/Zj2O4Q5c_2j-id1H.
Однако, несмотря на все текущие достижения по теме нарезки чанков, проблема качества поиска информации в них все еще остается. Многие области знаний, в том числе и помощники технической поддержки пользователей для любой сферы - требуют более качественных и точных ответов модели.
Читать: https://habr.com/ru/articles/829022/
#ru
@big_data_analysis | Другие наши каналы
Привет, Habr! Меня зовут Александр Сулейкин, архитектор Big Data решений, к. т. н. и CEO ИТ-компании “ДЮК Технологии”. Совместно с нашим экспертом по внедрению LLM, Анатолием Лапковым, мы подготовили статью по теме внедрения умного помощника в крупной некоммерческой организации. Под капотом - базовая модель от Сбера GigaChat, однако вся обвязка и подход к решению задачи - наши собственные. И это то, о чем пойдет речь в статье.
Исходная проблема
Одна из главных проблем использования LLM - это галлюцинации, которые появляются в результате неверного трактования моделью тех или иных запросов. Одна из основных причин - это разбиение исходного текста на чанки, которое, зачастую, делается с ошибками или неточностями в силу разных причин. По данной теме и детальнее про процесс разбиения на чанки и особенности процесса можно почитать, например, в этой статье: https://habr.com/ru/articles/779526/. Здесь лишь отметим, что процесс на данный момент сложно управляем, когда требуется повысить точность поиска наиболее релевантных векторов в векторной базе.
В последних трендах для разбиения на чанки стали использовать те же LLM - подробнее о методах разбиения текста на чанки можно найти, например, тут: https://dzen.ru/a/Zj2O4Q5c_2j-id1H.
Однако, несмотря на все текущие достижения по теме нарезки чанков, проблема качества поиска информации в них все еще остается. Многие области знаний, в том числе и помощники технической поддержки пользователей для любой сферы - требуют более качественных и точных ответов модели.
Читать: https://habr.com/ru/articles/829022/
#ru
@big_data_analysis | Другие наши каналы
Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам
Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели.
Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.
Читать: https://habr.com/ru/articles/829170/
#ru
@big_data_analysis | Другие наши каналы
Будущие аналитики данных, BI-аналитики, ML-разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели.
Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.
Читать: https://habr.com/ru/articles/829170/
#ru
@big_data_analysis | Другие наши каналы
Кластеризация множества объектов, алгоритм K-means++
Поступила задача выполнения кластеризации множества товаров, по их размерам (двумерная плоскость). Значения распределения: ширина и высота.
После изучения вопроса, было найдено несколько подходящих алгоритмов, одним из самых распространенных оказался алгоритм под названием K-means, а так же его вариация K-means++. Плюсы, в отличии от классики, подошли более разумно к подбору начальных точек опоры, калибрующихся итерационно, до момента идентичности нескольких последовательных результатов.
Читать: https://habr.com/ru/articles/829202/
#ru
@big_data_analysis | Другие наши каналы
Поступила задача выполнения кластеризации множества товаров, по их размерам (двумерная плоскость). Значения распределения: ширина и высота.
После изучения вопроса, было найдено несколько подходящих алгоритмов, одним из самых распространенных оказался алгоритм под названием K-means, а так же его вариация K-means++. Плюсы, в отличии от классики, подошли более разумно к подбору начальных точек опоры, калибрующихся итерационно, до момента идентичности нескольких последовательных результатов.
Читать: https://habr.com/ru/articles/829202/
#ru
@big_data_analysis | Другие наши каналы
Бутстрап и доверительные интервалы: от теории к практике на Python
Привет!
Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.
В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).
Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.
Читать: https://habr.com/ru/articles/829336/
#ru
@big_data_analysis | Другие наши каналы
Привет!
Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.
В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).
Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.
Читать: https://habr.com/ru/articles/829336/
#ru
@big_data_analysis | Другие наши каналы
Data Vault: Мой опыт создания модели вручную
Как я делал Data Vault руками... или custom migrate a Data Vault c нотками Data Vault 2.0. Достаточно интересный способ провести время, но для начала углубимся в краткий экскурс.
Читать: https://habr.com/ru/articles/829338/
#ru
@big_data_analysis | Другие наши каналы
Как я делал Data Vault руками... или custom migrate a Data Vault c нотками Data Vault 2.0. Достаточно интересный способ провести время, но для начала углубимся в краткий экскурс.
Читать: https://habr.com/ru/articles/829338/
#ru
@big_data_analysis | Другие наши каналы
Различные типы проверок качества данных
Хотите узнать, какие проверки качества данных нужны вашему пайплайну и как их внедрить? В статье освещены основные виды проверок: выходные, входные и промежуточные DQ-чеклист, их важность и влияния на скорость и стоимость пайплайна. Узнайте больше на сайте!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Хотите узнать, какие проверки качества данных нужны вашему пайплайну и как их внедрить? В статье освещены основные виды проверок: выходные, входные и промежуточные DQ-чеклист, их важность и влияния на скорость и стоимость пайплайна. Узнайте больше на сайте!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Комбинаторы в ClickHouse
По мере работы приходилось часто сталкиваться с тем, что не все коллеги были знакомы с комбинаторами агрегатных функций в ClickHouse или же ограничивались использованием комбинатора -If. Это побудило меня написать статью. Надеюсь, она окажется для вас полезной.
Читать: https://habr.com/ru/companies/magnit/articles/825264/
#ru
@big_data_analysis | Другие наши каналы
По мере работы приходилось часто сталкиваться с тем, что не все коллеги были знакомы с комбинаторами агрегатных функций в ClickHouse или же ограничивались использованием комбинатора -If. Это побудило меня написать статью. Надеюсь, она окажется для вас полезной.
Читать: https://habr.com/ru/companies/magnit/articles/825264/
#ru
@big_data_analysis | Другие наши каналы
Недвижимость и ее инфляционная «защищенность» в реальных цифрах
Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!
Читать: https://habr.com/ru/articles/829832/
#ru
@big_data_analysis | Другие наши каналы
Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!
Читать: https://habr.com/ru/articles/829832/
#ru
@big_data_analysis | Другие наши каналы
«Школьный» курс по оптимизации Apache Spark
Руководство по Apache Spark не для начинающих.
В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.
В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.
Читать: https://habr.com/ru/companies/alfa/articles/829622/
#ru
@big_data_analysis | Другие наши каналы
Руководство по Apache Spark не для начинающих.
В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.
В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.
Читать: https://habr.com/ru/companies/alfa/articles/829622/
#ru
@big_data_analysis | Другие наши каналы
Всё что нужно знать про DuckDB
В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.
Читать: https://habr.com/ru/articles/829502/
#ru
@big_data_analysis | Другие наши каналы
В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.
Читать: https://habr.com/ru/articles/829502/
#ru
@big_data_analysis | Другие наши каналы
Системный аналитик (HR-Tech)
Компания: Гринатом — ИТ-генератор Росатома.
Опыт работы: от 3 лет
Полная занятость, удаленная работа/офис
Требуемый опыт:
— проектирование, документирование и интеграции (REST, SOAP, брокеры сообщений);
— понимание принципов построения микросервисной архитектуры ПО и опыт разработки Web-приложений;
— работа с agile/scrum методологией;
— специальные знания и опыт в работе с: BPMN, UML, SQL, OpenProject, Postman.
Будет преимуществом:
— опыт реализации и внедрения систем ECM, ERP, MES, CRM, HRM.
Условия:
— конкурентная ЗП и премии;
— оформление по ТК РФ;
— карьерный рост;
— ДМС со стоматологией;
— собственная платформа для обучения;
— конференции и тренинги.
Узнать подробнее и откликнуться можно по ссылке: https://tprg.ru/aQo0
Компания: Гринатом — ИТ-генератор Росатома.
Опыт работы: от 3 лет
Полная занятость, удаленная работа/офис
Требуемый опыт:
— проектирование, документирование и интеграции (REST, SOAP, брокеры сообщений);
— понимание принципов построения микросервисной архитектуры ПО и опыт разработки Web-приложений;
— работа с agile/scrum методологией;
— специальные знания и опыт в работе с: BPMN, UML, SQL, OpenProject, Postman.
Будет преимуществом:
— опыт реализации и внедрения систем ECM, ERP, MES, CRM, HRM.
Условия:
— конкурентная ЗП и премии;
— оформление по ТК РФ;
— карьерный рост;
— ДМС со стоматологией;
— собственная платформа для обучения;
— конференции и тренинги.
Узнать подробнее и откликнуться можно по ссылке: https://tprg.ru/aQo0