Куда развиваться системным аналитикам в 2024 году
Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы
Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».
#советы
Сегодня System Analyst переводит ТЗ с «бизнесового» на «разработческий», пишет спецификации в .yaml / .json и даже делает коммиты. Можно ли теперь эту профессию рассматривать как способ вкатиться в разработку? Ведь на рынке от кандидата ожидают понимания архитектуры, API и умения создавать SQL-запросы
Привычный System Analysis может показаться лишним в связи с расцветом гибких методологий. Что ждет профессию в 2024 году? Разбираемся вместе с подкастом Газпромбанка «Техно. Логично».
#советы
Python streaming (spark+kafka)
В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ
Читать: https://habr.com/ru/articles/806287/
@big_data_analysis
В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ
Читать: https://habr.com/ru/articles/806287/
@big_data_analysis
Ликбез по методологиям проектирования хранилищ данных
Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.
Рассмотрим сильные и слабые стороны самых популярных методологий.
Читать: https://habr.com/ru/articles/806347/
@big_data_analysis
Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.
Рассмотрим сильные и слабые стороны самых популярных методологий.
Читать: https://habr.com/ru/articles/806347/
@big_data_analysis
Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики
В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.
Читать: https://habr.com/ru/companies/productstar/articles/806529/
@big_data_analysis
В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.
Читать: https://habr.com/ru/companies/productstar/articles/806529/
@big_data_analysis
👍4❤2
Более 250 бесплатных курсов и ресурсов по аналитике
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать.
Читать: https://habr.com/ru/articles/806753/
@big_data_analysis
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать.
Читать: https://habr.com/ru/articles/806753/
@big_data_analysis
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Давайте смотреть датасет
Читать: https://habr.com/ru/articles/806857/
@big_data_analysis
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Давайте смотреть датасет
Читать: https://habr.com/ru/articles/806857/
@big_data_analysis
Геоаналитика в FineBI действии: разбираем кейс Tele2 и подключаем “Яндекс”, Google и другие карты
Привет, любознательные друзья данных!
Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами Даша Путешественница Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*.
Читать: https://habr.com/ru/companies/glowbyte/articles/807329/
@big_data_analysis
Привет, любознательные друзья данных!
Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами Даша Путешественница Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*.
Читать: https://habr.com/ru/companies/glowbyte/articles/807329/
@big_data_analysis
Spark. План запросов на примерах
Всем привет!
В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.
Читать: https://habr.com/ru/articles/807421/
@big_data_analysis
Всем привет!
В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.
Читать: https://habr.com/ru/articles/807421/
@big_data_analysis
Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU
С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.
Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.
Читать: https://habr.com/ru/companies/hostkey/articles/808251/
@big_data_analysis
С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.
Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.
Читать: https://habr.com/ru/companies/hostkey/articles/808251/
@big_data_analysis
Predictive Analytics — все, что нужно знать (обзор ключевых моментов)
Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»
Читать: https://habr.com/ru/articles/808423/
@big_data_analysis
Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»
Читать: https://habr.com/ru/articles/808423/
@big_data_analysis
Восхитительная теория [якорных] баз данных от Ларса Рённбека
Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...
Читать: https://habr.com/ru/articles/808191/
@big_data_analysis
Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...
Читать: https://habr.com/ru/articles/808191/
@big_data_analysis
Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]
В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в выражения SQL поддержку функций. Например,
— тут у нас функции
Вообще, кроме общей математики, в любом уважающем себя диалекте SQL как минимум должны быть функции для манипуляций с датой/временем, работы со строками и массивами. Их мы тоже обязательно добавим. В classpath, чтобы движок мог их оттуда подгружать. До кучи, ещё и операторы типа
Предупреждение о сложности материала
Уровень сложности данной серии статей в целом высокий. Базовые понятия в тексте совсем не объясняются, да и продвинутые далеко не все. Однако, эта часть несколько проще для ознакомления, чем предыдущие. Но всё равно, понимать её будет легче, если вы уже пробежались по остальным хотя бы по диагонали.
Читать: https://habr.com/ru/articles/808483/
@big_data_analysis
В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
В данной части поговорим о том, как добавить в выражения SQL поддержку функций. Например,
SELECT
MAX(score1, score2, score3, score4, score5) AS max_score,
MIN(score1, score2, score3, score4, score5) AS min_score,
MEDIAN(score1, score2, score3, score4, score5) AS median_score,
score1 + score2 + score3 + score4 + score5 AS score_sum
FROM raw_scores INTO final_scores
WHERE ABS(score1 + score2 + score3 + score4 + score5) > $score_margin;
— тут у нас функции
MAX
, MIN
и MEDIAN
принимают любое количество аргументов типа Double
и возвращают Double
, а ABS
только один такой аргумент.Вообще, кроме общей математики, в любом уважающем себя диалекте SQL как минимум должны быть функции для манипуляций с датой/временем, работы со строками и массивами. Их мы тоже обязательно добавим. В classpath, чтобы движок мог их оттуда подгружать. До кучи, ещё и операторы типа
>=
или LIKE
, которые у нас уже были реализованы, но хардкодом, сделаем такими же подключаемыми.Предупреждение о сложности материала
Уровень сложности данной серии статей в целом высокий. Базовые понятия в тексте совсем не объясняются, да и продвинутые далеко не все. Однако, эта часть несколько проще для ознакомления, чем предыдущие. Но всё равно, понимать её будет легче, если вы уже пробежались по остальным хотя бы по диагонали.
Читать: https://habr.com/ru/articles/808483/
@big_data_analysis
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).
В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.
В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.
Читать: https://habr.com/ru/companies/megafon/articles/808585/
@big_data_analysis
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).
В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.
В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.
Читать: https://habr.com/ru/companies/megafon/articles/808585/
@big_data_analysis
Embedding Analytics for the Win
Fans love their teams and get a thrill from feeling close to the action. Sports data helps them engage with their favorite players and teams, getting them closer to the action – even when they’re not at the game. As fans become more engaged with sports data, they feel more connected to the success of the players and teams they support.
Read: https://blogs.oracle.com/analytics/post/embedding-analytics-for-the-win
@big_data_analysis
Fans love their teams and get a thrill from feeling close to the action. Sports data helps them engage with their favorite players and teams, getting them closer to the action – even when they’re not at the game. As fans become more engaged with sports data, they feel more connected to the success of the players and teams they support.
Read: https://blogs.oracle.com/analytics/post/embedding-analytics-for-the-win
@big_data_analysis
Oracle
Embedding Analytics for the Win
Fans love their teams and get a thrill from feeling close to the action. Sports data helps them engage with their favorite players and teams, getting them closer to the action – even when they’re not at the game. As fans become more engaged with sports…
Разработка программного средства по обработке данных фонокардиограммы
Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).
Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.
ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].
Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).
Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.
Читать: https://habr.com/ru/articles/809095/
@big_data_analysis
Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).
Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.
ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].
Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).
Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.
Читать: https://habr.com/ru/articles/809095/
@big_data_analysis
ГАЙД по python стеку для Data Science инженеров
ГАЙД по python стеку для Data Science инженеров. NumPy, Pandas, SciPy, Matplotlib. В данной статье рассмотрим python стек для работы в Data Science
Читать: https://habr.com/ru/articles/809181/
@big_data_analysis
ГАЙД по python стеку для Data Science инженеров. NumPy, Pandas, SciPy, Matplotlib. В данной статье рассмотрим python стек для работы в Data Science
Читать: https://habr.com/ru/articles/809181/
@big_data_analysis
Как настроить Source коннекторы Kafka Connect для оптимизации пропускной способности
Привет, Хабр! Доводилось ли вам тратить долгие бесплодные часы в попытке настроить коннекторы Kafka Connect, чтобы добиться адекватного потока данных? Мне, к сожалению, доводилось. Представляю вашему вниманию перевод статьи "How to Tune Kafka Connect Source Connectors to Optimize Throughput" автора Catalin Pop. Это прекрасное руководство от Confluent, где подробно и с примером описывается, как настроить Source коннекторы.
Читать: https://habr.com/ru/articles/809191/
@big_data_analysis
Привет, Хабр! Доводилось ли вам тратить долгие бесплодные часы в попытке настроить коннекторы Kafka Connect, чтобы добиться адекватного потока данных? Мне, к сожалению, доводилось. Представляю вашему вниманию перевод статьи "How to Tune Kafka Connect Source Connectors to Optimize Throughput" автора Catalin Pop. Это прекрасное руководство от Confluent, где подробно и с примером описывается, как настроить Source коннекторы.
Читать: https://habr.com/ru/articles/809191/
@big_data_analysis
Гайд на собеседования
Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание?
Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.
Давайте начинать!
Читать: https://habr.com/ru/articles/809385/
@big_data_analysis
Привет, Хабр! Я Денис, ведущий продуктовый аналитик из МТС, ex-Tinkoff. Я относительно недавно попал в МТС, но много чего уже получилось сделать! Сегодня у меня было первое собеседование, которое я проводил вместе со своим коллегой Алексеем. И после собеседования у меня возникла потрясающая мысль: почему бы не рассказать, как облегчить свою жизнь на собеседованиях и на что мы, как интервьюеры, обращаем внимание?
Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.
Давайте начинать!
Читать: https://habr.com/ru/articles/809385/
@big_data_analysis
Языковой процессор LPU, GenAI в FinOps и инструменты для анализа данных
Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/809417/
@big_data_analysis
Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/809417/
@big_data_analysis
👍1
Почему решения принимаются не на основе дашбордов?
Чем похожи дашборд и рекламный баннер?
У нас упала конверсия из просмотров в клики! У нас не продаются товары! Два йогурта по цене одного! Оба привлекают внимание, содержат и картинки, и текст и реже, чем хотелось бы, приводят к действию.
Читать: https://habr.com/ru/articles/809449/
@big_data_analysis
Чем похожи дашборд и рекламный баннер?
У нас упала конверсия из просмотров в клики! У нас не продаются товары! Два йогурта по цене одного! Оба привлекают внимание, содержат и картинки, и текст и реже, чем хотелось бы, приводят к действию.
Читать: https://habr.com/ru/articles/809449/
@big_data_analysis
❤1
Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@big_data_analysis
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@big_data_analysis