Что делают пацаны вечером?
Правильно, изучают список рекомендуемой литературы по статистике, линалу и матану😮
На самом деле, достаточно прикольно, видел уже до этого подобные материалы...
Тут еще и легендарная "Статистика и котики" со своими плюсами и минусами. В общем, отвал всего случился, считай посмотрел несколько серий мультфильма👀
Мое мнение, что такие книги на основе образов и красивых иллюстраций позволяют быть в контексте (научиться разговаривать на одном языке с людьми из сферы), но зачастую тут нет глубоких знаний, все на поверхности😔
Если вы когда-нибудь учились по книгам с интересными иллюстрациями — поделитесь в комментариях, какие именно это были издания. Помогли ли они вам разобраться в сложной теме или стали тем самым толчком к пониманию того, что раньше казалось непосильным?❤️
На картинке книги авторов: Син Такахаси и Иноуэ Ироха
А что вы думаете по поводу таких материалов? Как к ним относитесь?
🐳 — По таким книжкам топ учиться!
🔥 — Лучше классическая литература!
❤️ — Лучше вообще по видео!
@zasql_python
Правильно, изучают список рекомендуемой литературы по статистике, линалу и матану
На самом деле, достаточно прикольно, видел уже до этого подобные материалы...
Тут еще и легендарная "Статистика и котики" со своими плюсами и минусами. В общем, отвал всего случился, считай посмотрел несколько серий мультфильма
Мое мнение, что такие книги на основе образов и красивых иллюстраций позволяют быть в контексте (научиться разговаривать на одном языке с людьми из сферы), но зачастую тут нет глубоких знаний, все на поверхности
Если вы когда-нибудь учились по книгам с интересными иллюстрациями — поделитесь в комментариях, какие именно это были издания. Помогли ли они вам разобраться в сложной теме или стали тем самым толчком к пониманию того, что раньше казалось непосильным?
А что вы думаете по поводу таких материалов? Как к ним относитесь?
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳32🔥19❤17 1
Многие аналитики знают формулировку, хотя встречаются кейсы, когда люди путают понятия, предыдущий пост
p-value — это вероятность получить наблюдаемое или более экстремальное значение статистики, если нулевая гипотеза верна (не отклонена).
p-value — это вероятность, что нулевая гипотеза верна
p-value = вероятность, что результаты случайны
Чем меньше p-value, тем больше вероятность, что гипотеза H₁
❓ Мы не знаем, где именно начинается отклонение от нормы, поэтому смотрим не только на наш результат, а и на все, которые встречаются ещё реже и сильнее отличаются. Так мы понимаем, насколько результат действительно выбивается из обычных случаев, а не просто совпадение.
Самый простой вариант: это показать, что монетка нечестная (например, мы подбрасывали 10 раз монетку, 9 раз выпал орел).
H₀ (нулевая гипотеза) — Монета честная, то есть орёл и решка выпадают с равной вероятностью 50/50. p = 1/2
H₁ (альтернативная гипотеза для орлов), можно проверить одностороннюю гипотезу , тогда p > 1/2 или p != 1/2 (двустороннюю)
В этом случае биномиальное распределение описывает все возможные исходы количества орлов и решек при подбрасывании монеты.
P(X = k) = Cn^k * p^k * (1-p)^(n-k)
Эта формула показывает вероятность того, что при n подбрасываниях монеты орёл выпадет ровно k раз.
где:
n — количество подбрасываний (в нашем случае 10),
k — количество орлов (успехов),
p — вероятность орла (для честной монеты 0.5),
Cn^k (сочетания из n по k) — число способов выбрать, в каких бросках выпадет орёл.
Считаем P(X=9), P(X=10) и складываем их между собой.
Получаем p-value ~ 0.01074
На уровне значимости 0.05 мы можем сказать, что монетка нечестная, на уровне значимости 0.01 результат на грани, но мы не можем отвергнуть нулевую гипотезу.
Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
1🐳66❤22🔥8🎃1
Заскуль питона (Data Science)
Всех с субботой!
Ставьте🐳 , если нужно сделать похожий Colab с методами по 🆎, делитесь как провели эту неделю в комментариях (можно мемы 😁 )
Го наберём 200🐳
UPD: большинство методов на🐍
Ставьте
Го наберём 200
UPD: большинство методов на
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳229🔥8❤5⚡1
Всем привет! Этот пост будет скорее обсуждением, интересно услышать ваше мнение.
Встречал команды, которые работают без спринтов, с недельным, двухнедельным, месячным и т.д. спринтом.
а) Спринт отсутствует
б) Недельный спринт
в) Двухнедельный спринт
А как вам оптимальней работать? Какой срок для вас является самым лучшим? Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳24❤6🔥3
В этой статье
Для решения простых задач используется аналитика (быстрая выгрузка, метрика в срезе и др.). Конечно, большую часть данных можно получить из имеющейся отчетности, но что, если нужно ответ узнать сразу? Вместо того, чтобы лезть по сотням дашбордов, где периодически данные могут не биться (так как сборка осуществляется по-разному).
Пишете в бота: «Средний чек Москва, 2025 vs 2024, динамика в%» → Через 15 секунд получаете точный ответ с трендом.
1. Запрос пользователя, промпт с описанием таблицы
2. Text2SQL (LLM)
3. Определение типа визуализации.
4. Бекенд -> БД (забрать данные)
5. Чат
Я начал потихоньку реализовывать эту логику на имеющихся витринах, но столкнулся с тем, что периодически модель может галлюцинировать (как это указано в статье, выдавая несуществующие колонки), ну и возникают дополнительные сложности, о которых ниже.
Наша цель — не просто построить вопросно-ответную систему, а создать полноценного ассистента, который учитывает контекст и историю диалога. Например, если после первого запроса пользователь пишет: «А сгруппируй не по кластерам, а по магазинам», нам необходимо объединить предыдущие сообщения с новым уточнением. Для этого мы получаем историю из backend, определяем, является ли текущий запрос продолжением, и, если да — формируем краткое суммарное описание диалога. В противном случае передаём исходный запрос без изменений.
1. Написать логику сборки метрик
2. Учитывать контекст предыдущих сообщений
3. Обработка естественного языка и неоднозначных формулировок
4. Борьба с галлюцинациями
5. Оптимизация скорости и ресурсов
6. Работа с большими схемами данных
7. Интерпретация результата
8. Валидация качества работы модели. В качестве метрики использовали (LLM + EX) / 2 для сравнения нескольких моделей.
Метрика рассчитывается через попарное сравнение отсортированных колонок. У этого подхода есть ограничения: если, например, модель вывела долю вместо процента — получим False Negative. Если пользователь сформулировал общий запрос, допускающий несколько корректных SQL-вариантов, то результат также будет считаться ошибкой.
LLM. Совпадает ли сгенерированный SQL с эталонным по логике запроса.
EX (Execution Accuracy). Совпадает ли результат выполнения запроса (таблица/агрегация) с заранее написанным ответом.
DeepSeek R1 (0.765) — лидер по совокупному качеству: наиболее точные и осмысленные SQL-запросы.
Qwen 2.5-72B (0.425) — уверенное второе место, компромисс между качеством и ресурсами.
SQLCoder-8B (0.185) — слабый результат: частые галлюцинации и ошибки исполнения.
В итоге команда X5 остановилась на Qwen 2.5-72B.
1. Поддержка нескольких таблиц
2. Поддержка запросов с джойнами
3. Внедрение классификации запросов пользователей по сложности
4. Дообучение собственной модели
5. Замена LLM на более лёгкие модели
6. Работа с произвольными Excel-файлами
7. Schema-linking на основе RAG’a
Также, при выборе модели, подходящей под использование на том или ином шаге мы учитываем сложность задачи - например, для перевода технических названий колонок на русский язык с учетом контекста запроса мы выбрали использование более легковесной модели: Qwen3-4B, чтобы ускорить работу системы. Для сложных этапов как, например, генерация SQL, мы используем модели побольше.
Кайф, когда такие вещи реально разгружают аналитику от рутины и освобождают время на исследования и развитие продукта
Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳36❤6🔥4👍2🥴1
Давайте разбавим пятницу не душными темами.
Мне кажется, это хорошая рубрика, особенно, для такого замечательного дня недели
1. У меня это был Сбер
2. Собеседование было на аналитика (грейд не помню, полагаю, что младший). Команда занималась анализом пдфок, документов, точно не могу вспомнить. Меня все заманивали пойти в офис, когда я был студентом на втором курсе бакалавриата. Но я конечно же соглашался, говорил, что смогу совмещать
3. Думал про себя: фига я какой классный, позвали на собеседование, сейчас буду получать много денег и работать в бигтехе. Пить матчу на кокосовом молоке
4. Результат: Договорились, что я сделаю тестовое задание и пришлю различные визуализации. Я бы вам показал, только, оказывается затер это все на гите (там были графики на матплотлибе, пандас, все без выводов). Как итог, мне кинули реджект. Я немножко погрустил, но пошел дальше откликаться на доступные вакансии. И было тогда не важно, лишь бы взяли на аналитика
Почувствовал, что если меня рассмотрели в бигтех, значит можно собеседоваться дальше и останавливаться на этом не нужно.
А теперь ваша очередь — где проходили свой первый собес и что из этого вышло?
Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳33❤7🔥5❤🔥1👍1
Делитесь мемами, которые характеризуют ваше состояние после рабочих будней
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥7😁5🐳3
🆎 ЦПТ, скосы распределений, логарифмирование
В Google Colab приложил симуляции, которые показывают, как интуитивно работают методы + прикрепил разбор статьи с описанием работы различных методов, сходимости и прочее.
🔗 👉 Ссылочка тут
+ за выходные ознакомился с парочкой статей, которые описывают то, как работать с тяжелыми хвостами.
Если наберется много🐳 , разберу подробней парочку из них. Где-то планируется завышать значение t-критическое, где-то отсекать хвосты и моделировать их через определенный алгоритм, а где-то их обрезать, например, как тут выкинуть топ n% выбросов, ну и существуют методы, когда заменяют выбросы значением квантилей.
В общем, кажется, идеального решения нет и всё зависит от:
1. формы распределения (логнормальное, экспоненциальное, скошенное)
2. доли активных пользователей
3. цели теста (чувствительность vs устойчивость).
🐍 Дополнительно дублирую ссылочку на Google Colab
🐸 @zasql_python
В Google Colab приложил симуляции, которые показывают, как интуитивно работают методы + прикрепил разбор статьи с описанием работы различных методов, сходимости и прочее.
+ за выходные ознакомился с парочкой статей, которые описывают то, как работать с тяжелыми хвостами.
Если наберется много
В общем, кажется, идеального решения нет и всё зависит от:
1. формы распределения (логнормальное, экспоненциальное, скошенное)
2. доли активных пользователей
3. цели теста (чувствительность vs устойчивость).
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳62❤9🔥7
Заскуль питона (Data Science)
🆎 ЦПТ, скосы распределений, логарифмирование В Google Colab приложил симуляции, которые показывают, как интуитивно работают методы + прикрепил разбор статьи с описанием работы различных методов, сходимости и прочее. 🔗 👉 Ссылочка тут + за выходные ознакомился…
комменты в посте сломаны, это грустно ☹️
Please open Telegram to view this post
VIEW IN TELEGRAM
Классы в Python для аналитика (?)
Знаю, что многим аналитикам тема классов кажется ненужной — и это нормально.
Сам изучал ООП на своем направлении в магистратуре, очень много всего предстояло изучить... И про свойства, про то, как реализовать, жуть короче, хочется функциями пользовать и все (и то максимум)...
Но если присмотреться, мы сталкиваемся с ними каждый день, просто не задумываемся об этом.
Например, в pandas🐼 .
1️⃣ Класс: pandas.DataFrame, который задает структуру таблиц: колонки, индексы, методы
2️⃣ Объект: df = pd.DataFrame(...), может быть задан через чтение баз данных, csv, вручную и тд.
3️⃣ Методы: df.groupby(), df.query, df, etc.
Классы могут помочь, когда мы хотим выстроить определенную структуру и избежать хаоса в коде
🔽 Опишу самый простой пример 🔽
Класс User описывает пользователя продукта.
У него есть: атрибуты user_id, os, orders и метод is_active(),
который определяет, активен ли пользователь (есть ли у него заказы).
Я слышал, что на некоторых курсах по аналитике уже включают ООП. Например, в теме по 🆎.
Это логично: когда ты работаешь с десятками экспериментов, хочется выстроить для них единую структуру, чтобы каждый тест имел одинаковый формат, методы расчёта и итоговую инфу👀
💻 💻 Подход с классами не ограничивается тестами.
Необязательно использовать что-то сложное, например, на обучении я реализовывал классы для обращения к API / обработке ошибок / хранения информации на кошельке у юзера. Офк, это можно решить и с помощью SQL (про хранение данных), а у меня проект был без него💅
Его можно применять и в других задачах — например, в ML, где удобно базово описать модель под свои данные и потом переиспользовать или наследовать её в будущем.
✏️ Что можно почитать?
1.🔗 Ссылочка 1
2.🔗 Ссылочка 2
3.🔗 Ссылочка 3
Если интересен разбор с кейсами применения ООП, ставьте🐳 , пишите, использовали ли вы у себя?
@zasql_python
Знаю, что многим аналитикам тема классов кажется ненужной — и это нормально.
Сам изучал ООП на своем направлении в магистратуре, очень много всего предстояло изучить... И про свойства, про то, как реализовать, жуть короче, хочется функциями пользовать и все (и то максимум)...
Но если присмотреться, мы сталкиваемся с ними каждый день, просто не задумываемся об этом.
Например, в pandas
Классы могут помочь, когда мы хотим выстроить определенную структуру и избежать хаоса в коде
Класс User описывает пользователя продукта.
У него есть: атрибуты user_id, os, orders и метод is_active(),
который определяет, активен ли пользователь (есть ли у него заказы).
class User:
"""Класс, описывающий пользователя продукта."""
def __init__(self, user_id: int, os: str, orders: list[int]):
"""
Args:
user_id (int): Уникальный идентификатор пользователя.
os (str): Операционная система (например, 'iOS' или 'Android').
orders (list[int]): Список идентификаторов заказов пользователя.
"""
self.user_id = user_id
self.os = os
self.orders = orders
def is_active(self) -> bool:
"""Проверяет, есть ли у пользователя хотя бы один заказ."""
return len(self.orders) > 0
Я слышал, что на некоторых курсах по аналитике уже включают ООП. Например, в теме по 🆎.
Это логично: когда ты работаешь с десятками экспериментов, хочется выстроить для них единую структуру, чтобы каждый тест имел одинаковый формат, методы расчёта и итоговую инфу
class Experiment:
def __init__(self, name, control, test, metric_name):
self.name = name
self.control = control
self.test = test
self.metric_name = metric_name
def calc_mean(self, group):
return group[self.metric_name].mean()
def uplift(self):
return (self.calc_mean(self.test) - self.calc_mean(self.control)) / self.calc_mean(self.control)
def summary(self):
return {
"experiment": self.name,
"uplift": round(self.uplift() * 100, 2),
"control_mean": self.calc_mean(self.control),
"test_mean": self.calc_mean(self.test),
}
Но в крупных компаниях зачастую реализована своя A/B платформа, аналитику остается только делать дизайн эксперимента, подводить итоги и делать рекомендации...🧐
Необязательно использовать что-то сложное, например, на обучении я реализовывал классы для обращения к API / обработке ошибок / хранения информации на кошельке у юзера. Офк, это можно решить и с помощью SQL (про хранение данных), а у меня проект был без него
Его можно применять и в других задачах — например, в ML, где удобно базово описать модель под свои данные и потом переиспользовать или наследовать её в будущем.
class ConversionModel:
def fit(self, df):
...
def predict(self, new_data):
...
1.
2.
3.
Если интересен разбор с кейсами применения ООП, ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳38❤10👍4🔥2
Рабочая суббота! Правда, замечательно?
Предлагаю сегодня не упарываться по работе и пойти отдыхать пораньше.
Но раз у компа, напишите...
Из какой сферы вы вкатились в IT? Или это был логичный переход?
Я раньше хотел стать маркетологом, так как не знал куда идти с моим бекграундом (менеджер), участвовал в куче кейс-чемпионатов, чтобы получить оффер хоть куда-то...
Понял, что сложно проходить в финал, нужно искать работу. В резюме у меня было:
— классный
— мотивированный
— уверенный пользователь ПК
— знаю метрики
— средний балл хороший!
(не было опыта в общем, хотел себя продать).
Помню, что была смешная попытка собеседования в компанию:
Рекрутер написал, что мне нужно быть в 20:00 со своей ручкой и распечатанным резюме (2021 год на дворе). Наверное надо было пересмотреть Волк с Уолл-стрит и продать ручку...
Конечно же, я не поехал :)
Один знакомый посоветовал курсы Тимофея Хирьянова по алгоритмам. Скажу честно, я все записывал в тетрадочку, но меня хватило ненадолго😢 , не зацепило меня писать код про черепашку
Следующий заход у меня был через полгода⌚️
Решил вкатиться через хакатон, который длился 7 месяцев кстати😁
Удалось проскочить в одну компанию с этим проектом и вкатиться в IT,
а дальше вы историю знаете, я надеюсь👀
А как вы вкатывались в IT? Почему решили вкатиться? Пишите в комментариях🐳 🐳 🐳
@zasql_python
Предлагаю сегодня не упарываться по работе и пойти отдыхать пораньше.
Но раз у компа, напишите...
Из какой сферы вы вкатились в IT? Или это был логичный переход?
Я раньше хотел стать маркетологом, так как не знал куда идти с моим бекграундом (менеджер), участвовал в куче кейс-чемпионатов, чтобы получить оффер хоть куда-то...
Понял, что сложно проходить в финал, нужно искать работу. В резюме у меня было:
— классный
— мотивированный
— уверенный пользователь ПК
— знаю метрики
— средний балл хороший!
(не было опыта в общем, хотел себя продать).
Помню, что была смешная попытка собеседования в компанию:
Рекрутер написал, что мне нужно быть в 20:00 со своей ручкой и распечатанным резюме (2021 год на дворе). Наверное надо было пересмотреть Волк с Уолл-стрит и продать ручку...
Конечно же, я не поехал :)
Один знакомый посоветовал курсы Тимофея Хирьянова по алгоритмам. Скажу честно, я все записывал в тетрадочку, но меня хватило ненадолго
Следующий заход у меня был через полгода
Решил вкатиться через хакатон, который длился 7 месяцев кстати
Удалось проскочить в одну компанию с этим проектом и вкатиться в IT,
а дальше вы историю знаете, я надеюсь
А как вы вкатывались в IT? Почему решили вкатиться? Пишите в комментариях
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11🐳7❤3👍1
Господа-аналитики, ничего сложного, делаем 90% своей работы, все в порядке. А вот как работает все под капотом не было особо сильного понимания. Решил глянуть парочку источников...
Будем говорить в контексте работы с нераспределенными базами данных. К ним относятся: PostgreSQL, MySQL, Oracle, MS SQL.
Увидел формулировку ниже, решил покопать
Основная идея повышения скорости работы нераспределённой базы данных заключается в уменьшении количества операций чтения/записи с жёсткого диска
Но RAM выполняет функцию буфера, а данные хранятся на диске.
Предположим, у нас есть упрощенная табличка в нераспределенной базе данных
people со следующей структурой:CREATE TABLE people (
last_name varchar(32),
first_name varchar(32),
second_name varchar(32),
sex char(1),
birthday date
);
Допущение, что в среднем фамилия имя и отчество состоят из 7 RU символов,
а кодировка используется Unicode, тогда средняя строка займет на диске:
(7 * 2 + 1) * 3 + 2 * 1 + 4 = 51 байт
Один блок во многих учебных материалах идет в 4 кб (4096 байт)
=> В одном блоке содержится
4096 / 83 = 49 строк и 29 байт остатка
В таблице у нас 1000 записей, значит суммарно у нас будет блоков:
1000 / 49 ~ 20.4 блоков (округляем до 21)
Хотим сделать фильтрацию в SQL
select * from people where last_name IN ('Иванов', 'Петров', 'Сидоров'); Чтобы не читать лишние блоки и быстрее находить нужные записи можно пользоваться индексными структурами, про которые я хочу написать в последующих постах, поговорим о стоимости запросов и о том, где они хороши, а где нет. Все что нужно — это
А я то думал, что когда был в
думал, что все просто, но еще нужно много всего подучить
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳48❤6🔥2
Еще чуть-чуть и снова выходные 🤟
Что планируете успеть сделать за эти три дня?
— Начать писать скрипт для задачи👍
— Понять, что все работает не так☠️
— Начать переписывать логику✏️
— Не сохранить и снова начать писать заново, потому что сервер перезапустился, а автосейв не сработал🔄
— Отвлечься на несколько адхоков и потерять контекст задачи🤞
— Потратить несколько минут, чтобы обратно въехать контекст и продолжить делать👍
— Принять судьбу и с поражением закрыть ноутбук до завтра🥳
— Повторить цикл ещё пару раз до пятницы👍
— Идем отдыхать🛌
Пишите свои дела в комментах👇
@zasql_python👉 @ds_memes
Что планируете успеть сделать за эти три дня?
— Начать писать скрипт для задачи
— Понять, что все работает не так
— Начать переписывать логику
— Не сохранить и снова начать писать заново, потому что сервер перезапустился, а автосейв не сработал
— Отвлечься на несколько адхоков и потерять контекст задачи
— Потратить несколько минут, чтобы обратно въехать контекст и продолжить делать
— Принять судьбу и с поражением закрыть ноутбук до завтра
— Повторить цикл ещё пару раз до пятницы
— Идем отдыхать
Пишите свои дела в комментах
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
Корреляция может пригодиться в разных сценариях, например, когда мы строим модели линейной регрессии, отбираем признаки или бизнесово смотрим какие метрики линейно связаны
Кажется, что
np.corrcoef(a, b)[0,1] достаточно. Ну или аналог ниже
import numpy as np
r = (np.cov([a,b], bias=True) / np.sqrt(np.var(a) * np.var(b)))[0][1]
Это хорошо, мы можем посчитать точечную оценку на выборке. Но! Мы же не знаем истинного значения коэффициента корреляции генеральной совокупности (также, как и средние, например). Выход: мы обычно строим доверительные интервалы на уровне значимости
alpha. Корреляция 0.8 звучит уверенно, но насколько мы в ней уверены статистически?
Когда это нам может пригодиться?
1. Аналитические исследования: насколько сильно линейно связаны метрики в продукте, для первой итерации по поиску прокси-метрик в 🆎
2. Сравнение корреляций между сегментами.
3. В
4. Мониторинг стабильности метрик. Если начала связь разъезжаться, возможно, поведение пользователей поменялось.
Ниже преобразование Фишера, которое делает распределение ближе к нормальному. Сгенерируем две случайные величины с корреляцией, равной 0.8. Для них посчитаем доверительный интервал Фишера на Python
from scipy.stats import norm
import numpy as np
np.random.seed(42)
n = 10000
rho = 0.8
mean = [0, 0]
cov = [[1, rho],
[rho, 1]]
x, y = np.random.multivariate_normal(mean, cov, size=n).T
r = np.corrcoef(x, y)[0, 1]
def fisher_ci(r, n, alpha=0.05):
z = np.arctanh(r)
se = 1/np.sqrt(n-3)
z_crit = norm.ppf(1-alpha/2)
lo = np.tanh(z - z_crit*se)
hi = np.tanh(z + z_crit*se)
return lo, hi
lo, hi = fisher_ci(r, n)
print(f"Доверительный интервал корреляции Пирсона: [{lo:.3f}, {hi:.3f}]")
Для Спирмена или Кендалла можно использовать бутстрап или другие приближения...
Если хотите разбор — какие вообще тесты (например для 🆎) бывают и когда какой использовать — ставьте 100
А еще недавно у меня закончился ИС в
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
Нет, пока я никуда не собираюсь из
Интересно посмотреть со стороны компании, нанимающей аналитиков сейчас.
Много компаний придерживаются следующих этапов:
1. Скрининг + HR
2. Технический этап собеседования
3. Финал
А вот интерес к техничке:
Что спрашивать кандидата? Предположим, мы хотим прособеседовать универсального аналитика. Python + SQL + A/B + Статистика + BI + продуктовое понимание + ML (необязательно). Грейд кандидата определяется по количеству выполненных заданий по критериям. То есть под конкретные задачи мы его не закрываем, проходит общий трек.
🆎 A/B тесты? Да, если человек проводил эксперимент, он может знать общий регламент. "Продвинутые" методы для A/B тестов давно есть на Хабре, их можно заботать.
Слышал, что некоторые спрашивают про LLM, но это пока что экстраординарные случаи. Ну и про вайбкодинг, конечно
По сути, теперь собеседовать нужно не по знаниям, а по мышлению. Насколько кандидат способен структурировать задачу, а не просто знать ответ.
Некоторые компании (например,
Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM