Бутстрап и доверительные интервалы: от теории к практике на Python
Привет!
Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.
В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).
Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.
Читать: https://habr.com/ru/articles/829336/
#ru
@big_data_analysis | Другие наши каналы
Привет!
Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.
В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).
Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.
Читать: https://habr.com/ru/articles/829336/
#ru
@big_data_analysis | Другие наши каналы
Data Vault: Мой опыт создания модели вручную
Как я делал Data Vault руками... или custom migrate a Data Vault c нотками Data Vault 2.0. Достаточно интересный способ провести время, но для начала углубимся в краткий экскурс.
Читать: https://habr.com/ru/articles/829338/
#ru
@big_data_analysis | Другие наши каналы
Как я делал Data Vault руками... или custom migrate a Data Vault c нотками Data Vault 2.0. Достаточно интересный способ провести время, но для начала углубимся в краткий экскурс.
Читать: https://habr.com/ru/articles/829338/
#ru
@big_data_analysis | Другие наши каналы
Различные типы проверок качества данных
Хотите узнать, какие проверки качества данных нужны вашему пайплайну и как их внедрить? В статье освещены основные виды проверок: выходные, входные и промежуточные DQ-чеклист, их важность и влияния на скорость и стоимость пайплайна. Узнайте больше на сайте!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Хотите узнать, какие проверки качества данных нужны вашему пайплайну и как их внедрить? В статье освещены основные виды проверок: выходные, входные и промежуточные DQ-чеклист, их важность и влияния на скорость и стоимость пайплайна. Узнайте больше на сайте!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Комбинаторы в ClickHouse
По мере работы приходилось часто сталкиваться с тем, что не все коллеги были знакомы с комбинаторами агрегатных функций в ClickHouse или же ограничивались использованием комбинатора -If. Это побудило меня написать статью. Надеюсь, она окажется для вас полезной.
Читать: https://habr.com/ru/companies/magnit/articles/825264/
#ru
@big_data_analysis | Другие наши каналы
По мере работы приходилось часто сталкиваться с тем, что не все коллеги были знакомы с комбинаторами агрегатных функций в ClickHouse или же ограничивались использованием комбинатора -If. Это побудило меня написать статью. Надеюсь, она окажется для вас полезной.
Читать: https://habr.com/ru/companies/magnit/articles/825264/
#ru
@big_data_analysis | Другие наши каналы
Недвижимость и ее инфляционная «защищенность» в реальных цифрах
Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!
Читать: https://habr.com/ru/articles/829832/
#ru
@big_data_analysis | Другие наши каналы
Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!
Читать: https://habr.com/ru/articles/829832/
#ru
@big_data_analysis | Другие наши каналы
«Школьный» курс по оптимизации Apache Spark
Руководство по Apache Spark не для начинающих.
В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.
В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.
Читать: https://habr.com/ru/companies/alfa/articles/829622/
#ru
@big_data_analysis | Другие наши каналы
Руководство по Apache Spark не для начинающих.
В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.
В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.
Читать: https://habr.com/ru/companies/alfa/articles/829622/
#ru
@big_data_analysis | Другие наши каналы
Всё что нужно знать про DuckDB
В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.
Читать: https://habr.com/ru/articles/829502/
#ru
@big_data_analysis | Другие наши каналы
В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.
Читать: https://habr.com/ru/articles/829502/
#ru
@big_data_analysis | Другие наши каналы
Системный аналитик (HR-Tech)
Компания: Гринатом — ИТ-генератор Росатома.
Опыт работы: от 3 лет
Полная занятость, удаленная работа/офис
Требуемый опыт:
— проектирование, документирование и интеграции (REST, SOAP, брокеры сообщений);
— понимание принципов построения микросервисной архитектуры ПО и опыт разработки Web-приложений;
— работа с agile/scrum методологией;
— специальные знания и опыт в работе с: BPMN, UML, SQL, OpenProject, Postman.
Будет преимуществом:
— опыт реализации и внедрения систем ECM, ERP, MES, CRM, HRM.
Условия:
— конкурентная ЗП и премии;
— оформление по ТК РФ;
— карьерный рост;
— ДМС со стоматологией;
— собственная платформа для обучения;
— конференции и тренинги.
Узнать подробнее и откликнуться можно по ссылке: https://tprg.ru/aQo0
Компания: Гринатом — ИТ-генератор Росатома.
Опыт работы: от 3 лет
Полная занятость, удаленная работа/офис
Требуемый опыт:
— проектирование, документирование и интеграции (REST, SOAP, брокеры сообщений);
— понимание принципов построения микросервисной архитектуры ПО и опыт разработки Web-приложений;
— работа с agile/scrum методологией;
— специальные знания и опыт в работе с: BPMN, UML, SQL, OpenProject, Postman.
Будет преимуществом:
— опыт реализации и внедрения систем ECM, ERP, MES, CRM, HRM.
Условия:
— конкурентная ЗП и премии;
— оформление по ТК РФ;
— карьерный рост;
— ДМС со стоматологией;
— собственная платформа для обучения;
— конференции и тренинги.
Узнать подробнее и откликнуться можно по ссылке: https://tprg.ru/aQo0
Разметка данных — тренируемся на кошках
Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания - разметка данных и ты, стояли на вечеренике под названием "Заработок в интернетах" в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто-то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду.
И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными?
В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.
Читать: https://habr.com/ru/articles/829710/
#ru
@big_data_analysis | Другие наши каналы
Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания - разметка данных и ты, стояли на вечеренике под названием "Заработок в интернетах" в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто-то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду.
И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными?
В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.
Читать: https://habr.com/ru/articles/829710/
#ru
@big_data_analysis | Другие наши каналы
Supervised Fine-Tuning: как настроить LLM под конкретную задачу?
Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов.
Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.
Читать: https://habr.com/ru/articles/829936/
#ru
@big_data_analysis | Другие наши каналы
Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов.
Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.
Читать: https://habr.com/ru/articles/829936/
#ru
@big_data_analysis | Другие наши каналы
Как мы построили сервис по поиску видеоконтента с помощью текста
Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф.
В мире, где короткие видеоролики становятся все более популярными, создателям видео контента все сложнее находить релевантные видео для своих целей. Мы решили эту проблему, создав сервис по поиску видеоконтента с помощью текста.
В статье мы расскажем, как мы использовали современные AI-технологии, чтобы сделать поиск видео быстрым и точным. Узнайте, какие решения мы приняли на каждом этапе разработки, и как наш сервис может улучшить вашу работу с видеоконтентом. Мы поделимся практическими советами и опытом, чтобы помочь вам избежать ошибок и максимально эффективно использовать возможности AI. Читайте нашу статью и узнайте, как сделать поиск видео проще и эффективнее!
Читать: https://habr.com/ru/articles/830834/
#ru
@big_data_analysis | Другие наши каналы
Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф.
В мире, где короткие видеоролики становятся все более популярными, создателям видео контента все сложнее находить релевантные видео для своих целей. Мы решили эту проблему, создав сервис по поиску видеоконтента с помощью текста.
В статье мы расскажем, как мы использовали современные AI-технологии, чтобы сделать поиск видео быстрым и точным. Узнайте, какие решения мы приняли на каждом этапе разработки, и как наш сервис может улучшить вашу работу с видеоконтентом. Мы поделимся практическими советами и опытом, чтобы помочь вам избежать ошибок и максимально эффективно использовать возможности AI. Читайте нашу статью и узнайте, как сделать поиск видео проще и эффективнее!
Читать: https://habr.com/ru/articles/830834/
#ru
@big_data_analysis | Другие наши каналы
Как мы построили сервис по поиску видеоконтента с помощью текста
Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф.
В мире, где короткие видеоролики становятся все более популярными, создателям видео контента все сложнее находить релевантные видео для своих целей. Мы решили эту проблему, создав сервис по поиску видеоконтента с помощью текста.
В статье мы расскажем, как мы использовали современные AI-технологии, чтобы сделать поиск видео быстрым и точным. Узнайте, какие решения мы приняли на каждом этапе разработки, и как наш сервис может улучшить вашу работу с видеоконтентом. Мы поделимся практическими советами и опытом, чтобы помочь вам избежать ошибок и максимально эффективно использовать возможности AI. Читайте нашу статью и узнайте, как сделать поиск видео проще и эффективнее!
Читать: https://habr.com/ru/articles/830838/
#ru
@big_data_analysis | Другие наши каналы
Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф.
В мире, где короткие видеоролики становятся все более популярными, создателям видео контента все сложнее находить релевантные видео для своих целей. Мы решили эту проблему, создав сервис по поиску видеоконтента с помощью текста.
В статье мы расскажем, как мы использовали современные AI-технологии, чтобы сделать поиск видео быстрым и точным. Узнайте, какие решения мы приняли на каждом этапе разработки, и как наш сервис может улучшить вашу работу с видеоконтентом. Мы поделимся практическими советами и опытом, чтобы помочь вам избежать ошибок и максимально эффективно использовать возможности AI. Читайте нашу статью и узнайте, как сделать поиск видео проще и эффективнее!
Читать: https://habr.com/ru/articles/830838/
#ru
@big_data_analysis | Другие наши каналы
❤2
Кто такой Data Engineer | Дата Инженер
В статье вы узнаете кто такой Data Engineer | Дата Инженер. Какие бывают направления и куда можно посмотреть, чтобы развиваться в дата-инженерии
Читать: https://habr.com/ru/articles/830376/
#ru
@big_data_analysis | Другие наши каналы
В статье вы узнаете кто такой Data Engineer | Дата Инженер. Какие бывают направления и куда можно посмотреть, чтобы развиваться в дата-инженерии
Читать: https://habr.com/ru/articles/830376/
#ru
@big_data_analysis | Другие наши каналы
Как установить Apache Spark за 10 минут
Установка Apache Spark займет немного времени и позволит изучить этот инструмент еще глубже прямо на своем компьютере!
Читать: https://habr.com/ru/articles/831180/
#ru
@big_data_analysis | Другие наши каналы
Установка Apache Spark займет немного времени и позволит изучить этот инструмент еще глубже прямо на своем компьютере!
Читать: https://habr.com/ru/articles/831180/
#ru
@big_data_analysis | Другие наши каналы
Используем LLM, чтобы найти «бриллианты» в тексте
Привет всем! Меня зовут Александр Григорьев и я продуктовый аналитик в Innovative People.
Год назад я писал про то, как с помощью современных LLM извлечь из множества текстовых данных эмбеддинги, и на их основе сделать аналитику того, какие темы есть в тексте.
Спустя время у меня и моих коллег накопилось несколько вопросов:
Читать: https://habr.com/ru/companies/inpglobal/articles/831760/
#ru
@big_data_analysis | Другие наши каналы
Привет всем! Меня зовут Александр Григорьев и я продуктовый аналитик в Innovative People.
Год назад я писал про то, как с помощью современных LLM извлечь из множества текстовых данных эмбеддинги, и на их основе сделать аналитику того, какие темы есть в тексте.
Спустя время у меня и моих коллег накопилось несколько вопросов:
Читать: https://habr.com/ru/companies/inpglobal/articles/831760/
#ru
@big_data_analysis | Другие наши каналы
Colud Native vs Cloud Agnostic в Data Engineering'е: выбираем подход
Сейчас развертывание дата платформ и решений для аналитки в облаке - явление повсеместное. Кажется, что так было (и будет?) всегда. При этом существует постоянное (но не всегда очевидное) противостояние между подходами Cloud Native и Cloud Agnostic. Cloud Native поддерживает использование специфических сервисов конкретного облачного провайдера, в то время как Cloud Agnostic нацелен на создание приложений, которые могут работать на различных облачных платформах без изменений.
Важно осознавать различия между этими подходами и принимать обоснованные решения при выборе одного из них для своего проекта. Этот выбор может существенно повлиять на архитектуру, масштабируемость вашей дата платформы и стоимость разработки и поддержки.
Однако важно помнить, что не следует впадать в крайности и быть абсолютно приверженным только одному из подходов (вспомним акисому Эскобара). Иногда оптимальным решением может быть комбинация обоих подходов, чтобы достичь оптимального баланса между гибкостью и эффективностью.
В данной статье я попытаюсь описать подход, который в итоге я внедрил в своей команде для построения дата-инфраструктуры.
Читать: https://habr.com/ru/articles/829620/
#ru
@big_data_analysis | Другие наши каналы
Сейчас развертывание дата платформ и решений для аналитки в облаке - явление повсеместное. Кажется, что так было (и будет?) всегда. При этом существует постоянное (но не всегда очевидное) противостояние между подходами Cloud Native и Cloud Agnostic. Cloud Native поддерживает использование специфических сервисов конкретного облачного провайдера, в то время как Cloud Agnostic нацелен на создание приложений, которые могут работать на различных облачных платформах без изменений.
Важно осознавать различия между этими подходами и принимать обоснованные решения при выборе одного из них для своего проекта. Этот выбор может существенно повлиять на архитектуру, масштабируемость вашей дата платформы и стоимость разработки и поддержки.
Однако важно помнить, что не следует впадать в крайности и быть абсолютно приверженным только одному из подходов (вспомним акисому Эскобара). Иногда оптимальным решением может быть комбинация обоих подходов, чтобы достичь оптимального баланса между гибкостью и эффективностью.
В данной статье я попытаюсь описать подход, который в итоге я внедрил в своей команде для построения дата-инфраструктуры.
Читать: https://habr.com/ru/articles/829620/
#ru
@big_data_analysis | Другие наши каналы
Реконсиляция в иерархическом прогнозировании временных рядов
Всем привет! Меня зовут Ян, я ведущий специалист по анализу данных в компании Cinimex Data Lab. Не так давно мы столкнулись с задачей иерархического прогнозирования временных рядов для заказчика из фармацевтической области, откуда и родилась идея для этого материала. В статье коснемся особенностей иерархического прогнозирования (форекастинга), разберем что значит термин реконсиляция, рассмотрим его математическую формализацию а также разные методы реконсиляции.
Читать: https://habr.com/ru/companies/cinimex/articles/817817/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Ян, я ведущий специалист по анализу данных в компании Cinimex Data Lab. Не так давно мы столкнулись с задачей иерархического прогнозирования временных рядов для заказчика из фармацевтической области, откуда и родилась идея для этого материала. В статье коснемся особенностей иерархического прогнозирования (форекастинга), разберем что значит термин реконсиляция, рассмотрим его математическую формализацию а также разные методы реконсиляции.
Читать: https://habr.com/ru/companies/cinimex/articles/817817/
#ru
@big_data_analysis | Другие наши каналы
💡 Готовим сетевые компоненты для доступа к Oracle Fusion Analytics Services
В статье рассматриваются шаги по настройке пользовательских имен хостов и необходимых сетевых компонентов для обеспечения доступа к Oracle Fusion Analytics Services через Интернет. Узнайте, как правильно настроить систему и обеспечить её безопасность.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассматриваются шаги по настройке пользовательских имен хостов и необходимых сетевых компонентов для обеспечения доступа к Oracle Fusion Analytics Services через Интернет. Узнайте, как правильно настроить систему и обеспечить её безопасность.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Prepare Custom Hostnames for Oracle Fusion Analytics Service Internet Access
Prepare Custom Hostname Network Components for Internet Access to Oracle Fusion Analytics Services
Настройка сетевых компонентов для доступа к Oracle Fusion Analytics Services
Узнайте, как подготовить пользовательские сетевые компоненты для обеспечения интернет-доступа к Oracle Fusion Analytics Services! Статья подробно разъясняет все шаги, помогающие настроить и оптимизировать вашу сеть для работы с этой платформой.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как подготовить пользовательские сетевые компоненты для обеспечения интернет-доступа к Oracle Fusion Analytics Services! Статья подробно разъясняет все шаги, помогающие настроить и оптимизировать вашу сеть для работы с этой платформой.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Prepare Custom Hostnames for Oracle Fusion Analytics Service Private Access
Prepare Custom Hostname Network Components for Internet Access to Oracle Fusion Analytics Services
Пайплайны, разметка и версионирование — открытые решения для работы с неструктурированными данными
Подготовили подборку решений для анализа и обработки неструктурированных данных. Инструменты помогут с разметкой текста, построением соответствующих пайплайнов и версионированием масштабных сводов информации для машинного обучения и не только. Поговорим про Sycamore, Surya, OmniParse, Unstract и Oxen — каждый из этих инструментов имеет открытый исходный код.
Кроме того, организации могут значительно сэкономить на управлении и эксплуатации неструктурированных данных за счет объектного облачного хранилища. Запустили тест-драйв, проверяйте.
Читать: https://habr.com/ru/companies/mws/articles/832504/
#ru
@big_data_analysis | Другие наши каналы
Подготовили подборку решений для анализа и обработки неструктурированных данных. Инструменты помогут с разметкой текста, построением соответствующих пайплайнов и версионированием масштабных сводов информации для машинного обучения и не только. Поговорим про Sycamore, Surya, OmniParse, Unstract и Oxen — каждый из этих инструментов имеет открытый исходный код.
Кроме того, организации могут значительно сэкономить на управлении и эксплуатации неструктурированных данных за счет объектного облачного хранилища. Запустили тест-драйв, проверяйте.
Читать: https://habr.com/ru/companies/mws/articles/832504/
#ru
@big_data_analysis | Другие наши каналы