Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata
Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB.
В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных.
Что там с нагрузкой на кластер?
Читать: https://habr.com/ru/companies/arenadata/articles/887792/
#ru
@big_data_analysis | Другие наши каналы
Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB.
В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных.
Что там с нагрузкой на кластер?
Читать: https://habr.com/ru/companies/arenadata/articles/887792/
#ru
@big_data_analysis | Другие наши каналы
Как мы искали должников при помощи Pandas
Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.
Я занимаюсь анализом данных и дата-журналистикой в газете "Деловой Петербург". Расскажу о том, как объединяли информацию из множества локальных html-таблиц и приведу примеры кода на "Питоне".
Читать: https://habr.com/ru/articles/891704/
#ru
@big_data_analysis | Другие наши каналы
Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.
Я занимаюсь анализом данных и дата-журналистикой в газете "Деловой Петербург". Расскажу о том, как объединяли информацию из множества локальных html-таблиц и приведу примеры кода на "Питоне".
Читать: https://habr.com/ru/articles/891704/
#ru
@big_data_analysis | Другие наши каналы
❤🔥1
Программный код в Big data и Power law
В статье приводятся оригинальные модули Python и даётся пояснение по их применению в задачах распределённой децентрализованной сети по типу блокчейн или, другими словами, в процессах самоорганизованной критичности (SOC). В научных публикациях чаще встречается физический термин SOC в качестве концепции, включающей процессы турбулентности, детонации, землетрясения, нейросети, фондовая волатильность, социальный рейтинг и другие.
Для процессов SOC характерно отсутствие управляющих параметров и масштабная инвариантность. Универсальность сложных процессов SOC со степенным законом Power law имеет тот же характер, как и универсальность простых линейных систем, не обладающих масштабной инвариантностью, по отношению к закону нормального распределения вероятности.
Зависимость от масштаба возникает при аналого-цифровом преобразовании битов в позиционную систему счисления и проявляется в законе нормального распределения вероятности в виде дисперсии и математического ожидания. Потеря масштабной инвариантности в позиционной системе счисления компенсируется приобретением принципа причинности. Например, в Древнем Риме, где была принята непозиционная система счисления, вычисляли, что «после того - не вследствие того» и сильно удивились бы истории с падающим на Ньютона яблоком.
Значительные достижения в анализе Big data заставляют предположить связь с распределением вероятности Пуассона: чем больше данных, тем чаще должны встречаться пуассоновские события и вопрос лишь в поиске подходящей метрики и системы счисления.
Читать: https://habr.com/ru/articles/891278/
#ru
@big_data_analysis | Другие наши каналы
В статье приводятся оригинальные модули Python и даётся пояснение по их применению в задачах распределённой децентрализованной сети по типу блокчейн или, другими словами, в процессах самоорганизованной критичности (SOC). В научных публикациях чаще встречается физический термин SOC в качестве концепции, включающей процессы турбулентности, детонации, землетрясения, нейросети, фондовая волатильность, социальный рейтинг и другие.
Для процессов SOC характерно отсутствие управляющих параметров и масштабная инвариантность. Универсальность сложных процессов SOC со степенным законом Power law имеет тот же характер, как и универсальность простых линейных систем, не обладающих масштабной инвариантностью, по отношению к закону нормального распределения вероятности.
Зависимость от масштаба возникает при аналого-цифровом преобразовании битов в позиционную систему счисления и проявляется в законе нормального распределения вероятности в виде дисперсии и математического ожидания. Потеря масштабной инвариантности в позиционной системе счисления компенсируется приобретением принципа причинности. Например, в Древнем Риме, где была принята непозиционная система счисления, вычисляли, что «после того - не вследствие того» и сильно удивились бы истории с падающим на Ньютона яблоком.
Значительные достижения в анализе Big data заставляют предположить связь с распределением вероятности Пуассона: чем больше данных, тем чаще должны встречаться пуассоновские события и вопрос лишь в поиске подходящей метрики и системы счисления.
Читать: https://habr.com/ru/articles/891278/
#ru
@big_data_analysis | Другие наши каналы
Три необсуждаемых вопроса о параллельной распределённой обработке данных — чтобы жить стало легче
Воркшоп для тех, кто впервые сталкивается с распределёнными системами.
В этой статье на примере решения несложного архитектурного кейса я покажу, что ответов только на 3 вопроса при проектировании систем распределённой параллельной обработки данных будет достаточно для обеспечения жёстких нефункциональных требований.
Читать: https://habr.com/ru/articles/891744/
#ru
@big_data_analysis | Другие наши каналы
Воркшоп для тех, кто впервые сталкивается с распределёнными системами.
В этой статье на примере решения несложного архитектурного кейса я покажу, что ответов только на 3 вопроса при проектировании систем распределённой параллельной обработки данных будет достаточно для обеспечения жёстких нефункциональных требований.
Читать: https://habr.com/ru/articles/891744/
#ru
@big_data_analysis | Другие наши каналы
«Ошибка на миллиард» в ИИ: боремся с галлюцинациями в LLM по аналогии с NullPointerException
Привет! Меня зовут Денис Березуцкий, я старший инженер по разработке ПО искусственного интеллекта в YADRO. В ML-команде мы разрабатываем системы, которые облегчают работу нашим заказчикам с помощью текстовых генеративных нейросетей: реализуем RAG, создаем чат-ботов, агентные системы и другие решения.
Как и многие в индустрии, мы сталкиваемся с проблемами галлюцинаций LLM, которые портят ответы виртуальным ассистентам и способны подорвать доверие к ним. В статье я расскажу об одном не совсем стандартном методе, перенесенном из «классического» программирования, который мы применяем для борьбы с галлюцинациями и улучшения поисковой выдачи.
Читать: https://habr.com/ru/companies/yadro/articles/890826/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Денис Березуцкий, я старший инженер по разработке ПО искусственного интеллекта в YADRO. В ML-команде мы разрабатываем системы, которые облегчают работу нашим заказчикам с помощью текстовых генеративных нейросетей: реализуем RAG, создаем чат-ботов, агентные системы и другие решения.
Как и многие в индустрии, мы сталкиваемся с проблемами галлюцинаций LLM, которые портят ответы виртуальным ассистентам и способны подорвать доверие к ним. В статье я расскажу об одном не совсем стандартном методе, перенесенном из «классического» программирования, который мы применяем для борьбы с галлюцинациями и улучшения поисковой выдачи.
Читать: https://habr.com/ru/companies/yadro/articles/890826/
#ru
@big_data_analysis | Другие наши каналы
Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями
Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов.
Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.
Читать: https://habr.com/ru/companies/ru_mts/articles/891498/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов.
Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.
Читать: https://habr.com/ru/companies/ru_mts/articles/891498/
#ru
@big_data_analysis | Другие наши каналы
Что подразумевают под Data Governance?
Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».
Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.
Читать: https://habr.com/ru/articles/892302/
#ru
@big_data_analysis | Другие наши каналы
Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».
Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.
Читать: https://habr.com/ru/articles/892302/
#ru
@big_data_analysis | Другие наши каналы
Precision и recall для каждого от кофаундера Технолиума
Всем привет, решил сделать небольшой цикл статей о простых вещах из программирования и математики от кофаундера Технолиум. Здесь небольшая статья о подборе порога в бинарной классификации.
Читать: https://habr.com/ru/articles/892456/
#ru
@big_data_analysis | Другие наши каналы
Всем привет, решил сделать небольшой цикл статей о простых вещах из программирования и математики от кофаундера Технолиум. Здесь небольшая статья о подборе порога в бинарной классификации.
Читать: https://habr.com/ru/articles/892456/
#ru
@big_data_analysis | Другие наши каналы
Группировка объявлений в карточки: как мы разметили 20 000 товаров
Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.
Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.
Читать: https://habr.com/ru/companies/data_light/articles/892684/
#ru
@big_data_analysis | Другие наши каналы
Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.
Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.
Читать: https://habr.com/ru/companies/data_light/articles/892684/
#ru
@big_data_analysis | Другие наши каналы
Дедупликация объявлений: как мы боремся с одинаковыми размещениями
Привет! Меня зовут Кирилл Сергеев, я ML-инженер в Циане. В этой статье я расскажу, как мы решили задачу дедупликации объявлений о недвижимости, разработав систему на основе трёх моделей. Эта система автоматически находит и объединяет дублирующиеся объявления, помогая пользователям видеть только актуальную и уникальную информацию.
Материал будет полезен ML-инженерам и специалистам по обработке данных, которым интересно, как мы подошли к решению этой задачи: какие методы использовали, какие проблемы возникли и как мы их преодолели.
Читать: https://habr.com/ru/companies/cian/articles/892650/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Кирилл Сергеев, я ML-инженер в Циане. В этой статье я расскажу, как мы решили задачу дедупликации объявлений о недвижимости, разработав систему на основе трёх моделей. Эта система автоматически находит и объединяет дублирующиеся объявления, помогая пользователям видеть только актуальную и уникальную информацию.
Материал будет полезен ML-инженерам и специалистам по обработке данных, которым интересно, как мы подошли к решению этой задачи: какие методы использовали, какие проблемы возникли и как мы их преодолели.
Читать: https://habr.com/ru/companies/cian/articles/892650/
#ru
@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
Редакция Tproger запустила свой канал для авторов, где учат писать лучше. Если давно хотели попробовать себя в IT-журналистике — самое время начать.
Изучаем DAX Time Intelligence с помощью ViTalk GPT
Привет, Хабр! Сегодня я хочу поговорить о возможностях и ограничениях функций Time Intelligence в Visiology. Это очень интересный раздел языка DAX, который позволяет быстро делать показательные расчеты, например, сравнивая показатели текущего периода с предыдущими. Однако в его реализации для Visiology и Power BI есть некоторые различия (впрочем, не влияющие на результат). В этой статье мы поговорим об этой разнице, а также я наглядно покажу, как чат-бот ViTalk GPT помогает разобраться с особенностями работы различных функций.
Читать: https://habr.com/ru/companies/visiology/articles/893076/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Сегодня я хочу поговорить о возможностях и ограничениях функций Time Intelligence в Visiology. Это очень интересный раздел языка DAX, который позволяет быстро делать показательные расчеты, например, сравнивая показатели текущего периода с предыдущими. Однако в его реализации для Visiology и Power BI есть некоторые различия (впрочем, не влияющие на результат). В этой статье мы поговорим об этой разнице, а также я наглядно покажу, как чат-бот ViTalk GPT помогает разобраться с особенностями работы различных функций.
Читать: https://habr.com/ru/companies/visiology/articles/893076/
#ru
@big_data_analysis | Другие наши каналы
Тестирование платформы DeepSeek для проверки гипотез по анализу данных
Привет, Хабр!
Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть быстро дешево и качественно. Недавний хайп по Deepseek не обошел нас стороной, и мы решили протестировать платформу по парочке гипотез в надежде на чудо.
И так, мы решили сфокусироваться на потребностях нашей команды технической поддержки в части анализа и обработки данных по ключевым метрикам и категоризации обращений.
Гипотеза 1: Оценка тенденций ключевых показателей технической поддержки
Мы решили проверить, насколько DeepSeek способен анализировать динамику показателей. В качестве данных взяли выгрузку по основным метрикам техподдержки: SLA, количество заявок (поступило/решено), количество негативных отзывов и пр. Скармливали выгрузку Excel, в общем то, простая таблица со следующими показателями (столбцы):
Читать: https://habr.com/ru/companies/vsk_insurance/articles/893110/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть быстро дешево и качественно. Недавний хайп по Deepseek не обошел нас стороной, и мы решили протестировать платформу по парочке гипотез в надежде на чудо.
И так, мы решили сфокусироваться на потребностях нашей команды технической поддержки в части анализа и обработки данных по ключевым метрикам и категоризации обращений.
Гипотеза 1: Оценка тенденций ключевых показателей технической поддержки
Мы решили проверить, насколько DeepSeek способен анализировать динамику показателей. В качестве данных взяли выгрузку по основным метрикам техподдержки: SLA, количество заявок (поступило/решено), количество негативных отзывов и пр. Скармливали выгрузку Excel, в общем то, простая таблица со следующими показателями (столбцы):
Читать: https://habr.com/ru/companies/vsk_insurance/articles/893110/
#ru
@big_data_analysis | Другие наши каналы
Преимущества Geometry для геовизуализации
Ищете способ упростить пространственный анализ и визуализацию данных? Geometry data type может стать вашим решением. Он позволяет выполнять сложные геопространственные операции с максимальной эффективностью и точностью. Узнайте больше о его возможностях!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Ищете способ упростить пространственный анализ и визуализацию данных? Geometry data type может стать вашим решением. Он позволяет выполнять сложные геопространственные операции с максимальной эффективностью и точностью. Узнайте больше о его возможностях!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Spatial Intelligence
Discover how the Geometry Data Type enables advanced geospatial visualizations and spatial analysis with ease
🧠 Требования к датасаентистам Google
Авторы статьи исследуют, какие статистические навыки необходимы для успешной работы на позиции "Data Scientist - Research" в Google. Они делятся опытом применения этой роли и призывают задаться вопросом, насколько вы согласны с тем, какие навыки в области анализа данных наиболее важны. Точность вопросов на интервью для DS-R в Google
В статье анализируется эффективность вопросов на интервью для роли Data Scientist - Research (DS-R) в Google. Описывается предсказуемость ответов, которая выявляет уровень необходимых статистических навыков, подчеркивая важность таких вопросов как источник более точного понимания требований к роли и подготовки к интервью. Различия в подходах научных данных
Два статистика применили разные методы регрессии для предсказания результатов. Первый использовал модель с двумя предикторами, а второй — пять отдельных моделей. Вопрос заключается в том, как эти подходы влияют на точность предсказаний и какие условия ведут к одинаковым результатам.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Авторы статьи исследуют, какие статистические навыки необходимы для успешной работы на позиции "Data Scientist - Research" в Google. Они делятся опытом применения этой роли и призывают задаться вопросом, насколько вы согласны с тем, какие навыки в области анализа данных наиболее важны. Точность вопросов на интервью для DS-R в Google
В статье анализируется эффективность вопросов на интервью для роли Data Scientist - Research (DS-R) в Google. Описывается предсказуемость ответов, которая выявляет уровень необходимых статистических навыков, подчеркивая важность таких вопросов как источник более точного понимания требований к роли и подготовки к интервью. Различия в подходах научных данных
Два статистика применили разные методы регрессии для предсказания результатов. Первый использовал модель с двумя предикторами, а второй — пять отдельных моделей. Вопрос заключается в том, как эти подходы влияют на точность предсказаний и какие условия ведут к одинаковым результатам.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Не окей, гугл: как сделать поисковик для работы с служебными презентациями
Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.
Читать: https://habr.com/ru/companies/mostransproekt/articles/893882/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.
Читать: https://habr.com/ru/companies/mostransproekt/articles/893882/
#ru
@big_data_analysis | Другие наши каналы
Propensity Score Matching (PSM): как обойтись без A/B-теста и всё равно узнать правду
Как определить, влияет ли то или иное событие на ключевые метрики, если полноценный A/B-тест недоступен?
В этой статье мы разберём метод Propensity Score Matching (PSM): узнаем, как компенсировать отсутствие рандомизации, выровнять группы по ключевым признакам и избежать ложных выводов при оценке эффекта.
Читать: https://habr.com/ru/articles/887276/
#ru
@big_data_analysis | Другие наши каналы
Как определить, влияет ли то или иное событие на ключевые метрики, если полноценный A/B-тест недоступен?
В этой статье мы разберём метод Propensity Score Matching (PSM): узнаем, как компенсировать отсутствие рандомизации, выровнять группы по ключевым признакам и избежать ложных выводов при оценке эффекта.
Читать: https://habr.com/ru/articles/887276/
#ru
@big_data_analysis | Другие наши каналы
Картель влиятельных датасетов в обучении ИИ
В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.
Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.
По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.
Читать: https://habr.com/ru/companies/ruvds/articles/885924/
#ru
@big_data_analysis | Другие наши каналы
В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.
Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.
По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.
Читать: https://habr.com/ru/companies/ruvds/articles/885924/
#ru
@big_data_analysis | Другие наши каналы
Сделал тг бот по подсчету калорий за 2 часа и похудел на 10кг
От идеи до работающего Telegram бота за 2 часа, от 112 кг до 102 кг за 2 месяца. Это история о том, как использование Cursor, v0.dev и современных AI-инструментов помогает решать личные проблемы с помощью кода — и как это личное решение превращается в бизнес-возможность.
Читать: https://habr.com/ru/articles/892118/
#ru
@big_data_analysis | Другие наши каналы
От идеи до работающего Telegram бота за 2 часа, от 112 кг до 102 кг за 2 месяца. Это история о том, как использование Cursor, v0.dev и современных AI-инструментов помогает решать личные проблемы с помощью кода — и как это личное решение превращается в бизнес-возможность.
Читать: https://habr.com/ru/articles/892118/
#ru
@big_data_analysis | Другие наши каналы
👎1
От скриптов к сервисам: 10 книг для профессиональной разработки в Data Science
Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить про книги, которые научат писать код. В современной экосистеме Data Science недостаточно просто знать алгоритмы машинного обучения и статистические методы — необходимы прочные инженерные навыки для создания масштабируемых, поддерживаемых решений.
Это третья часть серии статей о главных книгах для data-специалистов. В первой части «От комиксов до нейросетей» я писал о литературе для джунов. Во второй — «Код устареет, принципы — останутся» — для мидлов и сеньоров.
В этой же части мы сфокусируемся исключительно на книгах для развития навыков программиста, ставших необходимым для современного дата-сайентиста. Основываясь на опыте моего подкаста «Дата Завтрак», я структурировал подборку по пути профессионального роста инженера: от фундаментальных навыков до специализированных продакшн-инструментов.
Читать: https://habr.com/ru/companies/ozonbank/articles/894572/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить про книги, которые научат писать код. В современной экосистеме Data Science недостаточно просто знать алгоритмы машинного обучения и статистические методы — необходимы прочные инженерные навыки для создания масштабируемых, поддерживаемых решений.
Это третья часть серии статей о главных книгах для data-специалистов. В первой части «От комиксов до нейросетей» я писал о литературе для джунов. Во второй — «Код устареет, принципы — останутся» — для мидлов и сеньоров.
В этой же части мы сфокусируемся исключительно на книгах для развития навыков программиста, ставших необходимым для современного дата-сайентиста. Основываясь на опыте моего подкаста «Дата Завтрак», я структурировал подборку по пути профессионального роста инженера: от фундаментальных навыков до специализированных продакшн-инструментов.
Читать: https://habr.com/ru/companies/ozonbank/articles/894572/
#ru
@big_data_analysis | Другие наши каналы
Применение ML Pricing в ритейле: хвост виляет собакой
Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование».
В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.
Читать: https://habr.com/ru/companies/lentatech/articles/894582/
#ru
@big_data_analysis | Другие наши каналы
Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование».
В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.
Читать: https://habr.com/ru/companies/lentatech/articles/894582/
#ru
@big_data_analysis | Другие наши каналы