Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Книги о машинном обучении для новичков
Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.
Читать: «Книги о машинном обучении для новичков»
Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.
Читать: «Книги о машинном обучении для новичков»
Tproger
Книги о машинном обучении для новичков
Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.
Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
If it's an RCT, it can be trusted
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/if-its-an-rct-it-can-be-trusted.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/if-its-an-rct-it-can-be-trusted.html
Apache Spark для Data Engineering
Apache Spark — платформа обработки больших данных с открытым исходным кодом. Она популярна среди инженеров данных благодаря своей скорости, возможностях масштабируемости и простоте использования. Spark предназначен для работы с огромными наборами данных в распределенной вычислительной среде, что позволяет разработчикам создавать высокопроизводительные конвейеры данных, способные быстро обрабатывать огромные объемы данных.
Делимся переводом обзорной статьи о том, что такое Apache Spark и как он может помочь в data-engineering.
Читать: https://habr.com/ru/companies/southbridge/articles/757724/
Apache Spark — платформа обработки больших данных с открытым исходным кодом. Она популярна среди инженеров данных благодаря своей скорости, возможностях масштабируемости и простоте использования. Spark предназначен для работы с огромными наборами данных в распределенной вычислительной среде, что позволяет разработчикам создавать высокопроизводительные конвейеры данных, способные быстро обрабатывать огромные объемы данных.
Делимся переводом обзорной статьи о том, что такое Apache Spark и как он может помочь в data-engineering.
Читать: https://habr.com/ru/companies/southbridge/articles/757724/
Как подружить Spark и S3 для обработки файлов
Всем привет!
В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.
Читать: https://habr.com/ru/companies/neoflex/articles/757794/
Всем привет!
В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.
Читать: https://habr.com/ru/companies/neoflex/articles/757794/
Путь 11 страданий: это не ДЗЕН и не ДАО — это выбор российского BI
Привет, Хабр! Мне, наконец, есть чем поделиться с вами. И это результаты практически годового процесса выбора BI-системы из числа российских разработок на замену одной из западных платформ. За это время мне стало очевидно, что примерно 50% действий, которые мы сделали, можно было и не делать, а 20% не стоило делать вовсе. В итоге получилась практически инструкция “как не надо” выбирать себе BI-систему, если вы хотите, чтобы она действительно начала приносить вам пользу ASAP. Под катом — также мои мысли о том, как надо было бы. Желающих обсудить, прошу присоединяться.
Хочу научиться на чужих ошибках...
Читать: https://habr.com/ru/articles/757954/
Привет, Хабр! Мне, наконец, есть чем поделиться с вами. И это результаты практически годового процесса выбора BI-системы из числа российских разработок на замену одной из западных платформ. За это время мне стало очевидно, что примерно 50% действий, которые мы сделали, можно было и не делать, а 20% не стоило делать вовсе. В итоге получилась практически инструкция “как не надо” выбирать себе BI-систему, если вы хотите, чтобы она действительно начала приносить вам пользу ASAP. Под катом — также мои мысли о том, как надо было бы. Желающих обсудить, прошу присоединяться.
Хочу научиться на чужих ошибках...
Читать: https://habr.com/ru/articles/757954/
Ethical dilemmas poll: results post
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/ethical-dilemmas-poll-results-post.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/ethical-dilemmas-poll-results-post.html
Data Engineering Best Practices - #1. Data flow & Code
Read: https://www.startdataengineering.com/post/de_best_practices/
Read: https://www.startdataengineering.com/post/de_best_practices/
Строим удобные автомобильные маршруты
Хороший автомобильный маршрут из точки А в точку Б должен, с одной стороны, быть кратчайшим, а с другой — удобным для водителя. Как правильно вычислить время в пути мы уже рассказали, теперь — об удобстве маршрутов: что это такое, как его измерить и как мы его повышали.
Читать: https://habr.com/ru/companies/2gis/articles/758688/
Хороший автомобильный маршрут из точки А в точку Б должен, с одной стороны, быть кратчайшим, а с другой — удобным для водителя. Как правильно вычислить время в пути мы уже рассказали, теперь — об удобстве маршрутов: что это такое, как его измерить и как мы его повышали.
Читать: https://habr.com/ru/companies/2gis/articles/758688/
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.
Читать: https://habr.com/ru/companies/itsumma/articles/758996/
Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.
Читать: https://habr.com/ru/companies/itsumma/articles/758996/
8 инструментов для аннотирования изображений в 2023 году
Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.
Что такое аннотирование изображений?
После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.
Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.
Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.
Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать: https://habr.com/ru/articles/754900/
Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.
Что такое аннотирование изображений?
После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.
Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.
Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.
Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать: https://habr.com/ru/articles/754900/
🔥1
Руководство по масштабированию MLOps
Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.
Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?
AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.
Читать: https://habr.com/ru/articles/749178/
Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.
Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?
AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.
Читать: https://habr.com/ru/articles/749178/
Oracle Analytics Cloud : Set up and configure Oracle Analytics Cloud environments using Terraform
Use Terraform to create and maintain your Oracle Analytics Cloud environment. Provision multiple OAC environments together with an automated Terraform deployment script.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-set-up-and-configure-oracle-analytics-cloud-environments-using-terraform
Use Terraform to create and maintain your Oracle Analytics Cloud environment. Provision multiple OAC environments together with an automated Terraform deployment script.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-set-up-and-configure-oracle-analytics-cloud-environments-using-terraform
Oracle
Oracle Analytics Cloud : Set up and configure Oracle Analytics Cloud environments using Terraform
Use Terraform to create and maintain your Oracle Analytics Cloud environment. Provision multiple OAC environments together with an automated Terraform deployment script.
Фальсификации в выборах муниципальных депутатов 2022 в Москве
Наши результаты показывают, что подсчет результатов очного голосования на московских выборах муниципальных депутатов в 2022-м году был честным или практически честным. Подсчет же результатов дистанционного электронного голосования (ДЭГ) проходил с нарушениями — это видно, например, по аномалиям в том, как распределены голоса за кандидатов во времени. С четырех часов в пятницу до ночи с субботы на воскресенье голоса фальсифицировались в пользу некоторых кандидатов, большинство из которых принадлежит “системной оппозиции”: КПРФ, ЛДПР, СРЗП и партии “Новые люди”.
Мы оцениваем количество депутатов, за которых были вбросы, минимум в 115 человек. За этих 115 человек согласно нашей модели было вброшено около 95 тысяч голосов.
Читать: https://habr.com/ru/articles/760152/
Наши результаты показывают, что подсчет результатов очного голосования на московских выборах муниципальных депутатов в 2022-м году был честным или практически честным. Подсчет же результатов дистанционного электронного голосования (ДЭГ) проходил с нарушениями — это видно, например, по аномалиям в том, как распределены голоса за кандидатов во времени. С четырех часов в пятницу до ночи с субботы на воскресенье голоса фальсифицировались в пользу некоторых кандидатов, большинство из которых принадлежит “системной оппозиции”: КПРФ, ЛДПР, СРЗП и партии “Новые люди”.
Мы оцениваем количество депутатов, за которых были вбросы, минимум в 115 человек. За этих 115 человек согласно нашей модели было вброшено около 95 тысяч голосов.
Читать: https://habr.com/ru/articles/760152/
👍3
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
— Евдокимов, ты что, совсем уже там кукухой поехал?! При живом-то Spark SQL! Опять ты ненормальным программированием маешься, нет бы что-то полезное делал…
— Ну-ну-ну, спокойно, спокойно. Я ещё настолько не уехал, чтобы потратить целый год на страдание полной ерундой. Речь на сей раз пойдёт не о развлекухе, а о диалекте языка, специализированном для решения целого класса задач, для которых любой существующий SQL был бы, в теории, хорошим решением, если бы не несколько серьёзных «но».
Короче, у нас будет немного не такой SQL, который вы все так хорошо знаете, но и этот вариант вы полюбите, я обещаю. Тут лучше другой вопрос задать:
— Разве кому-то нужен голый SQL-ный движок?
Нет, голый — не нужен. Так рассказывать я буду о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально. Да не монолитный, а расширяемый при помощи подключаемых функций. И с автогенератором документации впридачу. Короче, всё будет совсем по-взрослому, с рейтингом M for Mature.
В каком смысле «M for Mature»?
Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.
Читать: https://habr.com/ru/articles/760504/
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
— Евдокимов, ты что, совсем уже там кукухой поехал?! При живом-то Spark SQL! Опять ты ненормальным программированием маешься, нет бы что-то полезное делал…
— Ну-ну-ну, спокойно, спокойно. Я ещё настолько не уехал, чтобы потратить целый год на страдание полной ерундой. Речь на сей раз пойдёт не о развлекухе, а о диалекте языка, специализированном для решения целого класса задач, для которых любой существующий SQL был бы, в теории, хорошим решением, если бы не несколько серьёзных «но».
Короче, у нас будет немного не такой SQL, который вы все так хорошо знаете, но и этот вариант вы полюбите, я обещаю. Тут лучше другой вопрос задать:
— Разве кому-то нужен голый SQL-ный движок?
Нет, голый — не нужен. Так рассказывать я буду о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально. Да не монолитный, а расширяемый при помощи подключаемых функций. И с автогенератором документации впридачу. Короче, всё будет совсем по-взрослому, с рейтингом M for Mature.
В каком смысле «M for Mature»?
Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.
Читать: https://habr.com/ru/articles/760504/
❤1
Ad-hoc мониторинг: сбор, хранение и визуализация данных
Готовим гибридную систему мониторинга + щепотка observability дабы нанести непоправимую пользу всему прогрессивному человечеству. С запахом кофе, перед использованием можно добавить свои данные по вкусу.
Вход в картинную галерею
Читать: https://habr.com/ru/articles/760728/
Готовим гибридную систему мониторинга + щепотка observability дабы нанести непоправимую пользу всему прогрессивному человечеству. С запахом кофе, перед использованием можно добавить свои данные по вкусу.
Вход в картинную галерею
Читать: https://habr.com/ru/articles/760728/
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
Краткое содержание предыдущей серии:
Вступление
Постановка задачи
Проектирование языка. Операторы жизненного цикла наборов данных
Проектирование системы типов
Предупреждение о рейтинге «M for Mature»
Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.
Читать: https://habr.com/ru/articles/760778/
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.
Краткое содержание предыдущей серии:
Вступление
Постановка задачи
Проектирование языка. Операторы жизненного цикла наборов данных
Проектирование системы типов
Предупреждение о рейтинге «M for Mature»
Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.
Читать: https://habr.com/ru/articles/760778/
Зачем нужен Excel при наличии и внедрении BI систем?
Если пойти от обратного, нужны ли BI-системы, когда есть Excel?
Excel и BI-системы выполняют одни и те же функции. Означает ли это, что при наличии BI Excel не нужен, и наоборот? Как можно использовать то и другое наилучшим образом для целей аналитики?
Читать: https://habr.com/ru/articles/760790/
Если пойти от обратного, нужны ли BI-системы, когда есть Excel?
Excel и BI-системы выполняют одни и те же функции. Означает ли это, что при наличии BI Excel не нужен, и наоборот? Как можно использовать то и другое наилучшим образом для целей аналитики?
Читать: https://habr.com/ru/articles/760790/
Облегчают анализ данных: 7 бесплатных сервисов на базе ИИ
Ниже представлены инструменты на основе искусственного интеллекта, которые облегчают анализ данных. По мнению разработчиков данных сервисов, они подходят не только для новичков в анализе данных, но и для профессионалов. А также в качестве так называемой “аналитики самообслуживания”.
Некоторые из них бесплатны полностью, некоторые предоставляют базовые функции бесплатно, а некоторые имею бесплатный период. Но все так или иначе можно попробовать бесплатно без привязки карт.
Читать: https://habr.com/ru/articles/761002/
Ниже представлены инструменты на основе искусственного интеллекта, которые облегчают анализ данных. По мнению разработчиков данных сервисов, они подходят не только для новичков в анализе данных, но и для профессионалов. А также в качестве так называемой “аналитики самообслуживания”.
Некоторые из них бесплатны полностью, некоторые предоставляют базовые функции бесплатно, а некоторые имею бесплатный период. Но все так или иначе можно попробовать бесплатно без привязки карт.
Читать: https://habr.com/ru/articles/761002/