Reinforcement Learning from Human Feedback: когда одной математики мало
Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.
Что было дальше?
Читать: https://habr.com/ru/articles/755904/
Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.
Что было дальше?
Читать: https://habr.com/ru/articles/755904/
Что может позволить себе аналитик из Твери – купить или снять квартиру?
Всем привет! Пишет вам аналитик Алексей из компании Мегапьютер. Я уже дослужился до громкого звания middle аналитик. А вот мой друг из Твери пока только начал свой карьерный путь и работает на позиции junior аналитика. Летом я ездил к нему в гости, и мы обменялись опытом, обсудили много тем профессиональных и не очень. Не обошли стороной и квартирный вопрос. Я уже второй год комфортно поживаю в своей однокомнатной квартире в Чебоксарах, взятой в ипотеку. А мой друг себе пока собственного жилья позволить не может. Или может?
Чтобы ответить на этот вопрос, я решил провести аналитическое расследование. Взял актуальную информацию о зарплате из базы вакансий. Также выгрузил данные о стоимости аренды и покупки квартир из сервиса по поиску недвижимости.
В Твери, как известно, четыре района: Московский, Центральный, Заволжский и Пролетарский. И все имеют свои особенности. Заволжский считается самым экологически чистым районом, Центральный – историческим, туристическим, Московский – промышленным, Пролетарский – спальным.
По данным сайта по поиску работы средняя зарплата в Твери у junior аналитика – 34 100р., middle – 52 750р., senior – 108 750р. И какую же недвижимость каждый специалист может себе позволить?
Прежде чем приступить к анализу, необходимо было понять, как определить доступность покупки и аренды квартиры. Для варианта покупки будет суммироваться платеж по ипотеке, квартплата и сумма, которая потребуется в месяц на проживание.
Процент по ипотеке будет зависеть от вида жилья. 12.5% - для вторички - 7.6% для новостройки или строящегося дома. Срок ипотеки будет 30 лет, а сумма кредита составит 0.85 от общей стоимости квартиры, так как требуется первоначальный взнос 15%
Читать: https://habr.com/ru/articles/756208/
Всем привет! Пишет вам аналитик Алексей из компании Мегапьютер. Я уже дослужился до громкого звания middle аналитик. А вот мой друг из Твери пока только начал свой карьерный путь и работает на позиции junior аналитика. Летом я ездил к нему в гости, и мы обменялись опытом, обсудили много тем профессиональных и не очень. Не обошли стороной и квартирный вопрос. Я уже второй год комфортно поживаю в своей однокомнатной квартире в Чебоксарах, взятой в ипотеку. А мой друг себе пока собственного жилья позволить не может. Или может?
Чтобы ответить на этот вопрос, я решил провести аналитическое расследование. Взял актуальную информацию о зарплате из базы вакансий. Также выгрузил данные о стоимости аренды и покупки квартир из сервиса по поиску недвижимости.
В Твери, как известно, четыре района: Московский, Центральный, Заволжский и Пролетарский. И все имеют свои особенности. Заволжский считается самым экологически чистым районом, Центральный – историческим, туристическим, Московский – промышленным, Пролетарский – спальным.
По данным сайта по поиску работы средняя зарплата в Твери у junior аналитика – 34 100р., middle – 52 750р., senior – 108 750р. И какую же недвижимость каждый специалист может себе позволить?
Прежде чем приступить к анализу, необходимо было понять, как определить доступность покупки и аренды квартиры. Для варианта покупки будет суммироваться платеж по ипотеке, квартплата и сумма, которая потребуется в месяц на проживание.
Процент по ипотеке будет зависеть от вида жилья. 12.5% - для вторички - 7.6% для новостройки или строящегося дома. Срок ипотеки будет 30 лет, а сумма кредита составит 0.85 от общей стоимости квартиры, так как требуется первоначальный взнос 15%
Читать: https://habr.com/ru/articles/756208/
👍1
Know your data 34: the best defense is offense
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/know-your-data-34-the-best-defense-is-offense.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/know-your-data-34-the-best-defense-is-offense.html
Преобразование табличных данных в Python
Предположим: вы полны желания изучить манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать: какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.
Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!
PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.
Читать: https://habr.com/ru/companies/southbridge/articles/756116/
Предположим: вы полны желания изучить манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать: какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.
Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!
PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.
Читать: https://habr.com/ru/companies/southbridge/articles/756116/
Танцуют все — и даже рисунки!
Рассказываем, как в Газпромбанке научились оживлять нарисованных человечков с помощью Data Science и трёх групп ML-моделей.
Читать: «Танцуют все — и даже рисунки!»
Рассказываем, как в Газпромбанке научились оживлять нарисованных человечков с помощью Data Science и трёх групп ML-моделей.
Читать: «Танцуют все — и даже рисунки!»
Tproger
Какие ML-модели мы использовали для визуализации танцев
Рассказываем, как в Газпромбанке научились оживлять нарисованных человечков с помощью Data Science и трёх групп ML-моделей.
👍1
Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов
Рассказали, как удалить дубликаты в огромной базе данных, и о том, как обработать большой объем данных невысокого качества.
Читать: «Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов»
Рассказали, как удалить дубликаты в огромной базе данных, и о том, как обработать большой объем данных невысокого качества.
Читать: «Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов»
Tproger
Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов
Рассказали, как удалить дубликаты в огромной базе данных, и о том, как обработать большой объем данных невысокого качества.
Comparing Data Flows in Oracle Analytics Cloud with Spreadsheet-Based Tools
This article focuses on the key advantages of data flows in Oracle Analytics Cloud and how this tool differs from spreadsheet-based tools such as Microsoft Excel and Google Sheets.
Read: https://blogs.oracle.com/analytics/post/comparing-oac-data-flows-with-spreadsheetbased-tools
This article focuses on the key advantages of data flows in Oracle Analytics Cloud and how this tool differs from spreadsheet-based tools such as Microsoft Excel and Google Sheets.
Read: https://blogs.oracle.com/analytics/post/comparing-oac-data-flows-with-spreadsheetbased-tools
Oracle
Comparing Data Flows in Oracle Analytics Cloud with Spreadsheet-Based Tools
This article focuses on the key advantages of data flows in Oracle Analytics Cloud and how this tool differs from spreadsheet-based tools such as Microsoft Excel and Google Sheets.
«Квантовые облака»: как VK Cloud и разработчики делают квантовые вычисления становятся ближе к бизнесу
Есть целый спектр задач, прежде всего промышленных, которые невозможно решить с помощью простых компьютеров. Суперкомпьютеры часто тоже оказываются бессильны из-за фундаментальных ограничений классической модели вычислений. Кроме того, решение многих задач становится экономически неоправданным из-за высокой стоимости суперкомпьютерной инфраструктуры. Поэтому у производственников и крупного бизнеса есть большой спрос на инструменты, которые могут проводить вычисления «за гранью» классических возможностей. В этом помогают квантовые процессоры и их эмуляторы.
Читать: https://habr.com/ru/companies/vk/articles/754518/
Есть целый спектр задач, прежде всего промышленных, которые невозможно решить с помощью простых компьютеров. Суперкомпьютеры часто тоже оказываются бессильны из-за фундаментальных ограничений классической модели вычислений. Кроме того, решение многих задач становится экономически неоправданным из-за высокой стоимости суперкомпьютерной инфраструктуры. Поэтому у производственников и крупного бизнеса есть большой спрос на инструменты, которые могут проводить вычисления «за гранью» классических возможностей. В этом помогают квантовые процессоры и их эмуляторы.
Читать: https://habr.com/ru/companies/vk/articles/754518/
Point-in-time Recovery. Как уменьшить RPO для базы данных
Падение любой информационной системы — это по умолчанию больно и неприятно. На Хабре вы найдете много статей о том, как этого избежать. Но что делать, если все-таки случилась одна из тех историй, которыми пугают джунов? Уборщица разлила ведро воды в ЦОДе или злосчастный экскаватор перерубил оптоволокно?
Меня зовут Андрей Белый, я старший разработчик VK Cloud в команде DBaaS. В этой статье мы на примере PostgreSQL разберем принципы работы баз данных и поговорим о том, как минимизировать последствия инцидентов с помощью оптимизации RPO (Recovery point objective).
Материал подготовлен по мотивам моего выступления на VK Databases Meetup «Point-in-time Recovery. Как уменьшить RPO для базы данных».
Читать: https://habr.com/ru/companies/vk/articles/755922/
Падение любой информационной системы — это по умолчанию больно и неприятно. На Хабре вы найдете много статей о том, как этого избежать. Но что делать, если все-таки случилась одна из тех историй, которыми пугают джунов? Уборщица разлила ведро воды в ЦОДе или злосчастный экскаватор перерубил оптоволокно?
Меня зовут Андрей Белый, я старший разработчик VK Cloud в команде DBaaS. В этой статье мы на примере PostgreSQL разберем принципы работы баз данных и поговорим о том, как минимизировать последствия инцидентов с помощью оптимизации RPO (Recovery point objective).
Материал подготовлен по мотивам моего выступления на VK Databases Meetup «Point-in-time Recovery. Как уменьшить RPO для базы данных».
Читать: https://habr.com/ru/companies/vk/articles/755922/
Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером
Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.
В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.
Читать: https://habr.com/ru/companies/southbridge/articles/756652/
Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.
В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.
Читать: https://habr.com/ru/companies/southbridge/articles/756652/
MLOps от Gucci и оценка уровня Data Driven’ности в компании
Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/756644/
Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/756644/
Опыт PT: BI на страже кибербезопасности
Привет, Хабр! Сегодня мне хотелось бы поговорить о том, как можно применить BI, а также оценить роль, которую BI играет в цифровой трансформации компании. Ответы на эти вопросы мы получили на своем опыте, когда начали внедрять новую аналитическую платформу и обнаружили интерес к ней со стороны многих департаментов компании. Под катом — история, как мы перевели BI в Positive Technologies на единую платформу.
Узнать больше про этот кейс
Читать: https://habr.com/ru/articles/756758/
Привет, Хабр! Сегодня мне хотелось бы поговорить о том, как можно применить BI, а также оценить роль, которую BI играет в цифровой трансформации компании. Ответы на эти вопросы мы получили на своем опыте, когда начали внедрять новую аналитическую платформу и обнаружили интерес к ней со стороны многих департаментов компании. Под катом — история, как мы перевели BI в Positive Technologies на единую платформу.
Узнать больше про этот кейс
Читать: https://habr.com/ru/articles/756758/
Oracle Analytics Cloud - How to Setup and Configure the Oracle Analytics Cloud Environment on OCI
You are just a few steps away from joining the Oracle Analytics world. Please use this quick guide to create and setup Oracle Analytics Cloud on Oracle Cloud Infrastructure.
Read: https://blogs.oracle.com/coretec/post/oracle-analytics-cloud-a-quick-guide-to-setup-oracle-analytics-cloud-environment
You are just a few steps away from joining the Oracle Analytics world. Please use this quick guide to create and setup Oracle Analytics Cloud on Oracle Cloud Infrastructure.
Read: https://blogs.oracle.com/coretec/post/oracle-analytics-cloud-a-quick-guide-to-setup-oracle-analytics-cloud-environment
Oracle
Oracle Analytics Cloud - How to Setup and Configure the Oracle Analytics Cloud Environment on OCI
You are just a few steps away from joining the Oracle Analytics world. Please use this quick guide to create and setup Oracle Analytics Cloud on Oracle Cloud Infrastructure.
Oracle Fusion Analytics Implementation Series: Adopting and Expanding
Best Practices for Implementing Oracle Fusion Analytics Series: Adopting and Expanding
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-adopting-and-expanding
Best Practices for Implementing Oracle Fusion Analytics Series: Adopting and Expanding
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-adopting-and-expanding
Oracle
Oracle Fusion Analytics Implementation Series: Adopt and Expand
Best Practices for Implementing Oracle Fusion Analytics Series: Adopting and Expanding
«Я пропагандирую коллегам переход на Rust». В статье — 6 основных причин
Мы побеседовали с руководителем направления системного программирования в «Криптоните» Александром Авраменко о карьерном пути Rust-разработчика, особенностях языка Rust и его применении к моделям машинного обучения в высоконагруженных системах.
Читать: https://habr.com/ru/companies/kryptonite/articles/757362/
Мы побеседовали с руководителем направления системного программирования в «Криптоните» Александром Авраменко о карьерном пути Rust-разработчика, особенностях языка Rust и его применении к моделям машинного обучения в высоконагруженных системах.
Читать: https://habr.com/ru/companies/kryptonite/articles/757362/
Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Книги о машинном обучении для новичков
Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.
Читать: «Книги о машинном обучении для новичков»
Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.
Читать: «Книги о машинном обучении для новичков»
Tproger
Книги о машинном обучении для новичков
Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.
Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.
Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
If it's an RCT, it can be trusted
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/if-its-an-rct-it-can-be-trusted.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/if-its-an-rct-it-can-be-trusted.html
Apache Spark для Data Engineering
Apache Spark — платформа обработки больших данных с открытым исходным кодом. Она популярна среди инженеров данных благодаря своей скорости, возможностях масштабируемости и простоте использования. Spark предназначен для работы с огромными наборами данных в распределенной вычислительной среде, что позволяет разработчикам создавать высокопроизводительные конвейеры данных, способные быстро обрабатывать огромные объемы данных.
Делимся переводом обзорной статьи о том, что такое Apache Spark и как он может помочь в data-engineering.
Читать: https://habr.com/ru/companies/southbridge/articles/757724/
Apache Spark — платформа обработки больших данных с открытым исходным кодом. Она популярна среди инженеров данных благодаря своей скорости, возможностях масштабируемости и простоте использования. Spark предназначен для работы с огромными наборами данных в распределенной вычислительной среде, что позволяет разработчикам создавать высокопроизводительные конвейеры данных, способные быстро обрабатывать огромные объемы данных.
Делимся переводом обзорной статьи о том, что такое Apache Spark и как он может помочь в data-engineering.
Читать: https://habr.com/ru/companies/southbridge/articles/757724/
Как подружить Spark и S3 для обработки файлов
Всем привет!
В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.
Читать: https://habr.com/ru/companies/neoflex/articles/757794/
Всем привет!
В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.
Читать: https://habr.com/ru/companies/neoflex/articles/757794/