Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
А вы знаете, что у нас сейчас проходит розыгрыш подписок Telegram Premium?

Чтобы принять участие, достаточно подписаться на 4 канала, которые помогут быть в тренде и получать лучшее из мира IT:

— тот самый Типичный программист: @tproger

— полезные сохранёнки на все случаи жизни: @prog_stuff

— нужные инструменты для ваших проектов: @prog_tools

— новости из мира технологий: @your_tech
ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.


Читать: https://habr.com/ru/companies/airi/articles/774934/
Сказка от первого лица о зарплате в айти и первом миллионе

В этой статье хочу поделиться исключительно личным опытом работы на разных позициях и даже сферах в айти, конечно же, расскажу и про зарплаты в Москве.

Про сам процесс отбора и поиска работы/стажировок в данной статье я много говорить не буду, так как тема объемная и заслуживает отдельной статьи.
Шо там дальше

Читать: https://habr.com/ru/articles/775026/
Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall

Нет, нет, я совсем не про геометрию или физику, я про множества!

Точнее про множество того, что вы знаете.

К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.

В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score


Читать: https://habr.com/ru/articles/775032/
🔥2👍1
В ногу со временем: введение в многомерный анализ и OLAP-технологии

В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?


Читать: https://habr.com/ru/articles/775042/
What is an Open Table Format? & Why to use one?

Read: https://www.startdataengineering.com/post/what_why_table_format/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:


Читать: https://habr.com/ru/articles/775502/
Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/775418/
1
Выбор СУБД: шпаргалка, чтобы не запутаться

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.


Читать: https://habr.com/ru/articles/775574/
Как использовать Spring в качестве фреймворка для Flink-приложений

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.


Читать: https://habr.com/ru/companies/ru_mts/articles/775970/
Большие языковые модели (LLM) в задачах

Сейчас в мире довольно много разговор о том, что LLM оставят всех нас без работы. Чтобы понять о чем речь рассмотрим на практических примерах какие задачи из коробки могут решать современные большие языковые модели (large language models, LLM).

Читать: https://habr.com/ru/articles/775870/
2
FineBI: Обработка данных для начинающих пользователей

Хабр, привет!

На связи команда Business Intelligence GlowByte. Да-да, те самые неугомонные, которые создали самое крупное русскоязычное сообщество FineBI, проводят обучения, собирают дайджесты и ежегодно организуют масштабные конференции.

Меня зовут Александр, я руководитель центра поддержки и обучения BI-решений в GlowByte, и сегодня хочу поделиться с вами небольшим гайдом по обработке данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам.

Данная статья состоит из четырех уроков, которые помогут вам ближе познакомиться с функциями редактирования данных в FineBI.


Читать: https://habr.com/ru/companies/glowbyte/articles/776648/
Лексикографический симлекс-метод

Лексикографический симлекс-метод.

Решение задачи линейного программирование симлекс-методом и лексикографическим симлекс-методом на Python!


Читать: https://habr.com/ru/articles/776694/
Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Внутренний источник данных в банке – это любой источник информации, который находится внутри банковской организации и генерирует данные самостоятельно. Эти данные хранятся исключительно внутри банка. Они выделяются уникальностью, бесплатностью (сформированы внутри банка или куплены ранее), и высоким качеством, и хранятся в структурированном виде. При всем при этом они могут приносить бизнесу пользу, если придумать как можно применить их в новых задачах. Подключение таких источников позволяет обогащать имеющиеся базы, улучшать качество существующих моделей машинного обучения и создавать новые.

Как их искать, зачем и куда подключать, как они могут быть полезны и какую подготовительную работу мы проводим, прежде чем подключить, расскажем в статье.


Читать: https://habr.com/ru/companies/alfa/articles/776744/
New AI capabilities with Oracle Analytics

Discover the power of Oracle Analytics with AI capabilities

Read: https://blogs.oracle.com/analytics/post/discover-the-power-of-oracle-analytics-with-ai
Building a Marimekko chart in Oracle Analytics

Marimekko chart is a powerful data visualization because it captures multiple dimensions in one chart. This article explains the Marimekko chart and the steps to build one in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/building-marimekko-charts-in-oracle-analytics
Extracting key values with Oracle Analytics and OCI AI Document Understanding

Extract and analyze key values within documents, including PDF and images, with Oracle Analytics and OCI AI Document Understanding

Read: https://blogs.oracle.com/analytics/post/innovate-with-oracle-analytics-and-ai-document-understanding
Apache Spark… Это База

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.


Читать: https://habr.com/ru/articles/777294/
ЧТО ОБЩЕГО МЕЖДУ РАКОМ КРОВИ, ЛАЗЕРАМИ И НЕЙРОННЫМИ СЕТЯМИ?

Доброго времени суток, дорогой Habr, надеюсь вы успели заскучать после 3-х месяцев паузы (ссылка на прошлую статью). На связи снова Николай Иванов и сегодня вы узнаете, что общего между раком крови, лазерами и машинным обучением. В этой статье мы поговорим с вами о методе проточной цитофлуориметрии, как он работает и как врачи определяют рак костного мозга и крови. Далее обсудим причём тут машинное обучение, как его можно использовать для ускорения работы врачей, а также чего мы достигли и есть ли смысл этим вообще заниматься? Рассказ я буду вести именно в том порядке, в котором мы двигались, при решении данной задачи. Приятного чтения!

Начнём с проточной цитофлуориметрии


Читать: https://habr.com/ru/articles/777476/