Как предсказать будущее с помощью ML?
Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.
Читать: https://habr.com/ru/articles/870200/
#ru
@big_data_analysis | Другие наши каналы
Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.
Читать: https://habr.com/ru/articles/870200/
#ru
@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer Liquibase
Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.
Читать: https://habr.com/ru/articles/863242/
#ru
@big_data_analysis | Другие наши каналы
Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.
Читать: https://habr.com/ru/articles/863242/
#ru
@big_data_analysis | Другие наши каналы
Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM
RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.
В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.
Читать: https://habr.com/ru/articles/870174/
#ru
@big_data_analysis | Другие наши каналы
RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.
В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.
Читать: https://habr.com/ru/articles/870174/
#ru
@big_data_analysis | Другие наши каналы
Temporal Fusion Transformer: улучшение прогнозирования в ритейле с минимальными затратами
Всем привет! Меня зовут Дмитрий Поляков, я работаю аналитиком данных в команде ad-hoc аналитики X5 Tech. В этой статье мы хотели бы рассмотреть задачу прогнозирования, которая является чрезвычайно важной задачей в ритейле.
Мы детально рассмотрим основные преимущества и архитектурные особенности модели Temporal Fusion Transformer (TFT), наш подход к использованию этой модели в задаче прогнозирования спроса, и как нам удалось увеличить точность прогнозов в среднем на 7%, затратив при этом минимальные усилия.
Также эта статья будет полезна и тем, кто хочет глубже понять принципы работы TFT, изучить её применение в библиотеке Darts и решить задачу прогнозирования для множества многомерных временных рядов.
Читать: https://habr.com/ru/companies/X5Tech/articles/869750/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Дмитрий Поляков, я работаю аналитиком данных в команде ad-hoc аналитики X5 Tech. В этой статье мы хотели бы рассмотреть задачу прогнозирования, которая является чрезвычайно важной задачей в ритейле.
Мы детально рассмотрим основные преимущества и архитектурные особенности модели Temporal Fusion Transformer (TFT), наш подход к использованию этой модели в задаче прогнозирования спроса, и как нам удалось увеличить точность прогнозов в среднем на 7%, затратив при этом минимальные усилия.
Также эта статья будет полезна и тем, кто хочет глубже понять принципы работы TFT, изучить её применение в библиотеке Darts и решить задачу прогнозирования для множества многомерных временных рядов.
Читать: https://habr.com/ru/companies/X5Tech/articles/869750/
#ru
@big_data_analysis | Другие наши каналы
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений
С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.
Читать: https://habr.com/ru/articles/869674/
#ru
@big_data_analysis | Другие наши каналы
С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.
Читать: https://habr.com/ru/articles/869674/
#ru
@big_data_analysis | Другие наши каналы
Кастомизация в Luxms BI: программируем под свои желания
Привет! Меня зовут Илья Гурешидзе, занимаюсь разработкой фронтенда, сопровождением и внедрением кастомных решений на базе платформы Luxms BI.
И хочу предложить в новогодние праздники почитать статью-руководство по кастомизации платформы Luxms BI для фронтенд-разработчиков, которые хотят добавить яркие и запоминающиеся элементы в свои дэшборды.
В ней расскажу как создать необычные визуализации, например, новогодние ёлки и шары, с использованием React и библиотеки Echarts. Технические особенности, код, архивы, инструкции, мемы и немного юмора — под катом.
Читать: https://habr.com/ru/companies/luxms_bi/articles/870684/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Илья Гурешидзе, занимаюсь разработкой фронтенда, сопровождением и внедрением кастомных решений на базе платформы Luxms BI.
И хочу предложить в новогодние праздники почитать статью-руководство по кастомизации платформы Luxms BI для фронтенд-разработчиков, которые хотят добавить яркие и запоминающиеся элементы в свои дэшборды.
В ней расскажу как создать необычные визуализации, например, новогодние ёлки и шары, с использованием React и библиотеки Echarts. Технические особенности, код, архивы, инструкции, мемы и немного юмора — под катом.
Читать: https://habr.com/ru/companies/luxms_bi/articles/870684/
#ru
@big_data_analysis | Другие наши каналы
Causal Inference методы на практике
Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще хочется. Столкнувшись в очередной раз с такой ситуацией, я решил погрузиться в нашумевший в последнее время мир причинно-следственного анализа или Causal Inference и поделиться опытом применения различных подходов на практике.
Случалось ли с вами что-нибудь из этого?
Читать: https://habr.com/ru/articles/870874/
#ru
@big_data_analysis | Другие наши каналы
Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще хочется. Столкнувшись в очередной раз с такой ситуацией, я решил погрузиться в нашумевший в последнее время мир причинно-следственного анализа или Causal Inference и поделиться опытом применения различных подходов на практике.
Случалось ли с вами что-нибудь из этого?
Читать: https://habr.com/ru/articles/870874/
#ru
@big_data_analysis | Другие наши каналы
GraphRAG: Повышение точности и полноты GenAI
GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.
Читать: https://habr.com/ru/articles/870690/
#ru
@big_data_analysis | Другие наши каналы
GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.
Читать: https://habr.com/ru/articles/870690/
#ru
@big_data_analysis | Другие наши каналы
Германская танковая проблема: торжество статистики и один из первых примеров военного OSINT'a
В разведке, где информация является ключевым фактором успеха, важнейшей задачей всегда была оценка потенциала и возможностей противника. Традиционные методы, основанные на сборе информации от шпионов, анализе открытых источников и допросах пленных, зачастую оказывались неэффективными, предоставляя неполные, неточные и противоречивые данные. Во время Второй мировой войны перед Союзниками встала острая необходимость определить реальные масштабы производства военной техники в нацистской Германии.
Решением этой проблемы стал нетрадиционный подход, основанный на применении статистического анализа к, казалось бы, незначительным деталям – маркировке на захваченном немецком оборудовании. Этот метод, известный как "Германская танковая проблема", позволил получить удивительно точные оценки производства немецких танков, превосходящие по точности данные, полученные традиционной разведкой. История германской танковой проблемы демонстрирует, как статистические методы способны превратить, казалось бы, хаотичную информацию в ценные разведывательные данные, играя решающую роль в стратегическом планировании и ведении боевых действий. Однако, статистическим анализом производства танков всё не ограничивалось.
Читать: https://habr.com/ru/articles/871300/
#ru
@big_data_analysis | Другие наши каналы
В разведке, где информация является ключевым фактором успеха, важнейшей задачей всегда была оценка потенциала и возможностей противника. Традиционные методы, основанные на сборе информации от шпионов, анализе открытых источников и допросах пленных, зачастую оказывались неэффективными, предоставляя неполные, неточные и противоречивые данные. Во время Второй мировой войны перед Союзниками встала острая необходимость определить реальные масштабы производства военной техники в нацистской Германии.
Решением этой проблемы стал нетрадиционный подход, основанный на применении статистического анализа к, казалось бы, незначительным деталям – маркировке на захваченном немецком оборудовании. Этот метод, известный как "Германская танковая проблема", позволил получить удивительно точные оценки производства немецких танков, превосходящие по точности данные, полученные традиционной разведкой. История германской танковой проблемы демонстрирует, как статистические методы способны превратить, казалось бы, хаотичную информацию в ценные разведывательные данные, играя решающую роль в стратегическом планировании и ведении боевых действий. Однако, статистическим анализом производства танков всё не ограничивалось.
Читать: https://habr.com/ru/articles/871300/
#ru
@big_data_analysis | Другие наши каналы
👍1
Оптимизация SQL запросов
Оптимизация SQL-запросов является одной из ключевых задач при работе с реляционными базами данных. Эффективные SQL-запросы позволяют значительно улучшить производительность приложений и обеспечить более быстрый доступ к данным. В данной статье мы рассмотрим как переписать запрос, чтобы выполнялся быстрее. В статье пойдет речь о PostgreSQL, хотя применять данные советы к любой базе данных SQL Ниже будут представлены термины и операторы, о которых пойдет в данной статье.
Читать про оптимизацию
Читать: https://habr.com/ru/articles/861604/
#ru
@big_data_analysis | Другие наши каналы
Оптимизация SQL-запросов является одной из ключевых задач при работе с реляционными базами данных. Эффективные SQL-запросы позволяют значительно улучшить производительность приложений и обеспечить более быстрый доступ к данным. В данной статье мы рассмотрим как переписать запрос, чтобы выполнялся быстрее. В статье пойдет речь о PostgreSQL, хотя применять данные советы к любой базе данных SQL Ниже будут представлены термины и операторы, о которых пойдет в данной статье.
Читать про оптимизацию
Читать: https://habr.com/ru/articles/861604/
#ru
@big_data_analysis | Другие наши каналы
Как выбрать ноутбук или ПК для программирования?
Как выбрать ноутбук или ПК для программирования. Показываем требования к железу для программистов. Рассматриваем основные нюансы ✔ Tproger
Читать: «Как выбрать ноутбук или ПК для программирования?»
#ru
@big_data_analysis | Другие наши каналы
Как выбрать ноутбук или ПК для программирования. Показываем требования к железу для программистов. Рассматриваем основные нюансы ✔ Tproger
Читать: «Как выбрать ноутбук или ПК для программирования?»
#ru
@big_data_analysis | Другие наши каналы
🤣2
Получение SQL для PostgreSQL из DAX на основе AI
Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с Power BI на другой продукт требуется время на перевод DAX логики из Power BI. В связи с этим актуальны инструменты расширения списка платформ, на которых можно использовать DAX без Power BI.
Тем, кто интересуется «переводом» DAX на PostgreSQL — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/871932/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Популярным аналитическим языком является DAX, и он используется во множестве проектов. Соответственно, значительная часть бизнес-логики дашбордов реализована на DAX, и при переходе с Power BI на другой продукт требуется время на перевод DAX логики из Power BI. В связи с этим актуальны инструменты расширения списка платформ, на которых можно использовать DAX без Power BI.
Тем, кто интересуется «переводом» DAX на PostgreSQL — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/871932/
#ru
@big_data_analysis | Другие наши каналы
NVIDIA Cosmos: система генерации физически достоверных симуляций для ИИ
Статья основана на анализе публично доступной информации о платформе NVIDIA Cosmos, включая официальные анонсы и технические блоги.
На выставке CES 2025 компания NVIDIA представила революционную платформу Cosmos, которая обещает кардинально изменить подход к разработке систем искусственного интеллекта, взаимодействующих с физическим миром. Платформа уже привлекла внимание ключевых игроков рынка, таких как Uber, Waabi и XPENG, что говорит о её серьёзном потенциале. В этой статье попытался разобраться, почему Cosmos вызывает такой интерес и какие возможности она открывает для разработчиков.
Читать: https://habr.com/ru/articles/872112/
#ru
@big_data_analysis | Другие наши каналы
Статья основана на анализе публично доступной информации о платформе NVIDIA Cosmos, включая официальные анонсы и технические блоги.
На выставке CES 2025 компания NVIDIA представила революционную платформу Cosmos, которая обещает кардинально изменить подход к разработке систем искусственного интеллекта, взаимодействующих с физическим миром. Платформа уже привлекла внимание ключевых игроков рынка, таких как Uber, Waabi и XPENG, что говорит о её серьёзном потенциале. В этой статье попытался разобраться, почему Cosmos вызывает такой интерес и какие возможности она открывает для разработчиков.
Читать: https://habr.com/ru/articles/872112/
#ru
@big_data_analysis | Другие наши каналы
Перенос данных с Rclone: руководство по настройке
Текст: Узнайте, как использовать Rclone для миграции данных в OCI Object Storage и Hadoop Distributed File System. Статья подробно описывает процесс установки и конфигурации, облегчая перенос данных в современные облачные и распределённые системы хранения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Текст: Узнайте, как использовать Rclone для миграции данных в OCI Object Storage и Hadoop Distributed File System. Статья подробно описывает процесс установки и конфигурации, облегчая перенос данных в современные облачные и распределённые системы хранения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Copy Data to Oracle Cloud Using Rclone
This article describes how to setup and configure Rclone to copy data to OCI Object Storage and Hadoop Distributed File System.
Улучшение RAG с помощью графов знаний
Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.
Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.
Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»
Читать: https://habr.com/ru/articles/871700/
#ru
@big_data_analysis | Другие наши каналы
Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.
Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.
Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»
Читать: https://habr.com/ru/articles/871700/
#ru
@big_data_analysis | Другие наши каналы
В PostgreSQL необходим официальный бенчмарк для функции uuidv7()
В 18 версии PostgreSQL появится функция uuidv7(). Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4.
Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем.
Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.
Читать: https://habr.com/ru/articles/872306/
#ru
@big_data_analysis | Другие наши каналы
В 18 версии PostgreSQL появится функция uuidv7(). Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4.
Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем.
Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.
Читать: https://habr.com/ru/articles/872306/
#ru
@big_data_analysis | Другие наши каналы
Эра «Живого» Интеллекта
Подробный перевод ежегодного обзора будущего технологий и тенденций развития от Future Today Institute - вышедшего в декабре 2024 года.
Оригинал доклада "The Era of Living Intelligence" можно посмотреть ЗДЕСЬ.
Авторы - Amy Webb и Sam Jordan.
Читать: https://habr.com/ru/articles/872984/
#ru
@big_data_analysis | Другие наши каналы
Подробный перевод ежегодного обзора будущего технологий и тенденций развития от Future Today Institute - вышедшего в декабре 2024 года.
Оригинал доклада "The Era of Living Intelligence" можно посмотреть ЗДЕСЬ.
Авторы - Amy Webb и Sam Jordan.
Читать: https://habr.com/ru/articles/872984/
#ru
@big_data_analysis | Другие наши каналы
Миграция данных: Понятие, виды и примеры на Python
Миграция данных — это важный процесс, который включает в себя перенос информации из одной системы хранения данных в другую. Это может быть необходимо по множеству причин, таких как обновление систем, интеграция новых технологий или соблюдение нормативных требований. В данной статье мы рассмотрим основные виды миграции данных и приведем примеры реализации некоторых из них на Python.
Читать: https://habr.com/ru/articles/872996/
#ru
@big_data_analysis | Другие наши каналы
Миграция данных — это важный процесс, который включает в себя перенос информации из одной системы хранения данных в другую. Это может быть необходимо по множеству причин, таких как обновление систем, интеграция новых технологий или соблюдение нормативных требований. В данной статье мы рассмотрим основные виды миграции данных и приведем примеры реализации некоторых из них на Python.
Читать: https://habr.com/ru/articles/872996/
#ru
@big_data_analysis | Другие наши каналы
Миграция данных: Понятие, виды и примеры на Python
Миграция данных — это важный процесс, который включает в себя перенос информации из одной системы хранения данных в другую. Это может быть необходимо по множеству причин, таких как обновление систем, интеграция новых технологий или соблюдение нормативных требований. В данной статье мы рассмотрим основные виды миграции данных и приведем примеры реализации некоторых из них на Python.
Читать: https://habr.com/ru/articles/872998/
#ru
@big_data_analysis | Другие наши каналы
Миграция данных — это важный процесс, который включает в себя перенос информации из одной системы хранения данных в другую. Это может быть необходимо по множеству причин, таких как обновление систем, интеграция новых технологий или соблюдение нормативных требований. В данной статье мы рассмотрим основные виды миграции данных и приведем примеры реализации некоторых из них на Python.
Читать: https://habr.com/ru/articles/872998/
#ru
@big_data_analysis | Другие наши каналы
Нейросети vs Stack Overflow: что происходит?
Источник изображения.
Stack Overflow, о котором, вероятно, знают на Хабре все, сейчас проигрывает неожиданному конкуренту — нейросетям. Пессимисты даже считают, что может завершиться без малого 20-летняя история проекта. Проблема в том, что все больше разработчиков предпочитают задавать свои вопросы не людям, а искусственному интеллекту. Так быстрее и во многих случаях эффективнее. Давайте разберемся, что там происходит.
Читать: https://habr.com/ru/companies/selectel/articles/872938/
#ru
@big_data_analysis | Другие наши каналы
Источник изображения.
Stack Overflow, о котором, вероятно, знают на Хабре все, сейчас проигрывает неожиданному конкуренту — нейросетям. Пессимисты даже считают, что может завершиться без малого 20-летняя история проекта. Проблема в том, что все больше разработчиков предпочитают задавать свои вопросы не людям, а искусственному интеллекту. Так быстрее и во многих случаях эффективнее. Давайте разберемся, что там происходит.
Читать: https://habr.com/ru/companies/selectel/articles/872938/
#ru
@big_data_analysis | Другие наши каналы