Книга: «Data mesh в действии»
Привет, Хаброжители!
Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.
Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.
Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.
Читать: https://habr.com/ru/companies/piter/articles/832488/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хаброжители!
Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.
Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.
Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.
Читать: https://habr.com/ru/companies/piter/articles/832488/
#ru
@big_data_analysis | Другие наши каналы
Как внедрить проверки качества данных с помощью greatexpectations
Обеспечение качества данных критически важно для любой производственной конвейера. В статье рассматривается применение библиотеки greatexpectations для создания проверок. Описываются основные концепции, такие как ожидания, валидации, источники данных, контрольные точки и контексты. Узнайте, как быстро настроить и запускать проверки качества данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Обеспечение качества данных критически важно для любой производственной конвейера. В статье рассматривается применение библиотеки greatexpectations для создания проверок. Описываются основные концепции, такие как ожидания, валидации, источники данных, контрольные точки и контексты. Узнайте, как быстро настроить и запускать проверки качества данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Startdataengineering
How to implement data quality checks with greatexpectations
Data quality checks are critical for any production pipeline. While there are many ways to implement data quality checks, the greatexpectations library is one of the popular ones. If you have wondered
1. How can you effectively use the greatexpectations library?…
1. How can you effectively use the greatexpectations library?…
Data Day 2024. Всё по полочкам. Секция 1
Data Day 2024. Всё по полочкам. Секция 1
Данная статья максимально подробно пересказывает информацию первой секции с недавно прошедшего форума Data Day.
Панельная дискуссия. ChatGPT где деньги?
На панельной дискуссии эксперты из ведущих компаний обсудили применение генеративного искусственного интеллекта (ИИ) и его влияние на бизнес-процессы.
Александр Крайнов из Яндекса поделился впечатляющими примерами, включая генерацию речи, которая уже незаметно заменяет человеческие голоса в навигаторах и ассистентах. Валентин Малых из ИТМО рассказал о необходимости безопасности при использовании генеративного ИИ, особенно в программировании. Илья Щиров из Райффайзенбанка отметил, как генерация изображений для профессиональных целей может заменить услуги фотографов. Елизавета Гончарова из AIRI подчеркнула удобство создания датасетов для тренировки моделей, что экономит ресурсы разработчиков.
Доклады отдельных специалистов
Петр Савостин из Т-Банка рассказал о своем опыте улучшения клиентского опыта с помощью анализа данных. Внедрение ИИ в мобильные приложения и мессенджеры Т-Банка улучшило автоматизацию процессов и сократило количество обращений клиентов.
Валентин Малых из ИТМО подчеркнул, что генеративный ИИ не всегда необходим. В большинстве задач можно использовать проверенные методы, что снижает затраты и ресурсы.
Елизавета Гончарова из AIRI рассказала о перспективах мультимодальных моделей, которые могут работать с текстами, изображениями, видео и аудио. Эти модели позволяют решать широкий спектр задач, от бронирования отелей до подбора технических устройств по фотографии.
Михаил Комаров из Ростелекома поделился опытом оптимизации процессов с помощью ИИ. Ростелеком активно использует ИИ для повышения эффективности и качества обслуживания, внедряя инновационные решения для обезличивания данных и их генерации.
В заключение, эксперты отметили, что успешное внедрение генеративного ИИ требует внимательного подхода к безопасности и этике, а также использования данных для улучшения бизнес-процессов и клиентского опыта.
Подробнее
Читать: https://habr.com/ru/articles/832692/
#ru
@big_data_analysis | Другие наши каналы
Data Day 2024. Всё по полочкам. Секция 1
Данная статья максимально подробно пересказывает информацию первой секции с недавно прошедшего форума Data Day.
Панельная дискуссия. ChatGPT где деньги?
На панельной дискуссии эксперты из ведущих компаний обсудили применение генеративного искусственного интеллекта (ИИ) и его влияние на бизнес-процессы.
Александр Крайнов из Яндекса поделился впечатляющими примерами, включая генерацию речи, которая уже незаметно заменяет человеческие голоса в навигаторах и ассистентах. Валентин Малых из ИТМО рассказал о необходимости безопасности при использовании генеративного ИИ, особенно в программировании. Илья Щиров из Райффайзенбанка отметил, как генерация изображений для профессиональных целей может заменить услуги фотографов. Елизавета Гончарова из AIRI подчеркнула удобство создания датасетов для тренировки моделей, что экономит ресурсы разработчиков.
Доклады отдельных специалистов
Петр Савостин из Т-Банка рассказал о своем опыте улучшения клиентского опыта с помощью анализа данных. Внедрение ИИ в мобильные приложения и мессенджеры Т-Банка улучшило автоматизацию процессов и сократило количество обращений клиентов.
Валентин Малых из ИТМО подчеркнул, что генеративный ИИ не всегда необходим. В большинстве задач можно использовать проверенные методы, что снижает затраты и ресурсы.
Елизавета Гончарова из AIRI рассказала о перспективах мультимодальных моделей, которые могут работать с текстами, изображениями, видео и аудио. Эти модели позволяют решать широкий спектр задач, от бронирования отелей до подбора технических устройств по фотографии.
Михаил Комаров из Ростелекома поделился опытом оптимизации процессов с помощью ИИ. Ростелеком активно использует ИИ для повышения эффективности и качества обслуживания, внедряя инновационные решения для обезличивания данных и их генерации.
В заключение, эксперты отметили, что успешное внедрение генеративного ИИ требует внимательного подхода к безопасности и этике, а также использования данных для улучшения бизнес-процессов и клиентского опыта.
Подробнее
Читать: https://habr.com/ru/articles/832692/
#ru
@big_data_analysis | Другие наши каналы
Сколько денег вы теряете на инцидентах
Привет! Меня зовут Женя, я аналитик данных в онлайн-школе Skyeng.
Недавно наши спецы на полтора часа уронили прод, и на этом мы потеряли… Кстати, а сколько?
Давайте разберёмся, зачем и как считать потери на инцидентах, можно ли делать это автоматически и как продать ценность расчётов бизнесу.
Читать: https://habr.com/ru/companies/skyeng/articles/832600/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Женя, я аналитик данных в онлайн-школе Skyeng.
Недавно наши спецы на полтора часа уронили прод, и на этом мы потеряли… Кстати, а сколько?
Давайте разберёмся, зачем и как считать потери на инцидентах, можно ли делать это автоматически и как продать ценность расчётов бизнесу.
Читать: https://habr.com/ru/companies/skyeng/articles/832600/
#ru
@big_data_analysis | Другие наши каналы
Потоковая обработка данных: анализ альтернативных решений
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Разбор SAM2 через колено в голову или революция в разметке видео
На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.
Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.
Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!
Читать: https://habr.com/ru/articles/833692/
#ru
@big_data_analysis | Другие наши каналы
На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.
Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.
Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!
Читать: https://habr.com/ru/articles/833692/
#ru
@big_data_analysis | Другие наши каналы
👍2
Искусственный интеллект в маркетинге: Революция, которая меняет правила игры
Искусственный интеллект революционизирует мир маркетинга, вводя новые правила игры, которые изменят саму суть взаимодействия с потребителями. Эксперты считают, что маркетологи пока могут обойтись без ИИ, но это лишь вопрос времени, когда он станет неотъемлемой частью их стратегий. Начнем погружение в тему с рассмотрения того, как ИИ применяют крупные компании и что изменится к 2030 году.
Читать: https://habr.com/ru/articles/833996/
#ru
@big_data_analysis | Другие наши каналы
Искусственный интеллект революционизирует мир маркетинга, вводя новые правила игры, которые изменят саму суть взаимодействия с потребителями. Эксперты считают, что маркетологи пока могут обойтись без ИИ, но это лишь вопрос времени, когда он станет неотъемлемой частью их стратегий. Начнем погружение в тему с рассмотрения того, как ИИ применяют крупные компании и что изменится к 2030 году.
Читать: https://habr.com/ru/articles/833996/
#ru
@big_data_analysis | Другие наши каналы
Полезные курсы по ИИ
Лето — прекрасное время для того, чтобы неспешно заниматься тем, что нам нравится. А что нам нравится? Конечно же, ИИ!
Мы хотим поделиться с вами бесплатными курсами по искусственному интеллекту и машинному обучению, которые идеально неспешно проходить летом. В следующий раз, когда будете смотреть очередной видосик на YouTube, подумайте про нашу подборочку!
1. Coursera “Deep Learning Specialization” (Специализация глубокое обучение)
Эта программа поможет понять возможности и проблемы глубокого обучения. Вы узнаете про архитектуры нейронных сетей, LSTM и трансформеры, освоите теоретические концепции и их применение, используя Python и TensorFlow, для решения задач распознавания речи, машинного перевода и др.
2. Coursera “ChatGPT Prompt Engineering for Developers” (Промт инжиниринг ChatGPT для разработчиков)
Маленький урок, в рамках которого вы научитесь быстро и эффективно создавать новые приложения с использованием LLM. Курс охватывает работу LLM, практики инженерии запросов и использование API LLM для различных задач. Знаете, кто ведет этот курс? Лиза Фулфорд (OpenAI) и Эндрю Нг (DeepLearningAI) —неплохой каст, да?
3. edX “HarvardX: Data Science: Machine Learning” (ГарвардХ: Наука о данных: Машинное обучение)
Крутой бесплатный курс от Гарвардского университета по машинному обучению — надо! Здесь вы пройдетесь по основам машинного обучения; узнаете, как выполнять кросс-валидацию; изучите несколько популярных алгоритмов машинного обучения и др.
4. Harvard University “Machine Learning and AI with Python” (Машинное обучение и ИИ на Python)
Читать: https://habr.com/ru/articles/834076/
#ru
@big_data_analysis | Другие наши каналы
Лето — прекрасное время для того, чтобы неспешно заниматься тем, что нам нравится. А что нам нравится? Конечно же, ИИ!
Мы хотим поделиться с вами бесплатными курсами по искусственному интеллекту и машинному обучению, которые идеально неспешно проходить летом. В следующий раз, когда будете смотреть очередной видосик на YouTube, подумайте про нашу подборочку!
1. Coursera “Deep Learning Specialization” (Специализация глубокое обучение)
Эта программа поможет понять возможности и проблемы глубокого обучения. Вы узнаете про архитектуры нейронных сетей, LSTM и трансформеры, освоите теоретические концепции и их применение, используя Python и TensorFlow, для решения задач распознавания речи, машинного перевода и др.
2. Coursera “ChatGPT Prompt Engineering for Developers” (Промт инжиниринг ChatGPT для разработчиков)
Маленький урок, в рамках которого вы научитесь быстро и эффективно создавать новые приложения с использованием LLM. Курс охватывает работу LLM, практики инженерии запросов и использование API LLM для различных задач. Знаете, кто ведет этот курс? Лиза Фулфорд (OpenAI) и Эндрю Нг (DeepLearningAI) —неплохой каст, да?
3. edX “HarvardX: Data Science: Machine Learning” (ГарвардХ: Наука о данных: Машинное обучение)
Крутой бесплатный курс от Гарвардского университета по машинному обучению — надо! Здесь вы пройдетесь по основам машинного обучения; узнаете, как выполнять кросс-валидацию; изучите несколько популярных алгоритмов машинного обучения и др.
4. Harvard University “Machine Learning and AI with Python” (Машинное обучение и ИИ на Python)
Читать: https://habr.com/ru/articles/834076/
#ru
@big_data_analysis | Другие наши каналы
Создание аналога Google Photos на собственном сервере
Создание собственного облачного хранилища с автоматическим менеджером фотографий.
Изучение опенсорс софта, нацеленного на автоматический менеджинг фотографий, сравнение софта между собой, установка на тестовый сервер, просмотр с разных устройств.
Читать: https://habr.com/ru/articles/834374/
#ru
@big_data_analysis | Другие наши каналы
Создание собственного облачного хранилища с автоматическим менеджером фотографий.
Изучение опенсорс софта, нацеленного на автоматический менеджинг фотографий, сравнение софта между собой, установка на тестовый сервер, просмотр с разных устройств.
Читать: https://habr.com/ru/articles/834374/
#ru
@big_data_analysis | Другие наши каналы
Анализ больших данных и «умный» компас для выбора локаций магазинов
Совместная магистратура по искусственному интеллекту ИТМО и Napoleon IT – AI Talent Hub в сентябре 2023 года запустила лабораторию по искусственному интеллекту c компанией X5 Tech на базе института. В течение 9 месяцев молодые ML-инженеры работали в одной команде с опытными экспертами X5 Tech и представили несколько новых продуктов для одного из крупнейших ритейлеров страны — X5 Group. По итогам стажировки, лучшие магистранты стали полноценными сотрудниками X5 Tech.
В рамках объединенной AI-лаборатории X5 Tech и AI Talent Hub разработали MVP системы с использованием моделей машинного обучения для внедрения в процессы ритейлера X5 Group.
Первый продукт, который создала команда, стал сервис с RAG (генерация с расширенным поиском). Сервис включает в себя генерацию ответа пользователям с учетом дополнительной релевантной информации из больших текстовых документов. Результат анализа больших данных формируется на основе технологии машинного обучения.
«Специалисты AI-лаборатории улучшили некоторые бизнес-метрики на 40% и встроили алгоритм RAG в нашу систему. Обновленная система позволит ускорить проверку актуальности информации в больших системах и автоматизировать QA-системы», — пояснил руководитель команды по разработке генеративных сетей в Х5 Group Мичил Егоров.
Вторым продуктом, который разработала объединенная команда, стала платформа Shop Placement Platform. Она позволяет прогнозировать выручку в определенной локации на основе геоданных и информации о продажах. Модель, наподобие компаса, помогает определить оптимальное местоположение новых магазинов для X5 Group, эффективно учитывая риски при планировании торговых точек.
Читать: https://habr.com/ru/articles/834504/
#ru
@big_data_analysis | Другие наши каналы
Совместная магистратура по искусственному интеллекту ИТМО и Napoleon IT – AI Talent Hub в сентябре 2023 года запустила лабораторию по искусственному интеллекту c компанией X5 Tech на базе института. В течение 9 месяцев молодые ML-инженеры работали в одной команде с опытными экспертами X5 Tech и представили несколько новых продуктов для одного из крупнейших ритейлеров страны — X5 Group. По итогам стажировки, лучшие магистранты стали полноценными сотрудниками X5 Tech.
В рамках объединенной AI-лаборатории X5 Tech и AI Talent Hub разработали MVP системы с использованием моделей машинного обучения для внедрения в процессы ритейлера X5 Group.
Первый продукт, который создала команда, стал сервис с RAG (генерация с расширенным поиском). Сервис включает в себя генерацию ответа пользователям с учетом дополнительной релевантной информации из больших текстовых документов. Результат анализа больших данных формируется на основе технологии машинного обучения.
«Специалисты AI-лаборатории улучшили некоторые бизнес-метрики на 40% и встроили алгоритм RAG в нашу систему. Обновленная система позволит ускорить проверку актуальности информации в больших системах и автоматизировать QA-системы», — пояснил руководитель команды по разработке генеративных сетей в Х5 Group Мичил Егоров.
Вторым продуктом, который разработала объединенная команда, стала платформа Shop Placement Platform. Она позволяет прогнозировать выручку в определенной локации на основе геоданных и информации о продажах. Модель, наподобие компаса, помогает определить оптимальное местоположение новых магазинов для X5 Group, эффективно учитывая риски при планировании торговых точек.
Читать: https://habr.com/ru/articles/834504/
#ru
@big_data_analysis | Другие наши каналы
👍3
Как правильно использовать большие данные: строим хранилища на MPP-СУБД
Немного контекста.
· Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики.
· Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.
· Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.
Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.
Читать: https://habr.com/ru/companies/mws/articles/834246/
#ru
@big_data_analysis | Другие наши каналы
Немного контекста.
· Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики.
· Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.
· Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.
Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.
Читать: https://habr.com/ru/companies/mws/articles/834246/
#ru
@big_data_analysis | Другие наши каналы
Уроки, извлеченные из масштабирования до многотерабайтных датасетов
В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.
Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/834506/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.
Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/834506/
#ru
@big_data_analysis | Другие наши каналы
Как настроить инкрементальную перезагрузку
В статье рассматриваются основные шаги по настройке инкрементальной перезагрузки данных. Детально объясняются все этапы процесса, что позволяет улучшить производительность и уменьшить время на обновление информации. Узнайте больше о тонкостях этой важной процедуры!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассматриваются основные шаги по настройке инкрементальной перезагрузки данных. Детально объясняются все этапы процесса, что позволяет улучшить производительность и уменьшить время на обновление информации. Узнайте больше о тонкостях этой важной процедуры!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Incrementally Reload Your Datasets
This blog serves as a guide to configure incremental reload.
Технологии в агрокомплексе: мастера, подмастерье и искусственный интеллект
Стартовал третий сезон нашего подкаста Data Therapy, в котором мы будем обсуждать практические кейсы применения ИИ и больших данных в конкретных сферах бизнеса. В первом эпизоде нового сезона мы говорим о применении искусственного интеллекта в сельском хозяйстве с экспертами из «Русагро», «Русагро Тех» и Х5 Tech.
Читать: https://habr.com/ru/companies/X5Tech/articles/834574/
#ru
@big_data_analysis | Другие наши каналы
Стартовал третий сезон нашего подкаста Data Therapy, в котором мы будем обсуждать практические кейсы применения ИИ и больших данных в конкретных сферах бизнеса. В первом эпизоде нового сезона мы говорим о применении искусственного интеллекта в сельском хозяйстве с экспертами из «Русагро», «Русагро Тех» и Х5 Tech.
Читать: https://habr.com/ru/companies/X5Tech/articles/834574/
#ru
@big_data_analysis | Другие наши каналы
Репликация: создание кластера, подключение, изменения настроек таблицы в кластере
Привет, я Майк.
Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками.
Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:
Читать: https://habr.com/ru/articles/834980/
#ru
@big_data_analysis | Другие наши каналы
Привет, я Майк.
Недавно я начал работать в компании Manticore на должности Developer Advocate. Я не совсем далёк от ИТ, но сейчас активно осваиваю современные технологии. В этом блоге я буду делиться своим опытом и тем, что узнаю о Manticore. Я планирую вести дневник, где буду рассказывать, что такое Manticore и как с ним работать. Давайте вместе разбираться, как все устроено, выявлять проблемы и взаимодействовать с разработчиками.
Если вам интересно изучать Manticore вместе со мной, я буду держать вас в курсе в:
Читать: https://habr.com/ru/articles/834980/
#ru
@big_data_analysis | Другие наши каналы
Конспект-обзор на статьи по Recsys+Transformers
Конспект-обзор на статьи по Recsys+Transformers
Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.
Читать: https://habr.com/ru/articles/835380/
#ru
@big_data_analysis | Другие наши каналы
Конспект-обзор на статьи по Recsys+Transformers
Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.
Читать: https://habr.com/ru/articles/835380/
#ru
@big_data_analysis | Другие наши каналы
Как дообучать LLM с помощью Supervised Fine-Tuning
Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.
Этапы обучения LLM
На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать: https://habr.com/ru/articles/830396/
#ru
@big_data_analysis | Другие наши каналы
Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.
Этапы обучения LLM
На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать: https://habr.com/ru/articles/830396/
#ru
@big_data_analysis | Другие наши каналы
Как быстро и эффективно работать с большими JSON-файлами
Как работать с большими JSON файлами. Показываем основные способы работы с Big JSON и возможные проблемы. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Как быстро и эффективно работать с большими JSON-файлами»
#ru
@big_data_analysis | Другие наши каналы
Как работать с большими JSON файлами. Показываем основные способы работы с Big JSON и возможные проблемы. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Как быстро и эффективно работать с большими JSON-файлами»
#ru
@big_data_analysis | Другие наши каналы
Как построить и развернуть ML-пайплайн в Яндекс Облаке. Практическое руководство
В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.
Читать: https://habr.com/ru/companies/lanit/articles/830446/
#ru
@big_data_analysis | Другие наши каналы
В новой статье CleverData мы расскажем о проектировании ML-пайплайна предсказания целевого действия с помощью Yandex Cloud. Пайплайн необходим для автоматического обмена данными с CDP CleverData Join - использования информации с платформы для обучения ML-моделей и формирования прогнозов поведения каждого пользователя. На примерах рассмотрим использование API сервисов Yandex Cloud, коснемся алгоритмов обработки данных и обучения ML-модели, а также расскажем о возникших проблемах. Под катом делимся кодом.
Читать: https://habr.com/ru/companies/lanit/articles/830446/
#ru
@big_data_analysis | Другие наши каналы
Как подготовиться к собеседованию на инженера данных
Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
👍1