📝 Суммаризация текста: основные подходы
Мы каждодневно сталкиваемся с потоком различной информации, в том числе и текстовой. Зачастую не хочется читать длинный текст целиком, чтобы понять его суть, и тогда мы пытаемся найти краткое содержание или читать только отдельные абзацы. Со временем так появилась задача суммаризации, которая ставит своей целью получение краткой аннотации длинного текста.
Глобально все модели для суммаризации делятся на два класса: экстрактивные и абстрактивные.
1️⃣ В процессе экстрактивной суммаризации аннотация составляется из отдельных частей исходного текста, например, целых предложений или абзацев. В качестве конкретных методов можно выделить семейство алгоритмов на графах, таких как TextRank и LexRank - в этих моделях строится граф, в котором вершинами являются сегменты текста, а ребрами - связи между ними. Затем для каждой вершины рассчитывается ее вес для создания итоговой аннотации.
В целом экстрактивные модели, как правило, проще - их гораздо легче реализовать, однако качество работы оставляет желать лучшего: полученные тексты будут лишены гибкости, связности и согласованности между собой.
2️⃣ В случае абстрактивной суммаризации модель генерирует новый текст, содержащий основную информацию из исходного. Фактически, модель для абстрактивной суммаризации обычно является нейросетевой моделью с архитектурой Encoder-Decoder. Эта архитектура предполагает, что нейросеть состоит из двух частей, первая - энкодер, создает скрытое представление текста на входе и передает его второй части - декодеру, который и генерирует аннотацию.
Разумеется, подобные модели сложнее в реализации, но и качество полученных результатов намного превосходит экстрактивные методы. На практике, сегодня пальму первенства в этой задаче, как и во многих других, держат трансформеры, при этом многие модели выложены в open-source, а, значит, доступны и для ваших проектов.
Мы каждодневно сталкиваемся с потоком различной информации, в том числе и текстовой. Зачастую не хочется читать длинный текст целиком, чтобы понять его суть, и тогда мы пытаемся найти краткое содержание или читать только отдельные абзацы. Со временем так появилась задача суммаризации, которая ставит своей целью получение краткой аннотации длинного текста.
Глобально все модели для суммаризации делятся на два класса: экстрактивные и абстрактивные.
1️⃣ В процессе экстрактивной суммаризации аннотация составляется из отдельных частей исходного текста, например, целых предложений или абзацев. В качестве конкретных методов можно выделить семейство алгоритмов на графах, таких как TextRank и LexRank - в этих моделях строится граф, в котором вершинами являются сегменты текста, а ребрами - связи между ними. Затем для каждой вершины рассчитывается ее вес для создания итоговой аннотации.
В целом экстрактивные модели, как правило, проще - их гораздо легче реализовать, однако качество работы оставляет желать лучшего: полученные тексты будут лишены гибкости, связности и согласованности между собой.
2️⃣ В случае абстрактивной суммаризации модель генерирует новый текст, содержащий основную информацию из исходного. Фактически, модель для абстрактивной суммаризации обычно является нейросетевой моделью с архитектурой Encoder-Decoder. Эта архитектура предполагает, что нейросеть состоит из двух частей, первая - энкодер, создает скрытое представление текста на входе и передает его второй части - декодеру, который и генерирует аннотацию.
Разумеется, подобные модели сложнее в реализации, но и качество полученных результатов намного превосходит экстрактивные методы. На практике, сегодня пальму первенства в этой задаче, как и во многих других, держат трансформеры, при этом многие модели выложены в open-source, а, значит, доступны и для ваших проектов.
👍21⚡1
🥋 ChatGPT vs Программисты: кто победит в битве за будущее?
🤖 В новом ролике мы поговорили с экспертом из области NLP Айдаром Валеевым (Digital Habits, ex EORA) как работает ChatGPT. Обсудили сможет ли такая модель заменить программистов в ближайшей перспективе, причем ответ дали, исходя из того, как устроен алгоритм, это дает больше понимания на что он способен.
Затронули такие интересные темы как суммаризация исходного кода, зачем она нужна программистам, а также поговорили про техдолг.
🚀 Кроме того, мы рады сообщить, что мы запускаем курс по Natural Language Processing для начинающих, где Айдар является автором и лектором. Курс подойдет всем, кто хочет работать в области обработки естественного языка и стать специалистом по NLP.
Помимо теории и практических заданий, мы предусмотрели дополнительные мастер-классы с экспертами из области NLP, которые поделятся реальными примерами использования NLP в компаниях с разбором теории и кода на python.
Самые внимательные зрители получат промокод на скидку в 10% при оплате курса, всего доступно только 30 штук.
https://youtu.be/N9LaI01atZU
🤖 В новом ролике мы поговорили с экспертом из области NLP Айдаром Валеевым (Digital Habits, ex EORA) как работает ChatGPT. Обсудили сможет ли такая модель заменить программистов в ближайшей перспективе, причем ответ дали, исходя из того, как устроен алгоритм, это дает больше понимания на что он способен.
Затронули такие интересные темы как суммаризация исходного кода, зачем она нужна программистам, а также поговорили про техдолг.
🚀 Кроме того, мы рады сообщить, что мы запускаем курс по Natural Language Processing для начинающих, где Айдар является автором и лектором. Курс подойдет всем, кто хочет работать в области обработки естественного языка и стать специалистом по NLP.
Помимо теории и практических заданий, мы предусмотрели дополнительные мастер-классы с экспертами из области NLP, которые поделятся реальными примерами использования NLP в компаниях с разбором теории и кода на python.
Самые внимательные зрители получат промокод на скидку в 10% при оплате курса, всего доступно только 30 штук.
https://youtu.be/N9LaI01atZU
YouTube
ChatGPT: Революция в программировании или конец профессии? Айдар Валеев
Курс Easy Natural Language Processing (NLP) для начинающих https://pymagic.ru/easy-nlp
Промокод скидка 10% на курс EASYNLPMIRACL6
00:00 Айдар Валеев. Какие проекты NLP делал
04:33 Суммаризация исходного кода
06:16 Система CodeAche, которая позволяет отслеживать…
Промокод скидка 10% на курс EASYNLPMIRACL6
00:00 Айдар Валеев. Какие проекты NLP делал
04:33 Суммаризация исходного кода
06:16 Система CodeAche, которая позволяет отслеживать…
👍10❤5❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💭 НЕЙРОСЕТЬ ГЕНЕРИРУЕТ ВИДЕО
NVIDIA показала новую нейросеть VideoLDM, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.
💬 На вход нейросеть получает текстовое описание, а на выходе создается видеоролик - множество разнообразных, согласованных по времени изображений с неплохим качеством. При этом максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частотой 24 кадра в секунду.
✅ Video LDM генерирует ролики покадрово, используя при этом Stable Diffusion (нейросеть, которая позволяет генерировать изображения на основе текстового запроса)
👁️ Сейчас VideoLDM тестируют внутри NVIDIA. В компании отмечают, что добились заметных успехов по качеству видео относительно текстового запроса всего за месяц.
Когда именно нейросетью смогут воспользоваться все желающие, неизвестно.
P.S. Друзья, на наших глазах современные технологии создают «новое искусство». Интересно, скоро ли мы увидим боевик, созданный нейросетью по сценарию известного режиссера? 🧐
NVIDIA показала новую нейросеть VideoLDM, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.
💬 На вход нейросеть получает текстовое описание, а на выходе создается видеоролик - множество разнообразных, согласованных по времени изображений с неплохим качеством. При этом максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частотой 24 кадра в секунду.
✅ Video LDM генерирует ролики покадрово, используя при этом Stable Diffusion (нейросеть, которая позволяет генерировать изображения на основе текстового запроса)
👁️ Сейчас VideoLDM тестируют внутри NVIDIA. В компании отмечают, что добились заметных успехов по качеству видео относительно текстового запроса всего за месяц.
Когда именно нейросетью смогут воспользоваться все желающие, неизвестно.
P.S. Друзья, на наших глазах современные технологии создают «новое искусство». Интересно, скоро ли мы увидим боевик, созданный нейросетью по сценарию известного режиссера? 🧐
👍13🔥7❤3
Задача классификации целых текстов кажется довольно привычной, но несколько обособленно от нее стоит задача классификации токенов, в которой каждому токену присваивается некоторая метка. К таким задачам можно отнести распознавание именованных сущностей (Named Entity Recognition).
🤔 Распознавание именованных сущностей нацелено на поиск и классификацию последовательностей токенов, представляющих собой имена собственные, адреса, наименования компаний и тп. Сложность представляет то, что в определенных контекстах одно и то же слово может как быть именованной сущностью, так и не быть ей. Например, есть разница между словом "мегафон" - устройством звукоусиления, и наименованием компании "Мегафон". Также очень часто сущности представляют собой связные последовательности из нескольких токенов, поэтому модель должна уметь находить их начало и конец.
📝 Для корректного поиска последовательностей во время разметки, как правило, используют нотацию BIO. Метка B (beginning) обозначает начало именованной сущности, метка I (inside) - внутренний токен, а O (outside) - любое слово, не относящееся к целевой последовательности.
✅ Чтобы оценить качество решения задачи применяют стандартные метрики классификации, такие как точность, полнота и F1-мера.
⌛️ В прошлом NER-задачу решали с помощью rule-based методов - систем, построенных на правилах, например, таких как регулярные выражения. На смену им пришли нейросетевые архитектуры в структуре которых были biLSTM слои - двунаправленные рекуррентные слои, умеющие читать тексты в двух направлениях, слева направо и обратно. Сегодня же SOTA-качество традиционно демонстрируют трансформерные архитектуры.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍7
🧠 Как правило, если мы слышим термины "сверточная нейронная сеть" или "сверточные слои", в сознании моментально появляются ассоциации с обработкой изображений. Действительно, именно благодаря сверткам в прошлом произошел прорыв в области компьютерного зрения, и на этом фоне удивительно допускать мысль об использовании подобных моделей в задачах NLP. Тем не менее это возможно.
📌 Фактически операция свертки представляет собой скольжение матрицы-фильтра по матрице входных данных и выполнение операции скалярного произведения. Это приводит нас к необходимости представить тексты на входе в матричном виде, и простейший способ это реализовать – сопоставить каждому тексту матрицу из конкатенированных эмбеддингов токенов.
📌 Казалось бы, после такого преобразования можно смело применять операцию свертки, однако есть нюанс: теперь входные данные имеют два измерения: высота – размерность вектора эмбеддинга, и ширина, равная количеству токенов в тексте. При этом незачем двигать фильтр свертки по вертикали, захватывая отдельные куски эмбеддингов токенов, – для нас они имеют смысл только при рассмотрении векторов полностью. Значит, наш фильтр будет двигаться только в одном измерении, по ширине входной матрицы, и мы получаем так называемую одномерную свертку (1D convolution).
📌 Как правило, после применения сверточного слоя к данным традиционно проводят пулинг – уплотнение карты признаков в виде усреднения или взятия максимального элемента, но в случае текстовых данных используется особый Max Over Time Pooling – взятие максимального элемента по всей ширине полученной матрицы.
Разумеется, в описанной архитектуре можно использовать несколько фильтров свертки разного размера, а также стекать сверточные слои, усложняя конструкцию модели и достигая более хорошей обобщающей способности.
📈 В целом сверточные сети проигрывают рекуррентным сетям в отношении обработки текстовых данных, однако демонстрируют неплохую эффективность в задачах классификации текстов и последовательностей токенов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Компьютерное зрение
В новом ролике поговорили про перспективы такого направления как компьютерное зрение с Александром Мотыко к.т.н., доцентом кафедры телевидения и видеотехники СПбГЭТУ «ЛЭТИ».
🚀 Александр имеет более 80 научных публикаций на тему цифровой обработки изображений, видеоаналитики, интеллектуальных телевизионных систем, колориметрии.
Кстати, он также становился несколько раз лучшим преподавателем по мнению студентов, конечно, мы не могли не обсудить как можно заинтересовать и мотивировать ученика к обучению.
Было очень интересно поговорить про то, как Computer Vision помогает врачам при проведении лапароскопии, смогут ли алгоритмы в будущем заменить врачей, а также про популярные задачи, такие как распознавание лиц, автономную навигацию и распознавание текстов.
https://youtu.be/C6si6HB9ISU
В новом ролике поговорили про перспективы такого направления как компьютерное зрение с Александром Мотыко к.т.н., доцентом кафедры телевидения и видеотехники СПбГЭТУ «ЛЭТИ».
🚀 Александр имеет более 80 научных публикаций на тему цифровой обработки изображений, видеоаналитики, интеллектуальных телевизионных систем, колориметрии.
Кстати, он также становился несколько раз лучшим преподавателем по мнению студентов, конечно, мы не могли не обсудить как можно заинтересовать и мотивировать ученика к обучению.
Было очень интересно поговорить про то, как Computer Vision помогает врачам при проведении лапароскопии, смогут ли алгоритмы в будущем заменить врачей, а также про популярные задачи, такие как распознавание лиц, автономную навигацию и распознавание текстов.
https://youtu.be/C6si6HB9ISU
👍15🔥7⚡1👏1
🚀 Друзья, с 19 июня у нас стартует курс по обработке естественного языка NLP. Это отдельная углубленная программа, которая предназначена для тех, кто в дальнейшем хочет работать NLP специалистом, либо реализовывать свои проекты в данной области.
Студенты курса смогут получать поддержку в Discord. Там вы сможете задавать вопросы по материалам, возможно вам будет нужна помощь в реализации вашего рабочего проекта по NLP.
✅ Кратко пробежимся по программе:
⁃ Что такое NLP? Предобработка текста (токенизация, стемминг и т.д.)
⁃ Напишем свой чат бот на регулярках и запустим его в телеграмм
⁃ Лексический анализ. WordNet, TF-IDF, LSA
⁃ Что такое эмбеддинги? Напишем простейшую нейронную сеть, которую обучим для предсказания следующего слова
⁃ Обучение эмбеддингов для слов с помощью Word2vec, fastText и GloVe
⁃ Как устроены и работают Transformers. Разберем как обучается BERT
⁃ Зачем нужен Transfer Learning? GPT и чем она примечательна
⁃ Пример из опыта: «Классификация намерений и FAQ. Извлечение товаров и жалоб»
⁃ Научимся применять полученные знания для различных задач: распознавание сущностей, получение тематик, анализ тональности, адаптация к домену, генерация эмбеддингов для узкой задачи
Дополнительно у нас будет разбор реальных кейсов из индустрии с примерами кода от специалистов из Ozon Tech и Delivery Hero:
⁃ Как развернуть большие модели (на примере Transformers) и подружить их с инфраструктурой
⁃ Как расшифровывать звонки в текст, сделать классификацию и провести пост анализ
Более подробная информация о курсе на сайте PyMagic
По промокоду EASYNLPTG вы сможете получить доп скидку в 15% при полной оплате
Также мы принимаем платежи из-за рубежа 🌎
Please open Telegram to view this post
VIEW IN TELEGRAM
pymagic.ru
Easy Natural Language Processing — курс для начинающих
Уровень junior-middle
🔥15👍7❤4⚡1
🤑Друзья, поговорим сегодня в вами на тему, которая волнует, кажется, 99% людей, желающих быстро «вкатиться в АйТи» и получать огромные суммы денег.
🫶Уверена, что моя аудитория давно понимает, что «легких больших денег» в нашей сфере заработать не так то просто. Но если ты горишь своим делом, то для тебя это будет как интересное приключение, где каждый раз, преодолевая новые этапы, ты получаешь заряд положительных эмоций и увеличение дохода)
🤕 Работа в сфере data science это ежедневный труд, который требует:
⁃ Постоянного развития
⁃ Колоссальной усидчивости
⁃ Ответственности
⁃ Самодисциплины
⁃ Умения принимать критику
⁃ Интереса к сфере, в которой работаешь
Список можно продолжать бесконечно. В принципе это применимо к любой другой области, где вы хотите стать профессионалом своего дела.
🤓Эта сфера точно не про людей, которые ждут быстрых результатов. Но вы же помните, что если развитие в данной области вам по душе, то можно справиться абсолютно со всеми трудностями.
📍Перейдем к главному вопросу. Реальный опыт в ИТ - это самое ценное, что можно получить. При правильном использовании опыта рождается профессионализм.
✅ У меня есть ни одна история, когда ребята после курсов шли работать стажерами в компании за 20-40 тысяч. Спустя уже пол года эти люди работали, получая достойную зарплату.
«Я пройду это стажировку за 20-30 тысяч, если на данный момент меня не берут на более высокооплачиваемую должность дата саентиста. И вскоре, буду «стоить» дороже, чем те, кто пропускал такую возможность получить ОПЫТ»
💚Никого не призываю рассуждать подобным образом. Понятно, что в этой истории есть тысячу «но»…
Все ситуации разные, главное нужно пробовать и экспериментировать, особенно, если считаете, что это ваше)
А что думаете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🤔3👌2🔥1
🚀 Друзья, с 19 июня у нас стартует курс по компьютерному зрению. Мы подготовили для вас мощную программу по Computer Vision от экспертов в этой области с огромным количеством теории и практики, а также примерами пайпланов вывода таких решений в продакшн.
📚 В ходе курса вы изучите природу изображений, узнаете о различных задачах компьютерного зрения, включая классификацию изображений, детектирование объектов, сегментацию сцен и многое другое. Познакомитесь с новейшими нейросетевыми архитектурами, а также научитесь использовать современный технический стек: OpenCV, TensorFlow, Keras и PyTorch и другие инструменты.
👩💻 Помимо этого, вам будут доступны мастер-классы с примерами кода от экспертов ведущих компаний, таких как MTS AI, Teads и СКБ Контур. На мастер-классах вы узнаете о:
• Виртуальной рекламе в компьютерном зрении и о том, как вывести такое решение в продакшн • Как при помощи видеоаналитики анализировать поток клиентов, отслеживать наличие сотрудников на рабочем месте и многое другое с разбором пайплайна решения в продакшн • Как вести и внедрять индустриальные Computer Vision проекты на примере проекта по анализу рукописного текстаБолее подробная информация о курсе на сайте PyMagic
По промокоду EASYCVTG вы сможете получить доп скидку в 15% при полной оплате
Также мы принимаем на сайте платежи из-за рубежа 🌎
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤2👍2⚡1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎞 Text-to-video модели
Всего несколько лет назад появились первые модели генерации изображений по текстовому описанию, и вот теперь мы наблюдаем невероятные арты и реалистичные картинки от Midjourney и подобных моделей. Однако, можно вспомнить о еще более амбициозной задаче - генерации видео по тексту.
Современные модели генерации видео чаще всего основаны на диффузии, но, несмотря на потрясающие достижения диффузионных моделей с изображениями, создание видеоряда все еще остается трудоемким занятием.
🕒 Во-первых, хотя отдельные кадры и являются изображениями, во время их генерации необходимо учесть последовательность, временную согласованность происходящего. Это увеличивает вычислительные затраты модели как во время обучения, так и во время инференса. Фактически необходимо двигаться по последовательности кадров скользящим окном, что значительно замедляет работу и увеличивает вычислительную сложность.
📚 Во-вторых, затрудняет обучение нехватка хорошо аннотированных датасетов. Мультимодальные наборы данных для преобразования текста в видео немногочисленны и часто плохо размечены, что затрудняет выявление паттернов сложной семантики движений.
📝 При наличии набора данных, часто одного предложения или заголовка видео недостаточно, чтобы дать модели всеобъемлющее понимание контекста и динамики сцены. В идеале видео должно быть аннотировано целым набором текстовых описаний сюжета.
🚀 Тем не менее, даже с учетом этих сложностей уже есть модели, успешно генерирующие видео небольшой длины, например, Gen-1 от компании Runway Research. Эта модель синтезирует результат из существующего видео и текстового промпта, сочетая выходы двух диффузионных моделей, одна из которых генерирует общую структуру видео, а другая - изображения по текстовому описанию. А ModelScope text2video напрямую генерирует видео только по тексту, поданному на вход.
Полезные ссылки:
https://modelscope.cn/models/damo/text-to-video-synthesis/summary
https://research.runwayml.com/gen1
Всего несколько лет назад появились первые модели генерации изображений по текстовому описанию, и вот теперь мы наблюдаем невероятные арты и реалистичные картинки от Midjourney и подобных моделей. Однако, можно вспомнить о еще более амбициозной задаче - генерации видео по тексту.
Современные модели генерации видео чаще всего основаны на диффузии, но, несмотря на потрясающие достижения диффузионных моделей с изображениями, создание видеоряда все еще остается трудоемким занятием.
🕒 Во-первых, хотя отдельные кадры и являются изображениями, во время их генерации необходимо учесть последовательность, временную согласованность происходящего. Это увеличивает вычислительные затраты модели как во время обучения, так и во время инференса. Фактически необходимо двигаться по последовательности кадров скользящим окном, что значительно замедляет работу и увеличивает вычислительную сложность.
📚 Во-вторых, затрудняет обучение нехватка хорошо аннотированных датасетов. Мультимодальные наборы данных для преобразования текста в видео немногочисленны и часто плохо размечены, что затрудняет выявление паттернов сложной семантики движений.
📝 При наличии набора данных, часто одного предложения или заголовка видео недостаточно, чтобы дать модели всеобъемлющее понимание контекста и динамики сцены. В идеале видео должно быть аннотировано целым набором текстовых описаний сюжета.
🚀 Тем не менее, даже с учетом этих сложностей уже есть модели, успешно генерирующие видео небольшой длины, например, Gen-1 от компании Runway Research. Эта модель синтезирует результат из существующего видео и текстового промпта, сочетая выходы двух диффузионных моделей, одна из которых генерирует общую структуру видео, а другая - изображения по текстовому описанию. А ModelScope text2video напрямую генерирует видео только по тексту, поданному на вход.
Полезные ссылки:
https://modelscope.cn/models/damo/text-to-video-synthesis/summary
https://research.runwayml.com/gen1
👍15🔥2❤1🤯1
🧐 ПОЧЕМУ НЕЙРОСЕТИ ТАКИЕ МОЩНЫЕ?
…Или сколько нужно полносвязных слоёв в нейронной сети, чтобы она могла восстанавливать более сложные закономерности, чем линейная модель?
👁️🗨️ Друзья, помните мы с вами обсуждали зачем нужны нелинейности в нейросетях. Мы говорили, что без использования «нелинейностей» набор линейных слоев не улучшит нашу модель (читаем так: обладает таким же эффектом, как и один линейный слой), поэтому после каждого линейного слоя важно применять нелинейность.
☝️ НО! двуслойная нейронная сеть, в которой есть два полносвязных слоя и одна нелинейность между ними, способна приблизить любую непрерывную функцию с заданной точностью.
✅ Такое утверждение следует из теоремы Цыбенко.
✏️ Эта теорема крайне важна, так как обеспечивает теоретическую основу для эффективности нейронных сетей в моделировании сложных функций и закономерностей в данных.
…Или сколько нужно полносвязных слоёв в нейронной сети, чтобы она могла восстанавливать более сложные закономерности, чем линейная модель?
👁️🗨️ Друзья, помните мы с вами обсуждали зачем нужны нелинейности в нейросетях. Мы говорили, что без использования «нелинейностей» набор линейных слоев не улучшит нашу модель (читаем так: обладает таким же эффектом, как и один линейный слой), поэтому после каждого линейного слоя важно применять нелинейность.
☝️ НО! двуслойная нейронная сеть, в которой есть два полносвязных слоя и одна нелинейность между ними, способна приблизить любую непрерывную функцию с заданной точностью.
✅ Такое утверждение следует из теоремы Цыбенко.
✏️ Эта теорема крайне важна, так как обеспечивает теоретическую основу для эффективности нейронных сетей в моделировании сложных функций и закономерностей в данных.
🔥23👍9
🎨 ВИЗУАЛИЗАЦИЯ В АНАЛИТИКЕ: ключевые принципы и лучшие практики
Эффективное визуальное представление результатов позволяет увидеть скрытые закономерности, раскрыть информацию и представить ее понятным образом. Ниже представлены основные ключевые принципы, которые позволят вам сделать графики понятными и читабельными:
✅ 1. Обязательно учитывайте цели визуализации. Определите, какую информацию вы хотите объяснить и кому она будет предназначена. Визуализация должна быть нацелена на достижение конкретных целей, будь то исследование данных, представление результатов или принятие решений.
✅ 2. Выбирайте правильные типы графиков. Разные типы графиков подходят для разных типов данных и задач. Например, столбчатые диаграммы хорошо подходят для сравнения значений, линейные графики показывают тренды во времени, точечные диаграммы помогают выявить корреляции, ящики с усами оценить средние и выявить выбросы.
✅ 3. Понятность графиков - один из ключевых аспектов визуализации данных. Используйте понятные подписи осей, заголовки и легенды, чтобы помочь читателям правильно интерпретировать данные.
✅ 4. Используйте цветовую схему с умом. Цвета в визуализации данных играют важную роль в привлечении внимания и выделении ключевой информации. Однако, неконтролируемое использование ярких и разнообразных цветов может привести к путанице и затруднить интерпретацию. Если в вашей компании используют определенную цветовую схему, то старайтесь придерживаться ее.
Выше вы можете увидеть примеры удачных (первые 2 графика) и неудачной (3ий график) визуализаций на одних и тех же данных.
⛔️ На 3-ем графике тяжело оценить абсолютные значения в каждом из месяцев (круги пересекаются, цвета очень схожи). Наличие большого кол-ва значений в легенде увеличивает время анализа.
👌 Два первых графика позволяют посмотреть не только на абсолютные значения, но и провести достаточно быстрое сравнение значений, где видно, например, что с апреля по май в 2022 году было самое наибольшое кол-во просмотров, а в эти же периоды в 2020 году - наименьшее.
Эффективное визуальное представление результатов позволяет увидеть скрытые закономерности, раскрыть информацию и представить ее понятным образом. Ниже представлены основные ключевые принципы, которые позволят вам сделать графики понятными и читабельными:
✅ 1. Обязательно учитывайте цели визуализации. Определите, какую информацию вы хотите объяснить и кому она будет предназначена. Визуализация должна быть нацелена на достижение конкретных целей, будь то исследование данных, представление результатов или принятие решений.
✅ 2. Выбирайте правильные типы графиков. Разные типы графиков подходят для разных типов данных и задач. Например, столбчатые диаграммы хорошо подходят для сравнения значений, линейные графики показывают тренды во времени, точечные диаграммы помогают выявить корреляции, ящики с усами оценить средние и выявить выбросы.
✅ 3. Понятность графиков - один из ключевых аспектов визуализации данных. Используйте понятные подписи осей, заголовки и легенды, чтобы помочь читателям правильно интерпретировать данные.
✅ 4. Используйте цветовую схему с умом. Цвета в визуализации данных играют важную роль в привлечении внимания и выделении ключевой информации. Однако, неконтролируемое использование ярких и разнообразных цветов может привести к путанице и затруднить интерпретацию. Если в вашей компании используют определенную цветовую схему, то старайтесь придерживаться ее.
Выше вы можете увидеть примеры удачных (первые 2 графика) и неудачной (3ий график) визуализаций на одних и тех же данных.
⛔️ На 3-ем графике тяжело оценить абсолютные значения в каждом из месяцев (круги пересекаются, цвета очень схожи). Наличие большого кол-ва значений в легенде увеличивает время анализа.
👌 Два первых графика позволяют посмотреть не только на абсолютные значения, но и провести достаточно быстрое сравнение значений, где видно, например, что с апреля по май в 2022 году было самое наибольшое кол-во просмотров, а в эти же периоды в 2020 году - наименьшее.
👍38❤2
Как стать специалистом в области NLP?
Друзья, уже 19 июня стартует курс по Natural Language Processing 🚀
✅ Программа составлялась с учетом того, чтобы вы смогли применять полученные знания и навыки в различных задачах, будь то это тематическое моделирование, NER, классификация текстов, разработка чат-ботов и многое другое.
✅ Не пройдём стороной и Deep Learning: познакомимся с DL фреймворками, разберемся в архитектурах нейросетей для NLP задач (RNN, Transformers…), SOTA решениях, как обучать BERT.
Мы подготовили множество примеров из реальной практики из разных доменов с разбором кода на Python, а не просто презентации с текстом 😉
👨💻Курс будет полезен как тем, кто только изучил классический ML (возможно, уже успел даже познакомиться с NLP), так и опытным специалистам, кто хочет начать профессионально специализироваться на обработке текста.
Программа курса соответствуют требованиям более 90% вакансий DS на позиции, где требуются знания NLP (по соответствующим разделам).
Более подробная информация о курсе на сайте PyMagic
По промокоду EASYNLPTG вы сможете получить доп скидку в 15% при полной оплате
Также мы принимаем платежи из-за рубежа 🌎
Друзья, уже 19 июня стартует курс по Natural Language Processing 🚀
✅ Программа составлялась с учетом того, чтобы вы смогли применять полученные знания и навыки в различных задачах, будь то это тематическое моделирование, NER, классификация текстов, разработка чат-ботов и многое другое.
✅ Не пройдём стороной и Deep Learning: познакомимся с DL фреймворками, разберемся в архитектурах нейросетей для NLP задач (RNN, Transformers…), SOTA решениях, как обучать BERT.
Мы подготовили множество примеров из реальной практики из разных доменов с разбором кода на Python, а не просто презентации с текстом 😉
👨💻Курс будет полезен как тем, кто только изучил классический ML (возможно, уже успел даже познакомиться с NLP), так и опытным специалистам, кто хочет начать профессионально специализироваться на обработке текста.
Программа курса соответствуют требованиям более 90% вакансий DS на позиции, где требуются знания NLP (по соответствующим разделам).
Более подробная информация о курсе на сайте PyMagic
По промокоду EASYNLPTG вы сможете получить доп скидку в 15% при полной оплате
Также мы принимаем платежи из-за рубежа 🌎
pymagic.ru
Easy Natural Language Processing — курс для начинающих
Уровень junior-middle
🔥14👍2🤯2
Какой ты зверь в Data Science? 🐅
В мире существует целый зоопарк профессий. Каждая профессия играет важную роль в Data Science, Big Data и других смежных областях. Узнай, какое животное символизирует твою специальность и как его уникальные качества помогут тебе достичь новых высот 🚀
🦉 Data Scientist - Сова. Является символом мудрости и интеллекта, что отражает ключевые качества DS. Совы достаточно сообразительны, особенно, что касается ловли добычи, а в случае Data Scientist - «ловля закономерностей». Большие глаза замечают почти все, что творится вокруг, так же как и Data Scientist работает с большими объемами данных
🦫 Data Engineer - Бобр. Умеют строить и создавать сложные конструкции. Аналогично бобру, Data Engineer создает и также поддерживает инфраструктуру для обработки и хранения данных
🐝 Machine Learning Engineer - Пчела. Как и пчела, ML Engineer в production-среде работает в команде и выполняет свою роль с четкой организацией и сотрудничеством с другими специалистами. Он работает над созданием стабильной и надежной инфраструктуры ML, чтобы ML модели могли успешно работать и принимать важные решения в реальном времени
🐬 Data Analyst - Дельфин. Известен своим интеллектом, аналитическими способностями. Data Analyst, подобно дельфину, занимается анализом данных, проводит исследования и извлекает ценные информации. Как и дельфин, Data Analyst также обладает коммуникативными навыками. Они не только проводят анализ данных, но и способны понятно представлять результаты своей работы, а также коммуницировать с другими участниками проекта
🐜 Big Data Architect - Муравей. Муравьи могут создавать сложные и большие муравейники, которые в разы больше их самих. Архитектор больших данных подобен муравью, который занимается проектированием детального слоя Big Data, он создает эффективную инфраструктуру для обработки и хранения больших объемов данных
🦁 Product Manager - Лев. Лев является символом лидерства и управления. Product Manager управляет разработкой и реализацией продуктов на основе данных и принимает важные решения.
При написании этого поста ни одно животное не пострадало 🐱
В мире существует целый зоопарк профессий. Каждая профессия играет важную роль в Data Science, Big Data и других смежных областях. Узнай, какое животное символизирует твою специальность и как его уникальные качества помогут тебе достичь новых высот 🚀
🦉 Data Scientist - Сова. Является символом мудрости и интеллекта, что отражает ключевые качества DS. Совы достаточно сообразительны, особенно, что касается ловли добычи, а в случае Data Scientist - «ловля закономерностей». Большие глаза замечают почти все, что творится вокруг, так же как и Data Scientist работает с большими объемами данных
🦫 Data Engineer - Бобр. Умеют строить и создавать сложные конструкции. Аналогично бобру, Data Engineer создает и также поддерживает инфраструктуру для обработки и хранения данных
🐝 Machine Learning Engineer - Пчела. Как и пчела, ML Engineer в production-среде работает в команде и выполняет свою роль с четкой организацией и сотрудничеством с другими специалистами. Он работает над созданием стабильной и надежной инфраструктуры ML, чтобы ML модели могли успешно работать и принимать важные решения в реальном времени
🐬 Data Analyst - Дельфин. Известен своим интеллектом, аналитическими способностями. Data Analyst, подобно дельфину, занимается анализом данных, проводит исследования и извлекает ценные информации. Как и дельфин, Data Analyst также обладает коммуникативными навыками. Они не только проводят анализ данных, но и способны понятно представлять результаты своей работы, а также коммуницировать с другими участниками проекта
🐜 Big Data Architect - Муравей. Муравьи могут создавать сложные и большие муравейники, которые в разы больше их самих. Архитектор больших данных подобен муравью, который занимается проектированием детального слоя Big Data, он создает эффективную инфраструктуру для обработки и хранения больших объемов данных
🦁 Product Manager - Лев. Лев является символом лидерства и управления. Product Manager управляет разработкой и реализацией продуктов на основе данных и принимает важные решения.
При написании этого поста ни одно животное не пострадало 🐱
😁38❤7👍6🤔2👌1
Аддитивная регуляризация тематических моделей
Тематическое моделирование – это построение модели текстового корпуса, которая разделяет содержимое каждого текста по темам.
📊 Один из самых популярных алгоритмов для тематического моделирования – Латентное размещение Дирихле (Latent Dirichlet allocation). Его основная идея состоит в моделировании документа как смеси тем, где каждая тема представляется распределением вероятностей над словами.
📝 К результатам тематического моделирования можно предъявить достаточно много требований: хочется, чтобы полученные темы были разнообразны, поддавались интерпретации, а фоновые слова, относящиеся к общей лексике, были обособлены. Можно использовать несколько различных моделей, и учесть все эти требования по отдельности, однако комбинировать их в одной модели уже сильно сложнее. В этот момент аддитивная регуляризация тематических моделей приходит на помощь и позволяет реализовать все вышеперечисленное. В частности, для этого каждое ограничение формализуется в виде регуляризатора – определеного оптимизационного критерия, каждый из которых учитывается во время обучения модели.
⚙️ Программная реализация этого подхода представлена в библиотеке BigARTM. Она позволяет строить мультиязычные модели, иерархии тем, использовать данные о совстречаемости слов в предложениях, обрабатывать документы, содержащие не только слова, но и токены других модальностей: авторы, время, рубрики, и т.д. Кроме того, помимо моделирвания текстовых корпусов, в BigARTM можно работать со сложными транзацкионными данными, например, транзакция (u,b,p) в рекламной сети – «пользователь u кликнул баннер b, расположенный на странице p».
🥇 Богатые функциональные возможности наряду с быстродействием делают эту библиотеку незаменимым инструментом при построении и тонкой настройке тематических моделей.
Тематическое моделирование – это построение модели текстового корпуса, которая разделяет содержимое каждого текста по темам.
📊 Один из самых популярных алгоритмов для тематического моделирования – Латентное размещение Дирихле (Latent Dirichlet allocation). Его основная идея состоит в моделировании документа как смеси тем, где каждая тема представляется распределением вероятностей над словами.
📝 К результатам тематического моделирования можно предъявить достаточно много требований: хочется, чтобы полученные темы были разнообразны, поддавались интерпретации, а фоновые слова, относящиеся к общей лексике, были обособлены. Можно использовать несколько различных моделей, и учесть все эти требования по отдельности, однако комбинировать их в одной модели уже сильно сложнее. В этот момент аддитивная регуляризация тематических моделей приходит на помощь и позволяет реализовать все вышеперечисленное. В частности, для этого каждое ограничение формализуется в виде регуляризатора – определеного оптимизационного критерия, каждый из которых учитывается во время обучения модели.
⚙️ Программная реализация этого подхода представлена в библиотеке BigARTM. Она позволяет строить мультиязычные модели, иерархии тем, использовать данные о совстречаемости слов в предложениях, обрабатывать документы, содержащие не только слова, но и токены других модальностей: авторы, время, рубрики, и т.д. Кроме того, помимо моделирвания текстовых корпусов, в BigARTM можно работать со сложными транзацкионными данными, например, транзакция (u,b,p) в рекламной сети – «пользователь u кликнул баннер b, расположенный на странице p».
🥇 Богатые функциональные возможности наряду с быстродействием делают эту библиотеку незаменимым инструментом при построении и тонкой настройке тематических моделей.
👍13
Друзья, всем привет!
🎯 Мы сейчас проводим небольшой опрос, который поможет нам лучше понять ваши предпочтения и интересы в области машинного обучения и системного проектирования.
Были бы очень благодарны, если уделите 1-2 минуты. По окончании опроса вы получите приятное вознаграждение! 🤗
Для того, чтобы пройти опрос, просто перейдите по ссылке
🎯 Мы сейчас проводим небольшой опрос, который поможет нам лучше понять ваши предпочтения и интересы в области машинного обучения и системного проектирования.
Были бы очень благодарны, если уделите 1-2 минуты. По окончании опроса вы получите приятное вознаграждение! 🤗
Для того, чтобы пройти опрос, просто перейдите по ссылке
🔥8👍5⚡4😱3❤1
💪СИЛЬНАЯ КОМАНДА
Друзья, сегодня порассуждаем с вами на тему развития кросс-компетенций в рамках команды.
⚠️Сфера Data Science стремительно развивается, требования, которые предъявляли к начинающим специалистам два года назад, не равны сегодняшним требованиям. В настоящее время, к сожалению, мало уметь проводить разведочный анализ данных и запускать коробочные модели в Jupiter notebook…
😎Более того, сейчас работодатели ждут «командных игроков», которые обладают широкой экспертизой. Если вы data scientist, то должны разбираться в алгоритмах машинного обучения, писать работающий чистый код, иметь опыт в своей области (банковская сфера, компьютерное зрение, рекомендательные системы и так далее), уметь запускать и проводить АБ-тесты, пользоваться инструментами Big Data…
✅Конечно же, опыт приходит только с практикой. Поэтому, если вы уже работаете в компании, призываю вас не только фокусироваться на своих задачах, но и интересоваться задачами ваших коллег.
👍Для чего? Во-первых, это развивает вас как специалиста и повышает вашу ценность на рынке. Во-вторых, вы становитесь сильным командным игроком.
✍️Существует человеческий фактор, нужно быть готовым брать на себя задачи коллег. В нестабильное время, многие команды модифицируются, и сейчас как никогда важно развивать новые навыки.
✅Как? Приоритизируйте задачи, выделите вместе с менеджером команды время для погружения в новые направления. Найдите более опытного коллегу в новой для вас сфере, поработайте под его руководством.
P.S. Если вы никогда не анализировали АБ-тест, обязательно найдите опытного аналитика, и подведите итоги эксперимента под его руководством. Если вы никогда не строили новые витрины, ищите опытного дата-инженера и поработайте под его руководством.
Друзья, сегодня порассуждаем с вами на тему развития кросс-компетенций в рамках команды.
⚠️Сфера Data Science стремительно развивается, требования, которые предъявляли к начинающим специалистам два года назад, не равны сегодняшним требованиям. В настоящее время, к сожалению, мало уметь проводить разведочный анализ данных и запускать коробочные модели в Jupiter notebook…
😎Более того, сейчас работодатели ждут «командных игроков», которые обладают широкой экспертизой. Если вы data scientist, то должны разбираться в алгоритмах машинного обучения, писать работающий чистый код, иметь опыт в своей области (банковская сфера, компьютерное зрение, рекомендательные системы и так далее), уметь запускать и проводить АБ-тесты, пользоваться инструментами Big Data…
✅Конечно же, опыт приходит только с практикой. Поэтому, если вы уже работаете в компании, призываю вас не только фокусироваться на своих задачах, но и интересоваться задачами ваших коллег.
👍Для чего? Во-первых, это развивает вас как специалиста и повышает вашу ценность на рынке. Во-вторых, вы становитесь сильным командным игроком.
✍️Существует человеческий фактор, нужно быть готовым брать на себя задачи коллег. В нестабильное время, многие команды модифицируются, и сейчас как никогда важно развивать новые навыки.
✅Как? Приоритизируйте задачи, выделите вместе с менеджером команды время для погружения в новые направления. Найдите более опытного коллегу в новой для вас сфере, поработайте под его руководством.
P.S. Если вы никогда не анализировали АБ-тест, обязательно найдите опытного аналитика, и подведите итоги эксперимента под его руководством. Если вы никогда не строили новые витрины, ищите опытного дата-инженера и поработайте под его руководством.
❤13👍5👏3⚡1
Вот уже потихоньку ребята с 3го потока курса по Data Science один за другим проходят собесы и получают работу. Такие сообщения стоят дороже отзыва о курсе, выпускник кстати уже устроился работать в крупную компанию 💪
Если раньше рекомендовали накручивать опыт, то похоже теперь придется накручивать образование в PyMagic 😁 Это конечно все шуточки, но по запросу на всякий случай для работодателей сообщаю, что могу подтвердить прохождение курса того или иного студента/выпускника.
У нас нелегко, мы не пьем коктейли у бассейна во время обучения (но если успеваете, то можно), а учимся, не делаем шаблонные проекты, мы нарабатываем даже часть навыков и проходим инструменты, которые пригодятся для вывода моделей в прод, знаем как устроены алгоритмы изнутри и когда какой применять.
Дата открытия продаж курса по Data Science запланирована примерно на август, если вы хотите предварительно записаться, то пишите в наш чат-бот (меню предзапись), мы напомним вам о старте 🔔
👩🏻💻 Также у нас есть замечательный курс по NLP, он стартовал еще в июне. В нем мы собрали все необходимые знания, начиная с того, как удалять запятые, заканчивая применением и обучением трансформеров. Благодаря такому обилию информации, вы сможете потом уверенно работать в данном направлении. Также вы сможете ознакомиться с практическими примерами из области NLP (разбор бизнес задачи и кода). Промокод на скидку 15% EASYCVTG
Если раньше рекомендовали накручивать опыт, то похоже теперь придется накручивать образование в PyMagic 😁 Это конечно все шуточки, но по запросу на всякий случай для работодателей сообщаю, что могу подтвердить прохождение курса того или иного студента/выпускника.
У нас нелегко, мы не пьем коктейли у бассейна во время обучения (но если успеваете, то можно), а учимся, не делаем шаблонные проекты, мы нарабатываем даже часть навыков и проходим инструменты, которые пригодятся для вывода моделей в прод, знаем как устроены алгоритмы изнутри и когда какой применять.
Дата открытия продаж курса по Data Science запланирована примерно на август, если вы хотите предварительно записаться, то пишите в наш чат-бот (меню предзапись), мы напомним вам о старте 🔔
👩🏻💻 Также у нас есть замечательный курс по NLP, он стартовал еще в июне. В нем мы собрали все необходимые знания, начиная с того, как удалять запятые, заканчивая применением и обучением трансформеров. Благодаря такому обилию информации, вы сможете потом уверенно работать в данном направлении. Также вы сможете ознакомиться с практическими примерами из области NLP (разбор бизнес задачи и кода). Промокод на скидку 15% EASYCVTG
👍14❤3😁1🤯1