Градиентное погружение – Telegram

Градиентное погружение

4.55K subscribers

179 photos

11 videos

10 files

164 links

Обсуждаем новости, рассказываем про ML с кодом и колабом, выигрываем соревы 🏆

Контакты: @Cene655, @Cucu_LaPraline

Download Telegram

About

Blog

Apps

Platform

Градиентное погружение

4.55K subscribers

Градиентное погружение

Channel created

10:53

Градиентное погружение

CC12M (Conceptual 12M)
Что это такое? Датасет содержащий 12 миллионов пар текст-изображение на английском языке.

Теперь на русском силами одного из админов💪
Kaggle датасет

Conceptual 12M russian

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

350 views13:25

Градиентное погружение

Гугл формы
Ну а точнее формат интерактивной работы в колабе

Если вы не первый день в теме дата саенса, то скорее всего встречали его. Простой и полезный формат, помогающий улучшить восприятие кода(скрыть плохой код).

Обычно это простой ввод текста или выбор из списка, но на этом возможности не заканчиваются. Можно работать с датами, числами и булевыми значениями.

Помимо этого существует более расширенных вариант, представленный в виде виджета - ipywidgets.

ipywidgets - пример(нужно запустить)
Доступный пример использования в колабе

367 views13:29

Градиентное погружение

Julia
Мы хотим язык с открытым исходным кодом, с либеральной лицензией. Мы хотим скорость C с динамизмом Ruby. Нам нужен гомоиконичный язык с настоящими макросами, как Lisp, но с очевидными, знакомыми математическими обозначениями, такими как в Matlab. Мы хотим что-то такое же удобное для общего программирования, как Python, такое же простое для статистики, как R, такое же естественное для обработки строк, как Perl, такое же мощное для линейной алгебры, как Matlab, и способное склеивать программы вместе как оболочку. Нечто простое в освоении, но при этом радующее самых серьезных хакеров. Мы хотим высокой интерактивности и эффективной компиляции. Мы ведь не слишком многого просим, верно?

🔥4

334 views14:18

Градиентное погружение

В посте выше приведены слова разработчиков языка. Действительно, их продукт получился интересным, благодаря чему смог обрести популярность в очень узких кругах.

Для Julia существуют инструменты, способные заменить набор среднестатистического питониста-датасаентиста(ну или как минимум заинтересовать его).

Самая интересная фича:
Возможность запуска питоновских библиотек из под Julia.
Т.е. вы можете запускать sklearn и юзать модели в вашем коде, но при этом выполнять обработку больших данных значительнее быстрее нативного питона.

Попробовать это чудо можно без смс и регистрации в онлайне.
Ну а для самых пытливых - годная книжка

👍3

342 views14:19

Градиентное погружение

Возможно тема джулии кого-то заинтересовала, поэтому ловите подгон в виде списка полезных ресурсов(к сожалению только англ).
Ссылка на русскоязычное комьюнити. Оно почти не активничает, но что-то спросить все же можно.

304 viewsedited 17:41

Градиентное погружение

Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса

Хозяйке на заметку: если вам нужно относительно качественно перефразировать предложение, можно сделать это методом back-translation: перевести его русского на английский и назад на русский.
Чтобы не получить на выходе то же самое предложение, можно запретить модели-переводчику воспроизводить n-граммы (токенные), встречавшиеся в исходном предложении.
Кажется, получается дёшево и сердито.

import torch
from transformers import FSMTModel, FSMTTokenizer, FSMTForConditionalGeneration
tokenizer = FSMTTokenizer.from_pretrained("facebook/wmt19-en-ru")
model = FSMTForConditionalGeneration.from_pretrained("facebook/wmt19-en-ru")
inverse_tokenizer = FSMTTokenizer.from_pretrained("facebook/wmt19-ru-en")
inverse_model = FSMTForConditionalGeneration.from_pretrained("facebook/wmt19-ru-en")
model.cuda();
inverse_model.cuda();

def paraphrase(text, gram=4, num_beams=5, **kwargs):
    """ Generate a paraphrase using back translation. 
    Parameter `gram` denotes size of token n-grams of the original sentence that cannot appear in the paraphrase.
    """
    input_ids = inverse_tokenizer.encode(text, return_tensors="pt")
    with torch.no_grad():
        outputs = inverse_model.generate(input_ids.to(inverse_model.device), num_beams=num_beams, **kwargs)
    other_lang = inverse_tokenizer.decode(outputs[0], skip_special_tokens=True)
    # print(other_lang)
    input_ids = input_ids[0, :-1].tolist()
    bad_word_ids = [input_ids[i:(i+gram)] for i in range(len(input_ids)-gram)]
    input_ids = tokenizer.encode(other_lang, return_tensors="pt")
    with torch.no_grad():
        outputs = model.generate(input_ids.to(model.device), num_beams=num_beams, bad_words_ids=bad_word_ids, **kwargs)
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return decoded
    
text = 'Женщина-дайвер исчезла в Черном море во время научных работ на побережье Анапы.'
print(paraphrase(text, gram=3, do_sample=False))
# Женщина-водолаз пропала в акватории Черного моря, когда выполняла исследовательские работы у берегов Анапы.
# Wall time: 699 ms

322 views17:46

Градиентное погружение

TriviaQA: Крупномасштабный набор данных для понимания прочитанного и ответов на вопросы

Датасет содержит более 650К пар вопрос-ответ-доказательство для задачи понимания текста и около 110К пар вопрос-ответ для ODQA на английском языке. Его использовали при обучении WebGPT. Для скачивания доступно 3гб инфы.

Авторы добавили лидерборд, на котором топ держат LongT5 и Big Bird

GitHub | Site | Leaderboard

🔥2

334 viewsedited 07:23

Градиентное погружение

OLive - ONNX Runtime Go Live

Либа для конвертации моделей в onnx и тюнинг их инференса. Тюнинг заключается в подборе оптимизационных параметров по типу максимальной задержки или же присетов точности. Всего 27 опций. Получается своеобразный гридсерч к которому мы привыкли.

Штука эта ощущается сыроватой, так как у меня не запустился их блокнот с последним коммитом "fix tutorial" 💁

GitHub
Примеры

GitHub - microsoft/Olive: Olive: Simplify ML Model Finetuning, Conversion, Quantization, and Optimization for CPUs, GPUs and NPUs.

Olive: Simplify ML Model Finetuning, Conversion, Quantization, and Optimization for CPUs, GPUs and NPUs. - microsoft/Olive

362 views15:08

Градиентное погружение

Forwarded from Время Валеры

Поездка в Москву в декабре была крайне удачной, записали много контента. В том числе это интервью с Романом, где поговорили про обучение и карьеру

Валерий Бабушкин: Про развитие в Data Science в России и не только.

SCiDS в tg: https://t.iss.one/start_ds
Канал Валеры в tg: https://t.iss.one/cryptovalerii

В каких компаниях стоит начинать карьеру, а в каких - нет? В какой момент стоит думать о переезде в другие страны? На эти и многие другие вопросы Валерий ответит в этом интервью!…

380 views15:54

Градиентное погружение

Что вы знаете о задаче суммаризации?

Знали ли вы что её можно разделить на 2 категории:
- Экстрактивный подход (всякие хитрые и не очень алгоритмы)
- Абстрактивный подход (нейронки)

Если со вторым все понятно, то вот про первый стоит немного поговорить. В отличие нейронок, здесь мы не используем генерацию текста, связи с чем работаем только с предложениями и их усреднёнными векторами(GloVe, Gensim, FastText), а в некоторых случаях с мерами схожести строк.

Так например, вы можете использовать алгоритм TextRank для подбора "ключевых предложений". Помимо этого существуют и другие реализации по типу LexRank, LSA, KL Divergence. Про них можно почитать тут.

Объяснение TextRank/PageRank

👍1

497 views17:48

Градиентное погружение

CLIP получил обновление 🔥

Помните те модельки, которые можно использовать для понимания связи текста и изображения? Так вот, всего два дня назад были зарелизины RN50x64 и ViT-L/14 💪.

Админы очень рады такому обновлению, так так часто используют клиповские ViT для задач классификации/регрессии, а также верят в качество от OpenAI.

Новость

CLIP/model-card.md at main · openai/CLIP

CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - openai/CLIP

👍3

432 views05:29

Градиентное погружение

Катбуст, он такой один 💥

Пару дней назад я осознал, что давненько не читал доки скоростного котэ и решил наверстать упущенное, попутно просматривая официальный чатик.

И знаете, я нашел/вспомнил некоторые крутые фичи, которыми хочу поделиться:

1️⃣ В задаче регрессии катбуст можно претрейнить, правда не совсем. По сути мы вместе с признаками указываем отдельно результат какого-либо другого алгоритма и все, недостак какой-то получается.

2️⃣ Можно продолжать тренировку нашего дерева с разными параметрами, просто указывая модель для инициализации, что в теории может позволить сделать обучение более гибким, но муторным.

3️⃣ Можно обучать батчами. По сути тоже что и пункт 1 👀.

⚡️Ну и наверное самый полезный факт - катбуст конвертится в onnx. При этом мы получаем ускорение на CPU около 15% и около 24% на CUDA.

Примеры 1-3 пунктов
CatBoost-ONNX

Группа создана для обсуждения вопросов, связанных с библиотекой CatBoost (https://catboost.ai). Задавайте вопросы, отвечайте на вопросы, делитесь ссылкой на группу!

Бан за вопросы, не относящиеся к теме, в том числе предложения о работе и реклама.

458 views13:55

Градиентное погружение

Pandas медленный, верно? 🤨

И кажется не только мы так считаем, но и ребята из RAPIDS.

Представьте такаю ситуацию, что вы работаете с настолько большим сетом, что даже самая простая операция в пандасе занимает минимум 10 минут. Что в таком случае вы будете делать?

Первым на ум приходит удаление ненужных колонок из памяти и конвертация колонок в более "легкие" типы, такие как: float16/32, int8/32. Но вот незадача, этого всё равно недостаточно, а значит пришло время серьезной артиллерии - юзаем GPU.

Как именно? С помощью библиотеки cuDF. Она имеет практически такой же интерфейс, что и pandas и позволяет без лишней боли пользоваться прекрасным инструментом.

Но тут есть ограничения, а именно - поддерживаются только P4, P100, T4, V100. Админ около часа пытался запустить в колабе на K80, но безуспешно. Благо есть Kaggle с P100 на которой все работает как часы и даже conda инсталить не нужно.

Ну так, админ, что там по скоростям? Бывает по разному, но вы однозначно получите ускорение в 30-100 раз 🔥

Kaggle notebook
Статья с более подробным описанием

RAPIDS | GPU Accelerated Data Science

Open source GPU accelerated data science libraries

👍8

486 views10:18

Градиентное погружение

Великие и могучие tiny модели пополнили свои ряды 🙌

Я думаю, что каждый датасаентист рано или поздно задавал себе вопрос - почему моя модель так долго инференсит/обучется? Ну так, вот помимо всяких оптимизационных решений есть вариант попроще - взять маленькую модель, но со схожим качеством. Таким образом вы значительно ускоряете ваш процесс почти не меняя код, круто ведь?

Примерно такими же мыслями(наверное) руководствовались ребята из deeppavlov, когда выпускали новую русскую distilrubert-tiny модель примерно неделю назад 🔥.

По параметрам и весу она незначительно, но меньше ранее известной rubert-tiny. По скорости также есть улучшения, как и по кол-ву токенов в словаре. Кст, на батче 16 на CPU моделька в 3 раза быстрее ⚡️.

DeepPavlov: an open source conversational AI framework

DeepPavlov is designed for development of production ready chat-bots and complex conversational systems, research in the area of NLP and, particularly, of dialog systems.

🔥3

433 views16:52

Градиентное погружение

Временные ряды ⏱

Сталкивались ли вы с задачей предсказания каких-то значений на основе временных меток? Если да, то скорее всего вы знаете, что значения каждого ряда специфичны и зависят от множества факторов. Давайте разберем их на примере нефти.

1️⃣ Нефть - сезонный продукт, особенно в России, так как из неё делают мазут, который часто используется в зимнее время. Её основными ценообразующими факторами являются решения ОПЕК/ОПЕК+ (регулируют добычу нефти в каждой участвующей стране) и уровень запасов в коммерческих хранилищах.

2️⃣ Но это ещё не все, также существенное влияние оказывают внешние факторы по типу сильных климатических изменений(ураганы) и следовательно, изменения в цепочках поставок.

3️⃣ Исходя из фактов выше, уже можно понять, что собирать подобные данные в автоматическом режиме крайне сложно, а учитывать их степень влияния ещё сложнее.

Именно поэтому, когда админ делал предсказание на год вперед, он осознавал, что его результат будет очень плачевен. Так и вышло, я ошибся примерно на 10 баксов вниз за одну единицу 😁.

😁1

403 viewsedited 10:42

Градиентное погружение

Ну а вообще зачем был пост выше?

Его основной посыл - проверяйте ваши возможности и данные во время работы с временными признаками. Зачастую можно проглядеть утечку данных и получить супер результат, даже не проверяя предсказанные значения на графике.

В реальных проектах такие ошибки стараются минимизировать. Бывает, что ваша модель просто-напросто может выдать отрицательный результат и вы об этом не узнаете 💁.

Как такое исправлять? Стакать модели и простые подходы, например - взять средневзвешенное значений:
1) бустинг
2) среднее за прошлый месяц/прошлого года
3) значение прошлого года
4) линейная модель

Таким образом ваши предсказания станут устойчивее к выкрутасам моделей, но менее устойчивы к краткосрочным изменениям, хотя на то они и краткосрочны.

Видео про факторы нефти

Вебинар «Мировой рынок нефти и факторы её ценообразования»

Watch Вебинар «Мировой рынок нефти и факторы её ц.. 1 hr. 19 min 19 s from 18 September 2020 online in HD for free in the VK catalog without signing up! Views: 533. Likes: 11.

430 views14:30

Градиентное погружение

Junior Data Scientist в ВТБ

410 views17:47

Градиентное погружение

Хотите пройти интервью? 🤷‍♀️

Когда я готовил пост про суммаризацию, случайно наткнулся на интересный сайт на котором нашел серию вопросов-ответов для подготовки к собеседованию и честно, мне понравилось. Есть картинки, которые сильно упрощают понимание текста, только жалко что все на английском.

[1] В первой части затрагивают такие вопросы как:
— Что вы знаете о фича инжиниринге?
— Что такое NLP?
— Что такое рекомендательные системы?
[2] Во второй части стало чуть ближе к практике и появились вопросы про:
— Градиентный спуск
— Преобразование Бокса-Кокса(для временных рядов бывает полезно)
— Variance inflation factors(честно хз что это)
[3] В последней части вопросы начали затрагивать тему классификации и такие штуки как:
— AdaBoost/XGBoost/Random Forest
— Метрики/Ошибки первого и второго рода
— Переобучение

Ну т.е. спрашивают реально дельные вещи, я бы даже сказал, что инфа из этой статьи далеко не во всех курсах присутствует.
А вообще хотите что-нибудь разобрать из этого списка? Пишите в комменты, попробуем.✊

Градиентное погружение

Что вы знаете о задаче суммаризации?

Знали ли вы что её можно разделить на 2 категории:
- Экстрактивный подход (всякие хитрые и не очень алгоритмы)
- Абстрактивный подход (нейронки)

Если со вторым все понятно, то вот про первый стоит немного поговорить.…

570 viewsedited 19:11