Нашла недавно вот этот мега-репозиторий с датасетами. Немного из того, что там есть:
• Датасет слов с ударениями (парсились из википедии и викисловаря), можно использовать для дообучения tts.
• Новая версия русскоязычных диалогов – в том числе там есть диалоги из художественной литературы
• Пары преложений со сменой лица (я сам перезвоню – ты сам перезвонишь)
• Вопросы и ответы для чат-ботов (в основном для NER tagging)
• Датасеты с парафразом
https://github.com/Koziev/NLP_Datasets
• Датасет слов с ударениями (парсились из википедии и викисловаря), можно использовать для дообучения tts.
• Новая версия русскоязычных диалогов – в том числе там есть диалоги из художественной литературы
• Пары преложений со сменой лица (я сам перезвоню – ты сам перезвонишь)
• Вопросы и ответы для чат-ботов (в основном для NER tagging)
• Датасеты с парафразом
https://github.com/Koziev/NLP_Datasets
GitHub
GitHub - Koziev/NLP_Datasets: My NLP datasets for Russian language
My NLP datasets for Russian language. Contribute to Koziev/NLP_Datasets development by creating an account on GitHub.
Очень полезный материал по деплою моделей, написан, разумеется, индусом 👳♂️
https://atrisaxena.github.io/projects/deploy-deeplearning-model-kubernetes/
https://atrisaxena.github.io/projects/deploy-deeplearning-model-kubernetes/
Codeseeder
Deploy Your Deep Learning Model On Kubernetes With Python, Pytorch, Flask, and Docker
So, Easy Everyone can do it.This post will demonstrate a very simple method by which you can deploy your pytorch deep learning model easily for production using REST API with Flask, and deploy it using docker and kubernetes.For anyone who doesn’t know about…
Еще одно оффтопное видео, но я искренне люблю этот подкаст (и особенно люблю смотреть такие видосы в два часа ночи)
Разумеется, в нем повторяется базовая мысль что спать это полезно, а еще полезнее спать ночью, но в основном тема подкаста вращается вокруг восприятия света.
Несколько ключевых идей:
• Очень важно видеть свет в течение ~нескольких часов после восхода солнца, или хотя бы стараться увидеть солнечный свет как можно быстрее после того, как вы проснулись. При чем, гораздо эффективней выйти на улицу, чем смотреть через стекло.
Этот утренний свет (с определенным балансом теплых/холодных тонов, углом падения и т.д.) стимулирует выброс кортизола, что помогает раздуплиться, плюс, потом через адекватное время вам выдадут мелатонин, и будет легче заснуть. Утверждается, что хватает пару дней там с утра постоять на солнышке, чтобы пофиксить режим
• Видеть яркий голубой свет вечером плохо, потому что мозг думает, что еще день. Более того, есть исследование, что восприятие яркого света в период примерно с 11 вечера до 4 утра усложняет выброс дофамина, что ведет к тревожности, депрессии, плохой концентрации, проблемам с фокусом и так далее 🤡 это многое объясняет
• Чтобы режим пофиксился, полезно также видеть солнце примерно во время заката. Так мозг понимает, что уже вечер, и такая практика даже способна немного смягчить влияение кучи яркого голубого света, который идет от компов / телефонов в течение вечера
• Важно еще расположение света. Помимо того, что вечером свет везде лучше приглушить, желательно еще оставить только нижний свет, то есть настольные лампы, или даже перенести эти лампы на пол
https://www.youtube.com/watch?v=nm1TxQj9IsQ&t=4212s
Разумеется, в нем повторяется базовая мысль что спать это полезно, а еще полезнее спать ночью, но в основном тема подкаста вращается вокруг восприятия света.
Несколько ключевых идей:
• Очень важно видеть свет в течение ~нескольких часов после восхода солнца, или хотя бы стараться увидеть солнечный свет как можно быстрее после того, как вы проснулись. При чем, гораздо эффективней выйти на улицу, чем смотреть через стекло.
Этот утренний свет (с определенным балансом теплых/холодных тонов, углом падения и т.д.) стимулирует выброс кортизола, что помогает раздуплиться, плюс, потом через адекватное время вам выдадут мелатонин, и будет легче заснуть. Утверждается, что хватает пару дней там с утра постоять на солнышке, чтобы пофиксить режим
• Видеть яркий голубой свет вечером плохо, потому что мозг думает, что еще день. Более того, есть исследование, что восприятие яркого света в период примерно с 11 вечера до 4 утра усложняет выброс дофамина, что ведет к тревожности, депрессии, плохой концентрации, проблемам с фокусом и так далее 🤡 это многое объясняет
• Чтобы режим пофиксился, полезно также видеть солнце примерно во время заката. Так мозг понимает, что уже вечер, и такая практика даже способна немного смягчить влияение кучи яркого голубого света, который идет от компов / телефонов в течение вечера
• Важно еще расположение света. Помимо того, что вечером свет везде лучше приглушить, желательно еще оставить только нижний свет, то есть настольные лампы, или даже перенести эти лампы на пол
https://www.youtube.com/watch?v=nm1TxQj9IsQ&t=4212s
YouTube
Master Your Sleep & Be More Alert When Awake
Today's episode provides a host of information on what makes us sleepy, sleep soundly, and feel awake and alert. It covers a broad range of tools for anyone wishing to improve their sleep and wakeful state. The science and logic for each tool is described.…
🔥1
Forwarded from Мадан — наука
Глобальное обновление Telegram Parser
Я вернулся к парсеру Telegram и перекроил практически все внутренности.
Из основного:
- Убран GUI по причине ненадобности.
- Подружил парсер с Windows (как оказалось, из-за кодировок парсер не мог работать под Windows вообще).
- Добавлен нормальный конфиг.
- Рефакторинг всех внутренностей.
- Нормальный вывод в консоль/Telegram (как оказалось, присваивание зарезервированных имен прекрасно работает под Linux, но все еще не работает под Windows).
- Убран поиск по мутациям — слишком много проблем с ним, когда-нибудь допилю.
И да, инструкции по установке и настройке новой версии уже ждут всех желающих и даже на русском языке.
https://github.com/Antcating/telegram_parser
Я вернулся к парсеру Telegram и перекроил практически все внутренности.
Из основного:
- Убран GUI по причине ненадобности.
- Подружил парсер с Windows (как оказалось, из-за кодировок парсер не мог работать под Windows вообще).
- Добавлен нормальный конфиг.
- Рефакторинг всех внутренностей.
- Нормальный вывод в консоль/Telegram (как оказалось, присваивание зарезервированных имен прекрасно работает под Linux, но все еще не работает под Windows).
- Убран поиск по мутациям — слишком много проблем с ним, когда-нибудь допилю.
И да, инструкции по установке и настройке новой версии уже ждут всех желающих и даже на русском языке.
https://github.com/Antcating/telegram_parser
GitHub
GitHub - Antcating/tmesca: Python based Telegram Channel/Group/User/Bot/Sticker Pack Scanner
Python based Telegram Channel/Group/User/Bot/Sticker Pack Scanner - Antcating/tmesca
Forwarded from Мишин Лернинг
Annotated PyTorch Paper Implementations
Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.
💻 nn.labml.ai
Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.
💻 nn.labml.ai
🔥1
Пару дней назад много кто раскритиковал алгоритм Света, который по тексту приговора может определить, погибла ли упоминаемая в нем женщина от домашнего насилия. То, что стастистику по домашнему насилию часто криво интерпретируют, это факт, но сам алгоритм выбивает четный пресижн 94% на тесте, так что к чему в нем докопаться я не вижу (ну ладно, к маленькой выборке и маленькому тесту можно докопаться)
Мне лично очень понравилось, как оформляли сопровождающую статью к этому алгоритму. В NLP вообще очень сложно с визуализацией и нормальным представлением результатов (да и в ML в целом наверное), а тут это кажется вполне неплохо получилось
Есть еще похожая статья по анализу твитов от акканутов, которые Твиттер связал с активностью российской фабрики троллей (в феврале опубликовали датасет из 200 000 таких твитов). С точки зрения анализа там не рокет саенс, но очень красивый датавиз и очень прикольно интегрированы примеры твитов
ну и да, идея с заголовком статьи клевая
Мне лично очень понравилось, как оформляли сопровождающую статью к этому алгоритму. В NLP вообще очень сложно с визуализацией и нормальным представлением результатов (да и в ML в целом наверное), а тут это кажется вполне неплохо получилось
Есть еще похожая статья по анализу твитов от акканутов, которые Твиттер связал с активностью российской фабрики троллей (в феврале опубликовали датасет из 200 000 таких твитов). С точки зрения анализа там не рокет саенс, но очень красивый датавиз и очень прикольно интегрированы примеры твитов
ну и да, идея с заголовком статьи клевая
Вот и пришло время, когда мне нужно обратиться к вам за помощью, уважаемые подписчики.... Может быть, вы знаете какие-то русскоязычые ресурсы, где люди на что-то жалуются, и им что-то позитивненькое отвечают, ну и просто ресурсы с каким-то эмпатичным и поддерживающим контентом (паблики в вк/телеге/твиттере/где угодно тоже считаются)
Если что у меня все нормально (ну почти), просто хочется напарсить данных 🥵
Если что у меня все нормально (ну почти), просто хочется напарсить данных 🥵
мой дип дайв в списки стоп-слов для чатботов открывает все больше интересных фактов, а именно что на всякий случай чатботам лучше не говорить о нигерийцах и о russkie
Большой хороший пост про BERT word embeddings, и второй пост, где больше упор на получившиеся матрицы, которые поступают на вход модели. В них подробно описано, как BERT превращает входящие слова в token ids, зачем при этом нужны special tokens, как выглядят segment ids в случае разбиения текста на две части. Отдельно описывается работа токенайзера – есть ощущение, что далеко не все знают, что токенайзер не всегда бьет предложение по пробелам, и что в случае неизвестных берту слов генерируются сабтокены (например, 'embeddings' – ['em', '##bed', '##ding', '##s']). Дальше показывается, как выглядят хиддент стейты берта, какая у них размерность, за что каждое измерение отвечает, и как из последних хидден стейтов можно собрать эмбеддинги слов. Что приколько, автор первого поста показывает, как эмбеддинги одного и того же слова на практике отличаются в зависимости от контекста. Например, для слова bank:
bank vault tensor([ 3.3596, -2.9805, -1.5421, 0.7065, 2.0031])
bank robber tensor([ 2.7359, -2.5577, -1.3094, 0.6797, 1.6633])
river bank tensor([ 1.5266, -0.8895, -0.5152, -0.9298, 2.8334])
До меня вообще только недавно дошло понимание, что эмбеддинги, получаемые при переводе из token ids – это такая же тренируемая часть берта, а не рандомная инициализация. Что также важно, segment ids (индикаторы того, к какой части текста принадлежит каждый токен) также переводятся в эмбеддинги, и эти эмбеддинги также тренируемые. You live and you learn как говорится.
bank vault tensor([ 3.3596, -2.9805, -1.5421, 0.7065, 2.0031])
bank robber tensor([ 2.7359, -2.5577, -1.3094, 0.6797, 1.6633])
river bank tensor([ 1.5266, -0.8895, -0.5152, -0.9298, 2.8334])
До меня вообще только недавно дошло понимание, что эмбеддинги, получаемые при переводе из token ids – это такая же тренируемая часть берта, а не рандомная инициализация. Что также важно, segment ids (индикаторы того, к какой части текста принадлежит каждый токен) также переводятся в эмбеддинги, и эти эмбеддинги также тренируемые. You live and you learn как говорится.
Medium
Why BERT has 3 Embedding Layers and Their Implementation Details
Why does BERT have 3 embedding layers instead of 1 like most deep learning-based NLP models?