я обучала одну модель

история xsolla не отпускает меня (и видимо много кого еще)

1.94K views14:08

Нашла недавно вот этот мега-репозиторий с датасетами. Немного из того, что там есть:

• Датасет слов с ударениями (парсились из википедии и викисловаря), можно использовать для дообучения tts.
• Новая версия русскоязычных диалогов – в том числе там есть диалоги из художественной литературы
• Пары преложений со сменой лица (я сам перезвоню – ты сам перезвонишь)
• Вопросы и ответы для чат-ботов (в основном для NER tagging)
• Датасеты с парафразом

https://github.com/Koziev/NLP_Datasets

GitHub

GitHub - Koziev/NLP_Datasets: My NLP datasets for Russian language

My NLP datasets for Russian language. Contribute to Koziev/NLP_Datasets development by creating an account on GitHub.

2.28K views14:25

я обучала одну модель

Очень полезный материал по деплою моделей, написан, разумеется, индусом 👳‍♂️

https://atrisaxena.github.io/projects/deploy-deeplearning-model-kubernetes/

Codeseeder

Deploy Your Deep Learning Model On Kubernetes With Python, Pytorch, Flask, and Docker

So, Easy Everyone can do it.This post will demonstrate a very simple method by which you can deploy your pytorch deep learning model easily for production using REST API with Flask, and deploy it using docker and kubernetes.For anyone who doesn’t know about…

1.36K views14:53

я обучала одну модель

И большой видосий про docker и docker compose

https://www.youtube.com/watch?v=QF4ZF857m44&t=4567s

YouTube

Основы Docker. Большой практический выпуск

Или: @amatyashov_bot
Телеграм канал https://t.iss.one/amatyashov

Мой сайт https://matiashov.ru
Мой Телеграм бот: https://t.iss.one/amatyashov_bot

Большой выпуск про #Docker. В видео постарался добавить как можно больше практики. В этом выпуске Вы узнаете что такое…

1.41K views14:58

я обучала одну модель

Еще одно оффтопное видео, но я искренне люблю этот подкаст (и особенно люблю смотреть такие видосы в два часа ночи)

Разумеется, в нем повторяется базовая мысль что спать это полезно, а еще полезнее спать ночью, но в основном тема подкаста вращается вокруг восприятия света.

Несколько ключевых идей:

• Очень важно видеть свет в течение ~нескольких часов после восхода солнца, или хотя бы стараться увидеть солнечный свет как можно быстрее после того, как вы проснулись. При чем, гораздо эффективней выйти на улицу, чем смотреть через стекло.
Этот утренний свет (с определенным балансом теплых/холодных тонов, углом падения и т.д.) стимулирует выброс кортизола, что помогает раздуплиться, плюс, потом через адекватное время вам выдадут мелатонин, и будет легче заснуть. Утверждается, что хватает пару дней там с утра постоять на солнышке, чтобы пофиксить режим

• Видеть яркий голубой свет вечером плохо, потому что мозг думает, что еще день. Более того, есть исследование, что восприятие яркого света в период примерно с 11 вечера до 4 утра усложняет выброс дофамина, что ведет к тревожности, депрессии, плохой концентрации, проблемам с фокусом и так далее 🤡 это многое объясняет

• Чтобы режим пофиксился, полезно также видеть солнце примерно во время заката. Так мозг понимает, что уже вечер, и такая практика даже способна немного смягчить влияение кучи яркого голубого света, который идет от компов / телефонов в течение вечера

• Важно еще расположение света. Помимо того, что вечером свет везде лучше приглушить, желательно еще оставить только нижний свет, то есть настольные лампы, или даже перенести эти лампы на пол

https://www.youtube.com/watch?v=nm1TxQj9IsQ&t=4212s

YouTube

Master Your Sleep & Be More Alert When Awake

Today's episode provides a host of information on what makes us sleepy, sleep soundly, and feel awake and alert. It covers a broad range of tools for anyone wishing to improve their sleep and wakeful state. The science and logic for each tool is described.…

🔥1

1.37K viewsedited 23:40

я обучала одну модель

сегодня нейросеть сказала:

2.9K views14:18

я обучала одну модель

Парсер для телеге и даже без использования апишки

1.1K views15:23

я обучала одну модель

Forwarded from Мадан — наука

Глобальное обновление Telegram Parser
Я вернулся к парсеру Telegram и перекроил практически все внутренности.

Из основного:
- Убран GUI по причине ненадобности.
- Подружил парсер с Windows (как оказалось, из-за кодировок парсер не мог работать под Windows вообще).
- Добавлен нормальный конфиг.
- Рефакторинг всех внутренностей.
- Нормальный вывод в консоль/Telegram (как оказалось, присваивание зарезервированных имен прекрасно работает под Linux, но все еще не работает под Windows).
- Убран поиск по мутациям — слишком много проблем с ним, когда-нибудь допилю.

И да, инструкции по установке и настройке новой версии уже ждут всех желающих и даже на русском языке.

https://github.com/Antcating/telegram_parser

GitHub

GitHub - Antcating/tmesca: Python based Telegram Channel/Group/User/Bot/Sticker Pack Scanner

Python based Telegram Channel/Group/User/Bot/Sticker Pack Scanner - Antcating/tmesca

1.18K views15:23

я обучала одну модель

Кек из трансляции Тинька – в superGLUE человеческий бенчмарк опустился на 4 место, первые три занимают трансформеры 🤡

1.92K views16:40

я обучала одну модель

Forwarded from Мишин Лернинг

Annotated PyTorch Paper Implementations

Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.

💻 nn.labml.ai

🔥1

1.12K views12:28

я обучала одну модель

Пару дней назад много кто раскритиковал алгоритм Света, который по тексту приговора может определить, погибла ли упоминаемая в нем женщина от домашнего насилия. То, что стастистику по домашнему насилию часто криво интерпретируют, это факт, но сам алгоритм выбивает четный пресижн 94% на тесте, так что к чему в нем докопаться я не вижу (ну ладно, к маленькой выборке и маленькому тесту можно докопаться)
Мне лично очень понравилось, как оформляли сопровождающую статью к этому алгоритму. В NLP вообще очень сложно с визуализацией и нормальным представлением результатов (да и в ML в целом наверное), а тут это кажется вполне неплохо получилось
Есть еще похожая статья по анализу твитов от акканутов, которые Твиттер связал с активностью российской фабрики троллей (в феврале опубликовали датасет из 200 000 таких твитов). С точки зрения анализа там не рокет саенс, но очень красивый датавиз и очень прикольно интегрированы примеры твитов
ну и да, идея с заголовком статьи клевая

1.65K views17:50

я обучала одну модель

Чего не найдешь в интернете
https://www.rsdb.org/full

1.28K viewsedited 10:56

я обучала одну модель

да кто этот ваш дерти ток

1.33K views11:11

я обучала одну модель

форум для эмокидов или репа по nlp 🧐

1.16K views19:00

я обучала одну модель

Вот и пришло время, когда мне нужно обратиться к вам за помощью, уважаемые подписчики.... Может быть, вы знаете какие-то русскоязычые ресурсы, где люди на что-то жалуются, и им что-то позитивненькое отвечают, ну и просто ресурсы с каким-то эмпатичным и поддерживающим контентом (паблики в вк/телеге/твиттере/где угодно тоже считаются)
Если что у меня все нормально (ну почти), просто хочется напарсить данных 🥵

1.24K viewsedited 17:00

я обучала одну модель

мой дип дайв в списки стоп-слов для чатботов открывает все больше интересных фактов, а именно что на всякий случай чатботам лучше не говорить о нигерийцах и о russkie

1.32K views20:10

я обучала одну модель

жду когда меня забанят в колабе

1.28K views12:48

я обучала одну модель

Поздравляю кстати всех кто учится и всех кто уже умеет тоже поздравляю

1.35K views13:51

я обучала одну модель

Большой хороший пост про BERT word embeddings, и второй пост, где больше упор на получившиеся матрицы, которые поступают на вход модели. В них подробно описано, как BERT превращает входящие слова в token ids, зачем при этом нужны special tokens, как выглядят segment ids в случае разбиения текста на две части. Отдельно описывается работа токенайзера – есть ощущение, что далеко не все знают, что токенайзер не всегда бьет предложение по пробелам, и что в случае неизвестных берту слов генерируются сабтокены (например, 'embeddings' – ['em', '##bed', '##ding', '##s']). Дальше показывается, как выглядят хиддент стейты берта, какая у них размерность, за что каждое измерение отвечает, и как из последних хидден стейтов можно собрать эмбеддинги слов. Что приколько, автор первого поста показывает, как эмбеддинги одного и того же слова на практике отличаются в зависимости от контекста. Например, для слова bank:

bank vault tensor([ 3.3596, -2.9805, -1.5421, 0.7065, 2.0031])
bank robber tensor([ 2.7359, -2.5577, -1.3094, 0.6797, 1.6633])
river bank tensor([ 1.5266, -0.8895, -0.5152, -0.9298, 2.8334])

До меня вообще только недавно дошло понимание, что эмбеддинги, получаемые при переводе из token ids – это такая же тренируемая часть берта, а не рандомная инициализация. Что также важно, segment ids (индикаторы того, к какой части текста принадлежит каждый токен) также переводятся в эмбеддинги, и эти эмбеддинги также тренируемые. You live and you learn как говорится.

Medium

Why BERT has 3 Embedding Layers and Their Implementation Details

Why does BERT have 3 embedding layers instead of 1 like most deep learning-based NLP models?

1.47K views07:55

About

Blog

Apps

Platform