DL летописец
1.82K subscribers
107 photos
8 videos
36 files
79 links
Пытаюсь выжить в питерской вышке и пойти в науку (контакт - @Pashteticus)
Download Telegram
Всем удачи завтра хорошо сдать ЕГЭ по информатике и подтвердить свои дипломы!)
👍18🥰2
🔥SberDevices подняли бота, в котором можно опробовать YaLM - самую топовую на данный момент языковую модель для русского языка, согласно лб russian super glue
Forwarded from Kali Novskaya (Tatiana Shavrina)
Ну что, вы этого хотели.

Бот YaLM-100B
@inhumanly_sentient_bot

Токен
L0NG_L1V3_ML5P4C3


Поскольку число карт не резиновое, может работать не супер быстро, чекайте через
/qsize


В бот можно писать тексты, он будет продолжать.

Стоят дефолтные настройки с сэмплингом, но вы можете их менять. Делитесь в комментариях!
👍4
Коротко о том, как пройдут у меня ближайшие 3 дня)

🎇 Завтра: выпускной (включая вручение аттестата и медали) и возможно результаты ЕГЭ по инфе

🌉Послезавтра: поездка в Питер экскурсия по ИТМО (за один хакатон) и уже наверняка резы ЕГЭ по инфе

🔥Через 2 дня: долгожданный переезд в Москву на всё лето, возможность ходить в офис и посещать различные культурные мероприятия компании)))

Так что в ближайшее время канал оживёт 👌

P.S. А потом все-таки пойдут посты про соревки на каггле и одсе, в этот раз уже точно
👍10
Еду в Москву, чтобы оттуда полететь в Питер на экскурсию по ИТМО. Заодно надеюсь сегодня-завтра придут резы инфы и подам доки в СПб ВШЭ 👍

UPD: 90 по инфе: забыл поделить на 2 в 26 и ещё 11 и 13 неправильные. Но главное 75+)
👏10
Кажется приемная комиссия вышки по субботам не работает....
К сожалению экскурсию по ИТМО и музеям я не фоткал, но вот такой номер. Из плюсов: заселение по 1
А ещё хочу похвастаться: пришла моя первая зарплата!)
21👍2
Заявка на ПАД питерской вышки подана (бви), надеюсь нигде не ошибся
11
Жизнь в Москве:

Ожидание:
- ходишь в офис
- ходишь в спортзал
- гуляешь с друзьями
- успеваешь заниматься самообразованием и решать соревки

Реальность:
- сходил в офис
- сходил в спортзал
- умер
👍29
Forwarded from See All
Ребята, всем привет. Как вы, возможно, слышали, тут прошел датафест 3.5-недельный. С момента переноса его в онлайн он стал растянутым-вялым, и сложно, зачастую неинтересно следить за тем, что там происходит. Многие даже не знали, что он вообще был! Просто пару видео дропнули, про Матрикс там, про ОДС и все, какие лекции, какие доклады - а хз.

У меня нет своего канала в телеге, но я бы хотел поделиться знаниями с остальными, чтоб они узнали-услышали. Я не смотрел все лекции, прошелся только по обычному расписанию и выбрал исходя из интересности заголовка, часть отфильтровал после просмотра. Буду признателен, если распространите в свои каналы - уверен, многие читатели найдут много интересного для себя в записях презентаций. Неупорядоченный список для NLP, другое мне в меньшей степени интересно (в скобках - ссылка на ютуб):

1) Корпус RuCoLA: бенчмарк и способ сравнить языковые модели по-новому (link)
2) A small BERT towards Large Medical Models (link)
3) Современные техники обучения retrieval based моделей для поддержания диалога виртуальных ассистентов (link)
4) mGPT: мультиязычная генеративная модель для 61 языков и ее применения (link)
5) Делаем суммаризацию текстов на русском языке (link)
6) Трансформеры для обобщения поведения пользователей Яндекс Такси (link)
7) Трансформеры для персонализации в Яндексе (link)
8) Nearest Neighbors Language Models (part1 + part2)

Конечно, вы можете посмотреть все остальные лекции и всё расписание сами, и выбрать фаворитов, а не доверяться моему выбору. 🙏 буду благодарен за like share
👍14
Полезный пост с кучей ссылок: 3 реакции и 0 комментариев
Какой-то шитпостинг: 20 реакций и 15 комментариев
Это многое говорит об обществе....
🌭14💩10🥰2🤔1😢1
DL летописец
Полезный пост с кучей ссылок: 3 реакции и 0 комментариев Какой-то шитпостинг: 20 реакций и 15 комментариев Это многое говорит об обществе....
Ладно, а теперь нормальный пост (тоже шитпостинг):
1) сегодня готовил макароны по-флотски и омлет, ничего даже не сгорело
2) мне одобрили заявку в вышку, но в списки еще не занесли
3) а еще был очень продуктивный рабочий день, во время которого я успел часа 2 поспать
👍20👏2🥰1
💻 Интересный факт (рабочий опыт):

Оказывается сводить задачу multilabel классификации к обычной multiclassification иногда бывает очень полезно и эффективно
🐳7
Я пока не знаю о чем писать, поэтому держите полезный пост с одного хорошего канала)
#useful

👾 Я вот три тыщи лет не писал и сейчас не собирался, но люди подходят на улицах и просят продолжать блог, эх...

💡 Запилил вам целую статью с описанием и сравнением ⚡️ скорости ⚡️ разных обработчиков табличек с python. Очень-очень старался, потратил на это кучу времени и сил. Тыкать сюда.

Вечером ждите новый постик про то, как у меня дела!
DL летописец
Заявка на ПАД питерской вышки подана (бви), надеюсь нигде не ошибся
Аттестат и согласие поданы, теперь осталось ждать приказа о зачислении)
🔥11
Анонс:

Внезапно выяснилось, что рассказ о моих задачах в Точке и некоторых основных фишках в моих решениях данных задач не является NDA.

Так что сегодня-завтра будет длиннопост о впечатлениях от работы в Точке, о паре моих задач, а также возможно о чем-нибудь ещё (можете написать тут в комментах что хотели бы узнать)
👍11
#стажировка
🔥 Прошло уже больше месяца с начала моей стажировки в Точке на позиции Data Scientist'а, и я готов рассказать о том, каково тут работать, несколько интересные тут задачи и конечно же о своих успехах

💻 Кратко о Точке

Это цифровой банк без физических офисов, ориентированный на предоставление услуг для юридических лиц

👀 Общие впечатления от стажировки

Постоянная связь с ментором, приятная и дружелюбная атмосфера на созвонах и в офисе, отсутствие жестких рамок (главное выполнить задачу), удобные рабочие системы, наличие корпоративных курсов и блогов, приятные офисы (я был только в московском и мне понравилось, а говорят главный офис в екб в разы лучше) - в общем, работать одно удовольствие)

🏆 Теперь о моих задачах и успехах

1) Сначала мне выдали довольно простую но при этом очень интересную задачу - пересмотреть категориальную фичу в одном из сервисов. Тут я опробовал впервые сразу несколько разных штук, которые раньше не трогал - графовые эмбеддинги, эмбеддинги из нейронок и все это с хитрыми преобразованиями - в конечном итоге даже удалось чуть-чуть улучшить результат 0.867->0.869 и самое главное - избавится от даталика (фактически, незаметного переобучения, которое иногда бывает критически важным)

2) Далее мне выдали уже серьезную и важную задачу - разработать модель классификации звонков клиентов, чтобы определить проблемы и выслать клиенту конспекты с решениями его проблем. Сложности были с самого начала - мало размеченных данных, плохое качество фичей и самой разметки (все-таки даже людям иногда сложно определить что же все-таки клиенту надо), крайне несбалансированные классы (были 3 наиболее частые проблемы и еще несколько сотен которые встречались крайне редко, но были не менее важны), а также нередко требовалось сразу несколько конспектов. Сначала я просто пробовал разные методы, затем смотрел разные модели и параметры, пробовал разные методы обработки данных, за счет чего неплохо увеличил метрики бейзлайна:

roc_auc 0.63 -> 0.916
f1_score 0.055 -> 0.44
accuracy 0.223 -> 0.58

Затем я заметил, что обычно некоторые конспекты идут "группами" - например если есть конспект А то почти всегда есть конспект Б - поэтому я просто выделил такие группы и свел multilabel classification к обычной multiclassification, то еще сильнее улучшило метрики:

roc_auc 0.916 -> 0.937
f1_score 0.44 -> 0.532
accuracy 0.58 -> 0.628

Ну и после некоторого тюна параметров удалось сделать модель "уверенней":

accuracy 0.628 -> 0.696
roc_auc 0.937 -> 0.924

Таким образом после некоторых мучений я опробовал кучу методов, узнал несколько хитрых трюков (сведение к multiclassification лишь один из них) и сделал неплохую модель, которую возможно даже выкатят в прод)

Вывод

Несмотря на то, что в вузе обещают очень жесткую учебу и отсутствие времени, я все-таки планирую после лета продолжить работать, но уже 20 часов в неделю а не 40. Все-таки на первое место встанут учеба и попытки не вылететь)
🔥19👍2
#мем
Когда выдали невнятное ТЗ и ты пытаешься найти выход из ситуации
15😁3