🔥SberDevices подняли бота, в котором можно опробовать YaLM - самую топовую на данный момент языковую модель для русского языка, согласно лб russian super glue
Forwarded from Kali Novskaya (Tatiana Shavrina)
Ну что, вы этого хотели.
Бот YaLM-100B
@inhumanly_sentient_bot
Токен
Поскольку число карт не резиновое, может работать не супер быстро, чекайте через
В бот можно писать тексты, он будет продолжать.
Стоят дефолтные настройки с сэмплингом, но вы можете их менять. Делитесь в комментариях!
Бот YaLM-100B
@inhumanly_sentient_bot
Токен
L0NG_L1V3_ML5P4C3
Поскольку число карт не резиновое, может работать не супер быстро, чекайте через
/qsize
В бот можно писать тексты, он будет продолжать.
Стоят дефолтные настройки с сэмплингом, но вы можете их менять. Делитесь в комментариях!
👍4
⏳ Коротко о том, как пройдут у меня ближайшие 3 дня)
🎇 Завтра: выпускной (включая вручение аттестата и медали) и возможно результаты ЕГЭ по инфе
🌉Послезавтра: поездка в Питер экскурсия по ИТМО (за один хакатон) и уже наверняка резы ЕГЭ по инфе
🔥Через 2 дня: долгожданный переезд в Москву на всё лето, возможность ходить в офис и посещать различные культурные мероприятия компании)))
Так что в ближайшее время канал оживёт 👌
P.S. А потом все-таки пойдут посты про соревки на каггле и одсе, в этот раз уже точно
🎇 Завтра: выпускной (включая вручение аттестата и медали) и возможно результаты ЕГЭ по инфе
🌉Послезавтра: поездка в Питер экскурсия по ИТМО (за один хакатон) и уже наверняка резы ЕГЭ по инфе
🔥Через 2 дня: долгожданный переезд в Москву на всё лето, возможность ходить в офис и посещать различные культурные мероприятия компании)))
Так что в ближайшее время канал оживёт 👌
👍10
Еду в Москву, чтобы оттуда полететь в Питер на экскурсию по ИТМО. Заодно надеюсь сегодня-завтра придут резы инфы и подам доки в СПб ВШЭ 👍
UPD: 90 по инфе: забыл поделить на 2 в 26 и ещё 11 и 13 неправильные. Но главное 75+)
UPD: 90 по инфе: забыл поделить на 2 в 26 и ещё 11 и 13 неправильные. Но главное 75+)
👏10
К сожалению экскурсию по ИТМО и музеям я не фоткал, но вот такой номер. Из плюсов: заселение по 1
Жизнь в Москве:
Ожидание:
- ходишь в офис
- ходишь в спортзал
- гуляешь с друзьями
- успеваешь заниматься самообразованием и решать соревки
Реальность:
- сходил в офис
- сходил в спортзал
- умер
Ожидание:
- ходишь в офис
- ходишь в спортзал
- гуляешь с друзьями
- успеваешь заниматься самообразованием и решать соревки
Реальность:
- сходил в офис
- сходил в спортзал
- умер
👍29
Forwarded from See All
Ребята, всем привет. Как вы, возможно, слышали, тут прошел датафест 3.5-недельный. С момента переноса его в онлайн он стал растянутым-вялым, и сложно, зачастую неинтересно следить за тем, что там происходит. Многие даже не знали, что он вообще был! Просто пару видео дропнули, про Матрикс там, про ОДС и все, какие лекции, какие доклады - а хз.
У меня нет своего канала в телеге, но я бы хотел поделиться знаниями с остальными, чтоб они узнали-услышали. Я не смотрел все лекции, прошелся только по обычному расписанию и выбрал исходя из интересности заголовка, часть отфильтровал после просмотра. Буду признателен, если распространите в свои каналы - уверен, многие читатели найдут много интересного для себя в записях презентаций. Неупорядоченный список для NLP, другое мне в меньшей степени интересно (в скобках - ссылка на ютуб):
1) Корпус RuCoLA: бенчмарк и способ сравнить языковые модели по-новому (link)
2) A small BERT towards Large Medical Models (link)
3) Современные техники обучения retrieval based моделей для поддержания диалога виртуальных ассистентов (link)
4) mGPT: мультиязычная генеративная модель для 61 языков и ее применения (link)
5) Делаем суммаризацию текстов на русском языке (link)
6) Трансформеры для обобщения поведения пользователей Яндекс Такси (link)
7) Трансформеры для персонализации в Яндексе (link)
8) Nearest Neighbors Language Models (part1 + part2)
Конечно, вы можете посмотреть все остальные лекции и всё расписание сами, и выбрать фаворитов, а не доверяться моему выбору. 🙏 буду благодарен заlike share
У меня нет своего канала в телеге, но я бы хотел поделиться знаниями с остальными, чтоб они узнали-услышали. Я не смотрел все лекции, прошелся только по обычному расписанию и выбрал исходя из интересности заголовка, часть отфильтровал после просмотра. Буду признателен, если распространите в свои каналы - уверен, многие читатели найдут много интересного для себя в записях презентаций. Неупорядоченный список для NLP, другое мне в меньшей степени интересно (в скобках - ссылка на ютуб):
1) Корпус RuCoLA: бенчмарк и способ сравнить языковые модели по-новому (link)
2) A small BERT towards Large Medical Models (link)
3) Современные техники обучения retrieval based моделей для поддержания диалога виртуальных ассистентов (link)
4) mGPT: мультиязычная генеративная модель для 61 языков и ее применения (link)
5) Делаем суммаризацию текстов на русском языке (link)
6) Трансформеры для обобщения поведения пользователей Яндекс Такси (link)
7) Трансформеры для персонализации в Яндексе (link)
8) Nearest Neighbors Language Models (part1 + part2)
Конечно, вы можете посмотреть все остальные лекции и всё расписание сами, и выбрать фаворитов, а не доверяться моему выбору. 🙏 буду благодарен за
👍14
Полезный пост с кучей ссылок: 3 реакции и 0 комментариев
Какой-то шитпостинг: 20 реакций и 15 комментариев
Это многое говорит об обществе....
Какой-то шитпостинг: 20 реакций и 15 комментариев
Это многое говорит об обществе....
🌭14💩10🥰2🤔1😢1
DL летописец
Полезный пост с кучей ссылок: 3 реакции и 0 комментариев Какой-то шитпостинг: 20 реакций и 15 комментариев Это многое говорит об обществе....
Ладно, а теперь нормальный пост (тоже шитпостинг) :
1) сегодня готовил макароны по-флотски и омлет, ничего даже не сгорело
2) мне одобрили заявку в вышку, но в списки еще не занесли
3) а еще был очень продуктивный рабочий день, во время которого я успел часа 2 поспать
1) сегодня готовил макароны по-флотски и омлет, ничего даже не сгорело
2) мне одобрили заявку в вышку, но в списки еще не занесли
3) а еще был очень продуктивный рабочий день, во время которого я успел часа 2 поспать
👍20👏2🥰1
💻 Интересный факт (рабочий опыт):
Оказывается сводить задачу multilabel классификации к обычной multiclassification иногда бывает очень полезно и эффективно
Оказывается сводить задачу multilabel классификации к обычной multiclassification иногда бывает очень полезно и эффективно
🐳7
Я пока не знаю о чем писать, поэтому держите полезный пост с одного хорошего канала)
Forwarded from Модель для сборки
#useful
👾 Я вот три тыщи лет не писал и сейчас не собирался, но люди подходят на улицах и просят продолжать блог, эх...
💡 Запилил вам целую статью с описанием и сравнением ⚡️ скорости ⚡️ разных обработчиков табличек с python. Очень-очень старался, потратил на это кучу времени и сил. Тыкать сюда.
⏰ Вечером ждите новый постик про то, как у меня дела!
👾 Я вот три тыщи лет не писал и сейчас не собирался, но люди подходят на улицах и просят продолжать блог, эх...
💡 Запилил вам целую статью с описанием и сравнением ⚡️ скорости ⚡️ разных обработчиков табличек с python. Очень-очень старался, потратил на это кучу времени и сил. Тыкать сюда.
⏰ Вечером ждите новый постик про то, как у меня дела!
yk4r2 on Notion
Pandas и его друзья | Notion
🤔 Кто такой этот ваш pandas?
DL летописец
✅ Заявка на ПАД питерской вышки подана (бви), надеюсь нигде не ошибся
✅ Аттестат и согласие поданы, теперь осталось ждать приказа о зачислении)
🔥11
⏳ Анонс:
Внезапно выяснилось, что рассказ о моих задачах в Точке и некоторых основных фишках в моих решениях данных задач не является NDA.
Так что сегодня-завтра будет длиннопост о впечатлениях от работы в Точке, о паре моих задач, а также возможно о чем-нибудь ещё (можете написать тут в комментах что хотели бы узнать)
Внезапно выяснилось, что рассказ о моих задачах в Точке и некоторых основных фишках в моих решениях данных задач не является NDA.
Так что сегодня-завтра будет длиннопост о впечатлениях от работы в Точке, о паре моих задач, а также возможно о чем-нибудь ещё (можете написать тут в комментах что хотели бы узнать)
👍11
#стажировка
🔥 Прошло уже больше месяца с начала моей стажировки в Точке на позиции Data Scientist'а, и я готов рассказать о том, каково тут работать, несколько интересные тут задачи и конечно же о своих успехах
💻 Кратко о Точке
Это цифровой банк без физических офисов, ориентированный на предоставление услуг для юридических лиц
👀 Общие впечатления от стажировки
Постоянная связь с ментором, приятная и дружелюбная атмосфера на созвонах и в офисе, отсутствие жестких рамок (главное выполнить задачу), удобные рабочие системы, наличие корпоративных курсов и блогов, приятные офисы (я был только в московском и мне понравилось, а говорят главный офис в екб в разы лучше) - в общем, работать одно удовольствие)
🏆 Теперь о моих задачах и успехах
1) Сначала мне выдали довольно простую но при этом очень интересную задачу - пересмотреть категориальную фичу в одном из сервисов. Тут я опробовал впервые сразу несколько разных штук, которые раньше не трогал - графовые эмбеддинги, эмбеддинги из нейронок и все это с хитрыми преобразованиями - в конечном итоге даже удалось чуть-чуть улучшить результат 0.867->0.869 и самое главное - избавится от даталика (фактически, незаметного переобучения, которое иногда бывает критически важным)
2) Далее мне выдали уже серьезную и важную задачу - разработать модель классификации звонков клиентов, чтобы определить проблемы и выслать клиенту конспекты с решениями его проблем. Сложности были с самого начала - мало размеченных данных, плохое качество фичей и самой разметки (все-таки даже людям иногда сложно определить что же все-таки клиенту надо), крайне несбалансированные классы (были 3 наиболее частые проблемы и еще несколько сотен которые встречались крайне редко, но были не менее важны), а также нередко требовалось сразу несколько конспектов. Сначала я просто пробовал разные методы, затем смотрел разные модели и параметры, пробовал разные методы обработки данных, за счет чего неплохо увеличил метрики бейзлайна:
roc_auc 0.63 -> 0.916
f1_score 0.055 -> 0.44
accuracy 0.223 -> 0.58
Затем я заметил, что обычно некоторые конспекты идут "группами" - например если есть конспект А то почти всегда есть конспект Б - поэтому я просто выделил такие группы и свел multilabel classification к обычной multiclassification, то еще сильнее улучшило метрики:
roc_auc 0.916 -> 0.937
f1_score 0.44 -> 0.532
accuracy 0.58 -> 0.628
Ну и после некоторого тюна параметров удалось сделать модель "уверенней":
accuracy 0.628 -> 0.696
roc_auc 0.937 -> 0.924
Таким образом после некоторых мучений я опробовал кучу методов, узнал несколько хитрых трюков (сведение к multiclassification лишь один из них) и сделал неплохую модель, которую возможно даже выкатят в прод)
⏳Вывод
Несмотря на то, что в вузе обещают очень жесткую учебу и отсутствие времени, я все-таки планирую после лета продолжить работать, но уже 20 часов в неделю а не 40. Все-таки на первое место встанут учеба и попытки не вылететь)
🔥 Прошло уже больше месяца с начала моей стажировки в Точке на позиции Data Scientist'а, и я готов рассказать о том, каково тут работать, несколько интересные тут задачи и конечно же о своих успехах
💻 Кратко о Точке
Это цифровой банк без физических офисов, ориентированный на предоставление услуг для юридических лиц
👀 Общие впечатления от стажировки
Постоянная связь с ментором, приятная и дружелюбная атмосфера на созвонах и в офисе, отсутствие жестких рамок (главное выполнить задачу), удобные рабочие системы, наличие корпоративных курсов и блогов, приятные офисы (я был только в московском и мне понравилось, а говорят главный офис в екб в разы лучше) - в общем, работать одно удовольствие)
🏆 Теперь о моих задачах и успехах
1) Сначала мне выдали довольно простую но при этом очень интересную задачу - пересмотреть категориальную фичу в одном из сервисов. Тут я опробовал впервые сразу несколько разных штук, которые раньше не трогал - графовые эмбеддинги, эмбеддинги из нейронок и все это с хитрыми преобразованиями - в конечном итоге даже удалось чуть-чуть улучшить результат 0.867->0.869 и самое главное - избавится от даталика (фактически, незаметного переобучения, которое иногда бывает критически важным)
2) Далее мне выдали уже серьезную и важную задачу - разработать модель классификации звонков клиентов, чтобы определить проблемы и выслать клиенту конспекты с решениями его проблем. Сложности были с самого начала - мало размеченных данных, плохое качество фичей и самой разметки (все-таки даже людям иногда сложно определить что же все-таки клиенту надо), крайне несбалансированные классы (были 3 наиболее частые проблемы и еще несколько сотен которые встречались крайне редко, но были не менее важны), а также нередко требовалось сразу несколько конспектов. Сначала я просто пробовал разные методы, затем смотрел разные модели и параметры, пробовал разные методы обработки данных, за счет чего неплохо увеличил метрики бейзлайна:
roc_auc 0.63 -> 0.916
f1_score 0.055 -> 0.44
accuracy 0.223 -> 0.58
Затем я заметил, что обычно некоторые конспекты идут "группами" - например если есть конспект А то почти всегда есть конспект Б - поэтому я просто выделил такие группы и свел multilabel classification к обычной multiclassification, то еще сильнее улучшило метрики:
roc_auc 0.916 -> 0.937
f1_score 0.44 -> 0.532
accuracy 0.58 -> 0.628
Ну и после некоторого тюна параметров удалось сделать модель "уверенней":
accuracy 0.628 -> 0.696
roc_auc 0.937 -> 0.924
Таким образом после некоторых мучений я опробовал кучу методов, узнал несколько хитрых трюков (сведение к multiclassification лишь один из них) и сделал неплохую модель, которую возможно даже выкатят в прод)
⏳Вывод
Несмотря на то, что в вузе обещают очень жесткую учебу и отсутствие времени, я все-таки планирую после лета продолжить работать, но уже 20 часов в неделю а не 40. Все-таки на первое место встанут учеба и попытки не вылететь)
YouTube
Лучшая работа в мире (Ярость - Fury: best job in the world)
Это лучшая работа в жизни
best job in the world
Фильм: Ярость - Fury (2014)
Описание ситуации:
Во время распития напитка перед последним сражением, ребята вспомнили свой любимый лозунг
Смотреть Ярость HD 720p
Смотреть Ярость HD 1080p
Режиссер: Дэвид…
best job in the world
Фильм: Ярость - Fury (2014)
Описание ситуации:
Во время распития напитка перед последним сражением, ребята вспомнили свой любимый лозунг
Смотреть Ярость HD 720p
Смотреть Ярость HD 1080p
Режиссер: Дэвид…
🔥19👍2
Forwarded from Всё про Алгоритмы и Структуры данных
Media is too big
VIEW IN TELEGRAM
Визуализация 16 сортировок
Написано полностью на Java. Предупреждаем, можете залипнуть.
Исходники на GitHub: https://github.com/w0rthy/ArrayVisualizer
Написано полностью на Java. Предупреждаем, можете залипнуть.
Исходники на GitHub: https://github.com/w0rthy/ArrayVisualizer
🤔4💩3