DL летописец
1.82K subscribers
107 photos
8 videos
36 files
79 links
Пытаюсь выжить в питерской вышке и пойти в науку (контакт - @Pashteticus)
Download Telegram
К сожалению экскурсию по ИТМО и музеям я не фоткал, но вот такой номер. Из плюсов: заселение по 1
А ещё хочу похвастаться: пришла моя первая зарплата!)
21👍2
Заявка на ПАД питерской вышки подана (бви), надеюсь нигде не ошибся
11
Жизнь в Москве:

Ожидание:
- ходишь в офис
- ходишь в спортзал
- гуляешь с друзьями
- успеваешь заниматься самообразованием и решать соревки

Реальность:
- сходил в офис
- сходил в спортзал
- умер
👍29
Forwarded from See All
Ребята, всем привет. Как вы, возможно, слышали, тут прошел датафест 3.5-недельный. С момента переноса его в онлайн он стал растянутым-вялым, и сложно, зачастую неинтересно следить за тем, что там происходит. Многие даже не знали, что он вообще был! Просто пару видео дропнули, про Матрикс там, про ОДС и все, какие лекции, какие доклады - а хз.

У меня нет своего канала в телеге, но я бы хотел поделиться знаниями с остальными, чтоб они узнали-услышали. Я не смотрел все лекции, прошелся только по обычному расписанию и выбрал исходя из интересности заголовка, часть отфильтровал после просмотра. Буду признателен, если распространите в свои каналы - уверен, многие читатели найдут много интересного для себя в записях презентаций. Неупорядоченный список для NLP, другое мне в меньшей степени интересно (в скобках - ссылка на ютуб):

1) Корпус RuCoLA: бенчмарк и способ сравнить языковые модели по-новому (link)
2) A small BERT towards Large Medical Models (link)
3) Современные техники обучения retrieval based моделей для поддержания диалога виртуальных ассистентов (link)
4) mGPT: мультиязычная генеративная модель для 61 языков и ее применения (link)
5) Делаем суммаризацию текстов на русском языке (link)
6) Трансформеры для обобщения поведения пользователей Яндекс Такси (link)
7) Трансформеры для персонализации в Яндексе (link)
8) Nearest Neighbors Language Models (part1 + part2)

Конечно, вы можете посмотреть все остальные лекции и всё расписание сами, и выбрать фаворитов, а не доверяться моему выбору. 🙏 буду благодарен за like share
👍14
Полезный пост с кучей ссылок: 3 реакции и 0 комментариев
Какой-то шитпостинг: 20 реакций и 15 комментариев
Это многое говорит об обществе....
🌭14💩10🥰2🤔1😢1
DL летописец
Полезный пост с кучей ссылок: 3 реакции и 0 комментариев Какой-то шитпостинг: 20 реакций и 15 комментариев Это многое говорит об обществе....
Ладно, а теперь нормальный пост (тоже шитпостинг):
1) сегодня готовил макароны по-флотски и омлет, ничего даже не сгорело
2) мне одобрили заявку в вышку, но в списки еще не занесли
3) а еще был очень продуктивный рабочий день, во время которого я успел часа 2 поспать
👍20👏2🥰1
💻 Интересный факт (рабочий опыт):

Оказывается сводить задачу multilabel классификации к обычной multiclassification иногда бывает очень полезно и эффективно
🐳7
Я пока не знаю о чем писать, поэтому держите полезный пост с одного хорошего канала)
#useful

👾 Я вот три тыщи лет не писал и сейчас не собирался, но люди подходят на улицах и просят продолжать блог, эх...

💡 Запилил вам целую статью с описанием и сравнением ⚡️ скорости ⚡️ разных обработчиков табличек с python. Очень-очень старался, потратил на это кучу времени и сил. Тыкать сюда.

Вечером ждите новый постик про то, как у меня дела!
DL летописец
Заявка на ПАД питерской вышки подана (бви), надеюсь нигде не ошибся
Аттестат и согласие поданы, теперь осталось ждать приказа о зачислении)
🔥11
Анонс:

Внезапно выяснилось, что рассказ о моих задачах в Точке и некоторых основных фишках в моих решениях данных задач не является NDA.

Так что сегодня-завтра будет длиннопост о впечатлениях от работы в Точке, о паре моих задач, а также возможно о чем-нибудь ещё (можете написать тут в комментах что хотели бы узнать)
👍11
#стажировка
🔥 Прошло уже больше месяца с начала моей стажировки в Точке на позиции Data Scientist'а, и я готов рассказать о том, каково тут работать, несколько интересные тут задачи и конечно же о своих успехах

💻 Кратко о Точке

Это цифровой банк без физических офисов, ориентированный на предоставление услуг для юридических лиц

👀 Общие впечатления от стажировки

Постоянная связь с ментором, приятная и дружелюбная атмосфера на созвонах и в офисе, отсутствие жестких рамок (главное выполнить задачу), удобные рабочие системы, наличие корпоративных курсов и блогов, приятные офисы (я был только в московском и мне понравилось, а говорят главный офис в екб в разы лучше) - в общем, работать одно удовольствие)

🏆 Теперь о моих задачах и успехах

1) Сначала мне выдали довольно простую но при этом очень интересную задачу - пересмотреть категориальную фичу в одном из сервисов. Тут я опробовал впервые сразу несколько разных штук, которые раньше не трогал - графовые эмбеддинги, эмбеддинги из нейронок и все это с хитрыми преобразованиями - в конечном итоге даже удалось чуть-чуть улучшить результат 0.867->0.869 и самое главное - избавится от даталика (фактически, незаметного переобучения, которое иногда бывает критически важным)

2) Далее мне выдали уже серьезную и важную задачу - разработать модель классификации звонков клиентов, чтобы определить проблемы и выслать клиенту конспекты с решениями его проблем. Сложности были с самого начала - мало размеченных данных, плохое качество фичей и самой разметки (все-таки даже людям иногда сложно определить что же все-таки клиенту надо), крайне несбалансированные классы (были 3 наиболее частые проблемы и еще несколько сотен которые встречались крайне редко, но были не менее важны), а также нередко требовалось сразу несколько конспектов. Сначала я просто пробовал разные методы, затем смотрел разные модели и параметры, пробовал разные методы обработки данных, за счет чего неплохо увеличил метрики бейзлайна:

roc_auc 0.63 -> 0.916
f1_score 0.055 -> 0.44
accuracy 0.223 -> 0.58

Затем я заметил, что обычно некоторые конспекты идут "группами" - например если есть конспект А то почти всегда есть конспект Б - поэтому я просто выделил такие группы и свел multilabel classification к обычной multiclassification, то еще сильнее улучшило метрики:

roc_auc 0.916 -> 0.937
f1_score 0.44 -> 0.532
accuracy 0.58 -> 0.628

Ну и после некоторого тюна параметров удалось сделать модель "уверенней":

accuracy 0.628 -> 0.696
roc_auc 0.937 -> 0.924

Таким образом после некоторых мучений я опробовал кучу методов, узнал несколько хитрых трюков (сведение к multiclassification лишь один из них) и сделал неплохую модель, которую возможно даже выкатят в прод)

Вывод

Несмотря на то, что в вузе обещают очень жесткую учебу и отсутствие времени, я все-таки планирую после лета продолжить работать, но уже 20 часов в неделю а не 40. Все-таки на первое место встанут учеба и попытки не вылететь)
🔥19👍2
#мем
Когда выдали невнятное ТЗ и ты пытаешься найти выход из ситуации
15😁3
Media is too big
VIEW IN TELEGRAM
Визуализация 16 сортировок

Написано полностью на Java. Предупреждаем, можете залипнуть.

Исходники на GitHub: https://github.com/w0rthy/ArrayVisualizer
🤔4💩3
Forwarded from AI для Всех
Курс "Нейронные сети и их применение в научных исследованиях" выложен в открытый доступ

Этой весной, я читал в МГУ свой собственный курс, теперь он полностью в открытом доступе под лицензией CC0.

В настоящее время, одним из самых перспективных методов машинного обучения считается глубокое обучение (нейронные сети). За последние несколько лет глубокое обучение нашло применение практически во всех областях науки, от биологии и физики до лингвистики и философии.

Этот курс из 12 лекций даст студентам высокоуровневый обзор современных методов искусственного интеллекта и их применения в различных научных областях. Изучив курс, студенты смогут разобраться, что возможно в настоящее время и что, вероятно, будет возможно в ближайшем будущем.

🎥 Смотреть курс тут

Буду признателен за максимальное распространение, я потратил много времени и усилий и мне будет очень приятно, если курс увидит как можно больше людей!
👍7
#стажировка
👨‍💻 Гайд как испортить настроение другу-стажеру и его ментору:
- вечер пятницы, рабочий день подходит к концу
- регистрируюсь в сервисе, в разработке которого участвует мой друг
- нахожу сразу 2 серьезных бага
- друг и его ментор начинают ругать беков и фронтов
- спустя 5 минут ментор друга закрывает ноут, говорит что эта фигня не стоит его нервов и уходит
- еще спустя 5 минут с теми же словами уходит и мой друг 🤡
😁21👍1💩1
Посадите 10 физтехов в одну комнату и пусть они ищут одного ложного физтеха: школьника, который просто насиделся во всяких чатах

Одна загвоздка — школьника среди них нет, это все физтехи
😁12🔥2💩1
Forwarded from ML-легушька (Николай Кутузов)
Про науку. Сейчас будет несколько историй от моего научного руководителя и мои наблюдения/выводы. Про него: 4700 цитирований, 33 индекс хирша. Думаю, ему можно верить. Он много ездил на международные программы и прочее. 1) Европа - вообще не рай для ученых, что видно на конкретных примерах. Ученика моего научрука позвали на постдок к Нестерову (один из трех создателей всей численной оптимизации), в Бельгию, за решение проблемы, которую Нестеров не мог решить 4 года. И ему предложили стипендию как у кассира из пятерочки. Все было бы прекрасно, мол работай где хочешь, но во многих странах Европы ты СОГЛАСНО ЗАКОНАМ не можешь параллельно где-то работать, занимаясь наукой. И до войны многие ученые ездили в Россию на заработки. Теперь это стало намного сложнее, поэтому некоторые ученые банально не могут прокормить свою семью (речь идет о тех, кто занимается теорией оптимизации, не думаю что в других сферах все сильно иначе), поэтому, например, Роланд Хильдебранд, оптимизатор из Франции, перевозит свою семью в Россию, переезжает сюда и будет полноценно работать и преподавать на физтехе (раньше он читал несколько лекций в курсе по численным методам). Более того, если в Европе ты руководитель-ученый, то и тут появляются проблемы. Моего научрука звали на крутую позицию в Европу, прям рекламировали, но сказали, что он может взять на этой крутой позиции лишь двоих аспирантов. А у него их 17. И как быть? Не ясно. 2) Нынешняя ситуация дает многим математикам, особенно оптимизаторам, буквально второе дыхание. Раньше российские компании и предприятия не хотели разрабатывать свои пакеты, а пользовались западными, однако теперь это стало ненадежно. Причем их использовали не смотря на устаревание. Пример: мой научрук пришел в министерство транспорта Москвы и сказал, что их солвер для транспортных потоков работает на технологиях из 90ых и предложил сделать нормальный, на что был послан словами "у нас есть лицензия, нас все устраивает". Однако теперь он с учениками делает для мин.транспорта оптимизационный пакет, применяющий новейшие наработки в данной области. Такой же проект, но по другой теме, у него был и вероятно сейчас есть с ВТБ, и бог знает с кем ещё. 3) Быть ученым-математиком(тут в основном про оптимизаторов, сложно сказать как в других сферах) также и достаточно выгодно, так как помимо научной деятельности ты а) можешь брать кучу проектов, например с Хуавеем, который позволяет по разработкам публиковать статьи и хорошо платит и б) участвовать в миллионе конкурсов и грантов, один из которых таки удастся выиграть. Научный руководитель приводил много примеров, когда его ученики такое брали, нет смысла на этом останавливаться. В целом хуавей очень много сделал для российской математики, так как, опять же, позволяет публиковать статьи, где в общих чертах описывается математика решения и эксперименты, а также хантит математиков. 60% учеников моего научрука (а со мной может и больше) имеют какие-то проекты либо работу в хуавее. 4) Бакалавриат в России - хорошая идея. Научный руководитель говорит, опираясь на опыт его учеников и свои знания, что бакалавриат на физтехе дает тебе больше знаний, чем в MIT, но в магистратуре и особенно аспирантуре все меняется. В России очень многое зависит от твоего научрука, обучает он тебя или нет. В западных вузах ты можешь брать advanced курсы, где тебя в любом случае научат очень глубоким вещам, что несомненно огромный плюс. Однако, также по его словам, физтеховские магистратуры сейчас встают на уровень с западными, значит скоро мы доберемся и до аспирантур. Вердикт: наука в России не мертва. Вероятно, химикам, или тем кто занимается железом, намного сложнее, чем математикам, но происходит множество подвижек в этом направлении, и тенденция выглядит для меня очень привлекательно. Согласие и несогласие можно выразить в комментариях
🔥12
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Нипс 2022 be like*.

Считаю, что нужно для каждой конфы такое сделать. Неизменно будет только одно - ролик со Шмидхубером. Ещё бы кто приправил менее толерантными шутками.

*Для нубов. Это крупнейшая конференции по AI и нейронным сетям в мире.

@ai_newz
👍1