Dimension AI | Dmitry Sirakov
1.93K subscribers
108 photos
3 videos
1 file
43 links
Рассказываю про NLP и образование.

Ссылка на чат - t.iss.one/dimensionchat
Связь - @Shadekss
Download Telegram
Dimension AI | Dmitry Sirakov pinned «На самом деле изначально этот канал создавался как блог - Прохождение Cимулятора ML от karpov.cources. Действительно интересно, насколько сильно я поднимусь в своих скиллах за такую скромную сумму(21,000), занимаясь при этом 3 месяца и достаточно упорно.…»
Второй день симулятора (2/90)

⁃ Задача STOCKS. Нужно было посчитать метрику GMV, разумеется, производительно. Здесь начались пляски с .div() у Pandas, сравнения построчно, inplace и прочие. Можно было и сдать задачу на 0.9 и без этих плясок. Но я хочу 1. Я ее сделал. А еще я узнал, для чего нужны скидки... В общем, лет 5 назад отец вслух рассуждал: "Вот зачем они скидки настоящие делают, они же прибыль себе рубят. Дим, вот ты знаешь?". Сейчас решаю эту задачу и понимаю, зачем нужны скидки и какую метрику они апают. На самом деле апают метрику вовлеченност(Retention), число покупателей в день(DAU) и пр.
- Задача Average Check. Сходил в ClickHouse, узнал про точные квантили, а еще никогда не работал с ClickHouse. Нашел нужную табличку, сделал запросик и все прекрасно.
- Задача DOCSTRING. КТО-НИБУДЬ ЗНАЛ ЧТО ЕЩЕ И К ДОКАМ ЕСТЬ НЕСКОЛЬКО СТАНДАРТОВ?
И что это реально проблема, один пишет по одному доку, другой по другому. Пользовался инструментом pyment, а также почти вручную написал доку к функции в формате NumpyDoc.

Занимался Скрапингом с помощью Selenium сегодня. Никогда не работал, либо пользовался дырами бекендеров и кидал прямые запросы в их БД, либо BS4.
А в этот раз я зашел на сайтик, сам авторизировался и спарсил оттуда все данные для своего анализа(аж датафреймами. Можно было колхозно поячеечно, чего в Гугле навалом. А я сразу таблицу и всё). Буду пополнять свой DashBoard данными.

Решено 7/57 задач в симуляторе пока что.
4🔥3😈2👀2
Третий день симулятора (3/90)

⁃ Задачи в ASYMMETRIC METRICS. А всегда ли мы должны наказывать за перепрогноз и недопрогноз одинаково? Я почти не задумывался об этом, а зря. Действительно прекрасна аналогия с такси. Если мы предсказали время ожидания такси побольше, а такси на самом деле приехало раньше - так для клиента это круто, а если мы предсказали поменьше, а клиент ждал больше - наоборот, скудно. А решается это все с помощью штрафов и их интепретации. Прочитал прекрасную статью по метрикам, на которую ссылались в курсе. Понимаю теперь их прикладной смысл, когда и в какой совокупности их использовать. Придумал две свои собственные функции потерь - одна для перепрогноза, другая для недопрогноза. Идеально. Одна линейная, вторая на экспонентах.

На самом деле с прохождением симулятора я стал понимать суть бизнеса. Что мл ради мл никому не нужен, что нужно думать о конечном потребителе, о деньгах. А модельки построить - каждый может. А понять потребность бизнеса, переформулировать задачу и сделать так, чтобы решение приносило деньги - не каждый. Я уж не говорю о том, чтобы правильно вообще спроектировать ML System. Я до сих пор не жалею потраченные средства на этот курс.

Немного лайф хистори. Прихожу на работу, говорят, смотри, есть график, нам его в статью, но он нам не нравится пушо некрасиво и не интерпретируемо, надо исправить. Сходил на GitLab, достал данные, ноутбук. Разобрался, отрефакторил, построил новые графики за 3 часа. Просто прекрасно.

Написал на Streamlit и задеплоил небольшое приложение, которое просто ChatGPT иллюстрирует. Без впн, быстро, удобно, с интерфейсом. Супер!

Решено 8/57 модулей в симуляторе. Оказывается, 1 модуль != 1 задача.
🔥7😈3
Четвертый день симулятора (4/90)

Сегодня нет симулятора. Пол дня я убил в больницу, в которую меня в итоге не пустили.

Пол дня я убил на лабы для автомата.

А оставшиеся часы я занимался кластеризацией студентов по командам. Достаточно эффективно.

Всем сладких снов
👍4😈3
Жесть, сколько голубей
😈3
Пятый день симулятора (5/90)

Наконец нормально съездил в больницу, конечно себя оч неважно чувствовал, но норм.

Целый день работа, целый. Данные, визуализация, парсить, selenium, студенты :(((

по симулятору решил одну задачу на ночь - DAU. Я с SQL вообще не дружу, поэтому задача решилась за 20 минут.
Сходил в ClickHouse, нашел табличку, сделал запрос, получил че хотел. Сдал - зашло со 2ой попытки, правда странная проверка. Задал вопрос, жду ответа-с.

Решено 9 уроков(ну так на сайте написано) из 22 уровня Intern. Задачи даются мегалегко, задачи на уровне Junior уже интереснее и занимательнее, а пока прям вводный-ввод, скучновато местами, но очень сильно дополняет мои знания и недостатки, поэтому зачет.
5👍2😈2
Седьмой день симулятора (7/90)

3 задачи на TOP-10. Сходил уже в PostgreSQL, спокойненько сдал задачи с первого(или почти первого раза). На таком уровне мне SQL нравится. Максимально продуктивно, отработка самых частых сценариев. Прекрасно.

Почитал про матчинг, пространство эмбедингов и наконец узнал, что такое Metric Learning.

Посмотрел интервью с разбором Валерия Бабушкина, всё гораздо-гораздо сложнее, но мне нравится, что в интервью я бы себя показал очень хорошо :3

Сегодня целый день отвечал на вопросы по мл, чат гпт и прочим штукам, а за завтра мне нужно нагенерить 20 дипломов, каждый из которых на 200 страниц.
👍6
Зачем 4 монитора?
Forwarded from BOGDAN
Я ищу лишь одного: покоя, умиротворения и вот этой гармонии, от слияния 0.9999.. скора в симуляторе с 1.0, от созерцания 20/20 зеленых тестов в задаче с полным баллом, от пустого трейсбека ошибки и пропуска на следующий степ
🥰3👍2
Словил простуду Иль ещё что, хз.

Голова сильно болит, а грудь разрывает от такого сильного кашля :(

Сегодня без симулятора :(
😢5
Сейчас у меня температура 37.4, офигительно заложен нос, а кашель не уходит.

Девятый день симулятора(9/90)
Сделал одну задачку на Матчинг. Прикольно, можно было делать решение через графы, а я просто словари создал и запрогал решение за O(n^2). Зато сам. И без этой вашей гопоты.

Дописал алгоритм, который сам генерит дипломы на 200+ страниц. Просто написал структуру, встроил промпты. Gpt-turbo-3.5 генерит текст, на троечку без антиплагиата более чем пойдёт. Все сразу красиво, по псевдоГОСТу.

280 страниц в среднем выходит.

А ещё недавно изики пришли. Теперь у меня есть, что мыть каждый день.
👍4🔥4
Сделал 10 дипломов, каждый 280 страниц.
2800 страниц. Правда один диплом генерится без хитростей 40м, но это мегалегко параллелится.
👍3
Смерть близка
4😢3
В целом, мне стало лучше, но есть одно но…
🙏4
Я выздоровел. 37.0
🍾6🌭3
Десятый день симулятора(10/90)

Сделал ещё одну задачку на MATCHES GROUP. Она теперь универсальна. Получил с гордостью 1 / 1.

Познакомился с PYTEST уже на практике. Написал тесты, все классно и супер.

MEMOIZATION. Наконец на практике реализовал свой первый декоратор(ну судя по задаче понятно). Разобрался в этой магической сущности. Офигенно.

MUTABLE. Да, все всё знают. Но мне казалось, что это просто теория, которую спрашивают на собесе, а-ля 'Эрудированность'. А на практике я даже не задумывался, по крайней мере в аргументах по умолчанию в функциях точно.

NEGATIVE TESTS. ЖЕСТКО заботал какие типы ошибок бывают и посмотрел, как простой код нужно писать нормально.

Прошел половину INTERN. Но самое интересное для меня - конец INTERN и весь JUNIOR.

Хотя я вовсе не готов сказать, что половина INTERN была бесполезна..Она очень полезна. Обращает внимание на те вещи, на которые я раньше не обращал внимания.
👍5🔥32😈1