Dimension AI | Dmitry Sirakov
1.93K subscribers
107 photos
3 videos
1 file
42 links
Рассказываю про NLP и образование.

Ссылка на чат - t.iss.one/dimensionchat
Связь - @Shadekss
Download Telegram
Третий день модуля Junior.

SIMILAR ITEM PRICE. Классная задачка. Поступают эмбеддинги товаров и цены этих товаров. А мы должны на основе схожести сделать прайс товарам.

Embeddings - численное представление чего-либо в виде вектора, причем 'магическим' образом сохраняется семантику(смысл). Возьмем слова. Есть "мужчина" и "Король", а также "женщина" и "Королева". "Мужчина" лежит рядом с "Королем", а "женщина" рядом с "Королевой".
При этом, можно делать такие забавные штуки:
"Король" - "мужчина" + "женщина" = "Королева"


Подробнее - https://habr.com/ru/companies/ods/articles/329410/
(Если что все статейки - максимально дружелюбные, насколько только можно. Поэтому если интересно - читаем-с)
Здесь работа с косинусным расстоянием, работа с весами, нормализацией векторов и всей рутиной. Главное производительно, без лишних циклов и повторений кода.

--------------------

Я перегрелся чутка, а еще до конца не вылечился.

Пришло кстати письмо на почту, 1 июля с 10:00 до 14:30 будет экзамен заключительный в Академию Аналитиков Авито.
Теперь будут проверять решения. Матеша + прога))
Вот и отдохнем. Задания и свои решения скину сюда на оценочку!
🔥135🥰3
МАШИННОЕ ОБУЧЕНИЕ И АНАЛИЗ ДАННЫХ С НУЛЯ. БЕСПЛАТНО.

Здесь должен быть longread о том, как это все важно. Как это все круто и продуманно сделано, что автор понимает о чем говорит и постарался правильно выстроить всю логическую цепочку. Что все выбранные курсы, лекторы, литература - лучшее на рынке.

Если вы тоооолько-тооооолько начинаете в этом разбираться, то:
1) 1.1 Математическая статистика Ч.1, Математическая статистика Ч.2 (Karpov.courses)
1.2 Статистика и котики

Данный блок нужен для того, чтобы задать некую базу и понимание того, как всё происходит. Да, пока без программирования, да, простым языком. Но это даст интуицию, которая очень сильно пригодится в будущем. Будь вы аналитиком или ML-специалистом. 1.1 и 1.2 советую проходить параллельно.

2) 2.1 Поколение Python Ч.1, Поколение Python Ч.2
2.2 Основы Python (Karpov.courses)

А это уже программирование, введение в основные возможности языка, знакомство с синтаксисом. База, если вы себя чувствуете неуверенно в этом языке. Или хотите быстро повторить, это нормально. Курсы максимально легкие, приятные, актуальность пояснять не буду). В блоке 2.2 находится курс от karpov.courses. Если прошло уже достаточное кол-во времени с момента выпуска этого поста - значит можно смело его проходить, потому что все модули вышли. Если нет - проходите после поколения Python

3) 3.1 Введение в анализ данных (ВШЭ)
3.2 Прикладной анализ данных (ВШЭ)
3.3 AB тесты (ВШЭ)

Начало-начал. Прикладное, введение в промышленность. Если вы хотите идти в анализ - стоит прям глубоко эти курсы посмотреть, хорошему ML-специалисту, кстати, тоже. Рекомендую проходить их последовательно. Но если вы хотите побыстрее-побыстрее в ML, то можете этот блок скипнуть. Но не советую.

4) 4.1 Введение в Машинное обучение (Karpov.courses)
4.2 Евгений Соколов (ВШЭ).
- записи лекций, семинаров
- конспекты занятий
- домашки
4.3 Учебник. Машинное обучение и Data Science: погружение в тему(Яндекс)

Лютейшная база. Я бы проходил всё параллельно тут. Названия выдает всё за себя. Здесь вы узнаете, что такое метрики, лосс функции и как работают градиентные эти ваши бустинги. 4.1, 4.2 - с практикой, причем достаточно хорошей. А в учебнике только теория, что неудивительно.

5) 5.1. Евгений Соколов (ВШЭ) (Deep Learning, Neural Networks)
5.2 System design (ВШЭ)
5.3 Воронцов (МФТИ).
- Лекции
- Семинары
5.4 Введение в NLP (ВШЭ)
5.5 Введение в AudioML (ВШЭ)

Введение в Нейронные сети, в то, как проектировать системы в целом. Это конец. Дальше уже сами вы в состоянии понять, куда вам идти и что делать.

--------------------
Не знаю, на какой этап отнести SQL. Но он Мастхев(Собрать датасет из БД, посчитать метрики и т.д.) и проходить его можно в любой промежуток времени. Я посоветую только это. Это лучшее. СИМУЛЯТОР SQL. И сложные запросы, и приятный интерфейс, и дэшборды. Мне для счастья малого надо
--------------------

На этом этапе у многих пути уже расходятся. Знаний уже много.
Каждый выбирает то, что ему больше нравится
Я вижу несколько путей:

1) Вы уже спокойно можете идти практиковаться, пытаться идти на INTERN/JUNIOR во многие компаниию. Проходите собесы, выявляете свои слабые стороны и фиксите их. И так по кругу. Плейлист для подготовки к собесам.

2) Когда проходите курсы и почувствовали, что ML течет по вашим жилам - время уйти на курс от компании. Вы просто учитесь, а вас потом к себе забирают. Каждый выбирает то, что ему больше нравится
Многие идут по пути наименьшего сопротивления: когда проходите курсы, открывается набор в школы от компаний.

3) Покупать Симулятор ML Я думаю все понятно. А если непонятно - читаем-с канал Dimension(@dimension_ai)

4) В канале Start Career in DS, есть ультраполезный ноушен для новичков и не только: от того, как правильно составлять резюме до интервью с Валерой Бабушкиным, Толей Карповым и т.д.

Полезные школы:
Академия Аналитиков Авито (Авито)
Школа Анализа Данных (Яндекс)
Deep Learning School (МФТИ)

*Параллельно проходить - это прошли тему на одном ресурсе, идете закреплять на другом.
42🔥18👍8🏆2😈2
Dimension AI | Dmitry Sirakov pinned «МАШИННОЕ ОБУЧЕНИЕ И АНАЛИЗ ДАННЫХ С НУЛЯ. БЕСПЛАТНО. Здесь должен быть longread о том, как это все важно. Как это все круто и продуманно сделано, что автор понимает о чем говорит и постарался правильно выстроить всю логическую цепочку. Что все выбранные курсы…»
Я выбьюсь из симулятора на неделю по причине повышенной нагрузки на работе.

Вернусь я живыи или нет - узнаем попозже. А то я сам не знаю ответа

Чем же я занимаюсь?

- Я сдал экзамен ААА(Академия Аналитиков Авито). Решил 5/5 математику, 4/4 прогу. По моей оценке должны позвать на собес.
- Я сдал контест в Яндекс Лицей(Мы открываем на своей базе Яндекс Лицей в сентябре, нужны преподы. Ну и тут отбор). Там был контестик на 5 простых задачек на банальный питон. На контест давалось 4 часа, сдал за 45 минут и на максимум.
- Нашел прикольного дядьку из ODS, читает про ML System Design. То ли мне он так сильно нравится(всмысле System Design), то ли он так легко и непринужденно идет, будто его можно смотреть с полного нуля. Красивый, лаконичный, на пальцах, без кода, но при этом очень полезный(ОЧЕНЬ)

На данный момент тимлижу(слишком громко, поэтому просто помогаю выполнять) несколько проектов:

- Dashboard. Я заложил базу, а три студента ее разгоняют. Идея основная в том, что там два параллельных парсера, данные обновляются каждые 30 минут, настроено версионирование данных.

- Командообразование. Есть распространенная проблема - объединение людей в команды. Будь то хакатон, будь то другие соревнования, где нужно участвовать команды. На этой платформе мы можем делать набор в свою команду, переходить на другую, выбирать кейсы, приходят уведы, приглашать себе в команду и всё мегаитерактивно.
🔥164🏆2😈1
А что вы хотите здесь вообще видеть?
Пишите комменты)
И лайкате понравившиеся)
6
Древнее зло проснулось

Извиняюсь за свое долгое отсутствите, зато я с кучей полезностей и огромным количеством контента.

Начнем с классики(Simulator ML). Времени было ну оооочень мало. И как же я был удивлен, что я приступал к задачке - сдавал ее за 15 минут и переходил дальше.

- nDCG. Красиво, по порядку разобралось, что такое CG(Cumulative Gain), что такое DCG, nDCG. Что такое Industry и Standard.

nDCG (Normalized Discounted Cumulative Gain) – популярная метрика в задаче ранжирования, которая учитывает порядок элементов в выдаче.
Читать подробнее

- MULTIPROCESSING. Joblib - потрясающая библиотека. Вы простым движением можете распараллелить процессы на разных ядрах процессора. Я раньше запускал много Workspace в VS code для параллельности. А вот оно - изящное решение. В задаче мы ускорили процесс очистки данных(в осовном регулярки).

Joblib — одна из библиотек python для параллельных вычислений. Множество библиотека машинного обучения таких как scikit-learn использует joblib для параллельного запуска своих алгоритмов.
Читать подробнее

--------------------

Я прошел собес в это вокресенье. Проходил я собеседование на преподавателя Python, а спрашивали в итоге на Junior Python Developer. Один из следующих постов - вопросы с Yandex. Как я готовился (никак), что спрашивали и почему я(и не только я) очень удивлены.

Вчера в 21:00 пришел итог.
Прошел. Осталось подписать все документы. Теперь я сертифицрованный преподаватель Yandex по Python разработке.


--------------------

Проекты в SimulatorML... Они не заслуживают такой приписки в конец. Это слишком важная вещь, чтобы освещать ее в конце, но могу предоставить спойлер.
13❤‍🔥3🔥2
А то, как это было, какую роль я сыграл в этом проекте и как прекрасен systemd с systemctl вы узнаете попозже..
🔥93❤‍🔥2🏆2🍾2
Запущен антиспам бот на 10,000 человек.
🔥14🏆4❤‍🔥22
🎉 Анонс: Создание клуба Whale Data Science! 🐋🔬

Если вы тоже замечаете магию, стоящую за гигантскими объемами данных, встречайте - клуб Whale Data Science! Наш новый современный коллектив состоит всего из восьми избранных участников, которые, несомненно, внесут свой уникальный вклад в область Data Science.

Наша цель - обмен знаниями, идеями и опытом в мире Data Science и Искусственного Интеллекта.

Следите за нашими обновлениями и постами. Вместе мы сможем раскрыть все возможности, которые дает нам Data Science, и открыть для себя новые горизонты знаний! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥5🐳4
СОБЕСЕДОВАНИЕ В ЯНДЕКС

После того, как вы уже прошли курсы (целых 200 шэров на посте, так что если ты не видел пост - бегом сохранять) и получили ценные знания, опыт, приходит пора приходить собеседования.

Я собеседовался на позицию преподаватель Python в ДПО ШАД. Но тем не менее, в ходе собеседования раскрылись стандартные(и не очень) темы про Python.

- Собеседование началось с нестандартного для разработчика вопроса - сделай план на тему "списки".
Здесь я уточнил ЦА, время занятий.
Начал с определения и "интуиции", прошел через полиморфизм и закончил практикой.


Далее вопросы:

- Какая сложность поиска элемента в списке?
- Какие есть типы данных в Python?

- Что такое list comprehension, для чего используется?
- Показали на длинное выражение(на экран ноута не поместилось лол) и сказали объяснить, что происходит
- Чем отличается is от == ?
- Для чего нужна копия?


- Что такое self? Могу ли я заменить его на другое слово? Ошибок не будет?
- Для чего нужен call? Когда он вызывается? Как его вызвать?
- Чем атрибут отличается от методов?
- Устно создай экземпляр класса и сделай обращение к атрибутам
- Что такое метод str и для чего он нужен?


- Для чего нужны *args, **kwargs? Что из себя представляет args, kwargs? Как передаются аргументы в функции?
- Для чего нужен raise?


Я бы сделал обзор вопросов, если бы не наткнулся на один видос(если бы я не был ленивым), где все эти вопросы обозреваются + сверху еще материала много.

Держите ссылочку. Разбор базовых вопросов. Мегаприятно и четко. На х2 залетело спокойно.

Курсы из моего поста, которые я писал ранее + этот видос с разбором вопросов покрывают уровень с очень значительным преимуществом.
Учитывая, что я делаю упор на Data Science, а не на специфики Python разработки...
Дерзайте, друзья!
19🐳12🔥6😈2👍1
🔥346🤯2🥴1
Проекты. SimulatorML. SpamKiller.

Новое направление, которое я успел попробовать - проекты в SimulatorML.

Это не типичная задачка, за которую сел - подумал - сдал(Хотя от качественных промышленных задач в Симуляторе - очень много пользы, ну а в проектах - ещё больше).
Это проект, который нужен и бизнесу, и пользователям.
Это то, что развивается каждый день. То, на что ты напрямую влияешь и видишь свои результаты.

Проект в Симуляторе - это список продуктов от бизнеса, которые нужно реализовать.
Есть на выбор немалое количество проектов -> подаешь заявку -> принимают в команду.

Команда мечты? - это твоя команда в рамках проекта, в котором ты участвуешь.
Умные, замотивированные ребята, умеют писать чистый и производительный код, причем быстро.
Понимающие, быстро берущие задачи и выполняющие их с огнем в глазах.

К счастью, это не мечта, это реальность.

Невероятный опыт от выбора метрик, сбора датасета до вывода MVP в продакшн.
Вы проходите весь полный ML/Бизнес цикл. Принимаете требования заказчика, формулируете его
на языке ML, собираете датасет, разрабатываете модельку.
И сразу видите свой результат! Его можно щупать!
Вам выдается инфраструктура, у вас есть мощнейшие ребята( Богдан[Основатель Симулятора ML]
лично во многих местах давал бесценные советы)

А в резюме появится строка с Пет-проектами, где написано:
SpamKiller:
> Антиспам сервис, основанный на принципах машинного обучения
> Работает 24/7 на виртуальной машине
> Более 10000 пользователей
> Более 3500 обработанных сообщений
> Более 150 выявленных надоедливых, спамных сообщений
> Работает в чате Karpov.courses, Время Валеры.

А что вы знаете про бесценный опыт?
👍21🔥94😈1
Как я готовлюсь к собеседованиям?
(На примере Академии Аналитиков Авито)

> Изучение компании


По Авито достаточно мало информации, пришлось потыкаться в беседах, на сайтах, позвонить знакомым. Очень емкая компания, вакансий у них очень мало, требования достаточно высоки. Узнал основателя, чем он занимается, где эта Академия двигается и по какому пути. Нашел много интересной информации, главное, что я выяснил: они действительно запарились над курсом, над нагрузкой, что большинство людей из ВШЭ, МГУ, МФТИ.
Что мне это дало?
Основатель очень ответственно относится к этой школе, она участвует в конкурсах, работают над узнаваемостью бренда.

> Проработка типичных вопросов

Благо, в академию они попросили выслать мое свежее резюме. Поэтому проработав резюме, я сразу подготовил ответы на вопросы "Расскажите о себе", "Что я умею". Текста обычно на эту тему я не готовлю.
Моя стратегия такая, что я выделяю несколько "зёрен" (основные достижения) из которых взращиваю поле (рассказ). Пока никто не жаловался.

> Подготовка к техническому собеседованию

Захожу на сайт Академии Аналитиков Авито, смотрю требования и программу обучения.
Вижу, что они требуют основы Математического Анализа, Линейной Алгебры, Теории вероятностей, математической статистике, основы программирования на Python.
В целом, стандартный набор.
Смотрю на обучение и курс начинается с машинного обучения.

Беру свою любимую книжечку по теорверу, построенную по принципам: немножечко теории, разбор задачек, самостоятельная работа с разбором, контрольная работа с ответами.
Много задачек, от простых к сложным, повторение тем и задачки прям идеально подходят на уровень собесов.

Беру любимый всеми mathprofi и читаем быстренько мат.стат первые главы. Mathprofi построен по тем же принципам: немножечко(необходимой) теории, разбор задачек, задачки для самостоятельного решения.

Прогу я не готовил отдельно, считаю, что базовые алгоритмы/структуры данных я знаю и могу написать в любой момент.
Но есть LeetCode, ни разу на него не заходил, но знаю много людей, которые там готовтся к собесам(по типу Yandex, где на эти задачки у них стоит большой и толстый).
Разбор базовых вопросов по Python на х2 глянул (я его смотрел, очень насыщенная и подробная подборка)

Перед собесами по ML я быстро пробегаюсь по Yandex Hanbook, он очень теоретический, но некоторые моменты повторить стоит(хотя за все время я прочитал его раз 10, но мне очень нравится материал).

Дополнительно я потренился с ChatGPT (кстати оч классный ботик в тг):
Prompt: "Ты Senior Machine Learning Engineer. Собеседуешь человека на вакансию Machine Learning Engineer с требованиями: <требования>, Машинное обучение. Задавай вопросы повышенной сложности, определи его глубину знаний материала.
Формат собеседования такой: Ты пишешь одно сообщение со всеми вопросами, а собеседующий пришлет тебе ответы на вопросы. Твоя задача оценить каждый ответ, дать подробный фидбек по ответам и итоговое решение собеседования"


Очень сильный буст к собесам дает, практикую уже не один месяц(BOGDAN вдохновил)

И примерно с таким сетапом я пошел на собес в ААА.
А что было дальше, узнаем чуть-чуть позже


SUMMARY для подготовки к собесу:
Теор.вер
Мат.стат
Python
ML
ChatGPT
Prompt: "Ты Senior Machine Learning Engineer. Собеседуешь человека на вакансию Machine Learning Engineer с требованиями: <требования>, Машинное обучение. Задавай вопросы повышенной сложности, определи его глубину знаний материала.
Формат собеседования такой: Ты пишешь одно сообщение со всеми вопросами, а собеседующий пришлет тебе ответы на вопросы. Твоя задача оценить каждый ответ, дать подробный фидбек по ответам и итоговое решение собеседования"


Всё бесплатно. Пользуйтесь, работайте по 90ч в неделю, братья!
34🔥16👍2🥰2😈1💅1💘1
Dimension AI | Dmitry Sirakov pinned «Как я готовлюсь к собеседованиям? (На примере Академии Аналитиков Авито) > Изучение компании По Авито достаточно мало информации, пришлось потыкаться в беседах, на сайтах, позвонить знакомым. Очень емкая компания, вакансий у них очень мало, требования достаточно…»
🏆72🔥13🍾5😈1
Стажировка в М-Видео-Эльдорадо: Разработка (Python), Аналитика, Офис больших данных.

Привет всем!
В последнее время я был немного вне радаров [я исправляюсь-с, как видите-с], но сейчас возвращаюсь с отличной новостью: открылась уникальная стажировка в М.Tech! [По моим наблюдениями ее никто не форсил на просторах тг]

ЗП неплохая, 35к за 20 часов, затем повышение до 70к с повышением до 40 часов. Для стажера с такими вводными - более чем.

Требования для участия максимально доступные [особые привилегии участникам курсов ЯП и выпускникам ШК 21], поэтому если вы хотите попробовать себя в роли стажера, это ваш шанс! 💼

Важные детали и этапы:

1. Прокликать свои навыки: Полагаю, хоть это и не расфорсили, но отбор будет жестковат. Так что все навыки прокликать - обязательно для испытания своего шанса)
2. Загрузка резюме: Не забудьте отправить свое резюме до 30 ноября.
3. Телефонное интервью: Оно будет проходить на лайте, похожей на интервью в Сбере. Ваша задача – уверенно и с улыбкой отвечать на вопросы HR и интервью в кармане.
4. Собеседование: Последний этап отбора.
5. Начало стажировки: 29 января вы вступаете в свою новую роль!


Ссылочка на лендинг👇

LINK
7🔥3💯1
За 3 месяца моего отсутствия, Я:

> поступил в Академию Аналитиков Авито (ААА)
> устроился на работу в BrandsGoDigital [с помощью pet-project, SpamKiller]
> стал сертифицированным ШАД Yandex преподавателем "Основы программирования на Python"
> стал одним из экспертов одной из цифровой программы по машинному обучению
> допинали KarpovAI [RAG] за пару вечеров до работающего состояния

> ушел из Академии Аналитиков Авито (ААА)
> уволился из BrandGoDigital
> уволился с основного места работы (ВУЗ)

> Купил SimulatorML на 9 месяцев
> Купил книжку Валерия Бабушкина по ML System Design
> Полюбил работу с Notion

Я стооолько могу рассказать..Го в комменты, про что хотим говорить дальше, за 3 месяца ваше виденье спокойно могло поменяться на другое русло. Да и поддерживайте друг друга реакциями в комментах 👇
🔥325
Честно признаюсь, я сильно соскучився по вам.
24👍1🤝1
Решил я по фану пройти собесы, но зашло все слишком далеко..

А теперь предстоит выбор:

Ведущий DS в СБЕРе vs Middle DS в Яндекс маркете..

Тяжело..Тяжело
👍236🤔3🐳3
смотрю паблик

и чет полгода назад я поступал в школы, а сейчас такие офферы прилетели
🔥223🐳2