Forwarded from AI для Всех
Большинство библиотек машинного обучения не были разработаны для работы с геопространственными данными. #TorchGeo, библиотека домена PyTorch, призвана изменить эту ситуацию, отслеживая некоторые из величайших мировых проблем, таких как стихийные бедствия и изменение климата.
🌎 Подробнее
🌎 Подробнее
👍19🔥1
Forwarded from Время Валеры
Каждый раз, когда меня просят построить антифрод систему - мой бейзлайн это ошибка реконструкции автоэнкодера. Быстро, не нужны лейблы, достаточно иметь некоторое количество “хороших” транзакций и работает из коробки довольно неплохо.
Сегодня прочитал статью Credit Card Fraud Detection Using Sparse Autoencoder and Generative Adversarial Network
В который раз позавидовал способности людей расписывать что-то длинной в абзац на 10 страниц
Идея следующая
1. Берем хорошие транзакции, учим на них sparse autoencoder
2. Репрезентация (code после encoder) полученная от sparse autoencoder становится новыми фичами
3. Учим GAN, где реальные образцы - это репрезентация существующих хороших транзакций с пункта 2, а фейковые, понятное дело, шум
4. Снимаем с GAN дискриминатор и используем его теперь чтобы принять решение о транзакции (прогнанной сначала через sparse autoencoder) - фрод или нет
С чем бы я поэкспериментировал
1. Попробовать обычный AN и denoising AN
2. Попробовать добавлять небольшой шум на AN representation перед входом в GAN
3. Попробовать подмешать небольшой процент фрода в фейковые сэмплы
Идею - дарю
#ArticleReview
Сегодня прочитал статью Credit Card Fraud Detection Using Sparse Autoencoder and Generative Adversarial Network
В который раз позавидовал способности людей расписывать что-то длинной в абзац на 10 страниц
Идея следующая
1. Берем хорошие транзакции, учим на них sparse autoencoder
2. Репрезентация (code после encoder) полученная от sparse autoencoder становится новыми фичами
3. Учим GAN, где реальные образцы - это репрезентация существующих хороших транзакций с пункта 2, а фейковые, понятное дело, шум
4. Снимаем с GAN дискриминатор и используем его теперь чтобы принять решение о транзакции (прогнанной сначала через sparse autoencoder) - фрод или нет
С чем бы я поэкспериментировал
1. Попробовать обычный AN и denoising AN
2. Попробовать добавлять небольшой шум на AN representation перед входом в GAN
3. Попробовать подмешать небольшой процент фрода в фейковые сэмплы
Идею - дарю
#ArticleReview
👍23
ресёрч би лайк:
1. не смог реализовать архитектуру из статьи
2. немного изменил её
3. всё заработало
4. пишешь пейпер про свою новую архитектуру
1. не смог реализовать архитектуру из статьи
2. немного изменил её
3. всё заработало
4. пишешь пейпер про свою новую архитектуру
👍53😁9🤩5
VQ-Diffusion
Что это такое?
Это модель от microsoft. Смысл этой модели и различие её от обычной диффузии(glide, dalle2, imagen) заключается в том, что она генерирует латентное пространство vqvae, вместо того, чтобы генерировать сразу картинку.
Они заменили unet на трансформер dalle, что позволяет им без проблем генерировать сразу пространство vqvae.
Также они считают текстовые эмбеддинги с помощью клипа, что довольно интересно.
Собрал колаб для этой модели.
гитхаб
пейпер
@gradientdip
Что это такое?
Это модель от microsoft. Смысл этой модели и различие её от обычной диффузии(glide, dalle2, imagen) заключается в том, что она генерирует латентное пространство vqvae, вместо того, чтобы генерировать сразу картинку.
Они заменили unet на трансформер dalle, что позволяет им без проблем генерировать сразу пространство vqvae.
Также они считают текстовые эмбеддинги с помощью клипа, что довольно интересно.
Собрал колаб для этой модели.
гитхаб
пейпер
@gradientdip
👍26🔥6
Градиентное погружение
VQ-Diffusion Что это такое? Это модель от microsoft. Смысл этой модели и различие её от обычной диффузии(glide, dalle2, imagen) заключается в том, что она генерирует латентное пространство vqvae, вместо того, чтобы генерировать сразу картинку. Они заменили…
Пример генерации
teddy bear in the swimming pool
teddy bear in the swimming pool
👍36
Forwarded from тоже моушн
Media is too big
VIEW IN TELEGRAM
меня как моушн дизайнера печалит что в демо далли можно генерить только статику. но при этом далли отлично умеет в инпейнтинг - дорисовку недостающей части изображения. в этом эксперименте каждую следующую картинку я генерил на основе предыдущей, уменьшая и поворачивая ее. получается такой бесконечный зум аут, в процессе создания которого можно полностью менять наполнение кадра
@тоже моушн
@тоже моушн
👍25🔥12
Forwarded from AI для Всех
Шахматисты подсмотрели у нейросети парочку новых трюков
Чему учатся сложные нейросетевые агенты, такие как AlphaZero? Этот вопрос представляет как научный, так и практический интерес.
Ученые из Google постарались ответить на этот вопрос. В своей работе, они приводят доказательства того, что нейросеть AlphaZero приобрела человеческие знания в процессе ее обучения игре в шахматы. Исследуя широкий спектр человеческих шахматных понятий, они показываем, когда и где эти понятия представлены в сети AlphaZero. В статье также предоставлен поведенческий анализ нейросети от шахматного гроссмейстера Владимира Крамника.
Шахматист даже утверждает, что научился новым ходам и идеям у нейросети (похожие мысли высказывали и топовые игроки в Го, которые анализировали игру компьютера ).
♟ Статья
Чему учатся сложные нейросетевые агенты, такие как AlphaZero? Этот вопрос представляет как научный, так и практический интерес.
Ученые из Google постарались ответить на этот вопрос. В своей работе, они приводят доказательства того, что нейросеть AlphaZero приобрела человеческие знания в процессе ее обучения игре в шахматы. Исследуя широкий спектр человеческих шахматных понятий, они показываем, когда и где эти понятия представлены в сети AlphaZero. В статье также предоставлен поведенческий анализ нейросети от шахматного гроссмейстера Владимира Крамника.
Шахматист даже утверждает, что научился новым ходам и идеям у нейросети (похожие мысли высказывали и топовые игроки в Го, которые анализировали игру компьютера ).
♟ Статья
👍21🔥2
Давайте говорить
Общаться с коллегами, друзьями и путешественниками - казалось бы обыденностью, в таком случае зачем прилагать усилия, верно?
Встречая давнего друга мы стараемся узнать что же такого невероятного с ним приключилось за время разлуки, мы интересуемся им и искренне ценим потраченное на нас время - это очень круто.
Но что происходит когда мы встречаем незнакомые лица? Как себя чувствуем? Дискомфорт и пустота, ожидание первого шага со стороны другого человека.
За последние дни я познакомился со множеством людей, послушал крутых и не очень спикеров, теперь я готов поделиться мыслями.
Начнем с простого:
1️⃣ Многие спикеры не обращают внимания на аудиторию. И я не про то, что они не видят, а про то что они не спрашивают у аудитории кто они такие. Очень важно понять уровень подготовки аудитории и их сферы, потратьте 5 минут, наладьте свзязь и пошутите - вам сразу станет комфортнее.
2️⃣ Говорите как есть (если это лекция или что-то ламповое) - люди приходят не слушать рабочий сленг, люди приходят получить удовольствие от харизмы спикера, для того чтобы расширить свои горизонты познания.
3️⃣ Не пытайтесь себя продать (если это как пункт 2) - все и так устали от рекламы из каждой щели, не надо показывать рекламных видосов - это некрасиво.
Я был убежден, что плохая преза - признак провала, но это не так! Я был на лекции профессора из РАН про корону, слабый дизайн и много текста - все грустно, но это был настолько интересный дедушка, что теперь я знаю про виды короны, их историю и различия, просто вау.
Некоторые преподы привлекают внимание своим голосом, если вы когда-нибудь думали о том как удивить кассира на кассе, то знайте, радиоведущие делают это часто.
Все выше сказанное было написано с одной мыслью - важно уметь представлять себя независимо от ситуации и рода деятельности. Быть крутыми прогерами - круто, но ещё круче уметь донести свою крутоту не достижениями, а мыслями и интересами.
Общаться с коллегами, друзьями и путешественниками - казалось бы обыденностью, в таком случае зачем прилагать усилия, верно?
Встречая давнего друга мы стараемся узнать что же такого невероятного с ним приключилось за время разлуки, мы интересуемся им и искренне ценим потраченное на нас время - это очень круто.
Но что происходит когда мы встречаем незнакомые лица? Как себя чувствуем? Дискомфорт и пустота, ожидание первого шага со стороны другого человека.
За последние дни я познакомился со множеством людей, послушал крутых и не очень спикеров, теперь я готов поделиться мыслями.
Начнем с простого:
1️⃣ Многие спикеры не обращают внимания на аудиторию. И я не про то, что они не видят, а про то что они не спрашивают у аудитории кто они такие. Очень важно понять уровень подготовки аудитории и их сферы, потратьте 5 минут, наладьте свзязь и пошутите - вам сразу станет комфортнее.
2️⃣ Говорите как есть (если это лекция или что-то ламповое) - люди приходят не слушать рабочий сленг, люди приходят получить удовольствие от харизмы спикера, для того чтобы расширить свои горизонты познания.
3️⃣ Не пытайтесь себя продать (если это как пункт 2) - все и так устали от рекламы из каждой щели, не надо показывать рекламных видосов - это некрасиво.
Я был убежден, что плохая преза - признак провала, но это не так! Я был на лекции профессора из РАН про корону, слабый дизайн и много текста - все грустно, но это был настолько интересный дедушка, что теперь я знаю про виды короны, их историю и различия, просто вау.
Некоторые преподы привлекают внимание своим голосом, если вы когда-нибудь думали о том как удивить кассира на кассе, то знайте, радиоведущие делают это часто.
Все выше сказанное было написано с одной мыслью - важно уметь представлять себя независимо от ситуации и рода деятельности. Быть крутыми прогерами - круто, но ещё круче уметь донести свою крутоту не достижениями, а мыслями и интересами.
👍36🔥6👏6🎉2
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
Сингулярность на пороге. Как ИИ проектирует GPU?
NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.
В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.
За наводку спасибо @j_links
NVIDIA использует ИИ для разработки более компактных, быстрых и эффективных микросхем, обеспечивающих повышение производительности с каждым поколением чипов.
В работе PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning исследователи демонстрируют, что ИИ не только может научиться проектировать эти схемы с нуля, но и разработанные им схемы меньше и быстрее, чем схемы, разработанные современными инструментами автоматизации электронного проектирования (EDA). Новейшая архитектура NVIDIA Hopper GPU имеет почти 13 000 чипов, разработанных ИИ.
За наводку спасибо @j_links
👍29
Forwarded from Love. Death. Transformers.
Сравнения метрик с известными методами контролируемой генерации текста
🔥12
Удобочитаемость
Термин обозначающий, сложность прочтения какого-либо текста.
В годах 50-х профессора и учёные задумались: можно ли по тексту узнать примерный уровень знаний, необходимый для прочтения?
Как оказалось - да, вылилось это в раздел, просвещенный индексам удобочитаемости.
Это какие-то статистики по тексту, иногда с учётом частоты слов, а иногда с учётом слогов, нграм.
Зачастую индексы писались для конкретной возрастной группы, скажем не выше студентов, ну и конечно же для английского языка (для русского есть только интерпретации).
Это все помогало анализировать аудиторию, что было важно для условных печатных издательств.
Что лично меня удивило, так это наличие таких индексов в Ворде.
Подойдут как косвенные признаки для анализа документов + дополнительные фичи при обучении моделей.
Readability
Реализации индексов [github]
Flesch–Kincaid readability
Термин обозначающий, сложность прочтения какого-либо текста.
В годах 50-х профессора и учёные задумались: можно ли по тексту узнать примерный уровень знаний, необходимый для прочтения?
Как оказалось - да, вылилось это в раздел, просвещенный индексам удобочитаемости.
Это какие-то статистики по тексту, иногда с учётом частоты слов, а иногда с учётом слогов, нграм.
Зачастую индексы писались для конкретной возрастной группы, скажем не выше студентов, ну и конечно же для английского языка (для русского есть только интерпретации).
Это все помогало анализировать аудиторию, что было важно для условных печатных издательств.
Что лично меня удивило, так это наличие таких индексов в Ворде.
Подойдут как косвенные признаки для анализа документов + дополнительные фичи при обучении моделей.
Readability
Реализации индексов [github]
Flesch–Kincaid readability
👍10🔥1🤔1
Forwarded from Модель для сборки
#useful
👾 Я вот три тыщи лет не писал и сейчас не собирался, но люди подходят на улицах и просят продолжать блог, эх...
💡 Запилил вам целую статью с описанием и сравнением ⚡️ скорости ⚡️ разных обработчиков табличек с python. Очень-очень старался, потратил на это кучу времени и сил. Тыкать сюда.
⏰ Вечером ждите новый постик про то, как у меня дела!
👾 Я вот три тыщи лет не писал и сейчас не собирался, но люди подходят на улицах и просят продолжать блог, эх...
💡 Запилил вам целую статью с описанием и сравнением ⚡️ скорости ⚡️ разных обработчиков табличек с python. Очень-очень старался, потратил на это кучу времени и сил. Тыкать сюда.
⏰ Вечером ждите новый постик про то, как у меня дела!
yk4r2 on Notion
Pandas и его друзья | Notion
🤔 Кто такой этот ваш pandas?
👍17🔥2
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Про собесы
Я тут собесы проходил весь последний месяц. Получил много нового опыта. Например, впервые проходил секции по ML-design. Они мне показались самыми интересными среди всех секций, которые у меня были по ML.
Как готовился:
- Почитал гайды
- Посмотрел видосы про интервью в Facebook и Google
- Посмотрел видосы про ML-design с Бабушкиным
- Выписал десяток разных кейсов и накидал по каждому из них ML-design
Забавно, что в видосах выше, при обсуждении результатов, интервьюеры жалуются, что кандидаты никак не используют доску при структурировании своих мыслей. Я вообще не понимаю как без неё можно обойтись. Для себя решил, что буду структурировать свои мысли по следующей схеме:
- Что хотим?
- KPI и ограничения
- Бэйзлайн
- Формализация задачи
- Данные
- Модель
- Метрики
- Потенциальные проблемы
- Деплой
Выписывал схему в файлике, который мне интервьюер шарил для конспекта. Если интервьюер не шарил файл, просил создать его или демонстрировал экран с открытым блокнотом.
Дальше начинал накидывать на эту схему свои мысли. Шёл сверху вниз, иногда отскакивал назад либо забегал вперёд. Все мысли постоянно были перед глазами. Тезисно фиксировал их в соотвествующих разделах. Получалось примерно следующее:
🤔 Что хотим? Описывал как я понял задачу и хотелки заказчика. Уточнял у интервьюера так ли это.
🤔 KPI и ограничения. Прикидывал, есть ли требование держать высокую нагрузку, нужен ли реалтайм, какие метрики хотим вырастить, а какие нельзя ронять (про такие метрики часто забывают).
🤔 Бейзлайн. Перед тем, как строить звездолет, надо понять а надо ли вообще его строить. Собираем бейзлайн на эвристиках и смотрим есть ли какой-то профит в АБ. В этой части я описывал такой бейзлайн.
🤔 Формализация задачи. Любая задача допускает разные формализации. К тому же ранжированию можно подходить с трёх сторон: pointwise/pairwise/listwise. Я описывал разные способы, выбирал какой-то один, обосновывал выбор и останавливался на нём. Рассказывал как буду варить таргет. Если по логам, прикидывал формулу для этого. Если с помощью разметки, описывал как она будет устроена, обязательно упоминал про active learning. Это модно.
🤔 Данные. Рассказывал про то, откуда буду брать фичи. Какие буду считать по юзеру, какие по айтемам, какие по контексту (время суток,локация и тп). Рассказывал про нейросетевые фичи и матричные факторизации, если они к месту. Важно проговорить как дробим выборку на train/val/test. По юзерам/айтемам/времени, почему именно так.
🤔 Модель. Скорее всего, итоговая система будет состоять из нескольких частей. Что-то в стиле: отбор кандидатов —> тяжёлая формула—> реранкеры. Проговаривал как будет работать каждая часть, на какую функцию потерь будем учиться. Как оцениваем качество разных частей и системы целиком.
🤔 Метрики. Проговаривал как будем делать приёмку. Если возможно провести АБ, то его схему и метрики для приемки.
🤔 Проблемы. В этот раздел я закидывал проблемы, о которых надо будет обязательно подумать. Лики в данных, feedback loop, низкое покрытие базы, холодный старт, что делать с новыми айтемами, дрифт в данных и тп
🤔 Деплой. Как считаем фичи. Какими пачками. Как передаём их в модель. Вместе с запросом или из какого-то key-value хранилища. Какая примерно будет нагрузка на сервис. Сколько машин просить у разработки. Жизненный цикл модели. Когда она умирает, какими метриками и мониторингами покрыть. Когда обновлять.
Когда готовился, расписал это для десятка кейсов. Первые три взял из видосов Бабушкина, остальные из личного опыта либо других источников
- Персонализация рекламы в социальной сетке
- Прайминг в маркетплейсе
- Мэтчинг товаров в маркетплейсе
- Рекомендательная система с видосами либо товарами
- Антифрод-система для поиска роботов и накруток в инстаграме
- Как в комментариях найти спам
- Поисковая система по товарам/документам
- Выдача саджестов в поисковой системе
- Предсказание точки, куда поедет человек при вызове такси
- Предсказание времени доставки заказа из ресторана
Я тут собесы проходил весь последний месяц. Получил много нового опыта. Например, впервые проходил секции по ML-design. Они мне показались самыми интересными среди всех секций, которые у меня были по ML.
Как готовился:
- Почитал гайды
- Посмотрел видосы про интервью в Facebook и Google
- Посмотрел видосы про ML-design с Бабушкиным
- Выписал десяток разных кейсов и накидал по каждому из них ML-design
Забавно, что в видосах выше, при обсуждении результатов, интервьюеры жалуются, что кандидаты никак не используют доску при структурировании своих мыслей. Я вообще не понимаю как без неё можно обойтись. Для себя решил, что буду структурировать свои мысли по следующей схеме:
- Что хотим?
- KPI и ограничения
- Бэйзлайн
- Формализация задачи
- Данные
- Модель
- Метрики
- Потенциальные проблемы
- Деплой
Выписывал схему в файлике, который мне интервьюер шарил для конспекта. Если интервьюер не шарил файл, просил создать его или демонстрировал экран с открытым блокнотом.
Дальше начинал накидывать на эту схему свои мысли. Шёл сверху вниз, иногда отскакивал назад либо забегал вперёд. Все мысли постоянно были перед глазами. Тезисно фиксировал их в соотвествующих разделах. Получалось примерно следующее:
🤔 Что хотим? Описывал как я понял задачу и хотелки заказчика. Уточнял у интервьюера так ли это.
🤔 KPI и ограничения. Прикидывал, есть ли требование держать высокую нагрузку, нужен ли реалтайм, какие метрики хотим вырастить, а какие нельзя ронять (про такие метрики часто забывают).
🤔 Бейзлайн. Перед тем, как строить звездолет, надо понять а надо ли вообще его строить. Собираем бейзлайн на эвристиках и смотрим есть ли какой-то профит в АБ. В этой части я описывал такой бейзлайн.
🤔 Формализация задачи. Любая задача допускает разные формализации. К тому же ранжированию можно подходить с трёх сторон: pointwise/pairwise/listwise. Я описывал разные способы, выбирал какой-то один, обосновывал выбор и останавливался на нём. Рассказывал как буду варить таргет. Если по логам, прикидывал формулу для этого. Если с помощью разметки, описывал как она будет устроена, обязательно упоминал про active learning. Это модно.
🤔 Данные. Рассказывал про то, откуда буду брать фичи. Какие буду считать по юзеру, какие по айтемам, какие по контексту (время суток,локация и тп). Рассказывал про нейросетевые фичи и матричные факторизации, если они к месту. Важно проговорить как дробим выборку на train/val/test. По юзерам/айтемам/времени, почему именно так.
🤔 Модель. Скорее всего, итоговая система будет состоять из нескольких частей. Что-то в стиле: отбор кандидатов —> тяжёлая формула—> реранкеры. Проговаривал как будет работать каждая часть, на какую функцию потерь будем учиться. Как оцениваем качество разных частей и системы целиком.
🤔 Метрики. Проговаривал как будем делать приёмку. Если возможно провести АБ, то его схему и метрики для приемки.
🤔 Проблемы. В этот раздел я закидывал проблемы, о которых надо будет обязательно подумать. Лики в данных, feedback loop, низкое покрытие базы, холодный старт, что делать с новыми айтемами, дрифт в данных и тп
🤔 Деплой. Как считаем фичи. Какими пачками. Как передаём их в модель. Вместе с запросом или из какого-то key-value хранилища. Какая примерно будет нагрузка на сервис. Сколько машин просить у разработки. Жизненный цикл модели. Когда она умирает, какими метриками и мониторингами покрыть. Когда обновлять.
Когда готовился, расписал это для десятка кейсов. Первые три взял из видосов Бабушкина, остальные из личного опыта либо других источников
- Персонализация рекламы в социальной сетке
- Прайминг в маркетплейсе
- Мэтчинг товаров в маркетплейсе
- Рекомендательная система с видосами либо товарами
- Антифрод-система для поиска роботов и накруток в инстаграме
- Как в комментариях найти спам
- Поисковая система по товарам/документам
- Выдача саджестов в поисковой системе
- Предсказание точки, куда поедет человек при вызове такси
- Предсказание времени доставки заказа из ресторана
PatrickHalina.com
ML Systems Design Interview Guide · Patrick Halina
My guide to ML Systems Design interview questions for ML Engineers, Data Scientists and ML Managers.
👍32🔥16😢3
Forwarded from Love. Death. Transformers.
#чтивонаночь
Bf16 или fp16 здорового человека
Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.
FP32
Использует 8 знаков на экспоненту , 23 на мантиссу
FP16
Использует 5 знаков на экспоненту, 10 на мантиссу
BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу
Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)
- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой
- Просто делай
- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше
клёвая статья на медиум
Bf16 или fp16 здорового человека
Начнем с базы: числа в компуктере записываются в виде знак числа_n знаков экспоненты_k знаков мантиссы.
FP32
Использует 8 знаков на экспоненту , 23 на мантиссу
FP16
Использует 5 знаков на экспоненту, 10 на мантиссу
BF16 (читать как Google brain fp16)
Использует 8 бит на экспоненту и 7 на мантиссу
Что это даёт
- Диапазон значений идентичен fp32, сетка точно не разойдется при таком квантовании(даже очень глубокая)
- Можно выкинуть loss.scale при обучении в смешанной точности, теперь у нас диапазон значений между fp32 и bf16 идентичен, разницы только в количестве знаков после запятой
- Просто делай
torch.bfloat16
каждое утро и видеопамять болеть не будет- Из минусов нативно работает только с Nvidia amper и выше (х2 ускорение к обучению/инференсу) и с TPUv3 и выше
клёвая статья на медиум
Medium
FP64, FP32, FP16, BFLOAT16, TF32, and other members of the ZOO
There are many floating point formats you can hear about in the context of deep learning. Here is a summary of what are they about and…
👍9👎2🔥1
Сириус
Место, где из номера вид на горы, а в пруду есть черепахи, рыбы и лягушки.
С 30 июня по 24 июля, я был в этом образовательном центре в качестве участника программы "Большие Вызовы", работал над созданием аналитического инструмента для платформы Сируис.Курсов.
Каждый день мы были заняты разнообразной активностью: лекции, мастер-классы, клубы, экскурсии, работа над проектом.
Мы встречались с разными, талантливыми и популярными спикерами, например Райгородский (главное чтобы не кокнуло) и Савватеев.
Мы много готовились перед защитой и предзащитой, а в конце смены участвовали в ярмарке проектов.
Если вы ещё не поняли - у нас почти не было свободно времени 😁.
И это нисколько не плохо, а наоборот круто, ведь центр оправдывает свое название.
Наверное только здесь можно встретить такой концентрат талантов в РФ, людей с целями и закалкой.
И я сейчас не только про школьников, но и про кураторов, преподавателей, лекторов.
Что удивительно, здесь действительно все сделано для обучающихся, за всем тщательно следят, в случае чего можно обратиться к персоналу.
Здесь также можно найти возможности в виде связей, каких-то важный встреч, что у ж тут говорить, можно встретить мера своего города и поговорить с ним.
Вы скорее всего не знаете, но я из региона и подобное отношение для меня очень ценно.
Вообще Сириус про возможности и саморазвитие, если говорить про Большие Вызовы, то сюда не так сложно попасть.
Если у вас когда-нибудь будет возможность побывать здесь - используйте ее.
Ну а я, оставлю все тепло и яркость, что удалось увести домой и буду ждать возможности приехать снова, либо как стажёр (так как я теперь выпускник Сириуса, хехе), либо как преподаватель, лектор.
Место, где из номера вид на горы, а в пруду есть черепахи, рыбы и лягушки.
С 30 июня по 24 июля, я был в этом образовательном центре в качестве участника программы "Большие Вызовы", работал над созданием аналитического инструмента для платформы Сируис.Курсов.
Каждый день мы были заняты разнообразной активностью: лекции, мастер-классы, клубы, экскурсии, работа над проектом.
Мы встречались с разными, талантливыми и популярными спикерами, например Райгородский (главное чтобы не кокнуло) и Савватеев.
Мы много готовились перед защитой и предзащитой, а в конце смены участвовали в ярмарке проектов.
Если вы ещё не поняли - у нас почти не было свободно времени 😁.
И это нисколько не плохо, а наоборот круто, ведь центр оправдывает свое название.
Наверное только здесь можно встретить такой концентрат талантов в РФ, людей с целями и закалкой.
И я сейчас не только про школьников, но и про кураторов, преподавателей, лекторов.
Что удивительно, здесь действительно все сделано для обучающихся, за всем тщательно следят, в случае чего можно обратиться к персоналу.
Здесь также можно найти возможности в виде связей, каких-то важный встреч, что у ж тут говорить, можно встретить мера своего города и поговорить с ним.
Вы скорее всего не знаете, но я из региона и подобное отношение для меня очень ценно.
Вообще Сириус про возможности и саморазвитие, если говорить про Большие Вызовы, то сюда не так сложно попасть.
Если у вас когда-нибудь будет возможность побывать здесь - используйте ее.
Ну а я, оставлю все тепло и яркость, что удалось увести домой и буду ждать возможности приехать снова, либо как стажёр (так как я теперь выпускник Сириуса, хехе), либо как преподаватель, лектор.
🔥32👍6❤2👎2
Аналитика онлайн курсов
История о том как понять, что поведение пользователей - одна из 7 загадок тысячелетия, а команда - не просто рандомные люди.
⏱ Я уже говорил, что последний месяц был в Сириусе, во время которого трудился над проектом "Метрики сложности образовательных курсов".
👉 Мы делали аналитический инструмент, что на вход получает информацию по курсу и пользователям, а на выходе выдает html с показателями, графиками и котиками.
💪 Нас было пятеро прогеров, под руководством аналитика из Сириус.Курсов мы проводили брифинги, писали "отчеты" о проделанной работе и делились опытом.
😅 Первое время мы втыкали в таблички и пытались понять их устройство/связь, начали придумывать гипотезы о "сложности" задачи/модуля/курса, задумались над архитектурой будущего приложения.
😎 В ходе реализации метрик звали коллег, чтобы те провалидировали код, дали комментарии. И это было круто! Когда ты лично объясняешь каждую строчку кода, гораздо легче увидеть свои косяки - спасало много раз.
⚡️Я забыл упомянуть ещё одного важно участника проекта - доску, я не знаю как бы мы жили без неё, все таки наскальные рисунки и в наше время мощный инструмент взаимодействия.
❓После первой предзащиты мы поняли одну важную вещь - мы не знаем как объяснить "сложность" в качестве понятия. Решили делить на 2 вида: та что полезная/естественная и та что "затык" (неправильные цифры, учебного материала недостаточно чтобы решить задачу). Искали второе.
😐 В какой-то момент перешли к валидации, ждали пока дадут результаты опросника на платформе, но в итоги не уложились в сроки.
😕 Ну что же, пришлось размечать самим, открывать каждую задачу, просматривать материалы, бр.. За все время собрали 534 задачи по инфе и матану и только единицы из них были сложными. Будем считать, что качество курсов высокое.
🙃 Собрав сет и проанализировав результаты метрик на данных, поняли ошеломляющую вещь - наши метрики описывают поведение пользователя, а не саму сложность.
👀 Ну ок, а почему вы не смотрели на текст задачи?
1️⃣ Он специфичный, так ещё в markdown, нейронки тупо не работали на таком домене, а учить не вариант, доступ мне не дали)
2️⃣ Много работы, скажем на условной лингвистике могли найтись иноязычные слова, которые руберт токсисити отмечал плохими)
3️⃣ Нашел инфу по индексам текста (о чем писал ранее), но оказалось что они частично описывали только возможность задавания вопроса.
🤷♀️ Ну ладно, вот у нас табличка с чиселками есть, давайте обучать катбуст. Но он не обучался, вот вообще, тут же переучивался, та же история с деревом, логрегом.
✅ У нас тупо было слишком мало данных, связи с чем пришлось делать костыли, получили recall 0.5 и precision 0.1, не густо, но тоже неплохо.
Работа над проектом мне нравилась, но до определенного момента. На это повлияло отсутствие нормального отдыха, а также понимание того, что мои навыки как датасаентиста почти не нужны, там была аналитика.
Из этого я вынес урок: датасаентист не может заменить аналитика, это две разные и по своему сложные профессии.
В качестве прощальных слов преподаватель сказал, что мои вопросы заставляли задуматься и в правильную сторону двигали проект, что ж, приятно.
И да, датасаентисов не бывает, это вымысел.
История о том как понять, что поведение пользователей - одна из 7 загадок тысячелетия, а команда - не просто рандомные люди.
⏱ Я уже говорил, что последний месяц был в Сириусе, во время которого трудился над проектом "Метрики сложности образовательных курсов".
👉 Мы делали аналитический инструмент, что на вход получает информацию по курсу и пользователям, а на выходе выдает html с показателями, графиками и котиками.
💪 Нас было пятеро прогеров, под руководством аналитика из Сириус.Курсов мы проводили брифинги, писали "отчеты" о проделанной работе и делились опытом.
😅 Первое время мы втыкали в таблички и пытались понять их устройство/связь, начали придумывать гипотезы о "сложности" задачи/модуля/курса, задумались над архитектурой будущего приложения.
😎 В ходе реализации метрик звали коллег, чтобы те провалидировали код, дали комментарии. И это было круто! Когда ты лично объясняешь каждую строчку кода, гораздо легче увидеть свои косяки - спасало много раз.
⚡️Я забыл упомянуть ещё одного важно участника проекта - доску, я не знаю как бы мы жили без неё, все таки наскальные рисунки и в наше время мощный инструмент взаимодействия.
❓После первой предзащиты мы поняли одну важную вещь - мы не знаем как объяснить "сложность" в качестве понятия. Решили делить на 2 вида: та что полезная/естественная и та что "затык" (неправильные цифры, учебного материала недостаточно чтобы решить задачу). Искали второе.
😐 В какой-то момент перешли к валидации, ждали пока дадут результаты опросника на платформе, но в итоги не уложились в сроки.
😕 Ну что же, пришлось размечать самим, открывать каждую задачу, просматривать материалы, бр.. За все время собрали 534 задачи по инфе и матану и только единицы из них были сложными. Будем считать, что качество курсов высокое.
🙃 Собрав сет и проанализировав результаты метрик на данных, поняли ошеломляющую вещь - наши метрики описывают поведение пользователя, а не саму сложность.
👀 Ну ок, а почему вы не смотрели на текст задачи?
1️⃣ Он специфичный, так ещё в markdown, нейронки тупо не работали на таком домене, а учить не вариант, доступ мне не дали)
2️⃣ Много работы, скажем на условной лингвистике могли найтись иноязычные слова, которые руберт токсисити отмечал плохими)
3️⃣ Нашел инфу по индексам текста (о чем писал ранее), но оказалось что они частично описывали только возможность задавания вопроса.
🤷♀️ Ну ладно, вот у нас табличка с чиселками есть, давайте обучать катбуст. Но он не обучался, вот вообще, тут же переучивался, та же история с деревом, логрегом.
✅ У нас тупо было слишком мало данных, связи с чем пришлось делать костыли, получили recall 0.5 и precision 0.1, не густо, но тоже неплохо.
Работа над проектом мне нравилась, но до определенного момента. На это повлияло отсутствие нормального отдыха, а также понимание того, что мои навыки как датасаентиста почти не нужны, там была аналитика.
Из этого я вынес урок: датасаентист не может заменить аналитика, это две разные и по своему сложные профессии.
В качестве прощальных слов преподаватель сказал, что мои вопросы заставляли задуматься и в правильную сторону двигали проект, что ж, приятно.
И да, датасаентисов не бывает, это вымысел.
Telegram
Градиентное погружение
Удобочитаемость
Термин обозначающий, сложность прочтения какого-либо текста.
В годах 50-х профессора и учёные задумались: можно ли по тексту узнать примерный уровень знаний, необходимый для прочтения?
Как оказалось - да, вылилось это в раздел, просвещенный…
Термин обозначающий, сложность прочтения какого-либо текста.
В годах 50-х профессора и учёные задумались: можно ли по тексту узнать примерный уровень знаний, необходимый для прочтения?
Как оказалось - да, вылилось это в раздел, просвещенный…
👍14