Интересное что-то – Telegram

Интересное что-то

546 subscribers

2.77K photos

253 videos

140 files

4.57K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

546 subscribers

Интересное что-то

Forwarded from Small Data Science for Russian Adventurers

#приёмы
В старом посте я описывал приём AV: решение задачи разделения обучения и теста позволяет понять
1) какие признаки стабильны,
2) как отобрать обучающую подвыборку максимально похожую на тест.

Из того, что я тогда не сказал, но это полезно:
1) логично встроить AV в процедуру отбора признаков (чтобы отбиралось не просто подпространство с высоким качеством решения, но и стабильное),
2) когда нет теста (а его на практике часто и нет) можно разбить объекты по времени (странно, но при решении прикладных задач это делают очень редко),
3) из нестабильных признаков часто получаются хорошие стабильные, причём с помощью простых приёмов (например, доход клиента делим на медианных доход в этом месяце). Поэтому AV можно встроить и в генератор признаков;)

30 views10:59

Интересное что-то

29 views12:46

Интересное что-то

Forwarded from Записки MLEшника (Egor)

По наводке коллеги прочитал годную статью по библиотеке requests.

Чего полезного умеют:
1. Можно задать базовый URL, а дальше передавать только путь до ресурса. Почему я об этом узнал только сейчас? 🥲
2. Можно проверить, что запрос отработал без ошибок (400ые и 500ые статус кодов). Если ошибка, то поднимается питонячее исключение. Если хочется, то есть возможность сделать такую проверку автоматической на каждый ответ через хуки.
3. Хуки 🙂. Получается, можно вешать выполнение любого вашего кода на все запросы, ответы и др.
4. Выставлять ретраи на определённые коды ошибок. При том время повторных запросов экспонентально увеличивается. По умолчанию делается 10 ретраев без какой-либо задержки по времени 🙈
5. Как мокать ответы при написании юниттестов.

Крч, годная и к тому же весьма короткая статья. Рекомендую к прочтению.

33 views12:46

Интересное что-то

33 views14:52

Интересное что-то

Forwarded from Базы данных & SQL

База по шардированию базы

Читать статью

База по шардированию базы

Возможность горизонтального масштабирования это одно из важнейших нефункциональных требований индустрии в последнее время. Рост бизнеса со стороны IT выглядит чаще всего как рост нагрузки и цены...

31 views14:52

Интересное что-то

32 views14:58

Интересное что-то

Forwarded from Complete AI (Andrey Kuznetsov)

🔥 Scalable Diffusion Models with Transformers

Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).

Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.

статья
гитхаб
колаб

@complete_ai

34 views14:58

Интересное что-то

36 views17:48

Интересное что-то

#ml #statistics
Нашёл крутую статью про линейную регрессию и статзначимость коэффициентов

https://habr.com/ru/amp/post/690414/

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

АКТУАЛЬНОСТЬ ТЕМЫ Общие положения Про регрессионный анализ вообще, и его применение в DataScience написано очень много. Есть множество учебников, монографий, справочников и статей по прикладной...

50 views19:05

Интересное что-то

#dl #nlp

Векторизация и кластеризация текста работает по схеме use / LaBSE / SBERT + k-means + tf-idf.

https://github.com/MaartenGr/BERTopic

GitHub - MaartenGr/BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics.

Leveraging BERT and c-TF-IDF to create easily interpretable topics. - GitHub - MaartenGr/BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics.

30 viewsedited 21:23

Интересное что-то

28 views07:39

Интересное что-то

Forwarded from Пресидский залив (Nadia ズエバ)

⚡️ ~~open~~ ~~close~~ openai расщедрились и релизнули свой трансформер для voice tech задач в opensource!

Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎

Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные слова ~~иногда нехорошие 🙃~~ то есть можно дофайнтюнить энкодер, а дальше поставить что угодно — от классификатора до voice conversion.

Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻‍♀️

В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляции ~~или kaggle-соревнований~~.

Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚

Подробнее читать тут
#tech

33 views07:39

Интересное что-то

27 views13:53

Интересное что-то

Forwarded from Борис опять

На днях друг попросил помочь поторговаться за зарплату. Вот что получилось.

Дано:
* Оффер на Аналитика, 150к руб, большой Телеком.
* Оффер на ML инженера, 150к руб, небольшая техкомпания в мутной сфере, назовем ее Смолтех.
* Назревающий оффер на ML инженера в Бигтех, куда больше всего хочется.

Наблюдения:
* Никто не хочет идти работать в Телеком, но они довольно богатые , поэтому определенно готовы заплатить много денег, чтобы заманить специалиста.
* Смолтех работает в мутной и почти маргинальной сфере с огромной маржой. К ним скорее всего не выстраиваются очереди желающих. Они просто обязаны платить выше рынка, чтобы компенсировать риски мутности.
* В Бигтехе, напротив, люди готовы работать за еду и строчку в резюме.

Предложил такую стратегию:
1. Собираем свои причины торговаться. Определяем для себя зачем нам деньги. Например: надо переезжать, кризис, нужны вложения. Встаем в положение “у меня нет выбора, кроме как принять решение в пользу лучшего предложения”.
2. Относим оффер Смолтеха в Телеком и говорим: у Смолтеха интереснее работа, а деньги такие же, но я хочу к вам, потому что у них мутный сектор, и, если вы поднимете оффер, то это станет решающим.
3. Телеком скорее всего поднимет оффер примерно до 170к.
4. Берем новый оффер от Телекома и несем в Смолтех. Говорим: Телеком предлагает больше денег, и сектор не такой мутный, но у вас интереснее работа и в целом больше хочется к вам.
5. Они скорее всего поднимут еще выше.
6. При любых обновлениях офферов сразу скидываем их в Бигтех: апдейт по ситуации.
7. Когда офер в Бигтехе дозреет, он скорее всего будет выше обоих. Конечно же говорим, что больше всего хотим к ним.
8. Повторяем действия до тех пор, пока все не скажут “нет”.

Как все обернулось:
1. Телеком поднялся до 165к увидев оффер от Смолтеха.
2. Смолтех поднялся до 180к.
3. Бигтех поднялся до 187к после налогов, плюс все корпоративные бонусы, которые можно оценить еще в примерно 10к.
4. Телеком и Смолтех отказались поднимать выше.

В итоге подъем почти на 25%!

18 views13:53

Интересное что-то

26 views13:58

Интересное что-то

Forwarded from Архив Программиста

Как выучить Python в 2023 году — свежая дорожная карта от комьюнити.

В дорожной карте собрали все самые популярные и актуальные инструменты за прошедший год. Для новичков это отличная шпаргалка и понимание, с чего стоит начать, а опытным разработчикам она подскажет, куда развивать дальше.

В хорошем качестве можно глянуть тут.

33 views13:58

Интересное что-то

35 views17:32

Интересное что-то

Forwarded from DevFM

Программа vs процесс vs поток

В 4-минутном видео Process vs Thread раскрывается популярный на собеседовании вопрос из заголовка. Программа с диска в момент запуска становится процессом, а в процессе может быть один и более поток с общим адресным пространством. Пара слов сказана и о корутинах / зелёных потоках. Про зелёные потоки будет отдельный пост.

Для более вдумчивого чтения про процессы и потоки можем порекомендовать 2 главу Современные операционные системы Таненбаума (4 издание, 2015 год).
#skills

FANG Interview Question | Process vs Thread

Subscribe to our weekly system design newsletter: https://bit.ly/3tfAlYD

Checkout our bestselling System Design Interview books:
Volume 1: https://amzn.to/3Ou7gkd
Volume 2: https://amzn.to/3HqGozy

Other things we made:
Digital version of System Design…

32 views17:32

Интересное что-то

33 views17:42

Интересное что-то

Forwarded from Love. Death. Transformers.

Завезли open source версию dalle2
Обучена на 160м сете, нафильтрованном их coyo700m, текст понимает на уровне оригинального dalle2 и в целом генерит очень неплохие картинки

GitHub
Hfspace

34 views17:42

Интересное что-то

#ml #statistics
Интересная книга с Байесовским подходом в анализе данных

https://www.stat.columbia.edu/~gelman/book/BDA3.pdf

44 views11:24