📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных
Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель.
читать дальше
@machinelearning_ru
Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель.
читать дальше
@machinelearning_ru
👍9👏1
DeepFaceDrawing — нейросеть, которая позволяет создавать реалистичные изображения лиц из набросков от руки
Метод отрисовки по существу использует входные эскизы в качестве «мягких» ограничений и, таким образом, способен создавать высококачественные изображения лиц даже из грубых и/или неполных эскизов. Данный инструмент прост в использовании даже для тех кто не рисует, сохраняя при этом тонкое управление деталями формы
#GitHub | #Python #Interesting
@machinelearning_ru
Метод отрисовки по существу использует входные эскизы в качестве «мягких» ограничений и, таким образом, способен создавать высококачественные изображения лиц даже из грубых и/или неполных эскизов. Данный инструмент прост в использовании даже для тех кто не рисует, сохраняя при этом тонкое управление деталями формы
#GitHub | #Python #Interesting
@machinelearning_ru
🔥13👍2
🔥 100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование
На этот раз мы встретились уже с опытным кандидатом в Data Science.
Будем интенсивно задавать разноплановые вопросы!
https://www.youtube.com/watch?v=BI-yjkRKymg
@machinelearning_ru
На этот раз мы встретились уже с опытным кандидатом в Data Science.
Будем интенсивно задавать разноплановые вопросы!
https://www.youtube.com/watch?v=BI-yjkRKymg
@machinelearning_ru
🔥6👍3👎1
CARLA – симулятор с открытым исходным кодом для исследования автономного вождения
CARLA была разработана с нуля для поддержки разработки, обучения и проверки систем автономного вождения. В дополнение к открытому коду и протоколам, CARLA предоставляет открытые цифровые активы (планы городов, здания, транспортные средства), которые были созданы для этой цели и могут свободно использоваться
⤷ Ссылка на проект
@machinelearning_ru | #Interesting #Simulator #AI
CARLA была разработана с нуля для поддержки разработки, обучения и проверки систем автономного вождения. В дополнение к открытому коду и протоколам, CARLA предоставляет открытые цифровые активы (планы городов, здания, транспортные средства), которые были созданы для этой цели и могут свободно использоваться
⤷ Ссылка на проект
@machinelearning_ru | #Interesting #Simulator #AI
👍10
🔥 Practical Deep Learning
🚀Бесплатный курс от fast.ai поможет вам научиться применять глубокое и машинное обучение для решения практических задач.
Курс
Git
@machinelearning_ru
🚀Бесплатный курс от fast.ai поможет вам научиться применять глубокое и машинное обучение для решения практических задач.
Курс
Git
@machinelearning_ru
👍8🔥4
👍6
Исследования: как мозг строит гипотезы об окружающем мире и подгоняет ощущения под гипотезы
Некоторые нейробиологи объясняют восприятие человека теорией «контролируемых галлюцинаций». Эта теория предполагает, что восприятие, память, контроль движений и другие функции мозга зависят не от сенсорной информации, а скорее от сравнения текущего реального опыта и смоделированных ожиданий мозга.
Вместо того, чтобы ждать сенсорной информации о реальном мире, мозг всегда активно строит гипотезы о том, как устроен мир и предполагает какую информацию получит. А потом использует гипотезы для объяснения реального опыта и заполнения недостающих данных. Другими словами — мозг галлюцинирует, потому что создает информацию, которой нет в реальности.
Читать дальше
@machinelearning_ru
Некоторые нейробиологи объясняют восприятие человека теорией «контролируемых галлюцинаций». Эта теория предполагает, что восприятие, память, контроль движений и другие функции мозга зависят не от сенсорной информации, а скорее от сравнения текущего реального опыта и смоделированных ожиданий мозга.
Вместо того, чтобы ждать сенсорной информации о реальном мире, мозг всегда активно строит гипотезы о том, как устроен мир и предполагает какую информацию получит. А потом использует гипотезы для объяснения реального опыта и заполнения недостающих данных. Другими словами — мозг галлюцинирует, потому что создает информацию, которой нет в реальности.
Читать дальше
@machinelearning_ru
👍9🔥3
🧩 Продолжаем осваивать PySpark. Предобработка текста для машинного обучения
Для задач NLP, как мы знаем, недостаточно положить в модель голый текст. Датасет возьмем с кеггла (https://www.kaggle.com/rishisankineni/text-similarity) — оставим тренировочную часть и попробуем предобработать данные для наших моделей. Надеюсь, это моя не последняя статья и далее мы разберем уже конкретные модели, но сегодня остановимся на предобработке.
Читать дальше
@machinelearning_ru
Для задач NLP, как мы знаем, недостаточно положить в модель голый текст. Датасет возьмем с кеггла (https://www.kaggle.com/rishisankineni/text-similarity) — оставим тренировочную часть и попробуем предобработать данные для наших моделей. Надеюсь, это моя не последняя статья и далее мы разберем уже конкретные модели, но сегодня остановимся на предобработке.
Читать дальше
@machinelearning_ru
🔥6👍3🤔1
Zero-shot classification
Стоит отдать должное NLI (Natural Language Inference), развитие которого позволило моделям пытаться искать логическую взаимосвязь между двумя высказываниями.
У меня есть некоторое выражение (например – «Сократ сказал, что никто не будет жить вечно») и гипотеза (например – «Сократ никогда не умрет»). Модели необходимо определить какое заключение получится:
Логическое следствие – из высказывания следует гипотеза;
Логическая нейтральность – гипотеза и высказывание не связаны;
Логическое противоречие – из высказывания не следует гипотеза.
В данном случае, при применении модели, на выходе получается, что наибольшая вероятность у метки логического противоречия, так как действительно гипотеза является полным противоречием высказыванию.
Читать дальше
@machinelearning_ru
Стоит отдать должное NLI (Natural Language Inference), развитие которого позволило моделям пытаться искать логическую взаимосвязь между двумя высказываниями.
У меня есть некоторое выражение (например – «Сократ сказал, что никто не будет жить вечно») и гипотеза (например – «Сократ никогда не умрет»). Модели необходимо определить какое заключение получится:
Логическое следствие – из высказывания следует гипотеза;
Логическая нейтральность – гипотеза и высказывание не связаны;
Логическое противоречие – из высказывания не следует гипотеза.
В данном случае, при применении модели, на выходе получается, что наибольшая вероятность у метки логического противоречия, так как действительно гипотеза является полным противоречием высказыванию.
Читать дальше
@machinelearning_ru
❤9👍2
👀 Компьютерное зрение в поиске атмосферных осадков
При дожде или снегопаде капли дождя или снежинки оставляют на видеокадрах треки — протяженные линии. Особенно ярко этот эффект проявляется в темное время суток при активации инфракрасной подсветки видеокамер.
Читать дальше
@machinelearning_ru
При дожде или снегопаде капли дождя или снежинки оставляют на видеокадрах треки — протяженные линии. Особенно ярко этот эффект проявляется в темное время суток при активации инфракрасной подсветки видеокамер.
Читать дальше
@machinelearning_ru
👍9
💻 Аугментация Dataseta c помощью Tensorflow
В данный момент можно найти много подготовленных наборов данных для машинного обучения. Но что делать, если нужного под именно ваши задачи нет? Здесь приходится собирать данные вручную. Я столкнулся с такой ситуацией. Мне нужно обучить нейронную сеть распознавать сигналы светофора, а для этого соответственно мне нужны сами фотографии этих светофоров. Как бы странно это не казалось, но в интернете я не смог найти датасет с фотографиями светофоров. Максимум, который я откопал, на сайте Kaggle был датасет с пешеходными светофорами, в котором как побочный пример были представлены искомые изображения светофоров. Но этого все равно явно недостаточно, потому что на класс приходится примерно по 100 фотографий. Добавил еще несколько собственных фоток, но принципиально ничего не изменилось. Смешно, учитывая, что обычно нейросети обучаются на тысячах фотографий.
Читать дальше
@machinelearning_ru
В данный момент можно найти много подготовленных наборов данных для машинного обучения. Но что делать, если нужного под именно ваши задачи нет? Здесь приходится собирать данные вручную. Я столкнулся с такой ситуацией. Мне нужно обучить нейронную сеть распознавать сигналы светофора, а для этого соответственно мне нужны сами фотографии этих светофоров. Как бы странно это не казалось, но в интернете я не смог найти датасет с фотографиями светофоров. Максимум, который я откопал, на сайте Kaggle был датасет с пешеходными светофорами, в котором как побочный пример были представлены искомые изображения светофоров. Но этого все равно явно недостаточно, потому что на класс приходится примерно по 100 фотографий. Добавил еще несколько собственных фоток, но принципиально ничего не изменилось. Смешно, учитывая, что обычно нейросети обучаются на тысячах фотографий.
Читать дальше
@machinelearning_ru
👍8🔥4❤3👎1
☑️ Подбор параметров для построения модели для различных видов переменных
Подбор признаков (Feature selection) — это процесс уменьшения количества входных параметров, используемых при построении моделей. Используя различные статистические подходы, можно определить взаимоотношение между признаками и целевой переменной, для определения тех переменных, которые имеют наиболее сильную связь. Однако, выбор статистических методов зависит как от создаваемой модели, так и от типов сравниваемых данных, а потому может представлять определённые трудности для разработчика.
➡️ Читать
@machinelearning_ru
Подбор признаков (Feature selection) — это процесс уменьшения количества входных параметров, используемых при построении моделей. Используя различные статистические подходы, можно определить взаимоотношение между признаками и целевой переменной, для определения тех переменных, которые имеют наиболее сильную связь. Однако, выбор статистических методов зависит как от создаваемой модели, так и от типов сравниваемых данных, а потому может представлять определённые трудности для разработчика.
➡️ Читать
@machinelearning_ru
🔥6👍1
🚀 DeepSpeed — это библиотека оптимизации глубокого обучения, которая делает распределенное обучение и логические выводы простыми, эффективными и действенными.
➡️ Github
🎯 Docs
@machinelearning_ru
➡️ Github
🎯 Docs
@machinelearning_ru
🔥13
📝 Решение задачи определения границ предложений
В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.
Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:
Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.
➡️ Читать дальше
@machinelearning_ru
В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.
Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:
Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.
➡️ Читать дальше
@machinelearning_ru
👍4🔥3
Forwarded from Machinelearning
Эволюция машинного обучения и проблема «черного ящика»
Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?
Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?
Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
nplus1.ru
Внимание, черный ящик
Как и зачем исследовать логику нейросетей
👍10🔥1
🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron
Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.
Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.
winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).
Читать дальше
@machinelearning_ru
Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.
Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.
winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).
Читать дальше
@machinelearning_ru
👍7🔥3
🔥 Полезные библиотеки Python
AcurusTrack - крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.
Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.
GitHub
@machinelearning_ru
AcurusTrack - крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.
Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.
GitHub
@machinelearning_ru
👍9🔥3
#03TheNotSoToughML | Регрессия: Ошибки → Спуск с вершины горы
https://nuancesprog.ru/p/16046/
@machinelearning_ru
https://nuancesprog.ru/p/16046/
@machinelearning_ru
🔥8