Big data world
2.34K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Объяснение искусственного интеллекта и машинного обучения Искусственный интеллект - это быстро меняющаяся область, и уследить за терминами и сокращениями может быть непросто. Эта страница с объяснениями искусственного интеллекта и машинного обучения - ваш начальный путеводитель по новейшему жаргону. https://clck.ru/WASpP
Инструменты для анализа данных: понимание мультивселенной В мультивселенной науки о данных возможности инструментов продолжают расширяться и развиваться. Хотя, безусловно, есть инженеры и ученые, которые могут закрепиться в том или ином лагере (например, лагерь R против Python или SAS против MATLAB), наблюдается растущая тенденция к распространению инструментов науки о данных. https://clck.ru/WBkNg
23 лучших общедоступных набора данных для практики машинного обучения https://clck.ru/WF9Fk Как выбрать функции потерь при обучении нейронных сетей с глубоким обучением https://clck.ru/WF9KW Глубокое понимание дискриминативных и генеративных моделей в машинном обучении https://clck.ru/WFJY6 Пошаговое руководство по классификации изображений в пользовательских наборах данных https://clck.ru/WFJg2
Поиск лучшего языка программирования для науки о данных
Язык программирования - это практически основа науки о данных, и в связи с развитием современных технологий у нас есть много доступных языков. Но вопрос в том, какой из них больше всего подходит для специалиста по данным. В настоящее время группа языков программирования, которые используют специалисты по данным, - это Python, Julia и R. Все эти языки имеют свои уникальные особенности, а также области знаний. Например, экосистема Python загружена библиотеками, инструментами и приложениями, которые делают работу по научным вычислениям и анализу данных быстрой и удобной, но Джулия стремится дать ученым и аналитикам данных не только быструю и удобную разработку, но и невероятную скорость выполнения. С другой стороны, язык R, как никакой другой, увеличивает скорость статистических вычислений.
Преимущества Python
Выпущенный в 1991 году Python - это язык программирования, который используется для веб-разработки, разработки программного обеспечения, математики и систематического написания сценариев. В Python доступ к первому элементу массива осуществляется с помощью нуля, например string [0] в Python для первого символа в строке. Это помогает в использовании более широкой аудиторией с укоренившимися навыками программирования. У Python более быстрый запуск, что позволяет ему опережать Джулию и Р. Помимо улучшений интерпретатора Python (включая улучшения многоядерной и параллельной обработки), Python стало легче ускорять. Проект mypyc переводит Python с аннотациями типов на родной C, гораздо менее громоздко, чем Cython.
Преимущества Julia
Julia, впервые появившаяся в 2012 году, представляет собой высокоуровневый высокопроизводительный динамический язык программирования. Хотя это язык общего назначения и может использоваться для написания любых приложений, многие из его функций хорошо подходят для численного анализа и вычислений. JIT-компиляция и объявления типов Джулии означают, что она может на порядки превзойти «чистый» неоптимизированный Python. Python можно сделать быстрее с помощью внешних библиотек, сторонних JIT-компиляторов (PyPy) и оптимизации с помощью таких инструментов, как Cython, но Julia спроектирована так, чтобы быть быстрее сразу. Основная целевая аудитория Джулии - пользователи языков и сред для научных вычислений, таких как Matlab, R, Mathematica и Octave. Синтаксис Джулии для математических операций больше похож на способ написания математических формул за пределами компьютерного мира, что упрощает понимание непрограммистами. Flux - это библиотека машинного обучения для Джулии, в которой есть множество существующих шаблонов моделей для распространенных случаев использования. Поскольку он полностью написан на Julia, он может быть изменен по мере необходимости пользователем, и он использует встроенную JIT-компиляцию Julia для оптимизации проектов изнутри.
Преимущества R
Впервые выпущенный в 1993 году, R - это язык программирования и бесплатная программная среда для статистических вычислений и графики, поддерживаемая R Core Team и R Foundation for Statistical Computing. Язык R широко используется статистиками и специалистами по добыче данных для разработки статистического программного обеспечения и анализа данных. R доступен по лицензии с открытым исходным кодом, что означает, что любой может загрузить и изменить код. Эту свободу часто называют «свободой слова». R также доступен бесплатно. Кто угодно может получить доступ к исходному коду, изменить его и улучшить. В результате многие отличные программисты внесли улучшения и исправления в код R. По этой причине R очень стабилен и надежен. R выполняет широкий спектр функций, таких как обработка данных, статистическое моделирование и графика. Одно действительно большое преимущество R, однако это его расширяемость. Разработчики могут легко писать свое программное обеспечение и распространять его в виде дополнительных пакетов.
6 классных библиотек Python для машинного обучения Python - неотъемлемая часть машинного обучения, а библиотеки упрощают нашу жизнь. Недавно я наткнулся на 6 замечательных библиотек, работая над своими проектами машинного обучения. Они помогли мне сэкономить много времени, и я собираюсь обсудить их в этом блоге.
https://clck.ru/WKVwE
Руководство по нейронным сетям для новичков (Часть-1) Это первая из трех статей в серии, в которой объясняются некоторые из основных теорий, которые вы должны знать при реализации нейронной сети. В следующих блогах вы узнаете, как применить изученную теорию для кодирования вашей пользовательской модели нейронной сети. Было приложено максимум усилий, чтобы сделать эту статью интерактивной и простой, чтобы ее мог понять каждый. Надеюсь, вам это понравится. Удачного обучения !! https://clck.ru/WM7a3 ColabCode: развертывание моделей машинного обучения из Google Colab Впервые в ColabCode? Узнайте, как использовать его для запуска VS Code Server, Jupyter Lab или FastAPI. Google colab - самая удобная онлайн-среда IDE для энтузиастов Python и Data Science. Выпущенный в 2017 году для широкой публики, изначально это был внутренний проект, используемый исследовательской группой Google для совместной работы над различными проектами искусственного интеллекта. https://clck.ru/WMRJK
17 статистических проверок гипотез на Python (шпаргалка) Краткое справочное руководство по 17 тестам статистических гипотез, которые вам нужны в
прикладном машинном обучении, с примером кода на Python. https://clck.ru/WPErn
Mava: масштабируемая исследовательская платформа для многоагентного обучения

Платформа интегрируется с популярными средами MARL, такими как PettingZoo, SMAC, RoboCup, OpenSpiel, Flatland, а также с несколькими пользовательскими средами.

Mava включает распределенные реализации мультиагентных версий ddpg, d4pg, dqn, ppo, а также DIAL, VDN и QMIX.
ArXiV: https://arxiv.org/pdf/2107.01460.pdf
GitHub: https://github.com/instadeepai/Mava
Прогноз цен на автомобили - машинное обучение против глубокого обучения. В этой статье мы будем прогнозировать цены на подержанные автомобили. Мы будем создавать различные модели машинного обучения и модели глубокого обучения с разными архитектурами. В конце мы увидим, как модели машинного обучения работают по сравнению с моделями глубокого обучения.
https://clck.ru/WS6o6 Проверка гипотез стала проще для новичков в области науки о данных!. В этой статье мы будем изучать теорию, типы проверки гипотез. И мы возьмем примерные постановки задач и решим их с помощью проверки гипотез.
https://clck.ru/WS6oA
Не только для глубокого обучения: как графические процессоры ускоряют науку о данных и аналитику данных. Успех современных систем искусственного интеллекта / машинного обучения в значительной степени зависел от их способности обрабатывать огромные объемы необработанных данных параллельно с использованием оптимизированного для задач оборудования. Можем ли мы использовать возможности графического процессора и распределенных вычислений для регулярной обработки данных?
https://clck.ru/WS6pb
5 ошибок, которых я хотел бы избежать в моей карьере в области науки о данных. Каждый совершает ошибки, и это может быть хорошо, если со временем они приводят к обучению и совершенствованию. Но мы также можем сначала попытаться поучиться у других, чтобы ускорить наш личностный рост. Для начала рассмотрите эти уроки, усвоенные на собственном горьком опыте, чтобы вам не приходилось делать это.
https://clck.ru/WS6pd
Мягкое введение в процедуру градиентного спуска Процедура градиентного спуска - метод, который имеет первостепенное значение в машинном обучении. Он также используется при обучении нейронных сетей и архитектур глубокого обучения. https://clck.ru/WUCaW Основные тенденции развития науки о данных в 2021 году https://clck.ru/WUCfF
Создание системы рекомендаций рецептов
Использование Word2Vec, Scikit-Learn и Streamlit В предыдущем сообщении блога ( Создание API рекомендаций рецептов с использованием Scikit-Learn, N LTK, Docker, Flask и Heroku ) я писал о том, как я приступил к созданию системы рекомендаций рецептов. Подводя итог: сначала я очистил и проанализировал ингредиенты для каждого рецепта, затем я закодировал список ингредиентов каждого рецепта с помощью TF-IDF. Отсюда я применил функцию подобия, чтобы найти сходство между ингредиентами для известных рецептов и ингредиентами, указанными конечным пользователем. Наконец, мы можем получить самые рекомендуемые рецепты в соответствии с оценкой сходства. https://clck.ru/WVDCc Все о машинном обучении с открытым исходным кодом
Концепции машинного обучения с открытым исходным кодом Этот проект был создан для тех, кто интересуется машинным обучением. Он содержит объяснения общих концепций машинного обучения, таких как контролируемое обучение, неконтролируемое обучение, обучение с подкреплением, временные ряды, компьютерное зрение, НЛП и т. Д. https://clck.ru/WVDHm Определение возраста и пола с помощью глубокого обучения Основная цель этой статьи - определить возраст и пол по заданному набору данных. Мы будем использовать простые методы Python и Keras для определения возраста и пола. https://clck.ru/WVDRF
Запускайте модели машинного обучения в своем браузере с помощью TensorFlow.js (ReactJS) TensorFlow.js (или, короче, tfjs) - это библиотека, которая позволяет создавать, обучать и использовать обученные модели машинного обучения в Javascript!
Основное внимание уделяется тому, чтобы позволить разработчикам Javascript войти в мир машинного обучения и глубокого обучения, создав классные и интеллектуальные веб-приложения, которые могут работать в любом крупном браузере или на серверах Node.js с использованием Javascript. https://clck.ru/WWkuB Что такое нейронный поиск? TL; DR: нейронный поиск - это новый подход к поиску информации с помощью нейронных сетей. Традиционные методы поиска обычно означали написание правил для «понимания» искомых данных и получения наилучших результатов. Но с нейронным поиском разработчикам не нужно ломать голову над этими правилами; Система сама изучает правила и по мере продвижения становится лучше. Даже разработчики, не знакомые с машинным обучением, могут быстро создать поисковую систему, используя фреймворки с открытым исходным кодом, такие как Jina . https://clck.ru/WTscW Топологии Data Mesh Рекомендации по проектированию для построения архитектуры сетки данных https://clck.ru/WVDcv Приложениям машинного обучения требуется меньше данных, чем предполагалось Объединенная группа исследователей из Университета Британской Колумбии и Университета Альберты обнаружила, что по крайней мере некоторые приложения машинного обучения могут учиться на гораздо меньшем количестве примеров, чем предполагалось. В своей статье, опубликованной в журнале Nature Machine Intelligence , группа описывает тестирование, которое они проводили с приложениями машинного обучения, созданными для предсказания определенных типов молекулярных структур. https://clck.ru/WViHa
23 распространенных вопроса на собеседовании по науке о данных для начинающих Во время интервью интервьюер может задавать вопросы по различным темам науки о данных, таким как статистика, программирование, анализ данных, предварительная обработка данных и моделирование. Ваши навыки будут проверены, и вам нужно подготовиться, если вы хотите сделать карьеру в области науки о данных. https://clck.ru/WWpwq
🖥Нежное введение в частные производные и векторы градиента Частные производные и векторы градиента очень часто используются в алгоритмах машинного обучения для поиска минимума или максимума функции. https://clck.ru/WYnHV 🖥 Использование графических процессоров для обработки и анализа данных. Как графические процессоры ускоряют науку о данных и аналитику данных https://clck.ru/WYfqG
🖥Визуальное понимание модели глубокого обучения. JittorVis - это библиотека с открытым исходным кодом для понимания внутренней работы моделей
https://clck.ru/WYfqz
🖥10 ошибок при обучении модели машинного обучения. В этой статье я расскажу о десяти смертных грехах во время обучения модели машинного обучения - это самые распространенные, а также их легче всего упустить из виду.
https://clck.ru/WXsZH
🖥 Как наука о данных и машинное обучение работают для противодействия кибератакам Все мы знаем об ужасной кибератаке, в результате которой всего за несколько дней в мае 2017 года было уничтожено более 200 000 систем в 150 странах. Оно было обнаружено Агентством национальной безопасности (АНБ) и получило прозвище «WannaCry», использовавшее уязвимость и кража важных ресурсов перед распространением в сети.

После успешного доступа к компьютеру он зашифровал содержимое машины и сделал его нечитаемым. Затем жертвы нападения были проинформированы, что им необходимо приобрести специальное программное обеспечение для дешифрования, чтобы вернуть украденные материалы. Кроме того, злоумышленники продавали это программное обеспечение. https://clck.ru/WavLk 🖥 10 лучших статей по большим данным за июнь '21, которые стоит прочитать сейчас Просмотрите 10 самых популярных статей из области Big Data, посвященными Kafka, полезным запросам в Elasticsearch, объединениям PySpark, командам оболочки Hadoop и многому другому! https://clck.ru/Wamb8
🖥Ответы на 30 наиболее часто задаваемых вопросов по машинному обучению.
В машинном обучении всегда есть чему поучиться. Независимо от того, являетесь ли вы новичком в этой области или опытным специалистом и готовы к переподготовке, понимание этих ключевых концепций поможет вам отточить свои навыки в правильном направлении. https://clck.ru/WchVY
🖥10 ключевых алгоритмов глубокого обучения, за которыми нужно следить в 2021 году Алгоритмы глубокого обучения обучают машины выполнять сложные вычисления с огромным объемом данных. Вот список 10 лучших алгоритмов глубокого обучения на 2021 год. https://clck.ru/WdfPw 🖥Как стать внештатным специалистом по данным - 4 практических совета Если вы хотите начать работать в качестве независимого (удаленного) внештатного специалиста по данным, то эти четыре практических совета помогут вам перейти от традиционной работы с 9 до 5 к динамичной работе в качестве удаленного подрядчика. , как и автор три года назад. https://clck.ru/WdfTs
Нежное введение в матрицы Гессе Матрицы Гессе принадлежат к классу математических структур, которые включают производные второго порядка. Они часто используются в алгоритмах машинного обучения и анализа данных для оптимизации интересующей функции. https://clck.ru/Wdo8C
🖥Введение в матрицы и матричную арифметику для машинного обучения Матрицы являются основополагающим элементом линейной алгебры.

Матрицы используются во всей области машинного обучения при описании алгоритмов и процессов, таких как переменная входных данных (X) при обучении алгоритма.

В этом руководстве вы откроете для себя матрицы в линейной алгебре и научитесь управлять ими в Python. https://clck.ru/Wh8cX 🖥Распознавание жестов рук на основе глубокого обучения с использованием LSTM и MediaPipie Python 3
TensorFlow 2.4
sklearn
numpy
OpenCV
MediaPipe https://clck.ru/Wh8d4 🖥Обнаружение спама в электронной почте - сравнительный анализ 4 моделей машинного обучения В этой статье сравниваются четыре различных алгоритма глубокого обучения и машинного обучения для создания детектора спама и оценки их производительности. Набор данных, который мы использовали, был взят из перемешанной выборки тем и тел писем, содержащих как спам, так и любительские письма в различных пропорциях, которые мы преобразовали в леммы. Обнаружение спама в электронной почте - один из самых эффективных проектов глубокого обучения, но часто это также тот проект, в котором люди теряют уверенность в поиске простейшей модели для обеспечения точности. В этой статье мы собираемся обнаруживать спам в почте, используя четыре различных метода, и сравнивать их, чтобы получить наиболее точную модель. https://clck.ru/Wh8dn