Big data world
2.34K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Разница между алгоритмом и искусственным интеллектом Слова «искусственный интеллект» (ИИ) и алгоритмы чаще всего используются неправильно. Часто используются как взаимозаменяемые, хотя и не должны. Это приводит к ненужной путанице. В этой статье давайте разберемся, что такое ИИ и алгоритмы, и в чем их разница. https://clck.ru/W73Ny Как отличить себя от сотен других кандидатов в области науки о данных? Несколько простых (и не очень простых) способов доказать работодателям, что ваши навыки и отношение ставят вас в более высокую категорию. https://clck.ru/W7cxn
This media is not supported in your browser
VIEW IN TELEGRAM
5 лучших книг по машинному обучению для начинающих Чтение книг важно, потому что оно дает бесконечные знания. Если вы планируете стать специалистом по анализу данных или инженером по машинному обучению, чтение книг по машинному обучению поможет вам получить знания и навыки, необходимые в этой области. https://clck.ru/W7dhJ
Выбор функций для машинного обучения Желательно уменьшить количество входных переменных как для уменьшения вычислительных затрат на моделирование, так и, в некоторых случаях, для повышения производительности модели. https://clck.ru/W8iP8
Распознавание речевых эмоций с помощью сверточных нейронных сетей Изучение человеческих эмоций всегда было увлекательным занятием для dаtа sсientists. В последнее время я работаю над экспериментальным проектом «Знание эмоций» (SER), чтобы изучить его потенциальные возможности. https://clck.ru/W9F6d Генераторы и итераторы Python за 2 минуты для новичков в области науки о данных Мы продолжаем нашу серию « Python: понимание за 2 минуты », в которой мы рассмотрим темы среднего уровня, которые также часто задают в собеседованиях по Python и Data Science. В прошлый раз мы говорили о важной теме под названием * args и ** kwargs за 2 минуты . Эта серия предназначена для начинающих специалистов по обработке данных, которые хотят сделать «следующий шаг» в Python после изучения основ. Сегодня мы продолжим обсуждение еще одной важной темой под названием «Генератор и итератор». https://clck.ru/WARmT
Объяснение искусственного интеллекта и машинного обучения Искусственный интеллект - это быстро меняющаяся область, и уследить за терминами и сокращениями может быть непросто. Эта страница с объяснениями искусственного интеллекта и машинного обучения - ваш начальный путеводитель по новейшему жаргону. https://clck.ru/WASpP
Инструменты для анализа данных: понимание мультивселенной В мультивселенной науки о данных возможности инструментов продолжают расширяться и развиваться. Хотя, безусловно, есть инженеры и ученые, которые могут закрепиться в том или ином лагере (например, лагерь R против Python или SAS против MATLAB), наблюдается растущая тенденция к распространению инструментов науки о данных. https://clck.ru/WBkNg
23 лучших общедоступных набора данных для практики машинного обучения https://clck.ru/WF9Fk Как выбрать функции потерь при обучении нейронных сетей с глубоким обучением https://clck.ru/WF9KW Глубокое понимание дискриминативных и генеративных моделей в машинном обучении https://clck.ru/WFJY6 Пошаговое руководство по классификации изображений в пользовательских наборах данных https://clck.ru/WFJg2
Поиск лучшего языка программирования для науки о данных
Язык программирования - это практически основа науки о данных, и в связи с развитием современных технологий у нас есть много доступных языков. Но вопрос в том, какой из них больше всего подходит для специалиста по данным. В настоящее время группа языков программирования, которые используют специалисты по данным, - это Python, Julia и R. Все эти языки имеют свои уникальные особенности, а также области знаний. Например, экосистема Python загружена библиотеками, инструментами и приложениями, которые делают работу по научным вычислениям и анализу данных быстрой и удобной, но Джулия стремится дать ученым и аналитикам данных не только быструю и удобную разработку, но и невероятную скорость выполнения. С другой стороны, язык R, как никакой другой, увеличивает скорость статистических вычислений.
Преимущества Python
Выпущенный в 1991 году Python - это язык программирования, который используется для веб-разработки, разработки программного обеспечения, математики и систематического написания сценариев. В Python доступ к первому элементу массива осуществляется с помощью нуля, например string [0] в Python для первого символа в строке. Это помогает в использовании более широкой аудиторией с укоренившимися навыками программирования. У Python более быстрый запуск, что позволяет ему опережать Джулию и Р. Помимо улучшений интерпретатора Python (включая улучшения многоядерной и параллельной обработки), Python стало легче ускорять. Проект mypyc переводит Python с аннотациями типов на родной C, гораздо менее громоздко, чем Cython.
Преимущества Julia
Julia, впервые появившаяся в 2012 году, представляет собой высокоуровневый высокопроизводительный динамический язык программирования. Хотя это язык общего назначения и может использоваться для написания любых приложений, многие из его функций хорошо подходят для численного анализа и вычислений. JIT-компиляция и объявления типов Джулии означают, что она может на порядки превзойти «чистый» неоптимизированный Python. Python можно сделать быстрее с помощью внешних библиотек, сторонних JIT-компиляторов (PyPy) и оптимизации с помощью таких инструментов, как Cython, но Julia спроектирована так, чтобы быть быстрее сразу. Основная целевая аудитория Джулии - пользователи языков и сред для научных вычислений, таких как Matlab, R, Mathematica и Octave. Синтаксис Джулии для математических операций больше похож на способ написания математических формул за пределами компьютерного мира, что упрощает понимание непрограммистами. Flux - это библиотека машинного обучения для Джулии, в которой есть множество существующих шаблонов моделей для распространенных случаев использования. Поскольку он полностью написан на Julia, он может быть изменен по мере необходимости пользователем, и он использует встроенную JIT-компиляцию Julia для оптимизации проектов изнутри.
Преимущества R
Впервые выпущенный в 1993 году, R - это язык программирования и бесплатная программная среда для статистических вычислений и графики, поддерживаемая R Core Team и R Foundation for Statistical Computing. Язык R широко используется статистиками и специалистами по добыче данных для разработки статистического программного обеспечения и анализа данных. R доступен по лицензии с открытым исходным кодом, что означает, что любой может загрузить и изменить код. Эту свободу часто называют «свободой слова». R также доступен бесплатно. Кто угодно может получить доступ к исходному коду, изменить его и улучшить. В результате многие отличные программисты внесли улучшения и исправления в код R. По этой причине R очень стабилен и надежен. R выполняет широкий спектр функций, таких как обработка данных, статистическое моделирование и графика. Одно действительно большое преимущество R, однако это его расширяемость. Разработчики могут легко писать свое программное обеспечение и распространять его в виде дополнительных пакетов.
6 классных библиотек Python для машинного обучения Python - неотъемлемая часть машинного обучения, а библиотеки упрощают нашу жизнь. Недавно я наткнулся на 6 замечательных библиотек, работая над своими проектами машинного обучения. Они помогли мне сэкономить много времени, и я собираюсь обсудить их в этом блоге.
https://clck.ru/WKVwE
Руководство по нейронным сетям для новичков (Часть-1) Это первая из трех статей в серии, в которой объясняются некоторые из основных теорий, которые вы должны знать при реализации нейронной сети. В следующих блогах вы узнаете, как применить изученную теорию для кодирования вашей пользовательской модели нейронной сети. Было приложено максимум усилий, чтобы сделать эту статью интерактивной и простой, чтобы ее мог понять каждый. Надеюсь, вам это понравится. Удачного обучения !! https://clck.ru/WM7a3 ColabCode: развертывание моделей машинного обучения из Google Colab Впервые в ColabCode? Узнайте, как использовать его для запуска VS Code Server, Jupyter Lab или FastAPI. Google colab - самая удобная онлайн-среда IDE для энтузиастов Python и Data Science. Выпущенный в 2017 году для широкой публики, изначально это был внутренний проект, используемый исследовательской группой Google для совместной работы над различными проектами искусственного интеллекта. https://clck.ru/WMRJK
17 статистических проверок гипотез на Python (шпаргалка) Краткое справочное руководство по 17 тестам статистических гипотез, которые вам нужны в
прикладном машинном обучении, с примером кода на Python. https://clck.ru/WPErn
Mava: масштабируемая исследовательская платформа для многоагентного обучения

Платформа интегрируется с популярными средами MARL, такими как PettingZoo, SMAC, RoboCup, OpenSpiel, Flatland, а также с несколькими пользовательскими средами.

Mava включает распределенные реализации мультиагентных версий ddpg, d4pg, dqn, ppo, а также DIAL, VDN и QMIX.
ArXiV: https://arxiv.org/pdf/2107.01460.pdf
GitHub: https://github.com/instadeepai/Mava
Прогноз цен на автомобили - машинное обучение против глубокого обучения. В этой статье мы будем прогнозировать цены на подержанные автомобили. Мы будем создавать различные модели машинного обучения и модели глубокого обучения с разными архитектурами. В конце мы увидим, как модели машинного обучения работают по сравнению с моделями глубокого обучения.
https://clck.ru/WS6o6 Проверка гипотез стала проще для новичков в области науки о данных!. В этой статье мы будем изучать теорию, типы проверки гипотез. И мы возьмем примерные постановки задач и решим их с помощью проверки гипотез.
https://clck.ru/WS6oA
Не только для глубокого обучения: как графические процессоры ускоряют науку о данных и аналитику данных. Успех современных систем искусственного интеллекта / машинного обучения в значительной степени зависел от их способности обрабатывать огромные объемы необработанных данных параллельно с использованием оптимизированного для задач оборудования. Можем ли мы использовать возможности графического процессора и распределенных вычислений для регулярной обработки данных?
https://clck.ru/WS6pb
5 ошибок, которых я хотел бы избежать в моей карьере в области науки о данных. Каждый совершает ошибки, и это может быть хорошо, если со временем они приводят к обучению и совершенствованию. Но мы также можем сначала попытаться поучиться у других, чтобы ускорить наш личностный рост. Для начала рассмотрите эти уроки, усвоенные на собственном горьком опыте, чтобы вам не приходилось делать это.
https://clck.ru/WS6pd
Мягкое введение в процедуру градиентного спуска Процедура градиентного спуска - метод, который имеет первостепенное значение в машинном обучении. Он также используется при обучении нейронных сетей и архитектур глубокого обучения. https://clck.ru/WUCaW Основные тенденции развития науки о данных в 2021 году https://clck.ru/WUCfF
Создание системы рекомендаций рецептов
Использование Word2Vec, Scikit-Learn и Streamlit В предыдущем сообщении блога ( Создание API рекомендаций рецептов с использованием Scikit-Learn, N LTK, Docker, Flask и Heroku ) я писал о том, как я приступил к созданию системы рекомендаций рецептов. Подводя итог: сначала я очистил и проанализировал ингредиенты для каждого рецепта, затем я закодировал список ингредиентов каждого рецепта с помощью TF-IDF. Отсюда я применил функцию подобия, чтобы найти сходство между ингредиентами для известных рецептов и ингредиентами, указанными конечным пользователем. Наконец, мы можем получить самые рекомендуемые рецепты в соответствии с оценкой сходства. https://clck.ru/WVDCc Все о машинном обучении с открытым исходным кодом
Концепции машинного обучения с открытым исходным кодом Этот проект был создан для тех, кто интересуется машинным обучением. Он содержит объяснения общих концепций машинного обучения, таких как контролируемое обучение, неконтролируемое обучение, обучение с подкреплением, временные ряды, компьютерное зрение, НЛП и т. Д. https://clck.ru/WVDHm Определение возраста и пола с помощью глубокого обучения Основная цель этой статьи - определить возраст и пол по заданному набору данных. Мы будем использовать простые методы Python и Keras для определения возраста и пола. https://clck.ru/WVDRF
Запускайте модели машинного обучения в своем браузере с помощью TensorFlow.js (ReactJS) TensorFlow.js (или, короче, tfjs) - это библиотека, которая позволяет создавать, обучать и использовать обученные модели машинного обучения в Javascript!
Основное внимание уделяется тому, чтобы позволить разработчикам Javascript войти в мир машинного обучения и глубокого обучения, создав классные и интеллектуальные веб-приложения, которые могут работать в любом крупном браузере или на серверах Node.js с использованием Javascript. https://clck.ru/WWkuB Что такое нейронный поиск? TL; DR: нейронный поиск - это новый подход к поиску информации с помощью нейронных сетей. Традиционные методы поиска обычно означали написание правил для «понимания» искомых данных и получения наилучших результатов. Но с нейронным поиском разработчикам не нужно ломать голову над этими правилами; Система сама изучает правила и по мере продвижения становится лучше. Даже разработчики, не знакомые с машинным обучением, могут быстро создать поисковую систему, используя фреймворки с открытым исходным кодом, такие как Jina . https://clck.ru/WTscW Топологии Data Mesh Рекомендации по проектированию для построения архитектуры сетки данных https://clck.ru/WVDcv Приложениям машинного обучения требуется меньше данных, чем предполагалось Объединенная группа исследователей из Университета Британской Колумбии и Университета Альберты обнаружила, что по крайней мере некоторые приложения машинного обучения могут учиться на гораздо меньшем количестве примеров, чем предполагалось. В своей статье, опубликованной в журнале Nature Machine Intelligence , группа описывает тестирование, которое они проводили с приложениями машинного обучения, созданными для предсказания определенных типов молекулярных структур. https://clck.ru/WViHa
23 распространенных вопроса на собеседовании по науке о данных для начинающих Во время интервью интервьюер может задавать вопросы по различным темам науки о данных, таким как статистика, программирование, анализ данных, предварительная обработка данных и моделирование. Ваши навыки будут проверены, и вам нужно подготовиться, если вы хотите сделать карьеру в области науки о данных. https://clck.ru/WWpwq
🖥Нежное введение в частные производные и векторы градиента Частные производные и векторы градиента очень часто используются в алгоритмах машинного обучения для поиска минимума или максимума функции. https://clck.ru/WYnHV 🖥 Использование графических процессоров для обработки и анализа данных. Как графические процессоры ускоряют науку о данных и аналитику данных https://clck.ru/WYfqG
🖥Визуальное понимание модели глубокого обучения. JittorVis - это библиотека с открытым исходным кодом для понимания внутренней работы моделей
https://clck.ru/WYfqz
🖥10 ошибок при обучении модели машинного обучения. В этой статье я расскажу о десяти смертных грехах во время обучения модели машинного обучения - это самые распространенные, а также их легче всего упустить из виду.
https://clck.ru/WXsZH
🖥 Как наука о данных и машинное обучение работают для противодействия кибератакам Все мы знаем об ужасной кибератаке, в результате которой всего за несколько дней в мае 2017 года было уничтожено более 200 000 систем в 150 странах. Оно было обнаружено Агентством национальной безопасности (АНБ) и получило прозвище «WannaCry», использовавшее уязвимость и кража важных ресурсов перед распространением в сети.

После успешного доступа к компьютеру он зашифровал содержимое машины и сделал его нечитаемым. Затем жертвы нападения были проинформированы, что им необходимо приобрести специальное программное обеспечение для дешифрования, чтобы вернуть украденные материалы. Кроме того, злоумышленники продавали это программное обеспечение. https://clck.ru/WavLk 🖥 10 лучших статей по большим данным за июнь '21, которые стоит прочитать сейчас Просмотрите 10 самых популярных статей из области Big Data, посвященными Kafka, полезным запросам в Elasticsearch, объединениям PySpark, командам оболочки Hadoop и многому другому! https://clck.ru/Wamb8
🖥Ответы на 30 наиболее часто задаваемых вопросов по машинному обучению.
В машинном обучении всегда есть чему поучиться. Независимо от того, являетесь ли вы новичком в этой области или опытным специалистом и готовы к переподготовке, понимание этих ключевых концепций поможет вам отточить свои навыки в правильном направлении. https://clck.ru/WchVY