Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
273 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Заметки по SQL для профессионалов

Прекрасный материал по работе с данными

Смотреть
👍6
🗾 Посмотрим, как ИИ учится классифицировать изображения

Загляним под капот алгоритмов машинного обучения, пока они работают.

Cуществует множество руководств и статей, которые хорошо показывают, как алгоритмы машинного обучения могут обучаться на изображениях и выполнять различные удивительные задачи. Итак, эта статья не о том, что они могут сделать,а о том что происходит, пока машины учатся.

Я надеюсь, что анимации в этой статье смогут ннаглядно показать, как современные алгоритмы машинного обучения работают с различными данными и очень быстро учатся тому, как извлекать значимые признаки из данных для эффективного решения поставленной задачи. Итак, давайте сразу приступим!

Статья
Код
Набор данных

@data_analysis_ml
👍11🔥31
🗣️ Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk

https://proglib.io/p/reshaem-zadachu-perevoda-russkoy-rechi-v-tekst-s-pomoshchyu-python-i-biblioteki-vosk-2022-06-30

@data_analysis_ml
👍4
14 проектов по науке о данных

Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены интересные наборы данных, с помощью которых вы сможете пополнить свои портфолио, проведя анализ данных и создав несколько интересных визуализаций .

Читать дальше

@data_analysis_ml
👍26
Лассо- и ридж-регрессии: интуитивное сравнение

Знакомство с машинным обучением часто начинается с линейной регрессии  —  одного из самых простых алгоритмов.

Однако эта модель быстро раскрывает свои недостатки, особенно при работе с наборами данных, которые требуют перестройки моделей. Основные решения этой проблемы  —  ридж- и лассо-регрессии.

Читать дальше

@data_analysis_ml
👍25
🤖 Подборка полезных ресурсов по машинному обучению и аннализу данных

@ai_machinelearning_big_data - продвинутый ML
@datascienceiot - книги по аннализу данных
@machinelearning_ru - машиннное обучение с нуля до профи
@ArtificialIntelligencedl - искусственный интеллект
@Machinelearningtest - тесты по мл
@machinee_learning - чат дата саентистов
@programming_books_it - книги по прогрраммированию
@pro_python_code - глубокий python
@Golang_google -golang
@itchannels_telegram - полный список полезных ресурсов
👍19
🛠 Главные ошибки при анализе данных

Аналитик данных — лучший в статистике среди программистов и лучший программист среди статистиков. В этом топе обсудим, как программисту стать лучше в статистике.

Примеры, код и детальный вывод доступны на github и в Jupyter Notebook. В коде библиотека d6tflowуправляет рабочим процессом, а d6tpipe обеспечивает публичное хранение данных.

Статья
Код

@data_analysis_ml
👍24🔥2👏1
Immudb – самая быстрая в мире неизменная база данных, построенная на модели нулевого доверия

Immudb - это база данных со встроенной криптографической проверкой. Она отслеживает изменения в конфиденциальных данных, и целостность истории будет защищена клиентами без необходимости доверять самой базе. Она может работать как хранилище ключей и значений, так и/или как реляционная база данных (SQL).

#GitHub | #SQL #Data

@data_analysis_ml
👍19
5️⃣ преимуществ low-code подхода к аналитике данных.

Возможность мало кодировать, а больше использовать готовые компоненты и визуальное проектирование позволяет решать задачи анализа с меньшими затратами сил разработчиков. В статье расскажем об основных преимуществах подобного подхода.

Потребность в инструментах, минимизирующих программирование, существовала давно. Цель любой организации — быстро и с минимальными затратами решить задачу, при этом учесть особенности бизнеса компании. Проблема в том, что сложно удовлетворить этим критериям одновременно. Можно либо воспользоваться готовыми решениями, позволяющими получить результат быстро, но без учета нюансов бизнеса и с потерей гибкости. Либо разработать уникальное решение под себя, что требует много времени и дорогостоящих специалистов.

Low-code — это метод разработки, позволяющий проектировать логику быстро, с небольшими затратами на внедрение и поддержку. Low-code сводит к минимуму использование программного кода, заменяя его визуальными средствами конструирования.

Мы выделили 5 основных преимуществ low-code подхода при работе над аналитическими проектами.

Читать дальше

@data_analysis_ml
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
Pulseинструмент, который превращает пиксилезированные фотографии лица в картинки с высоким качеством

Получив входное изображение с низким разрешением, PULSE ищет в выходных данных генеративной модели (StyleGAN) изображения с высоким разрешением, которые перцептивно схожи с входной картинкой | #Python #AI #Interesting

@data_analysis_ml
👍15😁6
💡10 фич для ускорения анализа данных в Python

Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала свои самые любимые и сделала из них эту статью. Какие-то из советов ниже уже известны многим, а какие-то появились совсем недавно. Так или иначе, я уверена, они точно не будут лишними, когда вы в очередной раз приступите к проекту по анализу данных.

Читать дальше

@data_analysis_ml
👍49🔥5
SQL-запросы, о которых должен знать каждый дата-инженер. Гайд по по работе с SQL в Data Science.

Знание продвинутого синтаксиса SQL необходимо и новичку, и опытному дата-инженеру или аналитику данных.

В связи с бурным ростом объема данных все более важным становится умение очень быстро их анализировать
.

Объем данных на этом графике показан в зеттабайтах.

1 зеттабайт = 1 триллион гигабайтов
Есть много очень вместительных нереляционных хранилищ, которые отлично выполняют свою работу, поддерживая массовое горизонтальное масштабирование с низкими затратами. Однако они не заменяют высококачественные хранилища на основе SQL, а лишь дополняют их.

Высококачественными и очень надежными для относительно естественного моделирования данных их делают ACID-свойства SQL.

Читать дальше

@data_analysis_ml
👍28😢1
Python FastAPI: OpenAPI, CRUD, PostgreSQL в Docker и внедрение зависимостей

https://nuancesprog.ru/p/14818/
👍9👎1
📲 Собеседование на позицию Data Scientist: 46 типичных вопросов.

Проверка знаний на собеседованиях — обычная практика. И мы сейчас не о глупых «Где вы видите себя через 5 лет?», а о нормальных вопросах по специальности. Вопросы будут смешаны по темам, но все они относятся к машинному обучению и Data Science. Попробуйте сначала ответить на каждый вопрос самостоятельно!

Часть 1
Часть 2

@data_analysis_ml
👍39
🎓 Опенсорсные массивы данных для Computer Vision


Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.

Читать дальше

@data_analysis_ml
👍7
♻️ Мета выпустила переводчик на 200 языков.

В открытом доступе теперь лежит модель No language left behind (Ни один язык не останется за бортом), которая переводит с 200+ различных языков.

Модель уже применняется для улучшения переводов на Facebook, Instagram и Wikipedia.

Код
Статья
Demo
Blog

#AI #ML #NLP

@data_analysis_ml
👍15🔥7
🔍 Как обнаружить выбросы в проекте по исследованию данных

Выброс — это данные, которые имеют слишком высокое или слишком низкое значение по отношению к другим исследуемым данным. Конечно, в наборе данных может быть несколько выбросов, поэтому приходится неоднократно исключать их из набора данных. В противном случае выбросы способны вызывать статистические проблемы в анализе данных.

Но каковы критерии исключения выбросов? Чтобы ответить на этот вопрос, рассмотрим три метода обнаружения выбросов.

Читать дальше

@data_analysis_ml
16👍10🔥1
Копируем голос за 5 секунд, для генерации речи в реальном времени

⚙️ GitHub/Инструкция

📹 Видео

@data_analysis_ml
👍8
📎 Крутые наборы данных для машинного обучения

Более 50 открытых наборов для ваших исследований

Хорошее исследование в машинном обучении начинается с подходящего набора данных. Нет необходимости тратить целый вечер на создание собственного набора в MySQL или, что еще хуже, в Excel. В принципе, все что угодно — от статистики COVID-19 до заклинаний Гарри Поттера — можно найти в виде базы данных.

Читать дальше

@data_analysis_ml
👍20🔥10🥰1🤔1