Big data world
2.37K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Самое крутое визуальное представление преобразования Фурье.
🐳4
Распознавание лиц — понимание алгоритма Виолы Джонс
За время исследования этой темы я пришел к выводу, что многие люди на самом деле не понимают его или понимают лишь частично. Кроме того, многие руководства плохо объясняют «непрофессионально», что именно он делает, или опускают определенные шаги, которые в противном случае прояснили бы некоторую путаницу. Поэтому я собираюсь объяснить от начала до конца максимально простым способом.

https://medium.com/@aaronward6210/facial-detection-understanding-viola-jones-algorithm-116d1a9db218
«Быстрая визуализация данных» — краткий курс из 8 частей по визуализации данных с использованием R.
В этом репозитории 8 занятий:

Самые основы R-кодирования

Введение в аккуратные фреймы данных

Введение в визуализацию данных с использованием ggplot

Введение в среднее разделение

Введение в пропорциональные данные

Введение в тепловые карты

Введение в данные и сети взаимоотношений

Введение в композицию/монтаж сюжета… https://github.com/cxli233/Online_R_learning/tree/master/Quick_data_vis
PyGlove — это библиотека общего назначения для манипуляции объектами Python. Она вводит символическое объектно-ориентированное программирование в Python, позволяя напрямую манипулировать объектами, что значительно упрощает написание метапрограмм. Она использовалась для обработки сложных сценариев машинного обучения, таких как AutoML, а также для облегчения ежедневных задач программирования с дополнительной гибкостью.

https://github.com/google/pyglove
5 проектов ИИ, которые вы можете реализовать на этих выходных (с Python)
От начального до продвинутого уровня

https://towardsdatascience.com/5-ai-projects-you-can-build-this-weekend-with-python-c57724e9c461
👍1
Машинное обучение с нуля готово к работе!

Книга о нейронных сетях с открытым исходным кодом, которую вы все ждали https://thepalindrome.org/p/machine-learning-from-zero-is-ready
pg_parquet: расширение для соединения Postgres и Parquet
Сегодня мы рады представить pg_parquet — расширение Postgres с открытым исходным кодом для работы с файлами Parquet. Расширение считывает и записывает файлы parquet на локальный диск или в S3 напрямую из Postgres. С pg_parquet вы можете:

Экспорт таблиц или запросов из Postgres в файлы Parquet

Загрузка данных из файлов Parquet в Postgres

Проверьте схему и метаданные существующих файлов Parquet.

https://www.crunchydata.com/blog/pg_parquet-an-extension-to-connect-postgres-and-parquet
Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере


Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.

Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.

Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
https://habr.com/ru/companies/ruvds/articles/853050/
This media is not supported in your browser
VIEW IN TELEGRAM
Вложения недооценены
Машинное обучение (ML) имеет потенциал для продвижения современного уровня технического письма. Нет, я не говорю о моделях генерации текста, таких как Claude, Gemini, LLaMa, GPT и т. д. Технология ML, которая может в конечном итоге оказать наибольшее влияние на техническое письмо, — это встраивание .

Вложения не являются чем-то новым, но они стали гораздо более широкодоступными за последние пару лет. То, что вложения предлагают техническим писателям, — это возможность обнаруживать связи между текстами в ранее невозможных масштабах .https://technicalwriting.dev/data/embeddings.html
Python больше не король науки о данных
5 причин, по которым Python теряет свою корону

https://blog.stackademic.com/is-python-still-the-king-of-data-science-476f1e3191b3
Как Instacart использует машинное обучение, чтобы предлагать замены для отсутствующих на складе товаров

https://tech.instacart.com/how-instacart-uses-machine-learning-to-suggest-replacements-for-out-of-stock-products-8f80d03bb5af
Шпаргалка по структурам данных

В этой статье мы дадим введение в структуры данных, предложив примеры каждой структуры и проиллюстрировав, как они могут быть представлены в Memgraph. https://memgraph.com/blog/data-structures-cheat-sheet
Необходимые условия управления данными
Существует множество методов управления данными, которые могут помочь вам лучше организовать ваш проект, однако способность команды «сделать все» на самом деле ограничена такими факторами, как финансирование, сроки, размер команды и опыт. Поэтому для команд важно рассмотреть, какие методы осуществимы, а также какие из них дадут им наибольшую отдачу от инвестиций... Я думаю, что есть список основных методов, которые следует внедрить на ранней стадии, до начала сбора данных, чтобы ваш проект был успешным. В этой записи блога будут рассмотрены эти методы..

https://cghlewis.com/blog/project_beginning