Big data world
2.39K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Визуализируйте свою модель машинного обучения
Mycelium — это библиотека для создания графических визуализаций моделей машинного обучения или любых других направленных ациклических графов. Она также поддерживает просмотрщик графов системы визуализации и оптимизации моделей Talaria… https://apple.github.io/ml-mycelium

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/
Llama теперь может видеть и работать на вашем устройстве — встречайте Llama 3.2

https://huggingface.co/blog/llama32

StoryMaker: на пути к целостным последовательным персонажам при создании изображений из текста

https://github.com/redaigc/storymaker

Проектирование систем машинного обучения и обучения по программе LLM: 450 примеров, из которых можно извлечь уроки

База данных из 450 примеров из более чем 100 компаний… https://www.evidentlyai.com/ml-system-design

Langfun - OO для LLM
Langfun - это библиотека на основе PyGlove, которая призвана сделать работу с языковыми моделями (LM) увлекательной. Ее центральный принцип - обеспечить бесшовную интеграцию между естественным языком и программированием, рассматривая язык как функции. Благодаря внедрению объектно-ориентированных подсказок Langfun позволяет пользователям подсказывать LLM, используя объекты и типы, предлагая улучшенный контроль и упрощая разработку агентов... Langfun совместим с популярными LLM, такими как Gemini, GPT, Claude, и все это без необходимости дополнительной тонкой настройки... https://github.com/google/langfun
TensorHue — это библиотека Python, которая позволяет визуализировать тензоры прямо в консоли, что упрощает понимание и отладку содержимого тензоров.

https://github.com/epistoteles/TensorHue
7 проектов LLM, которые пополнят ваш портфель знаний по машинному обучению

https://machinelearningmastery.com/7-llm-projects-to-boost-your-machine-learning-portfolio
This media is not supported in your browser
VIEW IN TELEGRAM
Самое крутое визуальное представление преобразования Фурье.
🐳4
Распознавание лиц — понимание алгоритма Виолы Джонс
За время исследования этой темы я пришел к выводу, что многие люди на самом деле не понимают его или понимают лишь частично. Кроме того, многие руководства плохо объясняют «непрофессионально», что именно он делает, или опускают определенные шаги, которые в противном случае прояснили бы некоторую путаницу. Поэтому я собираюсь объяснить от начала до конца максимально простым способом.

https://medium.com/@aaronward6210/facial-detection-understanding-viola-jones-algorithm-116d1a9db218
«Быстрая визуализация данных» — краткий курс из 8 частей по визуализации данных с использованием R.
В этом репозитории 8 занятий:

Самые основы R-кодирования

Введение в аккуратные фреймы данных

Введение в визуализацию данных с использованием ggplot

Введение в среднее разделение

Введение в пропорциональные данные

Введение в тепловые карты

Введение в данные и сети взаимоотношений

Введение в композицию/монтаж сюжета… https://github.com/cxli233/Online_R_learning/tree/master/Quick_data_vis
PyGlove — это библиотека общего назначения для манипуляции объектами Python. Она вводит символическое объектно-ориентированное программирование в Python, позволяя напрямую манипулировать объектами, что значительно упрощает написание метапрограмм. Она использовалась для обработки сложных сценариев машинного обучения, таких как AutoML, а также для облегчения ежедневных задач программирования с дополнительной гибкостью.

https://github.com/google/pyglove
5 проектов ИИ, которые вы можете реализовать на этих выходных (с Python)
От начального до продвинутого уровня

https://towardsdatascience.com/5-ai-projects-you-can-build-this-weekend-with-python-c57724e9c461
👍1
Машинное обучение с нуля готово к работе!

Книга о нейронных сетях с открытым исходным кодом, которую вы все ждали https://thepalindrome.org/p/machine-learning-from-zero-is-ready
pg_parquet: расширение для соединения Postgres и Parquet
Сегодня мы рады представить pg_parquet — расширение Postgres с открытым исходным кодом для работы с файлами Parquet. Расширение считывает и записывает файлы parquet на локальный диск или в S3 напрямую из Postgres. С pg_parquet вы можете:

Экспорт таблиц или запросов из Postgres в файлы Parquet

Загрузка данных из файлов Parquet в Postgres

Проверьте схему и метаданные существующих файлов Parquet.

https://www.crunchydata.com/blog/pg_parquet-an-extension-to-connect-postgres-and-parquet
Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере


Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.

Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.

Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
https://habr.com/ru/companies/ruvds/articles/853050/
This media is not supported in your browser
VIEW IN TELEGRAM
Вложения недооценены
Машинное обучение (ML) имеет потенциал для продвижения современного уровня технического письма. Нет, я не говорю о моделях генерации текста, таких как Claude, Gemini, LLaMa, GPT и т. д. Технология ML, которая может в конечном итоге оказать наибольшее влияние на техническое письмо, — это встраивание .

Вложения не являются чем-то новым, но они стали гораздо более широкодоступными за последние пару лет. То, что вложения предлагают техническим писателям, — это возможность обнаруживать связи между текстами в ранее невозможных масштабах .https://technicalwriting.dev/data/embeddings.html
Python больше не король науки о данных
5 причин, по которым Python теряет свою корону

https://blog.stackademic.com/is-python-still-the-king-of-data-science-476f1e3191b3