Выбор подходящей базы данных для своего проекта - сложная задача. Существует множество видов баз данных, каждая из которых подходит для разных случаев использования.
Данная шпаргалка поможет определить, какой сервис соответствует потребностям вашего проекта, и избежать возможных "
подводных камней
".@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥5❤4
📒 GigaChat нового поколения.
Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.
Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).
Число уникальных пользователей GigaChat достигло 1 млн.
• Попробовать
@data_analysis_ml
Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.
Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).
Число уникальных пользователей GigaChat достигло 1 млн.
• Попробовать
@data_analysis_ml
👍12❤1👎1🔥1🤣1
🌳Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса
Деревья решений представляют собой семейство алгоритмов, которые естественным образом могут обрабатывать как категориальные, так и числовые функции.
Главные преимущества алгоритма: устойчивость к выбросам в данных, возможность использования данных разных типов и в разных масштабах без предварительной обработки или нормализации, и главное — ДОСТУПНОСТЬ ДЛЯ ПОНИМАНИЯ.
На самом деле используются одни и те же рассуждения, воплощенные в деревьях решений, неявно в повседневной жизни. Например, серия решений «да/нет», которые приводят к прогнозу будет ли тренировка на улице или нет.
Модель дерева решений сама “придумывает” эти развилки. Чем больше развилок, тем точнее модель будет работать на тренировочных данных, но на тестовых значениях она начнет чаще ошибаться. Необходим некоторый баланс, чтобы избежать этого явления, известного как переобучение.
## Случайные леса решений
Деревья решений обобщаются в более мощный алгоритм, называемый случайные леса. Случайные леса объединяют множество деревьев решений, чтобы снизить риск
переоснащения и обучения деревьев решений отдельно. Объединение прогнозов уменьшает дисперсию прогнозов, делает результирующую модель более обобщенной и повышает производительность на тестовых данных.
Подготовка данных
📌 Читать
@data_analysis_ml
Деревья решений представляют собой семейство алгоритмов, которые естественным образом могут обрабатывать как категориальные, так и числовые функции.
Главные преимущества алгоритма: устойчивость к выбросам в данных, возможность использования данных разных типов и в разных масштабах без предварительной обработки или нормализации, и главное — ДОСТУПНОСТЬ ДЛЯ ПОНИМАНИЯ.
На самом деле используются одни и те же рассуждения, воплощенные в деревьях решений, неявно в повседневной жизни. Например, серия решений «да/нет», которые приводят к прогнозу будет ли тренировка на улице или нет.
Модель дерева решений сама “придумывает” эти развилки. Чем больше развилок, тем точнее модель будет работать на тренировочных данных, но на тестовых значениях она начнет чаще ошибаться. Необходим некоторый баланс, чтобы избежать этого явления, известного как переобучение.
## Случайные леса решений
Деревья решений обобщаются в более мощный алгоритм, называемый случайные леса. Случайные леса объединяют множество деревьев решений, чтобы снизить риск
переоснащения и обучения деревьев решений отдельно. Объединение прогнозов уменьшает дисперсию прогнозов, делает результирующую модель более обобщенной и повышает производительность на тестовых данных.
Подготовка данных
📌 Читать
@data_analysis_ml
👍11❤3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
PlotAI 🎨🤖
PlotAI - ии инструмент для генерации графиков на Matplotlib.
— пользователь подает на вход датафрейм;
— PlotAI создаёт промт для LLM, который содержит первые пять записей и генерирует код Python;
— возвращенный код Python выполняется, и отображается график.
▪Github
@data_analysis_ml
PlotAI - ии инструмент для генерации графиков на Matplotlib.
— пользователь подает на вход датафрейм;
— PlotAI создаёт промт для LLM, который содержит первые пять записей и генерирует код Python;
— возвращенный код Python выполняется, и отображается график.
pip install plotai
▪Github
@data_analysis_ml
👍29❤4🔥4
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Исследование рыночной корзины на основе данных розничной торговли в Стамбуле
— Классификация текстов в spaCy: пошаговая инструкция
— Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?
— Приглашаем на Ozon Tech Community ML&DS Meetup
— Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?
— Первое слово из нераспечатанного Геркуланумского папируса обнаружено 21-летним студентом факультета информатики
— Построение ML модели для оценки текста языкового экзамена
— Разметка данных при помощи GPT-4
— Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин
— От A/B-тестирования к Causal Inference в оффлайн ритейле
— What was that commit? Searching GitHub with OpenAI embeddings
— Simplifying the Fundamentals of Machine Learning
— Data Cleaning with Pandas
— Using machine learning to predict the selling price of a property
— Engineering Practice for Real-time Feature Store in Decision-Making Machine Learning
— What are biases in Machine Learning?
— Hacktoberfest Machine Learning Projects for JS/TS Developers 🎃
— Build a Text Summarization app using Reflex (Pure Python)
— Diving Deep into AI with open-appsec: A Personal Journey of Discovery and Growth
— AI-Powered Cybersecurity: The Future of Protection
Посмотреть:
🌐 Building a Data-Driven Workforce - Dominic Bohan (⏱ 32:52)
🌐 Enabling AI Transformation: MLOps Infrastructure, AI Command Centre & Data Science in Telecom (⏱ 33:08)
🌐 Пишем телеграм бота для скачивания #yotube видео (⏱ 20:41)
Хорошего дня!
@data_analysis_ml
Почитать:
— Исследование рыночной корзины на основе данных розничной торговли в Стамбуле
— Классификация текстов в spaCy: пошаговая инструкция
— Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?
— Приглашаем на Ozon Tech Community ML&DS Meetup
— Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?
— Первое слово из нераспечатанного Геркуланумского папируса обнаружено 21-летним студентом факультета информатики
— Построение ML модели для оценки текста языкового экзамена
— Разметка данных при помощи GPT-4
— Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин
— От A/B-тестирования к Causal Inference в оффлайн ритейле
— What was that commit? Searching GitHub with OpenAI embeddings
— Simplifying the Fundamentals of Machine Learning
— Data Cleaning with Pandas
— Using machine learning to predict the selling price of a property
— Engineering Practice for Real-time Feature Store in Decision-Making Machine Learning
— What are biases in Machine Learning?
— Hacktoberfest Machine Learning Projects for JS/TS Developers 🎃
— Build a Text Summarization app using Reflex (Pure Python)
— Diving Deep into AI with open-appsec: A Personal Journey of Discovery and Growth
— AI-Powered Cybersecurity: The Future of Protection
Посмотреть:
🌐 Building a Data-Driven Workforce - Dominic Bohan (⏱ 32:52)
🌐 Enabling AI Transformation: MLOps Infrastructure, AI Command Centre & Data Science in Telecom (⏱ 33:08)
🌐 Пишем телеграм бота для скачивания #yotube видео (⏱ 20:41)
Хорошего дня!
@data_analysis_ml
👍10🔥3❤1🥰1
В этом ролике разобраны 3 метода прогнозирования: VAR, XGBoost, FB Prophet.
▪ Видео
▪ Код из видео
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet
Прогнозирование биткоина — это одна из самых популярных тем.
В этом ролике разобраны 3 метода прогнозирования: VAR, XGBoost, FB Prophet.
🔥 Telegram канал с к кучей фишек и кодом из видео:
https://t.iss.one/data_analysis_ml
📌 Машинное обучение - https://t.…
В этом ролике разобраны 3 метода прогнозирования: VAR, XGBoost, FB Prophet.
🔥 Telegram канал с к кучей фишек и кодом из видео:
https://t.iss.one/data_analysis_ml
📌 Машинное обучение - https://t.…
👍13🔥3🤣3❤2👎1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
📑 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠()
Сохранение параметров, метрик во время обучения позволяет воспроизводить эксперименты и выбирать наиболее эффективную модель. Однако написание множества записей в логах может быть обременительным.
Для автоматического логирования добавьте 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠() перед вашим кодом обучения модели.
▪ Github
@data_analysis_ml
Сохранение параметров, метрик во время обучения позволяет воспроизводить эксперименты и выбирать наиболее эффективную модель. Однако написание множества записей в логах может быть обременительным.
Для автоматического логирования добавьте 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠() перед вашим кодом обучения модели.
▪ Github
@data_analysis_ml
👍17🔥6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
#python, #numpy #matplotlib
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥10❤2
🎓 Open Source AI Projects and Tools to Try in 2023
Существует множество инструментов искусственного интеллекта, и многие из них имеют открытый исходный код и бесплатны для использования.
Чтобы помочь вам узнать о некоторых полезных из них, представляем вам это подробное руководство для дата саентистов.
Он рассказывает о таких инструментах, как
https://www.freecodecamp.org/news/open-source-ai/
@data_analysis_ml
Существует множество инструментов искусственного интеллекта, и многие из них имеют открытый исходный код и бесплатны для использования.
Чтобы помочь вам узнать о некоторых полезных из них, представляем вам это подробное руководство для дата саентистов.
Он рассказывает о таких инструментах, как
Tensorflow, Hugging Face Transformers, Fauxpilot
и других.https://www.freecodecamp.org/news/open-source-ai/
@data_analysis_ml
❤9👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
При просмотре кода на #GitHub навигация по файлам может быть неудобной. Попробуйте редактор GitHub.deb с интерфейсом, похожим на VSCode, для удобного просмотра и работы с проектами.
Этот редактор также отлично подходит для быстрых коммитов.
@data_analysis_ml
Этот редактор также отлично подходит для быстрых коммитов.
@data_analysis_ml
👍15🔥4❤1
Бесплатная книга с кодом, которая поможет вам идти в ногу со всем происходящим в мире AI:
State of Open Source AI Book - 2023 Edition
В книге рассматриваются следующие темы:
- ИИ Модели
- Файнтюниг
- Оценка моделей
- Векторные базы данных
- Инструментальные средства разработки
- Механизмы MLOps
и многое другое
И все это бесплатно.
📚 GitHub
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍5🔥3👎1
Часто записи в одной таблице могут не соттветсвовать запясям в другой таблице. Например, в одной таблице может быть "
Yemen
", а в другой - "Yemen, Rep"
.Функция 𝐟𝐮𝐳𝐳𝐲_𝐣𝐨𝐢𝐧() в skrub позволяет объединить эти таблицы с учетом различных вариаций полей.
pip install git+https://github.com/skrub-data/skrub.git
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥3❤1🥰1
☄️ Ray - это унифицированный фреймворк для масштабирования приложений ИИ и Python.
Ray состоит из ядра распределенной среды выполнения и набора библиотек ИИ.
На картинке пример кода, для динамического запуска очереди из 𝗡 заданий на 𝗞 GPU.
▪Github
▪Ray
@data_analysis_ml
Ray состоит из ядра распределенной среды выполнения и набора библиотек ИИ.
На картинке пример кода, для динамического запуска очереди из 𝗡 заданий на 𝗞 GPU.
▪Github
▪Ray
@data_analysis_ml
👍12❤3🔥1
🥇 The Most Comprehensive List of Kaggle Solutions and Ideas.
Этот репозиторий - настоящее золото для всех начинающих и практикующих специалистов в области Data Science, Machine Learning!
Просто зайдите и получите доступ практически ко всем лучшим решениям и идеям, которыми поделились топовые участники соревнований Kaggle.
▪Github
▪Сайт
@data_analysis_ml
Этот репозиторий - настоящее золото для всех начинающих и практикующих специалистов в области Data Science, Machine Learning!
Просто зайдите и получите доступ практически ко всем лучшим решениям и идеям, которыми поделились топовые участники соревнований Kaggle.
▪Github
▪Сайт
@data_analysis_ml
👍26🔥5❤4
🔥 Лучшие инструменты ИИ в Data Science:
❯ Генерация кратких обзоров YouTube видео
https://eightify.app/sk2
❯ ИИ для аналитики данных
https://rapidminer.com
❯ Визуализация данных
https://tableau.com
❯ Бизнес-аналитика
https://powerbi.microsoft.com
❯ Аналитика, развертывание, масштабирование
https://knime.com
❯ Бизнес-аналитика (BI)
https://akkio.com
https://polymersearch.com
❯ Текстовая аналитика без кода
https://monkeylearn.com
❯ Copilot
https://codium.ai
@data_analysis_ml
❯ Генерация кратких обзоров YouTube видео
https://eightify.app/sk2
❯ ИИ для аналитики данных
https://rapidminer.com
❯ Визуализация данных
https://tableau.com
❯ Бизнес-аналитика
https://powerbi.microsoft.com
❯ Аналитика, развертывание, масштабирование
https://knime.com
❯ Бизнес-аналитика (BI)
https://akkio.com
https://polymersearch.com
❯ Текстовая аналитика без кода
https://monkeylearn.com
❯ Copilot
https://codium.ai
@data_analysis_ml
👍9❤5🔥2
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Как получить полезную информацию из своих категориальных признаков?
— 5 лучших функций создания массивов в Numpy для начинающих
— Введение в data science: инструменты и методы анализа
— Airflow в Kubernetes. Часть 1
— WTH is Retrieval Augmented Generation (RAG)?
— The Complete Guide to Time Series Models.
— Uncovering Inventory Insights:Mintclassics (Coursera)
— Data Analyst Roadmap: How to Go From Zero to Hero
— Is Coding a Necessity for Data Analysts?
— A Beginner's Guide to Data Visualization: Making Numbers Tell a Story
— Choosing a Stream Processing System? This Article Has You Covered!
— Logistic Regression made simple and what to look out for 🤔
— Revolutionize Your E-Commerce Strategy with AI-Powered Amazon Price Scraping
— How to Scrape Amazon PPC AD Data using Python
Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) (⏱ 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet (⏱ 20:29)
🌐 Django настройка админки (⏱ 06:55)
🌐 Задача на палиндром строки на C++ (⏱ 00:59)
🌐 Django расширяем функционал! (⏱ 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! (⏱ 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! (⏱ 05:10)
Хорошего дня!
Почитать:
— Как получить полезную информацию из своих категориальных признаков?
— 5 лучших функций создания массивов в Numpy для начинающих
— Введение в data science: инструменты и методы анализа
— Airflow в Kubernetes. Часть 1
— WTH is Retrieval Augmented Generation (RAG)?
— The Complete Guide to Time Series Models.
— Uncovering Inventory Insights:Mintclassics (Coursera)
— Data Analyst Roadmap: How to Go From Zero to Hero
— Is Coding a Necessity for Data Analysts?
— A Beginner's Guide to Data Visualization: Making Numbers Tell a Story
— Choosing a Stream Processing System? This Article Has You Covered!
— Logistic Regression made simple and what to look out for 🤔
— Revolutionize Your E-Commerce Strategy with AI-Powered Amazon Price Scraping
— How to Scrape Amazon PPC AD Data using Python
Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) (⏱ 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet (⏱ 20:29)
🌐 Django настройка админки (⏱ 06:55)
🌐 Задача на палиндром строки на C++ (⏱ 00:59)
🌐 Django расширяем функционал! (⏱ 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! (⏱ 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! (⏱ 05:10)
Хорошего дня!
👍13❤9🔥6
По умолчанию трансформаторы #sklearn возвращают массив #NumPy.
Начиная с версии scikit-learn 1.3.2, можно использовать метод 𝐬𝐞𝐭_𝐨𝐮𝐭𝐩𝐮𝐭 для получения результатов в виде #pandas DataFrame.
Этот метод также может быть применен в рамках конвейера scikit-learn.
@data_analysis_ml
Начиная с версии scikit-learn 1.3.2, можно использовать метод 𝐬𝐞𝐭_𝐨𝐮𝐭𝐩𝐮𝐭 для получения результатов в виде #pandas DataFrame.
Этот метод также может быть применен в рамках конвейера scikit-learn.
@data_analysis_ml
❤33👍8🔥7
📌 Видео
📌 Код
📌 Урок
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Обучаем нейросеть распознавать объекты на фото. TensorFlow+ Streamlit
В этом видео мы обучим нейросеть на Python угадывать, что изображено на картинке при помощи TensorFlow и заворачиваем в приятный веб-интерфейс на Streamlit.
🔥 Telegram канал о нейросетях с к кучей фишек и кодом из видео:
https://t.iss.one/ai_machinelearning_big_data…
🔥 Telegram канал о нейросетях с к кучей фишек и кодом из видео:
https://t.iss.one/ai_machinelearning_big_data…
👍7❤2👎1🔥1
Ⓜ️Чтобы прокачать свой код с помощью LLM, попробуйте использовать magentic.
С помощью magentic вы можете использовать декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 для создания функций, которые возвращают упорядоченные результаты LLM, сохраняя код аккуратным и читабельным. Библиотека позволяет ссмешивайть запросы LLM и обычный код Python для создания сложной логики.
Декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 позволяет определить шаблон промпта Large Language Model (LLM) в виде функции Python. При вызове этой функции аргументы подставляются в шаблон, затем этот промпт отправляется в LLM и генерирует вывод функции.
🐱 GitHub
@data_analysis_ml
С помощью magentic вы можете использовать декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 для создания функций, которые возвращают упорядоченные результаты LLM, сохраняя код аккуратным и читабельным. Библиотека позволяет ссмешивайть запросы LLM и обычный код Python для создания сложной логики.
Декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 позволяет определить шаблон промпта Large Language Model (LLM) в виде функции Python. При вызове этой функции аргументы подставляются в шаблон, затем этот промпт отправляется в LLM и генерирует вывод функции.
pip install magentic
from magentic import prompt
@prompt('Add more "dude"ness to: {phrase}')
def dudeify(phrase: str) -> str:
... # No function body as this is never executed
dudeify("Hello, how are you?")
# "Hey, dude! What's up? How's it going, my man?"
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4🔥1🤔1
Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные “видеть”, могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео.
Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.
В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.
Как же создать такую модель?
Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥1