AI на дровах 🪵
238 subscribers
77 photos
19 videos
1 file
131 links
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных, пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале их пути изучения больших данных.

👾HSE ML Unit Head⚡️
❤️Litres DS Team
Download Telegram
Всем привет! Вчера вышла новая статья про распознавание печатей на документах с помощью библиотеки CV2.

Распознавание и классификация печатей на изображениях имеет широкий спектр применений, от автоматизации процессов до обеспечения безопасности. В данной статье мы рассмотрим методы обнаружения круглых и треугольных печатей с использованием алгоритмов обработки изображений и компьютерного зрения.
https://nerdit.ru/priedielieniie-krughlykh-i-trieugholnykh-piechatiei/
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных и пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале пути изучения больших данных и машинного обучения.

Если вам интересны эти направления, буду рад вашей подписке на канал, откликам и комментариям 😊
Будем знакомы 🖖
👍5
Я работаю в области машинного обучения уже несколько лет и за это время успел попробовать множество различных инструментов и библиотек. Однако, одной из самых полезных и часто используемых мной библиотек остается Pandas.
Расписал какие методы использую в статье: https://nerdit.ru/ispolzovaniie-pandas-v-mashinnom-obuchienii/ и это статья стала последней в полном гайде по пандас
#pandas
👍2
Всем привет!

Накидайте тем в комментариях для видео обзора, хочу попробовать записать, посмотреть как такой формат зайдет 😊🙏

Можно про питон, про инструменты, про ML и т.п.
Всем привет!
Начинаю цикл статей на тему машинного обучения с использованием библиотеки scikit-learn, она будет понятна и новичками, поэтому выбор пал на неё.
Собрал сводную страницу https://nerdit.ru/scikit-learn/ с содержанием статей, которые будут выходить раз в день-два.

Первая статья уже вышла)
https://nerdit.ru/chto-takoie-scikit-learn-i-dlia-chiegho-on-ispolzuietsia/
Накидайте огоньков, кому интересна эта тема 🙏
👍1
Как специалист по анализу данных и машинному обучению, я часто использую библиотеку scikit-learn в своей работе. Эта библиотека стала моим незаменимым инструментом благодаря своим многочисленным особенностям и преимуществам.

Одной из главных особенностей scikit-learn является ее обширная коллекция алгоритмов машинного обучения. Библиотека предоставляет реализации для широкого спектра задач, таких как классификация, регрессия, кластеризация и снижение размерности. Это позволяет мне быстро экспериментировать с различными алгоритмами и находить наиболее подходящий для моей задачи.

Дальше читаем статью https://nerdit.ru/osnovnyie-osobiennosti-i-prieimushchiestva-bibliotieki-scikit-learn/ и велком обсуждать в комментариях)
👍1
В своей работе в области машинного обучения я сталкиваюсь с различными типами задач, каждая из которых требует своего подхода. Три основных типа задач, с которыми я чаще всего имею дело - это классификация, регрессия и кластеризация.

Что это такое и чем они отличаются читайте в новой статье:

https://nerdit.ru/tipy-zadach-mashinnogho-obuchieniia-klassifikatsiia-rieghriessiia-klastierizatsiia/

#sklearn
Все начинающие саентисты сталкиваются с первым обучением модели на тестовой выборке и дальнейшей проверке её точности на тестовой. Такой подход используются довольно часто.
Как разделять эти выборки и что это такое читайте в новом посте 🔥
Если будут вопросы, задавайте в комментариях, с удовольствием помогу разобраться 🤓
Загрузка и предобработка данных - это первый и очень важный этап в любом проекте по анализу данных или машинному обучению. От качества данных напрямую зависит конечный результат. Поэтому я всегда уделяю много внимания этому процессу.

Данные могут храниться в различных форматах - CSV, JSON, XML, базах данных и др. Чаще всего мне приходится работать с форматами CSV и JSON.

https://nerdit.ru/zaghruzka-i-priedobrabotka-dannykh/
#sclearn
Привет, всем! Сегодня я хочу поделиться с вами интересной темой из мира машинного обучения и анализа данных - это алгоритмы рекомендаций.

Вы, наверняка, сталкивались с рекомендательными системами в интернет-магазинах, потоковых сервисах музыки и видео, социальных сетях и т.д. Они помогают нам находить новые товары, фильмы, музыку и людей, которые могут нас заинтересовать.

Существует множество алгоритмов рекомендаций, но я хочу рассказать о двух наиболее популярных: коллаборативной фильтрации и контентной фильтрации.

Коллаборативная фильтрация основана на идее, что люди, которые имеют схожие предпочтения в прошлом, скорее всего, будут иметь схожие предпочтения в будущем. Алгоритм анализирует историю поведения пользователей и находит схожие профили, чтобы рекомендовать товары или контент, которые понравились другим пользователям с похожими вкусами.

Контентная фильтрация, с другой стороны, основана на анализе характеристик товаров или контента. Алгоритм анализирует описания, теги, метаданные и другую информацию о товарах или контенте, чтобы рекомендовать похожие вещи, которые могут заинтересовать пользователя.

Оба алгоритма имеют свои преимущества и недостатки, и выбор между ними зависит от конкретной задачи и данных, которые доступны для анализа.

#теория
Если у вас есть вопросы или комментарии, я буду рад ответить на них.
Немного статистикой по блогу nerdit.ru, который я запустил в начале года.

Где-то с марта месяца активно пишу статьи и стараюсь выкладывать раз в день в одно и то же время.

Такая стратегия позволила "прикормить" поисковых ботов и начать лучше ранжироваться в поиске, а так же попадать в быстрые ответы Google.

Интересно вам будет про такое читать тут, если иногда буду делиться информацией? 😊

#proблог
Привет, друзья!

Сегодня я хочу рассказать вам о новом инструменте, который обязательно пригодится всем, кто проводит много времени на YouTube, но хочет сэкономить время и получить только самую важную информацию из видео.

🚀 Краткий пересказ видео youtube

📝 Как это работает?

    - Зайдите на сайт https://nerdit.ru/youtube-summarizer/
    - Вставьте URL видео, которое вы хотите пересказать.
    - Нажмите кнопку "Пересказать".
    - В течение нескольких секунд сервис анализирует видео и генерирует краткий текстовый пересказ.

🔍 Преимущества использования:

    - Экономия времени: Получите ключевую информацию из видео за несколько минут.
    - Удобство: Не нужно скачивать или устанавливать программное обеспечение.
    - Доступность: Работает с любым видео на YouTube как на русском, так и на английском.
    - Образовательные цели: Идеально подходит для студентов и исследователей, которым нужно быстро найти нужную информацию.

❤️Доступ только для подписчиков nerdit.ru
Создал страничку, куда буду выкладывать разработанных мной AI ботов.
Пока только пересказчик youtube (есть версия в виде телеграмм бота), о котором писал выше и бот-аналитик, который позволяет получить аналитическую сводку по вашему сайту за последние 30 дней на данных Я.Метрики.

Если есть идеи для бота с использованием AI, пишите в комментариях, будет интересно реализовать 🎃

https://nerdit.ru/tools/
За эту неделю, закончил блок по оценки качества моделей:
- Метрики классификации (accuracy, precision, recall, f1-score, ROC-AUC)
- Метрики регрессии (MAE, MSE, RMSE, R^2)
- Матрица ошибок
- Кривая обучения
Всё это в рамках полного руководства по scikit-learn
Scikit-learn (также известный как sklearn) - это библиотека машинного обучения, разработанная на языке программирования Python.

И на подходе новый AI бот для изучения python, как для новичков так и для практикующих, думаю на этой неделе выложу.
👍3
Вчера был в комиссии по защите курсовых проектов у 2 курса ФКН Вышки.

Радует, как год от года растёт уровень проектов и подготовки студентов, которым на минуточку 19-20 лет.

Вспомнил себя в этом возрасте... 🫠
Хорошие новости для ОС сообщества: бесцензурный ИИ Mistral-7B-v0.3

• Модель теперь можно интегрировать в проекты, ведь там используется лицензия Apache 2.0;
• Аппнут токенайзер, а словарь увеличен до 33 тысяч слов;
• ИИ имеет собственный API.

Проверяем способности открытой нейронки тут.
А ещё у Mistral не так давно появился собственный cookbook.

Там лежат ноутбуки с интересными кейсами использования моделей Mistral от самой команды и контрибьюторов. Особенно полезно под ресерч и учебу, но для бытового использования кое-что тоже подойдет. Листинг самого интересного:

✔️ RAG from scratch с использованием Mistral AI API
✔️Извлечение эмбеддингов и их использование для классификации и кластеризации
✔️ text-to-sql с файнтюнингом и RAG
✔️RAG из статей на ArXiv (вот это точно очень полезно для жизни)
✔️Pandas на естественном языке
1