AI на дровах 🪵
237 subscribers
76 photos
19 videos
1 file
130 links
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных, пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале их пути изучения больших данных.

👾HSE ML Unit Head⚡️
❤️Litres DS Team
Download Telegram
Как специалист по анализу данных и машинному обучению, я часто использую библиотеку scikit-learn в своей работе. Эта библиотека стала моим незаменимым инструментом благодаря своим многочисленным особенностям и преимуществам.

Одной из главных особенностей scikit-learn является ее обширная коллекция алгоритмов машинного обучения. Библиотека предоставляет реализации для широкого спектра задач, таких как классификация, регрессия, кластеризация и снижение размерности. Это позволяет мне быстро экспериментировать с различными алгоритмами и находить наиболее подходящий для моей задачи.

Дальше читаем статью https://nerdit.ru/osnovnyie-osobiennosti-i-prieimushchiestva-bibliotieki-scikit-learn/ и велком обсуждать в комментариях)
👍1
В своей работе в области машинного обучения я сталкиваюсь с различными типами задач, каждая из которых требует своего подхода. Три основных типа задач, с которыми я чаще всего имею дело - это классификация, регрессия и кластеризация.

Что это такое и чем они отличаются читайте в новой статье:

https://nerdit.ru/tipy-zadach-mashinnogho-obuchieniia-klassifikatsiia-rieghriessiia-klastierizatsiia/

#sklearn
Все начинающие саентисты сталкиваются с первым обучением модели на тестовой выборке и дальнейшей проверке её точности на тестовой. Такой подход используются довольно часто.
Как разделять эти выборки и что это такое читайте в новом посте 🔥
Если будут вопросы, задавайте в комментариях, с удовольствием помогу разобраться 🤓
Загрузка и предобработка данных - это первый и очень важный этап в любом проекте по анализу данных или машинному обучению. От качества данных напрямую зависит конечный результат. Поэтому я всегда уделяю много внимания этому процессу.

Данные могут храниться в различных форматах - CSV, JSON, XML, базах данных и др. Чаще всего мне приходится работать с форматами CSV и JSON.

https://nerdit.ru/zaghruzka-i-priedobrabotka-dannykh/
#sclearn
Привет, всем! Сегодня я хочу поделиться с вами интересной темой из мира машинного обучения и анализа данных - это алгоритмы рекомендаций.

Вы, наверняка, сталкивались с рекомендательными системами в интернет-магазинах, потоковых сервисах музыки и видео, социальных сетях и т.д. Они помогают нам находить новые товары, фильмы, музыку и людей, которые могут нас заинтересовать.

Существует множество алгоритмов рекомендаций, но я хочу рассказать о двух наиболее популярных: коллаборативной фильтрации и контентной фильтрации.

Коллаборативная фильтрация основана на идее, что люди, которые имеют схожие предпочтения в прошлом, скорее всего, будут иметь схожие предпочтения в будущем. Алгоритм анализирует историю поведения пользователей и находит схожие профили, чтобы рекомендовать товары или контент, которые понравились другим пользователям с похожими вкусами.

Контентная фильтрация, с другой стороны, основана на анализе характеристик товаров или контента. Алгоритм анализирует описания, теги, метаданные и другую информацию о товарах или контенте, чтобы рекомендовать похожие вещи, которые могут заинтересовать пользователя.

Оба алгоритма имеют свои преимущества и недостатки, и выбор между ними зависит от конкретной задачи и данных, которые доступны для анализа.

#теория
Если у вас есть вопросы или комментарии, я буду рад ответить на них.
Немного статистикой по блогу nerdit.ru, который я запустил в начале года.

Где-то с марта месяца активно пишу статьи и стараюсь выкладывать раз в день в одно и то же время.

Такая стратегия позволила "прикормить" поисковых ботов и начать лучше ранжироваться в поиске, а так же попадать в быстрые ответы Google.

Интересно вам будет про такое читать тут, если иногда буду делиться информацией? 😊

#proблог
Привет, друзья!

Сегодня я хочу рассказать вам о новом инструменте, который обязательно пригодится всем, кто проводит много времени на YouTube, но хочет сэкономить время и получить только самую важную информацию из видео.

🚀 Краткий пересказ видео youtube

📝 Как это работает?

    - Зайдите на сайт https://nerdit.ru/youtube-summarizer/
    - Вставьте URL видео, которое вы хотите пересказать.
    - Нажмите кнопку "Пересказать".
    - В течение нескольких секунд сервис анализирует видео и генерирует краткий текстовый пересказ.

🔍 Преимущества использования:

    - Экономия времени: Получите ключевую информацию из видео за несколько минут.
    - Удобство: Не нужно скачивать или устанавливать программное обеспечение.
    - Доступность: Работает с любым видео на YouTube как на русском, так и на английском.
    - Образовательные цели: Идеально подходит для студентов и исследователей, которым нужно быстро найти нужную информацию.

❤️Доступ только для подписчиков nerdit.ru
Создал страничку, куда буду выкладывать разработанных мной AI ботов.
Пока только пересказчик youtube (есть версия в виде телеграмм бота), о котором писал выше и бот-аналитик, который позволяет получить аналитическую сводку по вашему сайту за последние 30 дней на данных Я.Метрики.

Если есть идеи для бота с использованием AI, пишите в комментариях, будет интересно реализовать 🎃

https://nerdit.ru/tools/
За эту неделю, закончил блок по оценки качества моделей:
- Метрики классификации (accuracy, precision, recall, f1-score, ROC-AUC)
- Метрики регрессии (MAE, MSE, RMSE, R^2)
- Матрица ошибок
- Кривая обучения
Всё это в рамках полного руководства по scikit-learn
Scikit-learn (также известный как sklearn) - это библиотека машинного обучения, разработанная на языке программирования Python.

И на подходе новый AI бот для изучения python, как для новичков так и для практикующих, думаю на этой неделе выложу.
👍3
Вчера был в комиссии по защите курсовых проектов у 2 курса ФКН Вышки.

Радует, как год от года растёт уровень проектов и подготовки студентов, которым на минуточку 19-20 лет.

Вспомнил себя в этом возрасте... 🫠
Хорошие новости для ОС сообщества: бесцензурный ИИ Mistral-7B-v0.3

• Модель теперь можно интегрировать в проекты, ведь там используется лицензия Apache 2.0;
• Аппнут токенайзер, а словарь увеличен до 33 тысяч слов;
• ИИ имеет собственный API.

Проверяем способности открытой нейронки тут.
А ещё у Mistral не так давно появился собственный cookbook.

Там лежат ноутбуки с интересными кейсами использования моделей Mistral от самой команды и контрибьюторов. Особенно полезно под ресерч и учебу, но для бытового использования кое-что тоже подойдет. Листинг самого интересного:

✔️ RAG from scratch с использованием Mistral AI API
✔️Извлечение эмбеддингов и их использование для классификации и кластеризации
✔️ text-to-sql с файнтюнингом и RAG
✔️RAG из статей на ArXiv (вот это точно очень полезно для жизни)
✔️Pandas на естественном языке
1
Когда-то давно, в начале своего пути в ML, я познакомился с известной площадкой для аналитиков данных и ML специалистов, где можно было попробовать свои навыки в тренировочных задачах и изучить примеры реализации других людей. Думаю все догадались, что речь сегодня пойдёт про Kaggle.

Самое интересное в ней то, что можно участвовать в соревнованиях и получать ачивки, которые часто ценятся работодателями при приёме на работу.

Для тех, кто хочет попробовать свои силы, но ещё не знаком с этой платформой, новая статья в блоге:
Как начать соревнования на Kaggle
Кто уже есть на Kaggle из подписчиков, добавляйтесь https://www.kaggle.com/semenlobachevskiy
Будем делиться достижениями, это весело 😊
Интересный факт про анализ данных.

Во время Второй мировой войны британский статистик Абрахам Уолд применил метод анализа данных, известный как "выживший анализ" (survivorship bias), чтобы улучшить бронирование самолетов. Вместо того чтобы усиливать места на самолетах, которые возвращались с боевых заданий и имели следы от пуль, он предложил усиливать те места, которые не имели повреждений. Логика была в том, что самолеты, которые не вернулись, вероятно, были сбиты, потому что были поражены в другие, более уязвимые части. Этот анализ помог значительно повысить выживаемость самолетов и является классическим примером правильного использования данных для принятия критически важных решений.

#интересный_факт_анализ_данных
🔥1👏1
Привет всем! Сегодня я хочу поделиться своим опытом работы со Streamlit и рассказать, как этот инструмент может помочь вам в анализе данных и машинном обучении.

Streamlit - это невероятно простой и мощный фреймворк на Python для создания интерактивных веб-приложений, ориентированных на данные. Он позволяет буквально за считанные минуты превращать ваши скрипты на Python в удобные веб-интерфейсы, что особенно полезно для специалистов по данным и исследователей.

Подробно расписал всё в новом посте: https://nerdit.ru/streamlit/
Приятного чтения! 🙏
#практика
🔥2
Привет! Сегодня мы поговорим о том, как компьютеры определяют, какие слова в тексте самые важные.

Представьте, что вы ищете информацию о кошках в большой библиотеке. Как вы поймете, какая книга действительно о кошках, а в какой кошки упоминаются лишь мельком? Именно для этого компьютеры используют метод под названием TF-IDF.

Что такое TF-IDF?
TF-IDF расшифровывается как "Term Frequency - Inverse Document Frequency".

Не пугайтесь этих сложных слов! Давайте разберем их по частям:

TF (Term Frequency) - Частота слова Представьте, что вы считаете, сколько раз слово "кошка" встречается в книге. Это и есть TF. Чем чаще слово встречается, тем оно важнее для этой книги.
Пример: В книге "Приключения Мурзика" слово "кошка" встречается 50 раз, а в книге "Собаки и их хозяева" - всего 2 раза. Значит, для первой книги "кошка" важнее.

IDF (Inverse Document Frequency) - Обратная частота документа.
А теперь представьте, что вы проверяете, в скольких книгах библиотеки встречается слово "кошка". Если оно есть во всех книгах, то оно не очень-то помогает найти книгу именно о кошках. А вот если слово "Мурзик" есть только в одной книге, то оно очень важное для поиска. 😸

TF-IDF объединяет эти два подхода. Он умножает частоту слова в книге (TF) на его редкость во всей библиотеке (IDF).

Подробнее про этот метод с примерами, читайте в новом посте: https://nerdit.ru/tf-idf-kak-kompiutiery-ponimaiut-vazhnost-slov-v-tiekstie/
Интересный факт про ML

Существует техника машинного обучения под названием "передача обучения" (transfer learning), которая позволяет моделям, обученным на одной задаче, применять полученные знания к совершенно новым задачам. Например, модель, обученная распознавать кошек на фотографиях, может использовать эти знания для более быстрого обучения распознаванию собак, даже если она никогда раньше не видела изображений собак.

Это похоже на то, как люди могут применять знания из одной области для быстрого освоения новых навыков в другой области.

Эта техника значительно ускоряет процесс обучения моделей и позволяет им эффективно работать даже с ограниченным количеством данных для новых задач. Передача обучения широко используется в современных системах искусственного интеллекта, включая обработку естественного языка и компьютерное зрение.

#интересный_факт_ML
👍1
🚀Data Science часто называют "сексуальной профессией 21 века".

Это выражение впервые использовал Хэл Вариан, главный экономист Google, в 2009 году. Он сказал: "Думаю, что статистики будут иметь сексуальную работу в следующие 10 лет". Это высказывание стало популярным и отражает растущую важность и привлекательность профессии специалиста по данным в современном мире.

Этот факт подчеркивает, как быстро выросла значимость Data Science за последнее десятилетие, превратившись из узкоспециализированной области в одну из самых востребованных и высокооплачиваемых профессий в технологической индустрии.

#интересный_факт_DS
🔥2
Типы алгоритмов машинного обучения

Алгоритмы машинного обучения можно разделить на три основные категории: обучение с учителем, обучение без учителя и обучение с подкреплением.

Обучение с учителем

Это наиболее распространенный тип обучения, при котором алгоритм обучается на размеченных данных. Яркий пример — классификация спама в почте. Алгоритм анализирует множество писем, помеченных как спам или не спам, и на основе этих данных учится определять, какие новые письма являются спамом.

Обучение без учителя

Этот метод используется, когда у нас нет размеченных данных. Алгоритм самостоятельно ищет скрытые закономерности в данных. Например, кластеризация клиентов на основе их покупательского поведения позволяет выделить группы с похожими интересами и предпочтениями.

Обучение с подкреплением

Этот метод напоминает обучение с учителем, но с той разницей, что алгоритм обучается на основе взаимодействия с окружающей средой и получения обратной связи в виде вознаграждений или наказаний. Примером могут служить системы управления роботами или алгоритмы, играющие в игры.

По мне так самым интересным является обучение с подкреплением.

Когда-то нашёл видео в котором AI учиться ходить преодолевая препятствия: https://www.youtube.com/watch?v=L_4BPjLBF4E

И это не только забавно, но и интересно наблюдать какие порой неожиданные способы использует алгоритм, чтобы получить положительные подкрепления)
👍2