Создал страничку, куда буду выкладывать разработанных мной AI ботов.
Пока только пересказчик youtube (есть версия в виде телеграмм бота), о котором писал выше и бот-аналитик, который позволяет получить аналитическую сводку по вашему сайту за последние 30 дней на данных Я.Метрики.
Если есть идеи для бота с использованием AI, пишите в комментариях, будет интересно реализовать 🎃
https://nerdit.ru/tools/
Пока только пересказчик youtube (есть версия в виде телеграмм бота), о котором писал выше и бот-аналитик, который позволяет получить аналитическую сводку по вашему сайту за последние 30 дней на данных Я.Метрики.
Если есть идеи для бота с использованием AI, пишите в комментариях, будет интересно реализовать 🎃
https://nerdit.ru/tools/
Nerd IT
Полезные AI боты
На этой странице собраны созданные мной полезные AI боты для разных задач.
За эту неделю, закончил блок по оценки качества моделей:
- Метрики классификации (accuracy, precision, recall, f1-score, ROC-AUC)
- Метрики регрессии (MAE, MSE, RMSE, R^2)
- Матрица ошибок
- Кривая обучения
Всё это в рамках полного руководства по scikit-learn
Scikit-learn (также известный как sklearn) - это библиотека машинного обучения, разработанная на языке программирования Python.
И на подходе новый AI бот для изучения python, как для новичков так и для практикующих, думаю на этой неделе выложу.
- Метрики классификации (accuracy, precision, recall, f1-score, ROC-AUC)
- Метрики регрессии (MAE, MSE, RMSE, R^2)
- Матрица ошибок
- Кривая обучения
Всё это в рамках полного руководства по scikit-learn
Scikit-learn (также известный как sklearn) - это библиотека машинного обучения, разработанная на языке программирования Python.
И на подходе новый AI бот для изучения python, как для новичков так и для практикующих, думаю на этой неделе выложу.
👍3
Я тут много пишу про телеграм ботов, но ещё ни разу не выходила статья о том, как создать простого бота)
Поэтому вот статья о том, как создать простого бота https://nerdit.ru/sozdaniie-prostogho-tielieghram-bota-s-ispolzovaniiem-bibliotieki-python-telegram-bot/
#практика
Поэтому вот статья о том, как создать простого бота https://nerdit.ru/sozdaniie-prostogho-tielieghram-bota-s-ispolzovaniiem-bibliotieki-python-telegram-bot/
#практика
Nerd IT
Создание простого телеграм-бота с использованием библиотеки python-telegram-bot
Привет! Сегодня я расскажу вам, как создать простого телеграм-бота с использованием библиотеки python-telegram-bot. Эта библиотека значительно упрощает процесс разработки и позволяет быстро настроить и запустить вашего собственного бота.
👍2
Вчера был в комиссии по защите курсовых проектов у 2 курса ФКН Вышки.
Радует, как год от года растёт уровень проектов и подготовки студентов, которым на минуточку 19-20 лет.
Вспомнил себя в этом возрасте... 🫠
Радует, как год от года растёт уровень проектов и подготовки студентов, которым на минуточку 19-20 лет.
Вспомнил себя в этом возрасте... 🫠
Хорошие новости для ОС сообщества: бесцензурный ИИ Mistral-7B-v0.3
• Модель теперь можно интегрировать в проекты, ведь там используется лицензия Apache 2.0;
• Аппнут токенайзер, а словарь увеличен до 33 тысяч слов;
• ИИ имеет собственный API.
Проверяем способности открытой нейронки тут.
• Модель теперь можно интегрировать в проекты, ведь там используется лицензия Apache 2.0;
• Аппнут токенайзер, а словарь увеличен до 33 тысяч слов;
• ИИ имеет собственный API.
Проверяем способности открытой нейронки тут.
huggingface.co
mistralai/Mistral-7B-Instruct-v0.3 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
А ещё у Mistral не так давно появился собственный cookbook.
Там лежат ноутбуки с интересными кейсами использования моделей Mistral от самой команды и контрибьюторов. Особенно полезно под ресерч и учебу, но для бытового использования кое-что тоже подойдет. Листинг самого интересного:
✔️ RAG from scratch с использованием Mistral AI API
✔️Извлечение эмбеддингов и их использование для классификации и кластеризации
✔️ text-to-sql с файнтюнингом и RAG
✔️RAG из статей на ArXiv (вот это точно очень полезно для жизни)
✔️Pandas на естественном языке
Там лежат ноутбуки с интересными кейсами использования моделей Mistral от самой команды и контрибьюторов. Особенно полезно под ресерч и учебу, но для бытового использования кое-что тоже подойдет. Листинг самого интересного:
✔️ RAG from scratch с использованием Mistral AI API
✔️Извлечение эмбеддингов и их использование для классификации и кластеризации
✔️ text-to-sql с файнтюнингом и RAG
✔️RAG из статей на ArXiv (вот это точно очень полезно для жизни)
✔️Pandas на естественном языке
❤1
Когда-то давно, в начале своего пути в ML, я познакомился с известной площадкой для аналитиков данных и ML специалистов, где можно было попробовать свои навыки в тренировочных задачах и изучить примеры реализации других людей. Думаю все догадались, что речь сегодня пойдёт про Kaggle.
Самое интересное в ней то, что можно участвовать в соревнованиях и получать ачивки, которые часто ценятся работодателями при приёме на работу.
Для тех, кто хочет попробовать свои силы, но ещё не знаком с этой платформой, новая статья в блоге:
Как начать соревнования на Kaggle
Самое интересное в ней то, что можно участвовать в соревнованиях и получать ачивки, которые часто ценятся работодателями при приёме на работу.
Для тех, кто хочет попробовать свои силы, но ещё не знаком с этой платформой, новая статья в блоге:
Как начать соревнования на Kaggle
Nerd IT
Как начать соревнования на Kaggle: Пошаговое руководство с примерами
Kaggle — отличная площадка для того, что отточить навыки или применить теорию на практике.
Кто уже есть на Kaggle из подписчиков, добавляйтесь https://www.kaggle.com/semenlobachevskiy
Будем делиться достижениями, это весело 😊
Будем делиться достижениями, это весело 😊
Kaggle
Semen Lobachevskiy | Contributor
Continue to develop and try myself in new related areas, master advanced technologies and increase my own efficiency.
Inspired by non-standard tasks and the process of solving them.
Inspired by non-standard tasks and the process of solving them.
Интересный факт про анализ данных.
Во время Второй мировой войны британский статистик Абрахам Уолд применил метод анализа данных, известный как "выживший анализ" (survivorship bias), чтобы улучшить бронирование самолетов. Вместо того чтобы усиливать места на самолетах, которые возвращались с боевых заданий и имели следы от пуль, он предложил усиливать те места, которые не имели повреждений. Логика была в том, что самолеты, которые не вернулись, вероятно, были сбиты, потому что были поражены в другие, более уязвимые части. Этот анализ помог значительно повысить выживаемость самолетов и является классическим примером правильного использования данных для принятия критически важных решений.
#интересный_факт_анализ_данных
Во время Второй мировой войны британский статистик Абрахам Уолд применил метод анализа данных, известный как "выживший анализ" (survivorship bias), чтобы улучшить бронирование самолетов. Вместо того чтобы усиливать места на самолетах, которые возвращались с боевых заданий и имели следы от пуль, он предложил усиливать те места, которые не имели повреждений. Логика была в том, что самолеты, которые не вернулись, вероятно, были сбиты, потому что были поражены в другие, более уязвимые части. Этот анализ помог значительно повысить выживаемость самолетов и является классическим примером правильного использования данных для принятия критически важных решений.
#интересный_факт_анализ_данных
🔥1👏1
Привет всем! Сегодня я хочу поделиться своим опытом работы со Streamlit и рассказать, как этот инструмент может помочь вам в анализе данных и машинном обучении.
Streamlit - это невероятно простой и мощный фреймворк на Python для создания интерактивных веб-приложений, ориентированных на данные. Он позволяет буквально за считанные минуты превращать ваши скрипты на Python в удобные веб-интерфейсы, что особенно полезно для специалистов по данным и исследователей.
Подробно расписал всё в новом посте: https://nerdit.ru/streamlit/
Приятного чтения! 🙏
#практика
Streamlit - это невероятно простой и мощный фреймворк на Python для создания интерактивных веб-приложений, ориентированных на данные. Он позволяет буквально за считанные минуты превращать ваши скрипты на Python в удобные веб-интерфейсы, что особенно полезно для специалистов по данным и исследователей.
Подробно расписал всё в новом посте: https://nerdit.ru/streamlit/
Приятного чтения! 🙏
#практика
Nerd IT
Streamlit - инструмент для быстрого прототипирования
Streamlit - это мощный инструмент, который позволяет легко создавать интерактивные приложения для анализа данных и машинного обучения.
🔥2
Привет! Сегодня мы поговорим о том, как компьютеры определяют, какие слова в тексте самые важные.
Представьте, что вы ищете информацию о кошках в большой библиотеке. Как вы поймете, какая книга действительно о кошках, а в какой кошки упоминаются лишь мельком? Именно для этого компьютеры используют метод под названием TF-IDF.
Что такое TF-IDF?
TF-IDF расшифровывается как "Term Frequency - Inverse Document Frequency".
Не пугайтесь этих сложных слов! Давайте разберем их по частям:
TF (Term Frequency) - Частота слова Представьте, что вы считаете, сколько раз слово "кошка" встречается в книге. Это и есть TF. Чем чаще слово встречается, тем оно важнее для этой книги.
Пример: В книге "Приключения Мурзика" слово "кошка" встречается 50 раз, а в книге "Собаки и их хозяева" - всего 2 раза. Значит, для первой книги "кошка" важнее.
IDF (Inverse Document Frequency) - Обратная частота документа.
А теперь представьте, что вы проверяете, в скольких книгах библиотеки встречается слово "кошка". Если оно есть во всех книгах, то оно не очень-то помогает найти книгу именно о кошках. А вот если слово "Мурзик" есть только в одной книге, то оно очень важное для поиска. 😸
TF-IDF объединяет эти два подхода. Он умножает частоту слова в книге (TF) на его редкость во всей библиотеке (IDF).
Подробнее про этот метод с примерами, читайте в новом посте: https://nerdit.ru/tf-idf-kak-kompiutiery-ponimaiut-vazhnost-slov-v-tiekstie/
Представьте, что вы ищете информацию о кошках в большой библиотеке. Как вы поймете, какая книга действительно о кошках, а в какой кошки упоминаются лишь мельком? Именно для этого компьютеры используют метод под названием TF-IDF.
Что такое TF-IDF?
TF-IDF расшифровывается как "Term Frequency - Inverse Document Frequency".
Не пугайтесь этих сложных слов! Давайте разберем их по частям:
TF (Term Frequency) - Частота слова Представьте, что вы считаете, сколько раз слово "кошка" встречается в книге. Это и есть TF. Чем чаще слово встречается, тем оно важнее для этой книги.
Пример: В книге "Приключения Мурзика" слово "кошка" встречается 50 раз, а в книге "Собаки и их хозяева" - всего 2 раза. Значит, для первой книги "кошка" важнее.
IDF (Inverse Document Frequency) - Обратная частота документа.
А теперь представьте, что вы проверяете, в скольких книгах библиотеки встречается слово "кошка". Если оно есть во всех книгах, то оно не очень-то помогает найти книгу именно о кошках. А вот если слово "Мурзик" есть только в одной книге, то оно очень важное для поиска. 😸
TF-IDF объединяет эти два подхода. Он умножает частоту слова в книге (TF) на его редкость во всей библиотеке (IDF).
Подробнее про этот метод с примерами, читайте в новом посте: https://nerdit.ru/tf-idf-kak-kompiutiery-ponimaiut-vazhnost-slov-v-tiekstie/
Nerd IT
TF-IDF: Как компьютеры понимают важность слов в тексте
Сегодня мы поговорим о том, как компьютеры определяют, какие слова в тексте самые важные.
Интересный факт про ML
Существует техника машинного обучения под названием "передача обучения" (transfer learning), которая позволяет моделям, обученным на одной задаче, применять полученные знания к совершенно новым задачам. Например, модель, обученная распознавать кошек на фотографиях, может использовать эти знания для более быстрого обучения распознаванию собак, даже если она никогда раньше не видела изображений собак.
Это похоже на то, как люди могут применять знания из одной области для быстрого освоения новых навыков в другой области.
Эта техника значительно ускоряет процесс обучения моделей и позволяет им эффективно работать даже с ограниченным количеством данных для новых задач. Передача обучения широко используется в современных системах искусственного интеллекта, включая обработку естественного языка и компьютерное зрение.
#интересный_факт_ML
Существует техника машинного обучения под названием "передача обучения" (transfer learning), которая позволяет моделям, обученным на одной задаче, применять полученные знания к совершенно новым задачам. Например, модель, обученная распознавать кошек на фотографиях, может использовать эти знания для более быстрого обучения распознаванию собак, даже если она никогда раньше не видела изображений собак.
Это похоже на то, как люди могут применять знания из одной области для быстрого освоения новых навыков в другой области.
Эта техника значительно ускоряет процесс обучения моделей и позволяет им эффективно работать даже с ограниченным количеством данных для новых задач. Передача обучения широко используется в современных системах искусственного интеллекта, включая обработку естественного языка и компьютерное зрение.
#интересный_факт_ML
👍1
🚀Data Science часто называют "сексуальной профессией 21 века".
Это выражение впервые использовал Хэл Вариан, главный экономист Google, в 2009 году. Он сказал: "Думаю, что статистики будут иметь сексуальную работу в следующие 10 лет". Это высказывание стало популярным и отражает растущую важность и привлекательность профессии специалиста по данным в современном мире.
Этот факт подчеркивает, как быстро выросла значимость Data Science за последнее десятилетие, превратившись из узкоспециализированной области в одну из самых востребованных и высокооплачиваемых профессий в технологической индустрии.
#интересный_факт_DS
Это выражение впервые использовал Хэл Вариан, главный экономист Google, в 2009 году. Он сказал: "Думаю, что статистики будут иметь сексуальную работу в следующие 10 лет". Это высказывание стало популярным и отражает растущую важность и привлекательность профессии специалиста по данным в современном мире.
Этот факт подчеркивает, как быстро выросла значимость Data Science за последнее десятилетие, превратившись из узкоспециализированной области в одну из самых востребованных и высокооплачиваемых профессий в технологической индустрии.
#интересный_факт_DS
🔥2
Типы алгоритмов машинного обучения
Алгоритмы машинного обучения можно разделить на три основные категории: обучение с учителем, обучение без учителя и обучение с подкреплением.
Обучение с учителем
Это наиболее распространенный тип обучения, при котором алгоритм обучается на размеченных данных. Яркий пример — классификация спама в почте. Алгоритм анализирует множество писем, помеченных как спам или не спам, и на основе этих данных учится определять, какие новые письма являются спамом.
Обучение без учителя
Этот метод используется, когда у нас нет размеченных данных. Алгоритм самостоятельно ищет скрытые закономерности в данных. Например, кластеризация клиентов на основе их покупательского поведения позволяет выделить группы с похожими интересами и предпочтениями.
Обучение с подкреплением
Этот метод напоминает обучение с учителем, но с той разницей, что алгоритм обучается на основе взаимодействия с окружающей средой и получения обратной связи в виде вознаграждений или наказаний. Примером могут служить системы управления роботами или алгоритмы, играющие в игры.
По мне так самым интересным является обучение с подкреплением.
Когда-то нашёл видео в котором AI учиться ходить преодолевая препятствия: https://www.youtube.com/watch?v=L_4BPjLBF4E
И это не только забавно, но и интересно наблюдать какие порой неожиданные способы использует алгоритм, чтобы получить положительные подкрепления)
Алгоритмы машинного обучения можно разделить на три основные категории: обучение с учителем, обучение без учителя и обучение с подкреплением.
Обучение с учителем
Это наиболее распространенный тип обучения, при котором алгоритм обучается на размеченных данных. Яркий пример — классификация спама в почте. Алгоритм анализирует множество писем, помеченных как спам или не спам, и на основе этих данных учится определять, какие новые письма являются спамом.
Обучение без учителя
Этот метод используется, когда у нас нет размеченных данных. Алгоритм самостоятельно ищет скрытые закономерности в данных. Например, кластеризация клиентов на основе их покупательского поведения позволяет выделить группы с похожими интересами и предпочтениями.
Обучение с подкреплением
Этот метод напоминает обучение с учителем, но с той разницей, что алгоритм обучается на основе взаимодействия с окружающей средой и получения обратной связи в виде вознаграждений или наказаний. Примером могут служить системы управления роботами или алгоритмы, играющие в игры.
По мне так самым интересным является обучение с подкреплением.
Когда-то нашёл видео в котором AI учиться ходить преодолевая препятствия: https://www.youtube.com/watch?v=L_4BPjLBF4E
И это не только забавно, но и интересно наблюдать какие порой неожиданные способы использует алгоритм, чтобы получить положительные подкрепления)
👍2
А вы знали что есть 10 способов как удалить столбец в pandas ? 🤔
Смотрю периодически статистику по блогу и за последние 3 месяца в топ вошли запросы про удаление столбцов в pandas. Оказывается так много людей не знают или не помнят как это делается, хотя казалось бы.
Если вы тоже хотите удалить столбец с помощью Pandas, держите полный гайд 🤗 https://nerdit.ru/udalieniie-stolbtsov-v-pandas-polnyi-ghaid/
Смотрю периодически статистику по блогу и за последние 3 месяца в топ вошли запросы про удаление столбцов в pandas. Оказывается так много людей не знают или не помнят как это делается, хотя казалось бы.
Если вы тоже хотите удалить столбец с помощью Pandas, держите полный гайд 🤗 https://nerdit.ru/udalieniie-stolbtsov-v-pandas-polnyi-ghaid/
🔥1
А вы знали, что 90% всех имеющихся данных, было создано за последние 5 лет?
К основным причинам такого быстрого роста данных можно отнести:
Развитие интернета и мобильных технологий:
- Увеличение числа интернет-пользователей.
- Распространение смартфонов и мобильных приложений.
- Рост числа социальных сетей и платформ для обмена контентом.
Производство контента пользователями:
- Пользователи ежедневно создают огромное количество контента: текстов, фотографий, видео и других медиа.
- Платформы, такие как Facebook, Instagram, TikTok и YouTube, способствуют активному созданию и распространению контента.
Интернет вещей (IoT):
- Рост числа подключенных устройств (умные дома, автомобили, промышленное оборудование), которые генерируют данные постоянно.
- Сенсоры и устройства мониторинга, установленные в различных сферах жизни и производства, также вносят значительный вклад в увеличение объема данных.
Большие данные и аналитика:
- Компании активно собирают и анализируют данные для улучшения бизнеса и принятия решений.
- Распространение методов машинного обучения и искусственного интеллекта требует большого объема данных для обучения моделей.
Цифровизация экономики и общества:
- Переход на цифровые формы работы, документооборота и управления.
- Увеличение объема данных в электронном коммерции, банковском секторе, медицине и других отраслях.
Облачные технологии:
- Развитие облачных хранилищ и вычислительных ресурсов позволяет хранить и обрабатывать огромные объемы данных.
- Упрощение доступа к большим объемам данных для малого и среднего бизнеса, а также для индивидуальных пользователей.
Эти факторы в совокупности приводят к тому, что объем создаваемых данных увеличивается с каждым годом, и значительная часть всех данных была действительно создана за последние несколько лет.
В следующий раз, когда будете включать свой умный чайник, задумайтесь, что даже он участвует в генерации данных 😅
#интересный_факт_анализ_данных
К основным причинам такого быстрого роста данных можно отнести:
Развитие интернета и мобильных технологий:
- Увеличение числа интернет-пользователей.
- Распространение смартфонов и мобильных приложений.
- Рост числа социальных сетей и платформ для обмена контентом.
Производство контента пользователями:
- Пользователи ежедневно создают огромное количество контента: текстов, фотографий, видео и других медиа.
- Платформы, такие как Facebook, Instagram, TikTok и YouTube, способствуют активному созданию и распространению контента.
Интернет вещей (IoT):
- Рост числа подключенных устройств (умные дома, автомобили, промышленное оборудование), которые генерируют данные постоянно.
- Сенсоры и устройства мониторинга, установленные в различных сферах жизни и производства, также вносят значительный вклад в увеличение объема данных.
Большие данные и аналитика:
- Компании активно собирают и анализируют данные для улучшения бизнеса и принятия решений.
- Распространение методов машинного обучения и искусственного интеллекта требует большого объема данных для обучения моделей.
Цифровизация экономики и общества:
- Переход на цифровые формы работы, документооборота и управления.
- Увеличение объема данных в электронном коммерции, банковском секторе, медицине и других отраслях.
Облачные технологии:
- Развитие облачных хранилищ и вычислительных ресурсов позволяет хранить и обрабатывать огромные объемы данных.
- Упрощение доступа к большим объемам данных для малого и среднего бизнеса, а также для индивидуальных пользователей.
Эти факторы в совокупности приводят к тому, что объем создаваемых данных увеличивается с каждым годом, и значительная часть всех данных была действительно создана за последние несколько лет.
В следующий раз, когда будете включать свой умный чайник, задумайтесь, что даже он участвует в генерации данных 😅
#интересный_факт_анализ_данных
❤1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Понимаем ЛЮБЫЕ нейронки с помощью этого сборника интерактивных ИИ-обучалок! Здесь собраны самые понятные тренажёры по самым популярным нейростям — всё для тех, кто только начал вкатываться в ИИ.
Есть наглядные стенды по LLM вроде GPT, генераторам картинок и другим ML-технологиям. Тулза работает прямо в браузере — крутим, тыкаем и понимаем, как устроена генерация изнутри.
Самый эффективный способ обучение ИИ-технологиям забираем тут
Есть наглядные стенды по LLM вроде GPT, генераторам картинок и другим ML-технологиям. Тулза работает прямо в браузере — крутим, тыкаем и понимаем, как устроена генерация изнутри.
Самый эффективный способ обучение ИИ-технологиям забираем тут
Word2Vec: Подробное руководство с примерами кода
Word2Vec — это одна из самых известных моделей для обучения векторных представлений слов, предложенная в 2013 году командой Google.
Эта модель произвела революцию в области обработки естественного языка (NLP), поскольку она позволила получить плотные векторные представления слов, которые учитывают их контекст и семантические связи. В этой статье мы рассмотрим, как работает Word2Vec, какие у него есть архитектуры, и как его использовать на практике с примерами кода на Python.
https://nerdit.ru/word2vec/
Word2Vec — это одна из самых известных моделей для обучения векторных представлений слов, предложенная в 2013 году командой Google.
Эта модель произвела революцию в области обработки естественного языка (NLP), поскольку она позволила получить плотные векторные представления слов, которые учитывают их контекст и семантические связи. В этой статье мы рассмотрим, как работает Word2Vec, какие у него есть архитектуры, и как его использовать на практике с примерами кода на Python.
https://nerdit.ru/word2vec/
10 пользователей в месяц, показал мне сегодня бот пересказчик youtube роликов, которого я запустил в начале лета ☺️
Интересно, будет ли дальше расти аудитория, если с просмотром youtube будут проблемы?
@summ_youtube_bot
Интересно, будет ли дальше расти аудитория, если с просмотром youtube будут проблемы?
@summ_youtube_bot
👍2
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Ideogram 2.0
Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации, которые я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц.
Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру.
Вместе с новой моделькой релизнули приложение на iOS и API. API по стоимости примерно на уровне FLUX.
Технических деталей, увы, нет. Судя по поведению компании, они вряд ли будут.
Попробовать
@ai_newz
Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации, которые я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц.
Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру.
Вместе с новой моделькой релизнули приложение на iOS и API. API по стоимости примерно на уровне FLUX.
Технических деталей, увы, нет. Судя по поведению компании, они вряд ли будут.
Попробовать
@ai_newz