AI на дровах 🪵
237 subscribers
76 photos
19 videos
1 file
130 links
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных, пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале их пути изучения больших данных.

👾HSE ML Unit Head⚡️
❤️Litres DS Team
Download Telegram
Привет! Сегодня мы поговорим о том, как компьютеры определяют, какие слова в тексте самые важные.

Представьте, что вы ищете информацию о кошках в большой библиотеке. Как вы поймете, какая книга действительно о кошках, а в какой кошки упоминаются лишь мельком? Именно для этого компьютеры используют метод под названием TF-IDF.

Что такое TF-IDF?
TF-IDF расшифровывается как "Term Frequency - Inverse Document Frequency".

Не пугайтесь этих сложных слов! Давайте разберем их по частям:

TF (Term Frequency) - Частота слова Представьте, что вы считаете, сколько раз слово "кошка" встречается в книге. Это и есть TF. Чем чаще слово встречается, тем оно важнее для этой книги.
Пример: В книге "Приключения Мурзика" слово "кошка" встречается 50 раз, а в книге "Собаки и их хозяева" - всего 2 раза. Значит, для первой книги "кошка" важнее.

IDF (Inverse Document Frequency) - Обратная частота документа.
А теперь представьте, что вы проверяете, в скольких книгах библиотеки встречается слово "кошка". Если оно есть во всех книгах, то оно не очень-то помогает найти книгу именно о кошках. А вот если слово "Мурзик" есть только в одной книге, то оно очень важное для поиска. 😸

TF-IDF объединяет эти два подхода. Он умножает частоту слова в книге (TF) на его редкость во всей библиотеке (IDF).

Подробнее про этот метод с примерами, читайте в новом посте: https://nerdit.ru/tf-idf-kak-kompiutiery-ponimaiut-vazhnost-slov-v-tiekstie/
Интересный факт про ML

Существует техника машинного обучения под названием "передача обучения" (transfer learning), которая позволяет моделям, обученным на одной задаче, применять полученные знания к совершенно новым задачам. Например, модель, обученная распознавать кошек на фотографиях, может использовать эти знания для более быстрого обучения распознаванию собак, даже если она никогда раньше не видела изображений собак.

Это похоже на то, как люди могут применять знания из одной области для быстрого освоения новых навыков в другой области.

Эта техника значительно ускоряет процесс обучения моделей и позволяет им эффективно работать даже с ограниченным количеством данных для новых задач. Передача обучения широко используется в современных системах искусственного интеллекта, включая обработку естественного языка и компьютерное зрение.

#интересный_факт_ML
👍1
🚀Data Science часто называют "сексуальной профессией 21 века".

Это выражение впервые использовал Хэл Вариан, главный экономист Google, в 2009 году. Он сказал: "Думаю, что статистики будут иметь сексуальную работу в следующие 10 лет". Это высказывание стало популярным и отражает растущую важность и привлекательность профессии специалиста по данным в современном мире.

Этот факт подчеркивает, как быстро выросла значимость Data Science за последнее десятилетие, превратившись из узкоспециализированной области в одну из самых востребованных и высокооплачиваемых профессий в технологической индустрии.

#интересный_факт_DS
🔥2
Типы алгоритмов машинного обучения

Алгоритмы машинного обучения можно разделить на три основные категории: обучение с учителем, обучение без учителя и обучение с подкреплением.

Обучение с учителем

Это наиболее распространенный тип обучения, при котором алгоритм обучается на размеченных данных. Яркий пример — классификация спама в почте. Алгоритм анализирует множество писем, помеченных как спам или не спам, и на основе этих данных учится определять, какие новые письма являются спамом.

Обучение без учителя

Этот метод используется, когда у нас нет размеченных данных. Алгоритм самостоятельно ищет скрытые закономерности в данных. Например, кластеризация клиентов на основе их покупательского поведения позволяет выделить группы с похожими интересами и предпочтениями.

Обучение с подкреплением

Этот метод напоминает обучение с учителем, но с той разницей, что алгоритм обучается на основе взаимодействия с окружающей средой и получения обратной связи в виде вознаграждений или наказаний. Примером могут служить системы управления роботами или алгоритмы, играющие в игры.

По мне так самым интересным является обучение с подкреплением.

Когда-то нашёл видео в котором AI учиться ходить преодолевая препятствия: https://www.youtube.com/watch?v=L_4BPjLBF4E

И это не только забавно, но и интересно наблюдать какие порой неожиданные способы использует алгоритм, чтобы получить положительные подкрепления)
👍2
А вы знали что есть 10 способов как удалить столбец в pandas? 🤔

Смотрю периодически статистику по блогу и за последние 3 месяца в топ вошли запросы про удаление столбцов в pandas. Оказывается так много людей не знают или не помнят как это делается, хотя казалось бы.

Если вы тоже хотите удалить столбец с помощью Pandas, держите полный гайд 🤗 https://nerdit.ru/udalieniie-stolbtsov-v-pandas-polnyi-ghaid/
🔥1
А вы знали, что 90% всех имеющихся данных, было создано за последние 5 лет?

К основным причинам такого быстрого роста данных можно отнести:

Развитие интернета и мобильных технологий:
- Увеличение числа интернет-пользователей.
- Распространение смартфонов и мобильных приложений.
- Рост числа социальных сетей и платформ для обмена контентом.

Производство контента пользователями:
- Пользователи ежедневно создают огромное количество контента: текстов, фотографий, видео и других медиа.
- Платформы, такие как Facebook, Instagram, TikTok и YouTube, способствуют активному созданию и распространению контента.

Интернет вещей (IoT):
- Рост числа подключенных устройств (умные дома, автомобили, промышленное оборудование), которые генерируют данные постоянно.
- Сенсоры и устройства мониторинга, установленные в различных сферах жизни и производства, также вносят значительный вклад в увеличение объема данных.

Большие данные и аналитика:
- Компании активно собирают и анализируют данные для улучшения бизнеса и принятия решений.
- Распространение методов машинного обучения и искусственного интеллекта требует большого объема данных для обучения моделей.

Цифровизация экономики и общества:
- Переход на цифровые формы работы, документооборота и управления.
- Увеличение объема данных в электронном коммерции, банковском секторе, медицине и других отраслях.

Облачные технологии:
- Развитие облачных хранилищ и вычислительных ресурсов позволяет хранить и обрабатывать огромные объемы данных.
- Упрощение доступа к большим объемам данных для малого и среднего бизнеса, а также для индивидуальных пользователей.

Эти факторы в совокупности приводят к тому, что объем создаваемых данных увеличивается с каждым годом, и значительная часть всех данных была действительно создана за последние несколько лет.

В следующий раз, когда будете включать свой умный чайник, задумайтесь, что даже он участвует в генерации данных 😅

#интересный_факт_анализ_данных
1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Понимаем ЛЮБЫЕ нейронки с помощью этого сборника интерактивных ИИ-обучалок! Здесь собраны самые понятные тренажёры по самым популярным нейростям — всё для тех, кто только начал вкатываться в ИИ.

Есть наглядные стенды по LLM вроде GPT, генераторам картинок и другим ML-технологиям. Тулза работает прямо в браузере — крутим, тыкаем и понимаем, как устроена генерация изнутри.

Самый эффективный способ обучение ИИ-технологиям забираем тут
Word2Vec: Подробное руководство с примерами кода

Word2Vec — это одна из самых известных моделей для обучения векторных представлений слов, предложенная в 2013 году командой Google.

Эта модель произвела революцию в области обработки естественного языка (NLP), поскольку она позволила получить плотные векторные представления слов, которые учитывают их контекст и семантические связи. В этой статье мы рассмотрим, как работает Word2Vec, какие у него есть архитектуры, и как его использовать на практике с примерами кода на Python.

https://nerdit.ru/word2vec/
10 пользователей в месяц, показал мне сегодня бот пересказчик youtube роликов, которого я запустил в начале лета ☺️

Интересно, будет ли дальше расти аудитория, если с просмотром youtube будут проблемы?

@summ_youtube_bot
👍2
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Ideogram 2.0

Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации, которые я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц.

Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру.

Вместе с новой моделькой релизнули приложение на iOS и API. API по стоимости примерно на уровне FLUX.

Технических деталей, увы, нет. Судя по поведению компании, они вряд ли будут.

Попробовать

@ai_newz
Сам иногда пользуюсь, поэтому репостнул 👆
👍1
Всем привет!
Давно хотел сделать что-то полезное и вот 😎

Я создал https://t.iss.one/help24on7_bot, чтобы помочь вам управлять задачами и напоминаниями, при этом обеспечивая максимальную безопасность ваших данных. 🎯

Цель проекта — сделать так, чтобы вы могли сосредоточиться на своих делах, не беспокоясь о забытых задачах или безопасности информации. Что умеет бот:

📅 Легкое добавление задач: Добавляйте задачи текстом или голосом — бот распознает и превращает их в текст.

Точные напоминания: Установите время, и бот напомнит вам вовремя о каждом важном деле.

📝 Управление задачами: Просматривайте и редактируйте свои задачи, ничего не упуская.

🗣 Понимание голоса: Просто говорите — бот запишет ваши задачи в текстовом формате.

🔍 Аналитика приоритетов: Бот анализирует ваши задачи и помогает расставить приоритеты, чтобы вы справлялись со всем в срок.

Анализ дедлайнов: Если сроки поджимают, бот предложит вам план действий, чтобы не опоздать.

🔒 Шифрование данных: Все задачи в базе данных зашифрованы с помощью современных криптографических алгоритмов. Это означает, что никто, кроме вас, не сможет получить доступ к содержимому задач.

TaskMind AI Bot создан для тех, кто ценит своё время и безопасность. Вы можете быть уверены, что ваши данные защищены, а ваши задачи всегда под контролем.

Присоединяйтесь 🚀 https://t.iss.one/help24on7_bot
Буду рад здоровой критике и пожеланиям по улучшению бота 🙏

#bots
🔥3
🆕 Новые функции TaskMind AI бота 🚀

Привет! Рад представить вам несколько обновлений, которые сделают взаимодействие с ботом ещё удобнее и функциональнее. Вот что добавилось:

🌍 Выбор часовых поясов: Теперь вы можете настроить свой часовой пояс прямо в боте. Это значит, что напоминания будут приходить точно в нужное время, независимо от вашего местоположения. Просто выберите свой часовой пояс, и бот позаботится о точности всех ваших задач!

📅 Интеграция с Google Календарём: Теперь есть возможность синхронизации с Google Календарём! Переносите свои задачи из бота в календарь и наоборот. Всё просто и удобно — не пропустите ни одной важной задачи и держите всё под контролем!

🖼 Создание задач на основе картинок: Вы можете теперь создавать задачи, просто отправляя изображения! Бот распознает текст на картинке и преобразует его в задачу. Это идеальный способ быстро добавлять задачи, если у вас есть изображения с важной информацией.

Всех с днём программиста!
https://t.iss.one/help24on7_bot 😊

#bots
🔥3
🔥 Решил протестировать версию модели GPT-o1 и был приятно удивлён её возможностями! Вместе с моим старшим сыном придумали и воплотили в жизнь интересную игру прямо за один промт. 😎

🎮 Суть игры: Игрок управляет точкой, которая должна съедать яблоки, но они постоянно убегают. С каждым съеденным яблоком игрок становится больше, но на этом всё не так просто! Есть зелёные точки — они тоже охотятся за яблоками, и за самим игроком. Нужно быть быстрым и ловким, чтобы выиграть!

🖥 Сделали игру максимально адаптированной для игры на телефонах — никаких сложностей, только восторг! 📱

🔥 Если интересно поиграть, вот ссылка: Точки охотники

Системный промт для создания игры:
Создай простую игру на HTML5 с управлением через клавиатуру или сенсорный экран для мобильных устройств. В игре есть точка, управляемая игроком, которая должна собирать яблоки на игровом поле. Яблоки убегают от точки, а игрок становится больше с каждым съеденным яблоком. Также на поле есть несколько зелёных точек, которые преследуют игрока и яблоки. Если зелёная точка догоняет игрока, игра заканчивается. Необходимо обеспечить плавное управление как на компьютере, так и на мобильных устройствах. Весь код и ресурсы игры должны быть оптимизированы для быстрой загрузки на мобильных устройствах.


Круто, когда такие идеи превращаются в реальность всего за пару часов благодаря новым технологиям! 👾

#gpt #openai #games
Я создал бота, которым буду пользоваться сам! Ну почти... 😅

Всем привет! 🙌

Я создал нового ИИ бота 🤖, который помогает с домашними заданиями 📚.
Идея пришла, когда я осознал, что не всегда могу быть рядом, чтобы помочь своим детям с учёбой. Но ведь иногда просто нужно направить их на правильный путь, не решая всё за них, правда? 😊

Теперь бот готов прийти на помощь всем!

Он разбирается в заданиях по любым предметам ✏️📐, и вы можете просто отправить фото задачи 📸 или надиктовать её голосом 🎤.
А в ответ получите не только текстовый ответ, но и аудио 🎧 — чтобы каждый мог выбрать, как ему удобнее воспринимать информацию.

Ключевой момент: бот поможет понять, но не сделает всё за вас — как настоящий хороший учитель 👨‍🏫.

Кому актуально - велкам дринк бот! 🙏

#bots #gpt
1🔥1
Интересный факт из анализа данных 📊 — это открытие "эффекта Мэтью".

Этот феномен 📈 был выявлен в социальных науках и широко распространён в анализе больших данных. Суть эффекта заключается в следующем: чем больше у вас ресурсов или преимуществ (например, денег 💰, связей 🌐, популярности 🎉), тем больше шансов увеличить их.

В анализе данных этот эффект можно увидеть в контексте соцсетей, где аккаунты с большим количеством подписчиков 👥 получают больше охвата и вовлечённости 👍, что помогает им привлекать ещё больше подписчиков. Такой эффект делает распределение ресурсов крайне неравномерным ⚖️, что можно подтвердить, анализируя данные об активности в интернете.

Примером может служить Twitter 🐦, где твиты популярных пользователей получают гораздо больше взаимодействий 💬, даже если содержание твитов одинаково.

#интересный_факт_анализ_данных
👍2
🚀 Как создать Telegram бота с помощью библиотеки Aiogram 3?

Хотите создать своего Telegram бота и не знаете, с чего начать?
В новом посте подробно рассказываю, как с нуля разработать бота на базе библиотеки Aiogram 3!

🔥 Узнайте:
- Как создать Telegram бота с помощью библиотеки Aiogram 3
- Как настроить бота в Telegram с BotFather
- Почему Aiogram 3 — это отличный выбор для разработки
- Как добавить команды, обработку сообщений и клавиатуры
- Примеры кода, готовые к использованию!

Не теряйте времени — переходите по ссылке и начните создавать своих ботов уже сегодня!

👉 Пост тут: Как создать Telegram бота с помощью библиотеки Aiogram 3

#aiogram #telegramBot #программирование #python
11👍1
Что такое Random Seed и зачем он нужен? 🌱

Random Seed — это начальное значение для генератора случайных чисел. Несмотря на название, компьютеры создают псевдослучайные числа — последовательности, которые кажутся случайными, но воспроизводимы при использовании одного и того же seed.

Как работает Random Seed? 🔄

Seed определяет, какие числа будут сгенерированы. Например, в Python:

import random
random.seed(42)
print(random.random())


Каждый раз при одинаковом seed генерация чисел будет идентичной.
Почему это важно? 🔑

📍 Воспроизводимость. В исследованиях и машинном обучении важно воспроизвести результаты. Один и тот же seed гарантирует одинаковые выводы.
📍 Тестирование. Для проверки программ, которые зависят от случайных данных, seed помогает получить повторяемые результаты.
📍 Игры и приложения. Seed позволяет воссоздавать случайно сгенерированные уровни или события.
📍 Безопасность. В некоторых случаях seed используется в шифровании, но его знание может сделать систему уязвимой.

Как выбирать seed? 🎲

Часто используется текущее время, если seed не задан явно. Но для воспроизводимости лучше задавать seed вручную.
Итог 📝

Random Seed важен для воспроизводимости, особенно в науке и программировании. Он контролирует случайность и гарантирует предсказуемость, сохраняя элемент "случайности".
👍3
Магическое число 42 🪬

Число 42 часто используется в качестве значения random seed не просто случайно, а по культурным причинам.

Оно стало популярным благодаря знаменитой книге Дугласа Адамса «Автостопом по Галактике» (The Hitchhiker’s Guide to the Galaxy). В книге говорится, что 42 — это "Ответ на главный вопрос жизни, вселенной и всего такого", который был вычислен суперкомпьютером после семи с половиной миллионов лет вычислений. Однако, при этом, никто не знал, каков был сам вопрос.

Причины использования 42 в программировании:

1. Поп-культурный символ: После выхода книги и фильма, число 42 стало символом абсурдного ответа на великие вопросы и получило культовый статус среди фанатов научной фантастики и программистов.

2. Лёгкость запоминания: Благодаря своей известности, это число легко вспомнить и часто используется как простое, но "весёлое" значение по умолчанию в примерах кода и при установке random seed.

3. Традиция: Со временем 42 стало настолько популярным, что многие разработчики и исследователи в машинном обучении используют его для демонстрации или в обучающих материалах.

Таким образом, использование 42 — это своеобразная дань юмору и традиции в мире программирования и науки.

#ml #python #random
🔥3
🔥 Запустил на nerdit.ru новый инструмент для выбора и сравнения моделей машинного обучения 🚀

Мне частенько самому приходилось искать, какую модель и для какой задачи лучше выбрать.
Важно еще было понимать, какая модель лучше справится на том наборе данных который есть, сколько времени займёт обучение, какой фреймворк использовать.

Собрал все в одну базу данных и делюсь с вами 🙏

💡 Подробности о возможностях сервиса:

- Автоматический подбор моделей под задачи: классификация, регрессия, кластеризация, генерация текста, обработка изображений и другие 🎯
- Встроенный рейтинг моделей 📈: в зависимости от выбранного приоритета — точности или скорости обучения, система предлагает наилучшие варианты для работы
- Возможность сравнить различные модели по фреймворкам, размерам датасета, времени обучения и другим важным характеристикам
- Подробное описание каждой модели с примерами кода, что облегчает интеграцию в проект 📜💻

Инструмент позволяет быстро подобрать оптимальную модель для разных задач машинного обучения и провести их подробное сравнение на основе самых важных параметров.

https://nerdit.ru/compare-ml-models/

#машиннообучение #AI #ML #data #автоматизация #сравнениемоделей #DataScience
🔥2
Как часто, сидя на даче и глядя в небо, вы задумывались, куда летит пролетающий самолёт?

Теперь у вас есть возможность узнать это с лёгкостью! ✈️

Познакомьтесь с FlightRadarBot — удобным Telegram-ботом для любителей авиации и всех, кто интересуется полётами! С помощью бота вы сможете в режиме реального времени отслеживать самолёты, которые пролетают прямо над вами, и получать подробную информацию о каждом рейсе.
Что умеет бот? 🤖

📍 Уведомления о самолётах рядом с вами: Просто отправьте свою геолокацию, и бот покажет все рейсы, пролетающие в указанном радиусе.
✈️ Полная информация о рейсе: Узнавайте позывной самолёта, высоту, скорость, маршрут, а также аэропорты вылета и прилёта.
🗺 Интерактивная карта: Одним нажатием вы можете открыть карту с точным местоположением самолёта прямо в Telegram.
Настройка частоты уведомлений: Выбирайте удобный интервал для обновления данных — бот будет автоматически присылать свежие данные о ближайших самолётах.

Как это работает? 🚀

1. Отправьте свою геолокацию.
2. Установите радиус поиска и интервал уведомлений.
3. Получайте информацию о каждом самолёте в вашем небе!

Уже хотите попробовать? Просто запустите бот и посмотрите, что происходит над вашей головой прямо сейчас! 🌍

Не упустите шанс стать настоящим авиационным экспертом у себя на даче! 🛩

🔗 Запускать бота: FlightRadarBot