Forwarded from Data Science
Introduction to Graph Neural Networks: A Starting Point for Machine Learning Engineers
📓 Paper
@datascienceiot
📓 Paper
@datascienceiot
❤2👍2
Forwarded from Machinelearning
Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.
В итоге получился очень годный гайд, со множеством технических деталей.
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.
Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.
Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.
#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍6🔥2❤🔥1
📌 Статья Google Research предлагает метод генерации синтетических данных с использованием дифференциально приватного вывода LLM, чтобы исключить утечки информации из исходного датасета.
Вот ключевые аспекты:
🎯 Цель
Создание синтетических данных, которые:
Сохраняют полезные статистические свойства оригинальных данных.
Гарантируют, что исходные данные нельзя восстановить из сгенерированных образцов.
🔧 Метод
Дифференциально приватный инференс:
Во время генерации текста LLM к выходным распределениям токенов добавляется шум (например, через механизм Гаусса).
Это гарантирует, что наличие/отсутствие отдельного примера в обучающих данных не влияет на результат.
Контроль приватности:
Параметры ε (эпсилон) и δ (дельта) задают уровень приватности.
Чем меньше ε, тем выше защита (например, ε=1–5).
Адаптация под LLM:
Оптимизация добавления шума для сохранения качества текста (согласованность, грамматика).
Использование калибровки шума в зависимости от чувствительности модели к входным данным.
🚀 Технические детали
Механизм шума: Шум добавляется к логам вероятностей модели перед выборкой токена.
Усечение градиентов: Для ограничения влияния отдельных примеров на обучение (если модель дообучается).
Аггрегирование запросов: Группировка запросов к модели для минимизации утечек через множественные обращения.
📊 Результаты
Качество данных: Синтетические данные сохраняют практическую применимость (например, для обучения downstream-моделей).
Приватность: Гарантируется формальная защита (ε < 5) без значительной деградации качества.
🛠 Применение
Обучение моделей на конфиденциальных данных (медицина, финансы).
Тестирование алгоритмов без доступа к реальным данным.
Совместное использование данных между организациями без риска утечек.
⚖️ Компромиссы
Качество vs. приватность: Чем ниже ε, тем хуже качество текста.
Вычислительные затраты: Добавление шума и проверка приватности увеличивают время инференса.
Итог:
Подход Google позволяет использовать LLM как «дифференциально приватный генератор», что открывает путь к этичному использованию ИИ в sensitive-доменах. Это прорыв в балансировке между полезностью данных и защитой приватности.
Читать
Вот ключевые аспекты:
🎯 Цель
Создание синтетических данных, которые:
Сохраняют полезные статистические свойства оригинальных данных.
Гарантируют, что исходные данные нельзя восстановить из сгенерированных образцов.
🔧 Метод
Дифференциально приватный инференс:
Во время генерации текста LLM к выходным распределениям токенов добавляется шум (например, через механизм Гаусса).
Это гарантирует, что наличие/отсутствие отдельного примера в обучающих данных не влияет на результат.
Контроль приватности:
Параметры ε (эпсилон) и δ (дельта) задают уровень приватности.
Чем меньше ε, тем выше защита (например, ε=1–5).
Адаптация под LLM:
Оптимизация добавления шума для сохранения качества текста (согласованность, грамматика).
Использование калибровки шума в зависимости от чувствительности модели к входным данным.
🚀 Технические детали
Механизм шума: Шум добавляется к логам вероятностей модели перед выборкой токена.
Усечение градиентов: Для ограничения влияния отдельных примеров на обучение (если модель дообучается).
Аггрегирование запросов: Группировка запросов к модели для минимизации утечек через множественные обращения.
📊 Результаты
Качество данных: Синтетические данные сохраняют практическую применимость (например, для обучения downstream-моделей).
Приватность: Гарантируется формальная защита (ε < 5) без значительной деградации качества.
🛠 Применение
Обучение моделей на конфиденциальных данных (медицина, финансы).
Тестирование алгоритмов без доступа к реальным данным.
Совместное использование данных между организациями без риска утечек.
⚖️ Компромиссы
Качество vs. приватность: Чем ниже ε, тем хуже качество текста.
Вычислительные затраты: Добавление шума и проверка приватности увеличивают время инференса.
Итог:
Подход Google позволяет использовать LLM как «дифференциально приватный генератор», что открывает путь к этичному использованию ИИ в sensitive-доменах. Это прорыв в балансировке между полезностью данных и защитой приватности.
Читать
👍10❤4🔥2
Оптимизируя квантовые схемы, она помогает выполнять вычисления быстрее, чтобы экономить ресурсы и ускорять открытия. ↓
🎯 Читать
@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2✍1👎1
Твой будущий работодатель уже на TechnoCareer! А ты успел зарегистрироваться?
25 марта в Москве — только один день, когда ТОП-компании ищут молодых специалистов. СИБУР, «Росатом», Сколтех, МТС, Марс и другие топ-компании соберутся на TechnoCareer, чтобы найти такого крутого эксперта, как ты! Прийти можно в любое время с 15:00 до 19:00.
• Ты — студент или выпускник технического, промышленного или естественно-научного направления?
• Хочешь оплачиваемую стажировку?
• Готов пройти тест-драйв собеседований?
• Любишь есть пиццу, получать призы и подарки?
Если ДА, тебе срочно нужно ухватить свой билет на TechnoCareer! Места заканчиваются, участие бесплатное https://vk.cc/cJUSrC?erid=2W5zFHVuVUL
25 марта в Москве — только один день, когда ТОП-компании ищут молодых специалистов. СИБУР, «Росатом», Сколтех, МТС, Марс и другие топ-компании соберутся на TechnoCareer, чтобы найти такого крутого эксперта, как ты! Прийти можно в любое время с 15:00 до 19:00.
• Ты — студент или выпускник технического, промышленного или естественно-научного направления?
• Хочешь оплачиваемую стажировку?
• Готов пройти тест-драйв собеседований?
• Любишь есть пиццу, получать призы и подарки?
Если ДА, тебе срочно нужно ухватить свой билет на TechnoCareer! Места заканчиваются, участие бесплатное https://vk.cc/cJUSrC?erid=2W5zFHVuVUL
❤1
Forwarded from Machinelearning
Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.
▪ Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
▪ Практика: Примеры кода на Python и C++ для управления роботами.
▪Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
▪Задания: Реальные практические задачи (например, управление манипулятором робота).
▪ Начинающие робототехники: Освоить кинематику, динамику, управление.
▪ Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
▪ Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
▪Технологические энтузиасты
С курсом можно пройти путь от нуля до создания рабочего прототипа.
С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).
P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡
#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥4👍2🥰1
❤9👍5🔥3
Forwarded from Machinelearning
Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.
Книга разделена на три части, включающие 24 основные главы и 8 приложений.
Темы охватывают широкий спектр, включая:
Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.
Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.
@ai_machinelearning_big_data
#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3