📌 Статья Google Research предлагает метод генерации синтетических данных с использованием дифференциально приватного вывода LLM, чтобы исключить утечки информации из исходного датасета.
Вот ключевые аспекты:
🎯 Цель
Создание синтетических данных, которые:
Сохраняют полезные статистические свойства оригинальных данных.
Гарантируют, что исходные данные нельзя восстановить из сгенерированных образцов.
🔧 Метод
Дифференциально приватный инференс:
Во время генерации текста LLM к выходным распределениям токенов добавляется шум (например, через механизм Гаусса).
Это гарантирует, что наличие/отсутствие отдельного примера в обучающих данных не влияет на результат.
Контроль приватности:
Параметры ε (эпсилон) и δ (дельта) задают уровень приватности.
Чем меньше ε, тем выше защита (например, ε=1–5).
Адаптация под LLM:
Оптимизация добавления шума для сохранения качества текста (согласованность, грамматика).
Использование калибровки шума в зависимости от чувствительности модели к входным данным.
🚀 Технические детали
Механизм шума: Шум добавляется к логам вероятностей модели перед выборкой токена.
Усечение градиентов: Для ограничения влияния отдельных примеров на обучение (если модель дообучается).
Аггрегирование запросов: Группировка запросов к модели для минимизации утечек через множественные обращения.
📊 Результаты
Качество данных: Синтетические данные сохраняют практическую применимость (например, для обучения downstream-моделей).
Приватность: Гарантируется формальная защита (ε < 5) без значительной деградации качества.
🛠 Применение
Обучение моделей на конфиденциальных данных (медицина, финансы).
Тестирование алгоритмов без доступа к реальным данным.
Совместное использование данных между организациями без риска утечек.
⚖️ Компромиссы
Качество vs. приватность: Чем ниже ε, тем хуже качество текста.
Вычислительные затраты: Добавление шума и проверка приватности увеличивают время инференса.
Итог:
Подход Google позволяет использовать LLM как «дифференциально приватный генератор», что открывает путь к этичному использованию ИИ в sensitive-доменах. Это прорыв в балансировке между полезностью данных и защитой приватности.
Читать
Вот ключевые аспекты:
🎯 Цель
Создание синтетических данных, которые:
Сохраняют полезные статистические свойства оригинальных данных.
Гарантируют, что исходные данные нельзя восстановить из сгенерированных образцов.
🔧 Метод
Дифференциально приватный инференс:
Во время генерации текста LLM к выходным распределениям токенов добавляется шум (например, через механизм Гаусса).
Это гарантирует, что наличие/отсутствие отдельного примера в обучающих данных не влияет на результат.
Контроль приватности:
Параметры ε (эпсилон) и δ (дельта) задают уровень приватности.
Чем меньше ε, тем выше защита (например, ε=1–5).
Адаптация под LLM:
Оптимизация добавления шума для сохранения качества текста (согласованность, грамматика).
Использование калибровки шума в зависимости от чувствительности модели к входным данным.
🚀 Технические детали
Механизм шума: Шум добавляется к логам вероятностей модели перед выборкой токена.
Усечение градиентов: Для ограничения влияния отдельных примеров на обучение (если модель дообучается).
Аггрегирование запросов: Группировка запросов к модели для минимизации утечек через множественные обращения.
📊 Результаты
Качество данных: Синтетические данные сохраняют практическую применимость (например, для обучения downstream-моделей).
Приватность: Гарантируется формальная защита (ε < 5) без значительной деградации качества.
🛠 Применение
Обучение моделей на конфиденциальных данных (медицина, финансы).
Тестирование алгоритмов без доступа к реальным данным.
Совместное использование данных между организациями без риска утечек.
⚖️ Компромиссы
Качество vs. приватность: Чем ниже ε, тем хуже качество текста.
Вычислительные затраты: Добавление шума и проверка приватности увеличивают время инференса.
Итог:
Подход Google позволяет использовать LLM как «дифференциально приватный генератор», что открывает путь к этичному использованию ИИ в sensitive-доменах. Это прорыв в балансировке между полезностью данных и защитой приватности.
Читать
👍10❤4🔥2
Оптимизируя квантовые схемы, она помогает выполнять вычисления быстрее, чтобы экономить ресурсы и ускорять открытия. ↓
🎯 Читать
@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2✍1👎1
Твой будущий работодатель уже на TechnoCareer! А ты успел зарегистрироваться?
25 марта в Москве — только один день, когда ТОП-компании ищут молодых специалистов. СИБУР, «Росатом», Сколтех, МТС, Марс и другие топ-компании соберутся на TechnoCareer, чтобы найти такого крутого эксперта, как ты! Прийти можно в любое время с 15:00 до 19:00.
• Ты — студент или выпускник технического, промышленного или естественно-научного направления?
• Хочешь оплачиваемую стажировку?
• Готов пройти тест-драйв собеседований?
• Любишь есть пиццу, получать призы и подарки?
Если ДА, тебе срочно нужно ухватить свой билет на TechnoCareer! Места заканчиваются, участие бесплатное https://vk.cc/cJUSrC?erid=2W5zFHVuVUL
25 марта в Москве — только один день, когда ТОП-компании ищут молодых специалистов. СИБУР, «Росатом», Сколтех, МТС, Марс и другие топ-компании соберутся на TechnoCareer, чтобы найти такого крутого эксперта, как ты! Прийти можно в любое время с 15:00 до 19:00.
• Ты — студент или выпускник технического, промышленного или естественно-научного направления?
• Хочешь оплачиваемую стажировку?
• Готов пройти тест-драйв собеседований?
• Любишь есть пиццу, получать призы и подарки?
Если ДА, тебе срочно нужно ухватить свой билет на TechnoCareer! Места заканчиваются, участие бесплатное https://vk.cc/cJUSrC?erid=2W5zFHVuVUL
❤1
Forwarded from Machinelearning
Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.
▪ Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
▪ Практика: Примеры кода на Python и C++ для управления роботами.
▪Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
▪Задания: Реальные практические задачи (например, управление манипулятором робота).
▪ Начинающие робототехники: Освоить кинематику, динамику, управление.
▪ Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
▪ Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
▪Технологические энтузиасты
С курсом можно пройти путь от нуля до создания рабочего прототипа.
С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).
P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡
#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥4👍2🥰1
❤9👍5🔥3
Forwarded from Machinelearning
Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.
Книга разделена на три части, включающие 24 основные главы и 8 приложений.
Темы охватывают широкий спектр, включая:
Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.
Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.
@ai_machinelearning_big_data
#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3
📚 «Линейная алгебра»
Вторая лучшая книга по линейной алгебре с ~1000 практических задач.
Идеально для ИИ и машинного обучения.
Книга полностью бесплатна .
Прекрасно подходит для новичков.
📌 Книга
@machinelearning_books
Вторая лучшая книга по линейной алгебре с ~1000 практических задач.
Идеально для ИИ и машинного обучения.
Книга полностью бесплатна .
Прекрасно подходит для новичков.
📌 Книга
@machinelearning_books
👍6❤2🔥2
🔥 «Упражнения по машинному обучению»
В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.
🔗 Книга
🔗 GitHub
@machinelearning_books
В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.
🔗 Книга
🔗 GitHub
@machinelearning_books
🔥9👍5🥰2
⚡️ Implement minimal-GPT from scratch.
MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.
Внутри гайда обычно можно найти:
▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода
Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.
🔗 Читать
@machinelearning_books
MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.
Внутри гайда обычно можно найти:
▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода
Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.
🔗 Читать
@machinelearning_books
🔥7👍5❤3💩1
Forwarded from Machinelearning
Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.
Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.
Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.
Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.
В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.
- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:
Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует
@ai_machinelearning_big_data
#ai #ml #Sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤡5❤4🔥1💩1