Машиннное обучение | Наука о данных Библиотека

📌 Статья Google Research предлагает метод генерации синтетических данных с использованием дифференциально приватного вывода LLM, чтобы исключить утечки информации из исходного датасета.

Вот ключевые аспекты:

🎯 Цель
Создание синтетических данных, которые:

Сохраняют полезные статистические свойства оригинальных данных.

Гарантируют, что исходные данные нельзя восстановить из сгенерированных образцов.

🔧 Метод
Дифференциально приватный инференс:

Во время генерации текста LLM к выходным распределениям токенов добавляется шум (например, через механизм Гаусса).

Это гарантирует, что наличие/отсутствие отдельного примера в обучающих данных не влияет на результат.

Контроль приватности:

Параметры ε (эпсилон) и δ (дельта) задают уровень приватности.

Чем меньше ε, тем выше защита (например, ε=1–5).

Адаптация под LLM:
Оптимизация добавления шума для сохранения качества текста (согласованность, грамматика).

Использование калибровки шума в зависимости от чувствительности модели к входным данным.

🚀 Технические детали
Механизм шума: Шум добавляется к логам вероятностей модели перед выборкой токена.

Усечение градиентов: Для ограничения влияния отдельных примеров на обучение (если модель дообучается).

Аггрегирование запросов: Группировка запросов к модели для минимизации утечек через множественные обращения.

📊 Результаты
Качество данных: Синтетические данные сохраняют практическую применимость (например, для обучения downstream-моделей).

Приватность: Гарантируется формальная защита (ε < 5) без значительной деградации качества.

🛠 Применение
Обучение моделей на конфиденциальных данных (медицина, финансы).

Тестирование алгоритмов без доступа к реальным данным.

Совместное использование данных между организациями без риска утечек.

⚖️ Компромиссы
Качество vs. приватность: Чем ниже ε, тем хуже качество текста.

Вычислительные затраты: Добавление шума и проверка приватности увеличивают время инференса.

Итог:
Подход Google позволяет использовать LLM как «дифференциально приватный генератор», что открывает путь к этичному использованию ИИ в sensitive-доменах. Это прорыв в балансировке между полезностью данных и защитой приватности.

Читать

👍10❤4🔥2

2.18K views17:03

Машиннное обучение | Наука о данных Библиотека

✅

Google опубликовали статью, где описано как ИИ система AlphaTensor-Quantum может сделать квантовые вычисления облее эффективными. 🖥️⚡

Оптимизируя квантовые схемы, она помогает выполнять вычисления быстрее, чтобы экономить ресурсы и ускорять открытия. ↓

🎯 Читать

@machinelearning_books

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2✍1👎1

2.43K views10:31

Машиннное обучение | Наука о данных Библиотека

Твой будущий работодатель уже на TechnoCareer! А ты успел зарегистрироваться?

25 марта в Москве — только один день, когда ТОП-компании ищут молодых специалистов. СИБУР, «Росатом», Сколтех, МТС, Марс и другие топ-компании соберутся на TechnoCareer, чтобы найти такого крутого эксперта, как ты! Прийти можно в любое время с 15:00 до 19:00.

• Ты — студент или выпускник технического, промышленного или естественно-научного направления?
• Хочешь оплачиваемую стажировку?
• Готов пройти тест-драйв собеседований?
• Любишь есть пиццу, получать призы и подарки?

Если ДА, тебе срочно нужно ухватить свой билет на TechnoCareer! Места заканчиваются, участие бесплатное https://vk.cc/cJUSrC?erid=2W5zFHVuVUL

❤1

2.36K views09:42

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🤖

Modern Robotics Course: Открытый курс по современной робототехнике.

Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.

🌟

Что внутри?
▪ Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
▪ Практика: Примеры кода на Python и C++ для управления роботами.
▪Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
▪Задания: Реальные практические задачи (например, управление манипулятором робота).

🌟

Для кого?
▪ Начинающие робототехники: Освоить кинематику, динамику, управление.
▪ Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
▪ Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
▪Технологические энтузиасты

С курсом можно пройти путь от нуля до создания рабочего прототипа.

С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).

✔️ Готовые решения: Внутри вы найдете библиотеки для работы с преобразованиями, датчиками, движением.

✔️Карьера в робототехнике: Курс даст возможность получить базовые навыки, востребованные в Bosch, Boston Dynamics, Tesla.

⭐️

Преимущества перед другими открытыми курсами
🟠 Акцент на практике: Минимум абстракций — максимум кода.
🟠Совместимость с ROS: Стандарт для промышленной робототехники.
🟠 Современные алгоритмы: Не только классика, но и нейросетевые подходы.

➡️

Cовет: Для погружения в курс, вам поможет книга Robotics, Vision and Control: Fundamental Algorithms in Python, Peter Corke, вот ее репозиторий с примерами кода.

P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡

✔️

Github

✔️

Введение в курс

#course #ai #ml #robots #education #курс #робототехника

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥4👍2🥰1

3.96K views10:50

Машиннное обучение | Наука о данных Библиотека

Mathematics for Computer Science

Бесплатный учебник от CRC Press объемом 547 страниц.

📚 Книга

❤9👍5🔥3

2.67K views19:06

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

✔️

"Speech and Language Processing": 3-е издания книги

Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.

🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP.

Книга разделена на три части, включающие 24 основные главы и 8 приложений.

Темы охватывают широкий спектр, включая:
😶Фундаментальные алгоритмы
😶Приложения NLP (Обработки Естественного Языка)
😶Регулярные выражения
😶Нейронные сети и трансформеры,
😶Машинный перевод и другие аспекты NLP
😶Аннотирование (или Разметка) лингвистической структуры.

Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.

Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.

🟡

Книга в PDF

🟡

Все Главы

🟡

Еще книги по NLP

@ai_machinelearning_big_data

#freebook #opensource #nlp

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3

2.04K views16:16

Машиннное обучение | Наука о данных Библиотека

📚 «Линейная алгебра»

Вторая лучшая книга по линейной алгебре с ~1000 практических задач.

Идеально для ИИ и машинного обучения.

Книга полностью бесплатна .

Прекрасно подходит для новичков.

📌 Книга

@machinelearning_books

👍6❤2🔥2

2.8K viewsedited 12:08

Машиннное обучение | Наука о данных Библиотека

🔥 «Упражнения по машинному обучению»

В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.

🔗 Книга
🔗 GitHub

@machinelearning_books

🔥9👍5🥰2

3.13K views09:52

Машиннное обучение | Наука о данных Библиотека

⚡️ Implement minimal-GPT from scratch.

MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.

Внутри гайда обычно можно найти:

▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода

Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.

🔗 Читать

@machinelearning_books

🔥7👍5❤4💩1

2.59K views09:11

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🌟 Sakana AI представили AI Scientist v2 — систему, которая автоматизирует научное исследование: от гипотезы до опубликованной статьи.

Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.

Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.

Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.

Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.

В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.

- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:

Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.

🟡 Что умеет AI Scientist-v2:
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует

🟡

Подробнее

🟡

Github

🟡

Эксперимент

@ai_machinelearning_big_data

#ai #ml #Sakana

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🤡5❤4🔥1💩1

3.18K views11:03