Машиннное обучение | Наука о данных Библиотека
16.9K subscribers
744 photos
10 videos
21 files
646 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
📌 Статья Google Research предлагает метод генерации синтетических данных с использованием дифференциально приватного вывода LLM, чтобы исключить утечки информации из исходного датасета.

Вот ключевые аспекты:

🎯 Цель
Создание синтетических данных, которые:

Сохраняют полезные статистические свойства оригинальных данных.

Гарантируют, что исходные данные нельзя восстановить из сгенерированных образцов.

🔧 Метод
Дифференциально приватный инференс:


Во время генерации текста LLM к выходным распределениям токенов добавляется шум (например, через механизм Гаусса).

Это гарантирует, что наличие/отсутствие отдельного примера в обучающих данных не влияет на результат.

Контроль приватности:

Параметры ε (эпсилон) и δ (дельта) задают уровень приватности.

Чем меньше ε, тем выше защита (например, ε=1–5).

Адаптация под LLM:
Оптимизация добавления шума для сохранения качества текста (согласованность, грамматика).

Использование калибровки шума в зависимости от чувствительности модели к входным данным.

🚀 Технические детали
Механизм шума:
Шум добавляется к логам вероятностей модели перед выборкой токена.

Усечение градиентов: Для ограничения влияния отдельных примеров на обучение (если модель дообучается).

Аггрегирование запросов: Группировка запросов к модели для минимизации утечек через множественные обращения.

📊 Результаты
Качество данных: Синтетические данные сохраняют практическую применимость (например, для обучения downstream-моделей).

Приватность: Гарантируется формальная защита (ε < 5) без значительной деградации качества.

🛠 Применение
Обучение моделей на конфиденциальных данных (медицина, финансы).

Тестирование алгоритмов без доступа к реальным данным.

Совместное использование данных между организациями без риска утечек.

⚖️ Компромиссы
Качество vs. приватность: Чем ниже ε, тем хуже качество текста.

Вычислительные затраты: Добавление шума и проверка приватности увеличивают время инференса.

Итог:
Подход Google позволяет использовать LLM как «дифференциально приватный генератор», что открывает путь к этичному использованию ИИ в sensitive-доменах. Это прорыв в балансировке между полезностью данных и защитой приватности.

Читать
👍104🔥2
Google опубликовали статью, где описано как ИИ система AlphaTensor-Quantum может сделать квантовые вычисления облее эффективными. 🖥️

Оптимизируя квантовые схемы, она помогает выполнять вычисления быстрее, чтобы экономить ресурсы и ускорять открытия. ↓

🎯 Читать

@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍21👎1
Твой будущий работодатель уже на TechnoCareer! А ты успел зарегистрироваться?

25 марта в Москве — только один день, когда ТОП-компании ищут молодых специалистов. СИБУР, «Росатом», Сколтех, МТС, Марс и другие топ-компании соберутся на TechnoCareer, чтобы найти такого крутого эксперта, как ты! Прийти можно в любое время с 15:00 до 19:00.

• Ты — студент или выпускник технического, промышленного или естественно-научного направления? 
• Хочешь оплачиваемую стажировку?
• Готов пройти тест-драйв собеседований?
• Любишь есть пиццу, получать призы и подарки?

Если ДА, тебе срочно нужно ухватить свой билет на TechnoCareer! Места заканчиваются, участие бесплатное https://vk.cc/cJUSrC?erid=2W5zFHVuVUL
1
Forwarded from Machinelearning
🤖 Modern Robotics Course: Открытый курс по современной робототехнике.

Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.

🌟 Что внутри?
Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
Практика: Примеры кода на Python и C++ для управления роботами.
Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
Задания: Реальные практические задачи (например, управление манипулятором робота).

🌟 Для кого?
Начинающие робототехники: Освоить кинематику, динамику, управление.
Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
Технологические энтузиасты

С курсом можно пройти путь от нуля до создания рабочего прототипа.

С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).

✔️ Готовые решения: Внутри вы найдете библиотеки для работы с преобразованиями, датчиками, движением.

✔️Карьера в робототехнике: Курс даст возможность получить базовые навыки, востребованные в Bosch, Boston Dynamics, Tesla.

⭐️ Преимущества перед другими открытыми курсами
🟠 Акцент на практике: Минимум абстракций — максимум кода.
🟠Совместимость с ROS: Стандарт для промышленной робототехники.
🟠 Современные алгоритмы: Не только классика, но и нейросетевые подходы.

➡️ Cовет: Для погружения в курс, вам поможет книга Robotics, Vision and Control: Fundamental Algorithms in Python, Peter Corke, вот ее репозиторий с примерами кода.

P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡

✔️ Github
✔️ Введение в курс

#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👍2🥰1
Mathematics for Computer Science

Бесплатный учебник от CRC Press объемом 547 страниц.

📚 Книга
9👍5🔥3
Forwarded from Machinelearning
✔️ "Speech and Language Processing": 3-е издания книги

Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.

🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP.

Книга разделена на три части, включающие 24 основные главы и 8 приложений.

Темы охватывают широкий спектр, включая:
😶Фундаментальные алгоритмы
😶Приложения NLP (Обработки Естественного Языка)
😶Регулярные выражения
😶Нейронные сети и трансформеры,
😶Машинный перевод и другие аспекты NLP
😶Аннотирование (или Разметка) лингвистической структуры.

Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.

Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.

🟡Книга в PDF
🟡Все Главы
🟡Еще книги по NLP

@ai_machinelearning_big_data


#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93
📚 «Линейная алгебра»

Вторая лучшая книга по линейной алгебре с ~1000 практических задач.

Идеально для ИИ и машинного обучения.

Книга полностью бесплатна .

Прекрасно подходит для новичков.

📌 Книга

@machinelearning_books
👍62🔥2
🔥 «Упражнения по машинному обучению»

В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.

🔗 Книга
🔗 GitHub

@machinelearning_books
🔥9👍5🥰2
⚡️ Implement minimal-GPT from scratch.

MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.

Внутри гайда обычно можно найти:

 Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
 Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
 Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
 Рекомендации по расширению и дальнейшему совершенствованию кода

Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.

🔗 Читать

@machinelearning_books
🔥7👍53💩1
Forwarded from Machinelearning
🌟 Sakana AI представили AI Scientist v2 — систему, которая автоматизирует научное исследование: от гипотезы до опубликованной статьи.

Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.

Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.

Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.

Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.

В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.

- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:

Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.

🟡 Что умеет ​AI Scientist-v2:
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует

🟡 Подробнее
🟡 Github
🟡Эксперимент

@ai_machinelearning_big_data

#ai #ml #Sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤡54🔥1💩1