Авторское право в ИИ
Я думаю не секрет, что весь ML построен на использовании чего-то существующего обучении, будь то музыка, картинки или текст с 3D реконструкцией. Эти наборы зачастую состоят из публичных данных собранных в интернете, но не все из них, согласно их лицензии, разрешено использовать в своих целях.
Связи с этим возникает вопрос, а что использовать вообще можно? Если по правилам, то почти всё что имеет свободную лицензию, например лицензии Creative Commons. Специально для поиска свободных материалов существуют сайты по типу CC Search.
Что интересно, многие законы по защите авторского права используют понятия, ключевым моментом которых является человек. Из-за этого возникают путаницы.
Из недавнего. 14 февраля 2022 люди пытались зарегистрировать авторские права на картинку, сгенерированную нейронкой DABUS, на что в ответ получили:
Закон copyright защищает только "плоды интеллектуального труда", которые "основаны на творческих силах человеческого разума", отметив, что "картина была автономно создана искусственным интеллектом без какого-либо творческого вклада со стороны человеческого актера"(перевод с англа).
Подытожив можно сказать, что пока границы авторского права ИИ не определены.
Больше примеров авторского права и ИИ
Я думаю не секрет, что весь ML построен на использовании чего-то существующего обучении, будь то музыка, картинки или текст с 3D реконструкцией. Эти наборы зачастую состоят из публичных данных собранных в интернете, но не все из них, согласно их лицензии, разрешено использовать в своих целях.
Связи с этим возникает вопрос, а что использовать вообще можно? Если по правилам, то почти всё что имеет свободную лицензию, например лицензии Creative Commons. Специально для поиска свободных материалов существуют сайты по типу CC Search.
Что интересно, многие законы по защите авторского права используют понятия, ключевым моментом которых является человек. Из-за этого возникают путаницы.
Из недавнего. 14 февраля 2022 люди пытались зарегистрировать авторские права на картинку, сгенерированную нейронкой DABUS, на что в ответ получили:
Закон copyright защищает только "плоды интеллектуального труда", которые "основаны на творческих силах человеческого разума", отметив, что "картина была автономно создана искусственным интеллектом без какого-либо творческого вклада со стороны человеческого актера"(перевод с англа).
Подытожив можно сказать, что пока границы авторского права ИИ не определены.
Больше примеров авторского права и ИИ
spmi.ru
Базы данных | Санкт-Петербургский горный университет
Наукометрическая база данных – это библиографическая и реферативная база данных, инструмент для отслеживания цитируемости научных публикаций. Наукометрическая база данных это также поисковая система, которая формирует статистику, характеризующую состояние…
👍7
Про платформы для исследований
Кажется, подключить без костылей колаб про/про+ больше не получится, поэтому стоит искать альтернативу.
Тут сразу можно вспомнить кагл, но его бывает мало(около 40 гпу часов ~ 3 ночи обучения).
— Data Sphere (до 31 декабря 2022)
Как вариант, отправить заявку на грант от Яндекса. Дадут сумму до 100к для исследований на их платформе. V100 доступна.
Грант, выданный в рамках Программы, должен быть использован в течение шести месяцев с даты его зачисления на аккаунт.
— Toloka Research Grant (до 31 марта)
Это грантовая программа для поддержки любых исследований, где есть много данных, будь то ML, лингвистика или социология. Грант представляет собой промокод на сумму от 100 до 500 долларов, активировав который, исследователь получает возможность запускать проекты по сбору и разметке данных в Яндекс.Толоке. Подать заявку может каждый, единственное условие — мы просим лауреатов указывать в статьях и на конференциях, что данные для исследования они собирали с помощью нашего сервиса.
Кажется, подключить без костылей колаб про/про+ больше не получится, поэтому стоит искать альтернативу.
Тут сразу можно вспомнить кагл, но его бывает мало(около 40 гпу часов ~ 3 ночи обучения).
— Data Sphere (до 31 декабря 2022)
Как вариант, отправить заявку на грант от Яндекса. Дадут сумму до 100к для исследований на их платформе. V100 доступна.
Грант, выданный в рамках Программы, должен быть использован в течение шести месяцев с даты его зачисления на аккаунт.
— Toloka Research Grant (до 31 марта)
Это грантовая программа для поддержки любых исследований, где есть много данных, будь то ML, лингвистика или социология. Грант представляет собой промокод на сумму от 100 до 500 долларов, активировав который, исследователь получает возможность запускать проекты по сбору и разметке данных в Яндекс.Толоке. Подать заявку может каждый, единственное условие — мы просим лауреатов указывать в статьях и на конференциях, что данные для исследования они собирали с помощью нашего сервиса.
yandex.cloud
Программа содействия образованию и науке в области Computer Science
Гранты на вычислительные ресурсы для учебно-исследовательской работы по машинному обучению, компьютерному зрению и анализу данных.
👍5
Доступ к продуктам JetBrains
Компания приостановила продажу своего продукта.
Неприятно конечно, но решение есть и оно бесплатное.
Чтобы получить халявный промокод на All Products Pack, достаточно выполнить следующие действия:
1) Решить штук 10 задач по проге на stepik.org
2) Подождать часик-другой. Уведомление придет на почту(вроде) и в уведомления на сайте
3) Следовать инструкции из уведомления
Profit. Вот вам и доступ на 3 месяца.
Ну и ещё один вариант - отправить справку, что вы студент/школьник из образовательного учреждения, тогда доступ будет на год.
Компания приостановила продажу своего продукта.
Неприятно конечно, но решение есть и оно бесплатное.
Чтобы получить халявный промокод на All Products Pack, достаточно выполнить следующие действия:
1) Решить штук 10 задач по проге на stepik.org
2) Подождать часик-другой. Уведомление придет на почту(вроде) и в уведомления на сайте
3) Следовать инструкции из уведомления
Profit. Вот вам и доступ на 3 месяца.
Ну и ещё один вариант - отправить справку, что вы студент/школьник из образовательного учреждения, тогда доступ будет на год.
👍2
Forwarded from Борис опять
Сборник полезных ресурсов про CS PhD
https://github.com/poloclub/awesome-grad-school
https://github.com/poloclub/awesome-grad-school
GitHub
GitHub - poloclub/awesome-grad-school: 🎓 Advice and resources for thriving and surviving graduate school
🎓 Advice and resources for thriving and surviving graduate school - poloclub/awesome-grad-school
❤3
THE AI INDEX REPORT
Тут Стенфорд выкатил полный отчет по различным аспектам ИИ, начиная от научных публикаций и заканчивая финансированием исследований и разработок.
Вообщем-то документик большой, 200+ страниц. В целом, суть такова - ну очень большой интерес к этой сфере, много надежд на разработку различных черных коробок.
Пара интересных фактов:
— 21% PHD связаны с ИИ
— Больше всего времени на обучение тратится на тяжелые модели для обнаружения объектов и RL
— Климат и здравоохранение - самые популярные темы научных статей, влияющих на мир
— ИИ стал доступнее, обучение моделей для базовых задач уже не такое затратное (всё таки, отточенные пайплайны и no-code решения играют большую роль)
Потыкать графики можно тут
PDF файл
Тут Стенфорд выкатил полный отчет по различным аспектам ИИ, начиная от научных публикаций и заканчивая финансированием исследований и разработок.
Вообщем-то документик большой, 200+ страниц. В целом, суть такова - ну очень большой интерес к этой сфере, много надежд на разработку различных черных коробок.
Пара интересных фактов:
— 21% PHD связаны с ИИ
— Больше всего времени на обучение тратится на тяжелые модели для обнаружения объектов и RL
— Климат и здравоохранение - самые популярные темы научных статей, влияющих на мир
— ИИ стал доступнее, обучение моделей для базовых задач уже не такое затратное (всё таки, отточенные пайплайны и no-code решения играют большую роль)
Потыкать графики можно тут
PDF файл
👍9🔥1
Maximal Update Parametrization
Майкрософт выпустил статью о том, как можно перенести параметры с маленькой модели на большую, при этом получить результат лучше, чем просто тренируя большую модель.
Статья
GitHub
Майкрософт выпустил статью о том, как можно перенести параметры с маленькой модели на большую, при этом получить результат лучше, чем просто тренируя большую модель.
Статья
GitHub
GitHub
GitHub - microsoft/mup: maximal update parametrization (µP)
maximal update parametrization (µP). Contribute to microsoft/mup development by creating an account on GitHub.
👍4
Full Stack Deep Learning
Делимся прикольным опенсурс курсом по DL на английском.
В нем есть всё: начиная от базы и заканчивая развертыванием в качестве API.
Ссылка
Делимся прикольным опенсурс курсом по DL на английском.
В нем есть всё: начиная от базы и заканчивая развертыванием в качестве API.
Ссылка
Fullstackdeeplearning
The Full Stack - Course 2021
News, community, and courses for people building AI-powered products.
👍11
Про ускорение кода
Посмотреть видео под чаёчек можно тут
"Если необходимо, чтобы Ваш код работал быстрее,Вообщем-то наткнулся на интересную запись выступления с Moscow Python Conf++ 2019. Спикер рассказывает как они в Яндексе ускоряли рассылку писем путем применения языка Nim, Cython, PyPy, Numba - всё это без лишней воды, умных терминов и большого кол-ва кода с крутой подачей автора.
то вероятно, следует просто использовать PyPy"
Гвидо ван Россум (создатель Python).
Посмотреть видео под чаёчек можно тут
👍7
👉 BLIP
Тут недавно вышло видео Яника про эдакий шустрый CLIP с 14М и 129М параметрами (VIT-B/VIT-L), который может:
1️⃣ Подписывать изображения
2️⃣ Отвечать что на картинке
3️⃣ Вытаскивать мультимодальную инфу
4️⃣ Сопоставлять и давать оценку парам текст-картинка
Попробовать сея чудо можно в онлайне на Replicate, в Hugging Face Spaces или Colab Notebook
GitHub
Видео Яника
Тут недавно вышло видео Яника про эдакий шустрый CLIP с 14М и 129М параметрами (VIT-B/VIT-L), который может:
1️⃣ Подписывать изображения
2️⃣ Отвечать что на картинке
3️⃣ Вытаскивать мультимодальную инфу
4️⃣ Сопоставлять и давать оценку парам текст-картинка
Попробовать сея чудо можно в онлайне на Replicate, в Hugging Face Spaces или Colab Notebook
GitHub
Видео Яника
👍8🔥3
Forwarded from Andrey Alekseev
Всем привет!
Сегодня мы опубликовали статью на Хабре о том, какие фичи есть в ETNA и как их генерировать, а ещё показали, как из всего этого собрать пайплайн прогнозирования.
https://habr.com/p/657297/
Сегодня мы опубликовали статью на Хабре о том, какие фичи есть в ETNA и как их генерировать, а ещё показали, как из всего этого собрать пайплайн прогнозирования.
https://habr.com/p/657297/
Habr
Как прогнозировать временные ряды с ETNA
Меня зовут Андрей, я разработчик библиотеки ETNA в Тинькофф. В статье расскажу, как быстро и легко анализировать временные ряды с помощью ETNA, зачем временным рядам столько фич, и покажу, что даже...
👍4
The 🤗 Research Residency Program
Команда Hugging Face объявила о начале набора в 9-ти месячную программу продвинутого машинного обучения.
Резидент, вместе с прикрепленным исследователем из команды HF, выберут проблему и в течение всей программы будут развивать проект с целью публикации в массы.
Местоположение и социальный статус не имеют значения.
НО:
— Резидентура предлагается только в качестве полной занятости.
— Резидентура не может быть завершена одновременно с любыми другими обязательствами.
Заявки принимаются до 3 апреля 2022 года!
Blog Post
Команда Hugging Face объявила о начале набора в 9-ти месячную программу продвинутого машинного обучения.
Резидент, вместе с прикрепленным исследователем из команды HF, выберут проблему и в течение всей программы будут развивать проект с целью публикации в массы.
Местоположение и социальный статус не имеют значения.
НО:
— Резидентура предлагается только в качестве полной занятости.
— Резидентура не может быть завершена одновременно с любыми другими обязательствами.
Заявки принимаются до 3 апреля 2022 года!
Blog Post
huggingface.co
Announcing the 🤗 AI Research Residency Program
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍5❤1
Forwarded from AI для Всех
Не знаю какую чёрную магию они туда прикрутили, но их генеративная модель (да, это нарисовала нейросеть) выглядит на порядок стильнее, чем все, что мы видели до этого! И вроде как пускают тестить бету
#text2image
#text2image
🔥11
🤗 Decision Transformers
Теперь на Hugging Face доступны 9 чекпоинтов моделей для обучения с подкреплением
Блог пост
Теперь на Hugging Face доступны 9 чекпоинтов моделей для обучения с подкреплением
Блог пост
huggingface.co
Introducing Decision Transformers on Hugging Face 🤗
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍5🔥2
Кагл. Мало места на диске? 🧐
Вообще да.
Просто представьте ситуацию: всего у вас 20гб, ваш обучающий сет весит 13 гб(его не удалить в силу каких-то особенностей, добавлять через утилиту датастеов тоже не враиант), а вы обучаете 10 чекпоинтов моделей, вес каждого около 2гб.
👉 Откуда же достать место? Есть лайфхак, которым пользуются hf - сохранять ВСЕ ненужные для сохранения файлы в /root/.cache/
Это работает, так как кагл считает дисковое пространство только в /kaggle/working . Если вы запустите Save & Run All, то root/.cache/ просто не отобразится в outputs.
Вообще да.
Просто представьте ситуацию: всего у вас 20гб, ваш обучающий сет весит 13 гб(его не удалить в силу каких-то особенностей, добавлять через утилиту датастеов тоже не враиант), а вы обучаете 10 чекпоинтов моделей, вес каждого около 2гб.
👉 Откуда же достать место? Есть лайфхак, которым пользуются hf - сохранять ВСЕ ненужные для сохранения файлы в /root/.cache/
Это работает, так как кагл считает дисковое пространство только в /kaggle/working . Если вы запустите Save & Run All, то root/.cache/ просто не отобразится в outputs.
🔥12👍5
Forwarded from Время Валеры
Я много помогал ребятам из Алиэкспресса делать разные штуки.
Поиск, ценообразование, рекомендательные системы, антифрод, А/Б тесты, МММ, косвенно матчинг
Теперь они проводят Первый митап команды AliTech
Расскажут о том, как готовить данные и обучать алгоритмы, чтобы находить совпадения среди миллионов товаров (а на AliExpress их больше 2 млрд), разберут не только истории успеха, но и попытки, которые ни к чему не привели — на митапе команды AliTech 7 апреля, в 18:00.
В программе
— Как сделали матчер: тайтлы, берты и две сестры, Андрей Русланцев, AliExpress Россия
— Как не сделали матчер: тайтлы, чехлы и близнецы, Денис Ивашков, AliExpress Россия
— Prod2vec: три в одном! Объединяем всю информацию о товаре в один вектор, Александр Голубев, Ozon
— Прикладные задачи матчинга и способы оценки качества, Макар Красноперов, Яндекс.Маркет
— Q&A сессия о матчинге и не только!
Митап будет в 18:00 в четверг, 7 апреля, в новом офисе AliExpress в башне «Империя» в Сити — и в трансляции на YouTube. Регистрироваться тут (это обязательно)
Поиск, ценообразование, рекомендательные системы, антифрод, А/Б тесты, МММ, косвенно матчинг
Теперь они проводят Первый митап команды AliTech
Расскажут о том, как готовить данные и обучать алгоритмы, чтобы находить совпадения среди миллионов товаров (а на AliExpress их больше 2 млрд), разберут не только истории успеха, но и попытки, которые ни к чему не привели — на митапе команды AliTech 7 апреля, в 18:00.
В программе
— Как сделали матчер: тайтлы, берты и две сестры, Андрей Русланцев, AliExpress Россия
— Как не сделали матчер: тайтлы, чехлы и близнецы, Денис Ивашков, AliExpress Россия
— Prod2vec: три в одном! Объединяем всю информацию о товаре в один вектор, Александр Голубев, Ozon
— Прикладные задачи матчинга и способы оценки качества, Макар Красноперов, Яндекс.Маркет
— Q&A сессия о матчинге и не только!
Митап будет в 18:00 в четверг, 7 апреля, в новом офисе AliExpress в башне «Империя» в Сити — и в трансляции на YouTube. Регистрироваться тут (это обязательно)
alitech.timepad.ru
Встречаемся в «Империи»: ML митап AliTech / События на TimePad.ru
Поговорим о том, как готовить данные и обучать алгоритмы, чтобы находить совпадения среди миллионов товаров (а на AliExpress их более 2 млрд), причем разберем не только истории успешного успеха, но и попытки, которые ни к чему не привели — на первом митапе…
👍1
🤷♀️ О том, как я переводчик делаю
👉 Всё началось с малого, с желания иметь модель весом < 50МБ, со скоростью пули и реакцией катбуста.
И всё, тут понеслось:
— Строю пайплайн, ищу данные, обучаю 3 дня
— Понимаю что капец косякнул в коде обучения
— Дебажу день, ставлю обучаться на ночь
— Ловлю новый баг в токенизации
— Думаю ладно, багов больше не будет, но нет тут то было, оказывается довольно большая часть сета какая-то кривая и это сильно портит метрики
— Закончились ресурсы на кагле, нужно было искать гпу на эксперименты
— Одолжил аккаунт, запустил, добавл новый сет и фильтры для него -> в итоге первая +- модель, которая вместо нормального перевода давала парафраз с ответом на вопрос если таковой был 😂
— Эксперименты продолжаются, начинаю разбивать текст, чтобы обучать только для перевода одного-трех предложений -> что-то идёт не так и вроде становится хуже
— Думаю: а как же так? Я про дистилляцию забыл? Надо пробовать, лосс падает, примеры генерятся - всё очень круто, ставлю на ночь
— Словил очередной баг: из-за пересечения имен в функции генерации текста предиктилась моделью учителем...
— Ощутил нехватку данных, поспрашивал людей, покапал популярные датасеты ииии ничего не изменил, так закончились гпу часы 🙃
— Решил, ну ладно, какие там ещё вычислители? TPU надо пробовать
— Вспоминаю что недавно видел крутую либу от HF - accelerate, решил использовать и получил легкую интеграцию под все вычислители, но обучать на TPU нахватало терпения 🙌
👉 Всё началось с малого, с желания иметь модель весом < 50МБ, со скоростью пули и реакцией катбуста.
И всё, тут понеслось:
— Строю пайплайн, ищу данные, обучаю 3 дня
— Понимаю что капец косякнул в коде обучения
— Дебажу день, ставлю обучаться на ночь
— Ловлю новый баг в токенизации
— Думаю ладно, багов больше не будет, но нет тут то было, оказывается довольно большая часть сета какая-то кривая и это сильно портит метрики
— Закончились ресурсы на кагле, нужно было искать гпу на эксперименты
— Одолжил аккаунт, запустил, добавл новый сет и фильтры для него -> в итоге первая +- модель, которая вместо нормального перевода давала парафраз с ответом на вопрос если таковой был 😂
— Эксперименты продолжаются, начинаю разбивать текст, чтобы обучать только для перевода одного-трех предложений -> что-то идёт не так и вроде становится хуже
— Думаю: а как же так? Я про дистилляцию забыл? Надо пробовать, лосс падает, примеры генерятся - всё очень круто, ставлю на ночь
— Словил очередной баг: из-за пересечения имен в функции генерации текста предиктилась моделью учителем...
— Ощутил нехватку данных, поспрашивал людей, покапал популярные датасеты ииии ничего не изменил, так закончились гпу часы 🙃
— Решил, ну ладно, какие там ещё вычислители? TPU надо пробовать
— Вспоминаю что недавно видел крутую либу от HF - accelerate, решил использовать и получил легкую интеграцию под все вычислители, но обучать на TPU нахватало терпения 🙌
👍12
Ну а сейчас муки эксперименты продолжаются, если верить wandb.ai, то я уже запускал блокнот более 200 раз, понял что нужно увеличивать сет, но гпу кагла тупо не хватит, либо придется сильно урезать урезанное.
Что же в итоге? Читайте доки, проверяйте данные и метрики перед запусками, делайте перерывы в работе, а то ваши мыслительные процессы станут похожи на жалкие потуги обучить T5 на процессоре
Что же в итоге? Читайте доки, проверяйте данные и метрики перед запусками, делайте перерывы в работе, а то ваши мыслительные процессы станут похожи на жалкие потуги обучить T5 на процессоре
🔥9