Идеальная реализация Рерайтинга и Саммарайзинга. Неясно за качество но UX просто идеальный
Image Playgound - три стиля, и говорят все НА ДЕВАЙСЕ
По следам вчерашней презентации от Эппле.
Все вопрошают, а что за модель, сколько параметров, на устройстве или нет.
Давайте разбираться.
Забираем все подробности отсюда:
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Количество параметров для On-Device Foundation Model - 3B.
Про серверные модели читайте по ссылке, сейчас интересно разобраться, что происходит на девайсе (с батарейкой в том числе).
Локальных базовых моделей, которые крутятся на телефоне (и ноуте) несколько, это зафайнтюненные модели под конкретные задачи. И там, похоже, подход, напоминающий Mixture of Experts. Есть маршрутизация запросов пользователя в нужную базовую модельку.
Более того, там есть Лоры, которые Эппле зовет адаптерами. Они позволяют еще точнее подбирать оптимальный ответ на запросы пользователя.
А чтобы все это хозяйство влезало в память, используется компрессия и квантизация с 16 бит до 4 бит. Обещают, что модель не тупеет сильно. При этом там динамическая выгрузка из памяти ненужной модели и загрузка требуемой в данный момент.
В общем как-то так: несколько файнтюнов базовой модели плюс Лоры плюс квантизация в 4 бита.
И все то же самое для диффузионной модели для картинок. Не уверен за файнтюны, но там точно три Лоры для иллюстрации, картуна и скетча. И Квантизация в 4 бита - так что генерация картинок точно крутится на девайсе (измеряем температуру в тестах). Подозреваю, что фоториал и лица были выкорчеваны с корнем из датасетов, а лоры добивают картинку до безопасно-пресной.
На вопрос, когда языковая модель крутится на девайсе, а когда лезет в ИИ-облако Эппле нет ответа. Говорят, что происходит "оркестрация запроса" и маршрутизатор запросов сам решает, куда направлять задачу.
Но мне вот интересно, как происходит оркестрация промптов в Сири - когда она решает покреативить сама, а когда бежит за помощью к Большому Брату - chatGPT?
И тут точно огромная дыра в безопасности. Просто прямой текстовый незашифрованный канал для слива информации о той самой персонализации, так превозносимой на презентации.
И Маск не зря возбухает, обещая запретить ифончики в компании, если этот вопрос не будет прояснен до конца.
Пока все, ждем от Эппле нарциссических бенчмарков их LLM и джейлбрейков Сири - народ скоро займется любимым делом.
Все вопрошают, а что за модель, сколько параметров, на устройстве или нет.
Давайте разбираться.
Забираем все подробности отсюда:
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Количество параметров для On-Device Foundation Model - 3B.
Про серверные модели читайте по ссылке, сейчас интересно разобраться, что происходит на девайсе (с батарейкой в том числе).
Локальных базовых моделей, которые крутятся на телефоне (и ноуте) несколько, это зафайнтюненные модели под конкретные задачи. И там, похоже, подход, напоминающий Mixture of Experts. Есть маршрутизация запросов пользователя в нужную базовую модельку.
Более того, там есть Лоры, которые Эппле зовет адаптерами. Они позволяют еще точнее подбирать оптимальный ответ на запросы пользователя.
А чтобы все это хозяйство влезало в память, используется компрессия и квантизация с 16 бит до 4 бит. Обещают, что модель не тупеет сильно. При этом там динамическая выгрузка из памяти ненужной модели и загрузка требуемой в данный момент.
В общем как-то так: несколько файнтюнов базовой модели плюс Лоры плюс квантизация в 4 бита.
И все то же самое для диффузионной модели для картинок. Не уверен за файнтюны, но там точно три Лоры для иллюстрации, картуна и скетча. И Квантизация в 4 бита - так что генерация картинок точно крутится на девайсе (измеряем температуру в тестах). Подозреваю, что фоториал и лица были выкорчеваны с корнем из датасетов, а лоры добивают картинку до безопасно-пресной.
На вопрос, когда языковая модель крутится на девайсе, а когда лезет в ИИ-облако Эппле нет ответа. Говорят, что происходит "оркестрация запроса" и маршрутизатор запросов сам решает, куда направлять задачу.
Но мне вот интересно, как происходит оркестрация промптов в Сири - когда она решает покреативить сама, а когда бежит за помощью к Большому Брату - chatGPT?
И тут точно огромная дыра в безопасности. Просто прямой текстовый незашифрованный канал для слива информации о той самой персонализации, так превозносимой на презентации.
И Маск не зря возбухает, обещая запретить ифончики в компании, если этот вопрос не будет прояснен до конца.
Пока все, ждем от Эппле нарциссических бенчмарков их LLM и джейлбрейков Сири - народ скоро займется любимым делом.
This media is not supported in your browser
VIEW IN TELEGRAM
Хех, пост про Хомяков приподразорвал коменты. Наверное надо мне реанимировать мой семилетний пост про "биточки с гречкой".
А я вот принес вам пример метаверсика, в котором нет крипты, в котором юзеры не скучают, и в котором есть что поделать (что для метаверсиков - чудо).
В общем это Котоверс. И это просто убойная VR-игра.
Никакой фетишизации реалистичности, никакого воздыхания над погружением, а просто взыскание к желанию взрослых детей нашкодить, напакостить, извести ближнего своего, особенно учительницу или директора школы.
Сделано с таким задором, что я еще раз убеждаюсь, в любом метаверсике: механика - всё, антураж - ничто (наскучивает моментально). Представьте, что вам надо внести как можно больше хаоса в метаверсик: и тут вам вручают мерзавца кота, который роняет горшки, бьет посуду, жрет рыбок в аквариуме и изводит хозяйку. Чем больше извел, тем выше результат. Сдается мне, хороший тренажер для релиза детских психотравм.
А Вова Закоулов, с которым мы тусуем на Кипре, рассказал, что это сделали беларусы, сидящие на Кипре. У него, кстати, отличный разбор игры, не с точки зрения метаверсика, а с точки зрения денег и успеха: почему они выстрелили и причем тут Meta App Lab.
Все ссылки на игру и видосы вот тут, а я сижу ржу и болею за кота.
А я вот принес вам пример метаверсика, в котором нет крипты, в котором юзеры не скучают, и в котором есть что поделать (что для метаверсиков - чудо).
В общем это Котоверс. И это просто убойная VR-игра.
Никакой фетишизации реалистичности, никакого воздыхания над погружением, а просто взыскание к желанию взрослых детей нашкодить, напакостить, извести ближнего своего, особенно учительницу или директора школы.
Сделано с таким задором, что я еще раз убеждаюсь, в любом метаверсике: механика - всё, антураж - ничто (наскучивает моментально). Представьте, что вам надо внести как можно больше хаоса в метаверсик: и тут вам вручают мерзавца кота, который роняет горшки, бьет посуду, жрет рыбок в аквариуме и изводит хозяйку. Чем больше извел, тем выше результат. Сдается мне, хороший тренажер для релиза детских психотравм.
А Вова Закоулов, с которым мы тусуем на Кипре, рассказал, что это сделали беларусы, сидящие на Кипре. У него, кстати, отличный разбор игры, не с точки зрения метаверсика, а с точки зрения денег и успеха: почему они выстрелили и причем тут Meta App Lab.
Все ссылки на игру и видосы вот тут, а я сижу ржу и болею за кота.
Эппле хвастается бенчмарками. Как они побивают gpt-3.5-turbo-0125, gpt-4-0125-preview, Phi-3-mini-4k-instruct, Mistral-7B-Instruct-v0.2, Mixtral-8x22B-Instruct-v0.1, Gemma-1.1-2B и Gemma-1.1-7B.
Обратите внимание на версии.
А теперь вишенка:
Модели с открытым исходным кодом и Apple оцениваются с точностью bfloat16
А на девайсах крутятся квантизированные модели 4-бит.
Умеет Эппле сравнивать, ничего не скажешь.
P.S. Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели.
P.S. "Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели."
Верим на слово?
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Обратите внимание на версии.
А теперь вишенка:
Модели с открытым исходным кодом и Apple оцениваются с точностью bfloat16
А на девайсах крутятся квантизированные модели 4-бит.
Умеет Эппле сравнивать, ничего не скажешь.
P.S. Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели.
P.S. "Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели."
Верим на слово?
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Forwarded from Нейронавт | Нейросети в творчестве
L-MAGIC: Language Model Assisted Generation of Images with Coherence
Генератор 360-градусных панорам от Intel Labs. Под капотом LLM для составления промпта.
На вход умеет принимать разные исходные данные: картинка, набросок, текстовое описание
Код
Демо ждем
#image2panorama #sketch2image #sketch2panorama #text2panorama
Генератор 360-градусных панорам от Intel Labs. Под капотом LLM для составления промпта.
На вход умеет принимать разные исходные данные: картинка, набросок, текстовое описание
Код
Демо ждем
#image2panorama #sketch2image #sketch2panorama #text2panorama