Лол, оказывается, SD3 - Medium была ошибкой.
Чувак, который разработал Comfy UI, работал в Stability и недавно уволился оттуда, рассказав интересную инфу про SD3.
Сам мистер Комфи работал над 4B версией, но поделился инфой.
Вот что теперь стало известно:
- Нет никаких censor layers. Из датасета просто реально вырезали все нюдсы, и в довесок разрабы что-то там подшаманили с весами (про последнее нет особо подробностей).
- "Safety training" — так теперь называется кастрация датасета, которая факапит анатомию людей и не дает генерить NSFW.
- Более того, уже в самом начале разрабы напортачили с претрейном. Так что 2B вообще не собирались релизить.
- Причиной релиза стало "давление сверху". То есть, в целом мы могли бы получить 4B или 8B вместо всратой 2B Medium модели.
- Пока подтверждения о том, что выложат VAE, нет.
- Сам Комфи просто хотел сделать лучшую модельку для домашних ГПУ, но в Stability в последнее время штормит.
В итоге мы имеем мертворожденный релиз, который был просто одним из первоначальных экспериментов ресерчеров (которые уже уволились), выложенный просто чтобы успокоить кого? Инвесторов?
Очевидно, что Stability, проходят через свои нелучшие времена, но я искренне надеюсь, что компания не развалится через год и продолжит радовать нас open source модельками. Хотя у меня большие сомнения по этому поводу, ведь весь ресерч костяк (мои бывшие коллеги по PhD в Хайдельберге) уже уволился.
Тред
@ai_newz
Чувак, который разработал Comfy UI, работал в Stability и недавно уволился оттуда, рассказав интересную инфу про SD3.
Сам мистер Комфи работал над 4B версией, но поделился инфой.
Вот что теперь стало известно:
- Нет никаких censor layers. Из датасета просто реально вырезали все нюдсы, и в довесок разрабы что-то там подшаманили с весами (про последнее нет особо подробностей).
- "Safety training" — так теперь называется кастрация датасета, которая факапит анатомию людей и не дает генерить NSFW.
- Более того, уже в самом начале разрабы напортачили с претрейном. Так что 2B вообще не собирались релизить.
- Причиной релиза стало "давление сверху". То есть, в целом мы могли бы получить 4B или 8B вместо всратой 2B Medium модели.
- Пока подтверждения о том, что выложат VAE, нет.
- Сам Комфи просто хотел сделать лучшую модельку для домашних ГПУ, но в Stability в последнее время штормит.
В итоге мы имеем мертворожденный релиз, который был просто одним из первоначальных экспериментов ресерчеров (которые уже уволились), выложенный просто чтобы успокоить кого? Инвесторов?
Очевидно, что Stability, проходят через свои нелучшие времена, но я искренне надеюсь, что компания не развалится через год и продолжит радовать нас open source модельками. Хотя у меня большие сомнения по этому поводу, ведь весь ресерч костяк (мои бывшие коллеги по PhD в Хайдельберге) уже уволился.
Тред
@ai_newz
Коллеги из Meta только что релизнули веса нескольких моделей для ресёрча
Chameleon - мультимодальная модель, которую изначально тренировали и на изображениях и тексте. В пейпере представлена версия которая может и воспринимать и генерировать текст с изображениями, но генерации изображений в открытом релизе нет. Есть две модели: 7B и 34B, обе тренировали на 10 триллионах токенов. Лицензия некоммерческая (только для ресёрча).
Веса
Пейпер (его выпустили ещё в прошлом месяце)
Multi-Token Prediction Language Model - модель которая за раз предсказывает несколько следующих токенов. Это заметно ускоряет инференс, плюс тюнинг такой модели для генерации одного токена за раз обгоняет обычные методы тренировки. Модель только для ресёрча, в коммерческих целях их использовать не позволяет лицензия.
Веса
Пейпер
Ещё пообещали выпустить в этом месяце новую модель для генерации аудио JASCO, с некоммерческой лицензией (CC-BY-NC), добавив ее в либу Audiocraft.
Репа, где будет релиз
Примеры работы модели
@ai_newz
Chameleon - мультимодальная модель, которую изначально тренировали и на изображениях и тексте. В пейпере представлена версия которая может и воспринимать и генерировать текст с изображениями, но генерации изображений в открытом релизе нет. Есть две модели: 7B и 34B, обе тренировали на 10 триллионах токенов. Лицензия некоммерческая (только для ресёрча).
Веса
Пейпер (его выпустили ещё в прошлом месяце)
Multi-Token Prediction Language Model - модель которая за раз предсказывает несколько следующих токенов. Это заметно ускоряет инференс, плюс тюнинг такой модели для генерации одного токена за раз обгоняет обычные методы тренировки. Модель только для ресёрча, в коммерческих целях их использовать не позволяет лицензия.
Веса
Пейпер
Ещё пообещали выпустить в этом месяце новую модель для генерации аудио JASCO, с некоммерческой лицензией (CC-BY-NC), добавив ее в либу Audiocraft.
Репа, где будет релиз
Примеры работы модели
@ai_newz
Media is too big
VIEW IN TELEGRAM
Воу, школьники из майнкрафта выросли I guess...
Чел собрал MLP нейросеть для распознавания рукописных (или в данном случае ногописных) цифр в Майнкрафте 😮💨
А ведь более 30 лет назад, когда Ян ЛеКун показал первое реальное демо распознавания цифр с помощью CNN— это был научный прорыв.
В видосе есть подробный гайд, так что будет даже полезно для тех, кто только начал изучать нейронки.
Смешно, что вывод результата занял у челика больше блоков и компьюта, чем сама нейросеть.
Веса модели, конечно, он натренировал отдельно на питоне, но кроме этого всё работает на чистом редстоуне. Редстоун - это ресурс с помощью которого в Майнкрафте можно симулировать электричество. Вот тут я для вас специально спросил про Редстоун у perplexity.
Это не первый такой проект, команда китайцев делала что-то подобное, но на другой архитектуре. Тогда у целой команды ушло полгода, а тут всего две недели. Даже как-то странно говорить это в таком контексте. А ещё этот вариант быстрее более чем в два раза (две минуты), ну и точность 83 против 80% у китайцев. Пора завести бенчмарк для редстоун-нейронок?
Нда, скоро ML будут в первых классах проходить.
Смотрим
@ai_newz
Чел собрал MLP нейросеть для распознавания рукописных (или в данном случае ногописных) цифр в Майнкрафте 😮💨
А ведь более 30 лет назад, когда Ян ЛеКун показал первое реальное демо распознавания цифр с помощью CNN— это был научный прорыв.
В видосе есть подробный гайд, так что будет даже полезно для тех, кто только начал изучать нейронки.
Смешно, что вывод результата занял у челика больше блоков и компьюта, чем сама нейросеть.
Веса модели, конечно, он натренировал отдельно на питоне, но кроме этого всё работает на чистом редстоуне. Редстоун - это ресурс с помощью которого в Майнкрафте можно симулировать электричество. Вот тут я для вас специально спросил про Редстоун у perplexity.
Это не первый такой проект, команда китайцев делала что-то подобное, но на другой архитектуре. Тогда у целой команды ушло полгода, а тут всего две недели. Даже как-то странно говорить это в таком контексте. А ещё этот вариант быстрее более чем в два раза (две минуты), ну и точность 83 против 80% у китайцев. Пора завести бенчмарк для редстоун-нейронок?
Нда, скоро ML будут в первых классах проходить.
Смотрим
@ai_newz
А вот и Илья Сутскевер нашелся!
Он с корешами основал новую контору - Safe Superintelligence Inc.
TLDR: будут строить безопасный суперинтелект без отвлечения на коммерцию. То есть это OpenAI в том виде, в каком и была изначально задумана.
Миссия Safe Superintelligence Inc.:
- Создание безопасного суперинтеллекта (SSI), который считается самой важной технической проблемой нашего времени.
- Миссия компании, название и весь продуктовый план полностью сосредоточены на достижении SSI.
Их цели :
- Разработать возможности SSI как можно быстрее, при этом всегда обеспечивая, чтобы меры безопасности опережали развитие.
- Сохранять единственный фокус на SSI без отвлечения на управленческие перегрузки или циклы продукта.
- Гарантировать, что безопасность, защита и прогресс защищены от краткосрочных коммерческих давлений.
- Собрать высококлассную команду инженеров и исследователей, полностью посвященных разработке SSI.
- Предложить возможности для людей заниматься значимой работой, которая решает значительную техническую задачу эпохи.
Вот только про open-source Илья пока не упоминал. Возможно, они также не будут ничего релизить, т.к. небезопасно. Но все равно очень интересно! Я верю в Илью больше чем в Альтмана, конечно, ведь Илья — это топовый учёный.
@ai_newz
Он с корешами основал новую контору - Safe Superintelligence Inc.
TLDR: будут строить безопасный суперинтелект без отвлечения на коммерцию. То есть это OpenAI в том виде, в каком и была изначально задумана.
Миссия Safe Superintelligence Inc.:
- Создание безопасного суперинтеллекта (SSI), который считается самой важной технической проблемой нашего времени.
- Миссия компании, название и весь продуктовый план полностью сосредоточены на достижении SSI.
Их цели :
- Разработать возможности SSI как можно быстрее, при этом всегда обеспечивая, чтобы меры безопасности опережали развитие.
- Сохранять единственный фокус на SSI без отвлечения на управленческие перегрузки или циклы продукта.
- Гарантировать, что безопасность, защита и прогресс защищены от краткосрочных коммерческих давлений.
- Собрать высококлассную команду инженеров и исследователей, полностью посвященных разработке SSI.
- Предложить возможности для людей заниматься значимой работой, которая решает значительную техническую задачу эпохи.
Вот только про open-source Илья пока не упоминал. Возможно, они также не будут ничего релизить, т.к. небезопасно. Но все равно очень интересно! Я верю в Илью больше чем в Альтмана, конечно, ведь Илья — это топовый учёный.
@ai_newz
Помните, какой хайп был вокруг первых видосов Sora?
Я вот лично считаю, что Luma AI сильно недооценивают. Руки норм киноделов только добрались до нее и вот взгляните на первый видосик. Это выглядит как реальный фильм! и наглядный пример того, как черрипики от экспертов могут устроить сильнейший оверхайп.
Ответственно заявляю: LUMA AI - это 99% Sora, которую мы так ждали! Просто нужны руки, много повторений, и возможно, щепотка постпроцессинга в видеоредакторе.
source 1
source 2
source 3
source 4
Мои тесты LUMA: тык, тык
@ai_newz
Я вот лично считаю, что Luma AI сильно недооценивают. Руки норм киноделов только добрались до нее и вот взгляните на первый видосик. Это выглядит как реальный фильм! и наглядный пример того, как черрипики от экспертов могут устроить сильнейший оверхайп.
Ответственно заявляю: LUMA AI - это 99% Sora, которую мы так ждали! Просто нужны руки, много повторений, и возможно, щепотка постпроцессинга в видеоредакторе.
source 1
source 2
source 3
source 4
Мои тесты LUMA: тык, тык
@ai_newz
🔥Anthropic зарелизили новую модель Claude 3.5 Sonnet - и она бьет GPT-4o!
По цене компьюта и скорости модель на уровне средней модельки Claude 3 Sonnet, но по качеству превосходит самую большую их модель Claude 3 Opus, а также бьет GPT-4o почти на всех бенчах – слегка уступает только на математике и на MMMU в ответах на вопросы по картинке.
В то же время Claude 3.5 Sonnet дешевле чем Claude Opus 3 в пять раз! И дешевле GPT-4o на инпуте ($3 против $5 за млн токенов).
Контекст: 200K Токенов.
Отдельно отмечают прогресс по Vision - 4o и тут проигрывает. Кардинальные улучшения наиболее заметны для задач, требующих визуального мышления, например, для интерпретации диаграмм и графиков. Claude 3.5 Sonnet также может более точно транскрибировать текст из шакальных изображений.
Авторы говорят, что это первый релиз из семейства 3.5, другие обещают попозже в этом году.
Модель уже доступна бесплатно на Claude.ai и в iOS приложении. А также через API: $3/млн входных токенов, $15/млн сгенерированных токенов.
Ну, и ждём рейтинга на арене, конечно.
@ai_newz
По цене компьюта и скорости модель на уровне средней модельки Claude 3 Sonnet, но по качеству превосходит самую большую их модель Claude 3 Opus, а также бьет GPT-4o почти на всех бенчах – слегка уступает только на математике и на MMMU в ответах на вопросы по картинке.
В то же время Claude 3.5 Sonnet дешевле чем Claude Opus 3 в пять раз! И дешевле GPT-4o на инпуте ($3 против $5 за млн токенов).
Контекст: 200K Токенов.
Отдельно отмечают прогресс по Vision - 4o и тут проигрывает. Кардинальные улучшения наиболее заметны для задач, требующих визуального мышления, например, для интерпретации диаграмм и графиков. Claude 3.5 Sonnet также может более точно транскрибировать текст из шакальных изображений.
Авторы говорят, что это первый релиз из семейства 3.5, другие обещают попозже в этом году.
Модель уже доступна бесплатно на Claude.ai и в iOS приложении. А также через API: $3/млн входных токенов, $15/млн сгенерированных токенов.
Ну, и ждём рейтинга на арене, конечно.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А ещё Anthropic запустили превью Artifacts - такой вот себе конкурент Advanced Data Analysis в ChatGPT, который позволяет запускать в браузере джаваскрипт и показывать html с svg.
Это позволяет быстро прототипировать вебсайты и даже делать простые браузерные игры!
Good evening, Sam
@ai_newz
Это позволяет быстро прототипировать вебсайты и даже делать простые браузерные игры!
Good evening, Sam
@ai_newz
DeepSeek Coder V2
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Веса: 236B / 16B
Пейпер
@ai_newz
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Веса: 236B / 16B
Пейпер
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Elevenlabs жестко тролит гугл.
Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.
Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.
В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.
Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.
В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.
video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind
@ai_newz
Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.
Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.
В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.
Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.
В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.
video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind
@ai_newz
Кажись Игра Престолов в Stability пока приостановилась - по данным The Information, в компанию зашла новая группа инвесторов с баблишком. Из их числа будет и новый CEO, Прем Аккараджу. Это бывший CEO Weta, компании созданной для производства спецэффектов в Властелине Колец, а с тех пор делающей самые сложные сцены в Аватаре, Мстителях и других графонистых фильмах.
Компании нужно срочно искать новых клиентов, ведь она теряет деньги бешенными темпами: в первом квартале этого года расходы были 30 миллионов, при доходе в 5. А на балансе компании висит долг в $100 млн за облачные вычисления и прочее.
Похоже новые инвесторы верят что именно они смогут найти новые источники дохода, непонятно как это сочетается с открытыми релизами моделей. Я бы сказал, что это как раз не сочетается, и возможно золотые дни Stability с опесорсами уже сочтены.
@ai_newz
Компании нужно срочно искать новых клиентов, ведь она теряет деньги бешенными темпами: в первом квартале этого года расходы были 30 миллионов, при доходе в 5. А на балансе компании висит долг в $100 млн за облачные вычисления и прочее.
Похоже новые инвесторы верят что именно они смогут найти новые источники дохода, непонятно как это сочетается с открытыми релизами моделей. Я бы сказал, что это как раз не сочетается, и возможно золотые дни Stability с опесорсами уже сочтены.
@ai_newz