FSCP
15.8K subscribers
31.4K photos
3.94K videos
868 files
80.6K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
🔥DeepSeek R1 - уровень o1 бесплатно

Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.

Веса R1
Пейпер
Код


Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.

Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).

Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.

Интеллект для всех, даром, и пусть никто не уйдёт обиженный!

Qwen 1.5B
Qwen 7B
Llama 8B
Qwen 14B
Qwen 32B
Llama 70B

_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода,

Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).

Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.

Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.

@ai_newz

_______
Источник | #ai_newz
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney
Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen

У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё

Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).

Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.

Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.

Веса Qwen-2.5-VL
Веса Qwen-2.5-1M

chat.qwenlm.ai

Источник: https://t.iss.one/ai_newz/3644

________________________
ДипСик, который рвет инфопространство, роняет акции Нвидия, вызывает панические атаки в Метачке, взял и бахнул генератор картинок!!

Не диффузия - Janus-Pro - это новая авторегрессионная модель, унифицированная MLLM которая разделяет visual encoding for multimodal understanding and generation.
Janus-Pro построен на базе DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base.

Идем тестировать, это все OPEN SOURCE!!!

huggingface.co
https://github.com/deepseek-ai/Janus


Источник: https://t.iss.one/cgevent/10937

_________________________
Perplexity добавили Reasoning в Pro Search

Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.

R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.

Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.

perplexity.ai
_______
Источник | #ai_newz
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
🖱 Режим глубоких рассуждений в Perplexity

Кто не знает о Perplexity - срочно это исправлять, вот посты про эту нейросеть и, а заодно и про новый поисковик и его сравнение с ChatGPT, и какую подписку за 20$ выбрать: Perplexity или ChatGPT

Вслед за 📱 ChatGPT, Perplexity выкатили Deep Research - для более осмысленных ответов. Думает прилично - у меня заняло 4 минуты на одну из задач, на другую 2 минуты. Бесплатно можно делать 5 запросов, читай исследований, в день. Против 10 запросов в месяц в режиме Deep Research в ChatGPT, причем платно за 20$/месяц. А с подпиской Pro в Perplexity за $20 вообще безлимит.

🌸 Я протестила Perplexity Deep Research на двух разных задачах, результаты моете посмотреть в видео. Скажу вкратце, мне понравилось, структурно и четко.

Как работает 🔡

🌸 Исследование с рассуждением - в режиме глубокого исследования Perplexity ищет, читает документы и рассуждает о том, что делать дальше. По мере того, как Perplexity узнает больше о предмете исследования, нейросеть может усовершенствовать свой план исследования. В принципе как и человек, по мере того, как узнает больше нюансов, начинает все лучше и лучше разбираться в теме, и совершенствуется на протяжении всего учебного процесса.
🌸 Составление отчета. После того как исходные материалы полностью изучены, агент обобщает все результаты исследования в четкий и полный отчет.
🌸 Экспорт и публикация. Затем вы можете экспортировать итоговый отчет в PDF-файл или документ, либо преобразовать его в Perplexity Page и поделиться им с коллегами или др

Что крутого 🔡

🔴 Заявлено, что при анализе информации задействует до 100 источников. По факту на мой запрос “расскажи, что я должна знать о том, как делаются reels на миллионы просмотров-инструменты, тренды, сервисы?”, Perplexity задействовал 101 ресурс! Тогда как ChatGPT задействует в 5 раз меньше источников и сайтов.

🟡 Готовый доклад, исследование, анализ можно экспортировать в формате PDF. Я попросила проанализировать, как менялся курс доллара к рублю с 1924 года, и какие события к тому привели - за 2 минуты получила готовое исследование, которое экспортировалось в PDF на 4 листах

🟣 93,9% правильных ответов в SimpleQA, который определяет фактическую точность ответов

🔴 Для работы не нужен телепорт, работать можно и на сайте, и в приложении

_______
Источник | #NeuralProfit

__________________________
Бесплатный Deep Research от Perplexity

Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.

Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.
perplexity.ai

_______
Источник | #ai_newz
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель

Похоже, это та самая загадочная модель которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нету нескольких сильных конкурентов, вроде Veo 3 от гугла. Больше бенчей никаких нету, так что ждём полноценного техрепорта и, тем временем, вайбчекаем модель по генерациям). По ним, к примеру, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.

Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.

Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.

Веса
Код
wanxai.com

@ai_newz

_______
Источник | #ai_newz
Сейчас все вычисления производятся на серверах и ваш лаптоп служит вам только для того чтобы подключиться к машине с по ssh, локально почти никто ничего уже не запускает. Вот и тулы для программистов переезжают в клауд. Нактнулся на такую штуковину – SourceCraft. Это новая платформа для командной разработки от Yandex B2B Tech. Она поддерживает полный цикл разработки от постановки задачи до деплоя в облаке. Там много приблуд, которые спасают от рутины, например – быстрая навигация по коду, гибкая система CI/CD и др.

А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.

Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.
_______
Источник | #ai_newz
———
помните что облако это просто чужой компьютер...
———
#хроникицифровизации

_______
Источник | #F_S_C_P
@F_S_C_P

⚙️ Разработка ботов Telegram от 5000 руб
«Сильнейшая нейросетевая модель на русском языке» — так Сбер позиционирует свой новый GigaChat 2.0 в версии MAX. Сегодня в релиз также вышли облегчённые версии Pro и Lite, по производительности они заявлены на уровне MAX и Pro прошлого поколения.

GigaChat 2.0 MAX занял первое место по данным бенчмарка MERA для русского языка. По результатам тестов формата MMLU (RU / EN) модель находится на одном уровне с DeepSeek-V3, Qwen2.5 (версия Qwen-2.5-75b), GPT4o и LLaMA 70B, а где-то их даже превосходит.

В Сбере сообщили, что теперь модели обрабатывают в четыре раза больше контекста, в два раза точнее следуют инструкциям пользователя и на 25% лучше отвечают на вопросы.

✔️ Ещё один интересный акцент — на агентский потенциал моделей. Для разработки агентов на Python и JS на базе GigaChat 2.0 можно использовать популярный SDK LangChain, с которым линейка полностью совместима. Пакеты совместимости — в публичном репозитории GigaChain.

Прошлись по модели MAX с нашими стандартными вопросами: сколько понедельников / суббот было в один из месяцев, сколько нулей в полумиллионе и букв r в слове strawberry — задачи, с которыми семейство YandexGPT 4 справиться не смогло (хотя в версии 5 Pro таких проблем с календарём и числами уже нет)

Каков результат? Модель Сбера не путается в нулях, но вот справиться с календарём и буквами GigaChat 2.0 до конца не может. При вопросе о субботах в ноябре 2024 года он почему-то думает, что месяц начался со среды, а не в пятницу.

При изначально ошибочной предпосылке дальнейшая логика с подсчётами дней не помогает. А что касается букв... Как мы помним, это болезнь архитектуры и деления слов на токены. Хотя вот ChatGPT с активированным «Обоснуй» с подсчётом букв и календарём сейчас всё же справляется.

Протестировать новые модели уже может любой желающий. Для этого достаточно зарегистрироваться на платформе Studio, создать новый проект с GigaChat API и перейти в режим Playground. Развлекайтесь!

_______
Источник | #anti_agi

_____________________________________

Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro.

Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы повех тренить что-то свое) и продолжили претрейн на русском языке.

Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.

По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) оюбещают рассказать в следующем посте.

ТехРепорт на хабре
_______
Источник | #ai_newz

_____________________
@F_S_C_P

Стань спонсором!
RIP Photoshop (нет) https://t.iss.one/ai_newz/3740

Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental. Мог бы сказать, что фотошоп в целом больше не нужен, но, блин, эта штука в туории может куда больше, чем мог бы Photoshop. Я совсем не представляю, как можно было бы вручную наложить шоколадный крем на круассаны с первой пикчи. 

Никакой из доступных из коробки методов не способен был такое провернуть. Через ControlNet или inpainting так не сделаешь, потому что они изменяют детали — круассаны будут чуть другими или по-другому лежать. А здесь мы имеем хирургически точное редактирование картинки одним только текстом. Единственный минус пока - это низкая детализация и низкое разрешение генераций.

Другие юзкейсы: 

- Product photo — раньше нужно было бы тренить LoRA, чтобы получить пикчу №2. Нужно больше фотографий + примерно час работы. 
- Character sheet design — пикча №3. По одному концепту получаем разворот с трех сторон для моделлеров. Можно было бы погенерить что-то подобное, но здесь мы видим консистентность, которой раньше было сложно добиться моделями из коробки.
- Нейрофотосессии — пикча №4. Повторяем лицо по одной фотографии так, словно это LoRA для Flux
- Гайды — пикчи №5,6,7. Может на картинке выделять, куда тыкнуть, рисовать консистентные гайды, как здесь в примере с готовкой. 
И т.д.

Вот она, сила мультимодальных моделей. Все это благодаря тому, что тут генерация изображений и LLM объединены вместе. В отличие от, например Flux или Imagen 3, тут картиночные токены выплевываются напрямую из LLM, без вызова диффузии. За счет этого и достигается более нативное редактирование входных картинок. Но такой метод все же пока уступает диффузии в качестве генерации.

Кстати, в Grok такую LLM-генерацию (Aurora) завезли еще в декабре, и ее можно попробовать в Grok3, вот только редактирование там пока отключили.
Что-то подобное показывала OpenAI ещё в прошлом году, но так в прод и не завезли (эх Cэма-Сэма). Если Gemini Flash так хорош и дешевле, то что будет с 4o

Попробовать можно в ai studio.

_______
Источник | #ai_newz
@F_S_C_P

Стань спонсором!
Krea продолжает жечь.

Restyle Video - загружаете свое видео, а потом выбираете "контролНеты":

"Depth" сохранит движение, захваченное с помощью карты глубины на исходном видео.

"Edges" будет захватывать движение по контурам с исходника - отлично подходит для крупных планов или лиц, говорящих.

"Pose" будет захватывать только движения людей на видео - подходит для видео с людьми и статичным фоном.

"Video" тупо захватит движение из пикселей исходника без дополнительной обработки.

Потом выбираете стиль, надо который навалить на видео.

Напоминает ранний Runway.
_______
Источник | #cgevent

__________________________

Для Gemma 3 вышли официальные квантизированные версии

Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.

Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.

Скачать

_______
Источник | #ai_newz
@F_S_C_P

-------
Секретики!
-------