Технозаметки Малышева
9.71K subscribers
4.06K photos
1.49K videos
41 files
4.18K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from scriptRun AI медиа
Пока все обсуждают ChatGPT и Gemini, китайский техногигант Tencent тихонько выкатил  Yuanbao

Это такой AI-комбайн для генерации контента и автоматизации всякой рутины, который был официально запущен ещё 30 мая 2024 года.

Вначале вас встречает окно с чатом, на борту которого модель Hunyuan Large.

Технические детали можно глянуть тут, а так же на GitHub.

Чат поддерживает работу с различными форматами документов
✔️PDF
✔️Word и TXT
✔️ppt
✔️Excel (Каждый не более 100 МБ, максимум 50 штук за 1 запрос)
✔️Принимает изображения
✔️Позволяет создавать персонализированных агентов
✔️Может искать информацию в интернете и проводить глубокое исследование.

Но что еще интереснее, в нем можно создавать изображения, и вот тут я бы хотел рассказать подробнее:

Возможности, которые судя по всему безлимитные:
✔️txt to img
✔️img to img
✔️uncrop (расширение фото)
✔️удаление объектов
✔️upscale (не качественный)
✔️удаление водяного знака (не понял зачем они его вообще добавляют, если есть такая функция)
✔️минимальное разрешение - 768х768
✔️максимальное разрешение - 1280х1280
✔️соотношение сторон можно менять (1:1, 16:9, 9:16, 3:4, 4:3)

Помимо главного чата, есть страница на которой расположено множество чатов, заточенных под конкретные задачи.

Также, на этой странице есть создание стилизованного аватара, стилизованных стикеров, создание 3D аватара (но работает только в мобильном приложении).

На этой странице еще есть галерея сгенерированных изображений, в которой можно выполнять поиск, но только на китайском языке.

Третья страница открывает Hunyuan Video, где ежедневно дается по 6 генераций. Нужна регистрация с китайским номером.

Китайский одноразовый номер можно взять на app.cyberyozh.com за $0.5

Официальный сайт
Приложение на android
Программа на ПК
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
Anthropic открыли Haiku 3.5

Меняем везде в API с
claude-3-haiku-20240307

на

claude-3-5-haiku-latest

#Anthropic #Haiku
———
@tsingular
4
Forwarded from Dendi Math&AI (Денис Димитров)
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳

Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.

Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗

Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.

Stay tuned!

И аккуратно — во вложении есть видео со звуком :)

@dendi_math_ai
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
Krea.ai Edit

Редактор изображений Krea.ai теперь доступен всем.

Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)

#imageediting #inpainting #outpainting
🔥13👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем адвенты.

в продолжение этой темы
https://t.iss.one/tsingular/2870

Маленький, но важный апдейт.

Добавил команду /autosummary
теперь с её помощь в чате можно определить время, когда вы хотите для всех в чат выводить общую сводку за последние 24 часа.

Разрешена только админам чата.

Главное, - эта функция бесплатная и автоматическая.

пример:

/autosummary 9:00

и каждое утро весь ваш чат будет видеть что обсуждалось.

#dev #боты
———
@tsingular
🔥9👨‍💻2👍1👏1
🎉 Только что вышла DeepSeek-VL2! Новая модель vision-language нового поколения.

🤖 Deep SeekMo Search + динамическая обработка изображений
3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках

DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
 
Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.


💡 По-прежнему полностью открытый исходный код!

💾 Hugging Face: huggingface.co/deepseek-ai
🖥Github: https://github.com/deepseek-ai/DeepSeek-VL2

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
Google запускает корпоративные ИИ-агенты в Agentspace

Корпорация выпустила интегрированную платформу для бизнеса, объединяющую возможности Gemini с корпоративными данными.

Система позволяет интегрировать документы в Confluence, Drive, Jira, SharePoint, ServiceNow.

Функционал включает мультиязычную обработку, автоматический перевод и создание пользовательских агентов.

NotebookLM Plus позволяет синтезировать информацию, формировать аудио-обзоры и работать с Gemini 2.0 Flash.

Платформа обеспечивает безопасную инфраструктуру через VPC и IAM с контролем доступа к данным предприятия.

Жаль у нас нет Workspace, конечно.

#Google #Agentspace #NotebookLM
-------
@tsingular
🔥3
Media is too big
VIEW IN TELEGRAM
OpenAI добавили Проекты в chatGPT.

Теперь чаты слева это папки в которые можно положить файлы и контент будет связан в диалогах внутри проекта.
Можно на него ссылаться, уточнять, переделывать и дополнять результатами поиска в интернете.

#OpenAI #Advent
———
@tsingular
👍2
Гонка гигантов: миллионы GPU для суперкомпьютеров к 2027

Broadcom раскрывает амбициозные планы: три клиента готовятся развернуть суперкластеры с миллионом XPU каждый.
Среди заказчиков - xAI Илона Маска, планирующая расширить Colossus со 100 тысяч до миллиона графических процессоров.
По слухам, ByteDance и OpenAI также сотрудничают с производителем для создания специализированных чипов.
Прогнозируемый объём рынка AI XPU и сетевого оборудования к 2027 достигнет $60-90 млрд.
Разработка включает проектирование архитектуры и производство на мощностях TSMC.

Миллион.. миллион.. миллион... GPU
xAI, OpenAI и ТикТок
еще Google миллион своих и Китай пару полей покройт GPU фермами, допустим.
10 миллионов GPU глобально к 2027.
Должно хватить, что бы посчитать сколько r в strawberry наконец-то.

#Broadcom #xAI #ByteDance #million #GPU
-------
@tsingular
👍7😁3🗿1
Бенчмарк o1 pro - золотой стандарт

Итак, настало время протестировать o1 pro.

Но сначала disclaimer. Есть 4 разные версии o1. Не путайте их!

- o1-mini - самая маленькая и недорогая из Reasoning моделей. Она есть в ChatGPT и по API
- o1-preview - мощная версия, которая раньше была доступна в ChatGPT интерфейсе. Теперь ее оттуда убрали и заменили на pro. По API она еще доступна
- o1 - это то, что теперь заменяет o1-preview в чат интерфейсе. У этой модели ограничено время на размышления, так что она заметно глупее preview. По API эта модель не доступна.
- o1 pro - самая мощная модель, которой разрешили думать много и долго. Она есть в чат интерфейсе по Pro подписке за $200. По API ее пока нет.

Этот пост - исключительно про o1 pro. Модель я в порядке исключения тестировал вручную.

Я взял результаты бенчмарка o1-mini, и выбрал те задачи, в которых она ошибалась. o1 pro на голову выше mini, поэтому я допустил, что если mini не ошиблась, то и pro не ошибется. Таким образом мне нужно было прогнать не пару сотен задач, а в десять раз меньше.

Еще я отключил custom instructions по своевременному совету Игоря. Память у меня и так была отключена. Сконвертировал запросы к API в текстовый запрос и запустил вречную.

Тут я столкнулся с двумя граблями.

Во-первых, o1 pro сейчас встроена в Chat. Поэтому задачки, которые по API возвращали нормальный plain-text YAML, теперь стали возвращать красиво отформатированный markdown. Тут я исправлял формат вручную.

Во-вторых, я при задачах в API я few-shots всегда форматировал так:


System: Task explanation

User: sample request
Assistant: sample response

User: sample request
Assistant: sample response

User: real request


Но с чатом такое не прокатит, нужно формировать все в один текст. Более того, системный промпт нам не доступен в o1 моделях в принципе, чтобы случайно не утекло содержимое reasoning (ибо оно генерируется моделями без alignment). И вообще модель накручена защищать системный промпт и работать с пользователем в диалоге.

В итоге, o1 pro понижала приоритет инструкций, которые были помечены как System и начинала искать паттерны в запросах пользователя. Она их находила и приходила к неверным выводам, спотыкаясь на integrate. Поэтому задачу в текстовый UI я стал форматировать так:


# Task
Task explanation

## Example
User:
Assistant:

## Example
User:
Assistant:

# Request


Ну а что в итоге?

o1 pro подобралась вплотную к потолку моего продуктового бенчмарка, набрав 97. Причем нехватающие 3 балла можно даже было бы оспорить. В рамках бенчмарка она как золотой стандарт - дорога и идеальна.

Это очень хорошо. В разработке второй версии бенчмарка я смогу отталкиваться от этого потолка и формулировать задачи так, чтобы на самых сложных засыпалась даже o1 pro. Это позволит выстроить более плавную кривую оценок и сделать бенчмарк более репрезентативным для сложных кейсов LLM в бизнесе и продуктах.

Ваш, @llm_under_hood 🤗

PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.
👍10
Forwarded from Нецифровая экономика (Илья Склюев)
🤖 Сбер выложил под лицензией MIT весь код и веса моделей GigaChat Lite и GigaEmbeddings-instruct. Первая LLM позиционируется как самая быстрая в семействе. А вторая отличается тем, что преобразует текст в числовые векторы, сохраняя всю ключевую информацию. Это позволяет использовать её для интеллектуального поиска, систем RAG и других задач, связанных с обработкой текстов.

Отмечается, что GigaChat Lite основана на MoE-архитектуре и обучена специально под русский язык с нуля. Всего у модели 20 млрд параметров, но во время инференса задействовано только 3 млрд. Контекст модели =131k токенов. Версия instruct основана на lite.

✔️ Ранее исходники своих LLM успели опубликовать МТС и Т-Банк. Первая выложила в паблик три версии Cotype Nano с 1,5 млрд параметров: основную, более компактную 4bit и CPU, оптимизированную под работу с процессорами Intel. У Т-Банка вышло две модели: T-Pro с 32 млрд параметров и обновлённая T-Lite на 7 млрд.

Теперь Яндекс остаётся единственным из ИТ-гигантов, кто до сих пор не выложил ни одну версий своей LLM в открытый доступ. Ждём YandexGPT в опенсорсе!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12
Media is too big
VIEW IN TELEGRAM
📼 Видеогенератор Pika научился соединять несколько изображений в одно видео.

В Pika 2.0 появилась функция Scene Ingredients, благодаря которой можно:

⚫️Загрузить до 6 изображений;
⚫️Добавить к ним текстовую подсказку;
⚫️Объединить всё это в одну сцену.

Усовершенствованная система распознавания изображений определит роль каждого элемента и логично их скомбинирует.

👀Доступно только платным подписчикам.

🎞YouTube | 😔Канал | 😡VK | 😏Instagram
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Китайские учёные создали лазерных дронов разрезающих металл в полёте

Команда под руководством "Сумасшедшего Ли" ( Crazy li ) разработала революционную технологию для беспилотников.

Дроны не генерируют луч, а получают его с земли через систему телескопических зеркал с сервоприводами.

Мощность излучения до 30 кВт способна прожигать металл и выводить из строя военную технику.

Основная проблема, над которой сейчас работают, - стабилизация луча при вибрациях во время полёта.

Несколько аппаратов могут работать синхронно, огибая препятствия и атакуя цели в уязвимых точках.

Дроны с лазерами под управлением ИИ для стабилизации. Очень нужно, очень хочется! 🤖

#CrazyLi #drones #laser #Китай
-------
@tsingular
🔥9👍21🕊1