Forwarded from Dendi Math&AI (Денис Димитров)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🥳 Мы выпустили новую линейку моделей Kandinsky 4.0 🥳
Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.
Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗
Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.
Stay tuned!
И аккуратно — во вложении есть видео со звуком :)
@dendi_math_ai
Это 4 модели:
👉 Kandinsky 4.0 T2V (text-to-video) — для генерации видеоряда продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон.
👉 Kandinsky 4.0 T2V Flash (быстрый text-to-video) — для генерации видеоряда также продолжительностью до 12 секунд, но в разрешении 480p (720×480); генерация занимает всего 11 секунд (быстрее, чем длительность генерируемого видео!) на 1 H100.
👉 Kandinsky 4.0 I2V (image-to-video) — для «оживления» стартового кадра (то есть генерации видео по стартовому кадру и тексту), полученная с весов Kandinsky 4.0 T2V.
👉 Kandinsky 4.0 V2A (video-to-audio) — для генерации синхронного аудио к видео.
Подробнее про каждую из моделей можно почитать на Хабр или изучить GitHub (есть project page), а попробовать модель Kandinsky 4.0 T2V Flash можно в Spaces 🤗
Пока что доступ к моделям T2V и I2V ограниченный (в рамках инструмента https://fusionbrain.ai/, который даёт его пользователям возможность генерировать мини-фильмы — со сценарием, полноценным видеорядом и звуковым сопровождением), для широкой аудитории нейросети будут также доступны очень скоро.
Stay tuned!
И аккуратно — во вложении есть видео со звуком :)
@dendi_math_ai
👍4✍1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Krea.ai Edit
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
Редактор изображений Krea.ai теперь доступен всем.
Инпейнтинг, аутпейнтинг, выделение/замена/удаление объектов. Все это удобно как в фотошопе и бесплатно (ограниченно)
#imageediting #inpainting #outpainting
🔥13👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем адвенты.
в продолжение этой темы
https://t.iss.one/tsingular/2870
Маленький, но важный апдейт.
Добавил команду /autosummary
теперь с её помощь в чате можно определить время, когда вы хотите для всех в чат выводить общую сводку за последние 24 часа.
Разрешена только админам чата.
Главное, - эта функция бесплатная и автоматическая.
пример:
/autosummary 9:00
и каждое утро весь ваш чат будет видеть что обсуждалось.
#dev #боты
———
@tsingular
в продолжение этой темы
https://t.iss.one/tsingular/2870
Маленький, но важный апдейт.
Добавил команду /autosummary
теперь с её помощь в чате можно определить время, когда вы хотите для всех в чат выводить общую сводку за последние 24 часа.
Разрешена только админам чата.
Главное, - эта функция бесплатная и автоматическая.
пример:
/autosummary 9:00
и каждое утро весь ваш чат будет видеть что обсуждалось.
#dev #боты
———
@tsingular
🔥9👨💻2👍1👏1
Forwarded from Анализ данных (Data analysis)
🎉 Только что вышла DeepSeek-VL2! Новая модель vision-language нового поколения.
🤖 Deep SeekMo Search + динамическая обработка изображений
⚡ 3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках
DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
🟠 Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.
🟠 VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.
🟠 Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
🟢 DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);
🟢 DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);
🟢 DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
💡 По-прежнему полностью открытый исходный код!
💾 Hugging Face: huggingface.co/deepseek-ai
🖥 Github: https://github.com/deepseek-ai/DeepSeek-VL2
@data_analysis_ml
🤖 Deep SeekMo Search + динамическая обработка изображений
⚡ 3B/16B/27B размеры
🏆 Высокая производительность на всех бенчмарках
DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
💡 По-прежнему полностью открытый исходный код!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Google запускает корпоративные ИИ-агенты в Agentspace
Корпорация выпустила интегрированную платформу для бизнеса, объединяющую возможности Gemini с корпоративными данными.
Система позволяет интегрировать документы в Confluence, Drive, Jira, SharePoint, ServiceNow.
Функционал включает мультиязычную обработку, автоматический перевод и создание пользовательских агентов.
NotebookLM Plus позволяет синтезировать информацию, формировать аудио-обзоры и работать с Gemini 2.0 Flash.
Платформа обеспечивает безопасную инфраструктуру через VPC и IAM с контролем доступа к данным предприятия.
Жаль у нас нет Workspace, конечно.
#Google #Agentspace #NotebookLM
-------
@tsingular
Корпорация выпустила интегрированную платформу для бизнеса, объединяющую возможности Gemini с корпоративными данными.
Система позволяет интегрировать документы в Confluence, Drive, Jira, SharePoint, ServiceNow.
Функционал включает мультиязычную обработку, автоматический перевод и создание пользовательских агентов.
NotebookLM Plus позволяет синтезировать информацию, формировать аудио-обзоры и работать с Gemini 2.0 Flash.
Платформа обеспечивает безопасную инфраструктуру через VPC и IAM с контролем доступа к данным предприятия.
Жаль у нас нет Workspace, конечно.
#Google #Agentspace #NotebookLM
-------
@tsingular
🔥3
Media is too big
VIEW IN TELEGRAM
OpenAI добавили Проекты в chatGPT.
Теперь чаты слева это папки в которые можно положить файлы и контент будет связан в диалогах внутри проекта.
Можно на него ссылаться, уточнять, переделывать и дополнять результатами поиска в интернете.
#OpenAI #Advent
———
@tsingular
Теперь чаты слева это папки в которые можно положить файлы и контент будет связан в диалогах внутри проекта.
Можно на него ссылаться, уточнять, переделывать и дополнять результатами поиска в интернете.
#OpenAI #Advent
———
@tsingular
👍2
Гонка гигантов: миллионы GPU для суперкомпьютеров к 2027
Broadcom раскрывает амбициозные планы: три клиента готовятся развернуть суперкластеры с миллионом XPU каждый.
Среди заказчиков - xAI Илона Маска, планирующая расширить Colossus со 100 тысяч до миллиона графических процессоров.
По слухам, ByteDance и OpenAI также сотрудничают с производителем для создания специализированных чипов.
Прогнозируемый объём рынка AI XPU и сетевого оборудования к 2027 достигнет $60-90 млрд.
Разработка включает проектирование архитектуры и производство на мощностях TSMC.
Миллион.. миллион.. миллион... GPU
xAI, OpenAI и ТикТок
еще Google миллион своих и Китай пару полей покройт GPU фермами, допустим.
10 миллионов GPU глобально к 2027.
Должно хватить, что бы посчитать сколько r в strawberry наконец-то.
#Broadcom #xAI #ByteDance #million #GPU
-------
@tsingular
Broadcom раскрывает амбициозные планы: три клиента готовятся развернуть суперкластеры с миллионом XPU каждый.
Среди заказчиков - xAI Илона Маска, планирующая расширить Colossus со 100 тысяч до миллиона графических процессоров.
По слухам, ByteDance и OpenAI также сотрудничают с производителем для создания специализированных чипов.
Прогнозируемый объём рынка AI XPU и сетевого оборудования к 2027 достигнет $60-90 млрд.
Разработка включает проектирование архитектуры и производство на мощностях TSMC.
Миллион.. миллион.. миллион... GPU
xAI, OpenAI и ТикТок
еще Google миллион своих и Китай пару полей покройт GPU фермами, допустим.
10 миллионов GPU глобально к 2027.
Должно хватить, что бы посчитать сколько r в strawberry наконец-то.
#Broadcom #xAI #ByteDance #million #GPU
-------
@tsingular
👍7😁3🗿1
По описанию какая-то абсолютная нереальщина.
Надо пробовать.
Как только ещё один SSD поставлю.
https://t.iss.one/data_analysis_ml/2965
#localAWS
------
@tsingualr
Надо пробовать.
Как только ещё один SSD поставлю.
https://t.iss.one/data_analysis_ml/2965
#localAWS
------
@tsingualr
Telegram
Анализ данных (Data analysis)
🔥 Olares — это open-source платформа для создания собственного облака, предназначенная для использования в качестве альтернативы публичным облачным сервисам, таким как AWS!
🌟 Она предоставляет инструменты для управления личными данными, хостинга AI-моделей…
🌟 Она предоставляет инструменты для управления личными данными, хостинга AI-моделей…
🤔2
Forwarded from LLM под капотом
Бенчмарк o1 pro - золотой стандарт
Итак, настало время протестировать o1 pro.
Но сначала disclaimer. Есть 4 разные версии o1. Не путайте их!
- o1-mini - самая маленькая и недорогая из Reasoning моделей. Она есть в ChatGPT и по API
- o1-preview - мощная версия, которая раньше была доступна в ChatGPT интерфейсе. Теперь ее оттуда убрали и заменили на pro. По API она еще доступна
- o1 - это то, что теперь заменяет o1-preview в чат интерфейсе. У этой модели ограничено время на размышления, так что она заметно глупее preview. По API эта модель не доступна.
- o1 pro - самая мощная модель, которой разрешили думать много и долго. Она есть в чат интерфейсе по Pro подписке за $200. По API ее пока нет.
Этот пост - исключительно про o1 pro. Модель я в порядке исключения тестировал вручную.
Я взял результаты бенчмарка o1-mini, и выбрал те задачи, в которых она ошибалась. o1 pro на голову выше mini, поэтому я допустил, что если mini не ошиблась, то и pro не ошибется. Таким образом мне нужно было прогнать не пару сотен задач, а в десять раз меньше.
Еще я отключил custom instructions по своевременному совету Игоря. Память у меня и так была отключена. Сконвертировал запросы к API в текстовый запрос и запустил вречную.
Тут я столкнулся с двумя граблями.
Во-первых, o1 pro сейчас встроена в Chat. Поэтому задачки, которые по API возвращали нормальный plain-text YAML, теперь стали возвращать красиво отформатированный markdown. Тут я исправлял формат вручную.
Во-вторых, я при задачах в API я few-shots всегда форматировал так:
Но с чатом такое не прокатит, нужно формировать все в один текст. Более того, системный промпт нам не доступен в o1 моделях в принципе, чтобы случайно не утекло содержимое reasoning (ибо оно генерируется моделями без alignment). И вообще модель накручена защищать системный промпт и работать с пользователем в диалоге.
В итоге, o1 pro понижала приоритет инструкций, которые были помечены как System и начинала искать паттерны в запросах пользователя. Она их находила и приходила к неверным выводам, спотыкаясь на integrate. Поэтому задачу в текстовый UI я стал форматировать так:
Ну а что в итоге?
o1 pro подобралась вплотную к потолку моего продуктового бенчмарка, набрав 97. Причем нехватающие 3 балла можно даже было бы оспорить. В рамках бенчмарка она как золотой стандарт - дорога и идеальна.
Это очень хорошо. В разработке второй версии бенчмарка я смогу отталкиваться от этого потолка и формулировать задачи так, чтобы на самых сложных засыпалась даже o1 pro. Это позволит выстроить более плавную кривую оценок и сделать бенчмарк более репрезентативным для сложных кейсов LLM в бизнесе и продуктах.
Ваш, @llm_under_hood 🤗
PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.
Итак, настало время протестировать o1 pro.
Но сначала disclaimer. Есть 4 разные версии o1. Не путайте их!
- o1-mini - самая маленькая и недорогая из Reasoning моделей. Она есть в ChatGPT и по API
- o1-preview - мощная версия, которая раньше была доступна в ChatGPT интерфейсе. Теперь ее оттуда убрали и заменили на pro. По API она еще доступна
- o1 - это то, что теперь заменяет o1-preview в чат интерфейсе. У этой модели ограничено время на размышления, так что она заметно глупее preview. По API эта модель не доступна.
- o1 pro - самая мощная модель, которой разрешили думать много и долго. Она есть в чат интерфейсе по Pro подписке за $200. По API ее пока нет.
Этот пост - исключительно про o1 pro. Модель я в порядке исключения тестировал вручную.
Я взял результаты бенчмарка o1-mini, и выбрал те задачи, в которых она ошибалась. o1 pro на голову выше mini, поэтому я допустил, что если mini не ошиблась, то и pro не ошибется. Таким образом мне нужно было прогнать не пару сотен задач, а в десять раз меньше.
Еще я отключил custom instructions по своевременному совету Игоря. Память у меня и так была отключена. Сконвертировал запросы к API в текстовый запрос и запустил вречную.
Тут я столкнулся с двумя граблями.
Во-первых, o1 pro сейчас встроена в Chat. Поэтому задачки, которые по API возвращали нормальный plain-text YAML, теперь стали возвращать красиво отформатированный markdown. Тут я исправлял формат вручную.
Во-вторых, я при задачах в API я few-shots всегда форматировал так:
System: Task explanation
User: sample request
Assistant: sample response
User: sample request
Assistant: sample response
User: real request
Но с чатом такое не прокатит, нужно формировать все в один текст. Более того, системный промпт нам не доступен в o1 моделях в принципе, чтобы случайно не утекло содержимое reasoning (ибо оно генерируется моделями без alignment). И вообще модель накручена защищать системный промпт и работать с пользователем в диалоге.
В итоге, o1 pro понижала приоритет инструкций, которые были помечены как System и начинала искать паттерны в запросах пользователя. Она их находила и приходила к неверным выводам, спотыкаясь на integrate. Поэтому задачу в текстовый UI я стал форматировать так:
# Task
Task explanation
## Example
User:
Assistant:
## Example
User:
Assistant:
# Request
Ну а что в итоге?
o1 pro подобралась вплотную к потолку моего продуктового бенчмарка, набрав 97. Причем нехватающие 3 балла можно даже было бы оспорить. В рамках бенчмарка она как золотой стандарт - дорога и идеальна.
Это очень хорошо. В разработке второй версии бенчмарка я смогу отталкиваться от этого потолка и формулировать задачи так, чтобы на самых сложных засыпалась даже o1 pro. Это позволит выстроить более плавную кривую оценок и сделать бенчмарк более репрезентативным для сложных кейсов LLM в бизнесе и продуктах.
Ваш, @llm_under_hood 🤗
PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.
👍10
Forwarded from Нецифровая экономика (Илья Склюев)
Отмечается, что GigaChat Lite основана на MoE-архитектуре и обучена специально под русский язык с нуля. Всего у модели 20 млрд параметров, но во время инференса задействовано только 3 млрд. Контекст модели =131k токенов. Версия instruct основана на lite.
Теперь Яндекс остаётся единственным из ИТ-гигантов, кто до сих пор не выложил ни одну версий своей LLM в открытый доступ. Ждём YandexGPT в опенсорсе!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Сбер выкладывает GigaChat Lite в открытый доступ
Upd от 03.02.2025: Мы выложили новую instruct версию нашей модели! Подробности в телеграмм посте или в HF карточке . Салют, Хабр! В начале ноября мы делились с вами новостями о нашем флагмане GigaChat...
👍12
Forwarded from Роман Сухов | Твой ИИ-инженер
Media is too big
VIEW IN TELEGRAM
📼 Видеогенератор Pika научился соединять несколько изображений в одно видео.
В Pika 2.0 появилась функция Scene Ingredients, благодаря которой можно:
⚫️ Загрузить до 6 изображений;
⚫️ Добавить к ним текстовую подсказку;
⚫️ Объединить всё это в одну сцену.
Усовершенствованная система распознавания изображений определит роль каждого элемента и логично их скомбинирует.
👀 Доступно только платным подписчикам.
🎞 YouTube | 😔 Канал | 😡 VK | 😏 Instagram
В Pika 2.0 появилась функция Scene Ingredients, благодаря которой можно:
Усовершенствованная система распознавания изображений определит роль каждого элемента и логично их скомбинирует.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Китайские учёные создали лазерных дронов разрезающих металл в полёте
Команда под руководством "Сумасшедшего Ли" ( Crazy li ) разработала революционную технологию для беспилотников.
Дроны не генерируют луч, а получают его с земли через систему телескопических зеркал с сервоприводами.
Мощность излучения до 30 кВт способна прожигать металл и выводить из строя военную технику.
Основная проблема, над которой сейчас работают, - стабилизация луча при вибрациях во время полёта.
Несколько аппаратов могут работать синхронно, огибая препятствия и атакуя цели в уязвимых точках.
Дроны с лазерами под управлением ИИ для стабилизации. Очень нужно, очень хочется! 🤖✨
#CrazyLi #drones #laser #Китай
-------
@tsingular
Команда под руководством "Сумасшедшего Ли" ( Crazy li ) разработала революционную технологию для беспилотников.
Дроны не генерируют луч, а получают его с земли через систему телескопических зеркал с сервоприводами.
Мощность излучения до 30 кВт способна прожигать металл и выводить из строя военную технику.
Основная проблема, над которой сейчас работают, - стабилизация луча при вибрациях во время полёта.
Несколько аппаратов могут работать синхронно, огибая препятствия и атакуя цели в уязвимых точках.
Дроны с лазерами под управлением ИИ для стабилизации. Очень нужно, очень хочется! 🤖✨
#CrazyLi #drones #laser #Китай
-------
@tsingular
🔥9👍2❤1🕊1
Forwarded from Denis Sexy IT 🤖
Я решил, что продолжу отдавать OpenAI $200 в месяц (пока не вышли конкуренты у Google / Anthropic) — потому, что o1 Pro фантастический компаньон в жизни/работе
— Наверное, стоит сказать пару слов, что LLM-бенчмарки часто критикуют за их неспособность объективно оценить качество модели — и с Pro O1 такая же ситуация:
Я видел результаты, где какая-то новая модель, якобы, пишет код также и даже лучше, чем Sonnet 3.6 — а по факту, альтернатива может и хорошо пишет код, но не способна в то, что Anthropic делает лучше всего — Sonnet эстетически лучше, чем конкуренты, не только в коде, но и в дизайне, в UX, в чувстве прекрасного у решений которые он предлагает
— Такая же ситуация с o1 Pro — очень сложно выразить в числах, почему эта модель хорошая; я уже писал выше, что мне нравится o1 Pro потому что она для узких специалистов (место для дилятор-шутки), но я чуть дополню свой тогдашний отзыв — o1 Pro модель ответам которой можно доверять и это полностью меняет мой подход к работе с LLM. Если раньше, за ответами Sonnet / Gemeni / 4o — мне приходилось ходить и пруфчекать факты, пытаясь понять придумала она их или нет, то внутренние рассуждения o1 Pro практически полностью лечат модель от галлюцинаций (в разумных пределах, время на циферблате она все еще распознает). То есть: я готов платить за гарантии того, что модель с очень высокой вероятностью не ошибется в ответе, потому что если она не уверена — она откажется давать ответ в целом и мне кажется это самой ценной фичей этих моделей
— o1 Pro сложнее поддается инструкциям — и не потому, что она им плохо следует, а наоборот, потому что она слишком хорошо им следует и любая ошибка в инструкциях может привести к неправильным результатам (например, если приложить непродуманный пример решения задачи, в таком же формате все и придет и тп)
— Самое клевое: помните я с вами делился кастомными инструкциями для ChatGPT которые доказательно улучшали качество ответов gpt4o на 7%? Так вот, во-первых — я их выложил на GitHub, можно подписаться и получить уведомление когда будет новая версия; во-вторых — o1 Pro полностью раскрывается с такой инструкцией: модель, перед тем как начать цепочку внутренних рассуждений, сначала назначает себе профессиональную роль и уже потом, от имени этой роли «думает» и пишет промежуточные ответы. Я попробовал пару дней пожить без инструкций этих и не смог — o1 модели по настоящему раскрываются с такой инструкцией, потому что вешают на себя роли каких-то выдающихся специалистов в области
— Я перевел в o1 Pro вообще все, что делаю или потребляю: она пишет для меня вики-лайк статьи (они совпадают с реальными в фактах, я проверял), книги-истории, помогает в учебе, бизнесе и творчестве, и сейчас мой день больше всего напоминает какой-то SciFi фильм 60х, где коммуникатор героя решает для него все вопросы и задачи. У меня однажды уже было похожее чувство — когда мне было 12 лет и я попал в интернет по карточкам, и ощутил что теперь можно узнать что угодно и не мог выбрать с чего начать, куда пойти, потому что интернет уже тогда был большим, и все было интересным
Я понимаю, что $200 заградительная цена для многих — и не призываю вас тратить на нее деньги; я просто рассказываю свою мотивацию, почему я продолжу платить — потому что люди часто спрашивают в личке
Если вы хотите похожие на o1 модели дома, вы можете рассмотреть эти: QwQ 32B, Phi 14B и Deepthought 8b, но все они будут всегда ограничены знаниями которые поместились в их размеры, ну и не забывайте их просить решать задачи шаг-за-шагом и проверять свои ответы по пути
tl;dr Денис поехавший — отдает ClosedAI 200 баксов в месяц
— Наверное, стоит сказать пару слов, что LLM-бенчмарки часто критикуют за их неспособность объективно оценить качество модели — и с Pro O1 такая же ситуация:
Я видел результаты, где какая-то новая модель, якобы, пишет код также и даже лучше, чем Sonnet 3.6 — а по факту, альтернатива может и хорошо пишет код, но не способна в то, что Anthropic делает лучше всего — Sonnet эстетически лучше, чем конкуренты, не только в коде, но и в дизайне, в UX, в чувстве прекрасного у решений которые он предлагает
— Такая же ситуация с o1 Pro — очень сложно выразить в числах, почему эта модель хорошая; я уже писал выше, что мне нравится o1 Pro потому что она для узких специалистов (место для дилятор-шутки), но я чуть дополню свой тогдашний отзыв — o1 Pro модель ответам которой можно доверять и это полностью меняет мой подход к работе с LLM. Если раньше, за ответами Sonnet / Gemeni / 4o — мне приходилось ходить и пруфчекать факты, пытаясь понять придумала она их или нет, то внутренние рассуждения o1 Pro практически полностью лечат модель от галлюцинаций (в разумных пределах, время на циферблате она все еще распознает). То есть: я готов платить за гарантии того, что модель с очень высокой вероятностью не ошибется в ответе, потому что если она не уверена — она откажется давать ответ в целом и мне кажется это самой ценной фичей этих моделей
— o1 Pro сложнее поддается инструкциям — и не потому, что она им плохо следует, а наоборот, потому что она слишком хорошо им следует и любая ошибка в инструкциях может привести к неправильным результатам (например, если приложить непродуманный пример решения задачи, в таком же формате все и придет и тп)
— Самое клевое: помните я с вами делился кастомными инструкциями для ChatGPT которые доказательно улучшали качество ответов gpt4o на 7%? Так вот, во-первых — я их выложил на GitHub, можно подписаться и получить уведомление когда будет новая версия; во-вторых — o1 Pro полностью раскрывается с такой инструкцией: модель, перед тем как начать цепочку внутренних рассуждений, сначала назначает себе профессиональную роль и уже потом, от имени этой роли «думает» и пишет промежуточные ответы. Я попробовал пару дней пожить без инструкций этих и не смог — o1 модели по настоящему раскрываются с такой инструкцией, потому что вешают на себя роли каких-то выдающихся специалистов в области
— Я перевел в o1 Pro вообще все, что делаю или потребляю: она пишет для меня вики-лайк статьи (они совпадают с реальными в фактах, я проверял), книги-истории, помогает в учебе, бизнесе и творчестве, и сейчас мой день больше всего напоминает какой-то SciFi фильм 60х, где коммуникатор героя решает для него все вопросы и задачи. У меня однажды уже было похожее чувство — когда мне было 12 лет и я попал в интернет по карточкам, и ощутил что теперь можно узнать что угодно и не мог выбрать с чего начать, куда пойти, потому что интернет уже тогда был большим, и все было интересным
Я понимаю, что $200 заградительная цена для многих — и не призываю вас тратить на нее деньги; я просто рассказываю свою мотивацию, почему я продолжу платить — потому что люди часто спрашивают в личке
Если вы хотите похожие на o1 модели дома, вы можете рассмотреть эти: QwQ 32B, Phi 14B и Deepthought 8b, но все они будут всегда ограничены знаниями которые поместились в их размеры, ну и не забывайте их просить решать задачи шаг-за-шагом и проверять свои ответы по пути
tl;dr Денис поехавший — отдает ClosedAI 200 баксов в месяц
✍4👍4
👍6
Media is too big
VIEW IN TELEGRAM
Тем временем Китай тренирует армию роботов-рабочих.
https://www.agibot.com/
https://t.iss.one/klubniy_servis/25224
ну вот куда им ещё-то ? :)
#роботы #Китай
———
@tsingular
https://www.agibot.com/
https://t.iss.one/klubniy_servis/25224
ну вот куда им ещё-то ? :)
#роботы #Китай
———
@tsingular
👍5