Технозаметки Малышева
10.3K subscribers
4.2K photos
1.53K videos
41 files
4.3K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
🗿Чат-боты на основе нейросетей способны ответить практически на любой вопрос. Далеко не всегда их ответы точны, но иногда они выдают что-то заведомо ложное и даже фантасмагорическое — это называют галлюцинациями нейросетей.

Мы выбрали 5 примеров того, как обманывал пользователей самый популярный чат-бот ChatGPT.

А более подробно феномен галлюцинаций нейросетей мы разбираем в новом материале ТЕХНО.

@yandexhq
👍1
Forwarded from Chat GPT
Prometheus: The system in charge of managing the internal queries of, and censoring of Sydney

“LLMs often study data up to a certain point in time. That makes them useful for some use cases but prevents them from being an option for content based on real-time data. Microsoft overcame this limitation with Prometheus, which uses Bing data and GPT to generate answers quickly while still using up-to-date information.”

"Selecting the relevant internal queries and leveraging the respective Bing search results is a critical component of Prometheus, since it provides relevant and fresh information to the model, enabling it to answer recent questions and reducing inaccuracies”

Article
Вице-президент Харрис встретилась с руководителями компаний, разрабатывающих ИИ: Alphabet, Anthropic, Microsoft и OpenAI и обсудила необходимость сотрудничества с правительством.

Администрация планирует инвестировать 140 млн долларов в создание семи исследовательских институтов ИИ.

Управление управления и бюджета Белого дома скоро выпустит руководство по использованию ИИ федеральными агентствами.

Ведущие разработчики ИИ примут обязательства о публичной оценке своих систем на конференции кибербезопасности DEF CON в августе в LasVegas

https://www.whitehouse.gov/briefing-room/statements-releases/2023/05/04/readout-of-white-house-meeting-with-ceos-on-advancing-responsible-artificial-intelligence-innovation/
Forwarded from e/acc (stepan)
Невероятно интересный документ, allegedly утекший из внутренней переписки Гугла. Анализ сводится к тому, что ни Гугл, ни OpenAI не имеют долгосрочных конкурентных защитных позиций (aka “moat”, ров) перед open source моделями. Это хороший сигнал для веб3 + AI и коммодитизации моделей, но довольно тревожный с т.з. AI alignment.

В документе приводится несколько примеров, показывающих что модель настроенная за вечер на средней мощности ноутбуке (например, бесплатная LLaMa с 13В параметров) или планшете принципиально не отличается по функционалу от тех что стоят десятки миллионов долларов и имеют по пол-триллиона параметров.

Цитата: «The barrier to entry for training and experimentation has dropped from the total output of a major research organization to one person, an evening, and a beefy laptop»

Я писал несколько лет назад про теорию канализационной крысы — это когда, организм имеющий доступ ко всем возможным патогенам куда более устойчив, чем тот что живет в стерильных условиях. Это верно про безопасность Биткоина, но так же верно и про AI инструменты.

Открытое сообщества исследователей, билдеров, предпринимателей с макбуками и желанием строить крутые продукты неизбежно побеждают корпорации там, где экономия масштаба не имеет преимуществ. Для GPT-3 важным шагом было залить сетку трансформеров баблом (GPU + RLHF), но сегодня инновации движутся в более тонком и потому доступном многим направлении. Автор особенно фокусируется на технологии LoRA, которая позволяет файнтьюнить и адаптировать существующие модели без необходимости тратить деньги на тысячи GPU-часов.

Итого, очень рекомендую: текст крайне точно передает стремительность развития ИИ от лица человека находящегося глубоко в индустрии.
Forwarded from Alena Drobyshevskaia
Чат-боты на основе нейросетей способны ответить практически на любой вопрос. Далеко не всегда их ответы точны, но иногда они выдают что-то заведомо ложное и даже фантасмагорическое — это называют галлюцинациями нейросетей.
Более подробно феномен галлюцинаций нейросетей разобран в новом материале журнала ТЕХНО: https://techno.yandex.ru/hallucinations
Forwarded from AI.Sorceress @ Cloud
This media is not supported in your browser
VIEW IN TELEGRAM
Новость дня от Майкрософт.

Microsoft сегодня делает своего чат-бота Bing GPT-4 доступным для всех, больше не нужно вставать в лист ожидания. Все, что вам нужно сделать, это войти в новый Bing или Edge с помощью своей учетной записи Microsoft, и теперь вы получите доступ к версии open preview, работающей на GPT-4.

Microsoft также массово обновляет Bing Chat, добавляя множество новых функций и даже поддержку плагинов.

Чат-бот первоначально был запущен в приватном предварительном просмотре в феврале, и с тех пор Microsoft постепенно открывает его.

Новые функции Bing:

— Плагины (!)
— Сохранение истории чатов в виде файлов
— Видео-ответы от бота
— Выдача фото и видео из поиска прямо в чате (уже доступно)
— Бронирование ресторанов через Bing AI

Интересно, что анонс вышел за 6 дней до ивента от Google.
👍1
Forwarded from Dendi Math&AI
🦌 RUDOLPH 🦌

Наконец-то дошли руки написать о нашей давней разработке, о модели RUDOLPH (RUssian Decoder On Language Picture Hyper-tasking), которая умеет решать много задач в модальностях текст и изображение и которая уже успела побывать бейзлайном соревнования FusionBrain Challenge 2.0 в 2022 году (и даже заняла там почётное третье место).

💡 Архитектурно модель представляет собой декодер-блок трансформера, работающий с входной последовательностью токенов, которую можно условно разделить на три основных сегмента: левые текстовые токены, токены изображения и правые текстовые токены. За счёт этого на претрейне можно показывать модели сэмплы по 3 задачам: text2image (генерация изображения по тексту), image2text (описание изображения) и text2text (языковое моделирование в левых текстовых токенах).

💡 Мы обучили 4 версии модели, которые различаются между собой как количеством параметров (соответственно, количеством и размером скрытых слоёв), так и соотношением количества токенов текста и изображения:
👉 RUDOLPH-350M
👉 RUDOLPH-1.3B
👉 RUDOLPH-2.7B
👉 RUDOLPH-2.7B-FBC2

💡 Последняя из этих моделей была дополнительно дообучена на инструктивном датасете (когда это ещё не стало мейнстримом 😊) решать 6 прикладных задач в модальностях текст и изображение: Text QA, Math QA, Image Generation, Image Captioning, Visual QA, Text Recognition in the Wild. RUDOLPH даже немного умеет в zero-shot object detection (после соответствующего файнтюна). Фишка этой версии модели также и в том, что она может понимать формулировку задачи на естественном (русском) языке 💪

Подробнее почитать про архитектуру RUDOLPH, узнать детали обучения и файнтюнинга, посмотреть примеры работы модели можно тут:
👉 Хабр

Воспользоваться и протестировать RUDOLPH можно тут:
👉 GitHub
👉 HuggingFace
👉 Cloud

В создании и обучении RUDOLPH успели принять участие многие ребята (@AShonenkov, @lizagonch - вам отдельное спасибо 👍, @kuznetsoff87, @bra_ket, @NastyaMittseva, @bom_bo0m 👌). Всем огромное спасибо за качественную работу!

@dendi_math_ai
Forwarded from AI.Sorceress @ Cloud
This media is not supported in your browser
VIEW IN TELEGRAM
Моделей, которые на основании текста генерят картинки, сейчас много.
А что по поводу видео?

Nvidia рассказала несколько дней назад о новой ИИ-модели для превращения текста в видео под названием VideoLDM. Эту модель производитель видеокарт разработал вместе с Корнельским университетом. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 FPS и длительностью 4,7 секунд на основе текстового описания. В основе VideoLDM заложены наработки нейросети Stable Diffusion.

Видео выше сгенерировано по запросу: "A teddy bear is playing the electric guitar, high definition, 4k." ("Плюшевый мишка играет на электрогитаре, высокое разрешение, 4k")
Forwarded from addmeto (Grigory Bakunov)
Hugging Face совместно с ServiceNow собрали и выложили свою собственную модель, которая умеет то, что делает GitHub CoPilot — подсказывать код, по сути писать 80% кода без всяких программистов. Только в отличие от CoPilot это не платная услуга, а доступный всем опенсорс код и веса модели.

Я проверил его на любимом моем примере — написании кода игры в морской бой. У меня есть претензии к результату с точки зрения качества кода. Но он получился работоспособным и это самое важное. Внутри у нее кроме неонки всё традиционно — GPT2 модель на примерно триллион токенов. Качество работы на моих примерах чуть хуже CoPilot, но начало положено.

https://huggingface.co/bigcode/starcoder
Forwarded from AI.Sorceress @ Cloud
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia представила нейросеть NeuralVDB. С еë помощью графику можно прокачать до космической реалистичности.

Вшитая в модель для рендеринга система ИИ в реальном времени изучает, как свет отражается от разных материалов и сразу применяет полученную информацию на 3D-модели. Машина точно воспроизводит керамику, отпечатки пальцев, пятна и пыль.

При этом с нейросетью производительность увеличивается в 10 раз, детализация повышается в 16 (!) раз, а требуемый для всего этого объем памяти — в 100 раз меньше, чем нужно было прежде.
Forwarded from эйай ньюз
Google: "У нас нет преимущества перед конкурентами, также его нет у OpenAI"

Из Гугла утек внутренний документ, где один из ресерчеров пишет о том, что Гугл проигрывает гонку AI опенсоурсу, который не сдержан никакими юридическими трудностями.

Вот цитата из документа:
"Неприятная правда состоит в том, что ни мы, ни OpenAI не выиграем эту гонку. Пока мы ссоримся, третья сторона тихо забирает нашу долю рынка.

Я, конечно, говорю об открытом исходном коде. Проще говоря, они опережают нас. То, что мы считаем "основными открытыми проблемами", уже решено и доступно людям. Вот только несколько примеров:

— Большие языковые модели на телефоне: люди запускают базовые модели на Pixel 6 со скоростью 5 токенов/сек.
— Масштабируемый персональный ИИ: за вечер можно зафайнтюнить персонализированный ИИ на своем ноутбуке.
— Responsibility: этот вопрос не "решен", скорее "устарел". Существуют сайты с художественными моделями без ограничений, и текстовые модели недалеко позади.
— Мультимодальность: текущий лидер в области науки ScienceQA был обучен за час на базе LLaMa.

Несмотря на то что наши модели все еще имеют небольшое преимущество в качестве, отставание сокращается удивительно быстро. Модели с открытым исходным кодом быстрее, более настраиваемые, более конфиденциальные и, учитывая свою стоимость, более способные. Они делают то, с чем мы сталкиваемся, имея 10 миллионов долларов и 540 млрд параметров, всего за 100 долларов и 13 млрд параметров. И делают это за недели, а не месяцы."

Считаю, что волнение внутри Гугла небезосновательно. DALLE-2 уже канула в Лету после появления SD. Возможно та же участь ждет и ChatGPT с раздутыми бюджетами и операционными убытками.

Что думаете, господа? Гугл все же переобуется и ударится в опен-соурс?


@ai_newz
1
Forwarded from Chat GPT
You need 8 of these at once, just to run one person’s ChatGPT queries at a time, at full speed, i.e for AI inference.

For training your ChatGPT, you need thousands of these, for 6 to 12 months straight, with OpenAI currently using a quarter billion dollars worth of these to train GPT-5.

AGI’ing ain’t easy.
​​Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

Researchers have developed "Distilling step-by-step," a cutting-edge method to train smaller, more efficient task-specific models that outperform large language models (LLMs) while requiring significantly less training data. This innovation promises to revolutionize the practicality of NLP models in real-world applications by reducing both model size and data requirements: a 770M T5 model surpasses a 540B PaLM model using only 80% of available data.

Distilling step-by-step leverages LLM-generated rationales within a multi-task training framework, yielding impressive results across 4 NLP benchmarks. The technique consistently achieves better performance with fewer labeled/unlabeled training examples, surpassing LLMs with substantially smaller model sizes.

Paper link: https://arxiv.org/abs/2305.02301

A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-dsbs

#deeplearning #nlp #languagemodels #distillation
Forwarded from AI.Sorceress @ Cloud
Итак, Google провела масштабную презентацию во время конференции Google I/O.

Гугл активно пошёл вширь со своими Generative AI продуктами: "help me write" в Gmail, Docs, и Android; "help me visualize" в Slides, "magic edit" в Google Photos (например, убрать объекты с фото) и показал как будет выглядеть интеграция в Search.

Основные интересные моменты:

• Представили новую языковую модель, на базе которой работает чат-бот — PaLM 2.0, а также мультимодальную модель Gemini.

PaLM 2 — текущее мультиязычное семейство языковых моделей от "запускаемых на мобильных устройствах" до "очень больших".

Gemini — следующее поколение языковой модели от Google. Главная фича: мультимодальность и поддержка tools.


Чат-бот Bard теперь доступен в 180 странах, общается на 40 новых языках (русский тоже есть), поддерживает tools (аналог плагинов для ChatGPT), освоил 20 языков программирования и поддерживает нейросеть Adobe Firefly для создания изображений.

Bard.google.com теперь доступен всем, а также скоро начнёт поддерживать tools вроде генерации изображений с помощью Adobe Firefly, ввода изображений с помощью Google Lens итд

Tailwind — чат с вашими документами вроде статей, книжек, и остального. Изначально делался для образования, но сейчас рекомендуется и как general-purpose.

Text2image Imagen, code generation Codey, и Chirp будут доступны в Google Cloud через API. Обещают возможность файтнюнинга и дифференциально приватного файтнюнинга для работы с чувствительнми данными.

Также анонсировали, что в Google Cloud будет сервис для RLHF и новые инстансы серии A3 с H100 на борту

Смотреть можно тут, начиная с 1:13:30 примерно (до этого обратный отсчет и прикольная генеративная музыка):
https://www.youtube.com/watch?v=cNfINi5CNbY
Forwarded from AI.Sorceress @ Cloud
Немного суперкомпьютерных новостей последних недель.

В ближайшем будущем Microsoft совместно с nVidia планируют запустить в Azure «один из самых больших ИИ-суперкомпьютеров в мире» с «десятками тысяч GPU nVidia H100». «Десяток тысяч» GPU H100 (примерно 30 ТФлопс/штука) можно оценить в суммарную производительность 300ПФлопс – неплохой мировой уровень, если учесть, что №1 в рейтинге TOP500 суперкомпьютеров это около 1.7 ПФлопс пиковой производительности (машина Frontier).
Forwarded from AI.Sorceress @ Cloud
Про Китай.

Tencent построил в Китае 4 здания центра больших данных. Этот центр может стать самым крупным в мире, сообщает Yicai Global. Объект получил название «Центр передовых вычислений искусственного интеллекта». Он расположен в шанхайском районе Сунцзян. Проект реализуется Tencent совместно с администрацией района.
Как заявил заместитель руководителя оператора проекта Ван Чжисинь, в построенных 4 зданиях размещено 10 тысяч серверов. После завершения всех работ на объекте будет установлено 800 тысяч серверов. Пока сроки сдачи объекта в эксплуатацию не уточняются.
Центр будет обрабатывать данные в сфере облачных вычислений, предоставлять услуги по обмену мгновенными сообщениями и осуществлять операции, связанные с медицинским страхованием. Также центр займётся поддержкой аналога ChatGPT от Tencent — проекта HunyuanAide. В центре ожидается работа 100 предприятий, принадлежащих Tencent. Например, будут созданы 3 лаборатории искусственного интеллекта: Keen Lab, YouTu и Weilink.