Технозаметки Малышева
10.4K subscribers
4.22K photos
1.53K videos
41 files
4.32K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from e/acc
Фееристика. Только в прошлом месяце мы прыгали от восторга из-за 32К токенов контекста в GPT-4. Сегодняшний пейпер предлагает как увеличить окно контекста до 2 млн токенов.

Это, например, полностью прочитать серию книг о Гарри Поттере и написать следующую. Или одновременно держать в памяти весь документооборот за год среднего размера бизнеса. Или базу кода почти любого приложения в мире.
https://github.com/THUDM/ChatGLM-6B

Китайская модель. 750тыс скачиваний !!!

Просто для оценки масштабов вовлеченности мирового сообщества
ChatGPT использует модель глубокого обучения, которая обучена на большом количестве текстов на английском языке. Поэтому, когда пользователь вводит запрос на русском языке, он автоматически переводится на английский язык с помощью машинного перевода. Затем модель ChatGPT обрабатывает этот переведенный текст и генерирует ответ на английском языке.

Таким образом, ChatGPT не использует базу данных на русском языке, а работает с переводом запросов на английский язык. Однако, поскольку машинный перевод не всегда точен, возможны неточности в ответах ChatGPT на запросы на русском языке.
На подходе новая сетка на 1.2 триллиона параметров
https://www.together.xyz/blog/redpajama

Полный набор данных RedPajama на 1,2 триллиона токенов и меньшую, но более удобную случайную выборку можно загрузить через Hugging Face. Полный набор данных составляет ~5 ТБ в разархивированном виде на диске и ~3 ТБ в сжатом виде для скачивания.

RedPajama-Data-1T состоит из семи срезов данных:

CommonCrawl: пять дампов CommonCrawl, обработанных с использованием конвейера CCNet и отфильтрованных с помощью нескольких фильтров качества, включая линейный классификатор, который выбирает страницы, подобные Википедии.

C4: стандартный набор данных C4

GitHub: данные GitHub, отфильтрованные по лицензиям и качеству.

arXiv: удаление шаблонов из научных статей

Книги: корпус открытых книг, дедуплицированный по сходству содержания.

Википедия: подмножество страниц Википедии, удаление шаблонного кода.

StackExchange: Подмножество популярных веб-сайтов в StackExchange, удаление шаблонного кода.
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
У меня сегодня день рождения, поэтому я делюсь с вами подарком.

Гигабрейн — это виртуальный университет, в котором можно

— изучать любую тему с персонализированным тьютором
— задавать вопросы, просить уточнения терминов
— обсуждать с историческими персонажами (спроси Сатоши про биткоин, а Фейнмана про природу науки)
— исследовать области знаний с мудрым наставником
— тестировать себя через тесты и лабораторные работы
на любом языке, в любой области знаний, абсолютно бесплатно

Если вы educator или edtech и хотите себе такую же штуку в образовательный процесс — пишите. Сделал проект в одиночку за неделю, но буду еще улучшать.

В качестве подарка можно шарить пост по любым каналам.
This media is not supported in your browser
VIEW IN TELEGRAM
https://github.com/logspace-ai/langflow

UI для выстраивания последовательностей обработки через разные модели.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая среда для запуска GPT моделей в браузере

Run GPT model on the browser with WebGPU. An implementation of GPT inference in less than ~2000 lines of vanilla Javascript.

https://github.com/0hq/WebGPT
Автономеый агент:
https://babyagi.org/
Cebra.ai - научились снимать видеосигнал с зрительной коры
👍1
Forwarded from CodeCamp
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел прикольную программу Wolverin на базе ChatGPT.

В чем суть: каждый раз, когда ваш код выдает ошибку, запускается скрипт поиска, где ChatGPT пытается угадать почему у вас руки кривые все пошло не так. Как только бот найдет косяк, он его исправляет, запускает код и так по новой, пока программа не отладит весь код.

Разумеется, ссылочка на GitHub.
🔥2
🗿Чат-боты на основе нейросетей способны ответить практически на любой вопрос. Далеко не всегда их ответы точны, но иногда они выдают что-то заведомо ложное и даже фантасмагорическое — это называют галлюцинациями нейросетей.

Мы выбрали 5 примеров того, как обманывал пользователей самый популярный чат-бот ChatGPT.

А более подробно феномен галлюцинаций нейросетей мы разбираем в новом материале ТЕХНО.

@yandexhq
👍1