Технозаметки Малышева
10.3K subscribers
4.21K photos
1.53K videos
41 files
4.3K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
ChatGPT использует модель глубокого обучения, которая обучена на большом количестве текстов на английском языке. Поэтому, когда пользователь вводит запрос на русском языке, он автоматически переводится на английский язык с помощью машинного перевода. Затем модель ChatGPT обрабатывает этот переведенный текст и генерирует ответ на английском языке.

Таким образом, ChatGPT не использует базу данных на русском языке, а работает с переводом запросов на английский язык. Однако, поскольку машинный перевод не всегда точен, возможны неточности в ответах ChatGPT на запросы на русском языке.
На подходе новая сетка на 1.2 триллиона параметров
https://www.together.xyz/blog/redpajama

Полный набор данных RedPajama на 1,2 триллиона токенов и меньшую, но более удобную случайную выборку можно загрузить через Hugging Face. Полный набор данных составляет ~5 ТБ в разархивированном виде на диске и ~3 ТБ в сжатом виде для скачивания.

RedPajama-Data-1T состоит из семи срезов данных:

CommonCrawl: пять дампов CommonCrawl, обработанных с использованием конвейера CCNet и отфильтрованных с помощью нескольких фильтров качества, включая линейный классификатор, который выбирает страницы, подобные Википедии.

C4: стандартный набор данных C4

GitHub: данные GitHub, отфильтрованные по лицензиям и качеству.

arXiv: удаление шаблонов из научных статей

Книги: корпус открытых книг, дедуплицированный по сходству содержания.

Википедия: подмножество страниц Википедии, удаление шаблонного кода.

StackExchange: Подмножество популярных веб-сайтов в StackExchange, удаление шаблонного кода.
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
У меня сегодня день рождения, поэтому я делюсь с вами подарком.

Гигабрейн — это виртуальный университет, в котором можно

— изучать любую тему с персонализированным тьютором
— задавать вопросы, просить уточнения терминов
— обсуждать с историческими персонажами (спроси Сатоши про биткоин, а Фейнмана про природу науки)
— исследовать области знаний с мудрым наставником
— тестировать себя через тесты и лабораторные работы
на любом языке, в любой области знаний, абсолютно бесплатно

Если вы educator или edtech и хотите себе такую же штуку в образовательный процесс — пишите. Сделал проект в одиночку за неделю, но буду еще улучшать.

В качестве подарка можно шарить пост по любым каналам.
This media is not supported in your browser
VIEW IN TELEGRAM
https://github.com/logspace-ai/langflow

UI для выстраивания последовательностей обработки через разные модели.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая среда для запуска GPT моделей в браузере

Run GPT model on the browser with WebGPU. An implementation of GPT inference in less than ~2000 lines of vanilla Javascript.

https://github.com/0hq/WebGPT
Автономеый агент:
https://babyagi.org/
Cebra.ai - научились снимать видеосигнал с зрительной коры
👍1
Forwarded from CodeCamp
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел прикольную программу Wolverin на базе ChatGPT.

В чем суть: каждый раз, когда ваш код выдает ошибку, запускается скрипт поиска, где ChatGPT пытается угадать почему у вас руки кривые все пошло не так. Как только бот найдет косяк, он его исправляет, запускает код и так по новой, пока программа не отладит весь код.

Разумеется, ссылочка на GitHub.
🔥2
🗿Чат-боты на основе нейросетей способны ответить практически на любой вопрос. Далеко не всегда их ответы точны, но иногда они выдают что-то заведомо ложное и даже фантасмагорическое — это называют галлюцинациями нейросетей.

Мы выбрали 5 примеров того, как обманывал пользователей самый популярный чат-бот ChatGPT.

А более подробно феномен галлюцинаций нейросетей мы разбираем в новом материале ТЕХНО.

@yandexhq
👍1
Forwarded from Chat GPT
Prometheus: The system in charge of managing the internal queries of, and censoring of Sydney

“LLMs often study data up to a certain point in time. That makes them useful for some use cases but prevents them from being an option for content based on real-time data. Microsoft overcame this limitation with Prometheus, which uses Bing data and GPT to generate answers quickly while still using up-to-date information.”

"Selecting the relevant internal queries and leveraging the respective Bing search results is a critical component of Prometheus, since it provides relevant and fresh information to the model, enabling it to answer recent questions and reducing inaccuracies”

Article
Вице-президент Харрис встретилась с руководителями компаний, разрабатывающих ИИ: Alphabet, Anthropic, Microsoft и OpenAI и обсудила необходимость сотрудничества с правительством.

Администрация планирует инвестировать 140 млн долларов в создание семи исследовательских институтов ИИ.

Управление управления и бюджета Белого дома скоро выпустит руководство по использованию ИИ федеральными агентствами.

Ведущие разработчики ИИ примут обязательства о публичной оценке своих систем на конференции кибербезопасности DEF CON в августе в LasVegas

https://www.whitehouse.gov/briefing-room/statements-releases/2023/05/04/readout-of-white-house-meeting-with-ceos-on-advancing-responsible-artificial-intelligence-innovation/