На подходе новая сетка на 1.2 триллиона параметров
https://www.together.xyz/blog/redpajama
Полный набор данных RedPajama на 1,2 триллиона токенов и меньшую, но более удобную случайную выборку можно загрузить через Hugging Face. Полный набор данных составляет ~5 ТБ в разархивированном виде на диске и ~3 ТБ в сжатом виде для скачивания.
RedPajama-Data-1T состоит из семи срезов данных:
CommonCrawl: пять дампов CommonCrawl, обработанных с использованием конвейера CCNet и отфильтрованных с помощью нескольких фильтров качества, включая линейный классификатор, который выбирает страницы, подобные Википедии.
C4: стандартный набор данных C4
GitHub: данные GitHub, отфильтрованные по лицензиям и качеству.
arXiv: удаление шаблонов из научных статей
Книги: корпус открытых книг, дедуплицированный по сходству содержания.
Википедия: подмножество страниц Википедии, удаление шаблонного кода.
StackExchange: Подмножество популярных веб-сайтов в StackExchange, удаление шаблонного кода.
https://www.together.xyz/blog/redpajama
Полный набор данных RedPajama на 1,2 триллиона токенов и меньшую, но более удобную случайную выборку можно загрузить через Hugging Face. Полный набор данных составляет ~5 ТБ в разархивированном виде на диске и ~3 ТБ в сжатом виде для скачивания.
RedPajama-Data-1T состоит из семи срезов данных:
CommonCrawl: пять дампов CommonCrawl, обработанных с использованием конвейера CCNet и отфильтрованных с помощью нескольких фильтров качества, включая линейный классификатор, который выбирает страницы, подобные Википедии.
C4: стандартный набор данных C4
GitHub: данные GitHub, отфильтрованные по лицензиям и качеству.
arXiv: удаление шаблонов из научных статей
Книги: корпус открытых книг, дедуплицированный по сходству содержания.
Википедия: подмножество страниц Википедии, удаление шаблонного кода.
StackExchange: Подмножество популярных веб-сайтов в StackExchange, удаление шаблонного кода.
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
У меня сегодня день рождения, поэтому я делюсь с вами подарком.
Гигабрейн — это виртуальный университет, в котором можно
— изучать любую тему с персонализированным тьютором
— задавать вопросы, просить уточнения терминов
— обсуждать с историческими персонажами (спроси Сатоши про биткоин, а Фейнмана про природу науки)
— исследовать области знаний с мудрым наставником
— тестировать себя через тесты и лабораторные работы
— на любом языке, в любой области знаний, абсолютно бесплатно
Если вы educator или edtech и хотите себе такую же штуку в образовательный процесс — пишите. Сделал проект в одиночку за неделю, но буду еще улучшать.
В качестве подарка можно шарить пост по любым каналам.
Гигабрейн — это виртуальный университет, в котором можно
— изучать любую тему с персонализированным тьютором
— задавать вопросы, просить уточнения терминов
— обсуждать с историческими персонажами (спроси Сатоши про биткоин, а Фейнмана про природу науки)
— исследовать области знаний с мудрым наставником
— тестировать себя через тесты и лабораторные работы
— на любом языке, в любой области знаний, абсолютно бесплатно
Если вы educator или edtech и хотите себе такую же штуку в образовательный процесс — пишите. Сделал проект в одиночку за неделю, но буду еще улучшать.
В качестве подарка можно шарить пост по любым каналам.
This media is not supported in your browser
VIEW IN TELEGRAM
https://github.com/logspace-ai/langflow
UI для выстраивания последовательностей обработки через разные модели.
UI для выстраивания последовательностей обработки через разные модели.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая среда для запуска GPT моделей в браузере
Run GPT model on the browser with WebGPU. An implementation of GPT inference in less than ~2000 lines of vanilla Javascript.
https://github.com/0hq/WebGPT
Run GPT model on the browser with WebGPU. An implementation of GPT inference in less than ~2000 lines of vanilla Javascript.
https://github.com/0hq/WebGPT
Новый курс от Andrew Ng:
ChatGPT Prompt Engineering for Developers - DeepLearning.AI
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
ChatGPT Prompt Engineering for Developers - DeepLearning.AI
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
DeepLearning.AI - Learning Platform
ChatGPT Prompt Engineering for Developers
Learn the fundamentals of prompt engineering for ChatGPT. Learn effective prompting, and how to use LLMs for summarizing, inferring, transforming, and expanding.
Forwarded from CodeCamp
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел прикольную программу Wolverin на базе ChatGPT.
В чем суть: каждый раз, когда ваш код выдает ошибку, запускается скрипт поиска, где ChatGPT пытается угадать почемуу вас руки кривые все пошло не так. Как только бот найдет косяк, он его исправляет, запускает код и так по новой, пока программа не отладит весь код.
Разумеется, ссылочка на GitHub.
В чем суть: каждый раз, когда ваш код выдает ошибку, запускается скрипт поиска, где ChatGPT пытается угадать почему
Разумеется, ссылочка на GitHub.
🔥2
Forwarded from ТЕХНО: Яндекс про технологии
🗿Чат-боты на основе нейросетей способны ответить практически на любой вопрос. Далеко не всегда их ответы точны, но иногда они выдают что-то заведомо ложное и даже фантасмагорическое — это называют галлюцинациями нейросетей.
Мы выбрали 5 примеров того, как обманывал пользователей самый популярный чат-бот ChatGPT.
А более подробно феномен галлюцинаций нейросетей мы разбираем в новом материале ТЕХНО.
@yandexhq
Мы выбрали 5 примеров того, как обманывал пользователей самый популярный чат-бот ChatGPT.
А более подробно феномен галлюцинаций нейросетей мы разбираем в новом материале ТЕХНО.
@yandexhq
👍1
Forwarded from Chat GPT
Prometheus: The system in charge of managing the internal queries of, and censoring of Sydney
“LLMs often study data up to a certain point in time. That makes them useful for some use cases but prevents them from being an option for content based on real-time data. Microsoft overcame this limitation with Prometheus, which uses Bing data and GPT to generate answers quickly while still using up-to-date information.”
"Selecting the relevant internal queries and leveraging the respective Bing search results is a critical component of Prometheus, since it provides relevant and fresh information to the model, enabling it to answer recent questions and reducing inaccuracies”
Article
“LLMs often study data up to a certain point in time. That makes them useful for some use cases but prevents them from being an option for content based on real-time data. Microsoft overcame this limitation with Prometheus, which uses Bing data and GPT to generate answers quickly while still using up-to-date information.”
"Selecting the relevant internal queries and leveraging the respective Bing search results is a critical component of Prometheus, since it provides relevant and fresh information to the model, enabling it to answer recent questions and reducing inaccuracies”
Article
Вице-президент Харрис встретилась с руководителями компаний, разрабатывающих ИИ: Alphabet, Anthropic, Microsoft и OpenAI и обсудила необходимость сотрудничества с правительством.
Администрация планирует инвестировать 140 млн долларов в создание семи исследовательских институтов ИИ.
Управление управления и бюджета Белого дома скоро выпустит руководство по использованию ИИ федеральными агентствами.
Ведущие разработчики ИИ примут обязательства о публичной оценке своих систем на конференции кибербезопасности DEF CON в августе в LasVegas
https://www.whitehouse.gov/briefing-room/statements-releases/2023/05/04/readout-of-white-house-meeting-with-ceos-on-advancing-responsible-artificial-intelligence-innovation/
Администрация планирует инвестировать 140 млн долларов в создание семи исследовательских институтов ИИ.
Управление управления и бюджета Белого дома скоро выпустит руководство по использованию ИИ федеральными агентствами.
Ведущие разработчики ИИ примут обязательства о публичной оценке своих систем на конференции кибербезопасности DEF CON в августе в LasVegas
https://www.whitehouse.gov/briefing-room/statements-releases/2023/05/04/readout-of-white-house-meeting-with-ceos-on-advancing-responsible-artificial-intelligence-innovation/
The White House
Readout of White House Meeting with CEOs on Advancing Responsible Artificial Intelligence Innovation
Today, Vice President Harris and senior Administration officials met with CEOs of four American companies at the forefront of AI innovation to share concerns about the risks associated with AI. President Biden dropped by the meeting to underscore that companies…