Forwarded from эйай ньюз
Stanford Webinar - GPT-3 & Beyond
Вчера посмотрел эту прелестную лекцию из Стенфорда о новейших Языковых моделях. Проф С. Potts очень классно дал общий обзор языковых моделей и быстренько рассказал, как мы докатились до таких чудес как, например, GPT-3 и ChatGPT. Затем он порассуждал о том, в каких подтемах NLP можно еще что-то привнести обычному смертному, если у вас нет миллионов долларов на обучение SOTA моделей.
И вот какие актуальные темы для рисерча:
🔵 Retrival augmented in-context learning (условно, как поженить поиск и LLM)
🔵 Создание лучших бенчмарков, датасетов
🔵 "Last mile" for productive apps: Адаптация огромных моделей для конечных приложений, упрощающих жизнь
🔵 Исследования в сторону объяснения и верификации результатов, выданных LLM (огромными языковыми моделями).
Сами они в научной группе этого профа, с его слов, почти перестали тренировать модели и, кажется, занимаются промт-инженирингом и докручиванием уже натренированных LLM по вышеуказанным направлениям.
Получилась не очень тяжелая, но очень вдохновляющая лекция! Может после этого вы захотите написать диссер в области NLP. Ну, либо создать стартап.
@ai_newz
Вчера посмотрел эту прелестную лекцию из Стенфорда о новейших Языковых моделях. Проф С. Potts очень классно дал общий обзор языковых моделей и быстренько рассказал, как мы докатились до таких чудес как, например, GPT-3 и ChatGPT. Затем он порассуждал о том, в каких подтемах NLP можно еще что-то привнести обычному смертному, если у вас нет миллионов долларов на обучение SOTA моделей.
И вот какие актуальные темы для рисерча:
🔵 Retrival augmented in-context learning (условно, как поженить поиск и LLM)
🔵 Создание лучших бенчмарков, датасетов
🔵 "Last mile" for productive apps: Адаптация огромных моделей для конечных приложений, упрощающих жизнь
🔵 Исследования в сторону объяснения и верификации результатов, выданных LLM (огромными языковыми моделями).
Сами они в научной группе этого профа, с его слов, почти перестали тренировать модели и, кажется, занимаются промт-инженирингом и докручиванием уже натренированных LLM по вышеуказанным направлениям.
Получилась не очень тяжелая, но очень вдохновляющая лекция! Может после этого вы захотите написать диссер в области NLP. Ну, либо создать стартап.
@ai_newz
YouTube
Stanford Webinar - GPT-3 & Beyond
GPT3 & Beyond: Key concepts and open questions in a golden age for natural language understanding
Listen in as Professor Christopher Potts discusses the significance and implications of recent Natural Language Understanding developments including GPT-3.…
Listen in as Professor Christopher Potts discusses the significance and implications of recent Natural Language Understanding developments including GPT-3.…
Forwarded from Ivan
Добавлю еще хороший курс: https://rail.eecs.berkeley.edu/deeprlcourse/ , видео лекций разных годов есть на ютубе
Forwarded from Dmitry M.
Есть какие-то записи на ютубе: https://www.youtube.com/playlist?list=PLp9ABVh6_x4G5gt4gk68XAuHbpTmYuvl0
Forwarded from Artificial stupidity
#statistics
Что такое Population Stability Index (PSI)?
Population Stability Index (PSI) - это метрика, которая позволяет измерить то, насколько распределение некоторой переменной меняется между двумя выборками с течением времени. Она широко используется для мониторинга изменений характеристик популяции и диагностики возможных проблем с эффективностью моделей машинного обучения.
Как считается PSI?
1. Делим выборку на децили по нашему целевому значению (децили считаем по одной из выборок, для нас логично это сделать по более ранней выборке);
2. Для обеих выборок считаем процент значений, попавших в конкретный дециль;
3. Далее считаем
4. Суммируем полученные на шаге 3 значения по всем децилям.
Типичные значения для принятия решения:
1. PSI < 0.1 - разница незначительна;
2. PSI >= 0.1, PSI < 0.2 - небольшая разница между выборками;
3. PSI >= 0.2 - сильная разница между выборками, произошло смещение в данных.
Зачем вообще используется PSI?
Это полезная метрика для систем слежения за качеством данных во времени. Конкретно, с помощью PSI можно отслеживать так называемый data drift, чтобы понимать, когда наши данные начали резко меняться и нам нужно предпринимать те или иные действия (запустить новый процесс доразметки данных, переобучить модель, исследовать новые данные на предмет ошибок и качества поступающих данных и т.д.)
Что такое Population Stability Index (PSI)?
Population Stability Index (PSI) - это метрика, которая позволяет измерить то, насколько распределение некоторой переменной меняется между двумя выборками с течением времени. Она широко используется для мониторинга изменений характеристик популяции и диагностики возможных проблем с эффективностью моделей машинного обучения.
Как считается PSI?
1. Делим выборку на децили по нашему целевому значению (децили считаем по одной из выборок, для нас логично это сделать по более ранней выборке);
2. Для обеих выборок считаем процент значений, попавших в конкретный дециль;
3. Далее считаем
(%Actual - %Expected) * ln(%Actual / %Expected) для каждого дециля;4. Суммируем полученные на шаге 3 значения по всем децилям.
Типичные значения для принятия решения:
1. PSI < 0.1 - разница незначительна;
2. PSI >= 0.1, PSI < 0.2 - небольшая разница между выборками;
3. PSI >= 0.2 - сильная разница между выборками, произошло смещение в данных.
Зачем вообще используется PSI?
Это полезная метрика для систем слежения за качеством данных во времени. Конкретно, с помощью PSI можно отслеживать так называемый data drift, чтобы понимать, когда наши данные начали резко меняться и нам нужно предпринимать те или иные действия (запустить новый процесс доразметки данных, переобучить модель, исследовать новые данные на предмет ошибок и качества поступающих данных и т.д.)
Forwarded from DevFM
Manticore Search
Для полнотекстового поиска во многих проектах активно применяется Elasticsearch. Он же работает в системах для аналитики логов. Пример тому – всем известный ELK-стек. Но не эластиком единым.
Мы начали смотреть в сторону разных поисковых движков и пока остановились на Manticore Search.
Рекомендуем статью Manticore — альтернатива Эластику на C++. Автор начинает с исторической справки, как появился и развивался проект.
Дальнейшее повествование строится на сравнении с главным конкурентом – эластиком. Автор приводит множество интересных бенчмарков. Не будем говорить конкретные, загляните в статью и найдёте для себя что-то интересное. Особенно, если имеете опыт работы с эластиком.
Конечно, стоит критически относиться ко всем описанным тестам. Статья всё-таки подготовлена ребятами из мантикоры. Если бы статью писал кто-то из эластика, он бы нашел, о чём хорошем рассказать. Как говорится: если вы такие умные, то почему такие бедные?
Потрогать мантикору можно прямо из браузера в удобном интерактивном тренажере. А еще в тг у них есть небольшой ламповый чатик, где можно задать свои вопросы и получить ответы. Проверенный лайфхак: если на вопрос не ответили, то повтори его с припиской "думаю переходить на эластик". Подробный ответ будет получен в самое ближайшее время.
Планируем попробовать мантикору в своём проекте. О причинах выбора и результатах расскажем позже.
В заключение, Manticore Search – заслуживающий внимания проект, о котором стоит знать, как о потенциальной альтернативе эластику.
#skills #database
Для полнотекстового поиска во многих проектах активно применяется Elasticsearch. Он же работает в системах для аналитики логов. Пример тому – всем известный ELK-стек. Но не эластиком единым.
Мы начали смотреть в сторону разных поисковых движков и пока остановились на Manticore Search.
Рекомендуем статью Manticore — альтернатива Эластику на C++. Автор начинает с исторической справки, как появился и развивался проект.
Дальнейшее повествование строится на сравнении с главным конкурентом – эластиком. Автор приводит множество интересных бенчмарков. Не будем говорить конкретные, загляните в статью и найдёте для себя что-то интересное. Особенно, если имеете опыт работы с эластиком.
Конечно, стоит критически относиться ко всем описанным тестам. Статья всё-таки подготовлена ребятами из мантикоры. Если бы статью писал кто-то из эластика, он бы нашел, о чём хорошем рассказать. Как говорится: если вы такие умные, то почему такие бедные?
Потрогать мантикору можно прямо из браузера в удобном интерактивном тренажере. А еще в тг у них есть небольшой ламповый чатик, где можно задать свои вопросы и получить ответы. Проверенный лайфхак: если на вопрос не ответили, то повтори его с припиской "думаю переходить на эластик". Подробный ответ будет получен в самое ближайшее время.
Планируем попробовать мантикору в своём проекте. О причинах выбора и результатах расскажем позже.
В заключение, Manticore Search – заслуживающий внимания проект, о котором стоит знать, как о потенциальной альтернативе эластику.
#skills #database
Manticoresearch
Manticore Search – easy-to-use fast search database
Manticore Search is an easy-to-use open source fast database for search. Elasticsearch alternative, vector search, SQL interface, full-text search capabilities
Forwarded from DevFM
Практикуем Kubernetes
Кубер — слон, которого нужно есть по частям. В прошлый раз начали с лайтового введения, где познакомились с основными концепциями, но только в теории.
В этот раз посмотрим практическое руководство на официальном сайте кубера.
В первой части создаём кластер. Во второй деплоим приложение с использованием kubectl. В третьей доступаемся до внутренностей, смотрим на поды и логи. В четвёртой переходим к сервисам и выставляем развёрнутое приложение наружу. В пятой части одна из важных фишек кубера — создание реплик. В заключительной части тоже супер важная штука — обновление приложения без даунтайма.
Все руководства, помимо практической части, сопровождаются теоретическими материалами.
Из приятного — можно ничего не устанавливать себе на компьютер, а пройти всё в терминале на сайте. Для большего погружения рекомендуем всё-таки развернуть у себя Minikube и делать практику локально.
#skills
Кубер — слон, которого нужно есть по частям. В прошлый раз начали с лайтового введения, где познакомились с основными концепциями, но только в теории.
В этот раз посмотрим практическое руководство на официальном сайте кубера.
В первой части создаём кластер. Во второй деплоим приложение с использованием kubectl. В третьей доступаемся до внутренностей, смотрим на поды и логи. В четвёртой переходим к сервисам и выставляем развёрнутое приложение наружу. В пятой части одна из важных фишек кубера — создание реплик. В заключительной части тоже супер важная штука — обновление приложения без даунтайма.
Все руководства, помимо практической части, сопровождаются теоретическими материалами.
Из приятного — можно ничего не устанавливать себе на компьютер, а пройти всё в терминале на сайте. Для большего погружения рекомендуем всё-таки развернуть у себя Minikube и делать практику локально.
#skills
Telegram
DevFM
Введение в Kubernetes
В повседневной разработке без докера не жизнь, а каторга. Мы делились нашим опытом, какие именно задачи решает докер.
С ростом размера проекта растёт количество подсистем, особенно быстро в микросервистной архитектуре. Деление на подсистемы…
В повседневной разработке без докера не жизнь, а каторга. Мы делились нашим опытом, какие именно задачи решает докер.
С ростом размера проекта растёт количество подсистем, особенно быстро в микросервистной архитектуре. Деление на подсистемы…
Forwarded from Systems.Education: Системный Анализ и Проектирование информационных систем: архитектура, интеграции, базы данных (Denis Beskov)
Мы с коллегам подготовили каталог ссылок на тему
Базы Данных и немного ХД, BI, DE, Data Science
https://systems.wiki/database
Если у вас есть полезные ссылки или желание присоединиться к команде кураторов раздела — пишите, welcome!
Что вошло в подборку:
Данные
Типы данных
Кодировки
Форматы представления, хранения и обмена данными
Категории данных
Управление данными
Основы, виды и история баз данных
Реляционные базы данных
Основы реляционных баз данных
Основы использования реляционных БД и SQL
Получение данных. Основы SQL (DQL: Data Query Language)
Базовые операторы SQL
Использование соединений
Агрегатные и аналитические функции
Основы оптимизации запросов
Простые операции с данными в SQL
Команды определения структур данных в SQL
Объектно-ориентированное программирование и реляционные БД
Проектирование реляционных баз данных
Введение в моделирование данных и нормальные формы
Ключи в БД
Сервисы проектирования РБД
Разработка реляционных баз данных
Производительность и оптимизация SQL
Индексы в таблицах
Планы запроса
Денормализация
Теорема CAP
Транзакции в БД, OLTP, ACID, TCL
Бизнес-логика и обработка данных.
Триггеры и процедуры в реляционных БД
Администрирование реляционных баз данных
Команды администрирования баз данных в SQL
Ограничение видимости данных с помощью представлений
Обновление схем БД, Миграция данных
Миграция данных при модернизации схемы данных и развитии ИС
Миграция данных при смене СУБД
Масштабирование реляционных баз данных
Популярные реляционные СУБД
РСУБД SQLite
РСУБД MySQL
- MariaDB
РСУБД PostgreSQL
- Индексы в Postgres
- Оптимизация запросов в Postgres
- Масштабирование в Postgres
- Postgres и другие СУБД
- СУБД Postgres Pro и Расширения Postgres
РСУБД Microsoft SQL Server
РСУБД Oracle
NoSQL (Not only SQL) СУБД
Введение в NoSQL
Базы «ключ-значение»
Redis
Memcached
Tarantool от Mail.ru
Документарные БД
Mongo
Колоночные БД (Columnar DB)
ClickHouse от Yandex
Wide-column Databases
Cassandra от Apache
Massive parallel processing СУБД
GreenPlum
Key-object хранилища
S3 от Amazon
Графовые базы данных и SPARQL
Введение в графовые БД
SPARQL (SPARQL Protocol and RDF Query Language)
ГрафСУБД Neo4J
Базы данных временных рядов (Time Series Database - TSDB)
Поисковый движок и хранилище ElasticSearch
Аналитические хранилища данных
BigQuery от Google
OLAP и Хранилища данных (DWH, Data Warehouse)
Подход OLAP (Online Analytical Processing)
Введение в хранилища данных
Моделирование хранилищ данных
Проектирование хранилищ данных
Качество данных в хранилище
Аппаратные технологии хранения данных
RAID-массивы
Исторические подходы к базам данных
Иерархические БД (1950-е года)
Сетевые БД (1950-е года)
Объектные БД (1980-е года)
Файловые БД VS Серверные БД (1990-е года)
XML БД (2000-е года)
СУБД для XML
Big Data и распределённые вычисления
Экосистема Hadoop от Apache Software Foundation
Data Mapping: integration, migration, transformation
Протоколы и стандарты на обмен данными
Процессы ETL (extraction, transformation, loading)
ETL-инструменты
Современные архитектуры данных
Data Lakes
Data Mesh
Data Fabric
Визуализация данных
Популярные js библиотеки визуализации
Business Intelligence (BI)
Основы анализа данных
Основы статистики
Основы анализа данных в Excel
Анализ данных с помощью SQL
Язык R для анализа данных
Python для анализа данных
Основы Data Science
Введение в Data Science
Нейронные сети
Основы Machine Learning
Введение в NLP (Natural Language Processing)
Фреймворки машинного обучения
Базы Данных и немного ХД, BI, DE, Data Science
https://systems.wiki/database
Если у вас есть полезные ссылки или желание присоединиться к команде кураторов раздела — пишите, welcome!
Что вошло в подборку:
Данные
Типы данных
Кодировки
Форматы представления, хранения и обмена данными
Категории данных
Управление данными
Основы, виды и история баз данных
Реляционные базы данных
Основы реляционных баз данных
Основы использования реляционных БД и SQL
Получение данных. Основы SQL (DQL: Data Query Language)
Базовые операторы SQL
Использование соединений
Агрегатные и аналитические функции
Основы оптимизации запросов
Простые операции с данными в SQL
Команды определения структур данных в SQL
Объектно-ориентированное программирование и реляционные БД
Проектирование реляционных баз данных
Введение в моделирование данных и нормальные формы
Ключи в БД
Сервисы проектирования РБД
Разработка реляционных баз данных
Производительность и оптимизация SQL
Индексы в таблицах
Планы запроса
Денормализация
Теорема CAP
Транзакции в БД, OLTP, ACID, TCL
Бизнес-логика и обработка данных.
Триггеры и процедуры в реляционных БД
Администрирование реляционных баз данных
Команды администрирования баз данных в SQL
Ограничение видимости данных с помощью представлений
Обновление схем БД, Миграция данных
Миграция данных при модернизации схемы данных и развитии ИС
Миграция данных при смене СУБД
Масштабирование реляционных баз данных
Популярные реляционные СУБД
РСУБД SQLite
РСУБД MySQL
- MariaDB
РСУБД PostgreSQL
- Индексы в Postgres
- Оптимизация запросов в Postgres
- Масштабирование в Postgres
- Postgres и другие СУБД
- СУБД Postgres Pro и Расширения Postgres
РСУБД Microsoft SQL Server
РСУБД Oracle
NoSQL (Not only SQL) СУБД
Введение в NoSQL
Базы «ключ-значение»
Redis
Memcached
Tarantool от Mail.ru
Документарные БД
Mongo
Колоночные БД (Columnar DB)
ClickHouse от Yandex
Wide-column Databases
Cassandra от Apache
Massive parallel processing СУБД
GreenPlum
Key-object хранилища
S3 от Amazon
Графовые базы данных и SPARQL
Введение в графовые БД
SPARQL (SPARQL Protocol and RDF Query Language)
ГрафСУБД Neo4J
Базы данных временных рядов (Time Series Database - TSDB)
Поисковый движок и хранилище ElasticSearch
Аналитические хранилища данных
BigQuery от Google
OLAP и Хранилища данных (DWH, Data Warehouse)
Подход OLAP (Online Analytical Processing)
Введение в хранилища данных
Моделирование хранилищ данных
Проектирование хранилищ данных
Качество данных в хранилище
Аппаратные технологии хранения данных
RAID-массивы
Исторические подходы к базам данных
Иерархические БД (1950-е года)
Сетевые БД (1950-е года)
Объектные БД (1980-е года)
Файловые БД VS Серверные БД (1990-е года)
XML БД (2000-е года)
СУБД для XML
Big Data и распределённые вычисления
Экосистема Hadoop от Apache Software Foundation
Data Mapping: integration, migration, transformation
Протоколы и стандарты на обмен данными
Процессы ETL (extraction, transformation, loading)
ETL-инструменты
Современные архитектуры данных
Data Lakes
Data Mesh
Data Fabric
Визуализация данных
Популярные js библиотеки визуализации
Business Intelligence (BI)
Основы анализа данных
Основы статистики
Основы анализа данных в Excel
Анализ данных с помощью SQL
Язык R для анализа данных
Python для анализа данных
Основы Data Science
Введение в Data Science
Нейронные сети
Основы Machine Learning
Введение в NLP (Natural Language Processing)
Фреймворки машинного обучения
Forwarded from Борис опять
Forwarded from Aspiring Data Science
https://www.youtube.com/watch?v=iKW-WQO1d1A
#ml #timeseries #nixtla
Хоту потестить эту Никстлу, кто-нить уже пробовал?
#ml #timeseries #nixtla
Хоту потестить эту Никстлу, кто-нить уже пробовал?
YouTube
NixtlaVerse, bridging the gap between statistics and deep learning for time series | PyData NYC 2022
Time-series modeling – analysis, and prediction of trends and seasonalities for data collected over time – is a rapidly growing category of software applications.
Businesses, ranging from finance to healthcare analytics, collect time-series data daily to…
Businesses, ranging from finance to healthcare analytics, collect time-series data daily to…
Forwarded from Записки Ппилифа (Ppilif [GMT+1])
Немного задротский пост про ЦПТ
Обычно, в курсе тервера ЦПТ не доказывают (если курс не на матфаке). Для этого нужно вводить характеристические функции. Они, конечно, красивые, но нигде в матстате дальше не понадобятся.
Оказывается, ЦПТ можно доказать без них. Статья свежая, от 2021 года. Мне жутко хотелось ее разобрать, но не было повода. Чтобы повод появился, решил устроить в Вышкинской магистратуре на курсе тервера бонусную пару с разбором.
От доказательства ощущаешь приятный вайб курса базового матана с леммой о двух милиционерах и теоремой Лагранжа 🙂
Я не понимал, что в доказательстве произошло с остаточным членов в ряде Тэйлора. Пошёл за советом. Оказалось, что есть пересказ этой статьи на русском.
Обычно, в курсе тервера ЦПТ не доказывают (если курс не на матфаке). Для этого нужно вводить характеристические функции. Они, конечно, красивые, но нигде в матстате дальше не понадобятся.
Оказывается, ЦПТ можно доказать без них. Статья свежая, от 2021 года. Мне жутко хотелось ее разобрать, но не было повода. Чтобы повод появился, решил устроить в Вышкинской магистратуре на курсе тервера бонусную пару с разбором.
От доказательства ощущаешь приятный вайб курса базового матана с леммой о двух милиционерах и теоремой Лагранжа 🙂
Я не понимал, что в доказательстве произошло с остаточным членов в ряде Тэйлора. Пошёл за советом. Оказалось, что есть пересказ этой статьи на русском.