Интересное что-то
557 subscribers
2.79K photos
253 videos
140 files
4.59K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from эйай ньюз
Stanford Webinar - GPT-3 & Beyond

Вчера посмотрел эту прелестную лекцию из Стенфорда о новейших Языковых моделях. Проф С. Potts очень классно дал общий обзор языковых моделей и быстренько рассказал, как мы докатились до таких чудес как, например, GPT-3 и ChatGPT. Затем он порассуждал о том, в каких подтемах NLP можно еще что-то привнести обычному смертному, если у вас нет миллионов долларов на обучение SOTA моделей.

И вот какие актуальные темы для рисерча:
🔵 Retrival augmented in-context learning (условно, как поженить поиск и LLM)
🔵 Создание лучших бенчмарков, датасетов
🔵 "Last mile" for productive apps: Адаптация огромных моделей для конечных приложений, упрощающих жизнь
🔵 Исследования в сторону объяснения и верификации результатов, выданных LLM (огромными языковыми моделями).

Сами они в научной группе этого профа, с его слов, почти перестали тренировать модели и, кажется, занимаются промт-инженирингом и докручиванием уже натренированных LLM по вышеуказанным направлениям.

Получилась не очень тяжелая, но очень вдохновляющая лекция! Может после этого вы захотите написать диссер в области NLP. Ну, либо создать стартап.

@ai_newz
Forwarded from Ivan
Добавлю еще хороший курс: https://rail.eecs.berkeley.edu/deeprlcourse/ , видео лекций разных годов есть на ютубе
#systemdesign
Roadmap with System Design books
#quant #courses
Стохастический анализ
Forwarded from Dmitry M.
Есть какие-то записи на ютубе: https://www.youtube.com/playlist?list=PLp9ABVh6_x4G5gt4gk68XAuHbpTmYuvl0
Forwarded from Artificial stupidity
​​#statistics

Что такое Population Stability Index (PSI)?

Population Stability Index (PSI) - это метрика, которая позволяет измерить то, насколько распределение некоторой переменной меняется между двумя выборками с течением времени. Она широко используется для мониторинга изменений характеристик популяции и диагностики возможных проблем с эффективностью моделей машинного обучения.

Как считается PSI?

1. Делим выборку на децили по нашему целевому значению (децили считаем по одной из выборок, для нас логично это сделать по более ранней выборке);
2. Для обеих выборок считаем процент значений, попавших в конкретный дециль;
3. Далее считаем (%Actual - %Expected) * ln(%Actual / %Expected) для каждого дециля;
4. Суммируем полученные на шаге 3 значения по всем децилям.

Типичные значения для принятия решения:
1. PSI < 0.1 - разница незначительна;
2. PSI >= 0.1, PSI < 0.2 - небольшая разница между выборками;
3. PSI >= 0.2 - сильная разница между выборками, произошло смещение в данных.

Зачем вообще используется PSI?

Это полезная метрика для систем слежения за качеством данных во времени. Конкретно, с помощью PSI можно отслеживать так называемый data drift, чтобы понимать, когда наши данные начали резко меняться и нам нужно предпринимать те или иные действия (запустить новый процесс доразметки данных, переобучить модель, исследовать новые данные на предмет ошибок и качества поступающих данных и т.д.)
Forwarded from DevFM
Manticore Search

Для полнотекстового поиска во многих проектах активно применяется Elasticsearch. Он же работает в системах для аналитики логов. Пример тому – всем известный ELK-стек. Но не эластиком единым.

Мы начали смотреть в сторону разных поисковых движков и пока остановились на Manticore Search.

Рекомендуем статью Manticore — альтернатива Эластику на C++. Автор начинает с исторической справки, как появился и развивался проект.

Дальнейшее повествование строится на сравнении с главным конкурентом – эластиком. Автор приводит множество интересных бенчмарков. Не будем говорить конкретные, загляните в статью и найдёте для себя что-то интересное. Особенно, если имеете опыт работы с эластиком.

Конечно, стоит критически относиться ко всем описанным тестам. Статья всё-таки подготовлена ребятами из мантикоры. Если бы статью писал кто-то из эластика, он бы нашел, о чём хорошем рассказать. Как говорится: если вы такие умные, то почему такие бедные?

Потрогать мантикору можно прямо из браузера в удобном интерактивном тренажере. А еще в тг у них есть небольшой ламповый чатик, где можно задать свои вопросы и получить ответы. Проверенный лайфхак: если на вопрос не ответили, то повтори его с припиской "думаю переходить на эластик". Подробный ответ будет получен в самое ближайшее время.

Планируем попробовать мантикору в своём проекте. О причинах выбора и результатах расскажем позже.

В заключение, Manticore Search – заслуживающий внимания проект, о котором стоит знать, как о потенциальной альтернативе эластику.
#skills #database
Forwarded from DevFM
Практикуем Kubernetes

Кубер — слон, которого нужно есть по частям. В прошлый раз начали с лайтового введения, где познакомились с основными концепциями, но только в теории.

В этот раз посмотрим практическое руководство на официальном сайте кубера.

В первой части создаём кластер. Во второй деплоим приложение с использованием kubectl. В третьей доступаемся до внутренностей, смотрим на поды и логи. В четвёртой переходим к сервисам и выставляем развёрнутое приложение наружу. В пятой части одна из важных фишек кубера — создание реплик. В заключительной части тоже супер важная штука — обновление приложения без даунтайма.

Все руководства, помимо практической части, сопровождаются теоретическими материалами.

Из приятного — можно ничего не устанавливать себе на компьютер, а пройти всё в терминале на сайте. Для большего погружения рекомендуем всё-таки развернуть у себя Minikube и делать практику локально.
#skills
Мы с коллегам подготовили каталог ссылок на тему
Базы Данных и немного ХД, BI, DE, Data Science

https://systems.wiki/database

Если у вас есть полезные ссылки или желание присоединиться к команде кураторов раздела — пишите, welcome!

Что вошло в подборку:

Данные
Типы данных
Кодировки
Форматы представления, хранения и обмена данными
Категории данных

Управление данными

Основы, виды и история баз данных

Реляционные базы данных

Основы реляционных баз данных

Основы использования реляционных БД и SQL
Получение данных. Основы SQL (DQL: Data Query Language)
Базовые операторы SQL
Использование соединений
Агрегатные и аналитические функции
Основы оптимизации запросов
Простые операции с данными в SQL
Команды определения структур данных в SQL

Объектно-ориентированное программирование и реляционные БД

Проектирование реляционных баз данных
Введение в моделирование данных и нормальные формы
Ключи в БД
Сервисы проектирования РБД

Разработка реляционных баз данных
Производительность и оптимизация SQL
Индексы в таблицах
Планы запроса
Денормализация
Теорема CAP
Транзакции в БД, OLTP, ACID, TCL
Бизнес-логика и обработка данных.
Триггеры и процедуры в реляционных БД

Администрирование реляционных баз данных
Команды администрирования баз данных в SQL
Ограничение видимости данных с помощью представлений
Обновление схем БД, Миграция данных
Миграция данных при модернизации схемы данных и развитии ИС
Миграция данных при смене СУБД
Масштабирование реляционных баз данных

Популярные реляционные СУБД
РСУБД SQLite
РСУБД MySQL
- MariaDB
РСУБД PostgreSQL
- Индексы в Postgres
- Оптимизация запросов в Postgres
- Масштабирование в Postgres
- Postgres и другие СУБД
- СУБД Postgres Pro и Расширения Postgres
РСУБД Microsoft SQL Server
РСУБД Oracle

NoSQL (Not only SQL) СУБД

Введение в NoSQL

Базы «ключ-значение»
Redis
Memcached
Tarantool от Mail.ru

Документарные БД
Mongo

Колоночные БД (Columnar DB)
ClickHouse от Yandex

Wide-column Databases
Cassandra от Apache

Massive parallel processing СУБД
GreenPlum

Key-object хранилища
S3 от Amazon

Графовые базы данных и SPARQL
Введение в графовые БД
SPARQL (SPARQL Protocol and RDF Query Language)
ГрафСУБД Neo4J

Базы данных временных рядов (Time Series Database - TSDB)
Поисковый движок и хранилище ElasticSearch

Аналитические хранилища данных
BigQuery от Google

OLAP и Хранилища данных (DWH, Data Warehouse)
Подход OLAP (Online Analytical Processing)
Введение в хранилища данных
Моделирование хранилищ данных
Проектирование хранилищ данных
Качество данных в хранилище

Аппаратные технологии хранения данных
RAID-массивы

Исторические подходы к базам данных
Иерархические БД (1950-е года)
Сетевые БД (1950-е года)
Объектные БД (1980-е года)
Файловые БД VS Серверные БД (1990-е года)
XML БД (2000-е года)
СУБД для XML

Big Data и распределённые вычисления
Экосистема Hadoop от Apache Software Foundation

Data Mapping: integration, migration, transformation
Протоколы и стандарты на обмен данными
Процессы ETL (extraction, transformation, loading)
ETL-инструменты

Современные архитектуры данных
Data Lakes
Data Mesh
Data Fabric

Визуализация данных
Популярные js библиотеки визуализации

Business Intelligence (BI)

Основы анализа данных
Основы статистики
Основы анализа данных в Excel
Анализ данных с помощью SQL
Язык R для анализа данных
Python для анализа данных

Основы Data Science
Введение в Data Science
Нейронные сети
Основы Machine Learning
Введение в NLP (Natural Language Processing)
Фреймворки машинного обучения
Forwarded from Борис опять
Крутой и наглядный туториал про PCA

https://matthew-brett.github.io/teaching/pca_introduction.html
Forwarded from Записки Ппилифа (Ppilif [GMT+1])
Немного задротский пост про ЦПТ

Обычно, в курсе тервера ЦПТ не доказывают (если курс не на матфаке). Для этого нужно вводить характеристические функции. Они, конечно, красивые, но нигде в матстате дальше не понадобятся.

Оказывается, ЦПТ можно доказать без них. Статья свежая, от 2021 года. Мне жутко хотелось ее разобрать, но не было повода. Чтобы повод появился, решил устроить в Вышкинской магистратуре на курсе тервера бонусную пару с разбором.

От доказательства ощущаешь приятный вайб курса базового матана с леммой о двух милиционерах и теоремой Лагранжа 🙂

Я не понимал, что в доказательстве произошло с остаточным членов в ряде Тэйлора. Пошёл за советом. Оказалось, что есть пересказ этой статьи на русском.