This media is not supported in your browser
VIEW IN TELEGRAM
Наглядный гайд, в котором подробно рассмотрены 11 важнейших графиков, которые специалисты, работающие с данными, используют в
95%
случаев.📌 Статья
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👨🎓 Стэнфордский университет предлагает бесплатные онлайн-курсы.
📌 Без вступительного взноса.
📌 Нет платы за обучение.
📌 Не нужно покупать учебники.
1. Специализация "Машинное обучение".
https://online.stanford.edu/courses/soe-ymls-machine-learning-specialization
2. Информатика 101.
https://online.stanford.edu/courses/soe-ycscs101-computer-science-101
3. Алгоритмы: Проектирование и анализ.
https://online.stanford.edu/courses/soe-ycsalgorithms1-algorithms-design-and-analysis-part-1
4. Базы данных: Продвинутые темы по SQL .
https://online.stanford.edu/courses/soe-ydatabases0001-databases-advanced-topics-sql
5. Основы программирования на языке R.
https://online.stanford.edu/courses/xfds112-r-programming-fundamentals
6. Статистическое обучение.
https://online.stanford.edu/courses/sohs-ystatslearning-statistical-learning
7. Программа Advanced Cybersecurity.
https://online.stanford.edu/courses/xacs100-advanced-cybersecurity-program-preview
8. Введение в Интернет вещей.
https://online.stanford.edu/courses/xee100-introduction-internet-things
9. Теория игр.
https://online.stanford.edu/courses/soe-ycs0002-game-theory
10. Проектирование карьеры.
https://online.stanford.edu/courses/tds-y0003-designing-your-career
@machinelearning_interview
📌 Без вступительного взноса.
📌 Нет платы за обучение.
📌 Не нужно покупать учебники.
1. Специализация "Машинное обучение".
https://online.stanford.edu/courses/soe-ymls-machine-learning-specialization
2. Информатика 101.
https://online.stanford.edu/courses/soe-ycscs101-computer-science-101
3. Алгоритмы: Проектирование и анализ.
https://online.stanford.edu/courses/soe-ycsalgorithms1-algorithms-design-and-analysis-part-1
4. Базы данных: Продвинутые темы по SQL .
https://online.stanford.edu/courses/soe-ydatabases0001-databases-advanced-topics-sql
5. Основы программирования на языке R.
https://online.stanford.edu/courses/xfds112-r-programming-fundamentals
6. Статистическое обучение.
https://online.stanford.edu/courses/sohs-ystatslearning-statistical-learning
7. Программа Advanced Cybersecurity.
https://online.stanford.edu/courses/xacs100-advanced-cybersecurity-program-preview
8. Введение в Интернет вещей.
https://online.stanford.edu/courses/xee100-introduction-internet-things
9. Теория игр.
https://online.stanford.edu/courses/soe-ycs0002-game-theory
10. Проектирование карьеры.
https://online.stanford.edu/courses/tds-y0003-designing-your-career
@machinelearning_interview
✅ Простое объяснение механизма внимания трансформеров и его использование. часть 1
1. Представьте, что у вас на полу куча игрушек, и вы хотите выбрать те, которые вам больше всего нравятся. Но игрушек так много, и вы не знаете, с чего начать!
2. А теперь представьте, что у вас есть специальный помощник, который может посмотреть на все игрушки сразу и сказать, какие из них самые важные. Это похоже на то, что делает механизм внимания трансформера!
3. Механизм внимания - это специальный инструмент, который помогает компьютеру выделять наиболее важные части из большого массива информации, например, из рассказа или фильма. Он рассматривает все сразу и решает, какие части наиболее интересны или важны.
4. Итак, как и ваш помощник с игрушками, он помогает компьютерам сосредоточиться на самых важных частях информации, чтобы лучше ее понять!
5. По сути это математический алгоритм, используемый в НЛП и других областях искусственного интеллекта. Он представляет собой разновидность модели машинного обучения, которая помогает компьютерам понять взаимосвязи между различными частями информации.
6. Если говорить проще, то механизм внимания трансформеров - это инструмент, позволяющий компьютерам анализировать и понимать большие объемы текстовых данных, разбивая их на более мелкие части и рассматривая, как эти части связаны друг с другом.
7. Это достигается за счет сложного процесса математических вычислений, позволяющих компьютеру определить, какие части текста наиболее важны и как они соотносятся друг с другом.
@machinelearning_interview
1. Представьте, что у вас на полу куча игрушек, и вы хотите выбрать те, которые вам больше всего нравятся. Но игрушек так много, и вы не знаете, с чего начать!
2. А теперь представьте, что у вас есть специальный помощник, который может посмотреть на все игрушки сразу и сказать, какие из них самые важные. Это похоже на то, что делает механизм внимания трансформера!
3. Механизм внимания - это специальный инструмент, который помогает компьютеру выделять наиболее важные части из большого массива информации, например, из рассказа или фильма. Он рассматривает все сразу и решает, какие части наиболее интересны или важны.
4. Итак, как и ваш помощник с игрушками, он помогает компьютерам сосредоточиться на самых важных частях информации, чтобы лучше ее понять!
5. По сути это математический алгоритм, используемый в НЛП и других областях искусственного интеллекта. Он представляет собой разновидность модели машинного обучения, которая помогает компьютерам понять взаимосвязи между различными частями информации.
6. Если говорить проще, то механизм внимания трансформеров - это инструмент, позволяющий компьютерам анализировать и понимать большие объемы текстовых данных, разбивая их на более мелкие части и рассматривая, как эти части связаны друг с другом.
7. Это достигается за счет сложного процесса математических вычислений, позволяющих компьютеру определить, какие части текста наиболее важны и как они соотносятся друг с другом.
@machinelearning_interview
Простое объяснение механизма внимания трансформеров и его использование. часть 2
8. Он особенно полезен при работе с длинными последовательностями текстов, поскольку способен анализировать и понимать взаимосвязи между различными частями текста. Его лучше всего использовать, когда важны точность и контекст, например, в задачах языкового перевода или анализа настроений.
9. Он способен учитывать контекст слова или словосочетания, в том числе его связь с другими словами и словосочетаниями.
10. Это важно, поскольку смысл слова или фразы может зависеть от контекста, в котором оно употребляется. Еще одним преимуществом механизма внимания трансформеров является то, что он способен обучаться и адаптироваться к различным типам данных и задач.
@machinelearning_interview
8. Он особенно полезен при работе с длинными последовательностями текстов, поскольку способен анализировать и понимать взаимосвязи между различными частями текста. Его лучше всего использовать, когда важны точность и контекст, например, в задачах языкового перевода или анализа настроений.
9. Он способен учитывать контекст слова или словосочетания, в том числе его связь с другими словами и словосочетаниями.
10. Это важно, поскольку смысл слова или фразы может зависеть от контекста, в котором оно употребляется. Еще одним преимуществом механизма внимания трансформеров является то, что он способен обучаться и адаптироваться к различным типам данных и задач.
@machinelearning_interview
🔥 Большое обновление: Meta's Long Llama обошла GPT-3.5 в длинных контекстах и сравнялась с GPT-4 в обобщении.
Основные моменты:
▸ Контекст: Поддерживает до 32 тыс.
▸ Производительность: Сравнивается с GPT-4 в суммировании, выигрывает у GPT-3.5 в длинных задачах.
▸ Эффективность: на 40% меньше вычислительных затрат при той же производительности.
Технические характеристики:
▸ Позиционное кодирование: Внесены изменения для улучшения работы с длинными текстами.
▸ Дополнительное обучение: Использовано больше наборов данных, включая длинные тексты.
Настройка инструкции:
▸ Задачи QA: Генерируются из длинных документов.
▸ Валидация: Llama 2 70B проверила пары QA.
▸ Тонкая настройка: Использовались синтетические данные и данные коротких инструкций.
arxiv.org/abs/2309.16039
@machinelearning_interview
Основные моменты:
▸ Контекст: Поддерживает до 32 тыс.
▸ Производительность: Сравнивается с GPT-4 в суммировании, выигрывает у GPT-3.5 в длинных задачах.
▸ Эффективность: на 40% меньше вычислительных затрат при той же производительности.
Технические характеристики:
▸ Позиционное кодирование: Внесены изменения для улучшения работы с длинными текстами.
▸ Дополнительное обучение: Использовано больше наборов данных, включая длинные тексты.
Настройка инструкции:
▸ Задачи QA: Генерируются из длинных документов.
▸ Валидация: Llama 2 70B проверила пары QA.
▸ Тонкая настройка: Использовались синтетические данные и данные коротких инструкций.
arxiv.org/abs/2309.16039
@machinelearning_interview
Для оценки способности обобщения нейронной сети на новых данных мы разбиваем датасет на три части.
1️⃣ обучающий набор данных для подгонки модели
2️⃣ валидационный набор данных для настройки модели
3️⃣ тестовый набор для оценки производительности окончательной модели.
Простой сниппет кода с пояснение на PyTorch Lightning, чтобы сделать это без проблем ⚡
📌 Подробнее
@machinelearning_interview
1️⃣ обучающий набор данных для подгонки модели
2️⃣ валидационный набор данных для настройки модели
3️⃣ тестовый набор для оценки производительности окончательной модели.
Простой сниппет кода с пояснение на PyTorch Lightning, чтобы сделать это без проблем ⚡
📌 Подробнее
@machinelearning_interview
📌 Расскажите про методы балансировки классов. Часть 1.
Взвешивание классов (Class Weighting)
Одним из первых методов, которые стоит рассмотреть, является взвешивание классов, или Class Weighting. Этот метод позволяет учесть дисбаланс между классами в процессе обучения модели. Он основан на идее того, что модель будет штрафовать более сильно за ошибки в классе-меньшинстве, поощряя более точное предсказание.
Принцип работы взвешивания классов заключается в присвоении разных весов каждому классу в зависимости от его доли в данных. Это позволяет модели лучше справляться с классом-меньшинством.
Пример 1: Взвешивание классов в библиотеке Scikit-learn (Python)
В приведенном коде мы используем библиотеку Scikit-learn для вычисления весов классов с помощью compute_class_weight. Параметр 'balanced' автоматически вычисляет веса классов на основе их доли в данных. Затем мы передаем эти веса в нашу модель случайного леса, что позволяет учесть дисбаланс классов.
Пример 2: Взвешивание классов в TensorFlow (Python)
В данном примере мы создаем нейронную сеть с использованием TensorFlow и задаем веса классов вручную с помощью словаря class_weights. Здесь класс-меньшинство (класс 1) получает более высокий вес (10.0), что отражает нашу попытку сбалансировать дисбаланс данных.
Увеличение (Oversampling) и уменьшение (Undersampling) выборки
Одним из основных способов борьбы с несбалансированными данными является увеличение (oversampling) и уменьшение (undersampling) выборки. Эти методы направлены на достижение баланса между классами путем изменения количества примеров в каждом классе.
Увеличение выборки (Oversampling)
Увеличение выборки заключается в добавлении дополнительных примеров класса-меньшинства, чтобы сделать его более представительным. Это можно сделать различными способами, например, путем дублирования существующих примеров, генерации синтетических данных или комбинирования этих методов.
Пример 1: Увеличение выборки с использованием библиотеки imbalanced-learn (Python)
В этом примере мы используем библиотеку imbalanced-learn для увеличения выборки с помощью RandomOverSampler. Этот метод случайным образом выбирает примеры из класса-меньшинства и дублирует их, пока не достигнется баланс.
Уменьшение выборки (Undersampling)
Уменьшение выборки заключается в уменьшении количества примеров в классе-большинстве, чтобы сделать его менее доминирующим. Это может быть полезным, если дублирование примеров класса-меньшинства нежелательно.
Пример : Уменьшение выборки с использованием библиотеки imbalanced-learn (Python)
Здесь мы используем библиотеку imbalanced-learn для уменьшения выборки с помощью RandomUnderSampler. Этот метод случайным образом удаляет примеры из класса-большинства до достижения баланса.
@machinelearning_interview
Взвешивание классов (Class Weighting)
Одним из первых методов, которые стоит рассмотреть, является взвешивание классов, или Class Weighting. Этот метод позволяет учесть дисбаланс между классами в процессе обучения модели. Он основан на идее того, что модель будет штрафовать более сильно за ошибки в классе-меньшинстве, поощряя более точное предсказание.
Принцип работы взвешивания классов заключается в присвоении разных весов каждому классу в зависимости от его доли в данных. Это позволяет модели лучше справляться с классом-меньшинством.
Пример 1: Взвешивание классов в библиотеке Scikit-learn (Python)
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils.class_weight import compute_class_weight
# Получение весов классов
class_weights = compute_class_weight('balanced', classes=np.unique(y), y=y)
# Создание модели с взвешиванием классов
model = RandomForestClassifier(class_weight=dict(enumerate(class_weights)))
В приведенном коде мы используем библиотеку Scikit-learn для вычисления весов классов с помощью compute_class_weight. Параметр 'balanced' автоматически вычисляет веса классов на основе их доли в данных. Затем мы передаем эти веса в нашу модель случайного леса, что позволяет учесть дисбаланс классов.
Пример 2: Взвешивание классов в TensorFlow (Python)
import tensorflow as tf
# Создание модели
model = tf.keras.Sequential([
# добавьте слои вашей модели
])
# Определение весов классов
class_weights = {
0: 1.0, # Вес для класса 0
1: 10.0, # Вес для класса 1 (пример взвешивания, где класс-меньшинство получает более высокий вес)
}
# Компиляция модели с учетом весов классов
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'],
class_weight=class_weights)
В данном примере мы создаем нейронную сеть с использованием TensorFlow и задаем веса классов вручную с помощью словаря class_weights. Здесь класс-меньшинство (класс 1) получает более высокий вес (10.0), что отражает нашу попытку сбалансировать дисбаланс данных.
Увеличение (Oversampling) и уменьшение (Undersampling) выборки
Одним из основных способов борьбы с несбалансированными данными является увеличение (oversampling) и уменьшение (undersampling) выборки. Эти методы направлены на достижение баланса между классами путем изменения количества примеров в каждом классе.
Увеличение выборки (Oversampling)
Увеличение выборки заключается в добавлении дополнительных примеров класса-меньшинства, чтобы сделать его более представительным. Это можно сделать различными способами, например, путем дублирования существующих примеров, генерации синтетических данных или комбинирования этих методов.
Пример 1: Увеличение выборки с использованием библиотеки imbalanced-learn (Python)
from imblearn.over_sampling import RandomOverSampler
# Создание экземпляра RandomOverSampler
ros = RandomOverSampler()
# Применение увеличения выборки к данным
X_resampled, y_resampled = ros.fit_resample(X, y)
В этом примере мы используем библиотеку imbalanced-learn для увеличения выборки с помощью RandomOverSampler. Этот метод случайным образом выбирает примеры из класса-меньшинства и дублирует их, пока не достигнется баланс.
Уменьшение выборки (Undersampling)
Уменьшение выборки заключается в уменьшении количества примеров в классе-большинстве, чтобы сделать его менее доминирующим. Это может быть полезным, если дублирование примеров класса-меньшинства нежелательно.
Пример : Уменьшение выборки с использованием библиотеки imbalanced-learn (Python)
from imblearn.under_sampling import RandomUnderSampler
# Создание экземпляра RandomUnderSampler
rus = RandomUnderSampler()
# Применение уменьшения выборки к данным
X_resampled, y_resampled = rus.fit_resample(X, y)
Здесь мы используем библиотеку imbalanced-learn для уменьшения выборки с помощью RandomUnderSampler. Этот метод случайным образом удаляет примеры из класса-большинства до достижения баланса.
@machinelearning_interview
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Как мы определили веса алгоритмов ранжирования крупнейших маркетплейсов на открытых данных
— ИИ выходит на новый уровень: LLM обретают пространственно-временную картину мира
— MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных
— От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах
— Объясняем простым языком, что такое трансформеры
— Машинное обучение помогает классическому моделированию квантовых систем
— Борьба с несбалансированными данными
— Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3
— Предсказание остановок оборудования с использованием LSTM и Байесовского подхода
— Как получить полезную информацию из своих категориальных признаков?
— why learn web (javascript) ML(machine learning) 2024
— Getting Started with Machine Learning: A Beginner's Guide
— La IA
— The Hydra of Machine Learning: Understanding Multi-headed Attention
— Interpreting Loan Predictions with TrustyAI: Part 1
— BakaLLM, part 7: XL struggles are done, for now
— The Complete Guide to Time Series Models
— How to Land a Job as an AI Engineer 🤖
— How to train an Iris dataset classifier with Tinygrad
— Take your career to the next level: GitHub Universe create your own agenda
Посмотреть:
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
Хорошего дня!
Почитать:
— Как мы определили веса алгоритмов ранжирования крупнейших маркетплейсов на открытых данных
— ИИ выходит на новый уровень: LLM обретают пространственно-временную картину мира
— MLOps-инструменты, обзоры рынка и тренды потоковой обработки данных
— От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах
— Объясняем простым языком, что такое трансформеры
— Машинное обучение помогает классическому моделированию квантовых систем
— Борьба с несбалансированными данными
— Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3
— Предсказание остановок оборудования с использованием LSTM и Байесовского подхода
— Как получить полезную информацию из своих категориальных признаков?
— why learn web (javascript) ML(machine learning) 2024
— Getting Started with Machine Learning: A Beginner's Guide
— La IA
— The Hydra of Machine Learning: Understanding Multi-headed Attention
— Interpreting Loan Predictions with TrustyAI: Part 1
— BakaLLM, part 7: XL struggles are done, for now
— The Complete Guide to Time Series Models
— How to Land a Job as an AI Engineer 🤖
— How to train an Iris dataset classifier with Tinygrad
— Take your career to the next level: GitHub Universe create your own agenda
Посмотреть:
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
Хорошего дня!
This media is not supported in your browser
VIEW IN TELEGRAM
Теория, лежащая в основе шардинга баз данных, кажется простой.
Но как она реализуется в реальных базах данных?
Рассмотрим это на примере MongoDB (одной из самых популярных баз данных NoSQL)
Основы
Для шардинга в MongoDB необходим кластер.
Кластер - это группа взаимосвязанных серверов или узлов.
Для горизонтального масштабирования можно просто увеличить количество серверов.
Кластер состоит из трех частей:
- Шард
- Маршрутизатор Mongos
- Маршрутизатор конфигурации
Рассмотрим каждую часть:
✅ Шард
Шард - это подмножество данных.
Данные разделяются между группой шардов.
Каждый шард развертывается как набор реплик.
Это замечательная вещь...
...потому что вы получаете репликацию и автоматическое восстановление данных после отказа системы.
Но никаких прямых запросов к шарду не поступает.
✅ Маршрутизатор Mongos
Mongos Router играет ключевую роль в кластере Все запросы направляются на Mongos Router.
Он выполняет две важнейшие задачи:
- Маршрутизация запросов и балансировка нагрузки
- Кэширование метаданных
Маршрутизатор выступает в роли посредника для получения данных с реальных шардов.
✅ Серверы конфигурации
Серверы конфигурации работают как отдельный набор реплик.
Они хранят метаданные для кластера шардов MongoDB.
Метаданные - это как индекс для вашего кластера.
В них хранится такая информация, как:
- Как организованы данные?
- Какие компоненты присутствуют в кластере.
Вот как выглядит весь процесс:
- Код приложения запрашивает данные
- Маршрутизатор Mongos получает запрос
- Маршрутизатор проверяет сервер Config Server, чтобы найти, на каком шарде находятся данные
- Запрос направляется на соответствующий шард
- Данные возвращаются в приложение
Но как она реализуется в реальных базах данных?
Рассмотрим это на примере MongoDB (одной из самых популярных баз данных NoSQL)
Основы
Для шардинга в MongoDB необходим кластер.
Кластер - это группа взаимосвязанных серверов или узлов.
Для горизонтального масштабирования можно просто увеличить количество серверов.
Кластер состоит из трех частей:
- Шард
- Маршрутизатор Mongos
- Маршрутизатор конфигурации
Рассмотрим каждую часть:
✅ Шард
Шард - это подмножество данных.
Данные разделяются между группой шардов.
Каждый шард развертывается как набор реплик.
Это замечательная вещь...
...потому что вы получаете репликацию и автоматическое восстановление данных после отказа системы.
Но никаких прямых запросов к шарду не поступает.
✅ Маршрутизатор Mongos
Mongos Router играет ключевую роль в кластере Все запросы направляются на Mongos Router.
Он выполняет две важнейшие задачи:
- Маршрутизация запросов и балансировка нагрузки
- Кэширование метаданных
Маршрутизатор выступает в роли посредника для получения данных с реальных шардов.
✅ Серверы конфигурации
Серверы конфигурации работают как отдельный набор реплик.
Они хранят метаданные для кластера шардов MongoDB.
Метаданные - это как индекс для вашего кластера.
В них хранится такая информация, как:
- Как организованы данные?
- Какие компоненты присутствуют в кластере.
Вот как выглядит весь процесс:
- Код приложения запрашивает данные
- Маршрутизатор Mongos получает запрос
- Маршрутизатор проверяет сервер Config Server, чтобы найти, на каком шарде находятся данные
- Запрос направляется на соответствующий шард
- Данные возвращаются в приложение
⚡️ 20 сайтов, на которых можно найти удаленную работу с оплатой в долларах США
1. Remote. co: https://remote.co
2. We Work Remotely: https://weworkremotely.com
3. FlexJobs: https://flexjobs.com
4. Remote OK: https://remoteok.io
5. Working Nomads: https://workingnomads.co/jobs
6. Jobspresso: https://jobspresso.co
7. Stack Overflow Jobs: https://stackoverflow.com/jobs
8. AngelList: https://angel.co
9. LinkedIn: https://linkedin.com
10. SkipTheDrive: https://skipthedrive.com
11. Remotive: https://remotive.io
12. Виртуальные профессии: https://virtualvocations.com
13. JustRemote: https://justremote.co
14. Удаленная техническая работа: https://remotetechwork.com
15. Dynamite Jobs: https://dynamitejobs.co
16. Pangian: https://pangian.com
17. Outsourcely: https://outsourcely.com
18. Remote Woman: https://remotewoman.com
19. Jobmote: https://jobmote.com
20. EuropeRemotely: https://europeremotely.com
@machinelearning_interview
1. Remote. co: https://remote.co
2. We Work Remotely: https://weworkremotely.com
3. FlexJobs: https://flexjobs.com
4. Remote OK: https://remoteok.io
5. Working Nomads: https://workingnomads.co/jobs
6. Jobspresso: https://jobspresso.co
7. Stack Overflow Jobs: https://stackoverflow.com/jobs
8. AngelList: https://angel.co
9. LinkedIn: https://linkedin.com
10. SkipTheDrive: https://skipthedrive.com
11. Remotive: https://remotive.io
12. Виртуальные профессии: https://virtualvocations.com
13. JustRemote: https://justremote.co
14. Удаленная техническая работа: https://remotetechwork.com
15. Dynamite Jobs: https://dynamitejobs.co
16. Pangian: https://pangian.com
17. Outsourcely: https://outsourcely.com
18. Remote Woman: https://remotewoman.com
19. Jobmote: https://jobmote.com
20. EuropeRemotely: https://europeremotely.com
@machinelearning_interview
👉 Reinforcement Learning
Серия простых методов и учебных пособий по обучению с подкреплением, охватывающая как базовые алгоритмы RL, так и недавно разработанные и обновленные усовершенствованные алгоритмы.
🖥 Github
@machinelearning_interview
Серия простых методов и учебных пособий по обучению с подкреплением, охватывающая как базовые алгоритмы RL, так и недавно разработанные и обновленные усовершенствованные алгоритмы.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Представлена Embed-v3 - новейшая модель эмбединга текста.
Embed-v3 превосходит системы семантического поиска и RAG и обладает улучшенной оценкой качества контента и высокой эффективностью.
https://clarifai.com/cohere/embed/models/cohere-embed-english-v3_0
@machinelearning_interview
Embed-v3 превосходит системы семантического поиска и RAG и обладает улучшенной оценкой качества контента и высокой эффективностью.
https://clarifai.com/cohere/embed/models/cohere-embed-english-v3_0
@machinelearning_interview
Хотите научиться строить полноценный ML конвейер в реальном времени 🛠️
Гайд по его созданию Шаг за шагом На Python 𓊍:
https://www.realworldml.xyz/blog/real-time-pipelines-in-python
@machinelearning_interview
Гайд по его созданию Шаг за шагом На Python 𓊍:
https://www.realworldml.xyz/blog/real-time-pipelines-in-python
@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.
Все, что вам нужно сделать, это:
Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.
Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3
Repo: https://github.com/rapidsai/cudf
@machinelearning_interview
Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd
Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.
Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3
Repo: https://github.com/rapidsai/cudf
@machinelearning_interview
Модель RWKV V5 - 1.5B SOTA!
И в настоящее время является лучшей в мире 🔥 мультиязычной моделью 🚀 в диапазоне параметров <
Это делает ее сильной моделью по умолчанию в своей весовой категории. Она может служить прочной основой для дальнейшей тонкой настройки.
https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio
@machinelearning_interview
И в настоящее время является лучшей в мире 🔥 мультиязычной моделью 🚀 в диапазоне параметров <
2B
(aka smol model).Это делает ее сильной моделью по умолчанию в своей весовой категории. Она может служить прочной основой для дальнейшей тонкой настройки.
https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio
@machinelearning_interview
📌 Это очень интересно
Модель 13B, превосходящая GPT 4 по логическим рассуждениям
Ссылка: https://arxiv.org/pdf/2311.06158.pdf
@machinelearning_interview
Модель 13B, превосходящая GPT 4 по логическим рассуждениям
Ссылка: https://arxiv.org/pdf/2311.06158.pdf
@machinelearning_interview
Неважно, кто вы - специалист по машинному обучению или инженер по обработке данных.
SQL присутствует везде.
Вот несколько кратких советов от начинающих до продвинутых, которые вы должны знать и уметь говорить на собеседовании по
SQL
.Начинающим
- Уметь объяснить различные типы объединений. Иногда я видел, что этот вопрос задается рекрутерами в качестве отборочного, чтобы убедиться, что они хотят взять вас на работу.
- Знать, когда в порядке выполнения операций в SQL используется
HAVING
, а когда WHERE
.- Знать разницу между
UNION и UNION ALL
Mid
- Понимать, как использовать оператор
CASE
внутри функции SUM или COUNT
- Знать, по крайней мере, 1-2 способа оптимизации запроса, и если вы решите, что одним из этих способов является создание индекса в таблице, то вы должны знать, какие плюсы и минусы есть у индекса.
- Уметь реализовать как подзапрос, так и
CTE
, но использовать CTE
, если вы хотите доказать, что у вас хорошие навыки работы с SQL.Продвинутый
- Знать, как решить SQL задачу с использованием оконной функции и без нее.
- Понимать и уметь объяснить, что такое коррелированный подзапрос.
- Просто сошлитесь на то, что вы посмотрите на план выполнения запроса. Рекрутеры будут шокированы тем, что вы вообще знаете, что это такое.
Мне бы хотелось услышать, какие вопросы вам задавали на собеседованиях по SQL. Пожалуйста, поделитесь ими в комментаряих!
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Вопросы и ответы на собеседовании по науке о данных
https://github.com/alexeygrigorev/data-science-interviews
@machinelearning_interview
https://github.com/alexeygrigorev/data-science-interviews
@machinelearning_interview
GitHub
GitHub - alexeygrigorev/data-science-interviews: Data science interview questions and answers
Data science interview questions and answers. Contribute to alexeygrigorev/data-science-interviews development by creating an account on GitHub.
Data Provenance Initiative - это Data Provenance Collection, представляет собой крупномасштабный аудит 44 коллекций данных, охватывающих 1800 с лишним наборов данных для тонкой настройки, и содержит подробную документацию об их источниках, лицензиях, создателях и других метаданных.
Скрипты в этом репозитории позволяют разработчикам отфильтровать наборы данных для тонкой настройки, которые наилучшим образом соответствуют их требованиям, начиная от самозаявленных лицензионных ограничений и заканчивая другими характеристиками данных
https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Bounding boxes для обнаружения объектов — что это, простым языком
— Разработка алгоритмов обработки данных в реальном времени на Python
— Лучшие практики Golang (20 лучших)
— Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ
— 5 уровней зрелости MLOps
— Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
— Создание видео zoom in и zoom out с помощью inpainting в Kandinsky
— Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
— Ближайшее будущее AI в рентгенологии. Мои комментарии к статье в RSNA
— Использование Insightface для быстрого поиска и сравнения лиц на изображениях
— OpenAI DevDay – ещё 5 видео про то, как работает компания, и как AI применять разработчикам
— How to install NVIDIA drivers for machine learning on Ubuntu
— Working through the fast.ai book in Rust - Part 1
— Why ChatGPT and other LLMs are overrated and won't take your job
— Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
— A Quick Look At Natural Language Generation (NLG)
— AI Log #2: What is a Cost Function in Machine Learning?
— The Next Generation of AI Developer Tools
— AI Development Guide 2024
— What is a Conditional Generative Adversarial Network?
— The State of Serverless GPU Part -2
Посмотреть:
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)
Хорошего дня!
#digest #machinelearning
@machinelearning_interview
Почитать:
— Bounding boxes для обнаружения объектов — что это, простым языком
— Разработка алгоритмов обработки данных в реальном времени на Python
— Лучшие практики Golang (20 лучших)
— Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ
— 5 уровней зрелости MLOps
— Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность
— Создание видео zoom in и zoom out с помощью inpainting в Kandinsky
— Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
— Ближайшее будущее AI в рентгенологии. Мои комментарии к статье в RSNA
— Использование Insightface для быстрого поиска и сравнения лиц на изображениях
— OpenAI DevDay – ещё 5 видео про то, как работает компания, и как AI применять разработчикам
— How to install NVIDIA drivers for machine learning on Ubuntu
— Working through the fast.ai book in Rust - Part 1
— Why ChatGPT and other LLMs are overrated and won't take your job
— Demystifying Transformer Models: Unveiling the Magic of Natural Language Processing
— A Quick Look At Natural Language Generation (NLG)
— AI Log #2: What is a Cost Function in Machine Learning?
— The Next Generation of AI Developer Tools
— AI Development Guide 2024
— What is a Conditional Generative Adversarial Network?
— The State of Serverless GPU Part -2
Посмотреть:
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)
Хорошего дня!
#digest #machinelearning
@machinelearning_interview