Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие карточки перевернёте?

Anonymous Poll

79%

16%

36%

35%

😁2

544 voters3.38K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Множество YouTube-курсов по машинному обучению

На GitHub есть репозиторий, в котором можно надолго залипнуть. Его авторы собирают все полезные материалы, доступные на YouTube. В их коллекции уже есть:
▫️Курс по машинному обучению от Калтеха
▫️Neural Networks: Zero to Hero от Андрея Карпаты
▫️Курс по основам NLP от Hugging Face
▫️и многое другое

👉Изучить список материалов подробнее можно здесь👈

👍10

3.67K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦢Теорема о гадком утёнке

Эта теорема показывает, что классификация невозможна без некоторой степени предубеждения (bias). Допустим, у нас есть n объектов. Всего существует 2^n способов составить подмножества из этой выборки. Без каких-либо дополнительных условий каждый объект будет сгруппирован с каким-то объектом из выборки так же часто, как с любым другим объектом. Поэтому нужно выбрать некоторый вес для определённых свойств. То есть необходим bias (предубеждение), чтобы классификация приобрела смысл.

✔️ Теорема утверждает, что гадкий утёнок на самом деле настолько же близок к обычному птенцу лебедя, насколько два обычных птенца лебедя близки друг к другу (смотрите картинку выше). Всё зависит от bias.

👍10❤3🤔2

3.33K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠️ Полезный сайт со списком инструментов для дата сайентистов

Энтузиаст создал сайт Data Science Stack, на котором можно найти различные платформы, фреймворки и инструменты для работы с данными: от NumPy до Apache Spark. Можно рассматривать в качестве шпаргалки. Также можно добавить в коллекцию какой-нибудь инструмент, если его ещё там нет.

🔗 Ссылка на сайт

🔥19

3.83K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦙 Вышли библиотеки Ollama Python & JavaScript

Обе библиотеки позволяют легко интегрировать новые и существующие приложения с Ollama всего за несколько строчек кода, а также использовать функции и возможности Ollama REST API.

✔️Ollama — это открытый проект, который позволяет запускать большие языковые модели, такие как Llama 2 и Mistral, локально.

👩‍💻 Репозиторий Ollama Python Library
🧑‍💻 Репозиторий Ollama JavaScript Library

👍9❤4👏3🤩1

3.67K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨ А давайте обсудим AGI (artificial general intelligence, общий искусственный интеллект)

Сейчас это одна из самых горячих тем. Цукерберг и Альтман обещают, что AGI скоро появится, а СМИ расписывают потенциальные последствия этого.

Что вы думаете насчёт AGI? Каким он может быть, какие задачи будет способен решать?

🤔 — я вообще не понимаю, что они все имеют в виду под AGI
👾 — я не верю, что настоящий AGI возможен
👍 — я думаю, что скоро случится технологический прорыв

#интерактив

👍41👾38🤔23❤4😁1

3.14K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 OpenAI выпустила две новые эмбеддинг-модели

Среди них малая модель text-embedding-3-small и большая и более производительная text-embedding-3-large. Для первой цена составляет $0.00002 за 1k токенов, для второй — $0.00013 за 1k токенов. OpenAI пишет, что text-embedding-3-large может создавать эмбеддинги размерностью 3072.

Помимо этого, OpenAI:

🤑 Удешевила GPT-3.5 Turbo.
Цены на input снизились на 50% — теперь составляют $0.0005 за 1K токенов, а на output снизились на 25% и теперь составляют $0.0015 за 1K токенов.

🚀 Обновила GPT-4 Turbo preview.
Модель gpt-4-0125-preview лучше справляется с генерацией кода и реже «ленится» завершать задачи.

🔑 Улучшила менеджмент API-ключей
Во-первых, разработчики теперь могут выдавать разрешения API-ключам. Например, ключу можно дать только read-only доступ. Во-вторых, панель мониторинга использования теперь предоставляет метрики на уровне ключа.

Источник

👍8🔥4🥱1

3.42K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧩🧠 Хотите узнать, насколько хорошо вы знаете математику, чтобы начать заниматься Data Science?

Вот несколько не самых сложных задач, главное в которых — проверить математическую интуицию и смекалку. Все задачи снабжены пояснениями и ответами.

🔗 Пройти тест

Не расстраивайтесь, если не сможете набрать максимальное колличество баллов. Чтобы подтянуть знания, поможет наш курс Математика для Data Science.

👉 Начать можно с вводных занятий, чтобы познакомиться с преподавателями и форматом обучения.

На водных занятиях вас ждут:

– Лекции с преподавателями кафедры ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.

– Практические задания для закрепления материала.

– Ссылки на дополнительные материалы.

⚡️Переходите и активируйте – https://proglib.io/w/d7b4e866

👍3❤2🤔1🥱1

3.75K viewsedited 08:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️Самые полезные каналы по Data Science в одной папке

В ней:
➖канал для подготовки к собеседованиям
➖интересные задачи
➖основной канал (этот)
➖книги по Data Science
➖лучшие вакансии из сферы
➖и наш чат, в котором можно общаться и задавать вопросы

Добавляйте 👉 тык сюда

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰3👍1🔥1👏1🤔1

3.64K viewsedited 12:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Новый #дайджест статей по машинному обучению и работе с данными

🤖 Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs
В сервисе DataSphere можно удалённо запускать задания (jobs) — вычисления на ВМ DataSphere за пределами JupyterLab.
🤖 Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
Интересная статья от компании CDEK, рассказывающая о решении следующей задачи: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут.
🤖 Who's Harry Potter? Approximate Unlearning in LLMs
Авторы пытались заставить модель Llama2-7b «забыть» «Гарри Поттера».
🤖 Hadoop в Облаке: история миграции сотен петабайт
Рассказ от руководителя Data Platform в ОК о переносе Hadoop с Bare Metal в облако.
🤖 Open-source LLMs as LangChain Agents
Статья рассказывает о том, что такое LLM-агенты и как их интегрировать в системы с использованием LangChain.

❤3👍2😁1

4.37K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤗 Hugging Face объявила о партнёрстве с Google Cloud

❔Что это значит
Компании хотят, чтобы ИИ и облачные технологии стали доступными для всех. Так, коллаборация должна облегчить доступ к инновациям в сфере искусственного интеллекта через библиотеки Hugging Face. Пользователи Google Cloud смогут легко обучать и разворачивать модели Hugging Face models через Google Kubernetes Engine (GKE) и Vertex AI.

Партнёры обещают рассказать о расширенных возможностях в ближайшее время.

🔗 Ссылка на блогпост о сотрудничестве

🥰15🤔3

3.71K views07:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦙 Хотите попробовать RAG (retrieval-augmented generation), не прикладывая при этом больших усилий? Инструмент командной строки llamaindex-cli позволяет это сделать

Вот короткая инструкция:
✔️Установите переменную окружения OPENAI_API_KEY.
✔️Укажите локальные файлы, которые вы хотите поместить в векторную базу данных.
✔️Задайте LLM любой вопрос по файлам с предыдущего шага.
✔️Получите ответ. Можно даже открыть интерфейс для чата.

Более подробную инструкцию со всеми командами можно найти здесь

👍4🤩1

3.6K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼 PandasAI — возможности генеративного ИИ в Pandas

Библиотека используется вместе с Pandas, а не вместо него. Позволяет формулировать запросы к наборам данных на естественном языке.

✔️Например, можно попросить PandasAI найти все строки DataFrame, в которых значение определённого столбца больше 5, и вернуть только эти строки.


import pandas as pd
from pandasai import SmartDataframe

df = pd.DataFrame({...})

from pandasai.llm import OpenAI
llm = OpenAI(api_token='YOUR_API_TOKEN')

df = SmartDataframe(df, config={'llm': llm})
df.chat('Which are the 5 happiest countries?’)

🔗 Колаб, в котором можно изучить возможности PandasAI
👩‍💻 Репозиторий библиотеки на GitHub

🥰11🔥7👍4🤔2🥱2❤1⚡1🤩1

4.29K viewsedited 07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓Как вы обработали бы разреженные данные?

Разреженные векторы часто содержат много измерений. Если передать такие многомерные данные в модель, то может потребоваться слишком много вычислительных ресурсов.

✅ В разреженном векторе было бы неплохо уменьшить некоторые веса до нуля. Можно рассмотреть L1 регуляризацию. Она приведёт многие неинформативные коэффициенты в модели к нулю.

✅ Кроме того, стоит оценить причину разреженности данных. В некоторых случаях можно избавиться от нерелевантных признаков или обработать пропущенные значения.

#вопросы_с_собеседований

👍12❤1

3.72K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧡💛 В Kaggle теперь можно легко импортировать ноутбуки Google Colab

Для этого нужно в редакторе Kaggle выбрать File > Import Notebook и затем кликнуть на Colab. В первый раз сайт попросит вас авторизоваться в Google Drive. При успешной авторизации вы увидите все свои ноутбуки Google Colab.

Также можно импортировать Colab-ноутбуки через кнопку Link. Нужно просто вставить URL и нажать Import.

👍 Помимо этого можно экспортировать Kaggle-ноутбуки в Colab. Нужно проследовать по пути File > Open in Colab.

Источник

👍22🥰4

3.78K views07:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🪆 Матрёшка и эмбеддинги: новый метод создания векторных представлений

Речь о методе Matryoshka Representation Learning (MRL), описанном в недавней исследовательской статье. Именно он используется для сокращения эмбеддингов в OpenAI.

✍️ Стоит понимать, что различные задачи требуют разных вычислительных ресурсов. Поэтому может оказаться невозможным использовать один эмбеддинг для всех задач (например, размерность вектора в 3k может быть слишком большой для условий с ограниченными ресурсами).

MRL решает эту проблему, используя принцип матрёшки при обучении. Обучается модель для эмбеддинга (например на задаче генерации текста), но, вместо того, чтобы делать это с фиксированным размером эмбеддинга, создаются вложенные подвекторы. Например, оригинальная размерность эмбеддинга для модели составляет 256. Без MLR мы бы взяли этот вектор 256 и считали бы лосс на нём. С MRL мы сначала возьмём подвектор размером 2 и посчитаем лосс для него, затем возьмём подвектор размера 4, 8 и т.д. Подвекторы сортируются, и можно отбрасывать те, что содержат наименьшее количество информации.

📖 Прочесть о методе подробнее можно в статье

🎉7❤4👍4

3.73K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

☕ Machine Learning на Java

Если вы вдруг пишете на Java или осваиваете язык, то вам пригодится этот репозиторий с множеством полезных ссылок на фреймворки и библиотеки. Список обширный, в том числе есть инструменты для работы с большими данными и машинным обучением. Например:

▪️Deeplearning4J — набор инструментов для глубокого обучения
▪️Weka — коллекция алгоритмов машинного обучения
▪️MALLET — библиотека для обработки естественного языка

🔗 Ссылка на репозиторий

🌚3🔥2😁2

3.51K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Подборка вопросов с собесов по DS и ответов на них

В сегодняшней подборке мы собрали самые популярные посты нашего канала «Библиотека собеса по Data Science» за последний месяц.

✏️ В чём разница между ошибкой первого рода и ошибкой второго рода?
✏️ Какие проблемы есть у рекуррентных нейронных сетей (RNN)?
✏️ Объясните разницу между AdaBoost и XGBoost
✏️ Что такое стемминг и лемматизация?
✏️ Что вы знаете про использование марковских цепей в анализе последовательностей?

👍7🔥3

3.53K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 Что вы бы всё-таки выбрали, если бы вам задали такой вопрос сейчас?

❤️ — Data Analyst
👾 — Data Scientist

#интерактив

👾148❤34👍1🤩1

3.23K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

3.27K views20:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

From SQL to Pandas 50.pdf

2.4 MB

👨🏼‍💻🐼 Шпаргалка по работе с табличными данными с помощью SQL и Pandas

PDF-файл из более чем 50 листов содержит самые популярные операции с таблицами и датафреймами. В удобной форме сопоставляются схожие операции в SQL и Pandas. В шпаргалке есть примеры кода для:
✔️ Получения выборки.
✔️ Фильтрации данных.
✔️ Вывода статистики и др.

👍19❤5🔥3

5.19K views07:10

About

Blog

Apps

Platform