Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.26K photos
115 videos
64 files
4.68K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
☁️ Облачные среды для ML-разработки

🔵
Google Colaboratory
Скорее всего, вам известна эта платформа для выполнения кода Python в браузере. Бесплатная версия даёт доступ к GPU и TPU, но количество вычислительных единиц ограничено. Также недавно в Colab появился ИИ-помощник, что ускоряет написание кода.
- максимум 12 часов работы ноутбуков.
- около 80 ГБ дискового пространства.
Kaggle Notebooks
У Kaggle тоже есть своя бесплатная среда разработки. Предлагает:
- 12 часов работы для CPU- и GPU-сессий, а также 9 часов — для TPU-сессий.
- 20 ГБ дискового пространства.
- поддержка R.
🔵 Deepnote
Бесплатная версия поддерживает только до пяти проектов. Также можно опробовать Team-версию в течение двух недель.
- 5 ГБ RAM и 2vCPU для бесплатной версии.
- Поддержка Python, SQL и R.
- ИИ-помощник.
- Фишки для командной работы.
Amazon SageMaker
Можно попробовать бесплатно, но в этом случае доступ к GPU не предоставляется. Зато SageMaker позволяет создавать, обучать и развёртывать модели машинного обучения, используя блокноты, отладчики, конвейеры, MLOps и многое другое.
🔵 Yandex DataSphere
Это среда для ML-разработки полного цикла. В DataSphere можно не только проводить вычисления и обучать модели, но и запускать обученные модели в эксплуатацию. В качестве IDE предоставляет Jupyter Notebook. Для работы нужно подключить платёжный аккаунт.
9
💬 Сколько времени вы посвящаете самообразованию в области DS/ML?

👾 — стараюсь заниматься почти каждый день хотя бы час
🤩 — я сейчас в активной стадии обучения, уделяю этому по несколько часов в день
👍 — иногда (возможно, раз в две недели) узнаю что-то новое
🤔 — в основном работаю, на обучение времени не хватает
❤️ — свой вариант (делитесь в комментариях)

#интерактив
👾52🤔39🤩36👍312😁1
🎉 Python и неопытные программисты: наши лучшие статьи за 2023 год

За 2023 год «Библиотека программиста» опубликовала 227 статей, и Питон второй год подряд в ТОПе.

Вот 5 самых популярных материалов (сохраняй, если не читал):

🐛 9 признаков неопытного программиста
😢 Обратная сторона медали: 9 причин, почему тебе не нужно идти в IT
🚩 Кому не подходит работа в IT: 6 красных флагов
🐍📚 ТОП-15 книг по Python для начинающих и опытных разработчиков в 2023 году
🐍 Самоучитель по Python для начинающих. Часть 11: Функции с позиционными и именованными аргументами

Ещё больше итогов года, а также ссылки на «Самоучитель по Python для начинающих» здесь 👈
👍3😁3🥱1
Объясните, как работает градиентный бустинг?

Градиентный бустинг используется для задач как классификации, так и регрессии. Это алгоритм, который объединяет прогнозы слабых моделей для создания сильной модели.

Основные шаги градиентного бустинга:
👣 Инициализация слабой модели, например простого дерева решений.
👣 Вычисление ошибки, которую она допустила, то есть разницы между предсказанным и реальным целевым значением.
👣 Добавление новой слабой модели, которая будет учиться исправлять ошибку, совершённую предыдущей моделью.
👣 Итоговое объединение всех предсказаний.

✔️Вот простой пример: допустим, что предсказание первой модели на 5 больше настоящего значения. Если бы следующая новая модель выдавала ответ -5, то сумма ответов этих двух моделей оказалась бы идеальной.

Почему «градиентный»? Потому что каждая очередная модель в ансамбле обучается предсказывать отрицательный градиент (или антиградиент) функции потерь на основе предсказания предыдущей модели.

#вопросы_с_собеседований
👍15
🎨OpenAI запустила GPT Store

Два месяца назад компания провела презентацию, на которой анонсировала запуск площадки с кастомизированными чат-ботами. Вчера состоялся её официальный запуск. GPT Store стал доступен пользователям ChatGPT Plus, Team и Enterprise.

Сама OpenAI тоже представила кастомизированные боты. Среди них нам наиболее интересными показались следующие:
🧑‍💻 Code Tutor от Khan Academy — для улучшения навыков программирования
🔢 CK-12 Flexi — для изучения математики и науки

Вот ещё несколько полезных пользовательских GPT:
✏️ Math Solver — для пошагового решения математических задач
👩‍💻 Machine Learning — ассистент для изучения ML и DS

OpenAI обещает запустить монетизацию кастомизированных GPT в первом квартале года.

🔗 GPT Store
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍32🤩2😁1
🛠️ NumPy 2 на подходе: как сделать так, чтобы код не поломался

На 1 февраля 2024 года запланирован пре-релиз NumPy 2.0, а финальный релиз состоится ещё примерно через 6-8 недель. Стоит учитывать, что ваш код может перестать работать, если вы решите обновиться.

👉В статье автор рассказывает, почему именно могут произойти поломки, как избежать обновления до NumPy 2 и как проапгрейдить код для поддержки нового релиза.
👍6
💬 Представьте, что вы на собеседовании, и вам задают такой вопрос: «Как бы вы создали ленту с рекомендациями для сайта, которая предполагает взаимодействие пользователя с контентом?»

👇Делитесь в комментариях своими вариантами ответов
🤔6
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Библиотека шарписта
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👍3🥱2🤔1
🦎 Набор Jupyter-ноутбуков по основным темам ML

Это большой репозиторий с материалами по машинному обучению. Ноутбуки содержат примеры кода и решения задач из книги O'Reilly Hands-on Machine Learning with Scikit-Learn, Keras and TensorFlow (3rd edition).


Темы, которые есть в репозитории:
▫️Различные алгоритмы машинного обучения.
▫️Снижение размерности.
▫️Кастомные модели и обучение с TensorFlow.
▫️Глубокое обучение.
▫️NLP.
▫️Масштабирование.
▫️Matplotlib, Numpy, Pandas.

🔗 Ссылка на репозиторий
🔥15👍5
😺 Как объяснить функции активации вашему коту: простое руководство

Функция активации — это нелинейное преобразование, применяющееся к пришедшим на вход данным.

Автор новой статьи на Хабре объясняет:
🔸зачем вообще нужны функции активации,
🔸что такое ReLU, Сигмоида, Softmax, Tanh, Binary Step Function,
🔸что такое Bias (или смещение).

🔗 Прочесть статью полностью
👍10
🪑 Стул «Каустби»? А, может, лучше стул «Извините, но я не могу выполнить этот запрос, поскольку он не соответствует политике использования OpenAI»

О чём речь? О том, что на Amazon нашли карточки товаров с названиями вроде «I’m sorry, but I cannot fulfill this request as it goes against OpenAI use policy». К сожалению, после того, как на The Verge опубликовали текст об этом, карточки удалили. Но если вы попытаетесь поискать словосочетание «goes against OpenAI content policy» на других платформах (например, в Twitter), то можете найти много интересного.


Объяснение простое: многие подключают OpenAI API к скриптам для генерации автоматических описаний товаров (или к ботам) и не контролируют ответы на запросы.
😁16👍4🔥1
🐼 Как добавить собственный метод в Pandas

Чтобы расширить Pandas API, можно использовать библиотеку pandas-flavor. Поэтому первым делом установим её: pip install pandas-flavor

Для примера создадим новый метод, специфичный для конкретного датасета titanic.csv. Скачайте его себе предварительно. 

1️⃣ Сначала импортируем Pandas и создадим DataFrame:


import pandas as pd
df = pd.read_csv(‘titanic.csv’)

2️⃣ pandas-flavor добавляет пользовательские методы непосредственно в DataFrame/Series. Для этого мы используем декоратор:


from pandas_flavor import register_dataframe_method
@register_dataframe_method
def is_old_lady(df):
    is_lady = df[‘Sex’] == ‘female’
    is_old = df[‘Age’] > 70
    return df[is_old & is_lady]
df.is_old_lady()


В реальности, конечно, создаваемые методы должны быть шире, чем этот игрушечный пример.

Ещё один (более правильный способ) — создать отдельный Python-файл и прописать в нём собственные методы со специальным декоратором. Затем можно импортировать этот файл как модуль в основном скрипте. 

🔗 Страница Pandas Flavor на PyPI
👍11🔥3
👩‍💻 Подробное руководство по эмбеддингам

Эмбеддинги объектов, в общем случае, — это их векторные представления. Для больших языковых моделей (LLM), в частности, создаются эмбеддинги слов.

Как именно они создаются? Об этом в небольшой книжке рассказала автор Vicki Boykis. Также она разместила на GitHub Jupyter-ноутбуки с кодом для TF-IDF, Word2vec, модели BERT и не только.

🔗 Весь материал можно посмотреть здесь
👍11
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🏖️ Синдром упущенного отпуска: почему так опасно игнорировать заслуженный отдых

Представьте: вы выиграли путевку на пляж с золотым песком и изумрудным океаном. Но радость быстро сменяется разочарованием — вместо коктейля в руках по-прежнему клавиатура и мышка. И вы понимаете — это всего лишь галлюцинации изможденного мозга, который умоляет вас остановиться и, наконец, сделать перерыв. Но мы ведь трудоголики, правда?

🔗 Читать статью
🔗 Зеркало
👍7😁3
🔥Подборка источников датасетов для машинного обучения

🕸Google Dataset Search
Ищет релевантные наборы данных на разных сайтах, показывает дату обновления датасета и используемую лицензию.
🔤Kaggle
Нельзя не упомянуть эту платформу. Содержит наборы данных по разным темам, у многих датасетов есть подробное описание.
🖥 UCI Machine Learning Repository
Обновляемая база датасетов. Как правило, каждый набор данных имеет описание, в котором указано, есть ли пропущенные значения, какого типа переменные содержатся, сколько признаков и т.д.
🧩Amazon Datasets
Amazon опубликовал некоторые наборы данных, доступные на их серверах, как общедоступные.
🔠Yahoo WebScope
Содержит датасеты, разделённые по категориям: языковые данные, графовые данные, рыночные данные и др.
💬Datasets subreddit
Сабреддит, в котором можно поискать наборы данных или опубликовать собственный запрос.
🌐Geo Reviews Dataset 2023
Крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. В целом, можно следить за Яндексом, так как компания периодически выкладывает свои наборы данных в общий доступ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3👏2😁1
📚 Читаете ли вы книги по Data Science и Machine Learning, чтобы прокачать свои навыки?

❤️ — да, постоянно читаю
👍 — иногда читаю
👾 — почти не обращаюсь к книгам, получаю знания из других источников

👇Посоветуйте в комментариях книги, которые показались вам наиболее полезными

#интерактив
👍4435👾29😁3
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
1😁1