Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
📧 Отклик на вакансию по email: как сделать так, чтобы ваше письмо выделялось

Вы отправляете десятки откликов на вакансии, но не получаете ответа? Возможно, дело в том, как вы пишете свои письма. Узнайте, какие ошибки могут стоить вам работы мечты и как их избежать.

👉 Статья
🔥6👏32
👶 Старт карьеры в Data Science (5 вещей, которые я хотел бы знать...)

В новом ролике сеньор дата-сайентист Анастасия Никулина рассуждает об ошибках и заблуждениях тех, кто только изучает DS и ML. Мы перечислили их ниже:

1️⃣ Изучение нейросетей до классического машинного обучения;

2️⃣ Отказ от изучения математики;

3️⃣ Мысль о том, что после обучения вы можете работать только дата-сайентистом;

4️⃣ Перечисление учебных проектов в резюме;

5️⃣ Убеждённость в том, что теоретических знаний достаточно для поиска работы.

🔗 Более подробно — в ролике Анастасии

💬 А вы согласны с автором?
1👍1😢1
🤖 Создание собственного ИИ-бота на Python за 33 строчки кода

В статье рассказываем, как создать собственный чат-бот на Python с помощью языковой модели falcon-7b-instruct, которая следует инструкциям. Доступ к модели мы получаем благодаря Hugging Face.

🔗 Читать статью
🔗 Зеркало
6
Всего три слова: последний день распродажи

До конца дня вы можете воспользоваться скидкой 50% на один из наших флагманских курсов по вышмату и получить курс по ML В ПОДАРОК!

🗯️14 990 ₽ (вместо 29 990 ₽)🗯️

Для кого предназначен курс:
➡️для новичков и тех, кто хочет начать карьеру в IT;
➡️для опытных разработчиков, которые хотят буст в карьере.

Что ждёт вас на курсе:
⭐️полугодовая программа от преподавателей ВМК МГУ;
⭐️47 видеолекций и 150 практических заданий;
⭐️бессрочный доступ ко всем материалам курса;
⭐️развернутая обратная связь по всем домашним заданиям и ссылки на полезные дополнительные материалы.

Нужно ли хорошо знать математику, чтобы начать учиться?
Нет. В состав курса входит блок «Школьная математика», который позволит вам погрузиться в тему с основ.

Скорее за скидкой!
Please open Telegram to view this post
VIEW IN TELEGRAM
2👾2👍1🔥1
Коллекция гайдов и примеров использования Google Gemma

Gemma — это семейство легковесных языковых моделей. Недавно была представлена опенсорсная Gemma-2, которая в размере 9B превосходит Llama 3 8B в тестах, а в размере 27В — Llama 3 70В.

В GitHub-репозитории Gemma Cookbook вы можете найти примеры использования этих моделей. Гайды будут в принципе полезны всем, кто хочет работать с LLM и строить приложения на их основе.

Вот некоторые интересные примеры:

🔸Игра по угадыванию слов с Gemma и Keras
🔸Использование LLM для перевода корейской литературы
🔸Деплой модели Gemma с помощью vLLM
🔸Создание системы RAG с ChromaDB
🔸Файн-тюнинг Gemma с использованием Axolotl
2👏2
🐍📦 Ваш код достоин PyPI: как правильно опубликовать Python-пакет

Это краткая инструкция по публикации Python-пакетов на PyPI. Узнайте, как структурировать проект, настроить метаданные и загрузить свой пакет в репозиторий.

🔗 Читать статью
🔗 Зеркало
😁4👍32
🧠 Исследователи придумали, как обучать большие языковые модели (LLM) без матричных умножений

Матричные умножения — ключевая операция, использующаяся в обучении LLM, так как входные данные тут представлены тензорами. Однако матричные умножения требуют много вычислительных ресурсов. Авторы новой статьи Scalable MatMul-free Language Modeling предложили решить эту проблему следующим образом:

▪️Использовать аддитивные операции и произведения Адамара в self-attention.
▪️Применять в весах числа из набора {-1, 0, +1}.

Авторы утверждают, что модели без матричного умножения показывают высокую производительность в задачах обработки естественного языка, демонстрируя конкурентоспособные результаты.

🔗 Читать статью
🔗 Ссылка на код
👍9🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
👆Классическая ситуация, когда следуешь туториалам по машинному обучению👆
😁20🎉2🤔1
Инструменты для работы c ML-моделями и обзор MLOps от CERN

В дайджесте много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и подборки помогут вам держать руку на пульсе.

Читать дайджест
🔥4🤩2👍1
❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут.

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
Как часто вы программируете на других языках? Зачем переходите на них?
#интерактив
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍2
Запустится ли этот код на Python 3? Если да, то что он выведет?

sys.allow_boolean_assignment разрешает создавать переменные с именами, зарезервированными под идентификаторы типа bool. Поэтому этот код запустится и выведет «True is False».

Эта настройка введена в известном первоапрельском коммите, который до сих пор остался в коде интерпретатора. Если кандидат об этом знает, можно с уверенностью сказать, что он общается в должных профессиональных кругах и любят углубляться в детали.
#вопросы_с_собеседований
🔥9
Как прочитать данные в DataFrame из файла CSV?

Мы можем создать фрейм данных из файла CSV — «Comma Separated Values (значения, разделенные запятыми)». Это можно сделать с помощью метода read_csv(), который принимает файл csv в качестве параметра:
pandas.read_csv(file_name)

Другой способ сделать это — использовать метод read_table(), который принимает CSV-файл и значение разделителя в качестве параметра:
pandas.read_table(file_name, delimiter)
#вопросы_с_собеседований
🥱10🌚3
👾 «Как я спас робота от жены»

Программисты — интересные люди. Они могут потратить часы своего времени чтобы реализовать сложную, но интересную вещь.

В этом видео автор использовал компьютерное зрение, нейросети и смекалку программиста, чтобы спасти робота-пылесоса от ужасной участи оказаться на свалке.

Смотреть видео
😁5
LightGBM

LightGBM — библиотека, созданная сотрудниками Microsoft для работы в сфере машинного обучения. Ее ключевая особенность — быстрая реализация градиентного бустинга. Это такой принцип машинного обучения, который помогает разработчикам создавать новые алгоритмы, используя многоуровневые решения.

Выполнение этого кода позволит обучить модель LightGBM на выборки данных из файла 'data.csv', разделить выборку на обучающую и тестовую, определить параметры модели и обучить ее. В конце модель используется для прогнозирования значений на тестовом наборе данных, и вычисляется точность модели.

Результат работы показывает Accuracy (точность) модели, которая здесь равна 0.8761.
👍8🔥3🥱31
Приходилось ли вам приукрашивать опыт работы на собеседовании? Ловили ли вас на слове?
#интерактив
Метод index()

Метод index — это встроенный метод списка, который позволяет узнать индекс или позицию элемента в последовательности.

Этот метод ищет элемент в списке и возвращает индекс, соответствующий его значению, в противном случае возникает ошибка ValueError.
Пошаговое распространение: элементарное руководство

Авторы представляют доступный первый курс по диффузионным моделям и сопоставлению потоков для машинного обучения, предназначенный для технической аудитории без опыта. Они постарались максимально упростить математические детали (иногда эвристически), сохраняя при этом достаточную точность для вывода правильных алгоритмов.

Читать руководство
👏3😁2