Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
↗️ О векторных базах данных простым языком

В статье рассказывается:
🔘что такое векторные базы данных,
🔘каковы их ключевые отличия от традиционных
🔘как они применяются в задачах, связанных с ИИ и обработкой данных.

Также автор описывает, как векторные базы данных помогают находить схожие объекты, например, для рекомендаций или поиска.

🔗 Читать по этой ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🐍 Python для перфекционистов: 10 способов писать идеальный код

Простота Python позволяет разработчикам быстро создавать рабочие программы, но более продвинутые техники могут сделать ваш код более эффективным, гибким и элегантным.

👉 Читать обо всех способах с примерами кода здесь
👍4🔥2🎉2
Подготовься к собеседованию на позицию Data Scientist!

Профессия Data Scientist становится все более востребованной, и компании ищут специалистов, способных превращать данные в ценные инсайты. Но как успешно пройти техническое собеседование?

Мы собрали 10 типичных задач, которые могут встретиться на собеседовании, и эффективные подходы к их решению:

1. Внешнее и тензорное произведение

2. One-hot кодировка

3. Мониторинг осадков

4. Симуляция бросков кубиков в «Монополии»

5. Бурение скважин для добычи золота

6. Вычисление свертки

7. Бэктестинг торговой стратегии

8. Прогноз оттока клиентов с помощью логистической регрессии

9. Обнаружение спама с использованием дерева решений

10. Предсказание цен на квартиры с помощью линейной регрессии

Чтобы начать решать задачи, достаточно ответить на три простых вопроса по этой ссылке и получить доступ к вводным занятиям курса Алгоритмы и структуры данных и 10 задача
👍3🔥1
🐼⛓️ Pandas Chaining — интересный подход к написанию Pandas-кода

Смысл подхода заключается в написании всего пайплайна по обработке данных в одном куске кода.

Почему это может быть полезно?

▪️Делает код более читаемым: вы можете видеть все операции, строка за строкой;
▫️Упрощает поддержку кода;
▪️Облегчает дебаггинг: можно проверить состояние данных в любой точке пайплайна с помощью .pipe() или временно закомментировать ненужные операции;
▫️Позволяет экономить память: не создаёт лишних промежуточных копий данных.

🔗 Репо с описанием подхода и примерами
👍3🔥21
🤖🔄🤖 Самосовершенствующиеся ИИ: как передать знания от одной модели другой

Развитие больших языковых моделей привело к революции в области ИИ, но также выявило ключевые проблемы масштабирования: чем больше становятся модели, тем меньше прирост их производительности, в то время как затраты на обучение — как вычислительные, так и финансовые — продолжают расти. Этот эффект убывающей отдачи показывает, что будущее ИИ лежит не в создании более крупных моделей, а в создании более эффективных и умных технологий.

Разработчики Writer создали новую архитектуру самосовершенствующихся моделей. Эти модели могут учиться в реальном времени и адаптироваться к изменениям без необходимости полной повторного обучения.

👉 О том, как они устроены, читайте в нашей статье
👍2
Привет, друзья! 👋

2024-й год подходит к концу, и пока LLM не написали за нас все программы, а квантовые компьютеры не взломали все пароли, самое время подвести итоги. Какие технологии действительно «выстрелили», а какие не оправдали ожиданий? Что изменилось в работе разработчиков, и какие навыки оказались самыми востребованными?

💻 Поделитесь своим мнением, и самое важное и интересное войдёт в нашу статью. 🏆
🤖 💻 Код без боли: 16 генераторов кода, которые заменят целую команду

Мы сделали подробный обзор современных генераторов кода — от GitHub Copilot до малоизвестных, но мощных альтернатив.

👉 Читать по этой ссылке
👍4🔥32😁1🤩1
⚡️Самые полезные каналы по Data Science в одной папке

В ней:
канал для подготовки к собеседованиям
интересные задачи
основной канал (этот)
книги по Data Science
лучшие вакансии из сферы
и наш чат, в котором можно общаться и задавать вопросы

Добавляйте 👉 тык сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
👏1😢1
Что такое диффузионные модели?

Диффузионные модели используются для генерации новых данных (например, изображений), и в их основе лежит процесс «зашумления» и «расшумления».

✍️ Как это работает?

▪️К исходному объекту добавляется случайный шум. На каждом этапе этого процесса объект становится всё более «шумным», пока не превратится в почти случайный набор данных.
▪️Теперь задача модели — шаг за шагом «убирать» шум, чтобы восстановить что-то осмысленное, например, изображение.

Этот процесс моделируется с использованием вероятностных методов, а сами шаги зашумления и расшумления подбираются так, чтобы результат выглядел реалистично.

#вопросы_с_собеседований
😁3🥱1