Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.41K photos
121 videos
64 files
4.86K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🤖 Дедубликация: как OpenAI и FastAPI спасут Habr от дублей̆

В статье рассказывается о том, как модели OpenAI помогают в задаче дедубликации текстов и similarity search. Рассмотрены различные подходы к решению проблемы: от концепции MinHash до реализации на эмбеддингах современных трансформенных моделей. В статье также описан пример создания микросервиса на FastAPI для поиска дубликатов постов.

🔗 Основной сайт
🔗 Зеркало
👍2
✍️ Библиотека программиста» находится в поиске авторов оригинальных статей

Языки
● Python, JavaScript, TypeScript, C#, Go, SQL.

Тематика
● Информационная безопасность, Data Science, базовые концепции языков, продвинутый Python, JS (и т. д), бэкенд веб-приложений, фронтенд-разработка, React, системное программирование, базы данных.

Объем
● от 7 до 15 тыс. знаков.

➡️ Заполнить анкету ⬅️

Я хорошо программирую, но пишу «так себе». Что делать?
Если вы хорошо программируете, но навыки письма немного отстают, пройдите наш бесплатный курс на Степике «Статьи для IT: как объяснять и распространять значимые идеи».
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1