Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🖥 Итоги недели в мире Python и обзоры новых инструментов: история создания Python и лучшие практики разработки⁠⁠

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Теперь мы публикуем её и на Пикабу 🧁

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

🥳 Питону — 33 года!

В 2024 году Python исполняется 33 года. За это время он прошёл невероятный путь — от пет-проекта до одного из самых универсальных и популярных языков. О том, как развивались основные концепции языка, почему крупные ИТ-компании боялись, что автобус может переехать Гвидо, и когда на логотипе Python всё-таки появились змеи — расскажет публикация на Хабре.

📒 Google Colab или Jupyter Notebook: что лучше подойдёт для новичка

Итак, вы решили заняться Data Science и узнали, что есть две основные платформы в этой сфере — Jupyter Notebook и Google Colab. Главное различие между ними заключается в том, что первая работает локально у вас на компьютере, а вторая — в облаке. О других нюансах читайте в статье.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩2
👾 Центр научной коммуникации проводит опрос среди ML-специалистов. Ответы собираются анонимно. Авторы хотят узнать больше о том, как устроены рынок труда и профессиональное сообщество в этой сфере.

👉 Ссылка на опрос
👍2
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как узнать ход мыслей ИИ-модели⁠⁠

У нас вышла новая статья на Пикабу по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘По мнению ИИ-светил, момент создания AGI не за горами. В то же время нынешние ИИ-модели продолжают совершать абсурдные ошибки.
🔘Разработчики Alibaba нашли способ генерировать длинные видео (до сих пор это было не под силу даже Sora). Множество примеров — на сайте проекта ExVideo.
🔘Исследование DeepMind показало, что создание политических дипфейков является самым популярным сценарием использования ИИ в противоправных целях.
🔘Крупнейшие музыкальные лейблы подали коллективный иск против стартапов Udio и Suno, ИИ-модели которых генерируют потрясающе реалистичные и качественные песни в любом жанре.

🛠 Инструменты

🔘Find AI — ИИ-поисковик, оптимизированный для розыска информации об ИТ-компаниях и специалистах ИТ-сферы.
🔘Cartwheel — анимирует 3D-персонажей для рекламы, соцсетей, видеоигр, VR/AR и кино.
🔘Revid — создает короткие видео для ТикТока.
🔘Lenso — ИИ-поисковик для изображений.
🔘Tellers — создает видео по любым текстам и статьям.

👾 Эффективные техники написания промптов: как улучшить качество ответов чат-бота с помощью <scratchpad>

Эта методика направлена на улучшение структуры и качества ответов ИИ: она делает процесс более прозрачным и управляемым.

Вот как надо использовать тег <scratchpad>:

✔️ Четкая постановка задачи.
✔️ Использование «черновика». Добавьте раздел, обозначенный тегами <scratchpad> — в нем нужно дать ИИ указание составить план подхода к решению задачи.
✔️ Планирование ответа. Это позволяет ИИ показать ход своих «мыслей».
✔️ Проверка и итерация. Вы просматриваете предложенный план и при необходимости корректируете его.
✔️ Генерация ответа. После вашего одобрения ИИ использует этот план для создания ответа.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4😁1
🦙Как делать файн-тюнинг Llama-3

Этот блогпост рассказывает, как добиться улучшения производительности модели, дообучив её на специфическом датасете. В данном случае использовался набор данных Math Instruct. С помощью файн-тюнинга удалось заставить модель Llama-3 8B перейти от 47% точности до 65%, приблизившись к уровню GPT-4o (71%).

🔗 Ссылка на блогпост
🔗 Ссылка на код
3
🐍👍 25 лучших практик разработки на Python

Материал охватывает ключевые аспекты создания качественного, эффективного и масштабируемого кода. Рассматриваются современные инструменты, методы организации проекта и техники программирования.

Это перевод оригинальной статьи Modern Good Practices for Python Development

🔗 Читать статью
👍4
Привет, друзья! 👋

Мы пишем статью о способах измерения личностного роста программистов и нам нужна ваша помощь! 🚀

📊 Какие метрики вы используете для оценки своего прогресса?
🤔 Как вы понимаете, что выросли профессионально?
💡 Есть ли у вас свои уникальные способы отслеживания развития?

Поделитесь вашим опытом в комментариях! Лучшие идеи попадут в нашу статью!
🔥2🌚2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
1👍1
🤖 👀 ТОП-5 опенсорсных библиотек для компьютерного зрения в 2024

Мы отобрали 5 мощных опенсорсных библиотек, которые помогут решить широкий спектр задач: от обнаружения аномалий в изображениях до аугментации данных.

👉Читать о библиотеках подробнее в статье
👍31
🔘🔘🔘Алгоритм DBSCAN для кластеризации 🔘🔘🔘

Кластеризация — это метод, который позволяет группировать объекты в кластеры на основе их сходства. Один из популярных алгоритмов для выполнения этой задачи — DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

🪅 Основные преимущества DBSCAN

🔘Сам определяет количество кластеров (в отличие от K-means),
🔘Успешно справляется с кластеризацией данных, где кластеры могут иметь сложные формы.

Как работает DBSCAN

1⃣ Все объекты выборки делятся на три типа: внутренние/основные точки (core points), граничные (border points) и шумовые точки (noise points). Статус каждой точки определяется по плотности соседей в пределах заданного радиуса (Eps).

2⃣ Шумовые точки убираются из рассмотрения и не приписываются ни к какому кластеру.

3⃣ Основные точки, у которых есть общая окрестность, соединяются ребром.

4⃣ В полученном графе выделяются компоненты связности.

5⃣ Каждая граничная точка относится к тому кластеру, в который попала ближайшая к ней основная точка.

DBSCAN можно назвать одним из самых сильных алгоритмов кластеризации. Однако он может долго работать, поскольку чувствителен к размерности пространства признаков.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17👏2🔥1
⚛️ Нейросети для физики: как устроены PINN (Physics-informed neural networks)

Главная особенность таких нейросетей — наличие в Loss‑функции включена разница между предсказанными значениями и значениями, полученными из уравнений, описывающих физический процесс. Входом для такой модели являются координаты.

PINN могут применяться:
▪️для моделирования волнового распространения в сейсмологии;
▪️для оценки состояния и параметров, а также обнаружения аномалий в электроэнергетических системах;
▪️в моделировании кровотока в артериях и прогнозировании артериального давления и др.

Подробнее о PINN читайте в новой статье на «Хабре» 👈
👍5😁41
✍️ Хэндбук дата-сайентиста 2024

В этом репозитории автор собрал множество полезных ресурсов, которые помогут прокачать различные навыки. Среди собранных ресурсов есть как платные, так и бесплатные.

▪️YouTube-каналы
▪️Блоги
▪️Подкасты
▪️Книги

🔗 Ссылка на репозиторий
🔥6👍3
Привет, друзья! 👋

Мы готовим статью о самых раздражающих вопросах на собеседованиях и хотим узнать ваше мнение! 🤔💼

📌 Какой вопрос на собеседовании вы считаете самым бесящим или нелепым? Почему?
🎭 Как вы обычно отвечаете на вопрос «Расскажите о своих недостатках»? Поделитесь своими лайфхаками!
🚀 Какой самый неожиданный или креативный вопрос вам задавали на собеседовании? Как вы на него ответили?

Ваши ответы помогут другим кандидатам подготовиться к собеседованиям! Самые интересные истории и советы попадут в нашу статью.

Ждём ваших комментариев! 👇😊
👏3🥰2🙏1
🤔 Инварианты: проектирование эффективных алгоритмов

Инварианты — мощный инструмент для анализа, оптимизации и доказательства корректности алгоритмов. Покажем, как можно их использовать для разработки максимально эффективных решений сложных задач.

🔗 Читать статью
😁4🎉3🔥2👍1
🤖💼 ТОП-6 самых высокооплачиваемых профессий в сфере ИИ

Forbes опубликовал список самых высокооплачиваемых профессий в сфере ИИ. Рассказываем, какие профессии лидируют и какие навыки требуются.

Зарплаты указаны для западного рынка.

👉 Читать подробности в статье
🌚7👍3😁2🤔2