Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Forwarded from Библиотека программиста | программирование, кодинг, разработка
👩‍💻 14 талантливых женщин, сделавших неоценимый вклад в ИТ

Дочь распутного поэта, католическая монахиня, голливудская звезда и контр-адмирал — что может их объединять? Вклад в развитие ИТ!

👉 Читать статью
👉 Зеркало
👏4🥰3👍2🥱1
🆕 GPT-4 научилась убивать монстров в Doom, но игра давалась нелегко

Исследователь Адриан де Винтер протестировал способность GPT-4 в мультимодальном варианте (GPT-4V) управлять процессом игры Doom без предварительного обучения. Для этого он разработал код для подключения игры к нейросети.

🔗Подробнее
🔥5
🆕 Новый ИИ от Google будет играть с вами в видеоигры

Google DeepMind представила SIMA – искусственный интеллект, обучаемый навыкам игры, чтобы играть более естественно, подобно человеку, а не как сверхмощный ИИ, действующий самостоятельно.

🔗Подробнее
🥰4👍2🌚2
🤖 Принят первый в мире закон о регулировании искусственного интеллекта

В среду Европарламент одобрил Artificial Intelligence Act — закон, который, в том числе, вводит четыре «категории риска» для ИИ-систем. «Категории риска» такие:
▫️низкая,
▫️средняя,
▫️высокая,
▫️неприемлемая.

Согласно новым правилам, будут запрещены:
▪️ИИ-приложения, которые нарушают права граждан, например системы биометрической идентификации, основанные на чувствительных данных.
▪️Базы данных с изображениями лиц, собранными без разрешения владельцев.
▪️Cистемы для распознавания эмоций в школах и на рабочих местах.
▪️Системы социального скоринга.
▪️ИИ-приложения, манипулирующие человеческим поведением.

На системы искусственного интеллекта «высокого риска» также будут наложены некоторые обязательства по снижению этого риска. На такой ИИ граждане смогут пожаловаться.

🕛 Закон вступит в силу через 20 дней после его опубликования. Применять его начнут в течение двух лет.
👍11🌚1
💬 Open Source по-русски: путь к технологической независимости или обочина прогресса?

Для одних организаций open source является ключом к преодолению зависимости от иностранных вендоров и драйвером инноваций, для других — дырой в безопасности и обочиной технологического прогресса.

Мы хотим изучить текущее состояние и возможности открытого ПО в России. Пройдите опрос и помогите нам увидеть ситуацию глазами IT-профессионалов.

👉 Ссылка на опрос 👈

Прохождение займёт примерно 4 минуты
👍3😁3
🎨 Опубликован код отладчика для моделей Transformer

OpenAI разместила инструмент на GitHub. Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».

Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.

В репозитории можно найти подробные инструкции, как пользоваться инструментом.

💻Ссылка на GitHub-репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
👍131
🆕 Midjourney забанила нескольких сотрудников Stability AI по подозрению в массовом скрапинге промптов

🔗Подробнее
😁8👍6
🕯 Подборка обучающих материалов по статистике

Хочешь понять машинное обучение — изучи статистику. Статистические методы и принципы занимают центральное место в разработке, анализе и интерпретации ML-алгоритмов. Поэтому мы составили для вас подборку книг, курсов и видеороликов по статистике:

🎓 Основы статистики
Не можем не упомянуть прекрасный бесплатный курс по статистике от Института биоинформатики. Начинает с самых азов, постепенно погружая всё глубже. Курс состоит из нескольких частей, поэтому материала там достаточно.

▶️ Прикладная статистика
Набор плейлистов по самым разным темам статистики: от распределений до А/Б-тестов.

▶️ Essence of probability - 3Blue1Brown
В плейлисте собраны отличные объяснение теоремы Байеса и распределений.

📚 Bayesian Statistics The Fun Way (2019)
Эта книга даёт понимание байесовской статистики с помощью простых объяснений и нескучных примеров.

📚 Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (2020)
Содержит примеры на Python и практические рекомендации по применению статистических методов в DS.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103
This media is not supported in your browser
VIEW IN TELEGRAM
🐍🗺 Создавайте захватывающие интерактивные карты с помощью Python

В новой статье разберём библиотеку визуализации данных Plotly. Шаг за шагом научимся создавать и настраивать простые и интерактивные карты, а также работать с картами Хороплета — особым типом карт, в которых используется цветовое кодирование для обозначения данных по конкретным географическим областям, таким как страны, штаты или города.

🔗 Читать статью
🔗 Зеркало
👍7🔥4
Julia_Cheat_Sheet.pdf
1.9 MB
✍️ Шпаргалка по языку Julia

Если вам было интересно узнать, чем синтаксис Julia отличается от пайтоновского, то эта шпаргалка — отличный материал для быстрого изучения.

Содержит информацию об использовании:
▪️пакетов;
▪️операторов;
▪️векторов;
▪️разных функций;
▪️датафреймов.
🔥4👍2🥱2
🐍🎸 Курс Django. Часть 3: Основы работы с формами

В новой части курса разбираем основные методы создания, кастомного рендеринга и кастомной валидации форм.

🔗 Читать статью
🔗 Зеркало

Предыдущие части:
Часть 1: Django — что это? Обзор и установка фреймворка, структура проекта
Часть 2: ORM и основы работы с базами данных
👾21
🎓 Полиномиальная регрессия: что это и когда используется?

Стандартная линейная регрессия имеет такую формулу: f(x) = b + m⋅x. Она описывает связь между переменными и рисует на графике прямую — такую, которая проходит наиболее близко ко всем точкам данных. Однако данные далеко не всегда хорошо аппроксимируются прямой линией. Посмотрите на картинку выше — вряд ли вы сможете провести такую прямую, которая будет лежать недалеко от всех точек.

✍️ Здесь данные, похоже, было бы лучше моделировать с помощью квадратичной функции, которая нарисовала бы линию с изгибом. Вот как выглядит такая формула: f(x) = b + m1⋅x + m2⋅x^2. По формуле видно — нам нужно создать ещё один признак, который будет равен квадрату исходного признака. Если мы всё сделаем правильно, то получим решение проблемы.

👉 Такие модели, использующие полином n-степени, называются полиномиальной регрессией. Они чаще всего используются, когда данные показывают нелинейные тренды.
🎉65
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
🤖 Стартап Илона Маска x.ai опубликовал исходный код Grok-1

Разработчики выложили в открытый доступ веса и архитектуру большой языковой модели Grok-1. Это версия, полученная на фазе предобучения, которая была завершена в октябре 2023 года. Это значит, что данная модель не была тонко настроена ни под какую специфическую задачу, в том числе диалог.

Итак, вот особенности Grok-1:
🔹Содержит 314 млрд параметров.
🔹Использует технику Mixture-of-Experts.
🔹Для обучения использовали кастомный стек на основе JAX и Rust.

🔗 Изучить код внимательнее можно в этом репозитории
🤗 Карточка модели на Hugging Face

👉Подробности и контекст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
🌲Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности

Автор новой статьи на Хабре описывает любопытный способ добиться увеличения точности и сохранения полноты моделей Random Forest. Предложенная им методика заключается в обрезке деревьев решений до наиболее эффективных ветвей.

Шаги алгоритма такие:
▪️Выбираются ветви деревьев, где преобладает целевой класс.
▪️Их эффективность проверяется на новых данных.
▪️Отобранные ветви применяются для классификации новых объектов.

🔗 Читать статью полностью
🔥5🤩2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Основные типы распределений вероятностей в примерах

На «Хабре» опубликовали отличный материал с примерами распределений, которые могут встретиться вам в работе. Упор в статье делается не на функции и формулы, а на вид графиков на конкретных примерах.

Среди рассмотренных распределений:
▫️биномиальное,
▫️Пуассона,
▫️экспоненциальное,
▫️Вейбулла,
▫️гамма-распределение,
▫️бета-распределение,
▫️гипергеометрическое,
▫️нормальное,
▫️Стьюдента,
▫️Хи-квадрат,
▫️Фишера.

🔗 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍4
This media is not supported in your browser
VIEW IN TELEGRAM
☄️ Подборка новостей из мира искусственного интеллекта

🔥 NVIDIA представила мощнейшний чип для ИИ — Blackwell
По заверениям компании, процессор позволяет строить и запускать генеративные модели с триллионами параметров. При этом чип потребляет в 25 раз меньше энергии, чем его предшественники. NVIDIA также привела результаты тренировки модели, сравнимой с GPT-4. Так, раньше требовалось 8000 процессоров H100 и 90 дней при мощности 15MW. Теперь нужны лишь 2000 новых карт B100 и 90 дней при мощности 4MW.

🔄 Ollama стала поддерживать графические карты AMD
Ollama — это открытый проект, который позволяет запускать большие языковые модели, такие как Llama 2 и Mistral, локально. Обновление с поддержкой AMD доступно на Linux и Windows.

🆒 Представлен Devin — «первый ИИ-разработчик»
Авторы проекта утверждают, что он установил новую планку в бенчмарках по кодингу. Вот что Devin может делать:
▫️Учиться применять незнакомые ему технологии;
▫️Построить и внедрить приложение от начала до конца;
▫️Автономно находить и исправлять баги;
▫️Обучать и файн-тюнить собственные ИИ-модели.
В интернете уже полно шуток про то, что Devin наконец заменит программистов, как все того ждали. Однако, похоже, что всерьёз бояться не стоит.

😈 Figure и OpenAI показали робота с интегрированной GPT-моделью
В опубликованном видео робот Figure 01 поддерживает разговор с инженером, выполняет его команды и рассуждает, когда его просят об этом.

🤗 Hugging Face запустил собственный проект по роботам
Обещают, что он будет по-настоящему открытым. Уже начался поиск инженеров на проект.
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1
👀 Подробная статья о квантизации нейросетевых моделей от ML-разработчика Яндекса

Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Квантизованные модели требуют меньше вычислительных ресурсов и работают быстрее, а значит, экономят деньги и улучшают пользовательский опыт. Автор статьи рассказал о методах квантизации, с какими данными предстоит работать и подсказал, в какой момент лучше квантизовать модель.

🔗 Подробнее
👍6😁1
🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

😏 Мнение: пора переключаться с бэкенда на ИИ

Общемировой тренд — увеличение спроса на ИИ-разработчиков. И у Python-специалистов есть огромное преимущество — они без особых усилий могут переключиться с бэкенда на машинное обучение. Автор этой публикации рассказал, с чего проще всего начать — с изучения супервостребованной RAG-технологии.

🎩 Hatchet — эффективная альтернатива Celery

Hatchet — это новая система распределения задач для управления сложными процессами. Она позволяет создавать отказоустойчивые процессы, решающие проблемы параллелизма, справедливости распределения задач и ограничения скорости обработки. Обо всех преимуществах Hatchet читайте в рассылке.

🌐 Niquests — продвинутая альтернатива Requests

Новая библиотека лишена некоторых недостатков старой, а также имеет дополнительные фичи. Какие — подробно рассказываем в статье на vc.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
3