Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍1
🧔‍♂️ Midjourney научилась генерировать серию картинок с одним и тем же персонажем

Новая опция называется character consistency. Теперь можно, например, создавать комиксы.

К сожалению, функция не работает на перенос лиц с фотографий. Она доступна только для персонажей, которых с нуля сгенерировала сама нейросеть.

👉 Вот как воспользоваться новой функцией:
▫️Сгенерируйте персонажа.
▫️Кликните на картинку правой кнопкой и сохраните Image Address.
▫️Напишите новый промпт, добавьте — cref и скопированный url в конце.
👍6
🎓 Что такое дропаут (dropout)?

Дропаут — это намеренная деактивация части нейронов на шаге обучения нейросети. На каждом последующем шаге деактивироваться могут уже другие нейроны, нежели на предыдущем.

Зачем это делать?

Идея дропаута перекликается с идеей ансамбля алгоритмов. В последнем случае сразу много моделей дают каждая свой ответ и его в результате усредняют. Как правило, точность ансамбля выше, чем точность его отдельных членов. Дропаут, условно говоря, моделирует несколько разных нейросетей на основе одной. Это также помогает повысить точность нейронки.

Как провести дропаут?

Фиксируется число p — вероятность «смерти» нейрона. На каждой итерации градиентного спуска для каждого нейрона проводится случайное испытание — исключать его или нет. Из «выживших» нейронов затем формируется новая нейросеть. Для неё осуществляется одна итерация градиентного спуска.

После обучения нейросети, на этапе инференса, стоит не забывать домножать выход каждого нейрона на число p.
👍8
Forwarded from Библиотека программиста | программирование, кодинг, разработка
👩‍💻 14 талантливых женщин, сделавших неоценимый вклад в ИТ

Дочь распутного поэта, католическая монахиня, голливудская звезда и контр-адмирал — что может их объединять? Вклад в развитие ИТ!

👉 Читать статью
👉 Зеркало
👏4🥰3👍2🥱1
🆕 GPT-4 научилась убивать монстров в Doom, но игра давалась нелегко

Исследователь Адриан де Винтер протестировал способность GPT-4 в мультимодальном варианте (GPT-4V) управлять процессом игры Doom без предварительного обучения. Для этого он разработал код для подключения игры к нейросети.

🔗Подробнее
🔥5
🆕 Новый ИИ от Google будет играть с вами в видеоигры

Google DeepMind представила SIMA – искусственный интеллект, обучаемый навыкам игры, чтобы играть более естественно, подобно человеку, а не как сверхмощный ИИ, действующий самостоятельно.

🔗Подробнее
🥰4👍2🌚2
🤖 Принят первый в мире закон о регулировании искусственного интеллекта

В среду Европарламент одобрил Artificial Intelligence Act — закон, который, в том числе, вводит четыре «категории риска» для ИИ-систем. «Категории риска» такие:
▫️низкая,
▫️средняя,
▫️высокая,
▫️неприемлемая.

Согласно новым правилам, будут запрещены:
▪️ИИ-приложения, которые нарушают права граждан, например системы биометрической идентификации, основанные на чувствительных данных.
▪️Базы данных с изображениями лиц, собранными без разрешения владельцев.
▪️Cистемы для распознавания эмоций в школах и на рабочих местах.
▪️Системы социального скоринга.
▪️ИИ-приложения, манипулирующие человеческим поведением.

На системы искусственного интеллекта «высокого риска» также будут наложены некоторые обязательства по снижению этого риска. На такой ИИ граждане смогут пожаловаться.

🕛 Закон вступит в силу через 20 дней после его опубликования. Применять его начнут в течение двух лет.
👍11🌚1
💬 Open Source по-русски: путь к технологической независимости или обочина прогресса?

Для одних организаций open source является ключом к преодолению зависимости от иностранных вендоров и драйвером инноваций, для других — дырой в безопасности и обочиной технологического прогресса.

Мы хотим изучить текущее состояние и возможности открытого ПО в России. Пройдите опрос и помогите нам увидеть ситуацию глазами IT-профессионалов.

👉 Ссылка на опрос 👈

Прохождение займёт примерно 4 минуты
👍3😁3
🎨 Опубликован код отладчика для моделей Transformer

OpenAI разместила инструмент на GitHub. Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».

Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.

В репозитории можно найти подробные инструкции, как пользоваться инструментом.

💻Ссылка на GitHub-репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
👍131
🆕 Midjourney забанила нескольких сотрудников Stability AI по подозрению в массовом скрапинге промптов

🔗Подробнее
😁8👍6
🕯 Подборка обучающих материалов по статистике

Хочешь понять машинное обучение — изучи статистику. Статистические методы и принципы занимают центральное место в разработке, анализе и интерпретации ML-алгоритмов. Поэтому мы составили для вас подборку книг, курсов и видеороликов по статистике:

🎓 Основы статистики
Не можем не упомянуть прекрасный бесплатный курс по статистике от Института биоинформатики. Начинает с самых азов, постепенно погружая всё глубже. Курс состоит из нескольких частей, поэтому материала там достаточно.

▶️ Прикладная статистика
Набор плейлистов по самым разным темам статистики: от распределений до А/Б-тестов.

▶️ Essence of probability - 3Blue1Brown
В плейлисте собраны отличные объяснение теоремы Байеса и распределений.

📚 Bayesian Statistics The Fun Way (2019)
Эта книга даёт понимание байесовской статистики с помощью простых объяснений и нескучных примеров.

📚 Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (2020)
Содержит примеры на Python и практические рекомендации по применению статистических методов в DS.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103
This media is not supported in your browser
VIEW IN TELEGRAM
🐍🗺 Создавайте захватывающие интерактивные карты с помощью Python

В новой статье разберём библиотеку визуализации данных Plotly. Шаг за шагом научимся создавать и настраивать простые и интерактивные карты, а также работать с картами Хороплета — особым типом карт, в которых используется цветовое кодирование для обозначения данных по конкретным географическим областям, таким как страны, штаты или города.

🔗 Читать статью
🔗 Зеркало
👍7🔥4
Julia_Cheat_Sheet.pdf
1.9 MB
✍️ Шпаргалка по языку Julia

Если вам было интересно узнать, чем синтаксис Julia отличается от пайтоновского, то эта шпаргалка — отличный материал для быстрого изучения.

Содержит информацию об использовании:
▪️пакетов;
▪️операторов;
▪️векторов;
▪️разных функций;
▪️датафреймов.
🔥4👍2🥱2
🐍🎸 Курс Django. Часть 3: Основы работы с формами

В новой части курса разбираем основные методы создания, кастомного рендеринга и кастомной валидации форм.

🔗 Читать статью
🔗 Зеркало

Предыдущие части:
Часть 1: Django — что это? Обзор и установка фреймворка, структура проекта
Часть 2: ORM и основы работы с базами данных
👾21
🎓 Полиномиальная регрессия: что это и когда используется?

Стандартная линейная регрессия имеет такую формулу: f(x) = b + m⋅x. Она описывает связь между переменными и рисует на графике прямую — такую, которая проходит наиболее близко ко всем точкам данных. Однако данные далеко не всегда хорошо аппроксимируются прямой линией. Посмотрите на картинку выше — вряд ли вы сможете провести такую прямую, которая будет лежать недалеко от всех точек.

✍️ Здесь данные, похоже, было бы лучше моделировать с помощью квадратичной функции, которая нарисовала бы линию с изгибом. Вот как выглядит такая формула: f(x) = b + m1⋅x + m2⋅x^2. По формуле видно — нам нужно создать ещё один признак, который будет равен квадрату исходного признака. Если мы всё сделаем правильно, то получим решение проблемы.

👉 Такие модели, использующие полином n-степени, называются полиномиальной регрессией. Они чаще всего используются, когда данные показывают нелинейные тренды.
🎉65
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
🤖 Стартап Илона Маска x.ai опубликовал исходный код Grok-1

Разработчики выложили в открытый доступ веса и архитектуру большой языковой модели Grok-1. Это версия, полученная на фазе предобучения, которая была завершена в октябре 2023 года. Это значит, что данная модель не была тонко настроена ни под какую специфическую задачу, в том числе диалог.

Итак, вот особенности Grok-1:
🔹Содержит 314 млрд параметров.
🔹Использует технику Mixture-of-Experts.
🔹Для обучения использовали кастомный стек на основе JAX и Rust.

🔗 Изучить код внимательнее можно в этом репозитории
🤗 Карточка модели на Hugging Face

👉Подробности и контекст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
🌲Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности

Автор новой статьи на Хабре описывает любопытный способ добиться увеличения точности и сохранения полноты моделей Random Forest. Предложенная им методика заключается в обрезке деревьев решений до наиболее эффективных ветвей.

Шаги алгоритма такие:
▪️Выбираются ветви деревьев, где преобладает целевой класс.
▪️Их эффективность проверяется на новых данных.
▪️Отобранные ветви применяются для классификации новых объектов.

🔗 Читать статью полностью
🔥5🤩2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Основные типы распределений вероятностей в примерах

На «Хабре» опубликовали отличный материал с примерами распределений, которые могут встретиться вам в работе. Упор в статье делается не на функции и формулы, а на вид графиков на конкретных примерах.

Среди рассмотренных распределений:
▫️биномиальное,
▫️Пуассона,
▫️экспоненциальное,
▫️Вейбулла,
▫️гамма-распределение,
▫️бета-распределение,
▫️гипергеометрическое,
▫️нормальное,
▫️Стьюдента,
▫️Хи-квадрат,
▫️Фишера.

🔗 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍4
This media is not supported in your browser
VIEW IN TELEGRAM
☄️ Подборка новостей из мира искусственного интеллекта

🔥 NVIDIA представила мощнейшний чип для ИИ — Blackwell
По заверениям компании, процессор позволяет строить и запускать генеративные модели с триллионами параметров. При этом чип потребляет в 25 раз меньше энергии, чем его предшественники. NVIDIA также привела результаты тренировки модели, сравнимой с GPT-4. Так, раньше требовалось 8000 процессоров H100 и 90 дней при мощности 15MW. Теперь нужны лишь 2000 новых карт B100 и 90 дней при мощности 4MW.

🔄 Ollama стала поддерживать графические карты AMD
Ollama — это открытый проект, который позволяет запускать большие языковые модели, такие как Llama 2 и Mistral, локально. Обновление с поддержкой AMD доступно на Linux и Windows.

🆒 Представлен Devin — «первый ИИ-разработчик»
Авторы проекта утверждают, что он установил новую планку в бенчмарках по кодингу. Вот что Devin может делать:
▫️Учиться применять незнакомые ему технологии;
▫️Построить и внедрить приложение от начала до конца;
▫️Автономно находить и исправлять баги;
▫️Обучать и файн-тюнить собственные ИИ-модели.
В интернете уже полно шуток про то, что Devin наконец заменит программистов, как все того ждали. Однако, похоже, что всерьёз бояться не стоит.

😈 Figure и OpenAI показали робота с интегрированной GPT-моделью
В опубликованном видео робот Figure 01 поддерживает разговор с инженером, выполняет его команды и рассуждает, когда его просят об этом.

🤗 Hugging Face запустил собственный проект по роботам
Обещают, что он будет по-настоящему открытым. Уже начался поиск инженеров на проект.
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1