Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🤔 Что такое извлечение признаков (Feature Extraction)?

Feature Extraction — это процесс преобразования исходных данных в набор признаков, используемых для последующего анализа или моделирования.

👆В основном, целью извлечения признаков является уменьшение размерности исходных данных. Специалист создаёт на базе оригинального датасета новые информативные признаки. Методы здесь применяются разные.

☑️ Для текстов:
Чаще всего здесь идёт речь о преобразовании текстов в векторы. Основные методы такие:
▪️мешок слов (Bag of Words)
▪️TF-IDF
▪️создание эмбеддингов

☑️ Для изображений:
Тут мы тоже будем пытаться извлечь как можно больше информации в как можно более сжатом виде. Можем применять:
▪️фильтры
▪️свёрточные нейронные сети (CNN)
▪️автоэнкодеры.

▶️ Также в контексте извлечения признаков часто говорят о Principal Component Analysis (PCA), методе уменьшения размерности данных.

#вопрос_с_собеседований
👍10😁32
👕👚Удобный датасет для сегментации одежды

Автор канала «Надя пробует» улучшила набор данных с Kaggle IMaterialist. Теперь он адаптирован под задачу сегментации. Вот что было сделано:

▪️Была проведена фильтрация изображений;
▪️Улучшена классификация;
▪️Исправлен формат: добавлен простой класс датасета.

🔗 Переработанный датасет лежит на Hugging Face
👍63
⚡️Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла очередная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬Новости

▫️ Создан новый тест для ИИ — WMDP (Weapons of Mass Destruction Proxy), который будет проверять модели на знание:
- способов создания и применения всех видов оружия массового поражения;
- методов взлома систем кибербезопасности.
▫️Глава OpenAI Сэм Альтман обнародовал переписку с Илоном Маском, в которой последний указывает на то, что ожидает от OpenAI прибыли. Это противоречит недавним заявлениям Маска.

🛠 Инструменты

▫️Corgea — находит и автоматически исправляет уязвимости в коде.
▫️GenWebBilder — делает полнофункциональные веб-сайты по скетчам и скриншотам.
▫️Framedrop AI — автоматически конвертирует длинные видео, влоги и стримы в рилсы и короткие клипы для X и TikTok.
▫️Vocalo AI — личный репетитор, который научит свободно говорить по-английски.

👍 Робототехника

Профессор Кен Голдберг из Университета Беркли поделился соображениями по поводу технических, этических и экономических проблем, которые препятствуют широкому внедрению ИИ-роботов на данном этапе.

➡️ Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍521
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
1👍1
👨‍💻 12 ИТ-профессий, не требующих умения программировать

IT-профессионалы — это не только программисты, QA-тестировщики и DevOps-инженеры. В айтишном закулисье занято множество специалистов, которые не задействованы в написании кода и поддержке приложений — они работают рекрутерами, дизайнерами, маркетологами, техническими писателями, бизнес-аналитиками и менеджерами по продажам.

Работа этих вспомогательных специалистов — неотъемлемая часть успеха любой ИТ-компании.

Подробнее о том, чем занимаются такие специалисты, читайте в нашем материале.

👉 Читать статью
Свежий #дайджест материалов по машинному обучению, Data Science и нейросетям

🤖 Создание генетического алгоритма для нейросети и нейроcети для графических игр с помощью Python и NumPy
Статья рассказывает о создании генетического алгоритма для нейросети, чтобы с помощью него она смогла проходить разные игры, например Pong и Flappy bird.
🤖 Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python
Автор также прикладывает код.
🤖 Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python
Обширная статья от того же автора, что и предыдущая. Довольно сложная и наполненная техническими деталями.
🤖 Visualisation 101: Choosing the Best Visualisation Type
Автор даёт советы по выбору наиболее подходящего типа визуализации в зависимости от конкретной задачи.
🤖 Design2Code: How Far Are We From Automating Front-End Engineering
Исследователи попытались понять, может ли GPT заменить разработчиков веб-страниц.
8
💬 Это пост для советов

👇Поделитесь в комментариях любимыми образовательными YouTube-каналами, бесплатными курсами, которые понравились, книгами или статьями по DS и ML👇

#интерактив
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍1
🧔‍♂️ Midjourney научилась генерировать серию картинок с одним и тем же персонажем

Новая опция называется character consistency. Теперь можно, например, создавать комиксы.

К сожалению, функция не работает на перенос лиц с фотографий. Она доступна только для персонажей, которых с нуля сгенерировала сама нейросеть.

👉 Вот как воспользоваться новой функцией:
▫️Сгенерируйте персонажа.
▫️Кликните на картинку правой кнопкой и сохраните Image Address.
▫️Напишите новый промпт, добавьте — cref и скопированный url в конце.
👍6
🎓 Что такое дропаут (dropout)?

Дропаут — это намеренная деактивация части нейронов на шаге обучения нейросети. На каждом последующем шаге деактивироваться могут уже другие нейроны, нежели на предыдущем.

Зачем это делать?

Идея дропаута перекликается с идеей ансамбля алгоритмов. В последнем случае сразу много моделей дают каждая свой ответ и его в результате усредняют. Как правило, точность ансамбля выше, чем точность его отдельных членов. Дропаут, условно говоря, моделирует несколько разных нейросетей на основе одной. Это также помогает повысить точность нейронки.

Как провести дропаут?

Фиксируется число p — вероятность «смерти» нейрона. На каждой итерации градиентного спуска для каждого нейрона проводится случайное испытание — исключать его или нет. Из «выживших» нейронов затем формируется новая нейросеть. Для неё осуществляется одна итерация градиентного спуска.

После обучения нейросети, на этапе инференса, стоит не забывать домножать выход каждого нейрона на число p.
👍8
Forwarded from Библиотека программиста | программирование, кодинг, разработка
👩‍💻 14 талантливых женщин, сделавших неоценимый вклад в ИТ

Дочь распутного поэта, католическая монахиня, голливудская звезда и контр-адмирал — что может их объединять? Вклад в развитие ИТ!

👉 Читать статью
👉 Зеркало
👏4🥰3👍2🥱1
🆕 GPT-4 научилась убивать монстров в Doom, но игра давалась нелегко

Исследователь Адриан де Винтер протестировал способность GPT-4 в мультимодальном варианте (GPT-4V) управлять процессом игры Doom без предварительного обучения. Для этого он разработал код для подключения игры к нейросети.

🔗Подробнее
🔥5
🆕 Новый ИИ от Google будет играть с вами в видеоигры

Google DeepMind представила SIMA – искусственный интеллект, обучаемый навыкам игры, чтобы играть более естественно, подобно человеку, а не как сверхмощный ИИ, действующий самостоятельно.

🔗Подробнее
🥰4👍2🌚2
🤖 Принят первый в мире закон о регулировании искусственного интеллекта

В среду Европарламент одобрил Artificial Intelligence Act — закон, который, в том числе, вводит четыре «категории риска» для ИИ-систем. «Категории риска» такие:
▫️низкая,
▫️средняя,
▫️высокая,
▫️неприемлемая.

Согласно новым правилам, будут запрещены:
▪️ИИ-приложения, которые нарушают права граждан, например системы биометрической идентификации, основанные на чувствительных данных.
▪️Базы данных с изображениями лиц, собранными без разрешения владельцев.
▪️Cистемы для распознавания эмоций в школах и на рабочих местах.
▪️Системы социального скоринга.
▪️ИИ-приложения, манипулирующие человеческим поведением.

На системы искусственного интеллекта «высокого риска» также будут наложены некоторые обязательства по снижению этого риска. На такой ИИ граждане смогут пожаловаться.

🕛 Закон вступит в силу через 20 дней после его опубликования. Применять его начнут в течение двух лет.
👍11🌚1
💬 Open Source по-русски: путь к технологической независимости или обочина прогресса?

Для одних организаций open source является ключом к преодолению зависимости от иностранных вендоров и драйвером инноваций, для других — дырой в безопасности и обочиной технологического прогресса.

Мы хотим изучить текущее состояние и возможности открытого ПО в России. Пройдите опрос и помогите нам увидеть ситуацию глазами IT-профессионалов.

👉 Ссылка на опрос 👈

Прохождение займёт примерно 4 минуты
👍3😁3
🎨 Опубликован код отладчика для моделей Transformer

OpenAI разместила инструмент на GitHub. Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».

Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.

В репозитории можно найти подробные инструкции, как пользоваться инструментом.

💻Ссылка на GitHub-репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
👍131
🆕 Midjourney забанила нескольких сотрудников Stability AI по подозрению в массовом скрапинге промптов

🔗Подробнее
😁8👍6
🕯 Подборка обучающих материалов по статистике

Хочешь понять машинное обучение — изучи статистику. Статистические методы и принципы занимают центральное место в разработке, анализе и интерпретации ML-алгоритмов. Поэтому мы составили для вас подборку книг, курсов и видеороликов по статистике:

🎓 Основы статистики
Не можем не упомянуть прекрасный бесплатный курс по статистике от Института биоинформатики. Начинает с самых азов, постепенно погружая всё глубже. Курс состоит из нескольких частей, поэтому материала там достаточно.

▶️ Прикладная статистика
Набор плейлистов по самым разным темам статистики: от распределений до А/Б-тестов.

▶️ Essence of probability - 3Blue1Brown
В плейлисте собраны отличные объяснение теоремы Байеса и распределений.

📚 Bayesian Statistics The Fun Way (2019)
Эта книга даёт понимание байесовской статистики с помощью простых объяснений и нескучных примеров.

📚 Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python (2020)
Содержит примеры на Python и практические рекомендации по применению статистических методов в DS.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103
This media is not supported in your browser
VIEW IN TELEGRAM
🐍🗺 Создавайте захватывающие интерактивные карты с помощью Python

В новой статье разберём библиотеку визуализации данных Plotly. Шаг за шагом научимся создавать и настраивать простые и интерактивные карты, а также работать с картами Хороплета — особым типом карт, в которых используется цветовое кодирование для обозначения данных по конкретным географическим областям, таким как страны, штаты или города.

🔗 Читать статью
🔗 Зеркало
👍7🔥4
Julia_Cheat_Sheet.pdf
1.9 MB
✍️ Шпаргалка по языку Julia

Если вам было интересно узнать, чем синтаксис Julia отличается от пайтоновского, то эта шпаргалка — отличный материал для быстрого изучения.

Содержит информацию об использовании:
▪️пакетов;
▪️операторов;
▪️векторов;
▪️разных функций;
▪️датафреймов.
🔥4👍2🥱2
🐍🎸 Курс Django. Часть 3: Основы работы с формами

В новой части курса разбираем основные методы создания, кастомного рендеринга и кастомной валидации форм.

🔗 Читать статью
🔗 Зеркало

Предыдущие части:
Часть 1: Django — что это? Обзор и установка фреймворка, структура проекта
Часть 2: ORM и основы работы с базами данных
👾21