Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

9️⃣типичных для новичков ошибок
Автор статьи показывает лучшие практики написания кода на Python. Он также даёт ссылку на другой детальный разбор ошибок, которые часто делают джуны.

🎓 Туториалы

▫️Распознавание изображений для начинающих на наборе данных CIFAR-10 с помощью Numpy, PIL, os, TensorFlow и Taipy.
▫️Распознавание автомобильных номеров для продвинутых

🔥 Интересные проекты

▫️AlphaCodium — инструмент на базе LLM, предназначенный специально для решения задач по программированию.
▫️Langroid – продвинутый фреймворк для создания ИИ-агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6👍42
🤖🔮 GPT-5: как новый релиз от OpenAI изменит ИИ-технологии

GPT-4 в своё время заворожила весь мир, показав высокий уровень качества генерации текстов. Хоть она вышла и не так давно — в марте 2023-го, люди уже ждут новое поколение модели. CEO OpenAI Сэм Альтман даже подтвердил журналистам, что работа над GPT-5 ведётся. В новой статье мы изучили всю имеющуюся на данный момент информацию об этом и разобрали по пунктам, чего ждать от апгрейда GPT.

🔗 Читать статью
🔗 Зеркало
🔥3🥱3😁1🙏1
🤔 Кто всё-таки лучше: GPT-4 или Claude 3?

Anthropic релизнули Claude 3 недавно, заявив, что новая модель превосходит GPT-4. С тех пор успели появиться результаты независимых тестов. Вот, что они говорят:

⚡️По данным лидерборда LMSYS Chatbot, первое место занимает последняя модель GPT-4 Turbo. Claude 3 Opus разместилась на третьем месте. При этом в баллах теста Arena Elo отставание не большое — 1233 против 1251.

Если задать моделям 100 вопросов, то модель OpenAI даст более предпочтительный ответ в 54 случаях, а модель Anthropic — в 46.

👀 Также любопытный эксперимент провёл журналист Максим Лотт. Он создал текстовую версию теста на IQ и заставил модели его пройти. В этом эксперименте Claude 3 обогнал GPT-4.

💬 В целом, есть мнение, что обе модели выдают почти одинаковое качество. А вы уже проверяли? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
5
▶️ Подборка YouTube-каналов по Data Science и Machine Learning

❤️ karpov.courses
Это канал образовательного проекта, возглавляемого Анатолием Карповым, бывшим сеньором дата-аналитиком VK. Можно, например, посмотреть плейлист «Как сделать...?», чтобы изучить особенности работы с данными.
❤️ Deep Learning School
Это канал бесплатной школы Deep Learning School от МФТИ. Там можно найти множество полезных роликов, объясняющих концепции DL, а также вебинары.
❤️ StatQuest with Josh Starmer
Автор канала в забавной и очень доступной форме объясняет ключевые аспекты DS и ML. Понять легко, даже если вы не владеете английским на высоком уровне.
❤️ 3Blue1Brown
Это отличный канал для тех, кто хочет по-настоящему понять математику, стоящую за машинным обучением. Там есть плейлист по теории вероятностей, линейной алгебре и дифференциальному исчислению.
❤️ sentdex
Тут можно найти туториалы по Python, нейросетям, работе с API и др.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🔥1
🧑‍💻 Из грязи в князи: вкатился с нуля в IT за границей

Мы ищем тех, кто начинал карьеру в IT за границей без опыта и специальной подготовки. Хотим услышать ваши истории успеха и препятствий, с которыми вы столкнулись.

Если вы готовы рассказать свою историю — напишите нам на [email protected] 👈
6👍3
🫣 На Hugging Face и в ИИ-проектах на GitHub нашли вредоносный код

Исследователи JFrog заявили, что код устанавливал на устройства пользователей бэкдоры и другое вредоносное ПО.

Бэкдор — позволяет получить несанкционированный доступ к данным или удалённому управлению устройством.

Одна из моделей, например, открыла обратный шелл, что предоставило удалённому устройству возможность полного контроля над устройством конечного пользователя. Хоть атаки на исследовательский компьютер не произошло, специалисты всё равно считают такие вещи нарушением безопасности и этики.

Исследователи также объяснили подробно, как устроен описанный выше бэкдор.

Похоже, что вредоносный код был внедрён в файл модели PyTorch с помощью метода reduce модуля pickle. Этот метод позволяет атакующим вставлять произвольный код Python в процесс десериализации, что потенциально может привести к вредоносному поведению при загрузке модели.
👾5👍32🤔1
👀 ИИ-моделям дали подобие периферического зрения

Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.

Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.

Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.

🔗 Читать статью
6🔥3👾3👍2
🤔 Что такое извлечение признаков (Feature Extraction)?

Feature Extraction — это процесс преобразования исходных данных в набор признаков, используемых для последующего анализа или моделирования.

👆В основном, целью извлечения признаков является уменьшение размерности исходных данных. Специалист создаёт на базе оригинального датасета новые информативные признаки. Методы здесь применяются разные.

☑️ Для текстов:
Чаще всего здесь идёт речь о преобразовании текстов в векторы. Основные методы такие:
▪️мешок слов (Bag of Words)
▪️TF-IDF
▪️создание эмбеддингов

☑️ Для изображений:
Тут мы тоже будем пытаться извлечь как можно больше информации в как можно более сжатом виде. Можем применять:
▪️фильтры
▪️свёрточные нейронные сети (CNN)
▪️автоэнкодеры.

▶️ Также в контексте извлечения признаков часто говорят о Principal Component Analysis (PCA), методе уменьшения размерности данных.

#вопрос_с_собеседований
👍10😁32
👕👚Удобный датасет для сегментации одежды

Автор канала «Надя пробует» улучшила набор данных с Kaggle IMaterialist. Теперь он адаптирован под задачу сегментации. Вот что было сделано:

▪️Была проведена фильтрация изображений;
▪️Улучшена классификация;
▪️Исправлен формат: добавлен простой класс датасета.

🔗 Переработанный датасет лежит на Hugging Face
👍63
⚡️Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла очередная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬Новости

▫️ Создан новый тест для ИИ — WMDP (Weapons of Mass Destruction Proxy), который будет проверять модели на знание:
- способов создания и применения всех видов оружия массового поражения;
- методов взлома систем кибербезопасности.
▫️Глава OpenAI Сэм Альтман обнародовал переписку с Илоном Маском, в которой последний указывает на то, что ожидает от OpenAI прибыли. Это противоречит недавним заявлениям Маска.

🛠 Инструменты

▫️Corgea — находит и автоматически исправляет уязвимости в коде.
▫️GenWebBilder — делает полнофункциональные веб-сайты по скетчам и скриншотам.
▫️Framedrop AI — автоматически конвертирует длинные видео, влоги и стримы в рилсы и короткие клипы для X и TikTok.
▫️Vocalo AI — личный репетитор, который научит свободно говорить по-английски.

👍 Робототехника

Профессор Кен Голдберг из Университета Беркли поделился соображениями по поводу технических, этических и экономических проблем, которые препятствуют широкому внедрению ИИ-роботов на данном этапе.

➡️ Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍521
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие профильные каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика

💼Каналы с вакансиями

Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

🤖Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
1👍1
👨‍💻 12 ИТ-профессий, не требующих умения программировать

IT-профессионалы — это не только программисты, QA-тестировщики и DevOps-инженеры. В айтишном закулисье занято множество специалистов, которые не задействованы в написании кода и поддержке приложений — они работают рекрутерами, дизайнерами, маркетологами, техническими писателями, бизнес-аналитиками и менеджерами по продажам.

Работа этих вспомогательных специалистов — неотъемлемая часть успеха любой ИТ-компании.

Подробнее о том, чем занимаются такие специалисты, читайте в нашем материале.

👉 Читать статью
Свежий #дайджест материалов по машинному обучению, Data Science и нейросетям

🤖 Создание генетического алгоритма для нейросети и нейроcети для графических игр с помощью Python и NumPy
Статья рассказывает о создании генетического алгоритма для нейросети, чтобы с помощью него она смогла проходить разные игры, например Pong и Flappy bird.
🤖 Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python
Автор также прикладывает код.
🤖 Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python
Обширная статья от того же автора, что и предыдущая. Довольно сложная и наполненная техническими деталями.
🤖 Visualisation 101: Choosing the Best Visualisation Type
Автор даёт советы по выбору наиболее подходящего типа визуализации в зависимости от конкретной задачи.
🤖 Design2Code: How Far Are We From Automating Front-End Engineering
Исследователи попытались понять, может ли GPT заменить разработчиков веб-страниц.
8
💬 Это пост для советов

👇Поделитесь в комментариях любимыми образовательными YouTube-каналами, бесплатными курсами, которые понравились, книгами или статьями по DS и ML👇

#интерактив
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍1
🧔‍♂️ Midjourney научилась генерировать серию картинок с одним и тем же персонажем

Новая опция называется character consistency. Теперь можно, например, создавать комиксы.

К сожалению, функция не работает на перенос лиц с фотографий. Она доступна только для персонажей, которых с нуля сгенерировала сама нейросеть.

👉 Вот как воспользоваться новой функцией:
▫️Сгенерируйте персонажа.
▫️Кликните на картинку правой кнопкой и сохраните Image Address.
▫️Напишите новый промпт, добавьте — cref и скопированный url в конце.
👍6
🎓 Что такое дропаут (dropout)?

Дропаут — это намеренная деактивация части нейронов на шаге обучения нейросети. На каждом последующем шаге деактивироваться могут уже другие нейроны, нежели на предыдущем.

Зачем это делать?

Идея дропаута перекликается с идеей ансамбля алгоритмов. В последнем случае сразу много моделей дают каждая свой ответ и его в результате усредняют. Как правило, точность ансамбля выше, чем точность его отдельных членов. Дропаут, условно говоря, моделирует несколько разных нейросетей на основе одной. Это также помогает повысить точность нейронки.

Как провести дропаут?

Фиксируется число p — вероятность «смерти» нейрона. На каждой итерации градиентного спуска для каждого нейрона проводится случайное испытание — исключать его или нет. Из «выживших» нейронов затем формируется новая нейросеть. Для неё осуществляется одна итерация градиентного спуска.

После обучения нейросети, на этапе инференса, стоит не забывать домножать выход каждого нейрона на число p.
👍8
Forwarded from Библиотека программиста | программирование, кодинг, разработка
👩‍💻 14 талантливых женщин, сделавших неоценимый вклад в ИТ

Дочь распутного поэта, католическая монахиня, голливудская звезда и контр-адмирал — что может их объединять? Вклад в развитие ИТ!

👉 Читать статью
👉 Зеркало
👏4🥰3👍2🥱1
🆕 GPT-4 научилась убивать монстров в Doom, но игра давалась нелегко

Исследователь Адриан де Винтер протестировал способность GPT-4 в мультимодальном варианте (GPT-4V) управлять процессом игры Doom без предварительного обучения. Для этого он разработал код для подключения игры к нейросети.

🔗Подробнее
🔥5