Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🚀 GPTFast — библиотека для ускорения работы с моделями Transformers в 6-7 раз

Как поясняют авторы проекта, GPTFast изначально был набором методик, разработанных PyTorch Team, для ускорения инференса Llama-2-7b. Эти методики обобщили на другие модели Hugging Face.

Для того, чтобы начать работу с GPTFast, нужно:
▫️убедиться, что вы используете версию Python 3.10 или выше,
▫️ вы на устройстве Cuda,
▫️ вы настроили виртуальное окружение,
▫️ вы установили библиотеку — pip install gptfast.

🔗 Подробности — в репозитории проекта
7👍1
Обучение нейросети YandexGPT пересказу видео

На Хабре поделились рассказом, как Яндекс реализовал пересказ видео любой длины в Браузере.

В статье рассказали:
◾️ Почему для суммаризации видео не подошла дообученная статейная модель YandexGPT,
◾️ Про достоинства и недостатки подходов LoRa и Fine-tune,
◾️ С какими сложностями столкнулись при обработке длинных видео и как нашли решение.

🔗 Ссылка
🔥62
🧠 Знания — сила! Что должен изучить каждый программист?

Мы запускаем опрос среди наших читателей, чтобы выяснить, какие ключевые компетенции необходимо развивать программисту на текущий момент. Какие направления стоит изучать в первую очередь? Уровень каких знаний влияет на зарплату в отрасли?

Мы проанализируем ваши ответы и составим ТОП-лист навыков, которые не помешает освоить каждому программисту и разработчику для успешного карьерного роста!

👉 Пройти опрос
🧠 Лучше GPT-4? Представлено новое поколение моделей Claude

Компания Anthropic выпустила линейку моделей Claude 3: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Opus и Sonnet уже доступны для использования на сайте claude.ai и через Claude API. Haiku добавят чуть позже.

Разработчики утверждают, что лучшая модель Opus превосходит другие LLM в ряде задач и демонстрирует почти человеческий уровень понимания и скорости в сложных задачах. Кроме того, модели Claude 3 могут обрабатывать картинки и графики.

▶️ Напомним, что компанию Anthropic основали бывшие сотрудники OpenAI. Пока неясно, каковы реальные возможности Claude 3. Модели следует тестировать.

🔗 Попробовать модели можно здесь
7👍1
💬📊 Какую библиотеку для построения графиков вы используете чаще всего?

❤️ — Matplotlib
👍 — Seaborn
🔥 — Plotly
👾 — ggplot2

#интерактив
98👍57🔥27👾72😁1🤩1
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/100f1763

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/100f1763
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
👓 Анализ более 300 соревнований по ML: что люди используют для победы

Реддитор создал сайт со списком соревнований по машинному обучению, собранных с разных платформ, и провёл детальный анализ тех, что проводились в 2023 году. Вот основные выводы автора:

🐍 Большинство победителей соревований использовали Python. Лишь один написал код на C++ для решения оптимизационной проблемы, а другой — на R для анализа временных рядов.
🦾 92% решений по глубокому обучению были написаны на PyTorch. TensorFlow использовали только 8% участников. Около 20% победителей соревнований, применивших PyTorch, выбрали PyTorch Lightning.
👀 В соревнованиях по компьютерному зрению модели на базе CNN (свёрточных нейронок) побеждали чаще, чем модели на базе Transformer.
👅 Люди начали активно использовать генеративные LLM. Их применяют для создания синтетических обучающих данных, классификации и др.
🏆 Одними из самых популярных алгоритмов по-прежнему остаются LightGBM, XGBoost, и CatBoost.
👍22❤‍🔥8🥱42👏2
🐍🗺️ Геокодирование для Data Scientists: вводное руководство с примерами

Может возникнуть ситуация, когда набор данных содержит адрес, но широта и долгота отсутствуют. В этом случае первым шагом для дополнения данных будет добавление этой пары координат. Этот процесс преобразования адреса в широту и долготу называется геокодированием.

В новой статье разбираем три различных способа геокодирования с помощью Geopy.

🔗 Читать статью
🔗 Зеркало
👍102
🔍Представлен новый поисковик по данным — Dateno

🌍 Платформа позволяет найти открытые данные и статистику со всего мира. Можно выбрать страну происхождения данных, тематику, язык, формат, лицензию и др.

👍 Сейчас в Dateno насчитывается 10 миллионов наборов данных из 4.9 тысячи каталогов. До конца 2024 года планируют достигнуть 30 миллионов наборов данных.

⚠️ Пока платформа работает в бета-режиме. Могут встречаться ошибки, дубликаты, проблемы с метаданными. Однако сайт уже работает и им можно пользоваться. Кроме того, у проекта есть API и скоро оно станет открытым.

🔗 Ссылка на Dateno
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91
🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

9️⃣типичных для новичков ошибок
Автор статьи показывает лучшие практики написания кода на Python. Он также даёт ссылку на другой детальный разбор ошибок, которые часто делают джуны.

🎓 Туториалы

▫️Распознавание изображений для начинающих на наборе данных CIFAR-10 с помощью Numpy, PIL, os, TensorFlow и Taipy.
▫️Распознавание автомобильных номеров для продвинутых

🔥 Интересные проекты

▫️AlphaCodium — инструмент на базе LLM, предназначенный специально для решения задач по программированию.
▫️Langroid – продвинутый фреймворк для создания ИИ-агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6👍42
🤖🔮 GPT-5: как новый релиз от OpenAI изменит ИИ-технологии

GPT-4 в своё время заворожила весь мир, показав высокий уровень качества генерации текстов. Хоть она вышла и не так давно — в марте 2023-го, люди уже ждут новое поколение модели. CEO OpenAI Сэм Альтман даже подтвердил журналистам, что работа над GPT-5 ведётся. В новой статье мы изучили всю имеющуюся на данный момент информацию об этом и разобрали по пунктам, чего ждать от апгрейда GPT.

🔗 Читать статью
🔗 Зеркало
🔥3🥱3😁1🙏1
🤔 Кто всё-таки лучше: GPT-4 или Claude 3?

Anthropic релизнули Claude 3 недавно, заявив, что новая модель превосходит GPT-4. С тех пор успели появиться результаты независимых тестов. Вот, что они говорят:

⚡️По данным лидерборда LMSYS Chatbot, первое место занимает последняя модель GPT-4 Turbo. Claude 3 Opus разместилась на третьем месте. При этом в баллах теста Arena Elo отставание не большое — 1233 против 1251.

Если задать моделям 100 вопросов, то модель OpenAI даст более предпочтительный ответ в 54 случаях, а модель Anthropic — в 46.

👀 Также любопытный эксперимент провёл журналист Максим Лотт. Он создал текстовую версию теста на IQ и заставил модели его пройти. В этом эксперименте Claude 3 обогнал GPT-4.

💬 В целом, есть мнение, что обе модели выдают почти одинаковое качество. А вы уже проверяли? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
5
▶️ Подборка YouTube-каналов по Data Science и Machine Learning

❤️ karpov.courses
Это канал образовательного проекта, возглавляемого Анатолием Карповым, бывшим сеньором дата-аналитиком VK. Можно, например, посмотреть плейлист «Как сделать...?», чтобы изучить особенности работы с данными.
❤️ Deep Learning School
Это канал бесплатной школы Deep Learning School от МФТИ. Там можно найти множество полезных роликов, объясняющих концепции DL, а также вебинары.
❤️ StatQuest with Josh Starmer
Автор канала в забавной и очень доступной форме объясняет ключевые аспекты DS и ML. Понять легко, даже если вы не владеете английским на высоком уровне.
❤️ 3Blue1Brown
Это отличный канал для тех, кто хочет по-настоящему понять математику, стоящую за машинным обучением. Там есть плейлист по теории вероятностей, линейной алгебре и дифференциальному исчислению.
❤️ sentdex
Тут можно найти туториалы по Python, нейросетям, работе с API и др.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🔥1
🧑‍💻 Из грязи в князи: вкатился с нуля в IT за границей

Мы ищем тех, кто начинал карьеру в IT за границей без опыта и специальной подготовки. Хотим услышать ваши истории успеха и препятствий, с которыми вы столкнулись.

Если вы готовы рассказать свою историю — напишите нам на [email protected] 👈
6👍3
🫣 На Hugging Face и в ИИ-проектах на GitHub нашли вредоносный код

Исследователи JFrog заявили, что код устанавливал на устройства пользователей бэкдоры и другое вредоносное ПО.

Бэкдор — позволяет получить несанкционированный доступ к данным или удалённому управлению устройством.

Одна из моделей, например, открыла обратный шелл, что предоставило удалённому устройству возможность полного контроля над устройством конечного пользователя. Хоть атаки на исследовательский компьютер не произошло, специалисты всё равно считают такие вещи нарушением безопасности и этики.

Исследователи также объяснили подробно, как устроен описанный выше бэкдор.

Похоже, что вредоносный код был внедрён в файл модели PyTorch с помощью метода reduce модуля pickle. Этот метод позволяет атакующим вставлять произвольный код Python в процесс десериализации, что потенциально может привести к вредоносному поведению при загрузке модели.
👾5👍32🤔1
👀 ИИ-моделям дали подобие периферического зрения

Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.

Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.

Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.

🔗 Читать статью
6🔥3👾3👍2
🤔 Что такое извлечение признаков (Feature Extraction)?

Feature Extraction — это процесс преобразования исходных данных в набор признаков, используемых для последующего анализа или моделирования.

👆В основном, целью извлечения признаков является уменьшение размерности исходных данных. Специалист создаёт на базе оригинального датасета новые информативные признаки. Методы здесь применяются разные.

☑️ Для текстов:
Чаще всего здесь идёт речь о преобразовании текстов в векторы. Основные методы такие:
▪️мешок слов (Bag of Words)
▪️TF-IDF
▪️создание эмбеддингов

☑️ Для изображений:
Тут мы тоже будем пытаться извлечь как можно больше информации в как можно более сжатом виде. Можем применять:
▪️фильтры
▪️свёрточные нейронные сети (CNN)
▪️автоэнкодеры.

▶️ Также в контексте извлечения признаков часто говорят о Principal Component Analysis (PCA), методе уменьшения размерности данных.

#вопрос_с_собеседований
👍10😁32