Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
😍 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘С помощью браузера Opera теперь можно загружать и использовать локальные LLM. Поддерживается более 150 моделей.
🔘AI-компании уже соскрапили почти весь интернет и в ближайшее время начнут испытывать недостаток в данных.
🔘Stability AI представила новую версию модели Stable Audio 2.0 для генерации музыкальных треков длиной до 3 минут.

🛠 Инструменты

🔘Undermind — ИИ-поисковик, который ищет решения самых сложных проблем по огромной базе научных публикаций.
🔘IMG2HTML — конвертирует скриншоты в HTML-код. Может создать клон сайта по URL.
🔘CallTeacher — ИИ-преподаватель иностранных языков.
🔘Photoroom — мощный ИИ-редактор изображений.

📈 Исследования

🔘Какие модели лучше всего справляются с суммаризацией. Спойлер: не GPT-4.
🔘Придумана новая техника взлома LLM. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
🦾 Почти 1000 опенсорсных LLM-инструментов

На этом сайте каждые 6 часов обновляется llama-police — список инструментов на основе больших языковых моделей (LLM) с открытым исходным кодом. В таблице перечислены репозитории таких проектов, их краткое описание, количество контрибьюторов, звёзд и т.д.

👉 Большинство из проектов также можно найти в cool-llm-repos на GitHub.

🔗 Ссылка на сайт
👍6
🐍 10 основных ошибок начинающих Python-разработчиков

В статье рассматриваются самые частые ошибки новичков, а также даются советы по их решению. Многие из указанных проблем связаны с читаемостью кода, так как именно читаемость — одно из важнейших качеств.

🔗 Читать статью
🔗 Зеркало
👍5🥱2
📊 Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

На «Хабре» вышла хорошая статья, рассказывающая о:
🔘анализе выборок;
🔘влиянии параметров эксперимента и статистических критериев на результаты анализа;
🔘основных критериях;
🔘доверительных интервалах;
🔘статистических тестах.

🔗 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3
Как выбрать количество скрытых слоёв и нейронов в нейросети?

Не существует универсального решения этой проблемы. Выбор количества скрытых слоёв и нейронов часто зависит от практических наблюдений и экспериментов. Однако есть несколько общих принципов и эвристик, которые можно использовать.

▫️Количество скрытых слоёв может быть определено сложностью решаемой проблемы. Простые задачи можно решить с использованием всего одного скрытого слоя, тогда как более сложные задачи могут потребовать больше. Однако нужно помнить, что добавление дополнительных слоёв также увеличивает риск переобучения. Следует находить компромисс.

▫️Количество нейронов в скрытом слое может быть определено на основе количества входных признаков и желаемого уровня сложности модели. Некоторые специалисты советуют применять такие правила:
— Число нейронов в скрытых слоях должно лежать в диапазоне от количества входных до количества выходных нейронов.
— Можно сделать количество нейронов в скрытом слое кратным к размеру входного слоя. Например, в два раза больше или в два раза меньше.

На практике бывает полезно начать с простой модели и постепенно увеличивать её сложность до достижения желаемой производительности.

#вопросы_с_собеседований
👍9
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍3
🧑‍💻 Анализ навыков data-специализаций в вакансиях HH.ru

Один из пользователей «Хабра» проанализировал вакансии на HeadHunter по следующим трём специализациям:
▪️BI/Data аналитик;
▪️Data Science;
▪️Продуктовый аналитик.

Автор также создал дашборд, где можно посмотреть требуемые навыки для каждой специализации, среднюю зарплату и количество вакансий по России.

🔗 Desktop-версия дашборда
🔗 Mobile-версия дашборда

👉 Здесь можно прочитать статью
🔥85👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥🎥 Adobe анонсировала ИИ-редактор для Premiere Pro

Компания показала на видео возможности модели Adobe Firefly. Скоро в Premiere Pro появится вкладка Generative, в которой будут следующие опции:

🔸Object Addition — позволяет выделить участок сцены и промптом указать, что именно там должно располагаться. Нужные объекты сгенерируются в нужном месте.
🔸Object Removal — объекты можно не только добавлять, но и убирать. Их выделение выглядит очень просто, и видимых следов от присутствия не остаётся.
🔸Generative Extend — позволяет расширить ваши футажи, чтобы добиться необходимой длительности ролика.

Все фишки появятся в Premiere Pro «позже в этом году». Кроме того, программу можно будет интегрировать со сторонними видеомоделями (Pika, Runway и, может быть даже, Sora от OpenAI).
🤩7🔥4
🤖💣 ИИ-ассистенты разработчика: скрытая угроза

Внедрение ИИ в процессы разработки и отладки неизменно сопровождается изматывающими обсуждениями с участием юристов, комплаенс-менеджеров и специалистов по кибербезопасности. И это понятно — никому не хочется нести ответственность за риски, связанные с безопасностью данных, конфиденциальностью и соблюдением авторских прав.

Однако самый важный вопрос — как использование ИИ повлияет на качество готового продукта — обычно остается без внимания. Именно эту проблему мы и обсудим.

🔗 Читать статью
🔗 Зеркало
👍6
💬 Начните писать в комментариях фразу «Искусственный интеллект скоро...», а подсказки при вводе пусть продолжат за вас.

#интерактив
🔥4😁4👾3
🧡 Гайд для новичков по Google Colab 💛

Один из специалистов Google по машинному обучению выпустил получасовой ролик, который охватывает все необходимые новичку тонкости использования Colab-ноутбуков.

🔸04:05 Виды ячеек
🔸10:49 Вызов подсказок
🔸13:02 Отрисовка графиков
🔸13:43 Создание форм
🔸15:07 Установка пакетов
🔸17:30 Интеграция с Google Drive
🔸19:41 Магические команды
🔸22:19 Установка секретов

🔗 Ссылка на видео
6
🖥 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

💬 Как автоматически создавать субтитры

В статье рассматривается простейший способ транскрипции видео и создания субтитров — с помощью Python, Whisper и FFmpeg.

▶️ Видеотуториалы

🔘Основные приёмы работы с SQLAlchemy
SQLAlchemy — это библиотека, предназначенная для работы с реляционными базами данных. Умеет выполнять все запросы, доступные в SQL.
🔘Клон ChatGPT на Django
Автор видео показывает, как сделать аналог знаменитого чат-бота с помощью Django, вебсокетов (Channels) и HTMX.

🛠 Инструменты

🔘Tkinter Designer — автоматически конвертирует дизайны Figma в код Tkinter GUI.
🔘drawpyo — библиотека для визуализации диаграмм, карт и схем Draw.io.
🔘Great Tables — создаёт привлекательные таблицы для визуализации данных из датафреймов Pandas и Polars.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4
🔥 Вышла новая PyTorch-библиотека для файн-тюнинга LLM

Библиотека называется torchtune. Она поддерживает весь воркфлоу, включая:

🔸 Загрузку и подготовку датасетов и чекпойнтов моделей;
🔸 Настройку процесса обучения с помощью разнообразных строительных блоков (как в torch);
🔸 Процесс логирования и метрики для отслеживания процесса обучения;
🔸 Квантизацию моделей после обучения;
🔸 Оценку моделей с помощью популярных бенчмарков;
🔸 Локальный запуск для тестирования.

🔗 Репозиторий torchtune
🔗 Туториалы по работе с библиотекой
🤩5👍4🥰2
🤔 Оптимизация гиперпараметров за 5 секунд?

Гиперпараметры — это характеристики модели, которые фиксируются ещё до начала обучения. Например, глубина решающего дерева и learning rate для градиентного спуска. Их подбор — очень важный этап обучения. Правильные значения гиперпараметров могут радикальным образом повлиять на производительность.

На «Хабре» опубликовали обзор следующих основных методов оптимизации гиперпараметров:
▫️Grid Search
▫️Random Search
▫️Байесовская/вероятностная оптимизация
▫️TPE (Tree-structured Parzen Estimator).

🔗 Читать статью
🔥9👍2
На вход нейросети подаётся фотография размером 227×227×3. К ней применяется свёрточный слой с фильтром размером 11×11. Всего применяется 96 фильтров с шагом 4. Каким будет размер выходного изображения после этого слоя?
Anonymous Quiz
32%
54x54x96
35%
55×55×96
20%
54x54
13%
55×55
👍5