Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🚗 Gemini 1.5 создает структурированный JSON из видео

На вход подается видео с классическими автомобилями и запрос с просьбой указать марку, производителя, год выпуска, цвет и описание авто - Gemini удалось проделать довольно приличную работу!

Привожу часть ответа ниже (полный json на картинке):

[
{
"make": "Cadillac Eldorado",
"manufacturer": "General Motors",
"year": 1953,
"color": "Blue",
"description": "The Cadillac Eldorado was a luxury convertible that was known for its stylish design and powerful engine."
},
{
"make": "Chevrolet Corvette",
"manufacturer": "General Motors",
"year": 1953,
"color": "Red",
"description": "The Chevrolet Corvette was a sports car that was known for its sleek design and impressive performance."
},

]

Шикарный результат!

@data_analysis_ml
🔥34👍84
Forwarded from Kali Linux
💻 Вредоносные Deep Learning модели

На платформе Hugging Face обнаружено не менее 100 вредоносных Deep Learning моделей, некоторые из которых могут выполнять код на машине жертвы, предоставляя злоумышленникам постоянный бэкдор.

Специалисты компании JFrog разработали и развернули продвинутую систему сканирования для проверки моделей PyTorch и Tensorflow Keras, размещенных на Hugging Face.
Малварь проникла в Hugging Face несмотря на все меры безопасности, включая сканирование на наличие малвари, а также тщательное изучение функциональности моделей для обнаружения такого поведения, как небезопасная десериализация.

Одним из примеров стала модель PyTorch, загруженная недавно пользователем под ником baller423 и уже удаленная с HuggingFace. Она содержала полезную нагрузку, которая позволяла создать реверс-шелл на указанный хост (210.117.212.93). Вредоносная полезная нагрузка использовала метод __reduce__ модуля pickle для выполнения произвольного кода при загрузке файла модели PyTorch, при этом избегая обнаружения за счет встраивания малвари в доверенный процесс сериализации.

В JFrog обнаружили, что та же полезная нагрузка связывалась и с другими IP-адресами, что позволяет предположить, что ее операторы все же являются ИИ- и ИБ-исследователями, а не хакерами. Однако такие эксперименты в JFrog все равно называют слишком рискованными, учитывая, что опасные модели были общедоступны.

Пытаясь определить истинные намерения операторов вредоноса, аналитики развернули приманку для привлечения активности и ее анализа. Им удалось установить соединение с сервером потенциальных злоумышленников, однако не удалось перехватить ни одной команды за время поддержания соединения.

@linuxkalii
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍123😢3
➡️Совсем свежий 4-часовой курс по ML от freeCodeCamp.org

В этом ролике затронуты самые важные понятия ML и смежных областей, помимо теории, есть много кода и практических заданий (например, прогнозирование стоимости жилья)

Что есть в курсе?
🟢Дорожная карта ML на 2024 год
🟢Необходимый набор навыков для карьеры в области ML
🟢Основные карьерные пути
🟢Основы ML
🟢Bias-Variance Trade-Off
🟢Overfitting и регуляризация
🟢Основы линейной регрессии
🟢Теория моделей линейной регрессии
🟢Теория моделей логистической регрессии
🟢Пример с линейной регрессией
🟢Загрузка и исследование данных
🟢Определение независимых и зависимых переменных
🟢Очистка и предварительная обработка данных
🟢Описательная статистика и визуализация данных
🟢Межквантильный диапазон для обнаружения выбросов
🟢Корреляционный анализ
🟢Разделение данных на Train/Test с помощью sklearn
🟢Запуск линейной регрессии - причинно-следственный анализ
🟢Проверка допущений OLS в модели линейной регрессии
🟢Запуск линейной регрессии для прогнозной аналитики

➡️ Youtube

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥266👍6
⚡️Сверхполезная статья от профи Data Science

Здесь обсуждается и показывается, как производить конкатенацию, сегментацию данных, объединять данные — и ещё очень много насущных вещей DS
Годно)

Клик

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍13🔥4🥱2❤‍🔥1
🌌 Galactic

Если вы хотите, изучить,, подготовить, очистить или создать эмбединги из больших наборов неструктурированных текстовых данных, попробуйте Galatic.

Он отдлично подходит для файнтюнинга данных, создания документов для RAG. Инструмент поможет выполнить полную подготовку неструктурированных датасетов для работы с LLM.

Github

@data_analysis_ml
👍143🔥2
⚡️Вышло обновление Automatic 1111 до версии 1.8.0

Обновился Automatic 1111 — самый популярный интерфейс для генерации изображений с помощью нейросетей Stable Diffusion

🟠Soft инпеинтинг с дополнительным размытием краев позволяет добиться невероятного качества изменения. Переходы теперь идеальные между оригиналом и инпеинтингом. Особенно если использовать модель для инпеинтинга SDXL, поддержка которых теперь доступна из коробки, просто скачайте модель как обычно.

🟠Поменялся интерфейс в меню экстрасетей (модели, лоры, эмбединги), теперь навигация представлена деревом каталогов и это наконец-то стало удобно.

🟠Добавлена нативная поддержка апскейлеров формата DAT, попробуйте скачать 4xLSDIRDAT в папку stable-diffusion-webui\models\DAT, не страшно если её нет, можете создать, она появится при попытке активировать DAT апскейлер на вкладке Extras.

🟠В txt2img теперь есть кнопка, которая позволяет сделать Hires. fix на уже готовой картинке, при этом сразу начинается апскейл экономя время.

🟠Крутых обновлений целая гора, вот список на изображении

Тестите, пишите как оно)

🖥 Automatic1111

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥115👍4
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Новый курс "Модели с открытым исходным кодом на Hugging face".

huggingface изменил правила игры, позволив разработчикам легко использовать любую из сотен тысяч уже готовых моделей с открытым исходным кодом для сборки в своих проектах.

Этот курс научит вас лучшим практикам работы с hf, в том числе поиску и выбору моделей.

Вы научитесь пользоваться библиотекой Transformers и познакомитесь с несколькими моделями обработки текста, аудио и изображений, включая сегментацию изображений с нулевым кадром, классификацию аудио с нулевым кадром и распознавание речи.

Вы также научитесь использовать мультимодальные модели для визуального ответа на вопросы, поиска изображений и подписи к изображениям. Наконец вы поработаете с Gradio и Hugging Face Spaces.

https://deeplearning.ai/short-courses/open-source-models-hugging-face/
12👍5🔥2
🚀 Датасет Amazon Reviews получил четвертое обновление!

Amazon Reviews, один из крупнейших и наиболее широко используемых наборов данных отзывов, насчитывающий более 500 миллионов отзывов пользователей, более 48 миллионов товаров, более 60 миллионов токенов, из 33 категорий.

https://amazon-reviews-2023.github.io

@data_analysis_ml
👍142🔥1
🔅Секреты успешного анализа данных: 10 принципов, которые работают

Эти 10 принципов — подборка практических и довольно очевидных правил, главное — придерживаться их. Начнём!

1️⃣Определите цель анализа данных.
Подумайте о том, что для вас на данный момент важнее всего: выявить скрытые закономерности в данных, предсказать будущие тренды или что-то другое.

2️⃣Обеспечьте качество данных.
Подготовка данных к анализу - это ваш первый шаг к созданию шедевра аналитики.

3️⃣Применяйте разнообразные методы анализа.
Уверенность в владении разнообразными методами анализа поможет вам принимать обоснованные решения и открывать новые перспективы.

4️⃣Используйте современные инструменты для обработки данных.
Открывайте новые горизонты современных технологий, обогащайте свои навыки и возможности в области обработки данных и становитесь настоящим профи данных.

5️⃣Создавайте эффективные модели прогнозирования.
Используя эффективные модели прогнозирования, вы вооружаетесь сильным инструментом, позволяющим вам принимать осознанные решения и идти впереди конкурентов.

6️⃣Осуществляйте визуализацию данных для наглядного представления информации.
Визуализация делает данные живыми и наглядными, что поможет вам принимать обоснованные решения.

7️⃣Учитывайте контекст и особенности данных.
Это позволит вам строить глубокие и точные модели, учитывая все нюансы и особенности, что помогает принимать обоснованные и эффективные решения.

8️⃣Используйте машинное обучение и искусственный интеллект.
ML и AI — это ваш мощный арсенал в битве за понимание и прогнозирование данных.

9️⃣Проводите регулярную проверку и обновление данных.
Это поможет вам принимать обоснованные решения, опираясь на достоверные и актуальные факты.

0️⃣Извлекайте практическую пользу из результатов анализа.
Это поможет вам использовать данные не только как информацию, но и как мощный инструмент для достижения целей и реализации задач.

В общем, данные — это не просто цифры и факты, это ключ к принятию обоснованных решений. Используйте их на полную!

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍10🔥2