Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
😺 Awesome CatBoost

Кураторский список ресурсов, обучающих матералов, репозиториев с открытым исходным кодом, руководств, блогов для работы с Catboost.

Catboost
Github
Awesome CatBoost
Примеры с кодом

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍4🔥2
⚡️ Шпаргалка по ML

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания

📁 PDF

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍10🔥5❤‍🔥2🤩1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Vega-Altair - это декларативная библиотека визуализации на Python.

Приемущества
1. Декларативный подход: Altair предлагает декларативный подход к созданию графиков, что означает, что вы описываете, какие данные вы хотите визуализировать и как, а библиотека заботится о деталях.
2. Простота использования: Altair позволяет генерировать красивые графики с минимальным количеством кода. Это делает его отличным выбором для быстрого создания визуализаций.
3. Легкая Интеграция: Altair хорошо интегрируется с Pandas, Jupyter Notebook и JupyterLab для , что упрощает работу с данными.
4.Интерактивность: Позволяет создавать интерактивные графики без усилий.


Недостатки
1. Ограниченные возможности настройки:
В сравнении с Matplotlib, Altair предоставляет меньше возможностей для настройки графиков.
2. Ограниченная документация: Altair не обладает богатой документацией.

pip install altair

Github
Docs
Colab
Примеры

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍226🔥6
🎉 Выпущены JupyterLab 4.1 и Jupyter Notebook 7.1!

В новых релизах добавлена поддержка диаграмм Mermaid, добавлена автоматическая генерация, добавлен ряд улучшений и исправлено более 100 ошибок.

Обновления

jupyterlab.readthedocs.io/

jupyter-notebook.readthedocs.io/


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥14👍6🥰1🎉1
🕒 datefinder: Инструмент автоматического поиска дат и времени в строках Python

Если вы хотите автоматически искать дату и время с различными форматами в строках Python, попробуйте использовать datefinder.

В приведенном коде показано, как использовать datefinder.

pip install datefinder

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍146🔥5
🚀🧙🏼‍♂️Представляем OpenHermesPreferences: крупнейший открытый набор данных для RLHF и DPO

OpenHermesPreferences - это набор данных из ~1 миллиона прдпочтений ИИ, полученных из его ответов.

Датасет объединяет ответы от моделей, Mixtral-8x7B-Instruct-v0.1 и Nous-Hermes-2-Yi-34B.

https://huggingface.co/datasets/argilla/OpenHermesPreferences

@data_analysis_ml
🔥5👍21
🖥 3 лучших инструмента для автоматизации устранения SQL инъекций!

SQL-инъекция (SQLi) - это уязвимость веб-безопасности, которая позволяет злоумышленнику вмешиваться в запросы, которые приложение делает к своей базе данных. Как правило, это позволяет просматривать данные, которые он обычно не может получить. Это могут быть других пользователей, или любые другие данные, доступ к которым имеет само приложение. Во многих случаях злоумышленник может изменять или удалять эти данные, вызывая постоянные изменения в содержимом или поведении приложения.

1⃣ SQLMap
Вы, вероятно, уже знаете о первом инструменте.
SQLMap - самый популярный сканер уязвимостей SQL Injection, полностью открытый!

2⃣ Ghauri
Ghauri - это продвинутый инструмент, позволяющий легко автоматизировать обнаружение и эксплуатацию уязвимостей SQL Injection!

Ghauri также имеет открытый исходный код и доступен на GitHub!

3⃣ SQLiv
Обнаруживает уязвимости SQL-инъекций в веб-приложениях с помощью методов автоматического сканирования. Этот инструмент способен найти в Google определенную цель, просмотреть ее и просканировать несколько URL-адресов на наличие SQL-инъекций.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥32🥰2
⚡️ StarCoder2: открытые веса, датасеты, обучающие скрипты, топ лидерборда HF.

StarCoder2 - это семейство открытых LLM для генерации кода, в трех различных размерах с параметрами 3B, 7B и 15B.

StarCoder2-15B обучен на более чем 4 триллионах лексем и 600+ языках программирования из The Stack v2.

Все модели используют Grouped Query Attention, контекстное окно из 16 384 лексем.

StarCoder2 предлагает три размера модели: модель на 3 миллиарда параметров, обученная ServiceNow, модель на 7 миллиардов параметров, обученная Hugging Face, и модель на 15 миллиардов параметров, обученная NVIDIA с помощью NVIDIA NeMo и ускоренной инфраструктуры NVIDIA:

StarCoder2-3B был обучен на 17 языках программирования из The Stack v2 на 3+ триллионах токенов.
StarCoder2-7B обучался на 17 языках программирования из The Stack v2 на 3,5+ триллионах токенов.
StarCoder2-15B был обучен на 600+ языках программирования из The Stack v2 на 4+ триллионах токенов.

StarCoder2-15B является лучшим в своем классе и по многим показателям превосходит модели 33B+.

📌HF
📌Github
📌Статья

@data_analysis_ml
🔥12👍61
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Топ подборка полезных нейросетей.
226 AI-сервисов и приложений на все случаи жизни, от известных MGIE, Perplexity, Gemini, Groq до совсем свежих и малознакомых

Эти нейросети помогут вам:
управлять движением объектов на видео

повысить качество записанного аудио

исправить грамматику в любом приложении

генерировать аудио, видео, изображения

апскейлить изображение

и ещё помогут с миллионом других задач

🔗 Каталог

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96🔥3
По умолчанию преобразователи #scikit-learn возвращают массив NumPy. Это может быть проблемой, если для последующих этапов обработки данных вам нужен датафрейм pandas.

К счастью, начиная с scikit-learn версии 1.3.2, вы можете использовать метод set_output для получения результатов в формате датафреймов pandas.

@data_analysis_ml
👍38🔥64🤔1🎉1
📈 Если вы хотите преобразить свои графики #matplotlib попробуйте LovelyPlots

Чтобы красивые графики, просто добавьте одну строку кода к существующему коду matplotlib.

📉 Lovely Plots - это инструмент, содержащий таблицы стилей matplotlib для легкого форматирования графиков для научных статей, проектов и презентаций.

Библиотека сохраняет их полностью редактируемыми в Adobe Illustrator.

Кроме того, параметры экспорта .svg позволяют автоматически адаптировать шрифт рисунков к шрифту вашего документа.

Например, рисунки в формате .svg, импортированные в файл .tex, будут автоматически сгенерированы с использованием текстового шрифта, используемого в вашем файле .tex.

pip install LovelyPlots

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥64👏2
🚗 Gemini 1.5 создает структурированный JSON из видео

На вход подается видео с классическими автомобилями и запрос с просьбой указать марку, производителя, год выпуска, цвет и описание авто - Gemini удалось проделать довольно приличную работу!

Привожу часть ответа ниже (полный json на картинке):

[
{
"make": "Cadillac Eldorado",
"manufacturer": "General Motors",
"year": 1953,
"color": "Blue",
"description": "The Cadillac Eldorado was a luxury convertible that was known for its stylish design and powerful engine."
},
{
"make": "Chevrolet Corvette",
"manufacturer": "General Motors",
"year": 1953,
"color": "Red",
"description": "The Chevrolet Corvette was a sports car that was known for its sleek design and impressive performance."
},

]

Шикарный результат!

@data_analysis_ml
🔥34👍84