🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— 40 Полезных инструментов Дата Саентиста
— Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
— Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
— На что стоит рассчитывать на первой работе: путь стажера (data engineer)
— 📊 Logistic Regression in a Nutshell
— Introduction to dbt
— FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
— Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
— Gráfico de Halteres [R-ggplot2]
— "Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
— High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
— Evaluating LLM Models for Production Systems: Methods and Practices
— Amazon Forecast Overview
— Turn Text Into Structured Data Using JavaScript & OpenAI's GPT
Полезные инструменты:
▪ Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
▪Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
▪ Stable Diffusion 3
▪MotionCtrl
Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. (⏱ 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки (⏱ 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" (⏱ 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! (⏱ 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! (⏱ 08:34)
🌐 OpenAI Sora: A Closer Look!
Хорошего дня!
@data_analysis_ml
Почитать:
— 40 Полезных инструментов Дата Саентиста
— Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
— Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
— На что стоит рассчитывать на первой работе: путь стажера (data engineer)
— 📊 Logistic Regression in a Nutshell
— Introduction to dbt
— FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
— Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
— Gráfico de Halteres [R-ggplot2]
— "Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
— High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
— Evaluating LLM Models for Production Systems: Methods and Practices
— Amazon Forecast Overview
— Turn Text Into Structured Data Using JavaScript & OpenAI's GPT
Полезные инструменты:
▪ Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
▪Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
▪ Stable Diffusion 3
▪MotionCtrl
Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. (⏱ 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки (⏱ 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" (⏱ 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! (⏱ 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! (⏱ 08:34)
🌐 OpenAI Sora: A Closer Look!
Хорошего дня!
@data_analysis_ml
👍18❤4🔥4🥰1
Кураторский список ресурсов, обучающих матералов, репозиториев с открытым исходным кодом, руководств, блогов для работы с Catboost.
▪Catboost
▪Github
▪Awesome CatBoost
▪Примеры с кодом
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4🔥2
Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево
Поможет без проблем подготовиться к собесу и освежить знания
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍10🔥5❤🔥2🤩1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Приемущества
1. Декларативный подход: Altair предлагает декларативный подход к созданию графиков, что означает, что вы описываете, какие данные вы хотите визуализировать и как, а библиотека заботится о деталях.
2. Простота использования: Altair позволяет генерировать красивые графики с минимальным количеством кода. Это делает его отличным выбором для быстрого создания визуализаций.
3. Легкая Интеграция: Altair хорошо интегрируется с Pandas, Jupyter Notebook и JupyterLab для , что упрощает работу с данными.
4.Интерактивность: Позволяет создавать интерактивные графики без усилий.
Недостатки
1. Ограниченные возможности настройки: В сравнении с Matplotlib, Altair предоставляет меньше возможностей для настройки графиков.
2. Ограниченная документация: Altair не обладает богатой документацией.
pip install altair
▪Github
▪Docs
▪Colab
▪Примеры
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤6🔥6
В новых релизах добавлена поддержка диаграмм
Mermaid
, добавлена автоматическая генерация, добавлен ряд улучшений и исправлено более 100 ошибок. Обновления
▪jupyterlab.readthedocs.io/
▪jupyter-notebook.readthedocs.io/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27🔥14👍6🥰1🎉1
Если вы хотите автоматически искать дату и время с различными форматами в строках Python, попробуйте использовать datefinder.
В приведенном коде показано, как использовать datefinder.
pip install datefinder
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤6🔥5
🚀🧙🏼♂️Представляем OpenHermesPreferences: крупнейший открытый набор данных для RLHF и DPO
OpenHermesPreferences - это набор данных из ~1 миллиона прдпочтений ИИ, полученных из его ответов.
Датасет объединяет ответы от моделей,
https://huggingface.co/datasets/argilla/OpenHermesPreferences
@data_analysis_ml
OpenHermesPreferences - это набор данных из ~1 миллиона прдпочтений ИИ, полученных из его ответов.
Датасет объединяет ответы от моделей,
Mixtral-8x7B-Instruct-v0.1 и Nous-Hermes-2-Yi-34B.
https://huggingface.co/datasets/argilla/OpenHermesPreferences
@data_analysis_ml
🔥5👍2❤1
SQL-инъекция (SQLi) - это уязвимость веб-безопасности, которая позволяет злоумышленнику вмешиваться в запросы, которые приложение делает к своей базе данных. Как правило, это позволяет просматривать данные, которые он обычно не может получить. Это могут быть других пользователей, или любые другие данные, доступ к которым имеет само приложение. Во многих случаях злоумышленник может изменять или удалять эти данные, вызывая постоянные изменения в содержимом или поведении приложения.
1⃣ SQLMap
Вы, вероятно, уже знаете о первом инструменте.
SQLMap - самый популярный сканер уязвимостей SQL Injection, полностью открытый!
2⃣ Ghauri
Ghauri - это продвинутый инструмент, позволяющий легко автоматизировать обнаружение и эксплуатацию уязвимостей SQL Injection!
Ghauri также имеет открытый исходный код и доступен на GitHub!
3⃣ SQLiv
Обнаруживает уязвимости SQL-инъекций в веб-приложениях с помощью методов автоматического сканирования. Этот инструмент способен найти в Google определенную цель, просмотреть ее и просканировать несколько URL-адресов на наличие SQL-инъекций.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2🥰2
⚡️ StarCoder2: открытые веса, датасеты, обучающие скрипты, топ лидерборда HF.
StarCoder2 - это семейство открытых LLM для генерации кода, в трех различных размерах с параметрами 3B, 7B и 15B.
StarCoder2-15B обучен на более чем 4 триллионах лексем и 600+ языках программирования из The Stack v2.
Все модели используют Grouped Query Attention, контекстное окно из 16 384 лексем.
StarCoder2 предлагает три размера модели: модель на 3 миллиарда параметров, обученная ServiceNow, модель на 7 миллиардов параметров, обученная Hugging Face, и модель на 15 миллиардов параметров, обученная NVIDIA с помощью NVIDIA NeMo и ускоренной инфраструктуры NVIDIA:
▪StarCoder2-3B был обучен на 17 языках программирования из The Stack v2 на 3+ триллионах токенов.
▪StarCoder2-7B обучался на 17 языках программирования из The Stack v2 на 3,5+ триллионах токенов.
▪StarCoder2-15B был обучен на 600+ языках программирования из The Stack v2 на 4+ триллионах токенов.
StarCoder2-15B является лучшим в своем классе и по многим показателям превосходит модели 33B+.
📌HF
📌Github
📌Статья
@data_analysis_ml
StarCoder2 - это семейство открытых LLM для генерации кода, в трех различных размерах с параметрами 3B, 7B и 15B.
StarCoder2-15B обучен на более чем 4 триллионах лексем и 600+ языках программирования из The Stack v2.
Все модели используют Grouped Query Attention, контекстное окно из 16 384 лексем.
StarCoder2 предлагает три размера модели: модель на 3 миллиарда параметров, обученная ServiceNow, модель на 7 миллиардов параметров, обученная Hugging Face, и модель на 15 миллиардов параметров, обученная NVIDIA с помощью NVIDIA NeMo и ускоренной инфраструктуры NVIDIA:
▪StarCoder2-3B был обучен на 17 языках программирования из The Stack v2 на 3+ триллионах токенов.
▪StarCoder2-7B обучался на 17 языках программирования из The Stack v2 на 3,5+ триллионах токенов.
▪StarCoder2-15B был обучен на 600+ языках программирования из The Stack v2 на 4+ триллионах токенов.
StarCoder2-15B является лучшим в своем классе и по многим показателям превосходит модели 33B+.
📌HF
📌Github
📌Статья
@data_analysis_ml
🔥12👍6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
226 AI-сервисов и приложений на все случаи жизни, от известных
MGIE, Perplexity, Gemini, Groq
до совсем свежих и малознакомыхЭти нейросети помогут вам:
🔗 Каталог
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6🔥3
По умолчанию преобразователи #scikit-learn возвращают массив
К счастью, начиная с
@data_analysis_ml
NumPy
. Это может быть проблемой, если для последующих этапов обработки данных вам нужен датафрейм pandas.К счастью, начиная с
scikit-learn версии 1.3.2
, вы можете использовать метод set_output
для получения результатов в формате датафреймов pandas.@data_analysis_ml
👍38🔥6❤4🤔1🎉1