Анализ данных (Data analysis)
46.3K subscribers
2.31K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in the widget
VIEW IN TELEGRAM
👍41🔥9👎74🙏2
💼 Y'ORG

Y'ORG объединяет большин языковые модель с Jupyter Notebook для выполнения различных задач.

Цель Y'ORG - предоставить удобный интерактивный способ (1) изучения кода, (2) составления планов и задач для работы, (3) написания кода и добавления новых функций. Он также помогает ученым и аналитикам (4) проводить анализ данных и (5) создавать полноценные отчеты.

Github

@data_analysis_ml
👍182🔥2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 pix2tex

- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.

Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.

🐱 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥289🤨3🍌2
⚡️ Google выпустили AltUp - метод, использующий преимущества увеличения масштаба сетей трансформеров без увеличения стоимости вычислений - он прост в реализации, широко применим к архитектурам трансформеров, который требует минимальной настройки параметров.

Подробнееhttps://blog.research.google/2023/11/alternating-updates-for-efficient.html

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥31
📱 В приложение ChatGPT для iOS добавлена поддержка расширенного анализа данных (ранее Code Interpreter).

Теперь специалист по анализу данных или аналитик данных у вас в кармане.

@data_analysis_ml
👍294🔥2👎1🥰1😱1
🖥 Vector Databases: from Embeddings to Applications

Векторные базы данных являются ключевой частью многих приложений LLM, в которых требуется поиск или извлечение данных, например, с помощью Retrieval Augmented Generation (RAG).

Узнайте, как они работают и как их использовать в новом бесплатном курсе на deeplearningai.

https://www.deeplearning.ai/short-courses/vector-databases-embeddings-applications/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.

Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd


Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.

Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3

Repo: https://github.com/rapidsai/cudf

@data_analysis_ml
70🔥29👍18
🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Введение в Apache Flink: осваиваем фреймворк на реальных примерах
Data Mesh – ячеистые топологии для работы с данными
XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
YOLO-NAS Pose: прорыв в технологии оценки позы
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков
Прогнозирование временных рядов с помощью библиотеки Skforecast
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
Знакомство с разработкой SAP Data Services
Easily Generate Mock Data with PostgreSQL
How to Scrape Amazon Product Reviews Behind a Login
The Future of Shopping: Innovative Startup with Robots for Automated Dark Stores
A Step-by-Step Roadmap to Data Engineering
Data Engineering for Beginners: Navigating the Foundations of a Data-Driven World
The Comprehensive Guide to Time Series Models: Navigating the Depths of Temporal Data
Looking for scam tokens using bubble charts in TON blockchain
Fine-Tuning or Not, That Is the Question
How Do I Build LLava AI ChatBot
Common Table Expressions in Postgresql

Посмотреть:
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. ( 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию ( 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python ( 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel ( 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey ( 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom ( 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier ( 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li ( 34:00)
🌐 Creating Virtual Worlds 20x Faster! ( 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! ( 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! ( 08:57)
🌐 Тренировки по ML. Лекция 2: Линейная регрессия и регуляризация ( 1:46:36)

Хорошего дня!

@data_analysis_ml
👍27🔥113🕊1🤨1
🚀 Видеолекции, UC Berkeley Math 54 Линейная алгебра и дифференциальные уравнения

Курс
Лекции

@data_analysis_ml
👍14🔥41🥰1
📕 Tutorial 2: Comparison to other methods of uncertainty quantification

В популярный учебник по глубокому обучению добавляен целый большой раздел-учебник по Конформной классификацией.

https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/DL2/Bayesian_Neural_Networks/dl2_bnn_tut2_student_with_answers.html#Conformal-prediction

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥1
𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗮𝗹 𝗱𝗲𝗲𝗽 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗰𝗼𝘂𝗿𝘀𝗲🌻: 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝗰𝗹𝗮𝘀𝘀𝗶𝗳𝗶𝗰𝗮𝘁𝗶𝗼𝗻 𝘄𝗶𝘁𝗵 𝗖𝗟𝗜𝗣

Узнайте, как промпт инжиниринг может помочь вам в классификации изображений в бесплатном курсе от dataflowr!

📋 курс: https://dataflowr.github.io/website/modules/19-clip/
🤖 код: https://github.com/dataflowr/notebooks/blob/master/Module19/Zeroshot_with_CLIP.ipynb

@data_analysis_ml
👍93🔥1👏1
🛡 Как автоанализ кода с помощью ИИ повышает безопасность приложений

AppSec-инженеры занимаются безопасностью приложений, но им приходится делать много работы. Они должны быть экспертами по разным приложениям и разбираться во всем коде. Они также должны встречаться с разработчиками, чтобы узнать о внесенных изменениях. В небольших организациях это возможно, но для крупных организаций это сложно.

Мы считаем, что инструменты Gen AI, такие как ChatGPT, могут помочь AppSec-инженерам в их работе. Они могут помочь масштабировать работу и сделать ее более эффективной.

В этой статье мы расскажем, как ChatGPT может повысить эффективность AppSec-инженеров.

Начнем с главного

Как уже было сказано, наиболее значимыми рабочими процессами, выполняемыми AppSec-инженерами, являются моделирование угроз и проверка безопасности кода. Оба этих процесса всегда были ручными, требующими участия разработчиков и приличного количества знаний/времени/мотивации. Это, на наш взгляд, реальная возможность для Gen AI.

Чтобы не быть голословными, углубимся в детали и посмотрим, как это осуществить на практике. Обратим внимание на важнейшие сферы применения ИИ:

🟡Непрерывный анализ изменений кода приложений.
🟡Интерактивное моделирование и решение проблем, связанных с угрозами.
🟡Дополнительные области, на которые, по нашему мнению, инструменты ИИ могут повлиять в ближайшей перспективе.

И последнее уточнение: для иллюстрации рабочих процессов будем использовать ChatGPT (3.5). Стоит отметить, что между версиями 3.5 и 4 существуют различия, поэтому советуем рассмотреть и альтернативные варианты.

Итак, приступим к делу!

📌 Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍2🔥1
💡 Список самых популярных алгоритмов машинного обучения вместе с кодом на Python и R для их запуска.

#python #r #MachineLearning

https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms

@data_analysis_ml
23🔥5👍4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Data Warehouse vs Data Lake vs Data Mesh

📌Data Warehouse — это единое корпоративное хранилище архивных данных из разных источников (систем, департаментов и прочее). Цель Data Warehouse — обеспечить пользователя (компанию и ее ключевых лиц) возможностью принимать верные решения в ключе управления бизнесом на основе целостной информационной картины.

DWH — не только склад важных данных компании, но еще и основа бизнес-аналитики (BI). Именно из корпоративного хранилища компания получает сведения, необходимые для принятия управленческих и стратегических решений.

📌Data Lake (Озеро данных) — это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах.

Обычно используется blob-объект (binary large object) или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и мо.

Data Lake включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, логи, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, файлы).

📌Data Mesh - дословно можно перевести как «сеть данных», — это децентрализованный гибкий подход к работе распределенных команд и распространению информации. Главное в нем — междисциплинарные команды, которые публикуют и потребляют Data-продукты, благодаря чему существенно повышают эффективность использования данных.

Традиционно архитектура данных монолитна. Потребление, хранение, преобразование и вывод управляются через одно центральное хранилище (как правило, озеро данных). Data Mesh же позволяет упростить работу с распределенными пайплайнами, поддерживая отдельных потребителей, рассматривающих данные как продукт.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍316🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Команда разработчиков только что сделала OpenAI Whisper в 6 раз быстрее, на 49% меньше, сохранив при этом 99% точности.

Модель уже доступна в библиотеке HuggingFace Transformers:

model_id = "distil-whisper/distil-large-v2".

Вы также можете попробовать демо в веб-интерфейсе.

Модель: https://huggingface.co/distil-whisper/distil-large-v2

🛠 Демо: https://huggingface.co/spaces/Xenova/distil-whisper-web

📕 Статья: https://arxiv.org/abs/2311.00430

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥72
OpenAI выложила на GitHub проект OpenCopilot - ИИ-помощник в ранней бета-версии.

Интегрируется с базовыми API, использует большую языковую модель для определения вызовов API и их выполнения.
Поддерживает Swagger OpenAPI 3.0.
Позволяет взаимодействовать с платформами через текстовые промпты и обеспечивает 24/7 поддержку.
Инструменты для настройки сложных сценариев и интеграция функций OpenChat.

OpenAI представила также дорожную карту развития OpenCopilot.

🐱 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍203🔥3
🔥Ускорение генеративного ИИ с помощью встроенного PyTorch.

В этом посте рассказывается о новых возможностях производительности PyTorch и о том, как их можно использовать для создания в 8 раз более быстрой, PyTorch-реализации Segment Anything.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥21👎1