Аналитик данных

Manual Rollback Action — безопасный откат коммитов

Manual Rollback Action предлагает простой и надежный способ отката последнего коммита в вашем репозитории на GitHub, создавая при этом резервную копию текущего состояния ветки master для возможного восстановления

Это может быть весьма полезным, когда последний коммит вызвал проблемы в продакшн-среде, и требуется немедленное восстановление предыдущего состояния

Стоимость: #бесплатно

#GitHub #git

👍4

2.62K views10:07

Аналитик данных

🖥

Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе

https://www.youtube.com/watch?v=Z6c6fsUd3Jk

Colab: https://colab.research.google.com/drive/1VeeQB6MnsdsyNGGVH81W5RmVtNV2qJHX?usp=sharing

data_analys

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

2.57K viewsedited 04:40

Аналитик данных

⚡️ Изучайте науку о данных с помощью БЕСПЛАТНЫХ сертификационных курсов в 2024 году:

1. Python
https://freecodecamp.org/learn/scientific-computing-with-python/

2. SQL
https://openclassrooms.com/courses/2071486-retrieve-data-using-sql

3. R
https://mygreatlearning.com/academy/learn-for-free/courses/r-for-data-science

4. Excel
https://simplilearn.com/learn-business-analytics-excel-fundamentals-skillup

5. PowerBI
https://openclassrooms.com/courses/7434291-create-dashboards-with-powerbi

6. Tableau
https://openclassrooms.com/courses/5873606-create-dashboards-with-tableau

7. Математика и статистика
https://matlabacademy.mathworks.com

8. Вероятность
https://mygreatlearning.com/academy/learn-for-free/courses/probability-for-data-science

9. Анализ данных
https://cognitiveclass.ai/courses/data-analysis-python

10. Визуализация данных
https://cognitiveclass.ai/courses/data-visualization-python

🔥10👍8🥰1🙏1

3.15K views05:35

Аналитик данных

📊

Разные типы графиков и код для их отрисовки из Matplotlib, Seaborn и Plotly

1️⃣ Линейный график
Самый простой тип графика, последовательность точек данных на линии.

🔵 Matplotlib:

import matplotlib.pyplot as plt
x = [1, 2, 3, 4]
y = [10, 20, 25, 30]
plt.plot(x, y)
plt.show()

🟡 Seaborn:

import seaborn as sns
import pandas as pd
data = pd.DataFrame({'X': [1, 2, 3, 4], 'Y': [10, 20, 25, 30]})
sns.lineplot(x='X', y='Y', data=data)
plt.show()

🟣 Plotly:

import plotly.express as px
fig = px.line(data, x='X', y='Y')
fig.show()

2️⃣ Диаграмма рассеяния (Scatter plot)
Изображает значения двух переменных в виде точек на декартовой плоскости.

🔵 Matplotlib:

import numpy as np
x = np.random.rand(50)
y = np.random.rand(50)
plt.scatter(x, y)
plt.show()

🟡 Seaborn:

sns.scatterplot(x=x, y=y)
plt.show()

🟣 Plotly:

fig = px.scatter(x=x, y=y)
fig.show()

3️⃣ Гистограмма
Показывает частоту появления различных значений случайных величин в выборке.

🔵 Matplotlib:

data = np.random.randn(1000)
plt.hist(data, bins=30)
plt.show()

🟡 Seaborn:

sns.histplot(data, bins=30)
plt.show()

🟣 Plotly:


fig = px.histogram(data, nbins=30)
fig.show()

4️⃣ Ящик с усами (Box plot)
Диаграмма размаха, показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы.

🔵 Matplotlib:

data = np.random.normal(0, 1, 100)
plt.boxplot(data)
plt.show()

🟡 Seaborn:

sns.boxplot(data)
plt.show()

🟣 Plotly:

fig = px.box(y=data)
fig.show()

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤3🔥1

3.24K views08:41

Аналитик данных

🩺 Модели машинного обучения превзошли традиционные методы диагностики одной из форм рака поджелудочной железы

Речь идёт о протоковой аденокарциноме поджелудочной железы (англ. pancreatic ductal adenocarcinoma, PDAC). Разработанная учёными система Prism по диагностике этого заболевания включает в себя две модели:
▪️нейронную сеть PRISM;
▪️логистическую регрессию.

Обе модели используют данные медицинских записей, в том числе демографические данные, диагнозы пациента, данные по лекарствам, которые он принимает, результаты различных анализов, чтобы предсказать риск рака. Нейросеть применяется для обнаружения сложных закономерностей в таких данных, как возраст, история болезни и результаты лабораторных исследований. Логистическая регрессия используется для простого анализа, выдаёт вероятность развития PDAC по этим признакам.

Стандартные методы диагностики способны обнаружить около 10% случаев PDAC, а обе модели Prism, используемые совместно, — 35%.

📖 Исследовательская статья

🔥11👍3❤1🥰1👏1

2.28K views09:37

Аналитик данных

Шпаргалка: нейросети на любой вкус

Последнее время ИИ-инструментов стало появляться так много и так часто, что следить за всеми ними стало очень трудно. Поэтому сохраняйте шпаргалку, где собраны актуальные сервисы на основе нейронок и сгруппированы по категориям: для текста, для аудио-видео, для резюме и т.д.

#шпаргалка #general #ai

👍9🔥2❤1

3.42K views10:21

Аналитик данных

OpenAI выпустила форум для исследователей ИИ

Здесь будут проводиться различные образовательные вебинары, технические беседы, а также множество возможностей для участников (включая исследователей OpenAI) для общения и генерации новых идей.

Кому удастся себя проявить, будут и предложены и оплачиваемые мероприятия, например: оценки моделей, создание наборов оценок и не только.

https://forum.openai.com/

Аналитика данных

👍7❤2

2.49K viewsedited 13:45

Аналитик данных

Области применения больших языковых моделей

Аналитика данных

👍3❤2🔥1

5.83K views07:37

Аналитик данных

40 Полезных инструментов Дата Саентиста

https://habr.com/ru/articles/795785/

Аналитика данных

👍4🔥2👏2

2.2K views07:39

Аналитик данных

🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий

👍6🔥3❤2

2.48K views09:48

Аналитик данных

🎓 Подборка полезных Colab-ноутбуков Data Science.

▪ Файн-тюнинг Gemma 7b
▪ Как считать токены для языковых моделей с помощью tiktoken
▪ Прогноз оттока сотрудников
▪ Как пользоваться YOLO-NAS Pose для определения поз людей
▪ Все материалы Андрея Карпаты по нейронным сетям
▪ Различные туториалы по машинному обучению на русском языке
▪ Туториал по JAX

Google

Alpaca + Gemma 7b full example.ipynb

Colab notebook

🔥8👍2❤1

2.59K viewsedited 12:32

Аналитик данных

🎓 ТОП бесплатных курсов по Machine Learning и Data Science

На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.

🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.

GitHub

GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI

21 Lessons, Get Started Building with Generative AI - GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI

👍8❤4🔥3

2.94K viewsedited 15:03

Аналитик данных

Аналитика данных

🤣17❤10🔥2👍1

2.19K viewsedited 06:37

Аналитик данных

🙂

Нейросеть от Яндекса для анализа эмоций клиентов

Нейросеть-эмпат от Yandex Cloud сможет помочь бизнесу лучше понять эмоции клиентов. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику, а также пол спикера и его фразы в диалоге. Это позволяет улучшить качество аналитики телефонных разговоров, а также лучше адаптировать работу кол-центров под каждого клиента и оперативно реагировать на внештатные ситуации во время диалога.

В будущем алгоритм заработает в связке с YandexGPT: вместе нейросети смогут распознать более сложные эмоции, в частности — сарказм.

Новая ML-модель от Yandex Cloud работает в потоковом режиме, расшифровка и анализ эмоций происходит сразу во время разговора. Например, если абонент негативно общается с голосовым помощником, нейросеть может передать информацию об этом во внутреннюю систему заказчика, которая автоматически переключит его на сотрудника кол-центра. Если оператор нагрубил клиенту, эта система оповестит менеджмент о проблемах во время разговора.

🌟 Алгоритм может определять эмоции не только по содержанию речи спикера, но и по голосу, по скорости речи, высоте,тембру и другим параметрам. Нейросеть определяет пол участников разговора и поддерживает технологию speaker labeling – она отмечает, кому принадлежит та или иная реплика. Это позволяет полноценно работать с одноканальными звуковыми дорожками: например, при записи с диктофона или при технологических ограничениях виртуальной АТС.

Хмм, посмотрим, но задумка неплохая ⚡️

Аналитика данных

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.71K viewsedited 08:42

Аналитик данных

👀 ИИ-моделям дали подобие периферического зрения

Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.

❓Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.

Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.

🔗 Читать статью

👍3❤1

1.66K views11:51

Аналитик данных

🖥

OpenAI опубликовали код отладчика для моделей Transformer

Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».

Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.

В репозитории можно найти подробные инструкции, как пользоваться инструментом.

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2❤1

1.71K viewsedited 08:09

Аналитик данных

🚀 Устали тратить “слишком много времени” на изучение данных перед обучением моделей машинного обучения?

Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓

https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning

www.realworldml.net

Fast And Easy Data Exploration For Machine Learning

👍2

1.67K views09:11

Аналитик данных

🚀 GPTFast — это библиотека, которая ускоряет работу с моделями Transformers в 6-7 раз.

Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.

Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.

https://github.com/MDK8888/GPTFast

🔥4👍2❤1

1.62K views09:30

Аналитик данных

📌

10 библиотек Python для Data Science

⏩

SciPy
SciPy расширяет возможности NumPy. SciPy похожа на Matlab. Включает методы линейной алгебры и методы для работы с вероятностными распределениями, интегральным исчислением и преобразованиями Фурье.

⏩

Scikit-learn
Основана на NumPy и SciPy. В ней есть алгоритмы для машинного обучения и интеллектуального анализа данных: кластеризации, регрессии и классификации.

⏩

TensorFlow
Благодаря этой библиотеке Google может определять объекты на фотографиях, а приложение для распознавания голоса — понимать речь.

⏩

Scrapy
Библиотека используется для создания ботов-пауков, которые сканируют страницы сайтов и собирают структурированные данные: цены, контактную информацию и URL-адреса. Кроме этого, Scrapy может извлекать данные из API.

⏩

NLTK (Natural Language Toolkit)
Набор библиотек для обработки естественного языка. Основные функции: разметка текста, определение именованных объектов, отображение синтаксического дерева, раскрывающего части речи и зависимости.

⏩

Pattern
Сочетает плюсы Scrapy и NLTK и предназначена для извлечения данных в интернете, NLP, ML и анализа социальных сетей. Среди инструментов есть поисковик, API для Google, Twitter и Wikipedia и алгоритмы текстового анализа.

⏩

Seaborn
Библиотека более высокого уровня, чем matplotlib. С ее помощью проще создавать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы.

⏩

Bokeh
Создает интерактивные и масштабируемые графики в браузерах, используя виджеты JavaScript. Это могут быть от стандартных диаграмм до сложных кастомизированных схем.

⏩

Basemap
Basemap используется для создания карт. На ее основе сделана библиотека Folium, с помощью которой создают интерактивные карты в интернете.

⏩

NetworkX
Используется для создания и анализа графов и сетевых структур. Предназначена для работы со стандартными и нестандартными форматами данных.

Аналитика данных

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤4

2.24K views06:57

About

Blog

Apps

Platform