Аналитик данных – Telegram

Аналитик данных

6.06K subscribers

215 photos

27 videos

2 files

199 links

Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам

Download Telegram

About

Blog

Apps

Platform

Аналитик данных

6.06K subscribers

Аналитик данных

🩺 Модели машинного обучения превзошли традиционные методы диагностики одной из форм рака поджелудочной железы

Речь идёт о протоковой аденокарциноме поджелудочной железы (англ. pancreatic ductal adenocarcinoma, PDAC). Разработанная учёными система Prism по диагностике этого заболевания включает в себя две модели:
▪️нейронную сеть PRISM;
▪️логистическую регрессию.

Обе модели используют данные медицинских записей, в том числе демографические данные, диагнозы пациента, данные по лекарствам, которые он принимает, результаты различных анализов, чтобы предсказать риск рака. Нейросеть применяется для обнаружения сложных закономерностей в таких данных, как возраст, история болезни и результаты лабораторных исследований. Логистическая регрессия используется для простого анализа, выдаёт вероятность развития PDAC по этим признакам.

Стандартные методы диагностики способны обнаружить около 10% случаев PDAC, а обе модели Prism, используемые совместно, — 35%.

📖 Исследовательская статья

🔥11👍3❤1🥰1👏1

2.28K views09:37

Аналитик данных

Шпаргалка: нейросети на любой вкус

Последнее время ИИ-инструментов стало появляться так много и так часто, что следить за всеми ними стало очень трудно. Поэтому сохраняйте шпаргалку, где собраны актуальные сервисы на основе нейронок и сгруппированы по категориям: для текста, для аудио-видео, для резюме и т.д.

#шпаргалка #general #ai

👍9🔥2❤1

3.42K views10:21

Аналитик данных

OpenAI выпустила форум для исследователей ИИ

Здесь будут проводиться различные образовательные вебинары, технические беседы, а также множество возможностей для участников (включая исследователей OpenAI) для общения и генерации новых идей.

Кому удастся себя проявить, будут и предложены и оплачиваемые мероприятия, например: оценки моделей, создание наборов оценок и не только.

https://forum.openai.com/

Аналитика данных

👍7❤2

2.49K viewsedited 13:45

Аналитик данных

Области применения больших языковых моделей

Аналитика данных

👍3❤2🔥1

5.83K views07:37

Аналитик данных

40 Полезных инструментов Дата Саентиста

https://habr.com/ru/articles/795785/

Аналитика данных

👍4🔥2👏2

2.2K views07:39

Аналитик данных

🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий

👍6🔥3❤2

2.48K views09:48

Аналитик данных

🎓 Подборка полезных Colab-ноутбуков Data Science.

▪ Файн-тюнинг Gemma 7b
▪ Как считать токены для языковых моделей с помощью tiktoken
▪ Прогноз оттока сотрудников
▪ Как пользоваться YOLO-NAS Pose для определения поз людей
▪ Все материалы Андрея Карпаты по нейронным сетям
▪ Различные туториалы по машинному обучению на русском языке
▪ Туториал по JAX

Alpaca + Gemma 7b full example.ipynb

🔥8👍2❤1

2.59K viewsedited 12:32

Аналитик данных

🎓 ТОП бесплатных курсов по Machine Learning и Data Science

На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.

🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.

GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI

21 Lessons, Get Started Building with Generative AI - GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI

👍8❤4🔥3

2.94K viewsedited 15:03

Аналитик данных

Аналитика данных

🤣17❤10🔥2👍1

2.19K viewsedited 06:37

Аналитик данных

🙂

Нейросеть от Яндекса для анализа эмоций клиентов

Нейросеть-эмпат от Yandex Cloud сможет помочь бизнесу лучше понять эмоции клиентов. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику, а также пол спикера и его фразы в диалоге. Это позволяет улучшить качество аналитики телефонных разговоров, а также лучше адаптировать работу кол-центров под каждого клиента и оперативно реагировать на внештатные ситуации во время диалога.

В будущем алгоритм заработает в связке с YandexGPT: вместе нейросети смогут распознать более сложные эмоции, в частности — сарказм.

Новая ML-модель от Yandex Cloud работает в потоковом режиме, расшифровка и анализ эмоций происходит сразу во время разговора. Например, если абонент негативно общается с голосовым помощником, нейросеть может передать информацию об этом во внутреннюю систему заказчика, которая автоматически переключит его на сотрудника кол-центра. Если оператор нагрубил клиенту, эта система оповестит менеджмент о проблемах во время разговора.

🌟 Алгоритм может определять эмоции не только по содержанию речи спикера, но и по голосу, по скорости речи, высоте,тембру и другим параметрам. Нейросеть определяет пол участников разговора и поддерживает технологию speaker labeling – она отмечает, кому принадлежит та или иная реплика. Это позволяет полноценно работать с одноканальными звуковыми дорожками: например, при записи с диктофона или при технологических ограничениях виртуальной АТС.

Хмм, посмотрим, но задумка неплохая ⚡️

Аналитика данных

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.71K viewsedited 08:42

Аналитик данных

👀 ИИ-моделям дали подобие периферического зрения

Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.

❓Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.

Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.

🔗 Читать статью

👍3❤1

1.66K views11:51

Аналитик данных

🖥

OpenAI опубликовали код отладчика для моделей Transformer

Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».

Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.

В репозитории можно найти подробные инструкции, как пользоваться инструментом.

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2❤1

1.71K viewsedited 08:09

Аналитик данных

🚀 Устали тратить “слишком много времени” на изучение данных перед обучением моделей машинного обучения?

Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓

https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning

www.realworldml.net

Fast And Easy Data Exploration For Machine Learning

👍2

1.67K views09:11

Аналитик данных

🚀 GPTFast — это библиотека, которая ускоряет работу с моделями Transformers в 6-7 раз.

Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.

Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.

https://github.com/MDK8888/GPTFast

🔥4👍2❤1

1.62K views09:30

Аналитик данных

📌

10 библиотек Python для Data Science

⏩

SciPy
SciPy расширяет возможности NumPy. SciPy похожа на Matlab. Включает методы линейной алгебры и методы для работы с вероятностными распределениями, интегральным исчислением и преобразованиями Фурье.

⏩

Scikit-learn
Основана на NumPy и SciPy. В ней есть алгоритмы для машинного обучения и интеллектуального анализа данных: кластеризации, регрессии и классификации.

⏩

TensorFlow
Благодаря этой библиотеке Google может определять объекты на фотографиях, а приложение для распознавания голоса — понимать речь.

⏩

Scrapy
Библиотека используется для создания ботов-пауков, которые сканируют страницы сайтов и собирают структурированные данные: цены, контактную информацию и URL-адреса. Кроме этого, Scrapy может извлекать данные из API.

⏩

NLTK (Natural Language Toolkit)
Набор библиотек для обработки естественного языка. Основные функции: разметка текста, определение именованных объектов, отображение синтаксического дерева, раскрывающего части речи и зависимости.

⏩

Pattern
Сочетает плюсы Scrapy и NLTK и предназначена для извлечения данных в интернете, NLP, ML и анализа социальных сетей. Среди инструментов есть поисковик, API для Google, Twitter и Wikipedia и алгоритмы текстового анализа.

⏩

Seaborn
Библиотека более высокого уровня, чем matplotlib. С ее помощью проще создавать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы.

⏩

Bokeh
Создает интерактивные и масштабируемые графики в браузерах, используя виджеты JavaScript. Это могут быть от стандартных диаграмм до сложных кастомизированных схем.

⏩

Basemap
Basemap используется для создания карт. На ее основе сделана библиотека Folium, с помощью которой создают интерактивные карты в интернете.

⏩

NetworkX
Используется для создания и анализа графов и сетевых структур. Предназначена для работы со стандартными и нестандартными форматами данных.

Аналитика данных

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤4

2.24K views06:57

Аналитик данных

📌

Подборка годных ресурсов для Data Science

Держите полезности)

Книги
⏩Дж. Вандер Плас (Jake Wander Plas) — «Python для сложных задач: наука о данных и машинное обучение»
("Python Data Science Handbook: Essential Tools for Working with Data")

⏩Джоэл Грас (Joel Grus) — «Data Science: Наука о данных с нуля»
("Data Science from Scratch: First Principles with Python")

⏩Себастьян Рашка Вахид Мирджалили (Sebastian Raschka, Vahid Mirjalili) - "Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow2"
("Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow2")

Бесплатные онлайн-курсы
⏩"Анализ данных" — [Stepik]

⏩"Machine Learning" от AndrewNg — [Coursera]

📎Кстати, вот roadmap c превью

Аналитика данных

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥3❤1

1.98K viewsedited 06:22

Аналитик данных

Shpargalka_po_Python_Data_Science.pdf

✍️ Шпаргалка Python для Data Science

Содержит:
▫️основы Python;
▫️инструкции по Jupyter Notebook;
▫️основы NumPy;
▫️основы линейной алгебры на примере NumPy;
▫️основы Pandas;
▫️примеры работы с Scikit-Learn;
▫️библиотеки для визуализации данных Matplotlib, Seaborn и Bokeh.

👍7🔥6❤2💩1

2.97K views07:39