Аналитик данных
6.06K subscribers
215 photos
27 videos
2 files
199 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
🩺 Модели машинного обучения превзошли традиционные методы диагностики одной из форм рака поджелудочной железы

Речь идёт о протоковой аденокарциноме поджелудочной железы (англ. pancreatic ductal adenocarcinoma, PDAC). Разработанная учёными система Prism по диагностике этого заболевания включает в себя две модели:
▪️нейронную сеть PRISM;
▪️логистическую регрессию.

Обе модели используют данные медицинских записей, в том числе демографические данные, диагнозы пациента, данные по лекарствам, которые он принимает, результаты различных анализов, чтобы предсказать риск рака. Нейросеть применяется для обнаружения сложных закономерностей в таких данных, как возраст, история болезни и результаты лабораторных исследований. Логистическая регрессия используется для простого анализа, выдаёт вероятность развития PDAC по этим признакам.

Стандартные методы диагностики способны обнаружить около 10% случаев PDAC, а обе модели Prism, используемые совместно, — 35%.

📖 Исследовательская статья
🔥11👍31🥰1👏1
Шпаргалка: нейросети на любой вкус

Последнее время ИИ-инструментов стало появляться так много и так часто, что следить за всеми ними стало очень трудно. Поэтому сохраняйте шпаргалку, где собраны актуальные сервисы на основе нейронок и сгруппированы по категориям: для текста, для аудио-видео, для резюме и т.д.

#шпаргалка #general #ai
👍9🔥21
OpenAI выпустила форум для исследователей ИИ

Здесь будут проводиться различные образовательные вебинары, технические беседы, а также множество возможностей для участников (включая исследователей OpenAI) для общения и генерации новых идей.

Кому удастся себя проявить, будут и предложены и оплачиваемые мероприятия, например: оценки моделей, создание наборов оценок и не только.

https://forum.openai.com/

Аналитика данных
👍72
Области применения больших языковых моделей

Аналитика данных
👍32🔥1
40 Полезных инструментов Дата Саентиста

https://habr.com/ru/articles/795785/

Аналитика данных
👍4🔥2👏2
🔥 100 упражнений по NumPy с решениями

Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.

Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.

🔗 Ссылка на репозиторий
👍6🔥32
🎓 ТОП бесплатных курсов по Machine Learning и Data Science

На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.

🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
👍84🔥3
🤣1710🔥2👍1
🙂 Нейросеть от Яндекса для анализа эмоций клиентов

Нейросеть-эмпат от Yandex Cloud сможет помочь бизнесу лучше понять эмоции клиентов. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику, а также пол спикера и его фразы в диалоге. Это позволяет улучшить качество аналитики телефонных разговоров, а также лучше адаптировать работу кол-центров под каждого клиента и оперативно реагировать на внештатные ситуации во время диалога.

В будущем алгоритм заработает в связке с YandexGPT: вместе нейросети смогут распознать более сложные эмоции, в частности — сарказм.

Новая ML-модель от Yandex Cloud работает в потоковом режиме, расшифровка и анализ эмоций происходит сразу во время разговора. Например, если абонент негативно общается с голосовым помощником, нейросеть может передать информацию об этом во внутреннюю систему заказчика, которая автоматически переключит его на сотрудника кол-центра. Если оператор нагрубил клиенту, эта система оповестит менеджмент о проблемах во время разговора.

🌟 Алгоритм может определять эмоции не только по содержанию речи спикера, но и по голосу, по скорости речи, высоте,тембру и другим параметрам. Нейросеть определяет пол участников разговора и поддерживает технологию speaker labeling – она отмечает, кому принадлежит та или иная реплика. Это позволяет полноценно работать с одноканальными звуковыми дорожками: например, при записи с диктофона или при технологических ограничениях виртуальной АТС.

Хмм, посмотрим, но задумка неплохая ⚡️

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
👀 ИИ-моделям дали подобие периферического зрения

Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.

Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.

Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.

🔗 Читать статью
👍31
🖥 OpenAI опубликовали код отладчика для моделей Transformer

Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».

Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.

В репозитории можно найти подробные инструкции, как пользоваться инструментом.

GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
🚀 Устали тратить “слишком много времени” на изучение данных перед обучением моделей машинного обучения?

Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓

https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning
👍2
🚀 GPTFast — это библиотека, которая ускоряет работу с моделями Transformers в 6-7 раз.

Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.

Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.

https://github.com/MDK8888/GPTFast
🔥4👍21
📌10 библиотек Python для Data Science

SciPy
SciPy расширяет возможности NumPy. SciPy похожа на Matlab. Включает методы линейной алгебры и методы для работы с вероятностными распределениями, интегральным исчислением и преобразованиями Фурье.

Scikit-learn
Основана на NumPy и SciPy. В ней есть алгоритмы для машинного обучения и интеллектуального анализа данных: кластеризации, регрессии и классификации.

TensorFlow
Благодаря этой библиотеке Google может определять объекты на фотографиях, а приложение для распознавания голоса — понимать речь.

Scrapy
Библиотека используется для создания ботов-пауков, которые сканируют страницы сайтов и собирают структурированные данные: цены, контактную информацию и URL-адреса. Кроме этого, Scrapy может извлекать данные из API.

NLTK (Natural Language Toolkit)
Набор библиотек для обработки естественного языка. Основные функции: разметка текста, определение именованных объектов, отображение синтаксического дерева, раскрывающего части речи и зависимости.

Pattern
Сочетает плюсы Scrapy и NLTK и предназначена для извлечения данных в интернете, NLP, ML и анализа социальных сетей. Среди инструментов есть поисковик, API для Google, Twitter и Wikipedia и алгоритмы текстового анализа.

Seaborn
Библиотека более высокого уровня, чем matplotlib. С ее помощью проще создавать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы.

Bokeh
Создает интерактивные и масштабируемые графики в браузерах, используя виджеты JavaScript. Это могут быть от стандартных диаграмм до сложных кастомизированных схем.

Basemap
Basemap используется для создания карт. На ее основе сделана библиотека Folium, с помощью которой создают интерактивные карты в интернете.

NetworkX
Используется для создания и анализа графов и сетевых структур. Предназначена для работы со стандартными и нестандартными форматами данных.

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124
📌Подборка годных ресурсов для Data Science

Держите полезности)

Книги
Дж. Вандер Плас (Jake Wander Plas) — «Python для сложных задач: наука о данных и машинное обучение»
("Python Data Science Handbook: Essential Tools for Working with Data")

Джоэл Грас (Joel Grus) — «Data Science: Наука о данных с нуля»
("Data Science from Scratch: First Principles with Python")

Себастьян Рашка Вахид Мирджалили (Sebastian Raschka, Vahid Mirjalili) - "Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow2"
("Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow2")


Бесплатные онлайн-курсы
"Анализ данных" — [Stepik]

"Machine Learning" от AndrewNg — [Coursera]

📎Кстати, вот roadmap c превью

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥31
Shpargalka_po_Python_Data_Science.pdf
1.4 MB
✍️ Шпаргалка Python для Data Science

Содержит:
▫️основы Python;
▫️инструкции по Jupyter Notebook;
▫️основы NumPy;
▫️основы линейной алгебры на примере NumPy;
▫️основы Pandas;
▫️примеры работы с Scikit-Learn;
▫️библиотеки для визуализации данных Matplotlib, Seaborn и Bokeh.
👍7🔥62💩1