🩺 Модели машинного обучения превзошли традиционные методы диагностики одной из форм рака поджелудочной железы
Речь идёт о протоковой аденокарциноме поджелудочной железы (англ. pancreatic ductal adenocarcinoma, PDAC). Разработанная учёными система Prism по диагностике этого заболевания включает в себя две модели:
▪️нейронную сеть PRISM;
▪️логистическую регрессию.
Обе модели используют данные медицинских записей, в том числе демографические данные, диагнозы пациента, данные по лекарствам, которые он принимает, результаты различных анализов, чтобы предсказать риск рака. Нейросеть применяется для обнаружения сложных закономерностей в таких данных, как возраст, история болезни и результаты лабораторных исследований. Логистическая регрессия используется для простого анализа, выдаёт вероятность развития PDAC по этим признакам.
Стандартные методы диагностики способны обнаружить около 10% случаев PDAC, а обе модели Prism, используемые совместно, — 35%.
📖 Исследовательская статья
Речь идёт о протоковой аденокарциноме поджелудочной железы (англ. pancreatic ductal adenocarcinoma, PDAC). Разработанная учёными система Prism по диагностике этого заболевания включает в себя две модели:
▪️нейронную сеть PRISM;
▪️логистическую регрессию.
Обе модели используют данные медицинских записей, в том числе демографические данные, диагнозы пациента, данные по лекарствам, которые он принимает, результаты различных анализов, чтобы предсказать риск рака. Нейросеть применяется для обнаружения сложных закономерностей в таких данных, как возраст, история болезни и результаты лабораторных исследований. Логистическая регрессия используется для простого анализа, выдаёт вероятность развития PDAC по этим признакам.
Стандартные методы диагностики способны обнаружить около 10% случаев PDAC, а обе модели Prism, используемые совместно, — 35%.
📖 Исследовательская статья
🔥11👍3❤1🥰1👏1
Шпаргалка: нейросети на любой вкус
Последнее время ИИ-инструментов стало появляться так много и так часто, что следить за всеми ними стало очень трудно. Поэтому сохраняйте шпаргалку, где собраны актуальные сервисы на основе нейронок и сгруппированы по категориям: для текста, для аудио-видео, для резюме и т.д.
#шпаргалка #general #ai
Последнее время ИИ-инструментов стало появляться так много и так часто, что следить за всеми ними стало очень трудно. Поэтому сохраняйте шпаргалку, где собраны актуальные сервисы на основе нейронок и сгруппированы по категориям: для текста, для аудио-видео, для резюме и т.д.
#шпаргалка #general #ai
👍9🔥2❤1
OpenAI выпустила форум для исследователей ИИ
Здесь будут проводиться различные образовательные вебинары, технические беседы, а также множество возможностей для участников (включая исследователей OpenAI) для общения и генерации новых идей.
Кому удастся себя проявить, будут и предложены и оплачиваемые мероприятия, например: оценки моделей, создание наборов оценок и не только.
https://forum.openai.com/
Аналитика данных
Здесь будут проводиться различные образовательные вебинары, технические беседы, а также множество возможностей для участников (включая исследователей OpenAI) для общения и генерации новых идей.
Кому удастся себя проявить, будут и предложены и оплачиваемые мероприятия, например: оценки моделей, создание наборов оценок и не только.
https://forum.openai.com/
Аналитика данных
👍7❤2
🔥 100 упражнений по NumPy с решениями
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
Делимся с вами полезным GitHub-репозиторием, в котором собраны различные небольшие задачки по библиотеке. Упражнения взяты из NumPy mailing list, Stack Overflow и документации NumPy.
Задачи собраны как в версии с решениями, так и в версии без них. Можете проверить свои знания.
🔗 Ссылка на репозиторий
👍6🔥3❤2
🎓 Подборка полезных Colab-ноутбуков Data Science.
▪ Файн-тюнинг Gemma 7b
▪ Как считать токены для языковых моделей с помощью tiktoken
▪ Прогноз оттока сотрудников
▪ Как пользоваться YOLO-NAS Pose для определения поз людей
▪ Все материалы Андрея Карпаты по нейронным сетям
▪ Различные туториалы по машинному обучению на русском языке
▪ Туториал по JAX
▪ Файн-тюнинг Gemma 7b
▪ Как считать токены для языковых моделей с помощью tiktoken
▪ Прогноз оттока сотрудников
▪ Как пользоваться YOLO-NAS Pose для определения поз людей
▪ Все материалы Андрея Карпаты по нейронным сетям
▪ Различные туториалы по машинному обучению на русском языке
▪ Туториал по JAX
Google
Alpaca + Gemma 7b full example.ipynb
Colab notebook
🔥8👍2❤1
🎓 ТОП бесплатных курсов по Machine Learning и Data Science
На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.
🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
На днях Microsoft выпустила новый бесплатный курс по генеративным моделям для начинающих. Курс рассказывает базовые принципы работы с большими языковыми моделями и ИИ-агентами. Мы решили добавить ещё несколько курсов, которые помогут погрузиться в отрасль.
🔹 Machine Learning for Beginners — A Curriculum
Ещё один курс от Microsoft. Включает 26 уроков и 52 упражнения. Покрывает такие темы, как построение регрессионных моделей, обработка данных, методы кластеризации, введение в обработку естественного языка.
🔹Data Science for Beginners — A Curriculum
Не можем не добавить в подборку дополнительный курс от Microsoft для тех, кто хочет быть дата-сайентистом, а не ML-инженером. Этот курс рассказывает об SQL, библиотеках для анализа и визуализации данных, деплое и эксплуатации моделей.
🔹Открытый курс по машинному обучению
Создан сообществом OpenDataScience. Охватывает основные темы: от анализа датасета до различных ML-алгоритмов.
🔹Курсы на Kaggle
Это, своего рода, классика. Рекомендуем ознакомиться тем, кто ещё этого не сделал.
GitHub
GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI
21 Lessons, Get Started Building with Generative AI - GitHub - microsoft/generative-ai-for-beginners: 21 Lessons, Get Started Building with Generative AI
👍8❤4🔥3
Нейросеть-эмпат от Yandex Cloud сможет помочь бизнесу лучше понять эмоции клиентов. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику, а также пол спикера и его фразы в диалоге. Это позволяет улучшить качество аналитики телефонных разговоров, а также лучше адаптировать работу кол-центров под каждого клиента и оперативно реагировать на внештатные ситуации во время диалога.
В будущем алгоритм заработает в связке с YandexGPT: вместе нейросети смогут распознать более сложные эмоции, в частности — сарказм.
Новая ML-модель от Yandex Cloud работает в потоковом режиме, расшифровка и анализ эмоций происходит сразу во время разговора. Например, если абонент негативно общается с голосовым помощником, нейросеть может передать информацию об этом во внутреннюю систему заказчика, которая автоматически переключит его на сотрудника кол-центра. Если оператор нагрубил клиенту, эта система оповестит менеджмент о проблемах во время разговора.
Хмм, посмотрим, но задумка неплохая
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
👀 ИИ-моделям дали подобие периферического зрения
Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.
❓Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.
Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.
🔗 Читать статью
Исследователи из Массачусетского технологического института (MIT) создали набор изображений, который позволил им симулировать периферическое зрение у моделей машинного обучения. Это улучшило способность моделей обнаруживать объекты на зрительной периферии. Впрочем, до уровня людей они так и не добрались.
❓Специалисты использовали такую технику, как тайловое текстурирование (texture tiling), чтобы преобразовать изображения и сымитировать в них потерю информацию, происходящую на периферическом зрении. Технику немного модифицировали и применили для генерации большого датасета.
Исследователи надеются, что их работа поможет, например, в создании систем искусственного интеллекта, которые будут предупреждать водителей о потенциально незаметных опасностях.
🔗 Читать статью
👍3❤1
Transformer Debugger помогает ответить на вопрос: «Почему модель выдала токен A вместо токена B для этого промпта?».
Сейчас Transformer Debugger включает в себя:
▫️Neuron viewer — React-приложение для вывода информации о компонентах модели.
▫️Activation server — сервер, который позволяет проводить инференс и предоставляет данные для анализа.
▫️Models — библиотека для инференса моделей GPT-2.
▫️Примеры датасетов.
В репозитории можно найти подробные инструкции, как пользоваться инструментом.
GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2❤1
🚀 Устали тратить “слишком много времени” на изучение данных перед обучением моделей машинного обучения?
Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓
https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning
Вот инструмент для изучения данных с открытым исходным кодом, который облегчит вашу жизнь ↓
https://www.realworldml.net/blog/fast-and-easy-data-exploration-for-machine-learning
www.realworldml.net
Fast And Easy Data Exploration For Machine Learning
👍2
🚀 GPTFast — это библиотека, которая ускоряет работу с моделями Transformers в 6-7 раз.
Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.
Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.
https://github.com/MDK8888/GPTFast
Создатели проекта объясняют, что GPTFast изначально представлял собой набор методов, разработанных командой PyTorch, для ускорения инференса модели Llama-2-7b. Эти методы были обобщены на другие модели Hugging Face.
Чтобы начать использовать GPTFast, необходимо:
▫️ убедиться, что используется Python версии 3.10 или выше,
▫️ иметь устройство с поддержкой Cuda,
▫️ настроить виртуальное окружение,
▫️ установить библиотеку с помощью команды pip install gptfast.
https://github.com/MDK8888/GPTFast
🔥4👍2❤1
SciPy расширяет возможности NumPy. SciPy похожа на Matlab. Включает методы линейной алгебры и методы для работы с вероятностными распределениями, интегральным исчислением и преобразованиями Фурье.
Основана на NumPy и SciPy. В ней есть алгоритмы для машинного обучения и интеллектуального анализа данных: кластеризации, регрессии и классификации.
Благодаря этой библиотеке Google может определять объекты на фотографиях, а приложение для распознавания голоса — понимать речь.
Библиотека используется для создания ботов-пауков, которые сканируют страницы сайтов и собирают структурированные данные: цены, контактную информацию и URL-адреса. Кроме этого, Scrapy может извлекать данные из API.
Набор библиотек для обработки естественного языка. Основные функции: разметка текста, определение именованных объектов, отображение синтаксического дерева, раскрывающего части речи и зависимости.
Сочетает плюсы
Scrapy и NLTK и предназначена для извлечения данных в интернете, NLP, ML и анализа социальных сетей. Среди инструментов есть поисковик, API для Google, Twitter и Wikipedia и алгоритмы текстового анализа.Библиотека более высокого уровня, чем
matplotlib. С ее помощью проще создавать специфическую визуализацию: тепловые карты, временные ряды и скрипичные диаграммы. Создает интерактивные и масштабируемые графики в браузерах, используя виджеты JavaScript. Это могут быть от стандартных диаграмм до сложных кастомизированных схем.
Basemap используется для создания карт. На ее основе сделана библиотека
Folium, с помощью которой создают интерактивные карты в интернете. Используется для создания и анализа графов и сетевых структур. Предназначена для работы со стандартными и нестандартными форматами данных.
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4
Держите полезности)
Книги
("Python Data Science Handbook: Essential Tools for Working with Data")
("Data Science from Scratch: First Principles with Python")
("Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow2")
Бесплатные онлайн-курсы
Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤1
Shpargalka_po_Python_Data_Science.pdf
1.4 MB
✍️ Шпаргалка Python для Data Science
Содержит:
▫️основы Python;
▫️инструкции по Jupyter Notebook;
▫️основы NumPy;
▫️основы линейной алгебры на примере NumPy;
▫️основы Pandas;
▫️примеры работы с Scikit-Learn;
▫️библиотеки для визуализации данных Matplotlib, Seaborn и Bokeh.
Содержит:
▫️основы Python;
▫️инструкции по Jupyter Notebook;
▫️основы NumPy;
▫️основы линейной алгебры на примере NumPy;
▫️основы Pandas;
▫️примеры работы с Scikit-Learn;
▫️библиотеки для визуализации данных Matplotlib, Seaborn и Bokeh.
👍7🔥6❤2💩1