This media is not supported in your browser
VIEW IN TELEGRAM
Это не амёба, это процесс построения Elastic Principal Graph, см. следующий пост.
Гиф выше - иллюстрация работы алгоритма Elastic Principal Graph разработанного Андреем Зиновьевым и его коллегами в институте Кюри.
Пакет доступен через pypi:
pip install elpigraph-python
Граф строится последовательно, начиная с двух вершин и постепенно на каждом шаге добавляется новая вершина. Граф строящийся на каждом шаге минимизирует функционал, который состоит из трех "пенальти" - за плохую аппроксимацию данных, за большую длину, и некоторое условие на вершины ветвления, о котором стоит думать как о штрафе за НЕгладкость. То есть, мы хотим получить - короткий, гладкий граф хорошо аппроксимирующий данные.
Одно из основных приложений - биология - анализ данных одноклеточного РНК секвенирования.
( Trajectory inference ).
В нашем организме постоянно бесчисленные клетки трансформируются из клеток "похожих на стволовые" в лейкоциты, эритроциты, и прочее.
(См. Гемопоэз - кроветворение - это процесс образования, развития и созревания клеток крови — лейкоцитов, эритроцитов, тромбоцитов у позвоночных).
Можно взять кучу таких клеток померить "экспрессии" генов для каждой из них в отдельности, и задача состоит в восстановлении в ветвящегося графа (точнее дерева), описывающего как клетки ОДНОГО типа ("похожие на стволовые" - корень дерева) постепенно трансформируются в клетки РАЗНЫХ типов (лейко,моно,эри ... циты). Аналогично изучаются и другие Cellular differentiation процессы (не только гемопоэз). Другое приложение - клеточный цикл, но об этом в другой раз.
pip install elpigraph-python
Пакет доступен через pypi:
pip install elpigraph-python
Граф строится последовательно, начиная с двух вершин и постепенно на каждом шаге добавляется новая вершина. Граф строящийся на каждом шаге минимизирует функционал, который состоит из трех "пенальти" - за плохую аппроксимацию данных, за большую длину, и некоторое условие на вершины ветвления, о котором стоит думать как о штрафе за НЕгладкость. То есть, мы хотим получить - короткий, гладкий граф хорошо аппроксимирующий данные.
Одно из основных приложений - биология - анализ данных одноклеточного РНК секвенирования.
( Trajectory inference ).
В нашем организме постоянно бесчисленные клетки трансформируются из клеток "похожих на стволовые" в лейкоциты, эритроциты, и прочее.
(См. Гемопоэз - кроветворение - это процесс образования, развития и созревания клеток крови — лейкоцитов, эритроцитов, тромбоцитов у позвоночных).
Можно взять кучу таких клеток померить "экспрессии" генов для каждой из них в отдельности, и задача состоит в восстановлении в ветвящегося графа (точнее дерева), описывающего как клетки ОДНОГО типа ("похожие на стволовые" - корень дерева) постепенно трансформируются в клетки РАЗНЫХ типов (лейко,моно,эри ... циты). Аналогично изучаются и другие Cellular differentiation процессы (не только гемопоэз). Другое приложение - клеточный цикл, но об этом в другой раз.
pip install elpigraph-python
Wikipedia
Trajectory inference
computational technique used in single-cell transcriptomics to determine the pattern of a dynamic process experienced by cells
В продолжении предыдущего поста:
В ближайшую среду 1 Декабря 2021 года, начиная с 14 часов по европейскому времени (16 по Москве) состоится онлайн мини-воркшоп:
"Complex and Simple Models of Multidimensional Data :
From graphs to neural networks".
На котором Андрей Зиновьев расскажет о методе Elastic principal graph, его коллега - Luca Pinello (Harvard) расскажет о приложении к биологии (SIMBA: SIngle-cell eMBedding Along with features based on graph embedding), и ряд других интересных докладов.
Не пропустите:
https://www.ihes.fr/~zinovyev/CASMD2021/
Участие бесплатно, онлайн, нужно зарегистрироваться, но это очень просто
В ближайшую среду 1 Декабря 2021 года, начиная с 14 часов по европейскому времени (16 по Москве) состоится онлайн мини-воркшоп:
"Complex and Simple Models of Multidimensional Data :
From graphs to neural networks".
На котором Андрей Зиновьев расскажет о методе Elastic principal graph, его коллега - Luca Pinello (Harvard) расскажет о приложении к биологии (SIMBA: SIngle-cell eMBedding Along with features based on graph embedding), и ряд других интересных докладов.
Не пропустите:
https://www.ihes.fr/~zinovyev/CASMD2021/
Участие бесплатно, онлайн, нужно зарегистрироваться, но это очень просто
Коллеги, если вдруг кто-то не в курсе. Телеграм объявил курс на монетизацию. Телеграм сам без ведома админов канала будет размещать рекламные объявления в каналах, где больше чем 1000 подписчиков. Если вы видите подобные (обычно короткие посты с рекламой) - это посты от телеграм. Давайте относиться к этому спокойно.
ПС
Возможно, что посты НЕ видны в терминале "телеграм Х", по крайней мере в данный момент это так. Я пользуюсь им и рекламных постов пока не видел, также, на мой вкус, в нем цветовая гамма в ночном режиме более приятная.
ПС
Возможно, что посты НЕ видны в терминале "телеграм Х", по крайней мере в данный момент это так. Я пользуюсь им и рекламных постов пока не видел, также, на мой вкус, в нем цветовая гамма в ночном режиме более приятная.
🚀 @SBERLOGA online seminar on mathematics and machine learning:
👨🔬 Илья Павлюкевич (Prof. Dr. Universität Jena) : «О математике метода симулированного отжига»
⌚️ Четверг 2 декабря, 18.00 по Москве
Мы обсудим решение задачи оптимизации с помощью стохастических методов, а именно метода симулированного отжига (simulated annealing). Фокус будет сделан на интуитивном, но достаточно математическом объяснении того, почему и при каких условиях этот метод работает, а также на сравнении гауссовского и негауссовского поиска.
О докладчике:
Выпускник мехмата МГУ, ныне профессор в Йене. Автор работы "Lévy flights, non-local search and simulated annealing" 2007, ставшей классической в области (600+ цитирований) и применяемой в современных исследованиях по Machine Learning.
Подписывайтесь на каналы тг: @sberloga, Ютуб: SBERLOGA - топовые онлайн доклады каждую неделю! @sberlogajobs - вакансии.
Ссылка на зум будет доступна в тг чатах https://t.iss.one/sberlogasci ,
https://t.iss.one/sberlogadataclub перед докладом.
👨🔬 Илья Павлюкевич (Prof. Dr. Universität Jena) : «О математике метода симулированного отжига»
⌚️ Четверг 2 декабря, 18.00 по Москве
Мы обсудим решение задачи оптимизации с помощью стохастических методов, а именно метода симулированного отжига (simulated annealing). Фокус будет сделан на интуитивном, но достаточно математическом объяснении того, почему и при каких условиях этот метод работает, а также на сравнении гауссовского и негауссовского поиска.
О докладчике:
Выпускник мехмата МГУ, ныне профессор в Йене. Автор работы "Lévy flights, non-local search and simulated annealing" 2007, ставшей классической в области (600+ цитирований) и применяемой в современных исследованиях по Machine Learning.
Подписывайтесь на каналы тг: @sberloga, Ютуб: SBERLOGA - топовые онлайн доклады каждую неделю! @sberlogajobs - вакансии.
Ссылка на зум будет доступна в тг чатах https://t.iss.one/sberlogasci ,
https://t.iss.one/sberlogadataclub перед докладом.
🔔 Не пропусти! 14 декабря пройдет бесплатная онлайн-конференция DataStart по Data Science, машинному обучению и нейросетям!
Узнайте о самых последних решениях в мире Data Science! Каждый день появляются новые способы применения технологий, поэтому необходимо постоянно следить за трендами, чтобы оставаться востребованным специалистом.
Программа конференции составлена для профессиональной аудитории: доклады и много практических кейсов. А также вы сможете задавать вопросы спикерам в прямом эфире.
- насыщенный день в кругу «своих» людей, которым не надо объяснять, что такое датасет и анализ данных
- кейсы, опыт и фишки от ведущих специалистов
- 2 потока, 16 часов докладов
- спикеры-практики поделятся информацией, которую не найти в сети
Трансляция будет бесплатной, но если вы хотите купить видеозаписи, то воспользуйтесь промокодом специально для наших подписчиков: Sberloga500
📌 Регистрация - https://clck.ru/Z7FQX
Узнайте о самых последних решениях в мире Data Science! Каждый день появляются новые способы применения технологий, поэтому необходимо постоянно следить за трендами, чтобы оставаться востребованным специалистом.
Программа конференции составлена для профессиональной аудитории: доклады и много практических кейсов. А также вы сможете задавать вопросы спикерам в прямом эфире.
- насыщенный день в кругу «своих» людей, которым не надо объяснять, что такое датасет и анализ данных
- кейсы, опыт и фишки от ведущих специалистов
- 2 потока, 16 часов докладов
- спикеры-практики поделятся информацией, которую не найти в сети
Трансляция будет бесплатной, но если вы хотите купить видеозаписи, то воспользуйтесь промокодом специально для наших подписчиков: Sberloga500
📌 Регистрация - https://clck.ru/Z7FQX
https://youtu.be/EzcEmor-6gY
"Генетический паспорт" (Genotek) - Александр Ракитько
На докладе обсудили, как устроены ДНК-тесты на происхождение и здоровье. Поговорили о том, как с помощью GWAS построить полигенный скор для оценки индивидуального риска заболевания. Рассмотрели, как HMM-модели могут быть полезны для оценки процента еврейской ДНК. Это обзорная лекция про методы, которые лежат в основе персональных генетических тестов.
Вакансии в группе Александра: https://t.iss.one/sberlogajobs/154
Лекции во ВШЭ ссылка
(см. Лекции 6,7)
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogabio
"Генетический паспорт" (Genotek) - Александр Ракитько
На докладе обсудили, как устроены ДНК-тесты на происхождение и здоровье. Поговорили о том, как с помощью GWAS построить полигенный скор для оценки индивидуального риска заболевания. Рассмотрели, как HMM-модели могут быть полезны для оценки процента еврейской ДНК. Это обзорная лекция про методы, которые лежат в основе персональных генетических тестов.
Вакансии в группе Александра: https://t.iss.one/sberlogajobs/154
Лекции во ВШЭ ссылка
(см. Лекции 6,7)
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogabio
YouTube
Генетический паспорт - Александр Ракитько (Genotek)
Обсудим, как устроены ДНК-тесты на происхождение и здоровье. Поговорим о том, как с помощью GWAS построить полигенный скор для оценки индивидуального риска заболевания. Рассмотрим, как HMM-модели могут быть полезны для оценки процента еврейской ДНК. Это будет…
https://youtu.be/sbrAY1TObmc
Визуализация данных в Data Science - Андрей Лукьяненко (МТС AI)
Визуализация данных - это графическое представление данных, позволяющее быстрее и эффективнее изучать их. Базовые визуализации делать просто, но для создания эффективных и красивых графиков нужно приложить немало усилий.В этом докладе я наглядно покажу, почему визуализация данных лучше сухой статистики, расскажу о типах графиков и о софте для их создания, поделюсь практическими советами по улучшению графиков и продемонстрирую примеры визуализаций, используемых в задачах машинного обучения.
📈Слайды
https://slides.com/andreylukyanenko/data_vis_in_ds
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
https://t.iss.one/sberloga
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogadataclub
Визуализация данных в Data Science - Андрей Лукьяненко (МТС AI)
Визуализация данных - это графическое представление данных, позволяющее быстрее и эффективнее изучать их. Базовые визуализации делать просто, но для создания эффективных и красивых графиков нужно приложить немало усилий.В этом докладе я наглядно покажу, почему визуализация данных лучше сухой статистики, расскажу о типах графиков и о софте для их создания, поделюсь практическими советами по улучшению графиков и продемонстрирую примеры визуализаций, используемых в задачах машинного обучения.
📈Слайды
https://slides.com/andreylukyanenko/data_vis_in_ds
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
https://t.iss.one/sberloga
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogadataclub
YouTube
Визуализация данных в Data Science - Андрей Лукьяненко (МТС AI)
Визуализация данных - это графическое представление данных, позволяющее быстрее и эффективнее изучать их. Базовые визуализации делать просто, но для создания эффективных и красивых графиков нужно приложить немало усилий.В этом докладе я наглядно покажу, почему…
🚀 @SBERLOGA online seminar on bioinformatics:
👨🔬 Котлов Никита (BostonGene) “Подтипы микроокружения DLBCL”
⌚️ Пятница 3 декабря, 18.00 по Москве
Мы обсудим происхождение и развитие Б-клеток и лимфомы, которые из них происходят. Затронем строение нормального лимфоузла и функции разных видов нормальных клеток в нем. Научимся оценивать количество этих клеток и выраженность тех или иных функций на основе данных экспрессии генов. И в итоге углубимся в подтипы Диффузной Крупноклеточной Лимфомы (DLBCL), обсудим их клиническую значимость.
Разбор статьи https://cancerdiscovery.aacrjournals.org/content/11/6/1468
Вакансии в BostonGene: https://t.iss.one/sberlogajobs/158
Ссылка на зум будет доступна в чате: https://t.iss.one/sberlogabio ближе к началу доклада.
👨🔬 Котлов Никита (BostonGene) “Подтипы микроокружения DLBCL”
⌚️ Пятница 3 декабря, 18.00 по Москве
Мы обсудим происхождение и развитие Б-клеток и лимфомы, которые из них происходят. Затронем строение нормального лимфоузла и функции разных видов нормальных клеток в нем. Научимся оценивать количество этих клеток и выраженность тех или иных функций на основе данных экспрессии генов. И в итоге углубимся в подтипы Диффузной Крупноклеточной Лимфомы (DLBCL), обсудим их клиническую значимость.
Разбор статьи https://cancerdiscovery.aacrjournals.org/content/11/6/1468
Вакансии в BostonGene: https://t.iss.one/sberlogajobs/158
Ссылка на зум будет доступна в чате: https://t.iss.one/sberlogabio ближе к началу доклада.
https://youtu.be/x2wVsrmP85Q
Различные задачи геномики, решающиеся с помощью задачи разладки - Всеволод Макеев (ИОГен РАН)
Множество задач современной функциональной геномики подразумевают сегментацию генома на домены с характерными признаками – это могут быть сегменты постоянного нуклеотидного состава, участки доступности хроматина, или дупликации одной из хромосом генома. Рассматривается общий метод сегментации генома, при которых геном представляется как результат реализации случайного процесса, причем параметры этого процесса меняются скачкообразно на границах сегмента. Рассматривается использование динамического программирования для оптимальной расстановки границ, а также различные семейства статистических моделей, отвечающих различным биологическим постановкам.
📈Слайды
https://drive.google.com/file/d/1ap-ySAFDJWxEtqcQ1a6vONo7NMhmITe-/view?usp=sharing
https://drive.google.com/file/d/1F-UzX_ltqz-3MEDjiQoeqvYNG5ck9LvU/view?usp=sharing
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
https://t.iss.one/sberloga
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogadataclub
Различные задачи геномики, решающиеся с помощью задачи разладки - Всеволод Макеев (ИОГен РАН)
Множество задач современной функциональной геномики подразумевают сегментацию генома на домены с характерными признаками – это могут быть сегменты постоянного нуклеотидного состава, участки доступности хроматина, или дупликации одной из хромосом генома. Рассматривается общий метод сегментации генома, при которых геном представляется как результат реализации случайного процесса, причем параметры этого процесса меняются скачкообразно на границах сегмента. Рассматривается использование динамического программирования для оптимальной расстановки границ, а также различные семейства статистических моделей, отвечающих различным биологическим постановкам.
📈Слайды
https://drive.google.com/file/d/1ap-ySAFDJWxEtqcQ1a6vONo7NMhmITe-/view?usp=sharing
https://drive.google.com/file/d/1F-UzX_ltqz-3MEDjiQoeqvYNG5ck9LvU/view?usp=sharing
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
https://t.iss.one/sberloga
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogadataclub
YouTube
Различные задачи геномики, решающиеся с помощью задачи разладки - Всеволод Макеев (ИОГен РАН)
Множество задач современной функциональной геномики подразумевают сегментацию генома на домены с характерными признаками – это могут быть сегменты постоянного нуклеотидного состава, участки доступности хроматина, или дупликации одной из хромосом генома. Рассматривается…
Forwarded from mathimages // let there be art (Stranger in the Q)
Какое-то время назад уже, сделал я себе веб сэндбокс для комплексных фрактклов
Балуюсь им периодически, теперь буду тут иногда выкладывать находки...
https://t.iss.one/complex_fractals
Балуюсь им периодически, теперь буду тут иногда выкладывать находки...
https://t.iss.one/complex_fractals
Субботний нетворкинг. Если у вас есть интересный канал, блог, любой проект или активность - не стесняйтесь, расскажите о нем в наших чатах.
Сегодня мы расскажем о тех, кто связан с математикой - царицей наук, но кто знаком с ней поближе знает, что царица привлекает нас своей невероятной красотой. Подписывайтесь на каналы наших коллег:
@mathimages - Костя на своем канале создает чудесные картины навеянные математикой, там же вы найдете его веб-проги, где сами можете покрутить параметры и поменять изображения под свой вкус, поразительные картины - загляните - не пожалеете ! Здесь - волшебные картинки в духе множества Мандельброта, и вы можете менять параметры.
@mathematics_not_for_you - Андрей пишет обо всём, что связано с математикой: от фокусов и лайфхаков устного счёта до сложных теорем и аксиом. Заходите также к Андрею на сайт: "Математика не для всех"
@obznam - Александр на своем канале "Общий знаменатель" рассказывает увлекательные истории о математике и математиках, хотите почитать интервью живой легенды - С.П. Новикова или насладиться красотой клейновых групп - кликайте ! А здесь пост о графе построенном для "Игры престолов", а, нет, простите, это "Буря мечей", но пройдя по ссылкам найдем и другие хиты. Кластеризация, пейдж-ранг - все как положено в граф-МЛ .
Сегодня мы расскажем о тех, кто связан с математикой - царицей наук, но кто знаком с ней поближе знает, что царица привлекает нас своей невероятной красотой. Подписывайтесь на каналы наших коллег:
@mathimages - Костя на своем канале создает чудесные картины навеянные математикой, там же вы найдете его веб-проги, где сами можете покрутить параметры и поменять изображения под свой вкус, поразительные картины - загляните - не пожалеете ! Здесь - волшебные картинки в духе множества Мандельброта, и вы можете менять параметры.
@mathematics_not_for_you - Андрей пишет обо всём, что связано с математикой: от фокусов и лайфхаков устного счёта до сложных теорем и аксиом. Заходите также к Андрею на сайт: "Математика не для всех"
@obznam - Александр на своем канале "Общий знаменатель" рассказывает увлекательные истории о математике и математиках, хотите почитать интервью живой легенды - С.П. Новикова или насладиться красотой клейновых групп - кликайте ! А здесь пост о графе построенном для "Игры престолов", а, нет, простите, это "Буря мечей", но пройдя по ссылкам найдем и другие хиты. Кластеризация, пейдж-ранг - все как положено в граф-МЛ .
https://youtu.be/RwKlG5Xh5PQ
О математике метода симулированного отжига - Илья Павлюкевич (Prof. Dr. Universität Jena)
Мы обсудим решение задачи оптимизации с помощью стохастических методов, а именно метода симулированного отжига (simulated annealing). Фокус будет сделан на интуитивном, но достаточно математическом объяснении того, почему и при каких условиях этот метод работает, а также на сравнении гауссовского и негауссовского поиска.
О докладчике:
Выпускник мехмата МГУ, ныне профессор в Йене. Автор работы "Lévy flights, non-local search and simulated annealing 2007, ставшей классической в области (600+ цитирований) и применяемой в современных исследованиях по Machine Learning.
📈Слайды
https://drive.google.com/file/d/1mchpZOBrotPofI9JMNEmS7854MeAdrdL/view?usp=sharing
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
https://t.iss.one/sberloga
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogadataclub
О математике метода симулированного отжига - Илья Павлюкевич (Prof. Dr. Universität Jena)
Мы обсудим решение задачи оптимизации с помощью стохастических методов, а именно метода симулированного отжига (simulated annealing). Фокус будет сделан на интуитивном, но достаточно математическом объяснении того, почему и при каких условиях этот метод работает, а также на сравнении гауссовского и негауссовского поиска.
О докладчике:
Выпускник мехмата МГУ, ныне профессор в Йене. Автор работы "Lévy flights, non-local search and simulated annealing 2007, ставшей классической в области (600+ цитирований) и применяемой в современных исследованиях по Machine Learning.
📈Слайды
https://drive.google.com/file/d/1mchpZOBrotPofI9JMNEmS7854MeAdrdL/view?usp=sharing
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий
https://t.iss.one/sberloga
🗨 Обсудить доклады можно в нашем чатике
https://t.iss.one/sberlogadataclub
YouTube
О математике метода симулированного отжига - Илья Павлюкевич (Prof. Dr. Universität Jena)
Мы обсудим решение задачи оптимизации с помощью стохастических методов, а именно метода симулированного отжига (simulated annealing). Фокус будет сделан на интуитивном, но достаточно математическом объяснении того, почему и при каких условиях этот метод работает…
Воскресный трёп.
Машинное обучение и онкология.
What is about ? О стандартном примере анализа данных балк РНК секвенирования на примере рака груди (breast cancer , METABRIC датасет), и некоторые байки о пока еще не вполне сбывшихся надеждах. А еще, знаете ли вы что такое "ген/мутация Анджелины Джоли" ?
Предисловие. Данный пост, тесно связан с прошедшим докладом Никиты Котлова (где обсуждался другой тип рака - лимфомы - но задачи такие же). А также, с недавними постами Софии Меньшиковой на ее канале @OncologyFellow. У Софии и ее соавтора Алексея - лучшие каналы по онкологии - @OncologyFellow и @medonco - подписывайтесь !
Что хотим ? Все знают, что типов рака очень много, но хуже того у каждого типа рака, еще много подтипов, и лечение/прогноз часто сильно зависит от подтипа рака. Поэтому ученые пытаются выделить эти подтипы и понять, как с каждым из них лучше бороться. Доклад Никиты был посвящен этой проблеме для лимфомы, а данный пост о раки груди. Яркий пример пользы подтипов - трастузумаб (моноклональное антитело) успешно применяется к одному из подтипов рака груди, и понятен механизм - у этого подтипа на поверхности раковых клеток торчат белки рецепторы продуцированные геном HER2 и трастузумаб прицельно бьёт по ним. Но, к сожалению, не у всех подтипов есть такие белки на поверхности - у подтипа "трипл-негатив", например, нет.
Как делали раньше/сейчас и как хотят определять подтипы в будущем ? Мини операция - вырезают кусочек опухоли, и относительно дешевыми и простыми методами смотрят подтип. С точки зрения дата-сайнс, тут поинт в том, что у нас есть очень мало (2-3) признака ("фичи") и по ним всё определяeтся. Можно ожидать, что если бы было больше "фичей" (признаков), то мы получили бы больше информации. Примерно 15 лет назад технологии позволили это делать - научились относительно недорого измерять ТЫСЯЧИ/ДЕСЯТКИ ТЫСЯЧ признаков - экспрессий генов - показателей насколько активно гены работают в данных клетках. (Настоящих "пацанских" (белок кодирующих) генов у человека порядка 20 000, а еще кучи псевдогенов, lncRNA, и тд), каждый ген - фича , генов десятки тысяч - значит десятки тысяч фичей.
В чем облом и надежда ? Оказалось, что фичей стало в тысячи раз больше, а толку стало не сильно больше. Но, все же, технологии развиваются и удешевляются, и многие полны надежд, что удастся спасти жизни людей, если еще поднапрячься в этом направлении.
Что за данные и что на картинке ? Данные - матрица: (пациенты х гены). Скажем порядка 2000 пациентов, и 20 000 генов. Такие датасеты собираются долгими годами. И есть еще один дополнительный столбец - сколько месяцев пациент прожил (после диагноза). Дальше, одна из наших целей по этим (и, вообще говоря, другим тоже) данным понять можем ли мы предсказать сколько пациент проживет, по возможности понять реакцию на лечение (тут нужно больше данных) и так далее.
Достаточно давно была предложена классификация ПАМ50 - то есть выделены примерно 50 генов и по ним данные разбиты на несколько кластеров. Рисунок справа показывает графики кривых выживаемости для каждого из кластеров - чем выше график тем лучше прогноз - и мы видим, что есть два кластера - ЛюминалА и кластер клауден-лоу, где выживаемость получше. Подтип клаудиан-лоу, кстати, относительно новый - дополнение к старому ПАМ50, и видно, что выделен по делу - раньше он был частью трипл негатива, а видно что выживаемость другая. Картинка слева - взят датасет, сделан ПСА, покрашен по кластерам - ну как обычно. То есть каждая точка - соответствует одному семплу, в данному случае человеку. А что за граф там нарисован - а это наша работа, потом как-нибудь расскажу. Код можно тут взять: КАГГЛ.
А что там про Анджелину Джоли ? Известная история, но я устал писать, так, что читайте у Софии.
Машинное обучение и онкология.
What is about ? О стандартном примере анализа данных балк РНК секвенирования на примере рака груди (breast cancer , METABRIC датасет), и некоторые байки о пока еще не вполне сбывшихся надеждах. А еще, знаете ли вы что такое "ген/мутация Анджелины Джоли" ?
Предисловие. Данный пост, тесно связан с прошедшим докладом Никиты Котлова (где обсуждался другой тип рака - лимфомы - но задачи такие же). А также, с недавними постами Софии Меньшиковой на ее канале @OncologyFellow. У Софии и ее соавтора Алексея - лучшие каналы по онкологии - @OncologyFellow и @medonco - подписывайтесь !
Что хотим ? Все знают, что типов рака очень много, но хуже того у каждого типа рака, еще много подтипов, и лечение/прогноз часто сильно зависит от подтипа рака. Поэтому ученые пытаются выделить эти подтипы и понять, как с каждым из них лучше бороться. Доклад Никиты был посвящен этой проблеме для лимфомы, а данный пост о раки груди. Яркий пример пользы подтипов - трастузумаб (моноклональное антитело) успешно применяется к одному из подтипов рака груди, и понятен механизм - у этого подтипа на поверхности раковых клеток торчат белки рецепторы продуцированные геном HER2 и трастузумаб прицельно бьёт по ним. Но, к сожалению, не у всех подтипов есть такие белки на поверхности - у подтипа "трипл-негатив", например, нет.
Как делали раньше/сейчас и как хотят определять подтипы в будущем ? Мини операция - вырезают кусочек опухоли, и относительно дешевыми и простыми методами смотрят подтип. С точки зрения дата-сайнс, тут поинт в том, что у нас есть очень мало (2-3) признака ("фичи") и по ним всё определяeтся. Можно ожидать, что если бы было больше "фичей" (признаков), то мы получили бы больше информации. Примерно 15 лет назад технологии позволили это делать - научились относительно недорого измерять ТЫСЯЧИ/ДЕСЯТКИ ТЫСЯЧ признаков - экспрессий генов - показателей насколько активно гены работают в данных клетках. (Настоящих "пацанских" (белок кодирующих) генов у человека порядка 20 000, а еще кучи псевдогенов, lncRNA, и тд), каждый ген - фича , генов десятки тысяч - значит десятки тысяч фичей.
В чем облом и надежда ? Оказалось, что фичей стало в тысячи раз больше, а толку стало не сильно больше. Но, все же, технологии развиваются и удешевляются, и многие полны надежд, что удастся спасти жизни людей, если еще поднапрячься в этом направлении.
Что за данные и что на картинке ? Данные - матрица: (пациенты х гены). Скажем порядка 2000 пациентов, и 20 000 генов. Такие датасеты собираются долгими годами. И есть еще один дополнительный столбец - сколько месяцев пациент прожил (после диагноза). Дальше, одна из наших целей по этим (и, вообще говоря, другим тоже) данным понять можем ли мы предсказать сколько пациент проживет, по возможности понять реакцию на лечение (тут нужно больше данных) и так далее.
Достаточно давно была предложена классификация ПАМ50 - то есть выделены примерно 50 генов и по ним данные разбиты на несколько кластеров. Рисунок справа показывает графики кривых выживаемости для каждого из кластеров - чем выше график тем лучше прогноз - и мы видим, что есть два кластера - ЛюминалА и кластер клауден-лоу, где выживаемость получше. Подтип клаудиан-лоу, кстати, относительно новый - дополнение к старому ПАМ50, и видно, что выделен по делу - раньше он был частью трипл негатива, а видно что выживаемость другая. Картинка слева - взят датасет, сделан ПСА, покрашен по кластерам - ну как обычно. То есть каждая точка - соответствует одному семплу, в данному случае человеку. А что за граф там нарисован - а это наша работа, потом как-нибудь расскажу. Код можно тут взять: КАГГЛ.
А что там про Анджелину Джоли ? Известная история, но я устал писать, так, что читайте у Софии.
НЕСТАНДАРТНЫЙ ДЕНЬ - СРЕДА !
🚀 @SBERLOGA online seminar on bioinformatics:
👨🔬 Кондратова Мария (Lille University) "Иммунный ответ в раке. Как это работает и не работает. Обзорная лекция.”
⌚️ Среда 8 декабря, 18.00 по Москве
Врожденный и приобретенный иммунитет, в чем разница? Рак и вирусы. Профилактика вирусных раков у человека. Распознает ли иммунная система “невирусные” раки ? Да, все не так уж плохо (в пробирке). CAR-T терапия. Контрольные точки иммунитета.
О докладчике: Мария Кондратова - PhD - молекулярный биолог, автор многочисленных статей (в том числе, в Nature Communications), а также популярной книги - "Рак - кривое зеркало жизни" - первой научно-популярной книги о молекулярных механизмах рака на русском языке.
Подписывайтесь на каналы тг: @sberloga, Ютуб: SBERLOGA - топовые онлайн доклады каждую неделю! @sberlogajobs - вакансии.
Ссылка на зум будет доступна в чате: https://t.iss.one/sberlogabio ближе к началу доклада.
🚀 @SBERLOGA online seminar on bioinformatics:
👨🔬 Кондратова Мария (Lille University) "Иммунный ответ в раке. Как это работает и не работает. Обзорная лекция.”
⌚️ Среда 8 декабря, 18.00 по Москве
Врожденный и приобретенный иммунитет, в чем разница? Рак и вирусы. Профилактика вирусных раков у человека. Распознает ли иммунная система “невирусные” раки ? Да, все не так уж плохо (в пробирке). CAR-T терапия. Контрольные точки иммунитета.
О докладчике: Мария Кондратова - PhD - молекулярный биолог, автор многочисленных статей (в том числе, в Nature Communications), а также популярной книги - "Рак - кривое зеркало жизни" - первой научно-популярной книги о молекулярных механизмах рака на русском языке.
Подписывайтесь на каналы тг: @sberloga, Ютуб: SBERLOGA - топовые онлайн доклады каждую неделю! @sberlogajobs - вакансии.
Ссылка на зум будет доступна в чате: https://t.iss.one/sberlogabio ближе к началу доклада.