Может ли BigData-подход предсказывать новые открытия
BigData-подход (соберите много-много данных, запустите комп искать в них образцы корреляций, попытайтесь дать трактовку наиболее интересным из найденных корреляций и используйте их для предсказаний) показал свою продуктивность и универсальность.
Так почему бы не использовать его для предсказания новых научных открытий: кто, что, где, когда откроет прорывного в научных исследованиях?
Казалось бы, данных море: планы исследований, объемы финансирования, персоналии исследователей, их статьи и доклады, гранты и премии и тд. Все это стали тщательно записывать задолго до интернетовской эпохи. И что?
Так вот. Есть такая новая исследовательская область - Science of science, а в ней - интереснейшее направление – Data-driven predictions in the science of science, - которое как раз и занимается выявлением паттернов в научных исследованиях, которые можно использовать для предсказаний.
Текущее состояние этого направления описано в эссе с одноименным названием, опубликованном учеными 4х известных американских и европейских научных центров.
https://science.sciencemag.org/content/355/6324/477.full
Резюме такое.
1) Каждое новое открытие можно позиционировать по шкале от «Непредсказуемое» до «Предсказуемое» с десятком промежуточных состояний между ними - см. рис.
https://d2ufo47lrtsv5s.cloudfront.net/content/sci/355/6324/477/F1.large.jpg?width=800&height=600&carousel=1
2) BigData-подход отлично работает применительно к зоне, близкой к «Предсказуемое», например, выявляя следующее:
— самыми продуктивными по числу публикаций являются первые 8 лет научной карьеры (а пиковый год – 5й);
— однако, самая ценная работа любого ученого может быть равновероятно опубликована в любом году его карьеры.
3) Касательно же «Непредсказуемое», BigData-подход не дает ничего. Эти открытия реально непредсказуемы (можно писать без кавычек).
Но это еще полбеды. А беда вот в чем.
Многие непредсказуемые открытия – это «спящие красавицы» - уже открытые и хорошо описанные прорывные идеи, лежащие в столах авторов и редакций (обычно, в архивах) и ждущие, когда научная общественность, наконец, их догонит (в обоих смыслах этого слова).
Такими «спящими красавицами» были: ныне знаменитая работа 1935 года Эйнштейна, Подольского и Розена по квантовой механике, доклад 1958 года Розенблатта о искусственных нейронных сетях (да-да, не удивляйтесь, что так давно) и многие другие.
Самое прискорбное, что наличие «спящих красавиц» и другая большая беда – закон Матфея для науки (уже признанные станут еще более признанными), - суть следствие используемого человечеством принципиально неверного принципа оценки перспективности научных направлений «от достигнутого» - по предыдущим успехам (например, цитирование).
Следствие из этого доминирующего ошибочного научного принципа выражается в появлении «самосбывающихся пророчеств». Открывают то, что и предсказали. А куда более важные и ценные открытия не делаются или, еще хуже, - пребывают в летаргии «спящих красавиц».
Ну и самая страшная из бед – от ученых все чаще требуют доказательства немедленной и ощутимой пользы от их работы. А как следствие, тревожная тенденция - ставшие традиционными заявления новых Нобелевских лауреатов, что их открытия, над которыми они работали в прошлых десятилетиях, были бы невозможны в сегодняшней исследовательской среде.
Прочтите еще раз последнее предложение. Т.е. раньше это было возможным открыть, а теперь, к сожалению, уже нет.
И это значит, что нам только кажется, что наука, беря все новые и новые высоты, идет правильным путем к вершинам, что открывают перед человечеством самые многообещающие и желанные перспективы.
Science of science показывает, что это не так.
Видимо, в какой-то момент свернули не туда. И «с тех пор все тянутся предо мною кривые, глухие, окольные тропы…»
#ScienceOfScience #Предсказания
BigData-подход (соберите много-много данных, запустите комп искать в них образцы корреляций, попытайтесь дать трактовку наиболее интересным из найденных корреляций и используйте их для предсказаний) показал свою продуктивность и универсальность.
Так почему бы не использовать его для предсказания новых научных открытий: кто, что, где, когда откроет прорывного в научных исследованиях?
Казалось бы, данных море: планы исследований, объемы финансирования, персоналии исследователей, их статьи и доклады, гранты и премии и тд. Все это стали тщательно записывать задолго до интернетовской эпохи. И что?
Так вот. Есть такая новая исследовательская область - Science of science, а в ней - интереснейшее направление – Data-driven predictions in the science of science, - которое как раз и занимается выявлением паттернов в научных исследованиях, которые можно использовать для предсказаний.
Текущее состояние этого направления описано в эссе с одноименным названием, опубликованном учеными 4х известных американских и европейских научных центров.
https://science.sciencemag.org/content/355/6324/477.full
Резюме такое.
1) Каждое новое открытие можно позиционировать по шкале от «Непредсказуемое» до «Предсказуемое» с десятком промежуточных состояний между ними - см. рис.
https://d2ufo47lrtsv5s.cloudfront.net/content/sci/355/6324/477/F1.large.jpg?width=800&height=600&carousel=1
2) BigData-подход отлично работает применительно к зоне, близкой к «Предсказуемое», например, выявляя следующее:
— самыми продуктивными по числу публикаций являются первые 8 лет научной карьеры (а пиковый год – 5й);
— однако, самая ценная работа любого ученого может быть равновероятно опубликована в любом году его карьеры.
3) Касательно же «Непредсказуемое», BigData-подход не дает ничего. Эти открытия реально непредсказуемы (можно писать без кавычек).
Но это еще полбеды. А беда вот в чем.
Многие непредсказуемые открытия – это «спящие красавицы» - уже открытые и хорошо описанные прорывные идеи, лежащие в столах авторов и редакций (обычно, в архивах) и ждущие, когда научная общественность, наконец, их догонит (в обоих смыслах этого слова).
Такими «спящими красавицами» были: ныне знаменитая работа 1935 года Эйнштейна, Подольского и Розена по квантовой механике, доклад 1958 года Розенблатта о искусственных нейронных сетях (да-да, не удивляйтесь, что так давно) и многие другие.
Самое прискорбное, что наличие «спящих красавиц» и другая большая беда – закон Матфея для науки (уже признанные станут еще более признанными), - суть следствие используемого человечеством принципиально неверного принципа оценки перспективности научных направлений «от достигнутого» - по предыдущим успехам (например, цитирование).
Следствие из этого доминирующего ошибочного научного принципа выражается в появлении «самосбывающихся пророчеств». Открывают то, что и предсказали. А куда более важные и ценные открытия не делаются или, еще хуже, - пребывают в летаргии «спящих красавиц».
Ну и самая страшная из бед – от ученых все чаще требуют доказательства немедленной и ощутимой пользы от их работы. А как следствие, тревожная тенденция - ставшие традиционными заявления новых Нобелевских лауреатов, что их открытия, над которыми они работали в прошлых десятилетиях, были бы невозможны в сегодняшней исследовательской среде.
Прочтите еще раз последнее предложение. Т.е. раньше это было возможным открыть, а теперь, к сожалению, уже нет.
И это значит, что нам только кажется, что наука, беря все новые и новые высоты, идет правильным путем к вершинам, что открывают перед человечеством самые многообещающие и желанные перспективы.
Science of science показывает, что это не так.
Видимо, в какой-то момент свернули не туда. И «с тех пор все тянутся предо мною кривые, глухие, окольные тропы…»
#ScienceOfScience #Предсказания
Science
Data-driven predictions in the science of science
The desire to predict discoveries—to have some idea, in advance, of what will be discovered, by whom, when, and where—pervades nearly all aspects of modern science, from individual scientists to publishers, from funding agencies to hiring committees. In this…
Экономика ИИ – как удешевление предсказаний изменит мир.
Публикация этой новой статьи в Forbes означает возможную смену парадигмы понимания ИИ бизнесом. Когда это произойдет, то одна из главных тем моего канала - «ИИ и предсказания» - превратится из «малоизвестного интересного» в мейнстрим бизнеса.
https://goo.gl/gtW9Vx
Статья пересказывает разговор ее автора - Бернарда Марра с Джошуа Гансом о ключевых темах новой книги последнего - Prediction Machines: The Simple Economics of Artificial Intelligence.
Три ключевые мысль этой книги таковы.
✔️ В практическом плане в экономике и бизнесе термин ИИ относится не к интеллекту, а всего лишь к одному из его аспектов, коим является предсказание.
✔️ Основная задача ИИ в бизнесе – снижение показателя цена/качество предсказаний.
✔️ Ключом к успеху при решении этой задачи будет то, смогут ли люди, работающие ИИ-менеджерами научиться различать задачи, связанные с предсказанием, и те, в которых по-прежнему более важен человеческий фактор.
В этом разговоре есть и другие ценные мысли. А в книге, - так и тем более.
Тем ни менее, названные три – самые суперважные, суперценные и пока еще мало кем понимаемые.
А значит, и самые годные, чтобы на их понимании начать хорошо зарабатывать.
#Предсказания #ИИ #Бизнес
P.S. Некоторых читателей коробит термин «предсказание», и мне рекомендуют заменить его на «прогноз».
Так вот. Термин «предсказание», а не «прогноз» используется мною осмысленно и намеренно, чтобы подчеркнуть особенности нашего времени, когда большие данные уже есть, а умения ими эффективно пользоваться пока мало.
Как по этому поводу хорошо написал Michael Schrage:
«In the good old days, of course, predictions were called forecasts and stodgy statisticians would torture their time series and/or molest multivariate analyses to get them. Today, brave new data scientists discipline k-means clusters and random graphs to proffer their predictions».
Прогноз подразумевает понимание, как и почему нечто произойдет. Предсказание же не отвечает на вопросы «как и почему».
Без понимания этого различия у Гугла и Яндекса, получается ошибочный перевод приведенной выше цитаты:
«В старые добрые времена, конечно, прогнозы назывались прогнозами …» 😂
Публикация этой новой статьи в Forbes означает возможную смену парадигмы понимания ИИ бизнесом. Когда это произойдет, то одна из главных тем моего канала - «ИИ и предсказания» - превратится из «малоизвестного интересного» в мейнстрим бизнеса.
https://goo.gl/gtW9Vx
Статья пересказывает разговор ее автора - Бернарда Марра с Джошуа Гансом о ключевых темах новой книги последнего - Prediction Machines: The Simple Economics of Artificial Intelligence.
Три ключевые мысль этой книги таковы.
✔️ В практическом плане в экономике и бизнесе термин ИИ относится не к интеллекту, а всего лишь к одному из его аспектов, коим является предсказание.
✔️ Основная задача ИИ в бизнесе – снижение показателя цена/качество предсказаний.
✔️ Ключом к успеху при решении этой задачи будет то, смогут ли люди, работающие ИИ-менеджерами научиться различать задачи, связанные с предсказанием, и те, в которых по-прежнему более важен человеческий фактор.
В этом разговоре есть и другие ценные мысли. А в книге, - так и тем более.
Тем ни менее, названные три – самые суперважные, суперценные и пока еще мало кем понимаемые.
А значит, и самые годные, чтобы на их понимании начать хорошо зарабатывать.
#Предсказания #ИИ #Бизнес
P.S. Некоторых читателей коробит термин «предсказание», и мне рекомендуют заменить его на «прогноз».
Так вот. Термин «предсказание», а не «прогноз» используется мною осмысленно и намеренно, чтобы подчеркнуть особенности нашего времени, когда большие данные уже есть, а умения ими эффективно пользоваться пока мало.
Как по этому поводу хорошо написал Michael Schrage:
«In the good old days, of course, predictions were called forecasts and stodgy statisticians would torture their time series and/or molest multivariate analyses to get them. Today, brave new data scientists discipline k-means clusters and random graphs to proffer their predictions».
Прогноз подразумевает понимание, как и почему нечто произойдет. Предсказание же не отвечает на вопросы «как и почему».
Без понимания этого различия у Гугла и Яндекса, получается ошибочный перевод приведенной выше цитаты:
«В старые добрые времена, конечно, прогнозы назывались прогнозами …» 😂
Восьмикратный прорыв в борьбе с хаосом за точность предсказаний
Предсказание (прогноз) – это предположение о том, что произойдет в будущем.
Предсказать месторасположение бильярдного шара через полсекунды после вашего удара по нему – не самая сложная задача, если на столе всего 1 шар. Если же шаров 16 – это уже сложнее. Еще сложнее предсказать на 2 сек.
Т.о. самим фактом точного предсказания не удивишь. Наш мозг занимается этим постоянно и весьма в этом преуспел.
Вызов в том, чтобы научиться предсказывать с удовлетворительной точностью:
✔️ поведение сложных систем;
✔️ на значительном горизонте прогнозирования.
Иллюстрацией немыслимой и, казалось бы, непреодолимой сложности данного вызова является «эффект бабочки».
Еще первооткрыватели теории хаоса установили, что «эффект бабочки» сводит к нулю возможности долгосрочного предсказания поведения сложных систем. Малейшее возмущение такой системы (погоды, экономики и пр.) способно породить цепную реакцию последствий, в результате чего будущее окажется совсем иным. Этот туман неопределённости в поведении сложных систем – вот уже десятки лет является главной проблемой на пути к надёжным предсказаниям.
Ситуация усугубляется тем, что:
— в хаотическое состояние, предсказать поведение системы невозможно;
— хаотические системы встречаются в природе повсюду (от погоды и лесных пожаров до сердечных аритмий и лавин нейронных спайков (импульсов) при возбуждении нейронов головного мозга);
— но, как ни странно, до сих пор неясно, что такое хаос (у понятия хаоса нет общепринятого математического определения и нет перечня необходимых и достаточных условий возникновения хаотического состояния).
Есть математическое понятие - время Ляпунова. Это время, за которое система переходит к полному хаосу. По сути, это и есть горизонт прогнозирования, дальше которого продвинуться в предсказании невозможно.
У разных систем разное время Ляпунова: от миллисекунд до миллионов лет (для погоды, как мы все знаем, - несколько дней). Чем короче это время, тем более чувствительна или более склонна к эффекту бабочки система, тем стремительней её исходные состояния расходятся в периоды кризиса.
Все вышесказанное – необходимая для понимания преамбула. Теперь перехожу к главному - восьмикратному прорыву в предсказании будущего.
Восьмикратный прорыв в борьбе с хаосом за точность предсказаний достигнут за счет новаторского подхода в применении машинного обучения.
Еще в конце 90-х был придуман особый тип нейронных сетей, объединяемых под общим названием резервуарные вычисления Reservoir Computing (что это такое, можете за 1 мин. прочесть под катом ниже).
Главное же отличие от классических всем нам известных нейронок в том, что этот тип нейронных сетей на много порядков упрощает и ускоряет машинное обучение.
✔️ С помощью Reservoir Computing получается спрогнозировать поведение системы при восьмикратно увеличенном горизонте прогнозирования (для восьми времен Ляпунова).
Выражаясь нестрого, удается заглянуть в восемь раз дальше по сравнению с тем, что позволяют другие методы прогнозирования.
Для достижения подобного результата на классических нейронных сетях, потребовалось бы измерять исходное состояние типичной системы в 100 000 000 раз точнее, чем при резервуарном вычислении. Что не очень реально.
Авторы данной работы экспериментировали с архетипической пространственно-временной хаотической системой, описываемой «уравнением Курамото — Сивашинского». Она подобна фронту пламени, мерцающему при прохождении через горючую среду (см. Gif в статье под катом ниже). Это же уравнение описывает дрейфовые волны в плазме и много-много других физических явлений и посему служит «испытательным стендом для изучения турбулентности и пространственно-временного хаоса».
Представляете точный прогноз погоды, но уже не на пару дней, а на пару недель?
Подробней на русском https://goo.gl/CRaswe (там же ссылка на оригинал и все нужные ссылки на научные работы).
Что такое Резервуарные вычисления https://goo.gl/kfVttB
#Предсказания #Хаос #РезервуарныеВычисления #МашинноеОбучение
Предсказание (прогноз) – это предположение о том, что произойдет в будущем.
Предсказать месторасположение бильярдного шара через полсекунды после вашего удара по нему – не самая сложная задача, если на столе всего 1 шар. Если же шаров 16 – это уже сложнее. Еще сложнее предсказать на 2 сек.
Т.о. самим фактом точного предсказания не удивишь. Наш мозг занимается этим постоянно и весьма в этом преуспел.
Вызов в том, чтобы научиться предсказывать с удовлетворительной точностью:
✔️ поведение сложных систем;
✔️ на значительном горизонте прогнозирования.
Иллюстрацией немыслимой и, казалось бы, непреодолимой сложности данного вызова является «эффект бабочки».
Еще первооткрыватели теории хаоса установили, что «эффект бабочки» сводит к нулю возможности долгосрочного предсказания поведения сложных систем. Малейшее возмущение такой системы (погоды, экономики и пр.) способно породить цепную реакцию последствий, в результате чего будущее окажется совсем иным. Этот туман неопределённости в поведении сложных систем – вот уже десятки лет является главной проблемой на пути к надёжным предсказаниям.
Ситуация усугубляется тем, что:
— в хаотическое состояние, предсказать поведение системы невозможно;
— хаотические системы встречаются в природе повсюду (от погоды и лесных пожаров до сердечных аритмий и лавин нейронных спайков (импульсов) при возбуждении нейронов головного мозга);
— но, как ни странно, до сих пор неясно, что такое хаос (у понятия хаоса нет общепринятого математического определения и нет перечня необходимых и достаточных условий возникновения хаотического состояния).
Есть математическое понятие - время Ляпунова. Это время, за которое система переходит к полному хаосу. По сути, это и есть горизонт прогнозирования, дальше которого продвинуться в предсказании невозможно.
У разных систем разное время Ляпунова: от миллисекунд до миллионов лет (для погоды, как мы все знаем, - несколько дней). Чем короче это время, тем более чувствительна или более склонна к эффекту бабочки система, тем стремительней её исходные состояния расходятся в периоды кризиса.
Все вышесказанное – необходимая для понимания преамбула. Теперь перехожу к главному - восьмикратному прорыву в предсказании будущего.
Восьмикратный прорыв в борьбе с хаосом за точность предсказаний достигнут за счет новаторского подхода в применении машинного обучения.
Еще в конце 90-х был придуман особый тип нейронных сетей, объединяемых под общим названием резервуарные вычисления Reservoir Computing (что это такое, можете за 1 мин. прочесть под катом ниже).
Главное же отличие от классических всем нам известных нейронок в том, что этот тип нейронных сетей на много порядков упрощает и ускоряет машинное обучение.
✔️ С помощью Reservoir Computing получается спрогнозировать поведение системы при восьмикратно увеличенном горизонте прогнозирования (для восьми времен Ляпунова).
Выражаясь нестрого, удается заглянуть в восемь раз дальше по сравнению с тем, что позволяют другие методы прогнозирования.
Для достижения подобного результата на классических нейронных сетях, потребовалось бы измерять исходное состояние типичной системы в 100 000 000 раз точнее, чем при резервуарном вычислении. Что не очень реально.
Авторы данной работы экспериментировали с архетипической пространственно-временной хаотической системой, описываемой «уравнением Курамото — Сивашинского». Она подобна фронту пламени, мерцающему при прохождении через горючую среду (см. Gif в статье под катом ниже). Это же уравнение описывает дрейфовые волны в плазме и много-много других физических явлений и посему служит «испытательным стендом для изучения турбулентности и пространственно-временного хаоса».
Представляете точный прогноз погоды, но уже не на пару дней, а на пару недель?
Подробней на русском https://goo.gl/CRaswe (там же ссылка на оригинал и все нужные ссылки на научные работы).
Что такое Резервуарные вычисления https://goo.gl/kfVttB
#Предсказания #Хаос #РезервуарныеВычисления #МашинноеОбучение
XX2 век
«Удивительная» способность машинного обучения предсказывать хаос
Полвека назад пионеры теории хаоса обнаружили, что «эффект бабочки» делает невозможным долгосрочное предсказание. Малейшее возмущение сложной системы (например, погоды, экономики или чего-то подобного) способно спровоцировать цепную реакцию, в результате…
Важный шаг на пути к предсказанию будущего
Если бы научиться извлекать из динамики всех мельчайших частиц вселенной паттерны, предвосхищающие смену состояний ее локальных участков, - задача предсказания будущего была бы решена.
Увы, до этого пока далеко. Но это не означает, что задачей не стоит заниматься.
Если локальные участки огромны – как при предсказании изменений погоды – более-менее точный прогноз хотя бы на пару недель становится проблематичным. Но не за горами время, когда эта задача будет решена.
Если же ограничить размер участка хотя бы до десятков тысяч кубометров, состоящих из частиц, находящихся в одном агрегатном состоянии (например, частицы земли), - то получается задача предсказания оползней. И она уже решаема.
Заблаговременное оповещение об оползнях может ежегодно спасать тысячи человеческих жизней и экономить десятки миллиардов долларов.
И аналитика больших данных – ровно тот инструментарий, что оказался способен произвести революцию в решении этой супер-важной задачи.
Выявление скрытых паттернов в динамике микроструктуры движения мельчайших частиц земли крайне сложная вычислительная задача, с решением которой смогли справиться исследователи междисциплинарной группы университета Мельбурна.
• Популярное изложение результатов работы можно прочесть здесь https://goo.gl/ppT275.
• А отчет об исследовании A data-driven complex systems approach to early prediction of landslides опубликован здесь https://goo.gl/7HcjTW (скайхаб вам в помощь)
Совсем недавно в марте этого года мир восторгался прорывному решению NASA, создавшего глобальную систему краткосрочного прогнозирования оползней с горизонтом предсказаний в 48 часов https://goo.gl/5TiWM2 (на русском).
Новый алгоритм, разработанный австралийцами, увеличил горизонт точного прогноза в 7+ раз - до 15 дней. И авторы считают этот революционный результат только началом.
Получается такой роадмап аналитики больших данных для предсказаний:
оползни, землетрясения, океанские течения, атмосферные явления, социальные явления, психоистория.
И всеми этими задачами уже весьма плотно занимаются (включая даже психоисторию https://t.iss.one/theworldisnoteasy/167)
#АналитикаБольшихДанных #Предсказания
Если бы научиться извлекать из динамики всех мельчайших частиц вселенной паттерны, предвосхищающие смену состояний ее локальных участков, - задача предсказания будущего была бы решена.
Увы, до этого пока далеко. Но это не означает, что задачей не стоит заниматься.
Если локальные участки огромны – как при предсказании изменений погоды – более-менее точный прогноз хотя бы на пару недель становится проблематичным. Но не за горами время, когда эта задача будет решена.
Если же ограничить размер участка хотя бы до десятков тысяч кубометров, состоящих из частиц, находящихся в одном агрегатном состоянии (например, частицы земли), - то получается задача предсказания оползней. И она уже решаема.
Заблаговременное оповещение об оползнях может ежегодно спасать тысячи человеческих жизней и экономить десятки миллиардов долларов.
И аналитика больших данных – ровно тот инструментарий, что оказался способен произвести революцию в решении этой супер-важной задачи.
Выявление скрытых паттернов в динамике микроструктуры движения мельчайших частиц земли крайне сложная вычислительная задача, с решением которой смогли справиться исследователи междисциплинарной группы университета Мельбурна.
• Популярное изложение результатов работы можно прочесть здесь https://goo.gl/ppT275.
• А отчет об исследовании A data-driven complex systems approach to early prediction of landslides опубликован здесь https://goo.gl/7HcjTW (скайхаб вам в помощь)
Совсем недавно в марте этого года мир восторгался прорывному решению NASA, создавшего глобальную систему краткосрочного прогнозирования оползней с горизонтом предсказаний в 48 часов https://goo.gl/5TiWM2 (на русском).
Новый алгоритм, разработанный австралийцами, увеличил горизонт точного прогноза в 7+ раз - до 15 дней. И авторы считают этот революционный результат только началом.
Получается такой роадмап аналитики больших данных для предсказаний:
оползни, землетрясения, океанские течения, атмосферные явления, социальные явления, психоистория.
И всеми этими задачами уже весьма плотно занимаются (включая даже психоисторию https://t.iss.one/theworldisnoteasy/167)
#АналитикаБольшихДанных #Предсказания
Futurity
Software predicts landslides weeks, not hours, in advance
Researchers have developed a new software tool that predicts the boundaries of where landslides will […]