← Академическая активность в Новосибирске и Томске

Использование данных электронных баз для исследования международной мобильности ученых

Авторы: Индукаев А.К, Кнорре А.В., Могутов А.В., Лепинэ В.А.

 

Миграция высококвалифицированных профессионалов значительно влияет на многие сферы профессиональной деятельности, и сектор ИТ является одним из ярких примеров. Успех инновационного развития таких регионов, как Кремниевая долина или Бостон привел к тому, что сегодня многие пытаются повторить эти истории успеха, воспринимая их как застывшую модель и не учитывая, что оба ареала являются продуктом сложных динамических процессов. Одно из важных измерений процесса, лежащего в основе возникновения инновационных регионов – профессиональная миграция. Она, с одной стороны, привносит свежие идеи в инновационно активные регионы, но, с другой, угрожает дестабилизацией, так как нередко целые команды ученых или разработчиков переезжают, обескровливая важные направления исследований или высокотехнологические бизнес проекты.

В настоящем исследовании мы получили базу данных, содержащую лонгитюдную информацию о локализации русскоязычных ученых в области информатики и данные об их научной продуктивности. Полученные данные позволяют задать следующие вопросы: Каковы типичные траектории международной мобильности русскоязычных исследователей в области информатики? Связанны ли тип международной мобильности ученого с продуктивностью его научной работы?

Для исследования поставленных вопросов мы извлекли из базы данных Web of Science информацию о всех публикациях попадающих в категорию информатика (computer science). Общее число публикаций за период 1985–2013 составило 1499127. Мы извлекли информацию о

публикациях преобразовав ее в базу данных типа Sqlite, использовав для этой цели платформу CorText (http://manager.cortext.net/, (Andrei Mogoutov, Cambrosio, Keating, & Mustar, 2008)). Из каждой публикации были извлечены имена и фамилии авторов, а также данные о странах, в которой располагаются их места работы (страна аффилиации). Для более подробного анализа были отобраны публикации только наиболее активных ученых (не менее 3 публикаций), а исследуемый период был ограничен интервалом 1990–2012. Следующим важным этапом был отбор авторов, происходящих из стран бывшего СССР.

 

Метод

Метод, использованный для анализа карьер ученых в области информатики из бывшего СССР, является новаторским и может быть применен для других исследований научных карьер. Для применения данного метода был выработан новый подход к анализу научных данных о публикациях: данные о публикациях каждого ученого из выборки были преобразованы в лонгитюдинальную форму – временную последовательность значений категориальной переменной (далее называемой «состояние»), характеризующей географические места работы (аффилиации) ученого и его соавторов. Далее к массиву полученных последовательностей был применен метод анализа последовательностей (Optimal Matching). Индивидуальные траектории были сгруппированы в кластеры, что позволило выделить типичные паттерны международной мобильности ученых. Также была установлена связь между типом траектории и уровнем цитирования статей автора.

 

Анализ последовательностей

Метод анализа последовательностей играет центральную роль в нашем подходе. Метод применяется для анализа лонгитюдиных данных, представляющих собой упорядоченную последовательность значений категориальной переменной и позволяет рассчитать попарно меру различия (называемую дистанцией) между любым количеством подобных последовательностей. Полученные значения дистанций позволяют сгруппировать в кластеры схожие между собой последовательности.

Описанный подход к классификации списка аффилиаций приводит нас к четырем возможным состояниям, резюмирующим информацию о том, с какими странами связана деятельность ученого. Наиболее частым состоянием является отсутствие публикаций в текущем году («NoPub»). Часто встречается и ситуация, когда в статьях данного автора в течение одного года все указанные в статьях адреса аффилиации относятся к зарубежным странам («ForAf»). На третьем месте по количеству случаев находится ситуация, когда все указанные аффилиации соответствуют адресам из стран бывшего СССР («RusAf»). Наконец, реже всего наблюдается описанная выше ситуация «смешанных» аффилиаций («MixAf»).

 

Число состояний в выборке:

ForAf 12698

MixAf 1683

RusAf 3911

NoPub 65796

 

Состояния и переходы между ними

Общее количество публикующих ученых меняется из года в год, также как и количество индивидов, находящихся в том или ином состоянии. Наиболее часто наблюдается ситуация, когда публикующийся ученый в области информатики из бывшего СССР и все его соавторы имеют только заграничную аффилиацию. Подобная ситуация наблюдалась в течение почти всего исследуемого периода, но относительное число авторов, публикующих тем или иным образом, менялось со временем.

Наиболее частая ситуация – отсутствие публикаций в данном году – в данном случае не рассматривается. Кривая растет с 1990 по 2009 год, временно сокращается в 2006 и потом падает с 2009 по 20122. Наиболее сильным изменениям подвержено количество публикаций с иностранными аффилиациями. Число публикаций, где все аффилиации расположены в странах бывшего СССР, в отличие от остальных типов публикаций, сокращается в 1995-1996, когда государственное финансирование науки в России достигает минимума (Graham & Dezhina, 2008). Как можно заметить, после этого эпизода число подобных публикаций росло намного медленнее, чем число публикаций ученых, работающих в эмиграции._

 

Выводы

Как правило, ученые области информатики, происходящие из стран бывшего СССР и публикующие статьи в реферируемых Web of Science журналах, имеют заграничную аффилиацию. Те из них, кто аффилиированы только в странах бывшего СССР и не имеют иностранных соавторов, редко цитируются другими учеными. Таким образом, связь с

зарубежной наукой (через аффилиацию или соавторство) прямо коррелирует с уровнем научного успеха. При этом нельзя сказать, что тот или иной способ интернационализации научной активности однозначно связан с уровнем признания. Как аффилиация с иностранной организацией, так и соавторство равно может соответствовать высокому уровню цитирования. Также к высоким показателям цитирования приводит работа в научном коллективе, включающем как исследователей, работающих в странах бывшего СССР, так и за границей. Более того, следует отметить, что после 2005 года именно такая конфигурация соответствует наиболее высокому уровню научного признания.

Интернационализация исследователей в области информатики из стран бывшего СССР можетc быть проинтерпретирована как стремление ученых, находящихся в неблагоприятных регионах (т.е. в регионах с невысоким уровнем финансирования и с небольшим числом активных коллег), повысить уровень научного признания за счет миграции или налаживания соавторства со странами, где область информатики более развита. Однако такое описание противоречит сделанными нами наблюдениям. Во-первых, обращает на себя внимание тот факт, что ученые, одновременно сотрудничающие как с иностранными, так и российскими4 организациями, имеют уровень цитирования (и следовательно и уровень научного признания) не ниже, чем те их коллеги, которые не поддерживают связь со страной, откуда они происходят. Во-вторых, уровень цитирования высок также и в тех случаях, когда наблюдается сложная динамика взаимодействия ученых из диаспоры с коллегами и организациями из стран происхождения. Например, возврат к совместной работе с бывшими соотечественниками не вызывает падения уровня научного признания. То есть нельзя сказать, что интернационализация активности исследователей из стран бывшего СССР ограничивается однонаправленной «утечкой мозгов».

 

Список литературы:

Abbott, A., & Tsay, A. (2000). Sequence Analysis and Optimal Matching Methods in Sociology. Sociological Methods & Research, 29(1), 3 –33. doi:10.1177/0049124100029001001

Andrei Mogoutov, Cambrosio, A., Keating, P., & Mustar, P. (2008). Biomedical innovation at the laboratory, clinical and commercial interface: A new method for mapping research projects, publications and patents in the field of microarrays. Journal of Informetrics, 2(4), 341–353. doi:10.1016/j.joi.2008.06.005

Flores, J. J. G., Zweigenbaum, P., Yue, Z., & Turner, W. (2012). Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Isahara & K. Kanzaki (Eds.), Advances in Natural Language Processing (pp. 180–191). Springer Berlin Heidelberg. Retrieved from http://link.springer.com/chapter/10.1007/978-3-642-33983-7_18

Gabadinho, A., Ritschard, G., Mueller, N. S., & Studer, M. (2011). Analyzing and visualizing state sequences in R with TraMineR. Journal of Statistical Software, 40(4), 1–37.

Gabadinho, A., Ritschard, G., Studer, M., & Müller, N. (2011). Extracting and Rendering Representative Sequences. In A. Fred, J. Dietz, K. Liu, & J. Filipe (Eds.), Knowledge Discovery, Knowledge Engineering and Knowledge Management (Springer-Verlag., Vol. 128, pp. 94–106).

Graham, L. R., & Dezhina, I. (2008). Science in the new Russia : crisis, aid, reform. Bloomington: Indiana University Press.

Lesnard, L. (2014). Using optimal matching analysis in sociology: Cost setting and sociology of time. Retrieved from http://hal.archives-ouvertes.fr/hal-00973029/