Организации
Анализ организаций - ключевая прикладная задача наукометрии, в решении которой различные индикаторы гораздо более применимы и показательны, чем на уровне отдельных авторов. Задача надежного выявления публикаций организации очень важна для рейтингов вузов, мониторингов сети организаций, разнообразных сопоставлений и множества других измерений, прямо влияющих на бытие науки.
В этом разделе мы разбираем, как устроена привязка публикаций к организациям в основных наукометрических базах и какую роль в этом играют уникальные идентификаторы. Как легко догадаться, для организаций такие идентификаторы даже важнее, чем для авторов. Основные причины просты:
- Количество вариантов названий, указываемых в статьях, для крупных научных центров со сложными названиями может исчисляться десятками и сотнями
- Организации нередко меняют названия, реогранизуются, сливаются и т.д.
Мы разберем ситуацию с профилями организаций в WoS и Scopus как наиболее популярных и в мировом рейтингостроении, и в официальной научной политике России, а затем расскажем о ключевых международных проектах по созданию и внедрению независимых от баз и общедоступных идентификаторов.
Web of Science
В Web of Science информация об аффилиациях есть у 93% публикаций (2010-2020 гг., все индексы Core Collection и все типы публликаций). При этом доступных пользователям профилей организаций - с отдельными страницами, идентификаторами, списками публикаций, авторов и т.д. - в системе до сих пор нет. У части организаций есть внутренние профили, объединяющие варианты написания их названий. Они созданы сотрудниками WoS, в т.ч. по просьбам сотрудников организаций (подробности в официальном видео, приоритет в таких запросах подписчикам WoS). Каталог организаций c внутренними профилями можно изучить (но не выгрузить) из модуля advanced search. По каждой организации указаны приписанные к ней варианты написания.
Фактически, квази-идентификатором организации с подтвержденным профилем выступает текстовая строка с ее названием, например, "HSE University (National Research University Higher School of Economics)", и такой текст-id конечно может меняться. Организации с подтвержденными профилями могут быть вложены в другие (например, НИИ РАН в региональный научный центр РАН, а тот - в общий профиль РАН), так что одна аффилиация может связать статью сразу с несколькими организациями.
Важно отметить, что операторы WoS, естественно, не в силах следить за всеми переименованиями, слияниями и т.д., так что система профилей организаций не отражает реальность в полной мере. У многих организаций профилей еще нет, и для их поиска в WoS нужно делать поисковый запрос по полю "Адрес" (AD=( ) в языке запросов advanced search), объединяя различные варианты написания. Для многих организаций с имеющимися профилями, особенно крупных и со сложными названиями, есть не привязанные публикации с более экзотическими вариантами их написания, например, содержащие опечатки.
Хорошие новости в том, что WoS при анализе массивов публикаций позволяет в один клик выгружать полное распределение их числа по организациям - до 100 тысяч организаций (организации без профилей будут представлены вариантами названий, т.е. могут распадаться на несколько). Вместе с реестром RIRO (о нем ниже в этом разделе) это позволяет легко проводить анализ по числу любых публикаций (например, строить рейтинг вузов России по числу публикаций в топовых журналах по физике за последние пять лет совместно с Китаем). Увы, аналогичный анализ по числу цитирований в базе невозможен.
Scopus
В Scopus все упомянутые в метаданных публикаций места работы авторов имеют профили с цифровыми идентификаторами. Подтвержденные операторами профили начинаются на 6, например, у НИУ ВШЭ - 60020513. Все остальные варианты написания аффилиаций, еще не сопоставленные с ними, получают предварительные профили, начинающиеся на 1. Участвовать в создании и корректировке профилей могут уполномоченные представители организаций-подписчиков, для этого используется интерфейс “Мастер профиля организации”.
Есть возможность вносить иерархию структурных подразделений организации: они получат идентификаторы, вложенные в основной профиль. При этом согласно правилам Scopus, у региональных кампусов вузов и филиалов НИИ должны быть собственные профили. Могут ли они вкладываться в основной - не совсем ясно, поэтому вопрос учета публикаций филиалов, критически важный для некоторых российских университетов и НИИ, пока подвешен.
Выгружать результаты анализа числа публикаций по организациям в Scopus можно очень ограниченно (max 160 позиций), идентификаторы при этом не выгружаются, только названия. Зато идентификаторы доступны для выгрузки по API, причем для каждой публикации приводится соотнесение авторского идентификатора и идентификатора (или нескольких) для указанных им организаций.
Как и в WoS, нередко встречаются ситуации, когда публикации не привязываются к основному профилю организации, а вместо этого привязываются к техническому профилю с id, начинающемся на 1.
Подтвержденные профили имеют свои официальные страницы в Scopus, где указаны все привязанные к ним публикации с разбивкой по тематикам. Кроме того, можно сразу выгрузить список всех авторов, хотя бы раз указавших организацию в числе мест работы в публикациях. В таком списке для каждого будут и число публикаций (но не с данной организацией, а вообще), и тематики, и, что особенно удобно, авторские идентификаторы.
Естественно, как и в WoS, система профилей организаций Scopus не охватывает все организации и не отражает целиком актуальную информацию о системе организаций России и прочих стран, особенно тех, где Scopus не так популярен и встроен в госуправление наукой.
Research Organization Registry (ROR)
Глобальный проект ROR - попытка сделать и, главное, продвинуть в массы открытый уникальный идентификатор для каждой научной организации. Это некоммерческий проект, который по сути и устройству напоминает ORСID, и реализуется тем же путем: авторы, издатели и поставщики информационных решений должны, объединившись, постепенно интегрировать его в систему научной коммуникации. Главное, где должен появиться ROR, - метаданные публикаций, что требует доработки систем подачи рукописей. Уместно предположить, что в будущем автор не будет сам печатать место работы как ему вздумается, а будет выбирать его из открытого каталога, поддерживаемого сообществом, а дальше эта информация будет проникать в различные базы данных.
ROR лежит в русле движения за открытую науку и открытые метаданные, его официально обязались продвигать CrossRef и DataCite (сообща фактически отвечают за DOI), наукометрические базы нового поколения (Lens и Dimensions), ведущие отраслевые базы (NASA Astrophysical Data System), университеты (например, МГУ, вот его профиль в системе). Осталось дожать крупные издательства и WoS со Scopus, что конечно непросто: и Clarivate, и Elsevier очевидно усматривают в открытых и бесплатных связанных наукометрических метаданных угрозу своему бизнесу, поэтому этих компаний в числе обязавшихся внедрять ROR нет, а в профилях организаций в их базах нет номеров ROR.
Пока прогресс не супербыстрый, но планы и задачи команды описаны четко, а успех ORCID позволяет смотреть на его будущее с уверенностью. Предложить новую организацию или уточнить информацию можно здесь, руководство по структуре данных и их скачиванию - здесь.
Профили ROR обычно связаны с основным глобальным открытым идентификатором для всего подряд (а не только научных организаций) - WikiData, что позволяет сопрягать эти системы и извлекать из WikiData массу информации. Важно помнить, что в WikiData вносить информацию может любой, что отражается на ее качестве. Подробнее об этой системе в контексте профилей российских научных организаций можно почитать здесь. В самом ROR тоже встречаются ошибки, так как система верификации не отработана.
Russian Index of Research Organizations (RIRO)
Как видим, всевозможных идентификаторов у организаций много, и связать их друг с другом - задача нетривиальная. Больше того, для полноценного науковедческого анализа - прикладного или академического - важны не только идентификаторы публикаций, позволяющие корректно оценить научные результаты, но и данные о финансировании, сотрудниках, расположении, ведомственной принадлежности, реорганизациях и филиалах, а также многое другое.
Проект RIRO решает задачу соотнесения всех этих разнородных потоков для России, основываясь на принципах открытой науки. По сути, это общедоступный набор связанных через единый первичный ключ идентификаторов и профилей различных баз для тысяч российских организаций, позволяющий легко собрать и связать данные из многих источников:
- ROR и WikiData
- Официальные сведения о юрлицах (ОГРН, ИНН/КПП, полное и краткое названия, тип (головное, филиал или представительство) и статус (активное, ликвидировано или в стадии реорганизации), а также коды и значения Общероссийского классификатора органов государственного управления (ОКОГУ), но только для действующих и головных организаций).
- Адреса (субъект федерации, город, улица и т.д.) и геоданные (координаты)
- Иерархия (головные, филиалы, правопредшественники и их связь)
- Web of Science (различные варианты написания, если их несколько)
- Scopus (различные варианты профилей с идентификаторами, в т.ч. второстепенные, еще не связанные с основным), а также надстройка SciVal, где идентификаторы почему-то отличаются от Scopus
- eLIBRARY (РИНЦ; в этой системе профили имеются и довольно развиты, но идентификаторы присутствуют только как часть URL, например: https://www.elibrary.ru/org_about.asp?orgsid=421, с их помощью можно запрашивать часть API)
- Мониторинг эффективности вузов Минобрнауки – основной источник сведений о работе вузов, включает все организации высшего образования, кроме относящихся к силовым ведомствам. Идентификатор в системе мониторинга однозначно указывает на URL открытой веб-страницы с данными о кадрах, финансовой информации, студентах и аспирантах, недвижимости и многих других важных характеристиках.
RIRO - инициативный проект, который реализуется Алексеем Лутаем (РФФИ) и Иваном Стерлиговым (НИУ ВШЭ, автор этого руководства). Гарантировать полное покрытие и точность авторы не могут, хотя и прилагают к этому усилия. Предложить уточнение или дополнение в RIRO может любой. Работать с датасетом RIRO легко, даже не имея познаний в программировании: все таблицы можно открывать и соотносить в Excel.