Открытые данные о цитированиях
Движение за открытую науку выражается в открытии не только самих текстов (про это мы пишем подробно), но и данных. В нашем случае речь про метаданные публикаций - основной объект изучения наукометрии. Во многих отраслевых базах эти данные изначально открыты, но в области общенаучных баз, особенно использующихся в управлении наукой, пока доминируют Web of Science и Scopus. В последние годы картина стремительно меняется на фоне взрывного роста информационных технологий, и в этом разделе мы кратко описываем основные нововведения и инициативы.
NEW! смотрите наше видео про новые источники данных.
Перед этим важно уточнить: полноценные открытые метаданные - это не просто данные, доступные всем бесплатно, это данные, свободное использование которых - в т.ч. коммерческое - разрешено официально (основные типы лицензий мы разбираем в разделе про Open Acces). Поэтому, например, Google Scholar к Open Access-системам не относится. Строгое определение "открытых цитирований" от лидеров движения приведено здесь (doi). Также стоит отметить, что на практике с темой открытых данных очень связана тема уникальных идентификаторов публикаций, авторов, источников и т.д. - они обеспечивают связность разных источников метаданных и извлеченных из них сущностей и позволяют переходить от платных к бесплатным и открытым.
Движение за открытые цитирования многогранно, так как во многом строится на инициативах снизу. В целом, однако, магистральная модель здесь простая: стимулировать всех издателей (журналы, издательства, базы препринтов) депонировать метаданные своих публикаций в открытое общедоступное хранилище, а сами данные максимально связать друг с другом через идентификаторы и упорядочить. На конец 2021 г. задача во многом решена, и наибольший вклад внесла Инициатива по открытым цитированиям (The Initiative for Open Citations, I4OC). Это объединение издателей (в т.ч. российских), договорившихся открыть метаданные своих публикаций, которые они и так уже депонируют при получении DOI в систему CrossRef.
Метаданные отдаются в общественное достояние и доступны двумя способами: через API-сервис CrossRef (например, так: https://api.crossref.org/works/10.1038/227680a0) и в рамках проекта OpenCitations (там есть и API, и регулярные дампы). К концу 2021 г. открыто уже 87% всех записей о публикациях в CrossRef (т.е. около 50 миллионов публикаций).
На базе OpenCitations развивается COCI - индекс цитирований DOI-to-DOI, он пока охватывает заметно меньшую часть публикаций.
Данные I4OC в основном через CrossRef уже широко используются во множестве научных инструментов, в том числе напоминающих традиционные Web of Science и Scopus (например, Lens.org), возможность запрашивать их через API встроена в основной инструмент визуализации в наукометрии - VOSviewer. По данным наукометристов, в COCI уже сейчас индексируется 75-80% цитирований WoS и Scopus, и эта доля быстро растет.
Наиболее перспективна самая открытая и бесплатная база OpenAlex, разрабатываемая энтузиастами на основе данных ныне закрытого Microsoft Academic и CrossRef и интегрирующая их с ORCID, ROR, Pubmed и другими источниками. Именно на примере OpenAlex мы написали раздел про API, у этой базы он самый дружелюбный.
Тем не менее, говорить о полной замене традиционных систем на бесплатную, открытую и свободную инфраструктуру пока рано. Мешают минимум две вещи:
- Гораздо худшее покрытие аннотаций (их только начинают открывать) и аффилиаций (мест работы) авторов. В открытых общедоступных базах типа OpenAlex, чьи данные в public domain, их нельзя размещать по условиям лицензий издателей.
- Отсутствие отбора источников и контроля их качества. Учитываются все издания, в т.ч. не очень научные, не всегда рецензируемые и иногда просто недобросовестные - и, соответственно, все цитирования из них.
Если с первым фактором еще можно побороться, то второй - критически важный для практики наукометрии - преодолеть сложнее. Как на практике будет устроен контроль качества в эпоху открытой науки, узнаем в ближайшие годы.