OpenAlex
Сайт: https://openalex.org
Владелец: некоммерческая организация OurResearch (известна инструментами открытого доступа UnPaywall и UnSub).
Доступ: Открытый и бесплатный, по API или через дампы (веб-интерфейс на апрель 2023 в альфа-версии). Есть платные услуги (быстрый безлимитный API и приоритетная техподдержка).
Охват и селективность: OpenAlex, названная в честь Александрийской библиотеки - наследница проекта Microsoft Academic Graph (MAG), появившаяся в 2022 г. MAG задумывался как открытый конкурент Google Scholar и завоевал широкую популярность как источник метаданных публикаций c полноценной открытой лицензией. Когда в Microsoft неожиданно решили закрыть MAG, именно открытая лицензия позволила небольшому стартапу OurResearch использовать базу MAG как основу своего, еще более открытого, проекта. К 2023 г. он завоевал популярность и стал технологической основой многих сторонних сервисов и стартапов. В базе уже собрано более 250 миллионов записей о публикациях из 230 тысяч источников.
Сейчас OpenAlex помимо данных MAG, составляющих костяк ее архивных данных, аккумулирует и обрабатывает метаданные CrossRef - системы, выдающей идентификаторы DOI львиной доле научных журналов мира. Это основной канал пополнения новыми публикациями. Кроме того, собираются метаданные MEDLINE (Pubmed), репозиториев препринтов (arXiv и т.д.) и данных (Zenodo и т.д.), информация о наличии открытых полных текстов из UnPaywall. Индексация роботом, на которой основан Google Scholar, применяется в OpenAlex, видимо, как второстепенный источник. Прямая индексация контента от издателей, на которой основаны модели Web of Science и Scopus, здесь не практикуется. Таким образом, OpenAlex - не столько первичный собиратель, сколько агрегатор многих открытых баз.
Принципиально, что OpenAlex, как и Google Scholar, не ведет экспертный отбор источников. Приоритет отдан не селективности, а охвату, причем препринты, не прошедшие рецензирование, индексируются вместе с остальными типами публикаций. Это следует учитывать при трактовке числа публикаций и цитирований по данной базе.
Связка сущностей (публикаций, авторов, организаций, источников) внутри OpenAlex основана на общепринятых внешних идентификаторах - DOI, ORCID, ROR, ISSN-L, Wikidata. Это, а также наличие API, позволяет легко интегрировать OpenAlex с другими базами и сервисами. А главное, данные OpenAlex в отличие от WoS, Scopus, GS или eLIBRARY.ru доступны по самой свободной лицензии - CC0 (Public Domain), разрешающей любое использование, в т.ч. коммерческое.
Перечислим сущности, которые собирает и связывает OpenAlex. Ссылки ведут на соответствующие разделы онлайн-руководства, где подробно раскрываются их характеристики, методы поиска и фильтрации.
- Works: Всевозможные научные документы (журнальные публикации, книги, датасеты, препринты, диссертации и т.д.).
- Authors: Лица, создающие эти научные работы.
- Sources: Места размещения\публикации научных работ (журналы, конференции, репозитории). Ранее назывались "Venues".
- Institutions: Организации, с которыми авторы указывают свою аффилированность в научных работах
- Concepts: Тематики (топики), присваиваемые научным работам
- Publishers: Компании и организации, распространяющие работы через источники
- Funders: Организации, финансирующие исследования, легшие в основу научных работ и упомянутые в их Funding Acknowledgements
- Geo: Географическая привязка сущностей (прежде всего, организаций).
Вместе они связываются и составляют гигантский граф знаний:
Ключевым недостатком OpenAlex в сравнении с WoS\Scopus пока является неполнота данных об аффилиациях (местах работы авторов): у части публикаций аффилиации отсутствуют, у части - не привязаны к профилям соответствующих организаций. Это, увы, означает, что пока использовать базу для аналитики на уровне организаций нужно крайне осторожно. Также наблюдаются проблемы с корректной привязкой публикаций к авторским профилям, отсутствующими списками литературы и не привязанными цитированиями. Эти лакуны постепенно закрываются, в т.ч. за счет использования технологий машинного обучения и обработки полнотекстовых версий публикаций в открытом доступе. Ожидается, что в ближайшее время для пользователей откроется возможность внесения корректировок и привязок.
Рекомендуем сравнение покрытия и функционала OpenAlex с другими открытыми базами, а также Scopus, которое сделали наши коллеги из РЦНИ.
Возможности выгрузки данных
На начало 2023 г. основной способ взаимодействия с OpenAlex - API, бесплатный и не требующий регистрации, с либеральными лимитами (100.000 запросов в день, до 10 запросов в секунду) и подробной документацией. Именно на примере OpenAlex мы разбираем работу с наукометрическими API в соответствующем разделе. Связанность сущностей позволяет легко фильтровать и группировать результаты. Например, такой запрос выдаст распределение совместных публикаций России и Франции с 10+ цитированиями по журналам:
Данные выгружаются в структурированном виде (JSON), выкачивать можно любое число записей порциями по 200 штук. Также можно скачать базу целиком. Это тоже бесплатно, но требует определенной технической подготовки.
Тематические классификаторы
В отличие от WoS\Scopus, в OpenAlex тематики (concepts, топики) приписываются не на уровне журналов, а на уровне отдельных статей, что гораздо прогрессивней. Используется пятиуровневая иерархическая классификация, содержащая порядка 65000 тематик. 19 тематик на верхнем уровне, у всех остальных есть 1 или больше "родителей". Например, у Economic history - это History и Economics.
Все тематики одновременно являются и сущностями Wikidata - глобального открытого графа знаний (о Wikidata и о связанных открытых данных в целом мы говорим в специальном видео).
Алгоритм присвоения тематик основан на машинном обучении и доступен открыто. Для публикаций указываются не только сами тематики, но и числовые метрики релевантности каждой из них. Не рекомендуем учитывать тематики с релевантностью меньше 0.5.
Встроенные аналитические инструменты
OpenAlex умеет делать любые аналитические разрезы по своим сущностям, фильтровать и группировать их. Основной инструмент для этого - запросы к API, многие мы разбираем в разделе про API.
Система рассчитывает для авторов, источников и организаций простейшие производные метрики цитирований:
- среднее число цитирований за два года (аналог импакт-фактора)
- индекс Хирша
- индекс i-10 (число публикаций с 10+ цитированиями)
Продвинутые метрики, в т.ч. нормализованные показатели цитирований, пока отсутствуют, но их можно рассчитывать самостоятельно.
Полезные ссылки