OpenAlex

Сайт: https://openalex.org

Владелец: некоммерческая организация OurResearch (известна инструментами открытого доступа UnPaywall и UnSub).

Доступ: Открытый и бесплатный, по API или через дампы (веб-интерфейс на апрель 2023 в альфа-версии). Есть платные услуги (быстрый безлимитный API и приоритетная техподдержка).

Охват и селективность: OpenAlex, названная в честь Александрийской библиотеки - наследница проекта Microsoft Academic Graph (MAG), появившаяся в 2022 г. MAG задумывался как открытый конкурент Google Scholar и завоевал широкую популярность как источник метаданных публикаций c полноценной открытой лицензией. Когда в Microsoft неожиданно решили закрыть MAG, именно открытая лицензия позволила небольшому стартапу OurResearch использовать базу MAG как основу своего, еще более открытого, проекта. К 2023 г. он завоевал популярность и стал технологической основой многих сторонних сервисов и стартапов. В базе уже собрано более 250 миллионов записей о публикациях из 230 тысяч источников.

Сейчас OpenAlex помимо данных MAG, составляющих костяк ее архивных данных, аккумулирует и обрабатывает метаданные CrossRef - системы, выдающей идентификаторы DOI львиной доле научных журналов мира. Это основной канал пополнения новыми публикациями. Кроме того, собираются метаданные MEDLINE (Pubmed), репозиториев препринтов (arXiv и т.д.) и данных (Zenodo и т.д.), информация о наличии открытых полных текстов из UnPaywall. Индексация роботом, на которой основан Google Scholar, применяется в OpenAlex, видимо, как второстепенный источник. Прямая индексация контента от издателей, на которой основаны модели Web of Science и Scopus, здесь не практикуется. Таким образом, OpenAlex - не столько первичный собиратель, сколько агрегатор многих открытых баз.

Принципиально, что OpenAlex, как и Google Scholar, не ведет экспертный отбор источников. Приоритет отдан не селективности, а охвату, причем препринты, не прошедшие рецензирование, индексируются вместе с остальными типами публикаций. Это следует учитывать при трактовке числа публикаций и цитирований по данной базе.

Связка сущностей (публикаций, авторов, организаций, источников) внутри OpenAlex основана на общепринятых внешних идентификаторах - DOI, ORCID, ROR, ISSN-L, Wikidata. Это, а также наличие API, позволяет легко интегрировать OpenAlex с другими базами и сервисами. А главное, данные OpenAlex в отличие от WoS, Scopus, GS или eLIBRARY.ru доступны по самой свободной лицензии - CC0 (Public Domain), разрешающей любое использование, в т.ч. коммерческое.

Перечислим сущности, которые собирает и связывает OpenAlex. Ссылки ведут на соответствующие разделы онлайн-руководства, где подробно раскрываются их характеристики, методы поиска и фильтрации.

  • Works: Всевозможные научные документы (журнальные публикации, книги, датасеты, препринты, диссертации и т.д.).
  • Authors: Лица, создающие эти научные работы.
  • Sources: Места размещения\публикации научных работ (журналы, конференции, репозитории). Ранее назывались "Venues".
  • Institutions: Организации, с которыми авторы указывают свою аффилированность в научных работах
  • Concepts: Тематики (топики), присваиваемые научным работам
  • Publishers: Компании и организации, распространяющие работы через источники
  • Funders: Организации, финансирующие исследования, легшие в основу научных работ и упомянутые в их Funding Acknowledgements
  • Geo: Географическая привязка сущностей (прежде всего, организаций).

Вместе они связываются и составляют гигантский граф знаний:

“граф_связей”

Ключевым недостатком OpenAlex в сравнении с WoS\Scopus пока является неполнота данных об аффилиациях (местах работы авторов): у части публикаций аффилиации отсутствуют, у части - не привязаны к профилям соответствующих организаций. Это, увы, означает, что пока использовать базу для аналитики на уровне организаций нужно крайне осторожно. Также наблюдаются проблемы с корректной привязкой публикаций к авторским профилям, отсутствующими списками литературы и не привязанными цитированиями. Эти лакуны постепенно закрываются, в т.ч. за счет использования технологий машинного обучения и обработки полнотекстовых версий публикаций в открытом доступе. Ожидается, что в ближайшее время для пользователей откроется возможность внесения корректировок и привязок.

Рекомендуем сравнение покрытия и функционала OpenAlex с другими открытыми базами, а также Scopus, которое сделали наши коллеги из РЦНИ.

Возможности выгрузки данных

На начало 2023 г. основной способ взаимодействия с OpenAlex - API, бесплатный и не требующий регистрации, с либеральными лимитами (100.000 запросов в день, до 10 запросов в секунду) и подробной документацией. Именно на примере OpenAlex мы разбираем работу с наукометрическими API в соответствующем разделе. Связанность сущностей позволяет легко фильтровать и группировать результаты. Например, такой запрос выдаст распределение совместных публикаций России и Франции с 10+ цитированиями по журналам:

https://api.openalex.org/works?filter=institutions.country_code:fr,institutions.country_code:ru,cited_by_count:>10&group-by=journal

Данные выгружаются в структурированном виде (JSON), выкачивать можно любое число записей порциями по 200 штук. Также можно скачать базу целиком. Это тоже бесплатно, но требует определенной технической подготовки.

Тематические классификаторы

В отличие от WoS\Scopus, в OpenAlex тематики (concepts, топики) приписываются не на уровне журналов, а на уровне отдельных статей, что гораздо прогрессивней. Используется пятиуровневая иерархическая классификация, содержащая порядка 65000 тематик. 19 тематик на верхнем уровне, у всех остальных есть 1 или больше "родителей". Например, у Economic history - это History и Economics.

Все тематики одновременно являются и сущностями Wikidata - глобального открытого графа знаний (о Wikidata и о связанных открытых данных в целом мы говорим в специальном видео).

Алгоритм присвоения тематик основан на машинном обучении и доступен открыто. Для публикаций указываются не только сами тематики, но и числовые метрики релевантности каждой из них. Не рекомендуем учитывать тематики с релевантностью меньше 0.5.

Встроенные аналитические инструменты

OpenAlex умеет делать любые аналитические разрезы по своим сущностям, фильтровать и группировать их. Основной инструмент для этого - запросы к API, многие мы разбираем в разделе про API.

Система рассчитывает для авторов, источников и организаций простейшие производные метрики цитирований:

Продвинутые метрики, в т.ч. нормализованные показатели цитирований, пока отсутствуют, но их можно рассчитывать самостоятельно.

Полезные ссылки

Back to top