Данные и метаданные

Наукометрия в широком смысле занята количественным изучением науки. По сложившейся практике ее обычно отождествляют с библиометрией - подразделом, изучающим научные публикации. В нашем руководстве слова наукометрия и библиометрия употребряются как синонимы. Подробнее о соотношении наукометрии, библиометрии, информетрии, киберметрии и прочих терминов можно прочесть здесь (pdf).

Публикации - главные артефакты в науке, именно они содержат научные результаты. Постоянное приращение, распространение и использование результатов исследований идет через систему научных публикаций, и многочисленные характеристики этой системы и ее объектов открывают безграничные возможности для изучения.

Все публикации как объекты можно представить в виде двух взаимосвязанных сущностей: это данные и метаданные. Под "данными" уместно понимать непосредственное содержание публикаций, т.е. новое научное знание. "Метаданные" - это данные, описывающие данные, и именно они и являются основным объектом изучения наукометрии, хотя в последние годы на фоне развития технологий и роста доступности полных текстов им тоже достается все больше внимания.

Основные метаданные схематично показаны на диаграмме:

Metadata types

Важнейший объект изучения наукометрии - списки литературы (цитирования) - находится на стыке данных и метаданных, ему мы посвятили отдельный раздел. Кроме того, специальный раздел расскажет об идентификаторах - особом виде метаданных, нужном для надежного различения объектов изучения - публикаций (DOI), авторов (ORCID и т.д.), журналов (ISSN), организаций (ROR) и т.д. Остальные важные типы метаданных мы описываем ниже.

  1. Название публикации (title): используется для тематического анализа и классификации, а также для отделения одной публикации от другой. На практике для этого гораздо лучше использовать идентификаторы типа doi, если они имеются: во-первых, есть масса публикаций с одинаковыми названиями, во-вторых, в различных базах данных название одной и той же публикации может отличаться, особенно если содержит символы помимо цифр и стандартных латинских букв.

  2. Аннотация (abstract) и авторские ключевые слова (author keywords) представляют краткое описание содержания научной работы и важны для тематического анализа, в том числе автоматизированного. Некоторые базы, в т.ч. Web of Science, самостоятельно дополняют ключевые словам, указанные самими авторами, еще и словами, определенными алгоритмом постфактум (т.н. keywords plus). Эти два вида ключевых слов рекомендуется не смешивать при анализе. В последнее время наряду с аннотацией в виде связного текста многие журналы требуют от авторов указать основные результаты в виде пунктов короткого списка, называемых highlights. Прочие новации (например, видеоаннотация) пока распространены меньше.

  3. Сведения об источнике: для периодических изданий это название журнала или серии плюс идентификаторы (обычно ISSN для журналов, ISBN для книжных серий, а также префикс DOI), а также название издательства. Для книг - название издательства и идентификатор ISBN. Важно учитывать, что названия журналов часто меняются, а сами они сливаются и разделяются, что нередко приводит к обнулению журнальных метрик (импакт-фактор, квартили и т.д.), так как для новых или даже просто сменивших название журналов они начинают рассчитываться заново.

  4. Выходные сведения: год выхода, том, номер, страницы, DOI (DOI+ISBN или только ISBN для книг). Год выхода позволяет проводить исследования во временном разрезе. К сожалению, в базах обычно не фиксируется информация о дате подачи рукописи для рассмотрения, но ее обычно можно узнать из полного текста или на сайте журнала. Номера страниц могут использоваться в т.ч. для фильтрации полноценных публикаций: можно учитывать только статьи более N страниц (но адекватное значение N очень отличается между дисциплинами, а на странице может быть разное число знаков). Для электронных публикаций, особенно журнальных, очень важен статус публикации: многие журналы сначала выкладывают принятые статьи на сайт, а уже потом выпускают их с присвоенным томом, номером, пагинацией (номерами страниц) и годом. Бывает, что год фактического опубликования онлайн-версии при окончательной публикации меняется на более поздний, что может быть очень важно при формальной оценке. Статус публикаций фиксируется в большинстве баз (early access в WoS, article-in-press в Scopus), и такие работы рекомендуется рассматривать отдельно.

  5. Сведения об авторах: помимо имен и фамилий это места работы (аффилиации) и контактные данные (email), а также авторские идентификаторы (прежде всего ORCID). Ранее было принято указывать аффилиации организаций, реально вовлеченных в процесс проведения исследования, результаты которых описаны в данной публикации. В последние годы на фоне превращения публикаций в международных журналах в своеобразную "академическую валюту", важную для формальных оценок не только авторов, но и организаций (рейтинги вузов и т.д.), можно видеть, как отдельные продуктивные и влиятельные авторы указывают себе по 3-5, а иногда и по 8-10 аффилиаций с организациями, в которых они заняты на долю ставки или имеют иные договоренности. В результате определить, какая же организация внесла вклад на деле, затруднительно. В таких случаях уместно применять долевой, прямой или иные варианты подсчета публикаций.

  6. Сведения о финансировании и иной поддержке (acknowledgements): большая часть научных публикаций в наши дни выходит в рамках различных научных проектов, прежде всего - грантов. Информация о такой поддержке указывается авторами в специальном разделе публикации, называемом acknowledgemens. Здесь указываются как источники финансирования (funding acknowledgements, включая номера грантов), так и благодарности за разнообразную нефинансовую помощь. Наличие информации о конкретных грантах в публикациях позволяет связать финансирование и результаты, что очень важно для научной политики. К acknowledgemets в ряде дисциплин (например, биомедицина и фармакология) примыкают разделы о раскрытии возможных конфликтов интересов: автор привлекался фармкомпанией к платным консультациям и т.д.

  7. Статус доступа к публикации. Про важность открытого доступа (Open Access) и его типы мы подготовили специальный раздел, а здесь отметим, что тип доступа фиксирует уже большинство библиометрических баз, и эта характеристика все активнее используется в различных исследованиях - как в контексте взаимосвязи с цитируемостью, так и сама по себе.

Отраслевые базы, посвященные конкретным дисциплинам или их группам, часто содержат массу специцифеских для этих дисциплин метаданных, например, названия химических веществ или медицинскую терминологию.

Часть важных новых метаданных наукометрическими базами, к сожалению, пока не индексируется. Речь прежде всего об авторских ролях, которые указываются рядом журналов для всех статей ("А писал текст, Б получала финансирование, В проводил опыты"), и информации о рецензировании, в случае, если оно отрытое, т.е. тексты рецензий, а иногда и имена рецензентов публикуются открыто рядом с публикацией.

В завершение отметим, что метаданные в процессе индексации базами могут изменяться или вовсе пропускаться, такие ошибки и лакуны встречаются во всех базах, особенно при работе с неанглоязычными источниками. Оригинальной и официальной информацией является та, что содержится в самой публикации (на сайте журнала, издательства, в официальном полном тексте (не препринте)), и нередко с ней необходимо сверять то, что проиндексировано в базах.

Back to top