Классификация и выделение тематик

Классификация и выявление тематик в научных публикациях - ключевая задача наукометрии, критически важная в т.ч. для ее практического применения. Точное определение тематик очень важно для нормализации цитирований, построения журнальных метрик типа квартилей и любых осмысленных сопоставлений ученых, организаций и журналов.

В этой области есть множество наработок, однако пока на практике в стандартных наукометрических инструментах типа Web of Science или Scopus используется наиболее простой подход: тематики приписываются сотрудниками баз журналам и другим источникам в момент старта их индексации, а затем все публикации в этих источниках приписываются к этим тематикам. Полноценная классификация на уровне отдельных статей существует в этих базах только для избранных мультидисциплинарных журналов, а сами наборы тематик устарели и почти не меняются.

Наука тем временем не стоит на месте, а достижения в работе с данными открывают всё больше новых возможностей. В целом уместно выделить несколько подходов:

Ручная (экспертная) классификация, как правило, на уровне отдельных журналов или небольших массивов публикаций.
Классификация на основе прямых цитирований, со-цитирований и bibliographic coupling (об этих методах мы написали в разделе о визуализации, там же приведены графические примеры)
Классификация на основе текстовых методов (например, совместная встречаемость терминов, извлеченных из названий и аннотаций статей). Особое развитие этот подход получил в последние годы в рамках взрывного роста к topic modeling в машинном обучении и natural language processing, распространения моделей типа LDA (wiki).

Каждый из методов имеет очевидные недостатки. Экспертная классификация крайне трудоемка и зависит от квалификации экспертов и дизайна процедур оценки. Применение прямых цитирований (как в одном из наиболее популярных алгоритмов (doi)) страдает от малого числа таких цитирований (как известно, многие публикации вообще не цитируются), опосредованные со-цитирование и bibliographic coupling сложнее трактовать. Текстовые методы страдают от того, что в разных науках одинаковые термины имеют совершенно разный смысл либо являются слишком общими. Наконец, все методы кроме экспертных должны как-то решать сложные задачи гранулярности классификаций (насколько крупные тематики-кластеры выделяются системой) и присваивания алгоритмически построенным тематикам понятных человеку названий.

На практике многие методы интегрируют сразу несколько вышеописанных подходов. Не имея возможности описывать их детально, адресуем читателя к подробному научному обзору (doi) и всему спецвыпуску Scientometrics, посвященному этой теме. Более подкованным в математике также рекомендуем обзор используемых техник кластеризации результатов (doi). Можно ли говорить о том, что какой-то метод лучше других - вопрос открытый, так как не очень понятно, как это оценивать, и что значит "лучше". Тем не менее, интересны попытки провести такие оценки чисто методологически, выведя гипотетический "реальный смысл" за скобки. Например, здесь (doi) различные методы объединения публикаций в тематические кластеры сравниваются с относительно независимой от них метрикой текстовой схожести.

В последние годы на фоне развития нейросетей, особенно в рамках подхода deep learning, они находят все большее применение в классификации. Авторы одного из таких исследований (doi) видят будущее за сочетанием новых и традиционных методов:

...a deep neural network incorporating information from the citation network is likely to hold the key to an even better classification algorithm.

В смежных областях, например, медицине, нейросети уже активно применяются для кодирования отдельных публикаций по симптомам, синдромам, веществам, органам и т.д. Такая функция - центральная для базы MEDLINE\Pubmed, и традиционно выполняется вручную, что подразумевает огромный набор уже имеющихся за прошлые годы данных для сравнения, позволяющий структурировать задачу как соревнование команд разработчиков с понятными правилами (doi).

Напротив, полноценное внедрение продвинутых систем классификации и выделения тематик в популярные наукометрические инструменты и, соответственно, в управление наукой идет очень медленно. До последнего времени они использовались почти исключительно для выделения "передовых исследовательских фронтов" или алгоритмических топиков - наборов публикаций, фактически предназначенных для продажи клиентам-руководителям без наукометрических познаний для их интерпретации.

В конце 2020 г. ситуация несколько изменилась - в популярную аналитическую систему InCites (работает на данных WoS, не входит в нацподписку РФ) была добавлена полноценная алгоритмическая публикация на уровне публикаций, которую можно использовать в т.ч. для нормализации цитирований. Система разработана совместно с Лейденским университетом на основе прямых цитирований и позволяет выбрать один из трех уровней агрегации (10 широких областей, 326 средних и 2444 малых тематик, для двух верхних уровней названия тематик внесены экспертами, для нижнего - выбраны алгоритмом). Особенно интересно анализировать журналы: если каждое раньше издание и все статьи в нем были приписаны к 1-2 одним и тем же тематикам, то теперь они раскладываются на десятки и сотни. К сожалению, в дизайне нового журнального индикатора JCI в InCites вместо этой классификации используется устаревшая традиционная.