Число цитирований

Основной мотив подсчета цитирований - измерение влиятельности. О том, что они значат и насколько ее отражают, читайте в специальном разделе, а здесь речь непосредственно про практику подсчета ссылок и индикаторов на их основе. Мы последовательно пройдем основные факторы, которые необходимо принимать во внимание: учет самоцитирований, нормализацию по тематикам и т.д. Без знания этих особенностей анализ цитируемости может давать сильно искаженную картину.

Выбор объекта изучения и массива данных. Разные дисциплины, страны и языки очень неравномерно представлены в разных базах данных. Перед началом исследования цитирований нужно проверить полноту индексации основных для данной дисциплины типов и источников текстов - и их списков литературы - в выбранной базе и при необходимости сменить ее. Слишком широкий охват источников также может мешать, приводя к смешению цитирований из рецензируемых и не рецензируемых публикаций, из топовых журналов и изданий сугубо локального характера, усложнению фильтрации накруток и псевдонауки.
Самоцитирования. Учитывать ли их наравне с прочими? Важно, что самоцитирования сами по себе абсолютно нормальны, особенно если автор давно занимается какой-то темой. Поэтому крупный ученый, совсем не ссылающийся на себя - очень редкое явление. Однако во всем хороша мера, и самоцитирований, как правило, не должно быть больше, чем ссылок на чужие достижения, а при росте общего числа цитирований доля самоцитирований должна падать. Рекомендуем всегда считать и общую цитируемость, и число\процент самоцитирований, а при анализе обращать внимание на любые аномалии.
- Типы самоцитирований. Когда автор сослался на другое свое произведение, речь идет об авторском самоцитировании. Это основной тип самоцитирований, но далеко не единственный. Есть еще самоцитирования сети авторов (co-author self cites), когда на вашу работу ссылаетесь не вы, а ваш соавтор по другой публикации, и самоцитирования организации или страны, когда на вашу работу ссылаются соответственно сотрудники вашей организации или ваши соотечественники. Для журнальных метрик особенно важны журнальные самоцитирования, когда журнал ссылается сам на себя. В целом, если стоит задача оценить влиятельность автора или организации вне ее непосредственного окружения, а также если есть риск накруток за счет самоцитирования тех или иных видов, самоцитирования лучше исключить.
- Нормы самоцитирования. Какой процент самоцитирований нормален, зависит от их типа, предметной области и других факторов, исследования на этот счет исчисляются сотнями. По данным одной из работ (doi), в естественных науках на авторские самоцитирования приходится порядка 10%, в общественных - около 20% всех ссылок. Также установлено, что самоцитирования в целом появляются раньше внешних цитирований. Есть и данные, что самоцитирования служат своеобразной "рекламой", привлекая внешние цитирования (doi). Особенно важно понятие допустимого предела самоцитирований в контексте их использования в качестве символического капитала. "Как много уже слишком много?" задаются вопросом исследователи из WoS, чей рейтинг высокоцитируемых ученых очень популярен. По их данным (doi), для большинства высокоцитируемых эта норма в пределах 10%, но есть одно важное исключение: математика, где этот процент бывает гораздо выше. Имеются свидетельства, что внедрение оценки ученых и организаций с применением показателей цитируемости может приводить к росту доли самоцитирований (doi).
- Практика. Среди популярных баз фильтровать авторские самоцитирования и цитирования сети авторов умеет Scopus, однако, точность фильтрации зависит от корректности привязки публикаций к авторскому профилю. Для множества авторов это делается автоматически и не всегда точно, т.е. процент самоцитирований может быть как занижен (чаще), так и завышен (гораздо реже, при слипании профилей нескольких ученых в один). В WoS под самоцитированиями считают только цитирования из публикаций найденного по данному запросу массива вне зависимости от того, кто их написал. Нашлось по вашему запросу пять статей - и самоцитированиями будут считаться только ссылки именно из этих статей.
Нормализация по тематикам. Вам очень хочется сравнить биолога и математика? Вы не одиноки: сравнивать их приходится тем, кто выделяет им деньги, и цитируемость может служить здесь подспорьем. Принципиально важно, что сравнивать абсолютные значения числа цитирований и производных метрик (индекс Хирша и т.д.) для ученых из разных областей ни в коем случае нельзя. Это связано с тем, что среднее число цитирований, скорость их накопления и покрытие цитирующих документов базами для разных дисциплин отличается, подчас кардинально. Для более корректного сравнения необходимо применять показатели нормализованной цитируемости. Наиболее известный показатель здесь - т.н. "коронный индикатор" Mean Normalized Citation Score (MNCS), разработанный в Лейденском университете. На первый взгляд это очень простой показатель: число цитирований публикации делится на среднее арифметическое числа цитирований всех публикаций того же типа, года выпуска и тематики - естественно, не всех вообще, а индексируемых выбранной базой.

Пусть статья по биоинформатике имеет 15 цитирований, а среднее число цитирований статей по биоинформатике того же года выпуска = 5, соответственно, нормализованная цитируемость данной статьи = 15\5 = 3. Статья по математике имеет 5 цитирований, но среднее число цитирований статьей по математике того же года выпуска = 1, соответственно, ее нормализованная цитируемость = 5\1 = 5.

Если статья относится сразу к нескольким тематикам, для нормализации берется среднее арифметическое от ее значений нормализованной цитируемости в каждой из областей. Вся эта нормализация критически зависит от того, как именно и насколько точно публикации приписываются к конкретным тематикам. "Коронный индикатор" MNCI присутствует в аналитических надстройках WoS и Scopus и называется там соответственно Category Normalized Citation Impact (CNCI) и Field-Weighted Citation Impact (FWCI). В описании к InCites (надстройка WoS) прямо говорится:

CNCI is an ideal indicator for benchmarking at all organizational levels (author, institution, region etc)

Процентили. Из определения "коронного индикатора" понятно, что он как среднее арифметическое может быть очень чувствителен к выбросам. Устойчивый непараметрический (вики) вариант того же показателя и формулируется как процентиль по цитируемости у данной публикации среди всех публикаций в той же области того же года выпуска и того же типа. К недостаткам такого метода относится слабая разрешающая способность для наиболее высокоцитируемых работ: например, в математике статья, получившая 50 ссылок, и статья, на которую сослались 5000 раз, будут в одном и том же первом процентиле.
Минимально достаточное число публикаций. Как и все показатели, наукомерические индикаторы цитируемости значимы только при наличии некоторого минимально допустимого числа публикаций. Научно обоснованного минимального числа нет, все зависит от ситуации. Например, в национальной системе оценки науки в Австралии нормализованные индикаторы применяются, когда публикаций больше 70, но если среди них есть выбросы, это обязательно отмечается. В целом для любых сравнительных наукометрических изысканий лучше брать массивы от сотни статей и выше, а показатели по более мелким массивам публикаций трактовать очень осторожно. Особенно не рекомендуется считать цитируемость (в т.ч. нормализованную) для ученых в начале карьеры.
На что еще обратить внимание при анализе цитирований? Прежде всего, на дату выхода публикаций. Период, за который вышли исследуемые вами публикации, называется окно публикации. Период, за который вышли публикации, ссылающиеся на исследуемые публикации, называется окно цитирования. Для большинства наук нужно хотя бы два-три года с момента выхода текста, чтобы ссылки на него успели накопиться, а сравнивать цитируемость публикаций разных лет некорректно. Для более медленно цитируемых наук типа математики лучше подождать 5-10 лет. Все сказанное относится и к продвинутым метрикам: нормализация по свежим работам будет ненадежной из-за подчас очень низких средних значений цитируемости по области.

Кроме того, к цитированиям в полной мере относится то, что сказано выше про число публикаций: для многоавторных работ лучше совмещать полный и долевой подсчет, а цитирования из подозрительных источников стоит исключить, пусть для этого придется отказаться от готовых простых инструментов подсчета, встроенных в коммерческие базы данных.