Сетевые методы и визуализация
Одно из магистральных направлений наукометрии - поиск, анализ и визуализация разнообразных сетей, которые можно построить на основе публикаций. В качестве вершин в таких сетях обычно выступают авторы, статьи, журналы, организации, термины и тематики. В основе аппарата лежит математическая теория графов, широко используются кластеризация и методики научной визуализации.
Сетевые методики все чаще применяются в управлении наукой. Так, на сетевом алгоритме PageRank основан ряд журнальных метрик, включая популярный в России SJR, служащий основой для квартилей.
Если говорить о более научном подходе, первым делом нужно упомянуть VOSviewer - основную на сегодня программу для визуализации, кластеризации и анализа разнообразных сетей по метаданным публикаций. Программа создана Нисом Ван Эком и Людо Вальтманом из Лейденского университета и доступна бесплатно. Она работает с данными из большинства ведущих наукометрических баз, и даже умеет автоматически подгружать информацию из открытых API, включая CrossRef (подробности). С использованием VOSviewer написаны уже сотни научных публикаций. Менее популярны, но тоже интересны открытые программы CiteSpace
На примере VOSviewer удобно описать и проиллюстрировать основные наукометрические методики построения связей между сущностями. Мы будем использовать массив из порядка 6 тысяч публикаций в журнале Scientometrics, центральном для нашей области. Карты интерактивные, их можно изучать и настраивать.
Анализ терминов\тематик\ключевых слов по совместной встречаемости (co-occurrence)
Методика не является собственно наукометрической, но применяется широко и может быть полезна многим как инструмент быстрой визуализации и картирования предметной области. Ключевые слова\термины для анализа либо берутся так, как их указали сами авторы, либо извлекаются из названий и аннотаций с помощью алгоритмов текст майнинга. Термины, извлеченные из названий и аннотаций статей, расположены по тому, насколько часто они встречаются совместно, размер отражает число публикаций. По умолчанию цветом даны тематические кластеры, определенные автоматически (их можно задавать и вручную).
(Карты могут не отображаться на телефонах iPhone из-за особенностей Mobile Safari)
Хорошо видны 5 кластеров:
- Метрики и источники (красный)
- Сети и текст-майнинг (синий)
- Межстрановые и описательные работы (зеленый)
- Научные карьеры, мобильность, рейтинги и научная политика (желтый)
- Патенты и инновации (сиреневый)
Настраивать карту можно с помощью меню слева. Особенно рекомендуем переключатель цвета: им можно кодировать не только тематики, но и их средний возраст и нормализованную по году цитируемость. Собственно, моментальное визуальное соотнесение этих трех разрезов и представляет одну из основных ценностей системы.
Соавторство
На следующей карте показано соавторство, и мы видим массу авторов, не связанных с другими, что логично для области, почти не требующей крупных коллабораций. Карта построена по ФИО авторов, что требует ручного сведения вариантов написания и фактически лишает возможности адекватно анализировать представителей Китая и других стран с малой вариабельностью фамилий.
Цитирования
Классический вариант сети основан на цитированиях, именно ссылки в данном случае являются связями между статьями. На карте показаны только высокоцитируемые (в данном случае 20+) публикации, размер отражает число цитирований. Узнать название и прочие данные можно по клику. По иронии самая цитируемая статья - про VOSviewer.
Со-цитирования и Bibliographic coupling
В завершение расскажем о двух немного более продвинутых методах, тем более что один из них - со-цитирования - придумала наша соотечественница И.В. Маршакова-Шайкевич в 1970-е (независимо от нее к такой же идее пришел Генри Смолл). Эти методики позволяют оценить семантическую (смысловую) близость двух публикаций (авторов, стран, журналов и т.д.). Со-цитирования определяют ее как частоту, с которой две сущности цитируются вместе другими работами. Чем чаще - тем, вероятно, статьи ближе по смыслу.
Bibliographic coupling - похожий инструмент, только близость двух публикаций или иных сущностей определяется тем, насколько пересекаются у них списки литературы. Если две статьи имеют очень схожие наборы исходящих ссылок, вероятно, они похожи и в смысловом отношении.
Две методики часто позволяют строить существенно более плотные сети, чем сети соавторства или прямого цитирования, тем самым выявляя тематическую и семантическую структуру науки более наглядно. На карте ниже, построенной по методу со-цитирования, показаны источники, на которые чаще всего ссылались в Scientometrics (сам этот журнал мы с карты убрали для наглядности).
Полезные материалы
Подробное руководство по VOSviewer и его репозиторий на GitHub
Инструмент Sci2Tool для сетевого анализа науки от Университета Индианы
Обзор инструментов и подходов к построению сетей и визуализации (pdf)