12 febrero 2018

Índice H ¿Trabajo colaborativo o citas gratis?


La base de las métricas sobre edición científica y sobre la difusión de la investigación son las citas que cada trabajo recibe.

El índice H, la mediana H, y sus derivados H5 y mediana H5, tienen como base para su cálculo las citas.

Por su partes, las citas tienen como referencia el trabajo publicado (artículo, paper, libro, capítulo de libro, texto de la ponencia en un proceeding, etc.) y se asignan todas las un mismo trabajo a cada uno de sus autores, independientemente del número de estos que haya y de la participación que cada uno tenga en el trabajo.

El número de citas (citación), y los índices H, se aceptan universalmente porque son transparentes. Al menos en Google Scholar Metrics (GSM) se puede ver fácilmente de donde proceden todas y cada una de las citas, y se pueden impugnar cuando no sean correctas. El autor  también puede retractarse con una fácil operación. Y si no lo hace es igualmente visible... y sufre su reputación.

También el índice H es más aceptado que otros, como el índice de impacto, que utiliza JCR (por la comunidad, no por las autoridades españolas, ANECA, etc.), porque es visible su obtención, y sobre todo porque su cálculo no se limita exclusivamente a las citas de la agencia que los obtiene. En el caso de JCR, a las citas que se producen en las bases de datos de Clarivate (antes Thomson-Reuters).

Sin embargo la citación y sus derivados, los índices y medianas, y otros promedios H, tiene sus críticas, que básicamente se reducen a dos:

El sistema GSM mezcla, en español y en otros idiomas distintos del inglés, todas las especialidades. Y esto se reproduce en los rankings y listas que los toman como derivados, como es el caso del Ranking Web de Universidades y el de Investigadores en la web, del Cybermetrics Lab del CSIC. Sin embargo no es lo mismo la citación, por ejemplo, en Ciencias de la Salud, donde a la investigación básica, o simplemente a la investigación,  se atribuyen las citas procedentes de las prácticas profesionales y de las innovaciones en la práctica, que en Ciencias Sociales, particularmente en Educación, donde no es costumbre publicar prácticas e innovaciones profesionales, o no se fundamentan adecuadamente. Y como consecuencia, en este caso, no se publican como implementación de investigaciones en revistas científicas, ni en congresos homologados, y no contribuyen a la citación. Así pues la citación en Ciencias de la Salud es mucho más abundante que en Ciencias Experimentales, Matemáticas, Filosofía o en Ciencias de la Educación y del Aprendizaje. Este efecto, esta mezcla indiferenciada, no se produce así en los rankings de revistas en inglés de GSM, donde los dominios y áreas científicas están delimitadas, y las comparaciones se producen entre publicaciones homogéneas.
La otra crítica tiene su origen en que el índice H considera igual las citas que se producen como autores únicos y las que se producen como coautores. Como hemos dicho antes, la consideración  de las citas se hace por igual a todos los autores de un mismo trabajo, sea cual sea el número de estos y sea cual sea su contribución.

Vamos a dejar de lado, por ahora, lo primero y vamos a centrarnos en esto último.

No hay nada que garantice que la participación de todos los participantes en una publicación sea la misma, ni como requisito general ni en las prácticas editoriales. Tampoco de que, en un caso extremo, no haya coautores que no hayan contribuido nada  o lo hayan hecho en una porción irrelevante.

Así podría darse el caso de que cinco autores hiciesen cada uno una publicación y se pusieran de acuerdo de manera que cada uno de ellos figurase como autor en todas las demás. Esto llevaría a multiplicar por cinco, más o menos, las citas que obtendría si solo figurase cada uno como autor de su trabajo. No hay nada que nos asegure que esto no suceda, y sería una grave e injusta discriminación para autores que publican en correspondencia con su trabajo.

Pero por otro lado, en la investigación, como señalan Austin J. Parish, Kevin W. Boyack, John PA Ioannidis  (2018) y otros autores, es fundamental, en casi todas las modalidades, el trabajo colaborativo. Es indispensable. Por la complejidad de los procesos, por la división de funciones y tareas, lo cual todos aceptan que es un factor de productividad en la investigación y sobre todo por computar cuestiones como son la experiencia o las labores de coordinación. Por tanto se hace justo y es necesario tener en cuenta de forma efectiva estas situaciones, fomentarlas y valorarlas. También aportar procedimientos que garanticen de forma rigurosa qué modalidades de colaboración se producen, la relevancia de éstas y formas eficientes de asegurarlas.

Mientras eso no se produce o no se generaliza, planteamos un índice, al que provisionalmente llamaremos citación colaborativa, y una opción para utilizar de forma contextualizada que palíe y que tenga en cuanta ambas situaciones potencialmente distorsionantes. Sería un valor intermedio, para el caso que el número de autores sea dos o mayor, entre la asignación de todas las citas a todos y la fracción número de citas / número de autores (c/n) a cada uno de ellos.

El índice sería
Donde c es el número de citas atribuido al artículo, n es el número de autores, y b es la base de los logaritmos que se aplican al número de autores.

El utilizar la función logarítmica  es porque se trata de una función cuyo incremento va disminuyendo en la medida a que crece la variable. La variación en el impacto del número de autores varía muy poco cuando crece mucho el número de estos.

La base b debería ser mayor que 2.  Si fuese ésta, en el caso particular de que los autores sean dos no se vería primado el trabajo en grupo de dos, dado que el índice coincidiría con la fracción. No se vería pues premiado en este caso la colaboración.

Veamos pues varios casos:

A) Base b=3

Nº autores
Nº citas
Coeficiente
Fracción
1
10
10,00
10,00
2
10
6,13
5,00
3
10
5,00
3,33
4
10
4,42
2,50
5
10
4,06
2,00
6
10
3,80
1,67
7
10
3,61
1,43
8
10
3,46
1,25
9
10
3,33
1,11
10
10
3,23
1,00
Tabla 1

El coeficiente sería el equivalente al número de citas que se atribuiría a cada uno de los autores.  Obviamente sería un número racional (en expresión decimal), no un número entero, como sucede con las citas.

Las diferencias del coeficiente con el número de citas, tal como se atribuye ahora, o con la fracción de las citas repartidas entre todos daría lugar a un rico debate.

Otro ejemplo para este mismo caso podríamos verlo con otro número de citas, por ejemplo 20.  Adjuntamos la hoja de cálculo para que el lector interesado pueda hacer otras pruebas:


Nº autores
Nº citas
Coeficiente
Fracción
1
20
20,00
20,00
2
20
12,26
10,00
3
20
10,00
6,67
4
20
8,84
5,00
5
20
8,11
4,00
6
20
7,60
3,33
7
20
7,22
2,86
8
20
6,91
2,50
9
20
6,67
2,22
10
20
6,46
2,00
 Tabla2

B) Base b=5

Nº autores
Nº citas
Coeficiente
Fracción
1
10
10,00
10,00
2
10
6,99
5,00
3
10
5,94
3,33
4
10
5,37
2,50
5
10
5,00
2,00
6
10
4,73
1,67
7
10
4,53
1,43
8
10
4,36
1,25
9
10
4,23
1,11
10
10
4,11
1,00
Tabla 3


Vemos como primera consecuencia y más visible que, a medida que aumenta la base del logaritmo, el factor correctivo disminuye (Comparar tabla 1 y tabla 3). Sería pues un factor determinante a la hora de definir el coeficiente, y sería el parámetro clave para aplicar en distintos temas y dominios donde le trabajo colaborativo tenga una importancia y una significación mayor o menor. No sería igual en artes o ámbitos de creatividad donde la divergencia sea un factor básico, que en análisis empíricos complejos de ciencias sociales o de ciencias experimentales.

Referencias.-


Parish, AJ, Boyack, KW, and Ioannidis, JP (2018). Dinámica de la coautoría y la productividad en diferentes campos de la investigación científica. PloS uno , 13 (1), e0189742. http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0189742#pone-0189742-g002 

No hay comentarios: