Metodología

El gran problema con el que nos encontramos al principio de este estudio es que no había ningún método conocido que nos llevara a resultados certeros. Es verdad que algunos estudios anteriores han intentado indagar un poco, cada uno a su manera, en los desarrollos del software libre, pero ninguno abarcaba el tema de forma global, tal y como nosotros queríamos.

Al no haber precedentes muy claros, decidimos tomar tantas fuentes como fuera posible para, a posteriori, entrar a valorar los diferentes resultados. La comparación y correlación entre los mismos nos diría qué grado de credibilidad debía tener cada fuente. A la vista de los resultados, todas las fuentes, aunque tengan desviaciones más o menos pronunciadas, dan unos resultados que convergen, lo que nos lleva a pensar que los resultados son muy próximos a la realidad.

El estudio se basó en cuatro fuentes diferentes que a su vez siguen cuatro métodos de extracción de datos diferentes:

  1. el catálogo de aplicaciones de software libre SourceWell, al estilo Freshmeat, que hay en BerliOS,

  2. la base de datos de los desarrolladores de una conocida distribucion de GNU/Linux (Debian)

  3. una herramienta llamada CODD, que analiza el código fuente automáticamente y extrae los autores del mismo,

  4. y un formulario en línea conocido con el nombre de Widi (que viene de "Who Is Doing It?", "¿Quién lo está haciendo?").

Todas estas fuentes serán presentadas y analizadas pormenorizadamente en el siguiente apartado. Antes, vamos a ver otros métodos y fuentes que han sido utilizados en estudios anteriores.

En 1999 el UNC Open Source Research Team estudió el repositorio de aplicaciones de software libre en el MetaLab. Este estudio se basa en el uso del Linux Software Map (LSM, mapa del software Linux), una especie de estándar para dar información sobre los paquetes que se depositan en un repositorio. Uno de los apartados que es de obligado cumplimiento en el LSM es indicar el nombre y dirección de correo-e del desarrollador principal. Los autores del estudio se dedicaron a analizar los archivos LSM de cada paquete, extrayendo el dominio de correo electrónico de los autores y tratando estadísticamente los resultados. En este estudio no hemos incluido ningún método que utilice el LSM, ya que es un método poco arraigado. Su uso en el repositorio MetaLab se debe más bien a razones históricas: hace una década, cuando el ancho de banda era escaso, el LSM proporcionaba importante información acerca de la funcionalidad de los paquetes antes de descargárselos. El auge de las distribuciones de GNU/Linux y del CD-ROM han hecho que el LSM haya pasado a un segundo plano.

Una forma más completa de abordar el tema es mediante la aplicación de la Trinity Participation Metric. Se trata de una métrica que mide la participación en proyectos de software libre que se basa en estudiar no sólo el código fuente, sino también mensajes a la lista de correo principal del proyecto y los parches enviados. A la hora de sumar las tres fuentes, cada una es multiplicada por un peso según su importancia relativa. Esta métrica implicaría un gran esfuerzo si se quieren estudiar muchos proyectos, por lo que es más bien aplicable a proyectos específicos. En el caso del documento original, estudian la participación en The GIMP.

Desde hace pocos meses, la Fundación del Software Libre ha comenzado un proyecto que representa de manera visual la procedencia de los desarrolladores de software libre. Los desarrolladores tienen que registrarse antes de rellenar un formulario con sus coordenadas. Los resultados se muestran con pequeños retardos en un mapa del mundo en varios tamaños.

Por último, y ya más bien desde el punto de vista sociológico, nos tenemos que hacer eco del Linux Study, un análisis sociotécnico realizado sobre los desarrolladores del núcleo Linux. Este estudio se basaba en un cuestionario que fue rellenado por cerca de 150 desarrolladores.