Mapa76.info: software de investigación periodística

Objetivo: Esta es una explicación del proyecto Mapa76.info surgido de los encuentros de Hacks/Hackers Buenos Aires. Este proyecto pretende ser un software de extracción automática de datos desde documentos de textos, que nació aplicado a una problemática particular de los juicios por la dictadura ocurrida entre 1976 y 1983, pero puede ser extendible a otro tipo de problemáticas donde sea necesario trabajar grandes volúmenes de contenido. Por esto, imaginamos Mapa76 como herramienta de investigación periodística y histórica de acceso libre (y también privado) a través de la web, con el propósito también de darle usabilidad a las potencialidades de las técnicas de scrapping y visualización. Mapa76.info nació como un proyecto colaborativo y de software libre, pero es necesario encontrar una sistematización al trabajo voluntario de unas cuarenta personas que participaron en el proyecto.

Contexto
Inauguramos el capítulo de Hacks/Hackers Buenos Aires en abril de 2011, e hicimos dos encuentros para dar a conocer la idea de trabajar entre periodistas y programadores de software. A estos encuentros fueron entre 120 y 150 personas en cada uno. El tercer encuentro fue un hackatón de 30 horas, en donde ocho personas trabajamos la visualización interactiva en html5 y popcorn de una conferencia en un congreso de periodismo digital en la ciudad de Rosario, a 300 kilómetros de Buenos Aires. En el transcurso de esos encuentros, surgió la idea de generar desde Hacks/Hackers Buenos Aires un “proyecto de demostración” que aplique técnicas de scrapping para interpretar grandes volúmenes de datos y que permita visualizarlos en forma significativa. Entonces surgió el proyecto que dimos en llamar Mapa76, que pretende ir desde la extracción automática de datos hacia la visualización en línea de tiempo y en mapas de historias de vida.

¿Por qué Mapa76?
El 24 de marzo de 1976 se produjo un golpe de Estado en Argentina que duró hasta 1983. En ese período hubo 30 mil desaparecidos, miles de muertos, y 500 niños apropiados por los militares nacidos en cautiverio. Más de 30 años después, en Argentina el número de condenados por delitos de lesa humanidad cometidos durante la última dictadura, ascendía a 262 personas (a setiembre de 2011). Actualmente existen 14 juicios en curso y 7 con fecha definida para su inicio repartidos por todo el país. En tanto, se sabe públicamente que hay 802 personas procesadas en las distintas causas judiciales que se encuentran abiertas. De ese total, 412 tienen una o más causas elevadas a juicio, mientras que otras 102 cuentan con el pedido de elevamiento a juicio por parte de la fiscalía.

Dichos procesos judiciales generan grandes volúmenes de información que hacen que la labor de los investigadores —periodistas, organismos de derechos humanos, jueces, fiscales, etc.— se complejice al momento de recabar y analizar datos que pueden ayudar al esclarecimiento de hechos. Se produce mucha más información de manera dispersa de la que los investigadores pueden analizar. Y todavía se encuentran testimonios de manera azarosa.

En la gran mayoría de los casos, tanto desde la perspectiva periodística como desde el Poder Judicial, el relevamiento de datos se hace en forma manual sobre expedientes judiciales ya generados (algunos digitalizados, otros no). Estas prácticas suponen sesgar el universo de análisis, pasar por alto ciertos datos y en definitiva inhiben significativamente la exploración sobre los hechos, y la construcción de conjeturas y/o conclusiones a nivel global por parte de los investigadores periodísticos pero también imposibilita el acceso del resto de ciudadanos a esta información.

Conceptualización y objetivos
El objetivo de Mapa76.info es realizar una plataforma de extracción automática de datos sobre los juicios de la última dictadura militar en Argentina. El objetivo es lograr una visualización de historias de vida del período 1976-1983 basada en testimonios, pericias, informes, alegatos y sentencias judiciales sobre la dictadura. Esta plataforma pretende brindar herramientas para analizar una base documental (un grupo de documentos) y facilitar la identificación de relaciones de difícil hallazgo en forma analógica (manual). Los datos extraídos (nombres, lugares y fechas) son recopilados, almacenados y pueden ser depurados por el investigador, además de visualizarlos en forma geolocalizada, en líneas de tiempo y en mapas de relaciones entre personas. Pensamos que el modelo que iniciamos para Mapa76.info se puede replicar como un software de investigación periodística.

¿Para qué podría servir mapa76?
Tanto periodistas como investigadores, fiscales podrán utilizar Mapa76 para establecer relaciones entre detenidos desaparecidos en correspondencia a lugares, fechas y condiciones de detención.  Permitirá seguir la historia de vida de una persona determinada y conocer cómo fue su derrotero durante su cautiverio y posterior desaparición o liberación. Para el caso de que no se cuente con información acerca de una persona, el periodista, podrá acceder a la plataforma de Mapa76 y “peinar” una vasta cantidad de documentos en busca de información calificada. Esto podría permitir la identificación de nuevos testigos, indagar sobre criterios de prueba, reafirmar que hubo un plan sistemático para la apropiación de menores por parte de las fuerzas armadas, etc.

¿Cómo funciona Mapa76?
Mapa76 es hoy un prototipo en desarrollo, que no está en línea, y cuenta con tres módulos básicos:
(a) la extracción automática de datos (nombres fechas y lugares);
(b) la consulta y depuración de datos en contexto; y
(c) la visualización de los datos seleccionados en mapas y líneas de tiempo.

Mediante patrones de búsqueda definidos (que pueden ser: nombres personales, organizaciones, lugares y fechas), este software — programado en Ruby— reconoce las palabras del documento que coinciden con las preestablecidas y las almacena en una base de datos.

Dicha base puede ser depurada por el investigador y cada hallazgo puede ser consultado en su contexto. Luego, los datos extraídos/ depurados/ seleccionados pueden visualizarse en un mapa geo referenciado o en una línea de tiempo, junto con la información contextual en relación con la consulta efectuada y su fuente.

Para esto la plataforma permitirá desarrollar distintas capas de trabajo con el objetivo de filtrar información puntual en relación a alegatos, sentencias, agrupación político-militar, centro clandestino de detención, nombres propios, etc. Una forma de entender los patrones de comportamiento de Mapa76.info sería la siguiente: el usuario sube un documento. Éste es analizado bajo el parámetro de búsqueda de “nombres personales” por el software de extracción automática de datos. Luego el usuario elige una persona y de los párrafos en los que aparece mencionada elige el nombre, las fechas y los lugares relevantes relacionados a ese momento.

Cómo se inició el proyecto

Para llegar al hackatón que dio inicio a Mapa76.info, se trabajó en realizar una plataforma para que programadores y periodistas pudiesen trabajar el día del encuentro. Martín Sarsale desarrolló algoritmos de consulta básicos, para extraer información simple desde documentos de textos. También se usaron algunas librerías del proyecto DocumentCloud.org. Se llegó con una plataforma simple, en donde el usuario podía trabajar con un documento en el sitio, este documento era analizado automáticamente y de allí se extraían nombres, fechas y lugares automáticamente. Una vez extraída esta información, se tomaba el caso de una persona, para contar su historia de vida relacionando manualmente fechas con “acciones” (nacimiento, lugar de detención, presunto lugar de desaparición, etc.).

Encontramos proyectos existentes vinculados a la investigación judicial y tuvimos varias reuniones con los investigadores, algunas posteriores al hackatón.

* RED Federal de Sitios de Memoria
* Archivo Provincial de la Memoria en Córdoba
* Fiscalía Nacional – Pablo Parenti
* Asociación Nunca Más + Gabriel Acquistapace
* Equipo de Antropología Forense
* Inés Caridi, de la Facultad de Ciencias Exactas de la UBA, que hizo un modelo matemático para el equipo de Antropología Forense.
* Memoria Abierta.

El hackatón
Realizamos una convocatoria pública a través de la página de Hacks/Hackers Buenos Aires http://meetupba.hackshackers.com En ese momento teníamos aproximadamente 200 inscriptos, actualmente hay cerca de 550. También se convocaron asociaciones de Derechos Humanos y se hizo un pedido formal para realizar el hackatón en Tecnópolis, una feria inmensa organizada por el gobierno nacional dedicada a la ciencia argentina, que se realiza dentro del ex Batallón 601, sede de operaciones militares en la época de la dictadura. Al encuentro asistieron cerca de cuarenta personas entre periodistas, organizaciones militantes, programadores y diseñadores. También participaron del hackatón los creadores de Junar.com, una plataforma de “streaming” de datos que permite organizar la información de tablas de forma automática y exportarla hacia otros sitios web. Tuvimos el apoyo de Tecnópolis y de Mozilla Argentina.

Se buscaron tareas aisladas, para que los participantes puedan avanzar independientemente.

Diseñadores
Incorporar componentes a la plataforma
Filtrar por organizaciones, por organismos, por testimonios, etc.
Hacer una interfaz gráfica que combine línea de tiempo más un mapa

Programadores:
Se trabajó en la extracción de datos
● Nombres, direcciones, fechas
● Organizaciones
● nombres mal escritos, etc
● alias
● desambiguaciones
● distintas maneras de referirse a la misma persona
● “Jorge Julio Lopez”
● “Julio Lopez”
● “Lopez”
● Se trabajó en el API exponiendo los datos de mapa76

Periodistas:
Encontrar casos de uso:
● ¿Quién estuvo con quién?
● Seguir la historia de una persona. ¿Que le pasó?
● Comparar dos o más historias de vida
● Comparar la historia según versiones
● “Peinar” documentos para contar una historia a partir de documentos
● Incorporar otras fuentes como diarios, bases de datos, etc.

Detectar palabras claves:
● Secuestro
● Traslado
● Sobreviviente
● Cautiverio
● Robo de identidad
● Apropiación

Clasificar documentos y relaciones:
● Testimonio
● Pericia
● Alegato
● Sentencia
●Fundamentos

Problemas posteriores al hackatón
El problema principal que tuvimos después del hackatón fue que las expectativas fueron demasiado ambiciosas, y las ideas a realizar un tanto dispersas durante la jornada de 10 horas. Por otro lado, las personas que participaron del hackatón son altamenta calificadas, con trabajos cotidianos de alta complejidad, y no tuvimos la fuerza suficiente para darle periodicidad al desarrollo, sumadas a otras actividades planificadas por Hacks/Hackers Buenos Aires en 2011, año en el que hicimos nueve encuentros, cuatro hackatones, cuatro meetups, una conferencia en un congreso de Software libre y una conferencia en la Fundación Nuevo Periodismo Iberoamericano.

Pasos hacia adelante
• Generar la documentación técnica del prototipo.
• Elaborar un Plan de Proyecto para la versión 1.0 y realizar un benchmarking para el
desarrollo de fondos.
• Relevar la existencia de módulos funcionales para integrar en la plataforma de
Mapa76. Por ejemplo: de visualización de relaciones entre entidades (personas); para
el manejo de versiones de trabajos producto de la consulta sobre el sistema; etc.
• Mejorar la relación entre datos geolocalizados y marcas en el tiempo, hacer coordinar la línea de tiempo con los datos localizados en los mapas.
• Mejorar la interfaz de carga de datos para que sea más eficiente y rápida en las
búsquedas.
• Pulir la interfaz de consulta mejorando las líneas de tiempo por persona y por centro
de detención.
• Armar una base de consulta que permita establecer relaciones entre personas. Por
ejemplo: quién estuvo con quién, dónde sucedió la desaparición, cómo fue su
situación de secuestro, cuándo pasó, etc.
• Generar capas de información de información y consulta públicas y privadas, permitir
almacenas “historias” a nivel de usuario, etc.
• Trabajar mejor en las visualizaciones de los datos.

Versión 1.0 de Mapa76.info
El objetivo de la primera versión funcional del sitio Mapa76.info es el procesamiento de datos duros por parte del motor que permita extraer nombres, direcciones y fechas, y que esta información pueda luego explayarse de manera semi-automática en una línea de tiempo y en mapas georreferenciales.

Backend

  • Debe ser posible subir documentos de texto al sistema
  • El sistema debe detectar nombres de personas
    • mostrar la información de una persona cuando se le hace click
      (para en un futuro desambiguar)
  • Detectar fechas
    • Fechas exactas
    • Fechas inexactas
    • Períodos
  • Detectar Lugares
      • Direcciones comunes
      • Centros Clandestinos
      • Lugares de posibles destinos
  • Detectar acciones:
  • Secuestro
  • Traslado
  • Sobreviviente
  • Cautiverio
  • Robo de identidad
  • Apropiación

Front End
Visualizaciones: seguir a una o más personas para encontrar historias de vida.

  • Línea de tiempo
  • Mapa
  • Fragmento del documento
  • Bajar el documento original.

 

Versión 1.1

El objetivo de la versión 1.1 es mejorar la “inteligencia” en el reconocimiento de datos extraídos automáticamente.

Backend

  • Detectar lugares
  • El sistema deberá verificar los lugares encontrados sobre listas predefinidas (centros clandestinos, lugares de destino, edificios militares, lugares de detención conocidos, etc.)
  • Posibilidad de agregar lugares nuevos con importancia conocida.
  • Detectar nombres
  • Porcentaje de “completado” de los datos de una persona para trabajar en el scrapeo de nuevos datos. Por ejemplo: a determinada persona le falta la fecha de nacimiento: se puede buscar en “determinados” documentos puesto que allí está mencionada también.
  • Verificación de nombres sobre la base de listas existentes (sobre represores, sobre desaparecidos, sobre procesados, sobre condenados, sobre su participación en organizaciones militantes, armadas, etc)
  • Tener asociados nombres de personas a organizaciones tanto militares como de militantes. Esto permitirá luego una visualización de los acontecimientos por organizaciones para entender patrones de comportamiento.
  • Agrupar nombres parecidos
  • Roberto Lassara (1 menciones)
  • Roberto Lazara (1 menciones)
  • Roberto Lazarra (1 menciones)
  • Roberto Lazzara (1 menciones)
  • Relacionar con alias de personas
  • Detectar lugares
  • Verificación de los lugares aparecidos en los documentos sobre listas de lugares, centros clandestinos, etcétera.
  • Importación de datos: mejorar la importación desde pdf’s hacia documentos de textos.

 

    Versión 1.2

El objetivo de esta segunda versión es trabajar las relaciones entre personas encontradas en los scrapping de los documentos. Las mejoras deberían incluir la posibilidad de establecer relaciones en el backend para luego encontrar diferentes opciones de visualizaciones. El eje central de este sistema desarrollado para mapa76.info no es sólo encontrar historias de vida que puede tener fines periodísticos (visualizar historias), sino encontrar la relación entre dos personas a través de un hecho puntual que pueda o no ser delictivo.

Backend

  • Detectar relaciones entre personas
    • madre
    • padre
    • hijo
    • pareja
  • Detectar relaciones entre torturadores y torturados
  • Detectar relaciones entre apropiadores e hijos apropiados
  • Detectar relaciones del tipo: “vio a” o “fue visto por”
  • Detectar relaciones “por sometimiento sexual de torturadores a víctimas”
  • Mejorar la clasificación de fuentes
    • Tipos de documentos
    • Confidencialidad de documentos
    • Causas judiciales

Versión 2.0

La segunda versión de mapa76.info tiene dos objetivos:

  • Desarrollar visualizaciones para comprender gráficamente los datos encontrados en los documentos: por un lado visualizar historias de vida y por el otro lado visualizar posibles relaciones entre personas en determinados momentos, y situaciones particulares. Entendemos que hay que trabajar en la adaptación y desarrollo de mapas de relaciones entre las entidades del sistema, principalmente: personas, sus relaciones y los lugares.
  • Desarrollar la relación entre ubicación geográfica y línea de tiempo para poder “observar” la película completa de una situación, de una historia de vida, de una organización política, etcétera.

Versión 3.0

  • Visualizaciones automáticas (sin intermediación humana) desde documentos de texto por medio de utilización del concepto de web semántica.
    Ejemplo de aplicación: En la investigación realizada para este trabajo detectamos algunos casos que eran imposibles de estructurar de antemano. Un caso sobre el que se discutió fuertemente es el del “Renault Celeste”. Durante los juicios, muchos detenidos desaparecidos dijeron haber sido trasladados puntualmente en un caso en un Reanult Celeste y uno de los detenidos dijo saber a quién pertenecía el famoso “Renault Celeste”. De tal manera que la expresión “renault celeste” es una variable de relación inesperada que puede tener fines judiciales y periodísticos concretos. Como esta, puede haber otras cientas.

Modelo de negocio
Mapa76.info está pensado como un modelo de proyecto colaborativo y escrito bajo licencias GPLv2 de software libre. Sin embargo, es un modelo exportable para cualquier tipo de trabajo periodístico que produce grandes volúmenes de datos, conflictos sociales, causas judiciales complejas, etcétera. Es un modelo de “open core”: es decir, el “motor” de mapa76.info queda disponible públicamente como proyecto de software libre, y se ofrece como servicio la “implementación” para casos específicos. El motor de mapa76.info se llama xdat.info.

Quienes somos
Mapa76.info es una iniciativa del capítulo Buenos Aires de Hacks/Hackers, un espacio de
encuentro conformado por periodistas, programadores de software y diseñadores que se reúnen para colaborar en la construcción del futuro de los medios de comunicación. El equipo organizador de Hacks/Hackers Buenos Aires está conformado por Mariano Blejman (Página/12), Martín Sarsale (Sumavisos), Guillermo Movia (Mozilla Argentina), César Miquel (Easytech), Mariana Berruezo, Sergio Sorin y Ezequiel Clerici.

Estado actual
* En estos momentos, relacionados con Mapa76 hay un grupo de personas involucradas directamente intentando llegar al prototipo: Mariano Blejman (periodista y coordinador general),
Martín Sarsale (programador), Marcos Vanetta (programador), Andrés Snitcovsky (diseñador gráfico) y Mariana Berruezo (concepto) y un grupo aproximado de 40 voluntarios interesados en colaborar externamente.
* Mapa76.info se encuentra en etapa de desarrollo a través de mapa76-dev@googlegroups.com (Ruby, JQuery, Mysql) “Martin Sarsale” @runixo
* Código en https://github.com/mapa76/
* Project manager https://www.pivotaltracker.com/projects/344053

twitter @HacksHackersBA
mail ba@hackshackers.com
Web http://meetupba.hackshackers.com
blog http://www.hackshackers.com

One comment

  1. [...] de vidas del período 1976-1983, basada en testimonios escritos, alegatos y sentencias judiciales (aquí puede encontrar una explicación larga del proyecto, poner post en español en el blog). Y link al Gdoc compartido.  Se trabaja sobre conceptos de big data, data mining, y web [...]

Leave a Reply

Your email address will not be published. Required fields are marked *

*