DATA WAREHOUSES EN LA INVESTIGACIÓN CRIMINAL

La falta de sistemas de gestión del conocimiento bien diseñados en un entorno de aplicación de la ley intensivo y de tiempo crítico plantea problemas interesantes para los profesionales de la tecnología de la información. El objetivo de este trabajo es poder estudiar cómo se pueden integrar las diferentes bases de datos del Departamento de Policía del Estado Libre Asociado de Puerto Rico (PRPD). Se propone la creación de un almacén de datos para almacenar datos criminales relevantes que van a ser útiles en la prevención del delito, localizar delincuentes y posteriormente llevarlos ante la justicia. El proyecto del Sistema de Apoyo a la Información Criminal (CISS) incluye la integración de múltiples sistemas que tienen diferentes funcionalidades. CISS es un sistema que se basa en la web rentable para permitir que los departamentos de aplicación de la ley compartan información de diferentes fuentes de datos. Se presenta un estudio descriptivo de un sistema de depósito de datos propuesto que busca mejorar la administración de datos criminales de diferentes maneras, como por ejemplo desarrollar planes efectivos para la prevención de un delito, encontrar patrones de comportamiento criminal útiles y hacer correlaciones entre circunstancias similares para poder resolver casos muy difíciles de forma exitosa y evitar así más bajas. Esta es la primera etapa de un proyecto más amplio que incluye herramientas de procesamiento analítico en línea (OLAP) adecuadas para extracciones avanzadas y un sistema de soporte de decisiones.

El problema de la colaboración y el intercambio de información entre unidades policiales en Puerto Rico han ido en aumento gradualmente a través de los años. La evolución de la tecnología ha cambiado la forma en que los delincuentes violan la ley más que nunca antes las agencias de aplicación de la ley debido a la falta de un mecanismo de colaboración eficiente. El proceso de investigación en el Departamento de Policía de Puerto Rico (PRPD) sigue varios pasos. El oficial de policía recibe una llamada y va al lugar donde ocurrió el incidente. Luego, él / ella obtiene información de la escena, hace arresta si es necesario y completa un informe. Un detective recibe el caso, lo revisa y hace un poco de investigación y entrevistas. Cuando corresponda, hay más detenciones y reservas y el caso está preparado para el juicio. La PRPD actualmente no tiene sistemas de información integrados, pero ya han comenzado la implementación de un sistema centralizado unidad de análisis. Después de recibir la llamada, el oficial de policía notifica a la oficina central de la PRPD, que también se encuentra en cargo de recibir llamadas de los ciudadanos. En la oficina central los oficiales son asignados a casos, los datos de incidentes criminales se ingresan en los sistemas de información disponibles y se almacenan en bases de datos, y se hacen referencias si la situación lo requiere.

El proceso de gestión de los incidentes criminales del PRPD depende del tipo del delito, cuando se comete un delito tradicional las llamadas se registran en la oficina central y luego se siguen los pasos que fueron anteriormente mencionados hasta llegar finalmente al juicio. Si ya el delito es catalogado como delito cibernético este es remitido a la Oficina Federal de Investigaciones (FBI), sin embargo el PRPD comenzó a implementar una unidad contra el cibercrimen. El proceso mediante el cual se recopila toda la información criminal que es usada por oficiales y detectives no tiene un sistema de integración y colaboración efectiva. Existes muchas bases de datos que se utilizan para este propósito que no están interconectadas, es por esto que es muy difícil lograr que los delincuentes sean llevados ante la justicia, esto como resultado de una información incompleta de tiempo crítico. La Figura 1 presenta el proceso de gestión de incidentes delictivos en la PRPD.

Figura 1. Proceso de gestión de incidentes penales en la PRPD.

En la aplicación de la ley así como también en muchas otras, la colaboración que existe entre los miembros del equipo los cuales están dinámicamente definidos y orientados a tareas juega un papel muy importante en las operaciones de la vida cotidiana. Para tener un proyecto de colaboración eficaz, es necesario contar con un sistema que recolecte y procese los datos de manera estandarizada para que cualquier agencia pueda recuperarlo y usarlo. En 1997 el Instituto Internacional de Justicia creó un proyecto el cual fue denominado con el nombre de COPLINK el cual es un sistema de intercambio local de información y otras agencias, en asociación con el Laboratorio de Inteligencia Artificial de la Universidad de Arizona. A través de este sistema, la información almacenada puede intercambiarse entre funcionarios y otras agencias de seguridad casi simultáneamente. COPLINK es un paquete de soluciones a nivel de línea táctico para el problema de la información inaccesible o irrecuperable resultante de sistemas dispares de información policial que carecen de un lenguaje o plataforma común.

Figura 2. Arquitectura del sistema Coplink.

El diseño de un almacén de datos (data warehouse) es a menudo un gran desafío para los desarrolladores. Esto afecta muchas áreas comerciales de la empresa que administran una gran carga de trabajo de miles de transacciones diarias. Un almacén de datos puede definirse como un repositorio de información integrada, para consultas y análisis disponibles. Esto quiere decir que son usados para almacenar datos para consultas que serán de gran ayuda para alguna empresa o negocio particular. Un almacén de datos proporciona una infraestructura la cual permite a las empresas extraer, limpiar y almacenar grandes cantidades de datos corporativos de los sistemas operativos para respuestas eficientes y precisas a las consultas de los usuarios. También capacita a los trabajadores del conocimiento con información que les permite poder tomar decisiones que están basadas en una base de hechos sólida.

Los almacenes de datos son sistemas de procesamiento analítico en línea (OLAP) los cuales son adecuados para poder responder preguntas que implican análisis, incluyendo la agregación, desglose y el corte/división de datos. Existen una gran cantidad de metodologías y herramientas de almacenamiento de datos disponibles para soportar la demanda creciente de estos sistemas. Las actividades de implementación del almacén de datos incluye el suministro de datos, la organización de datos (ETL) y el desarrollo de aplicaciones de usuario final el cual es orientado al soporte de decisiones. En lugar de partir de los requisitos, el desarrollo del almacén de datos deba ser conducido por datos. Los datos primero se recopilan, se integran y luego se prueban.

Existen múltiples enfoques para construir almacenes de datos. Hay muchas estrategias disponibles para poder diseñar la arquitectura del almacén de datos, que van desde el diseño de data warehouse para toda la empresa hasta el diseño de data mart. La organización debe determinar que enfoque es el más adecuado antes de adoptar una metodología. El diseño del centro de datos consta de varios mercados de datos departamentales o locales que se combinan en un almacén de datos. Es una implementación más rápida y fácil de piezas manejables con menos riesgo a presentar fallas. Los mercados de datos están destinados a diferentes tipos de información recopilada de las diferentes bases de datos utilizadas por las agencias de aplicación de la ley.

El sistema tendrá el nombre de Sistema de Apoyo a la Información Criminal (CISS). CISS podrá recopilar datos que se encuentran en diferentes bases de datos y consolidarlos en un único repositorio que podría ser consultado para encontrar patrones, correlaciones, información criminal e incidentes utilizando una sola herramienta. La PRPD tiene las siguientes bases de datos a las que solo se puede acceder en la oficina principal.

  1. Sistema CAD (Positron) para capturar incidentes en el servidor Microsoft SQL.
  2. Sistema separado para fotos policiales (fotos tomadas en el momento en que el tribunal encontró causas de arresto).
  3. Sistema de Análisis y Estadísticas (SAEC) para recopilar todos los incidentes principales como un diario en la base de datos MYSQL.
  4. Sistema de Detención de Incidentes (SADIC) para presentar al tribunal en la base de datos MYSQL.

Los siguientes pasos se deben realizar para preparar los perfiles de fuente de datos.

1. Identificación de fuentes de datos dentro y fuera de la organización y examen del formato de datos. La PRPD tiene ocho fuentes de datos relevantes.

  • POSITRON: format=SQL server
  • SAEC: format=MYSQL
  • SADIC: format=MYSQL
  • DRUGS: format=MYSQL (En construcción)
  • WEAPON REGISTRY: format=SQL Server
  • MUGSHOT: format=SQL Server
  • VEHICLE: format=SQL Server
  • SEXUAL OFFENDERS: format=SQL Server

2. Ubicación de los datos de interés: Los datos en estas fuentes de datos tienen una sintaxis similar y son compatibles. Este paso es necesario para identificar similitudes entre los tipos de datos, valores perdidos y valores con tipos de datos inconsistentes. Se tiene que preparar un modelo conceptual de datos para verificar los hechos y las dimensiones, y para diseñar el esquema de data mart que se adapte mejor al almacén de datos. Los hechos representan datos cuantitativos sobre una transacción de entidad comercial que es un evento para el cual necesitamos capturar y almacenar datos. Los datos fácticos son más estables que los datos dimensionales porque los datos dimensionales cambian con más frecuencia durante un período de tiempo que los datos objetivos.

Figura 3. Proceso de colaboración en una agencia de aplicación de la ley

El modelo de Área de transición frecuentemente denominado modelo de Extracción-Transformación-Carga (ETL), se utiliza para extraer datos de los sistemas fuente y transformar diferentes estándares de datos fuente en uno solo. Se considera el núcleo del proyecto de almacenamiento de datos porque la efectividad del almacén de datos que está listo para trabajar con una herramienta de soporte de decisión depende de qué tan buena sea la estandarización de datos. La puesta en escena es necesaria para hacer cumplir la calidad de los datos y los estándares consistentes para la integración de datos de manera que las fuentes separadas puedan usarse juntas y cargar los datos de manera exitosa en mercados de datos.

Azhar sugiere el uso de perfiles de datos para realizar el examen, ya que representa un examen sistemático de los contenidos, la estructura y la calidad de una fuente de datos. Según lo propuesto por Azhar utilizaremos los siguientes pasos: (1) extracción y transformación, (2) validación, filtrado y correcciones, e (3) integración, que se dirige a los mismos tipos de datos, así como a diferentes tipos de datos.

La validación de datos, el filtrado y la integración son pasos importantes del proceso de estadificación. El objetivo de la validación es garantizar la calidad de los datos y corregir errores, omisiones o imprecisiones antes de cargar los datos cargados en los mercados de datos.

Los registros defectuosos se corrigen antes de pasar al siguiente registro. Este proceso tiene que seguir algunas reglas adicionales para el filtrado preciso de datos delictivos provenientes de cada fuente de datos justo después de que se realicen los procesos de validación de los datos, filtrado e integración. El propósito de la integración de datos es reunir datos de diferentes fuentes de acuerdo con el área temática. Es importante señalar que para este proyecto este proceso debe realizarse en tiempo real porque los datos delictivos se actualizan cada hora.

Después del proceso de integración, los datos deben adaptarse al esquema de data mart seleccionado, el mejor enfoque para el diseño del esquema es el esquema de estrellas. Este esquema es un modelo dimensional compuesto por una tabla central de hechos y un conjunto de tablas de dimensiones circundantes. Una tabla de hechos es una relación especializada con una clave de atributos múltiples y contiene atributos cuyos valores por lo general son numéricos y aditivos. Una tabla de dimensiones tiene una sola clave primaria de atributo que corresponde a uno de los atributos de la clave de atributos múltiples de la tabla de hechos.

Se creó un prototipo de la plataforma de datos utilizando MYSQL el cual se usa para verificar el marco de los metadatos. Los metadatos se utilizan como parte del proceso de extracción y carga de datos para mapear las fuentes de datos a la vista común de su información dentro del mercado de datos. Se utiliza como parte del proceso de gestión de consultas para dirigir una consulta a la fuente de datos respectiva.

Estos son los principales criterios de diseño considerados para el proyecto CISS que están adaptados de aquellos considerados para COPLINK.

El almacenamiento de datos es una alternativa valiosa a los enfoques tradicionales para integrar y acceder a los datos de fuentes de informaciones autónomas y heterogéneas. El enfoque de almacenamiento es particularmente útil cuando se desea un alto rendimiento de consulta, o cuando las fuentes de información suelen ser costosas o transitorias. El sistema de depósito de datos propuesto tiene como objetivo poder integrar diferentes fuentes de datos que contienen grandes cantidades de datos delictivos, al mismo tiempo mejora la colaboración y el intercambio de información entre los departamentos de policía dentro de Puerto Rico con los Estados Unidos. Como resultado, se tendrá un sistema el cual les permitirá promover el intercambio de información entre las fuentes de información de las diferentes agencias, y para capturar las conexiones entre personas, lugares, eventos y vehículos, sobre la base de datos históricos. Los siguientes son planes futuros derivados del análisis del sistema propuesto.

  1. Conectar el almacén de datos a un sistema de soporte de decisiones para rastrear patrones, correlaciones y agrupamiento.
  2. Diseñe una aplicación de página web que sea fácil de usar para cada empleado, civil u oficial, para administrar de manera eficiente la búsqueda de información criminal.
  3. Explorar el desarrollo de enfoques de minería textual que respalden la recuperación de conocimiento de dichas fuentes para informes de casos de aplicación de la ley.
  4. La adición de un sistema integrado de base de datos multimedia para promover el intercambio de información conectado a herramientas analíticas en línea para el análisis de la inteligencia criminal.

El análisis de red es importante para comprender la estructura y la organización de las empresas delictivas. Se necesitan técnicas y herramientas avanzadas y automatizadas para extraer el conocimiento sobre redes delictivas de manera eficiente y efectiva. Este enfoque constituye un primer paso hacia este objetivo, debido a que la tecnología de almacenamiento de datos incluye herramientas OLAP que son adecuadas para extracciones y análisis avanzados. En el contexto de la investigación del delito cibernético, este sistema se puede aplicar de manera efectiva para examinar los patrones de uso de Internet, el reconocimiento de los estilos de escritura en los mensajes de correo electrónico, entre otros. Lo que faltaría es poder adaptar las leyes reales y las sentencias de enjuiciamiento para dar cuenta de la validez de la investigación del delito cibernético que puede dar lugar a más aprehensiones y encarcelamientos de dichos delincuentes. Finalmente, la evaluación de estas aplicaciones de gestión del conocimiento y análisis de inteligencia demuestran todo el potencial que tienen para transformar las prácticas de aplicación de la ley en esta era de gobiernos digitales.

Figura 4. Arquitectura sugerida para el almacén de datos propuesto para CISS

Referencias Bibliográficas y Fuente de las imágenes:

  1. Sitio Web: https://libra.unine.ch/export/DL/Fabrizio_Albertetti/18540.pdf
  2. Sitio Web: http://iacis.org/iis/2011/445-454_AL2011_1745.pdf

Espero que hayan disfrutado del contenido, hasta la próxima.