Es un hecho común, hasta ahora, que las empresas generen -como resultado de sus operaciones- enormes volúmenes de datos, pero, a fin de cuentas, producen muy poca información utilizable y concreta. De forma semejante a un minero que busca incansablemente dentro de un gran depósito geológico el escaso metal precioso, el trabajo incesante del Data Mining permite encontrar la minúscula pepita útil de información en una montaña de escoria informativa.
Sintéticamente, el Data Mining es el proceso de examinar exhaustiva y minuciosamente inmensas cantidades de datos a fin de identificar, extraer y descubrir nuevos conocimientos, de forma automática y en un período de tiempo relativamente corto. En otras palabras, es el proceso -asistido por computadora- de encontrar información relevante, clave y difícil de obtener (como correlaciones, tendencias, patrones, regularidades o modelos), a menudo oculta y sepultada en grandes volúmenes de datos. Al permitir analizar la información desde diferentes perspectivas y al hacerla comprensible, los analistas a menudo descubren patrones e identifican tendencias que no han visto antes, relaciones que ni siquiera saben que existen e incluso que nunca hubieran pensado que existieran. Al combinar elementos derivados de los datos con otros elementos humanos (como intuición, corazonada u olfato), se cuenta con una mayor variedad de opciones para tomar mejores decisiones.
Típicamente, el proceso de búsqueda del Data Mining es interactivo (una búsqueda para probar hipótesis), aunque también puede llevarse a cabo automáticamente por el sistema (un dragado de datos crudos para descubrir interrelaciones y conexiones). Una vez terminado el proceso de búsqueda, el sistema de Data Mining representa sus reportes en forma de una gráfica tridimensional (o incluso con un cierto grado de multidimensionalidad) que puede ser rotada, manipulada y visualizada desde cualquier ángulo. Más tarde los analistas deberán interpretar y examinar estos resultados y tomar las acciones necesarias basadas en aquellos descubrimientos, por ejemplo, elaborando un nuevo conjunto de preguntas para reforzar la búsqueda o algún aspecto de los descubrimientos.
A fin de que su aplicación sea útil, las correlaciones encontradas deben ser tan poco obvias que parezcan ilógicas, irracionales, casi sin sentido. Por ejemplo, que "la mayoría de los que compraron un determinado tipo de tabla de surf posiblemente veraneen este año en Nueva Zelanda", o que "el 76% de las veces que un cliente llevó gaseosa también compró detergente biodegradable", o que "tanto los desodorantes de hombre como los de mujer, se venden mejor juntos que separados, entre las 17:00 y las 19:00 del fin de semana, en las sucursales de la zona sur". Es muy poco probable que a alguna persona de marketing se le hubiera ocurrido comparar datos sobre la venta de estos productos, y éste es sólo un ejemplo de la enorme variedad de relaciones que el Data Mining es capaz de encontrar. Cuando el programa encuentra correlaciones interesantes, los traduce en gráficos simples, permitiéndoles a los gerentes tomar decisiones más racionales, y no sólo basadas en la intuición. No obstante, el Data Mining ayuda a confirmar un presentimiento o a desmentir una creencia: en un ejercicio netamente colaborativo, el ser humano sugiere las ideas (hipótesis) y la máquina las confirma o las rechaza según la evidencia aportada por los datos.
El Data Mining se utiliza tanto en los negocios como en la ciencia. Desde la comprensión del comportamiento de los clientes hasta el análisis de las decisiones de expertos, desde la predicción de los posibles cambios en el mercado hasta el descubrimiento de patrones en el cuidado de la salud, desde la detección de fraudes en tarjetas de crédito hasta el descubrimiento de galaxias, desde la mejora de las promociones de ventas hasta la síntesis de drogas, el Data Mining tiene una enorme gama de aplicaciones.
Normalmente la información le llega a cada persona de una manera casi azarosa: cartas, conversaciones, artículos, e-mail o programas de radio o de TV. De forma similar, mucha información le llega así a las empresas: no desde un único canal ni de forma ordenada, sino como porciones desparramadas de información, arribando desde diferentes direcciones y que se almacenan en múltiples lugares. Este sistema sería eficaz si lo que se quiere es sólo guardar la información; pero si lo que se desea es disponer fácilmente de los datos en el momento preciso a fin de tomar las decisiones adecuadas, se hace imprescindible contar con un Data Warehouse (DW).
Como su nombre lo indica, el Data Warehouse actúa como un área de almacenamiento central (warehouse significa almacén) para la información. Pero no sólo es eso. Es también un organizador, un "purificador" y un "visualizador" de la información: un proceso que llena los "baches" encontrados en la mayoría de las bases de datos y provee un acceso sencillo, inteligible, simplificado y organizado a los datos.
El valor real del Data Warehouse es que suministra un depósito único y centralizado, con los datos -provenientes de diferentes departamentos de una misma empresa- depurados, consolidados e integrados, de forma tal que el analista pueda entenderlos y utilizarlos en el contexto de su negocio. Los Data Warehouses pueden variar en tamaño desde pequeñas compañías con docenas de gigabytes de datos hasta multinacionales con terabytes de datos.
Existe una importante sinergia entre Data Warehouse y Data Mining, debido a que éste último resulta mucho más efectivo cuando se corre contra el primero, ya que el Data Warehouse provee acceso a datos que abarcan a todo el ámbito corporativo. Asimismo, es esta correlación de datos diversos -un tipo de información que jamás se pensaría en comparar- lo que generalmente produce los hallazgos más interesantes.
Por último, un Data Marts (Mercado de Datos) es una versión más reducida de un Data Warehouse, a menudo conteniendo información específica de algún departamento, como marketing, finanzas o mantenimiento de la red. Idealmente, el Data Marts debería ser un subconjunto del Data Warehouse, a fin de mantener consistencia en las prácticas de administración de datos corporativos y para mantener la seguridad y la integridad de la información cruda que se está usando. Para las grandes compañías, el Data Marts usualmente contiene una docena de gigabytes de datos.
En el entorno corporativo fuertemente competitivo en el que están inmersas, las empresas necesitan rápidamente transformar los ingentes volúmenes de datos crudos en ideas significativas para guiar sus estrategias de marketing, investigación y management.
Es obvio que a un analista le tomaría varias vidas, por ejemplo, el examinar detalladamente y desde una perspectiva multidimensional las millones de transacciones diarias de una gran cadena de supermercados para encontrar patrones, regularidades o interrelaciones importantes. (No nos olvidemos que la mayoría de los humanos somos mejores detectando anomalías que infiriendo regularidades o relaciones en grandes conjuntos de datos.) Pero lo tiene que hacer. Afortunadamente, cuenta con estas modernas herramientas para extraer las tendencias tanto pasadas como futuras.
Sin embargo, es importante resaltar que no se realizan grandes hallazgos todos los días. Es necesario utilizar intensivamente las herramientas de Data Mining para descubrir información valiosa, ... por cierto muy escasa. Por eso el conjunto Data Mining-Data Warehouse, que es computacionalmente intensivo, puede beneficiarse con un hardware más poderoso. Incluso las computadoras paralelas aceleran el proceso de búsqueda ofreciendo la posibilidad de realizar múltiples preguntas simultáneas.
En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición y la experiencia del investigador le conduce a formular las hipótesis. Sin embargo, esta intuición resulta casi imposible de llevar a cabo cuando, en vez de observaciones aisladas y casuales, se analizan millones de datos de grandes bases. Es evidente que el proceso de complejidad creciente experimentado por la humanidad en los últimos tiempos supera a la mente de cualquier ser humano, escapa plenamente a su control. El considerable crecimiento de la información llega a obnubilar la mente, produce stress, sobrecarga la memoria, crea deficiencias en la atención y genera estados de inmovilidad. No obstante, las computadoras pueden manejar volúmenes de información infinitamente superiores a los que la mente humana puede dominar, considerando un número inhumanamente grande de variables simultáneas y haciéndolo más rápidamente de lo que jamás ningún ser humano podrá realizar.
Actualmente, el mejor uso del Data Mining es aquel en donde el analista formula las consultas específicas a fin de que el sistema convalide o desmienta las hipótesis según los datos. Sin embargo, la tecnología continuará automatizando cada vez más el proceso de decisión en sí mismo, haciendo que las futuras herramientas de descubrimiento detecten las relaciones y generen esencialmente las hipótesis.
Como último objetivo todavía lejano se intenta crear un sistema de descubrimiento de conocimiento de propósito general que, a medida que se vuelva más complejo, agregue sus propios aportes. A través del análisis cuidadoso, del examen meticuloso y de la asociación de datos sin una conexión obvia, podría ser capaz -por ejemplo- de descubrir nuevos tratamientos para enfermedades u originales ideas para explicar el origen del universo. Con respecto a este concepto, el futurólogo A. Toffler hace notar que la computadora puede sugerir soluciones imaginativas para ciertos problemas al descubrir relaciones nuevas o que hasta entonces habían pasado inadvertidas. Se podría pedir a la computadora que "piense lo impensable", que piense en lo que aun jamás ha sido pensado.
A nivel personal, y en poco tiempo más, el Data Mining puede volverse tan común y fácil usar como el e-mail. Podremos utilizar estas herramientas de forma masiva para analizar datos a gran escala y encontrar, por ejemplo, la mejor tarifa aérea a Cayo Largo, conseguir el número telefónico de un antiguo compañero de clase, o encontrar los precios más económicos de las bordeadoras de césped. El software se dará cuenta dónde buscar, cómo evaluar lo que encuentra y cuándo dejar de buscar. Nuestros ayudantes cognitivos pueden volverse tan indispensables como lo es ahora el teléfono.
7 de Noviembre 1999