¿Qué es la minería de estructuras?

La minería de estructuras es un tipo de minería de datos en la que se escanea una fuente de datos semiestructurada y se descubren y resaltan elementos de su estructura. Una fuente de datos semiestructurada es aquella que no utiliza la estructura de base de datos tradicional de tablas, pero tiene un elemento semántico que separa la información mediante etiquetas y marcadores. La minería de estructuras se puede utilizar para minar bases de datos, sitios web y muchas otras formas de información informática para descubrir elementos de la estructura. Ayuda a los usuarios a comprender cómo interactúan las piezas entre sí o cómo encontrar información en determinadas etiquetas. Esta minería también se puede utilizar para predecir qué es un elemento, según las reglas escritas por el usuario.

Hay muchos tipos diferentes de minería de datos, y la mayoría están relacionados con la minería de una fuente estructurada tradicionalmente. Esto incluye cualquier fuente que utilice tablas y nodos típicos de la mayoría de las bases de datos. En la minería de estructuras, solo se utilizan datos semiestructurados. En este caso, los datos provienen de sitios web o bases de datos simples que tienen una estructura que no se ajusta a las reglas tradicionales de las bases de datos. Los datos necesitan etiquetas o marcadores que distinguen a cada elemento para que se extraiga correctamente.

Al leer el conjunto de datos semiestructurados, la minería de estructuras puede descubrir cómo interactúa la estructura. Por ejemplo, cada sitio web tiene un modelo de navegación, y es este modelo el que determina cómo interactúan las páginas. Al extraer la estructura, el usuario puede descubrir cómo funciona esta navegación, lo que puede ayudar a crear un esquema de navegación similar.

La minería de estructuras también se puede utilizar para encontrar elementos escribiendo reglas en el programa de minería. Por ejemplo, si hay un conjunto de datos de libros, el usuario puede escribir una regla según la cual los libros sin índice deben regresar como ficción y los que tienen un índice deben regresar como no ficción. La mayoría de los libros de ficción carecen de índice, por lo que esta regla predecirá con gran precisión cuáles son los datos. Esto ayuda a los usuarios cuando miran un conjunto semiestructurado que tiene un método de organización pero no uno que se ajusta a lo que el usuario está buscando.

Después de averiguar la estructura de la unidad semiestructurada, el usuario normalmente la comparará con otra unidad semiestructurada. Si el usuario tiene un sitio web comercial, puede buscar en otro sitio web comercial para la navegación y los enlaces, y ver en qué se parece su sitio web. Al comparar la información extraída, el usuario puede encontrar formas de aumentar la eficiencia de la estructura.