Il mining di sequenze è un tipo di data mining strutturato in cui il database e l’amministratore cercano sequenze o tendenze nei dati. Questo data mining è suddiviso in due campi. L’estrazione di sequenze di elementi viene in genere utilizzata nel marketing e l’estrazione di sequenze di stringhe viene utilizzata nella ricerca in biologia. Il mining di sequenze è diverso dal normale trend mining, perché i dati sono più specifici, il che rende difficile la creazione di un database efficace per i progettisti di database e a volte può andare storto se la sequenza è diversa dalla sequenza comune.
Prima o poi, tutti i database vengono utilizzati per estrarre i dati. Questo mining aiuta le aziende e le parti di ricerca a trovare qualcosa di cui hanno bisogno. Di solito, cercano una sorta di tendenza, ma quale sia questa tendenza e quanto specifiche siano le informazioni dipenderà dalla progettazione del database. Nell’estrazione di sequenze, il database è costruito per trovare sequenze molto specifiche, con variazioni minime o nulle. Questa è una forma unica di data mining strutturato in cui il database cerca somiglianze attraverso i dati strutturati.
L’estrazione in sequenza può essere suddivisa in due categorie. L’estrazione di oggetti viene utilizzata nel marketing e negli affari per trovare tendenze specifiche nei numeri di vendita, nei tipi di prodotto, nel posizionamento del prodotto in un negozio e nell’uso di un prodotto. Queste cifre vengono prese e applicate agli algoritmi di marketing per aiutare a definire la strategia di un progetto di marketing e rafforzare le vendite. Le informazioni su un prodotto e su come funziona in genere vengono prese dal database, ma l’aspetto che definisce l’estrazione di sequenze di elementi è che la sequenza viene presa da celle di database con più simboli.
L’estrazione di stringhe è l’opposto dell’estrazione di elementi perché esamina ogni simbolo individualmente anziché come un cluster. Nell’estrazione di stringhe, il database potrebbe essere impostato per trovare una sequenza da una fonte proteica o da campioni di geni. Questo aiuta a confrontare molti campioni di geni per vedere se sono gli stessi o per scomporre grandi sequenze e trovare quali sequenze contengono. Per lo più i team di ricerca biologica e medica lo usano.
La creazione di un database per il sequence mining può essere difficile perché, a differenza del trend mining e di altri data mining strutturati, le sequenze devono corrispondere in modo specifico l’una all’altra. Questo porta anche al problema del mining per le sequenze. Se la sequenza è diversa, non verrà riconosciuta, il che potrebbe rendere più difficile l’estrazione di oggetti. L’estrazione di stringhe in genere ne beneficia, perché la minima differenza in un campione di tessuto potrebbe rendere l’organismo – o qualunque cosa il team di ricerca stia ricercando – completamente distinto dagli altri campioni.