Preprocessament de dades

El preprocessament de dades pot referir-se a la manipulació, filtració o augment de dades abans d'analitzar-les,^[1] i sovint és un pas important en el procés de mineria de dades. Els mètodes de recollida de dades sovint es controlen de manera fluixa, donant lloc a valors fora de rang, combinacions de dades impossibles i valors que falten, entre altres problemes. El preprocessament és el procés pel qual les dades no estructurades es transformen en representacions intel·ligibles adequades per als models d'aprenentatge automàtic. Aquesta fase del model tracta el soroll per tal d'arribar a millors i millors resultats a partir del conjunt de dades original que era sorollós. Aquest conjunt de dades també té algun nivell de valor perdut present.

El pipeline de preprocessament utilitzat sovint pot tenir grans efectes en les conclusions extretes de l'anàlisi aigües avall. Per tant, és necessària la representació i la qualitat de les dades abans d'executar qualsevol anàlisi. Sovint, el preprocessament de dades és la fase més important d'un projecte d'aprenentatge automàtic, especialment en biologia computacional.^[2] Si hi ha una gran proporció d'informació irrellevant i redundant present o dades sorolloses i poc fiables, el descobriment del coneixement durant la fase d'entrenament pot ser més difícil. Els passos de preparació i filtratge de dades poden requerir un temps de processament considerable. Alguns exemples de mètodes utilitzats en el preprocessament de dades inclouen la neteja, la selecció d'instàncies, la normalització, la codificació en calent, la transformació de dades, l'extracció de característiques i la selecció de característiques.

Aplicacions

Mineria de dades

El preprocessament de dades permet l'eliminació de dades no desitjades amb l'ús de la neteja de dades, això permet a l'usuari disposar d'un conjunt de dades per contenir informació més valuosa després de l'etapa de preprocessament per a la manipulació de dades més endavant en el procés de mineria de dades. L'edició d'aquest conjunt de dades per corregir la corrupció de dades o l'error humà és un pas crucial per obtenir quantificadors precisos com els veritables positius, els veritables negatius, els falsos positius i els falsos negatius que es troben en una matriu de confusió que s'utilitzen habitualment per a un diagnòstic mèdic. Els usuaris poden unir fitxers de dades i utilitzar el preprocessament per filtrar qualsevol soroll innecessari de les dades que permeti una major precisió. Els usuaris utilitzen scripts de programació Python acompanyats de la biblioteca pandas, que els ofereix la possibilitat d'importar dades des de valors separats per comes com a marc de dades. A continuació, el marc de dades s'utilitza per manipular dades que d'una altra manera poden ser difícils de fer a Excel. Pandas (programari) que és una potent eina que permet l'anàlisi i la manipulació de dades; que fa que les visualitzacions de dades, les operacions estadístiques i molt més siguin molt més fàcils. Molts també utilitzen el llenguatge de programació R per fer aquestes tasques també.

El motiu pel qual un usuari transforma els fitxers existents en un de nou és per molts motius. Els aspectes del preprocessament de dades poden incloure la imputació de valors que falten, l'agregació de quantitats numèriques i la transformació de dades contínues en categories (binning de dades).^[3] Tècniques més avançades com l'anàlisi de components principals i la selecció de característiques funcionen amb fórmules estadístiques i s'apliquen a conjunts de dades complexos que s'enregistren mitjançant rastrejadors GPS i dispositius de captura de moviment.

Preprocessament semàntic de dades

La mineria de dades semàntica és un subconjunt de mineria de dades que busca específicament incorporar el coneixement del domini, com ara la semàntica formal, al procés de mineria de dades. El coneixement del domini és el coneixement de l'entorn on es van processar les dades. El coneixement del domini pot tenir una influència positiva en molts aspectes de la mineria de dades, com ara filtrar dades redundants o inconsistents durant la fase de preprocessament.^[4] El coneixement del domini també funciona com a restricció. Ho fa utilitzant el treball com a conjunt de coneixements previs per reduir l'espai necessari per a la cerca i actuant com a guia de les dades. En poques paraules, el preprocessament semàntic busca filtrar les dades utilitzant l'entorn original d'aquestes dades de manera més correcta i eficient.

Hi ha problemes cada cop més complexos que demanen ser resolts amb tècniques més elaborades per analitzar millor la informació existent. En lloc de crear un script senzill per agregar diferents valors numèrics en un sol valor, té sentit centrar-se en el preprocessament de dades basat en la semàntica. La idea és construir una ontologia dedicada, que expliqui a un nivell superior de què tracta el problema. Pel que fa a la mineria de dades semàntiques i al preprocessament semàntic, les ontologies són una manera de conceptualitzar i definir formalment el coneixement i les dades semàntiques. El Protégé (programari) és l'eina estàndard per construir una ontologia. En general, l'ús d'ontologies crea un pont entre les dades, les aplicacions, els algorismes i els resultats que es produeixen per desajustos semàntics. Com a resultat, la mineria de dades semàntica combinada amb l'ontologia té moltes aplicacions on l'ambigüitat semàntica pot afectar la utilitat i l'eficiència dels sistemes de dades. Les aplicacions inclouen l'àmbit mèdic, el processament del llenguatge, la banca,^[5] i fins i tot la tutoria,^[6] entre moltes més.

Hi ha diversos punts forts per utilitzar una mineria de dades semàntiques i un enfocament ontològic. Com s'ha esmentat anteriorment, aquestes eines poden ajudar durant la fase de processament filtrant les dades no desitjables del conjunt de dades. A més, una semàntica formal ben estructurada integrada en ontologies ben dissenyades pot retornar dades potents que les màquines poden llegir i processar fàcilment.^[4] Un exemple especialment útil d'això existeix en l'ús mèdic del processament de dades semàntiques. Com a exemple, un pacient té una emergència mèdica i és traslladat d'urgència a l'hospital. Els serveis d'emergència intenten d'esbrinar el millor medicament per administrar per ajudar el pacient. Amb el processament normal de les dades, l'exploració de totes les dades mèdiques del pacient per assegurar-se que reben el millor tractament podria trigar massa i posar en perill la salut o fins i tot la vida dels pacients. Tanmateix, utilitzant ontologies processades semànticament, els primers responsables podrien salvar la vida del pacient. Eines com un raonador semàntic poden utilitzar l'ontologia per inferir quin millor medicament per administrar al pacient es basa en el seu historial mèdic, com ara si té un cert càncer o altres afeccions, simplement examinant el llenguatge natural utilitzat en els registres mèdics del pacient.^[7] Això permetria als primers que responguessin buscar medicaments de manera ràpida i eficaç sense haver de preocupar-se ells mateixos de la història clínica del pacient, ja que el raonador semàntic ja hauria analitzat aquestes dades i trobat solucions. En general, això il·lustra la força increïble de l'ús de mineria de dades semàntiques i ontologies. Permeten una extracció de dades més ràpida i eficient per part de l'usuari, ja que l'usuari té menys variables per tenir en compte, ja que les dades preprocessades semànticament i l'ontologia creada per a les dades ja han comptabilitzat moltes d'aquestes variables. Tanmateix, aquest enfocament té alguns inconvenients. És a dir, requereix una gran quantitat de potència computacional i complexitat, fins i tot amb conjunts de dades relativament petits.^[8] Això podria comportar costos més elevats i majors dificultats per construir i mantenir sistemes de processament de dades semàntiques. Això es pot mitigar una mica si el conjunt de dades ja està ben organitzat i format, però tot i així, la complexitat encara és més gran en comparació amb el processament de dades estàndard.

Es mostra un diagrama senzill que combina alguns dels processos, en particular la mineria de dades semàntiques i el seu ús en ontologia.

El diagrama representa un conjunt de dades que es divideix en dues parts: les característiques del seu domini, o coneixement del domini, i després les dades reals adquirides. Aleshores, les característiques del domini es processen per convertir-se en un coneixement del domini comprensible per l'usuari que es pot aplicar a les dades. Mentrestant, el conjunt de dades es processa i s'emmagatzema perquè el coneixement del domini s'hi pugui aplicar, de manera que el procés pugui continuar. Aquesta aplicació forma l'ontologia. A partir d'aquí, l'ontologia es pot utilitzar per analitzar dades i processar els resultats.

El preprocessament difuso és una altra tècnica més avançada per resoldre problemes complexos. El preprocessament difuso i la mineria de dades difuses fan ús de conjunts difusos. Aquests conjunts de dades es componen de dos elements: un conjunt i una funció de pertinença per al conjunt que comprèn 0 i 1. El preprocessament difuso utilitza aquest conjunt de dades difuses per fonamentar els valors numèrics amb informació lingüística. Les dades en brut es transformen després en llenguatge natural. En definitiva, l'objectiu de la mineria de dades difuses és ajudar a tractar informació inexacta, com ara una base de dades incompleta. Actualment, el preprocessament difuso, així com altres tècniques de mineria de dades basades en difuses, s'utilitzen freqüentment amb xarxes neuronals i intel·ligència artificial.^[9]

Referències

↑ «Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data» (en anglès americà). Tableau. [Consulta: 17 octubre 2021].
↑ BioData Mining, 10, 35, 12-2017, p. 35. DOI: 10.1186/s13040-017-0155-3. PMC: 5721660. PMID: 29234465 [Consulta: free].
↑ Hastie, Trevor. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (en anglès). Springer, 2009. ISBN 978-0-387-84884-6.
1 2 Dou, Deijing and Wang, Hao and Liu, Haishan. «Semantic Data Mining: A Survey of Ontology-based Approaches» (en anglès americà). University of Oregon.
↑ Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele. «Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model». A: 2020 IEEE 22nd Conference on Business Informatics (CBI) (en anglès). IEEE, 2020, p. 66–75. DOI 10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9.
↑ Chang, Maiga; D'Aniello, Giuseppe; Gaeta, Matteo; Orciuoli, Francesco; Sampson, Demetrois IEEE Access, 8, 2020, p. 48151–48162. Bibcode: 2020IEEEA...848151C. DOI: 10.1109/ACCESS.2020.2979281 [Consulta: free].
↑ Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin. «AN ONTOLOGICAL APPROACH TO DATA MINING FOR EMERGENCY MEDICINE» (en anglès). University of Waterloo.
↑ Sirichanya, Chanmee and Kraisak Kesorn (en anglès) International Journal of Intelligent Systems, 36, 8, 2021, p. 3880–3916. DOI: 10.1002/int.22443 [Consulta: free].
↑ Wong, Kok Wai and Fung, Chun Che and Law, Kok Way. «Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model». A: 2000 TENCON Proceedings. Intelligent Systems and Technologies for the New Millennium (Cat. No.00CH37119) (en anglès). 1. IEEE, 2000, p. 400–405. DOI 10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8.

[1] «Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data» (en anglès americà). Tableau. [Consulta: 17 octubre 2021].

[2] BioData Mining, 10, 35, 12-2017, p. 35. DOI: 10.1186/s13040-017-0155-3. PMC: 5721660. PMID: 29234465 [Consulta: free].

[3] Hastie, Trevor. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (en anglès). Springer, 2009. ISBN 978-0-387-84884-6.

[ix-4] 1 2 Dou, Deijing and Wang, Hao and Liu, Haishan. «Semantic Data Mining: A Survey of Ontology-based Approaches» (en anglès americà). University of Oregon.

[5] Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele. «Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model». A: 2020 IEEE 22nd Conference on Business Informatics (CBI) (en anglès). IEEE, 2020, p. 66–75. DOI 10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9.

[6] Chang, Maiga; D'Aniello, Giuseppe; Gaeta, Matteo; Orciuoli, Francesco; Sampson, Demetrois IEEE Access, 8, 2020, p. 48151–48162. Bibcode: 2020IEEEA...848151C. DOI: 10.1109/ACCESS.2020.2979281 [Consulta: free].

[7] Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin. «AN ONTOLOGICAL APPROACH TO DATA MINING FOR EMERGENCY MEDICINE» (en anglès). University of Waterloo.

[8] Sirichanya, Chanmee and Kraisak Kesorn (en anglès) International Journal of Intelligent Systems, 36, 8, 2021, p. 3880–3916. DOI: 10.1002/int.22443 [Consulta: free].

[9] Wong, Kok Wai and Fung, Chun Che and Law, Kok Way. «Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model». A: 2000 TENCON Proceedings. Intelligent Systems and Technologies for the New Millennium (Cat. No.00CH37119) (en anglès). 1. IEEE, 2000, p. 400–405. DOI 10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]