Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

dc.audienceComunidad Universidad de Medellínspa
dc.contributor.authorAmón, Iván
dc.contributor.authorMoreno, Francisco
dc.contributor.authorEcheverri, Jaime
dc.date.accessioned2014-10-22T23:25:51Z
dc.date.available2014-10-22T23:25:51Z
dc.date.issued2012-06-30
dc.description.abstractCon frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.spa
dc.format.mediumElectrónicospa
dc.format.mimetypeapplication/pdf
dc.identifier.eissn2248-4094
dc.identifier.instnameinstname:Universidad de Medellínspa
dc.identifier.issn1692-3324
dc.identifier.reponamereponame:Repositorio Institucional Universidad de Medellínspa
dc.identifier.repourlrepourl:https://repository.udem.edu.co/
dc.identifier.urihttp://hdl.handle.net/11407/943
dc.language.isospa
dc.publisherUniversidad de Medellínspa
dc.publisher.facultyFacultad de Ingenieríasspa
dc.publisher.placeMedellínspa
dc.relation.ispartofjournalRevista Ingenierías Universidad de Medellínspa
dc.relation.urihttp://revistas.udem.edu.co/index.php/ingenierias/article/view/671
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.creativecommonsAttribution-NonCommercial-ShareAlike 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/*
dc.sourceRevista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012)spa
dc.source2248-4094spa
dc.source1692-3324spa
dc.subjectLimpieza de datosspa
dc.subjectcalidad de datosspa
dc.subjectdetección de duplicadosspa
dc.subjectfunciones de similitudspa
dc.subjectalgoritmos fonéticos.spa
dc.titleAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma españolspa
dc.typeArticle
dc.type.coarhttp://purl.org/coar/resource_type/c_6501
dc.type.driverinfo:eu-repo/semantics/article
dc.type.localArtículo científicospa
dc.type.versioninfo:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
Articulo.html
Tamaño:
574 B
Formato:
Hypertext Markup Language
Cargando...
Miniatura
Nombre:
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf
Tamaño:
367.86 KB
Formato:
Adobe Portable Document Format
Descripción:
Texto completo