Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Amón, Iván; Moreno, Francisco; Echeverri, Jaime

Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

dc.audience	Comunidad Universidad de Medellín	spa
dc.contributor.author	Amón, Iván
dc.contributor.author	Moreno, Francisco
dc.contributor.author	Echeverri, Jaime
dc.date.accessioned	2014-10-22T23:25:51Z
dc.date.available	2014-10-22T23:25:51Z
dc.date.issued	2012-06-30
dc.description.abstract	Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.	spa
dc.format.medium	Electrónico	spa
dc.format.mimetype	application/pdf
dc.identifier.eissn	2248-4094
dc.identifier.instname	instname:Universidad de Medellín	spa
dc.identifier.issn	1692-3324
dc.identifier.reponame	reponame:Repositorio Institucional Universidad de Medellín	spa
dc.identifier.repourl	repourl:https://repository.udem.edu.co/
dc.identifier.uri	https://hdl.handle.net/11407/943
dc.language.iso	spa
dc.publisher	Universidad de Medellín	spa
dc.publisher.faculty	Facultad de Ingenierías	spa
dc.publisher.place	Medellín	spa
dc.relation.ispartofjournal	Revista Ingenierías Universidad de Medellín	spa
dc.relation.uri	http://revistas.udem.edu.co/index.php/ingenierias/article/view/671
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.creativecommons	Attribution-NonCommercial-ShareAlike 4.0 International
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.source	Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012)	spa
dc.source	2248-4094	spa
dc.source	1692-3324	spa
dc.subject	Limpieza de datos	spa
dc.subject	calidad de datos	spa
dc.subject	detección de duplicados	spa
dc.subject	funciones de similitud	spa
dc.subject	algoritmos fonéticos.	spa
dc.title	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español	spa
dc.type	Article
dc.type.coar	http://purl.org/coar/resource_type/c_6501
dc.type.driver	info:eu-repo/semantics/article
dc.type.local	Artículo científico	spa
dc.type.version	info:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 2 de 2

Nombre:: Articulo.html
Tamaño:: 574 B
Formato:: Hypertext Markup Language

Descargar

Nombre:: Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf
Tamaño:: 367.86 KB
Formato:: Adobe Portable Document Format
Descripción:: Texto completo

Descargar

Colecciones

Revista Ingenierías Universidad de Medellín Vol. 11, núm. 20 (2012)