Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Amón, Iván; Moreno, Francisco; Echeverri, Jaime

Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Archivos

Articulo.html (574 B)

Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf (367.86 KB)

Compartir

Fecha

2012-06-30

Autores

Amón, Iván

Moreno, Francisco

Echeverri, Jaime

Editor

Universidad de Medellín

Documentos PDF

Resumen

Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.

Palabras clave

Limpieza de datos, calidad de datos, detección de duplicados, funciones de similitud, algoritmos fonéticos.

URI

https://hdl.handle.net/11407/943

Colecciones

Revista Ingenierías Universidad de Medellín Vol. 11, núm. 20 (2012)

Página completa del ítem

Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Archivos

Compartir

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones

Aprobación

Revisión

Complementado por

Referenciado por