Normalización e identificación de objetos duplicados sobre contenido extraído de la web
Material type:
Item type | Home library | Collection | Call number | URL | Status | Date due | Barcode | |
---|---|---|---|---|---|---|---|---|
![]() |
Biblioteca de la Facultad de Informática | TES 24/04 (Browse shelf(Opens below)) | Available | DIF-05326 | ||||
![]() |
Biblioteca de la Facultad de Informática | Biblioteca digital | Link to resource | No corresponde | ||||
![]() |
Biblioteca de la Facultad de Informática | Biblioteca digital | Link to resource | No corresponde |
Tesina (Licenciatura en Sistemas) - Universidad Nacional de La Plata. Facultad de Informática, 2024.
1. Introducción -- 1.1. Buscando objetos en la web -- 1.2. ¿Por que extraer objetos? -- 1.3. El desafío al extraer objetos -- 1.4. Objetivos y aportes de la tesina -- 1.5. Organización de este documento -- 2. Antecedentes y contexto -- 2.1. Extracción de objetos de la web -- 2.2. Calidad de los datos -- 2.3. Integración de datos -- 2.4. Limpieza de datos y detección de duplicados -- 2.4.1. Identificando duplicados -- 3. Estrategia general -- 3.1. Framework de normalización de objetos -- 3.2. Framework de tratamiento de duplicados -- 4. Framework de normalización de objetos -- 4.1. Diseño general -- 4.2. Utilización del framework -- 4.2.1. Creando un nuevo normalizador -- 4.2.2. Configurando la aplicación moralizadora -- 5. Framework de tratamiento de duplicados -- 5.1. Diseño general -- 5.2. Utilización del framework -- 5.2.1. Extendiendo el framework -- 5.2.2. Configurando la aplicación normalizadora -- 6. Evaluación -- 6.1. Selección de los participantes -- 6.2. Entrenamiento de los participantes -- 6.3. Preparación de la prueba -- 6.3.1. Cuestionario -- 6.4. Resultados -- 6.4.1. Análisis del cuestionario -- 7. Conclusiones y trabajo futuro -- 7.1. Conclusiones -- 7.2. Trabajo futuro -- Apéndice -- A. Información y enlaces de utilidad