Gil Leiva, Isidoro
La automatización de la indización, propuesta teórico-metodológica:
aplicación al área de biblioteconomía y documentación
Universidad de Murcia
Servicio de Publicaciones
Universidad de Murcia Agradecimientos/
A mis padres por suconfianza y apoyo sin peros
Universidad de Murcia Agradecimientos/
AGRADECIMIENTOS
Quiero agradecer a Javi, Gregorio y Pedro el apoyo que me hanprestado durante ellargo período en el que he llevado a cabo estetrabajo. Asimismo, quiero agradecera Vivina los continuos consejosy ánimos desde que inicié esta labor.
También doy las gracias a Yolanda, Juani, Pepita y Antonio porsuayuda.
Finalmente, agradezco a los doctores Rodríguez Muñoz y VeraLuján la dirección deesta tesis doctoral.
Has de saber que esta vida esel minúsculo chapoteode una gota deagua.
Una bella criatura que desapareceen el mismo momento
en que empieza a existir.Por lo tanto, márcate tu meta,
y aprovecha al máximo cada díay cada noche para alcanzarla.
Tsong-khapa
Universidad de Murcia Resumen/
RESUMEN
Se expone un marco conceptual sobre la automatización de laindización concretado
en su delimitación, los posicionamientos de los investigadoresen Biblioteconomía y
Documentación con respecto a estas indagaciones, el desarrollodiacrónico ocurrido
en esta automatización, y en la explicitación de lainterdisciplinariedad inherente a
este proceso. Se presenta una propuesta teórico-metodológicapara diseñar un
procedimiento semiautomático para la indización de documentossobre
Biblioteconomía y Documentación constituido por cuatro módulos.En los tres
primeros se preparan las fuentes utilizadas, se seleccionan lostérminos candidatos
a descriptores y se valoran y ponderan dichos términos, mientrasque en el cuarto
módulo el usuario ejecuta una validación y edición interactivade los resultados
propuestos. El sistema se fundamenta en el uso de un vocabulariocontrolado sobre
Biblioteconomía y Documentación construido para tal fin. Laconsistencia media
obtenida entre la indización de cincuenta artículos analizadospor indizadores de la
Base de datos ISOC y por nuestra propuesta es de 25,93%.
Universidad de Murcia Abstract/
ABSTRACT
A conceptual framework is described for the automatization ofindexing involving its
delimitation, the positioning of researchers in Library Scienceand Documentation
with respect to these investigations, the diachronousdevelopment that has occurred
in this automatization, and specifying the inherentinterdisciplinary nature of the
process. A theoretical-methodological proposal is presented todesign a semi-
automatic procedure for indexing Library Science andDocumentation documents. It
consists of four modules. In the first three modules, thesources to be used are
prepared, the terms to be candidates for descriptors are firstselected, and then
evaluated and assigned weights. In the fourth module the userinteractively edits and
convalidates the proposed results. The system is based on theuse of a controlled
Library Science and Documentation vocabulary constructed to thisend. The mean
consistency obtained for the indexing of 50 articles analyzed byISOC data base
indexers and by our proposal was 25.93%.
Universidad de Murcia Indice/
ÍNDICE
0.- INTRODUCCIÓN..................................................................................1
1. Aspectos formales.................................................................................12.Motivaciones..........................................................................................2
2.1 Motivacionescientíficas...............................................................22.2 Motivaciones personales............................................................. 3
3. Metodología...........................................................................................44.Objetivos..............................................................................................105. Estructuración ypresentación..............................................................11
1.- LA INDIZACIÓN.................................................................................14
1.1. El proceso documental.....................................................................14
1.2. Laindización.....................................................................................161.2.1. La indización.Definición........................................................161.2.2. Las etapas de la indización................................................... 191.2.3. Laszonas de extracción de los conceptos.Tiempo dedicado 20
1.3. Las características de la indización.................................................. 221.3.1. Laexhaustividad en laindización.......................................... 221.3.2. Laespecificidad en laindización........................................... 251.3.3. Lacorrección de la indización............................................... 251.3.4. Laconsistencia de la indización............................................ 26
1.4. La recuperación documental: Evaluación del resultado de larespuestadocumental..............................................................29
1.4.1. La exhaustividad y la precisión en la recuperación............... 31
1.5. Los sistemas de indización...............................................................341.5.1. La indización pormaterias.....................................................341.5.2. La indización porunitérminos................................................351.5.3. La indización pordescriptores............................................... 35
1.5.3.1. Los enlaces entre losdescriptores................................. 371.5.3.2. Losoperadores utilizados en las preguntasdocu-mentales......................................................................................401.5.3.3. Las características generales de los descriptores......... 42
1.6. Los lenguajes documentales............................................................421.6.1. La tipología de los lenguajesdocumentales.......................... 43
1.6.1.1. Las listas de palabras clave........................................... 441.6.1.2. Lasclasificaciones.........................................................441.6.1.3. Las listas de encabezamientos de materias.................. 45
Universidad de Murcia Indice/
1.6.1.4. Lostesauros...................................................................48
1.7. La normalización de la indización..................................................... 50
2.- LA AUTOMATIZACIÓN DE LA INDIZACIÓN.................................... 53
2.1. Introducción......................................................................................53
2.2. La indización humana versus indizaciónautomática........................ 542.2.1. Argumentaciones encontra de la automatización de la indi-zación..............................................................................................542.2.2. Argumentaciones a favor de la automatización de laindi-zación..............................................................................................57
2.3. El desarrollo diacrónico de la automatización de laindización ......... 602.3.1. Los métodosestadísticos......................................................612.3.2. Los métodos lingüísticos....................................................... 652.3.3. Eluso detesauros.................................................................742.3.4. El uso de sistemashíbridos...................................................762.3.5. La comparación de la eficacia de la indizaciónautomática
versus manual.......................................................................79
2.4. La interdisciplinariedad en la automatización de laindización.......... 812.4.1. Lingüística.............................................................................852.4.2. Terminología.........................................................................872.4.3.Informática.............................................................................882.4.4. Lingüística computacional..................................................... 892.4.5.Estadística.............................................................................902.4.6. Sistemasexpertos.................................................................91
2.5. La automatización de la indización para información notextual....... 92
2.6. El nivel de implantación de sistemas para la automatizaciónde la indización.................................................................................93
2.7. Esquema representativo de las herramientas utilizadas en laautomatización de la indización............................................... 98
3.- PROPUESTA TEÓRICO-METODOLÓGICA PARA LA AUTOMATI-ZACIÓN DE LAINDIZACIÓN EN EL ÁREA DE BIBLIOTECONOMÍAY DOCUMENTACIÓN...........................................................................100
3.1. Introducción....................................................................................100
3.2. La elección de las fuentes utilizadas en la automatizaciónde la indización....................................................... 101
Universidad de Murcia Indice/
3.2.1. Los antecedentes de estos estudios................................... 1013.2.2. Ensayo en las Basesde datos del CSIC............................. 103
3.2.2.1. Material ymétodos.......................................................1043.2.2.2. Resultados...................................................................1053.2.2.3.Conclusiones................................................................106
3.3. La elección de un vocabulariocontrolado....................................... 1073.3.1. Lajustificación de la elección de un vocabulario controlado1083.3.2.La elaboración de la lista de términos autorizados .............111
3.4. Propuesta para la automatización de laindización......................... 1153.4.1. Los módulos delsistema.....................................................117
3.4.1.1. Módulo 1: Preprocesamiento....................................... 1183.4.1.2. Módulo 2:Procesamiento ............................................1233.4.1.3. Módulo 3: Valoración yponderación............................ 132
3.4.2. Análisis de un documento en función de la propuestaprecedente.................................................1353.4.3. La evaluación de la propuesta............................................ 1493.4.4. Losproblemas detectados.................................................. 156
4.-CONCLUSIONES..............................................................................1575.-BIBLIOGRAFÍA.................................................................................1656.-ANEXOS............................................................................................191
Anexo 1:Glosario..........................................................................191Anexo 2: Definiciones sobreindización......................................... 195Anexo 3:Etapas en la indización.................................................. 197Anexo 4:Proceso íntegro de la indización.................................... 199Anexo 5: Palabrasvacías..............................................................200Anexo 7: Índices de consistenciaresultantes................................ 202Anexo 8: Vocabulariocontrolado...................................................220
Universidad de Murcia Index/
INDEX
0. INTRODUCTION...................................................................................1
1. Formal aspects......................................................................................12.Motivations.............................................................................................2
2.1 Scientificmotivations.................................................................22.2 Personal motivations.................................................................3
3. Methodology..........................................................................................44. Objectives............................................................................................105. Arrangement and presentation............................................................ 11
1. INDEXING...........................................................................................14
1.1 The documentary process.................................................................14
1.2 Indexing.............................................................................................161.2.1 Indexing.Definition...............................................................161.2.2. The stages of indexing........................................................ 191.2.3.The zones of extraction of concepts. Dedicated time..........20
1.3. The characteristics of indexing......................................................... 221.3.1.Completeness in indexing................................................... 221.3.2.Specificity in indexing.......................................................... 251.3.3.Correction of indexing......................................................... 251.3.4.Consistency of indexing...................................................... 26
1.4 Information retrieval: evaluation of the result of thedocumentaryresponse..................................................................................................29
1.4.1. Completeness and accuracy inretrieval.............................. 31
1.5. Indexing systems..............................................................................341.5.1. Indexing bysubject..............................................................341.5.2. Indexing by uniterms...........................................................351.5.3. Indexing by descriptors....................................................... 35
1.5.3.1. Links between descriptors..................................... 371.5.3.2. The operators usedin documentary questioning... 401.5.3.3. General characteristics ofthe descriptors.............. 42
1.6. Documentary languages...................................................................421.6.1. Typology of documentarylanguages................................... 43
1.6.1.1. Keywordlists..........................................................441.6.1.2.Classifications........................................................441.6.1.3. Subject-headinglists.............................................. 451.6.1.4.Thesauri.................................................................48
1.7. The normalization of indexing........................................................... 50
Universidad de Murcia Index/
2. THE AUTOMATIZATION OFINDEXING............................................. 53
2.1. Introduction.......................................................................................53
2.2. Human indexing versus automaticindexing...................................... 542.2.1. Argumentsagainst automatization of indexing.................... 542.2.2.Arguments in favour of automatization of indexing .............57
2.3. The diachronic development of the automatization ofindexing ........ 602.3.1. Statistical methods..............................................................612.3.2. Linguisticmethods...............................................................652.3.3. The use of thesauri.............................................................742.3.4. The use of hybrid systems.................................................. 762.3.5.Comparison of the efficacy of manual versus automaticindexing.........................................................................................79
2.4. Interdisciplinarity in the automatization ofindexing........................... 812.4.1.Linguistics............................................................................852.4.2.Terminology.........................................................................872.4.3. Computer science...............................................................882.4.5. Computationallinguistics.....................................................892.4.5. Statistics..............................................................................902.4.6. Expertsystems....................................................................91
2.5. The automatization of indexing for non-text information................... 92
2.6. The level of implantation of systems for the automatizationofindexing...................................................................................................93
2.7. Representative scheme of the tools used in theautomatization ofindexing...................................................................................................98
3. THEORETICAL-METHODOLOGICAL PROPOSAL FORTHE AUTOMATIZATION OFINDEXING IN THE AREA OFLIBRARY SCIENCE AND DOCUMENTATION..................................... 100
3.1 Introduction......................................................................................100
3.2. The choice of sources used in the automatization ofindexing ....... 1013.2.1. Antecedents of these studies............................................ 1013.2.2. Trial withCSIC data bases................................................103
3.2.2.1. Material and methods.......................................... 1043.2.2.2.Results.................................................................1053.2.2.3. Conclusions......................................................... 106
3.3. The choice of a controlled vocabulary............................................ 1073.3.1. Thejustification of the choice of a controlled vocabulary .. 1083.3.2.Construction of the list of authorized terms....................... 111
Universidad de Murcia Index/
3.4. Proposal for the automatization ofindexing.................................... 1153.4.1. The modulesof the system ...............................................117
3.4.1.1. Module 1: Preprocessing..................................... 1183.4.1.2. Module 2:Processing .......................................... 1233.4.1.3.Module 3: Evalation and weight assignation........ 132
3.4.2. Analysis of a document as a function of theprecedingproposal......................................................................................1353.4.3. Evaluation of theproposal................................................. 1493.4.4.Problems detected............................................................156
4.-CONCLUSIONS................................................................................157
5.-REFERENCES..................................................................................165
APPENDICES........................................................................................191
Appendix 1:Glossary.............................................................................191Appendix 2: Definitions concerning indexing......................................... 195Appendix 3: Stages inindexing..............................................................197Appendix 4: Integral process of indexing............................................... 199Appendix 5: Stopwords.........................................................................200Appendix 7: Resultant consistencyindices............................................ 202Appendix 8:Controlled vocabulary........................................................ 220
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 11
0.- INTRODUCCIÓN
1 ASPECTOS FORMALES.
El Doctorado, según el Real Decreto 185/1985 del 16 de febrero,constituye la
condición esencial para el progreso científico, social yeconómico de una
comunidad. La formación de los investigadores depende de laprofundidad de sus
contenidos y la seriedad en su planteamiento. Por ello, la Leyde Reforma
Universitaria se plantea cuatro grandes objetivos en losestudios de postgrado:
1. Disponer de un marco adecuado para la consecución ytransmisión de los
avances científicos.
2. Formar a los nuevos investigadores y preparar equipos deinvestigación que
afronten con éxito el reto que suponen las nuevas ciencias,técnicas y
metodologías.
3. Impulsar la formación del nuevo profesorado.
4. Perfeccionar el desarrollo profesional, científico, técnico yartístico de los titulados
superiores.
La Ley señala como requisitos para la obtención del título deDoctor, la necesidad
de estar en posesión del título de Licenciado, Arquitecto oIngeniero, para: a)
realizar y aprobar los cursos y seminarios del programa deDoctorado
correspondiente con una duración de, al menos, dos cursosacadémicos, y b)
presentar y aprobar una Tesis Doctoral consistente en un trabajooriginal de
investigación, ambas fases bajo la supervisión y responsabilidadacadémica de un
Departamento1.
Tras la obtención del título de Licenciado, y con posesión deltítulo de Diplomado en
Biblioteconomía y Documentación, comenzamos los Cursos deDoctorado en el
1 Real Decrecto nº 185/1985, publicado en el Boletín Oficial delEstado nº 41 del 16 de febrero de 1985por el que se regula eltercer ciclo de estudios universitarios, la obtención y expedicióndel título deDoctor y otros estudios postgraduados.
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 22
programa «TÉCNICAS Y MÉTODOS ACTUALES EN INFORMACIÓN YDOCUMENTACIÓN»2,
coordinado por los Dres. Vivina Asensi y José V. RodríguezMuñoz, correspondiente
al bienio 94/96. Estos cursos nos sirvieron para perfilar einiciar la presente Tesis
doctoral.
2 MOTIVACIONES.
2.1 Científicas.
Entre las razones que justifican las investigaciones para laautomatización de la
indización destacan:
La subjetividad está presente en el proceso de la indización. Elgrado de
coincidencia entre los términos de indización asignados porindizadores
profesionales diferentes suele oscilar entre el 30% y 60%. Sobreestos y otros
aspectos se manifestó Cleverdon [1984] cuando expresó que sidos
indizadores expertos analizan separadamente un mismo documentosólo
convergen en el 30% de los términos propuestos; si dos personaso grupos
construyen un tesauro solamente concuerdan en el 60% de lostérminos
incluidos; si dos profesionales interrogan una base de datos conla misma
cuestión sólo el 40% de la información recuperada es común; ypor último, si
se pregunta a dos científicos sobre la relevancia de un conjuntode
documentos, para una determinada cuestión, el acuerdo entreambos no
excede del 60%. (Factor subjetividad).
Las publicaciones periódicas, en la actualidad, son el vehículode transmisión
de ingentes cantidades de información científico-técnica. Lacomunidad
científica necesita mantenerse al corriente de los continuosavances
2 Los treinta y dos crétidos se completaron con los siguientescursos: Programación lógica y lenguajenatural; Concepto e historiade la archivística; Evaluación de sistemas de informaciónydocumentación. Contraste de los lenguajes de recuperaciónempleados; Análisis de sistemas deinformación: propuesta de lametodología métrica; Tendencias actuales en los sistemasderecuperación de información (I); Indicadoresde actividadcientífica y modelosbibliométricos;Tendencias actuales en lossistemas de recuperación de información (II); Líneasdeinvestigación en bibliotecas de instituciones educativas; Eldesarrollo informativo de la literatura gris enlos distintos camposde la ciencia; Proceso y puesta en marcha de un Centro dedocumentación;Aplicaciones estadísticas en información ydocumentación; y Bases de datos lingüístico-gramaticales.Cursosimpartidos tanto por doctores del departamento de Información yDocumentación como porotros como Lengua Española y LingüísticaGeneral, Sociosanitarias o Matemáticas.
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 33
ocurridos, y para ello, dispone de las bases de datos. Parael
almacenamiento de un documento en éstas se ha de indizarpreviamente. En
la Base de datos española ISOC se incorporan unos veintiseis milartículos al
año; en el Centro de Documentación ruso ICSTI hasta 1992 seindizaban
anualmente casi cincuenta mil nuevos documentos; en laBiblioteca Nacional
de Agricultura de los Estados Unidos entre setenta y ochentamil; mientras
que en la Base de datos alemana PHYS unos ciento veinticincomil. Si
tenemos en cuenta que una indización adecuada de un documentorequiere
unos diez minutos -si bien es muy dificil precisar este dato-,supone que un
profesional en siete horas de trabajo al día “sin descanso”indizará menos de
cincuenta documentos.
Sin embargo, si un profesional sólo logra indizar ese número dedocumentos,
algunas unidades de información y/o productores de bases dedatos
necesitan un gran número de indizadores si pretenden que susclientes
permanezcan al tanto de las últimas novedades científicas. Encambio, con la
automatización de esta operación se consigue mayor rapidez. Asípor
ejemplo, en el Getty Conservation Institute de los EstadosUnidos que
produce boletines de resúmenes sobre Arte y Arqueología, antesde aplicar la
automatización se indizaban 3,3 resúmenes a la hora. Después sepasó a
16,8. (Factor tiempo y económico).
En definitiva, un sistema de indización asistida, semiautomáticao automática
interesa para alcanzar una mayor consistencia en la indización,para efectuarla
siempre bajo los mismos parámetros, y para reducir el tiempo yel coste de
ejecución. Obviamente, estos elementos repercuten en la calidadde los resultados y
en la productividad de la institución.
2.2 Motivaciones personales.
La razón personal que nos mueve a emprender esta tesis estriple. En primer lugar,
para la adquisición de un método de trabajo que nos conduzca alconocimiento de
unos saberes que culminen nuestro aprendizaje universitario. Ensegundo lugar,
guiados por el fin mismo de la investigación científica, esdecir, la producción de
unos frutos que redunden de algún modo en la comunidad en la quevivimos. Y en
tercer lugar, el interés por este tema del Análisis delcontenido de la Información
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 44
arranca desde nuestra etapa como alumno de la Escuela deBiblioteconomía y
Documentación de esta Universidad. Estas inquietudes nosllevaron a realizar un
trabajo sobre los Orígenes del Análisis, Almacenamiento yRecuperación de la
Información, donde se estudiaron aspectos de los incipientesmodos de indización
sobre los primeros soportes documentales en la Antigüedad.
3 METODOLOGÍA.
El método científico según Sierra Bravo [1994, p. 29] es:
“una forma de realizar una actividad; el camino o proceso que laactividad en
cuestión ha de seguir para alcanzar su objetivo [...]. En elmétodo científico se
pueden distinguir su contenido o método propiamente dicho,formado
fundamentalmente por la serie de etapas sucesivas a seguir paraalcanzar el
resultado pretendido y su base racional, constituida por elconjunto de ideas
que sirven de fundamento y de orientación al método propiamentedicho”.
Por tanto, según estos principios, necesitábamos un método detrabajo con el que
guiar la investigación que pretendíamos iniciar. Porconsiguiente, la metodología
adoptada no fue otra que la típica del método científicodividido en estas etapas:
1.- Descubrimiento de los problemas de la investigación.
La indización y sus aspectos circundantes han sido temas deinterés para los
investigadores en las últimas décadas debido a que estaoperación es la clave para
el almacenamiento y la recuperación de la información. Laautomatización de esta
tarea ha centrado numerosos trabajos desde finales de los añoscincuenta hasta la
actualidad. La mayor parte de ellos han pretendido llegar almismo fin, pero en
ocasiones han seguido diferentes metodologías.
Al acercanos a la automatización de la indización se echa enfalta trabajos donde se
ofrezca una visión global del desarrollo ocurrido en esteproceso. Por otro lado, se
ha reconocido que la Documentación es un áreainterdisciplinaria, e incluso se ha
puesto de manifiesto cuales son las disciplinas y las cienciasque prestan
fundamentos tanto teóricos como prácticos para su constitución.Pero en cambio, no
se ha tratado la interdisciplinariedad inherente a laautomatización de la indización.
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 55
Por último, también hay carencias en cuanto a propuestasdirigidas a la
automatización de la indización de textos en español.
Estas ideas de partida tratamos de corroborarlas en la siguientefase del método
científico, que no es otra que la documentación de lainvestigación.
2.- Documentación de la investigación.
La investigación científica debe partir de los descubrimientoscientíficos antes
conseguidos y, por tanto, exige una labor de documentación y delectura para
conocer su existencia y recogerlos si fuera preciso. En virtudde este principio,
emprendimos la labor de documentación por medio de una revisiónbibliográfica.
Esta fase de documentación la dividimos en cuatro momentos biendiferenciados
pero complementarios y, en la mayoría de las ocasiones,coincidentes en el espacio
y en el tiempo. Consideramos doblemente justificado detallar deforma minuciosa
esta fase de búsqueda y de revisión documental, por nuestracondición de
doctorando, lo que nos lleva a explicitar la labor documentalllevada a cabo, y por
nuestra categoría de documentalista.
PRIMERA FASE:
- Análisis y estudio de monografías españolas y extranjeras, quededicaran parte de
su contenido a la automatización de la indización, con el fin deobtener una primera
visión del asunto. Esto dio lugar a la confección de un conjuntode fichas temáticas
en donde se recogían aspectos que nos parecían interesantes, asícomo citas
textuales.
SEGUNDA FASE:
- Análisis y estudio de publicaciones periódicas por medio delvaciado de revistas:
· Revisamos revistas españolas sobre Biblioteconomía yDocumentación en busca
de trabajos publicados. Algunas de las revistas fueron:
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 66
Revista Española de Documentación Científica
Revista General de Información y Documentación
Ciencias de la Documentación
Boletín de la ANABAD
Boletín de la Asociación Andaluza de Bibliotecarios
Boletín de la Sociedad Española del Procesamiento del LenguajeNatural
ITEM. Revistade Biblioteconomia i Documentació
Métodos de Información
· Vaciado de las Actas publicadas con motivo de los principalesCongresos y
Jornadas celebradas en España sobre BiblioteconomíayDocumentación:
Jornadas Españolas de Documentación Automatizada
Jornades Catalanes de Documentació
· Vaciado de Actas publicadas en Congresos afines aBiblioteconomía y
Documentación:
Sociedad Española para el Procesamiento del Lenguaje Natural
Lenguajes Naturales y Lenguajes Formales
· Vaciado de las bases de datos (en papel) disponibles en laBiblioteca de la
Escuela de Biblioteconomía y Documentación de la Universidad deMurcia:
LISA(1991-1992-1993-1995-1996-1997)
PASCAL (1991-1992)
· Vaciado de las publicaciones periódicas extranjerasdisponibles en la Biblioteca de
la Escuela de Biblioteconomía y Documentación de la Universidadde Murcia, que
trataran, directa o indirectamente, nuestro asunto:
Documentaliste-Sciences de l'Information
Documentation et Bibliothéques
Encyclopedia of Library of Information Science
Information Sciences Applications an International Journal
International Forum on Information and Documentation
Journal of Documentation
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 77
Journal of Information Science
Knowledge Organization
· Vaciado de otras revistas no ubicadas en Murcia cuya revisiónera interesante. De
este modo, examinamos publicaciones y números determinados en laBiblioteca de
la Escuela de Biblioteconomía y Documentación de Granada y en laBiblioteca del
Centro de Información y Documentación Científica (CINDOC) enMadrid. Las
fuentes fueron:
Annual Review of Information Science and Technology
Aslib Proceedings
Automatic Documentation and Mathematical Linguistics
Information Processing and Management
Journal of the American Society for Information Science(JASIS)
Library Hi Tech
Library Software review
Pascal Thema
The Indexer
TERCERA FASE:
Consultas a Bases de datos nacionales e internacionalessobre:
Artículos Científicos:
Base de datos ISOCdel CSIC
Base de datos Medline (CD-ROM)
Base de datos Silver Platter (CD-ROM),(Área Biblioteconomía yDoc.)
Tesis Doctorales nacionales y extranjeras:
TESEO: En febrero de 1996 se consultó esta base de datos delMinisterio de
Educación y Ciencia, dedicada a Tesis doctorales españolas.Los
descriptores utilizados fueron:
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 88
INDIZACIÓN
INDIZACIÓN AUTOMÁTICA
LINGÜÍSTICA COMPUTACIONAL
PROCESAMIENTO DEL LENGUAJE NATURAL
LINGÜÍSTICA INFORMÁTICA
Sobre la automatización de la indización no se encontró ningunaTesis. Esta
base de datos se volvió a consultar en febrero de 1997 y elresultado fue el
mismo.
Dissertation Abstracts Online: Esta base de datos norteamericanacuenta
con más de un millón doscientas mil tesis, principalmente, deEstados
Unidos, si bien abarca Canadá y Europa desde 1988. La búsquedase
efectuó en febrero de 1996 y se localizaron 18 Tesis Doctorales,la más
reciente de 1995 y la más antigua de 1970.
CUARTA FASE:
En esta última fase el objetivo era buscar información sobre laautomatización de la
indización en Internet. Para ello, utilizamos los buscadoresLycos, Yahoo, Infoseek y
Altavista. Esta opción nos permitió conocer Departamentosuniversitarios en los que
se ha trabajado este asunto y empresas que comercializanproductos para el
análisis de la información.
En esta fase de documentación solamente se han encontrado dosartículos
directamente relacionados con nuestro tema de investigaciónpublicados en fuentes
españolas. El primer articulo lo publicó en 1983 Valle Bracero yFernández García,
bajo el título “Automatización de la indización y coordinaciónde descriptores”, en la
Revista Española de Documentación Científica. El otro artículocorresponde al
titulado: “Primeras experiencias sobre el análisis de textos encastellano aplicado a
la indexación automática de información”, publicado en 1990 porSimón Granda y
Lema Garzón, en las Terceras Jornadas Españolas deDocumentación
Automatizada. Estos trabajos presentan varias propuestas para laautomatización
cuyofundamento esencial era la extracción de un conjunto deestructuras
sintagmáticas preestablecidas o “patrones admitidos” paraconstituir candidatos a
descriptores.
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 99
Por otro lado, los manuales sobre Biblioteconomía yDocumentación publicados por
investigadores o profesionales españoles apenas dedican unaslíneas a la
automatización de la indización. En cambio, en países comoFrancia, Brasil pero
principalmente, Estados Unidos se ha trabajado en este temadesde los años
sesenta.
3.- Definición de los problemas.
La fase anterior de documentación nos valió por un lado, paradefinir los problemas
de partida, y por otro,para concretar aún más la dirección y laslíneas de
investigación de este trabajo. Por tanto, cabe precisar que:
No se han encontrado trabajos de investigación que presenten deun modo
diacrónico el desarrollo ocurrido en la automatización de laindización donde se
concreten las metodologías empleadas, los problemas planteados ola misma
agrupación de propuestas.
Por otro lado, hemos localizado estudios dedicados a plantear ydemostrar la
interdisciplinariedad de la Documentación, así como de larelación existente entre la
Lingüística y la Documentación, pero no se ha planteado lainterdisciplinariedad
inherente a la automatización de la indización.
Por último, la automatización de la indización ha sido un asuntopoco tratado por
los investigadores españoles de Biblioteconomía y Documentación.Esto ha
provocado una carencia de propuestas dirigidas en este sentidopara textos en
español.
4.- Cómo se han abordado los problemas.
Para llevar a cabo los objetivos que se mencionan en el epígrafesiguiente se han
seguido diferentes formas de actuar. Por un lado, el análisiscrítico de una parte
importante de la bibliografía consultada nos ha permitidoaclarar y especificar temas
tan importantes como las características de la indización,mostrar el desarrollo
diacrónico y la problemática de la automatización de laindización, o la
interdisciplinariedad inherente a este asunto. Por otro lado,hemos llevado también a
cabo un trabajo experimental dividido en dos momentos diferentesde la
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 1100
investigación. En primer lugar, un ensayo sobre la indización endiferentes Bases de
datos donde se comprobó la importancia de los títulos, losresúmenes y los textos
en la indización de los documentos. En segundo lugar, se aplicómanualmente el
sistema propuesto a un grupo de artículos indizados en una dedichas Bases de
datos con el fin de hallar los índices de consistencia entre laindización efectuada
por los indizadores profesionales y por el sistema.
4 OBJETIVOS.
Perseguimos tres objetivos principales:
En primer lugar, pretendemos adentrarnos en los aspectosconceptuales relativos a
la indización para elaborar un marco teórico del proceso íntegroque contemple
desde su delimitación conceptual, fases de actuación, desarrollodiacrónico y el
papel fundamental que desempeña la indización como “puente”entre el
almacenamiento de los documentos y su recuperación. Endefinitiva, en esta parte
del trabajo buscamos acercarnos al tema de estudio y a ellodedicaremos el capítulo
uno.
En segundo lugar, acometeremos la revisión y el análisis deldesarrollo diacrónico
sucedido en la automatización de la indización desde lasprimeras propuestas, a
finales de los años cincuenta, hasta el presente. Asimismo,comprobaremos cuales
son las ciencias y las disciplinas que intervienen, en mayor omenor medida, en
automatizar esta operación. El fin de este capítulo segundo esconocer las iniciativas
más relevantes en la automatización de la indización, lasmetodologías empleadas,
los resultados obtenidos y el nivel de implantación de estossistemas en la
actualidad.
En tercer lugar, el descubrimiento, la asimilación y lamaduración de todos los
aspectos estudiados en la consecución de los objetivosanteriores, nos
proporcionarán los conocimientos suficientes para diseñar unprocedimiento que nos
lleve a una propuesta para la automatización de la indizaciónpara el español, y más
concretamente para el área de Biblioteconomía y Documentación.En consecuencia,
el tercer capítulo de la tesis lo dedicaremos al desarrolloteórico del sistema, en el
que se explicarán las razones, las herramientas y lasmetodologías adoptadas.
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 1111
5 ESTRUCTURACIÓN Y PRESENTACIÓN.
La estructura de este trabajo está compuesta por unaintroducción, por un cuerpo
central integrado por tres capítulos, y por la parte dedicada alas conclusiones.
Además, incluye las referencias bibliográficas y el bloque deanexos.
En la introducción, como se ha comprobado, se explica el marcoacadémico en el
que se ha desarrollado esta tesis, cuales son las motivacionesque nos han inducido
a acometer esta investigación, la metodología seguida y losobjetivos marcados.
El contenido de cada uno de los tres capítulos ya se hacomentado en el epígrafe
anterior dedicado a los objetivos perseguidos con este trabajo.Y en el cuarto y
último capítulo, se exponen las conclusiones alcanzadas en estainvestigación.
El anexo está conformado por una serie de gráficos y datos cuyaaparición en el
cuerpo central de la Tesis no estaba plenamente justificada.Así, contiene los
siguientes anexos:
ANEXO 1: Glosario de términos sobre Biblioteconomía yDocumentación
empleados a lo largo de este trabajo.
ANEXO 2: Tablas con definiciones de la “indización”
ANEXO 3: Etapas de la indización aportadas por diferentesautores.
ANEXO 4: Esquema del proceso íntegro de la indización.
ANEXO 5: Fichero de palabras vacías.
ANEXO 6: Resúmenes de artículos de revista.
ANEXO 7: Resultados de los índices de consistencia obtenidos enla
comparación de la indización efectuada por profesionales y laconseguida tras la
aplicación manual de la propuesta.
UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 1122
ANEXO 8: Vocabulario controlado sobre Biblioteconomía yDocumentación
utilizado por la propuesta.
En cuanto a la presentación de la Tesis se ha optado por lacolocación de las notas
explicativas o aclarativas a pie de página, con la enumeracióncorrelativa a partir de
la nota 1. Este mismo proceso se ha repetido en cada uno de loscapítulos. El
motivo de este planteamiento es evitar el desplazamiento hastala parte final para
consultar alguna nota. Por otro lado, para las citasbibliográficas se ha optado por el
método de colocar entre corchetes el nombre o nombres de losautores, el año de
publicación de la obra y la página que se cita, recogido en lanorma UNE 50-104-94
(equivalente a ISO 690:1987).
Universidad de Murcia Resumen capítulo 1/ 13
En este primer capítulo se revisan los principalesaspectosteóricos relativos a la indización. Se comienzacon una brevepresentación del proceso documentalcomo contexto en el que seefectúa la indización.Posteriormente, se lleva a cabo sudelimitación, así comoel examen de las etapas sucesivas en laindización de losdocumentos. Después se analizan susprincipalescaracterísticas, los sistemas de indización, loslenguajesdocumentales, y por último, la normalización deestatarea.
Universidad de Murcia Indización/ 14
11..-- LLAA IINNDDIIZZAACCIIÓÓNN
11..11 EELL PPRROOCCEESSOO DDOOCCUUMMEENNTTAALL..
El primer paso que juzgamos necesario es situar la indización enel proceso
documental. El proceso documental es el conjunto de operacionesdirigidas a la
selección, la adquisición, el registro y el tratamiento de losdocumentos con el fin de
posibilitar su almacenamiento y recuperación para sudifusión.
La entrada de los documentos en una Biblioteca o un Centro deDocumentación se
efectúa por medio de dos etapas sucesivas: la selección y laadquisición. La política
de adquisiciones debe estar perfectamente diseñada en relaciónal presupuesto, los
recursos y los servicios prestados. La incorporación de fondosal centro se lleva a
cabo por compra y de modo gratuito. Los fondos gratuitos seconsiguen por el
intercambio de documentos entre instituciones o por donacionesprivadas.
Por otro lado, como su nombre indica seleccionar es elegir ladocumentación que
debe incorporarse al centro. Por tanto, la selección delmaterial y su posterior
adquisición es la primera etapa del proceso que dirige a laconstitución de los fondos
documentales. Por lo general, en cada centro hay una personaencargada de esta
tarea y una cuestión clave en el proceso de la selección escontar con las
necesidades, las características y las preferencias de losusuarios. La selección de
los documentos se lleva a cabo a través de bibliografías, decatálogos editoriales en
papel o en línea, por consultas a bases de datos, a revistasespecializadas y de
reseñas, entre otras fuentes.
Otra fase en el proceso documental es el tratamiento técnico quereciben los
documentos para que sean utilizados por los usuarios. Estetratamiento se divide en:
análisis de la forma y análisis del contenido. El análisis de laforma de un documento
también se conoce como descripción bibliográfica o catalogación,mientras que el
análisis del contenido abarca dos procesos diferentes: elresumen y la indización.
La catalogación se acomete una vez que el documento ha ingresadoen el Centro,
aunque a veces, la descripción bibliográfica viene en laspáginas preliminares del
propio documento. El objetivo de la catalogación es:
Universidad de Murcia Indización/ 15
“suministrar una representación del documento que lo describa deforma
única, sin ambigüedades, y que permita luego identificarlo,localizarlo,
incorporarlo a los ficheros y catálogos”. [Guinchat y Menou,1983, p. 101]
Con respecto al análisis del contenido de los documentos(resumen e indización)
cabe mencionar lo siguiente. El principal objetivo del resumenes informar a los
usuarios del contenido puntual de los documentos a través de loselementos que
contribuyan a la toma de decisiones sobre la conveniencia deconsultar el texto
completo. Moreiro González [1989a, p. 157 y ss.] apunta otrosobjetivos como
reflejar los diferentes bloques de datos con sus característicasy sus atributos
principales, reemplazar la información y expresar el contenidoesencial de los
documentos no textuales. En cuanto a la tipología, este autorseñala que
encontramos resúmenes por la mediación informativa que cumplen,la
descodificación del texto íntegro, el mediador, el número defuentes analizadas, el
modo de difusión y la calidad de las fuentes.
La indización tiene como principal objetivo el almacenamiento yla recuperación de
la información. Al ser la indización un proceso que intervieneen dos momentos
diferentes del trabajo con los documentos, ofrece dos vertientesenfrentadas. La
primera es la indización de los documentos, que tiene por misiónel almacenamiento
de los mismos una vez que han sido analizados y representadossus conceptos
esenciales a través de términos de indización. En segundo lugar,la indización de las
preguntas para propiciar la recuperación documental. Enconsecuencia, el objetivo
general de la indización es el almacenamiento y la recuperaciónde la información.
El proceso de la indización se divide en dos etapas:
1. Análisis de los documentos y las preguntas para la selecciónde sus
conceptos esenciales explícitos o implícitos.
2. Conversión de los conceptos seleccionados en lenguaje naturala un
lenguaje documental por medio de herramientas como losvocabularios
controlados.
La última fase de la cadena documental es la salida de lainformación. Todas las
operaciones desarrolladas en la fase de entrada y de tratamientode la información
Universidad de Murcia Indización/ 16
tienen un objetivo principal: la difusión de la información. Larazón de ser de estas
operaciones, y de la misma disciplina de la Documentación, esdifundir la
información que previamente ha sido seleccionada, adquirida yanalizada. De este
modo, si a la fase de difusión no se da una importancia suprematodo el trabajo
desarrollado servirá para poco.
1.2 LA INDIZACIÓN.
En los años setenta se dedicaron numerosos esfuerzos deinvestigación para la
creación de las bases teóricas de la indización y para labúsqueda de una
metodología y de unos principios sólidos. A finales de estadécada, Cooper [1978]
defendió que la indización se había estudiado extensamente perono se había
profundizado en el proceso. Algunos de los estudios hasta esafecha presentaban
cómo eran indizados los documentos por los profesionales, másque cómo se
deberían indizar y la posibilidad de automatizar esta operaciónpor medio de
normas. En cambio, otros versaban sobre los problemas centralesde la indización:
la búsqueda de criterios normativos tanto para la indizaciónhumana como para su
automatización.
1.2.1 La indización. Definición.
Hay un gran número de definiciones sobre la «indización» y en elanexo 2
mostramos un conjunto de ellas. Aunque no es nuestro objetivorepasar cada una
de las definiciones existentes, intentaremos hallar algunas delas principales
deficiencias cometidas en su delimitación. En casi todas lasdefiniciones mostradas
en el anexo, por lo general, hay coincidencia a la hora de ladelimitación del
concepto de la indización. No obstante, no estamos de acuerdocon la mayoría de
estas definiciones por mostrarse incompletas. Sorprende enprimer lugar, la cantidad
de verbos empleados para describir la acción que tratamos:retener, asignar,
extraer, captar, resumir, describir, caracterizar, escoger,analizar, aislar, identificar,
traducir, indicar, interpretar o enumerar. Nosotrosrecurriremos, generalmente, a los
verbos analizar, seleccionar, asignar y convertir parareferirnos al proceso de la
indización.
Hemos comprobado que para definir la indización solamente seconsidera el
documento como fuente de análisis en la mayoría de lasocasiones. Esto significa
Universidad de Murcia Indización/ 17
efectuar una delimitación sesgada del proceso, porque se deja delado la petición
del usuario o la pregunta documental. Por estos motivosconsideramos necesaria la
siguiente distinción para especificar el proceso íntegro de laindización. Por un lado,
hablaremos de la indización de los documentos, y por otro, de laindización de las
preguntas.
En la indización de los documentos interviene, en un primermomento, el análisis y
la selección de los conceptos presentes en el título, el resumeno el texto íntegro
(fig. 1).
→ Lectura horizontal →Fuentes ==============> Términos deIndización
Figura 1. Extracción de términos explícitos
Así como la asignación de los conceptos implícitos en los textos(fig. 2).
Fuentes ==============> Términos de indización
↑ Lectura vertical ↑
Figura 2. Asignación de términos implícitos
Por tanto, el subproceso de la indización de los documentosqueda del siguiente
modo:
→ Lectura horizontal →Fuentes ================> Términos deindización
↑ Lectura vertical ↑
Figura 3. Subproceso de la indización de los documentos
En un segundo momento, los conceptos en lenguaje natural, tantolos extraídos del
documento como los asignados, siguen uno de estos caminos: elalmacenamiento
de esos conceptos a través de términos en lenguaje natural, o laconversión de
dichos conceptos en términos normalizados y controlados con laayuda de un
vocabulario controlado. Por último, un aspecto tan importantecomo los
anteriormente descritos, es tener presente, en cada momento delproceso (análisis,
Universidad de Murcia Indización/ 18
selección, asignación y conversión) cómo solicitaría un usuarioese documento, es
decir, realizar una indización de los documentos orientada a laspreguntas de los
usuarios, o lo que es lo mismo, a la recuperación de losdocumentos.
En cuanto a la indización de las preguntas cabe mencionar losiguiente. Cuando
llega al documentalista una petición de información documental,tras un diálogo con
el usuario, la modela y la materializa en una frase o unapregunta que servirá para
interrogar al sistema que tiene almacenada la información. Estafrase o pregunta
documental, debe sufrir el mismo proceso expresado para laindización de los
documentos. Pero en esta ocasión es preciso estimar qué términosse pudieron
manejar en la fase de análisis del documento, es decir, ejecutaruna indización de la
pregunta orientada al documento.
La observación del esquema del proceso íntegro de la indización(anexo 3) nos
induce a definirla como un proceso guiado por el documentalistaque permite
recorrer tanto a los documentos como a las preguntas un trayectoiniciado desde
puntos enfrentados. Este proceso consiste en el análisis y laselección de los
conceptos esenciales, así como la asignación de los implícitos-si fuera necesario-
y, el almacenamiento de los mismos en lenguaje natural o suconversión en
términos normalizados y controlados con la ayuda de una serie deherramientas,
que permitan recuperar los documentos en el momento deseado. Esdecir, la
indización representa a dos objetos en movimiento -documento ypregunta- hacia el
mismo punto, cuya unión provoca una respuesta.
Por tanto, de lo mencionado anteriormente se deduce que:
El objetivo de la indización de los documentos es permitirsu
almacenamiento, mientras que el de la indización de laspreguntas encamina
la recuperación documental. Por tanto, el objetivo general de laindización es
el almacenamiento y la recuperación de la información. Estolleva a que la
indización y la recuperación sean las dos caras de una mismamoneda.
Las etapas de la indización las dividimos en dos: el análisis delos
documentos y de las preguntas para la selección de los conceptosexplícitos
o implícitos. Y el almacenamiento de los conceptos por medio detérminos en
Universidad de Murcia Indización/ 19
lenguaje natural, o su conversión a un lenguaje normalizado ycontrolado
(vocabularios controlados).
1.2.2 Las etapas de la indización.
Al igual que ocurre con la definición de la indización, sepresentan diferencias en
cuanto a la enumeración de los pasos ejecutables. En laliteratura revisada, unos
autores dividen esta tarea en dos fases mientras que otrosestablecen hasta ocho.
En el anexo 4 han sido recogidas las propuestas de variosautores. La disparidad de
criterios a la hora de dividir el proceso que nos ocupa en fasesqueda patente. No
obstante, sin entrar de lleno en este asunto efectuaremosalgunos comentarios al
respecto.
No participamos de la opinión de considerar una faseindependiente la asignación
de conceptos que no están explícitos en el documento. Tampocojuzgamos lógico
enumerar la etapa de asignación de conceptos explícitos, tras lafase de conversión
de los términos en lenguaje natural al de indización. Porúltimo, no coincidimos con
la división de Slype en dos de sus etapas propuestas. El primerdesacuerdo se
produce porque considera como primera etapa la lectura deldocumento y como
segunda la identificación de los conceptos explícitos eimplícitos del mismo. No es
necesario, a nuestro juicio, la separación de la fase de lecturade la de selección de
los conceptos, ya que no son dos etapas sucesivas en el espacioy en el tiempo,
sino simultáneas. El segundo desacuerdo llega cuando apunta comocuarta y última
etapa, la incorporación de enlaces sintácticos entre losdescriptores. A nuestro
entender, no hay diferencia si un concepto al convertirlo entérmino de indización
lleva asociado algún enlace, porque el proceso de conversión esel mismo, sólo que
más largo.
Según lo alegado en párrafos precedentes existe una estrecharelación entre la
indización y la recuperación documental. Por tanto, esconveniente que en los
servicios de información sea la misma persona la que lleve acabo la tarea de indizar
y la de atender a los usuarios. Hay casos en los que esimposible que se produzca
tal coincidencia como, por ejemplo, la recuperación de lainformación en las bases
de datos en línea. Esta circunstancia es una más de las causasque incitan a
conseguir, en la medida de lo posible, la mayor normalizaciónposible en el proceso
de la indización y la recuperación documental. Por estasrazones, es recomendable
Universidad de Murcia Indización/ 20
el máximo contacto entre los productores de las bases de datos yaquellos
profesionales que, desde cualquier punto distante, lasinterroga, para asegurar que
la fase de recuperación se realice convenientemente.
1.2.3 Las zonas de extracción de los conceptos. Tiempodedicado.
En cuanto a las zonas de extracción de los conceptos y el tiempodedicado a ello no
existe una coincidencia plena por parte de los profesionales yde los investigadores.
Si bien es cierto que se produce una mayor coincidencia encuanto a las fuentes o
zonas más apropiadas para la obtención de los conceptos quefinalmente se
convertirán en términos de indización.
La norma UNE 50-121-91 señala las siguientes partes de losdocumentos como
importantes a la hora de la indización: título, resumen, sumarioo tabla de
contenidos, introducción, frases de apertura de capítulos ypárrafos, conclusiones,
ilustraciones, palabras o grupos de palabras con una tipografíainusual.
En un estudio realizado por Euratom [Dijk y Slype, 1972, p. 105]se llegó a la
conclusión de que, los resúmenes de los documentosproporcionaban el triple de los
términos de indización que los títulos.
Para comprobar la importancia de los títulos, los resúmenes ylos textos para la
indización de los documentos, practicamos un ensayo sobreartículos científicos de
diferentes áreas del conocimiento en las Bases de datos delCSIC. Este ensayo se
detallará en el capítulo tercero, pero podemos adelantar que decara a la indización
de los documentos, en general, los títulos proporcionan unnúmero menor de
conceptos que los resúmenes. Y además, en ocasiones, estas dosfuentes se han
mostrado insuficientes para la adecuada indización de losartículos, por lo que es
necesario recurrir también al texto. En consecuencia,consideramos precisa la
utilización de los títulos, los resúmenes y los textos para laindización de los
documentos.
Por otro lado, en virtud de las observaciones llevadas a cabodurante este estudio,
consideramos que los indizadores (dedicados al análisis del áreade Biblioteconomía
y Documentación en la Base de datos ISOC) toman como fuentesprincipales para
la extracción de conceptos, en primer lugar, los resúmenes y, ensegundo lugar, los
Universidad de Murcia Indización/ 21
títulos. Y con respecto al texto: la introducción, los epígrafesde los apartados y las
conclusiones.
El tiempo medio dedicado, o que debería dedicarse, a laindización es por diversos
motivos de difícil delimitación. Señalaremos solamente tres.Primero, depende de
las directrices marcadas por el sistema, las que obedecen a suvez, a varios factores
como los tipos y las necesidades de los usuarios o simplemente,la cantidad de
profesionales dedicados a esta operación. Segundo, en el caso deque la institución
no marque las pautas, el tiempo consagrado a cada documento vaen función de la
profesionalidad de los indizadores. Tercero, está sujeto a lascaracterísticas propias
de la indización como la profundidad o la perfecciónperseguidas, así como a otros
factores como la clase de documentos analizados, el tipo deinformación contenida
en los mismos o incluso, el tamaño de los documentos1.
En un experimento citado en García Gutiérrez [1984, p. 115], yefectuado para
comprobar la realidad sobre la indización en Gran Bretaña aprincipios de los años
setenta, se constató que el tiempo para obtener cuatro palabrasclave era de tres
minutos; cinco minutos para conseguir de cinco a diez; ochominutos para cosechar
de once a veinte, y doce minutos para más de veinte palabrasclave. A estos
tiempos hay que sumarles el tiempo de convertir las palabrasclave en descriptores,
si se emplea el término palabra clave para expresar los términosseleccionados y/o
asignados en lenguaje natural.
En el estudio ya citado, desarrollado en Euratom, se llegó a laconclusión de que
una indización sobre el texto completo de un artículo exige ochoveces más tiempo
que la practicada sobre el resumen. Del mismo modo, Farrow[1994, p. 158] toma
unos párrafos de Cleverdon [1962] en los que éste últimoexpresaba que, para la
indización de informes técnicos, el tiempo óptimo dedicado podíaser de cuatro
minutos, más un 60% en función de las condiciones de trabajo.Con respecto a este
mismo asunto, Amat [1989, p. 176] mencionó que para una media deunos diez
términos se emplea un tiempo medio de veinte minutos.
1 En el estudio que ya se ha mencionado sobre las seis áreas delconocimiento indizadas en Bases dedatos del CSIC hemos constatadoque no existe relación entre el número de páginas de losdocumentosy el número de descriptores asignados. Hemos detectado artículoscon escasas páginasy descriptores; artículos con bastantes páginasy pocos descriptores; artículos con pocas páginas y
Universidad de Murcia Indización/ 22
Como se ha observado, resulta difícil la delimitación del tiempoque se debe dedicar
a la indización de un documento.
1.3 LAS CARACTERÍSTICAS DE LA INDIZACIÓN.
En este apartado veremos los elementos que confieren o niegan,en gran medida, la
calidad al producto resultante de la indización. Nos referimos ala exhaustividad en
la indización (los conceptos caracterizadores del contenido deun documento), la
especificidad (la precisión para detectar los conceptos másimportantes de los
documentos), la corrección (la omisión de términos correctos ola inclusión de otros
innecesarios), y la consistencia (el grado de coincidencia a lahora de la
presentación de los términos de indización por dos sistemas opor dos indizadores
diferentes).
1.3.1 La exhaustividad en la indización.
La exhaustividad en la indización está relacionada, como bien seindica en la norma
UNE 50-121-91 [p. 156], con la cantidad de conceptos quecaracterizan el contenido
íntegro del documento. Hemos constatado que la exhaustividad enla indización se
suele identificar con el número de términos de indizaciónasignados a un
documento. Es decir, cuantos más descriptores se asigna a undocumento mayor
exhaustividad y viceversa. En esta dirección se han manifestadoSparck Jones
[1973], Maron [1979, p. 224], García Gutiérrez [1984, p. 122],Rowley [1988, p. 56],
Salton [1989, p. 277], Amat [1989, p. 176] o Pinto Molina [1993,p. 223].
Con respecto a esta concepción de la exhaustividad en laindización, se puede
objetar que la exhaustividad tiene que ver con la selección y/oasignación de todos
los conceptos esenciales explícitos o implícitos en el documentoo en la pregunta
documental. Por tanto, si recurrimos al cómputo de losdescriptores como medio
para medir la exhaustividad, bien en la indización de undocumento, o bien entre dos
sistemas o dos Bases de datos diferentes, confundimos susignificado y utilizamos
un solo factor para la medición de la exhaustividad.
una cantidad importante de descriptores y, por último, artículoscon un número elevado tanto depáginas como de descriptores.
Universidad de Murcia Indización/ 23
Para Soergel [1994, p. 591] una entidad2 indizada es pertinentepara un número de
conceptos, por ello, entiende como exhaustividad en laindización que esos
conceptos deben estar comprendidos en los descriptores asignadosa esa entidad.
Y coincidimos plenamente con este autor cuando opina que elnúmero de
descriptores empleados por documento no debe ser el único ydeterminante valor
considerado para comprobar el grado de exhaustividad en laindización de los
documentos. En este error se ha incurrido más de lo que seríadeseable, como
hemos comprobado. Este autor proporciona otros factores para lamedición de la
exhaustividad, tales como el grado de precoordinación, lacorrección de la
indización, y el criterio de indización.
El grado de precoordinación en los descriptores es un factorpara la comparación del
grado de exhaustividad en la indización entre diferentes basesde datos o
instituciones que analizan los mismos documentos. Imaginemos dosinstituciones
con diferentes grados de coordinación:
DOCUMENTOS
DESCRIPTORES DE LA
UNIDAD DE
INFORMACIÓN A
DESCRIPTORES DE LA
UNIDAD DE
INFORMACIÓN B
Documento 1
FORMACIÓN DE
USUARIOS
DEMANDA DE
INFORMACIÓN
SERVICIOS DE
INFORMACIÓN
USUARIOS /
FORMACIÓN/
DEMANDA/
INFORMACIÓN/
SERVICIOS
Documento 2
PROGRAMAS DE
ORDENADOR
REDES DE
COMUNICACIONES
REDES DE INFORMACIÓN
ORDENADOR /
PROGRAMAS/
REDES/
COMUNICACIONES/
INFORMACIÓN
2 Este autor utiliza “entidad” o “ítem” como términos generalesque pueden referirse tanto adocumentos como a módulos de programaso a otros elementos.
Universidad de Murcia Indización/ 24
En la Unidad de información B el número de descriptoresasignados a cada
documento es de cinco, con un grado de precoordinación nulo,mientras que en la
Unidad de información A al emplear un grado mayor deprecoordinación solamente
se atribuyen tres términos de indización por documento. Portanto, ¿podemos
considerar que la exhaustividad en la Unidad de información A esmayor que en la
B?. Evidentemente, no. Esto demuestra que el número dedescriptores no es un
factor determinante para medir la exhaustividad en laindización.
Otro factor es la corrección de la indización. Es lógico pensarque si a un documento
se atribuyen términos de indización incorrectos, por un lado,aumenta el número de
términos asignados, pero por otro lado, y éste es el principalproblema, no se captan
todos los conceptos expresados en el documento.
El tercer factor mencionado por Soergel es el criterio deindización. En algunos
sistemas una vez que se han seleccionado los términos deindización se aumenta
su número por la asignación de otros relacionados o genéricos.Así por ejemplo, si
un documento trata sobre “depresión clínica” podría indizarsepor el descriptor
«DEPRESIÓN CLÍNICA», que posiblemente fuera uno de los máscorrectos. Pero a
la vez por otros términos más amplios como «PSICOSIS», «PSICOSISAFECTIVA»,
o «DESORDEN MENTAL». Sin embargo, estos tres términos noproporcionan un
mayor grado de exhaustividad en cuanto a los conceptos presentesen el
documento.
Por consiguiente, para un análisis comparativo entre variossistemas o bases de
datos que analicen los mismos documentos para comprobar el gradode
exhaustividad, se tendrá que tener en cuenta este factor.
A nuestro juicio existen varias causas por las que algunossistemas de información o
Bases de datos amplían el número de descriptores sin abarcar másconceptos
contenidos en el documento:
Por la generalidad o la especialización de la informacióntratada.
Por las exigencias de los usuarios.
Universidad de Murcia Indización/ 25
Cuantos más descriptores sean asignados a un documento, mayoresserán
las posibilidades de recuperarlo, aunque disminuye el grado deprecisión en
la recuperación.
1.3.2 La especificidad en la indización.
Desde mitad de los años setenta se han publicado trabajos sobrela medición de la
especificidad de los términos de indización [Sparck Jones, 1972; Robertson, 1972,
1974 ; Yu y Salton, 1976 ; Wu y Salton, 1981 o Wong y Yao,1992]. Para Van Slype
[1991, p. 123], la especificidad estima la calidad en laselección de los términos que
equivalen a los conceptos presentes en los documentos, mientrasque, para Rowley
[1988, p. 56] será la “libertad” que permite el sistema para serpreciso acerca del
tema de un documento, por lo que debe fijarse previamente.
El patrón de especificidad deseada lo definen tanto losdescriptores recogidos en el
lenguaje de indización empleado, como las directrices deindización marcadas por el
sistema de información. En consecuencia, la comparación de dossistemas en
función de la especificidad puede resultar difícil y delicado,como hemos visto en
párrafos precedentes.
1.3.3 La corrección de la indización.
La corrección de la indización o la ausencia de errores es unfactor de suma
importancia para el resultado de la recuperación, porque, comoseñalara Soergel
[1994, p. 593], en el proceso de la indización pueden darse dostipos de errores: por
omisión (cuando un término es omitido) y por inclusión (alcontrario, se incluye un
término sin ser necesario). En cambio, la ausencia de un términocorrecto y la
asignación de uno más genérico, específico o relacionado, es unaclase especial de
error de omisión y de inclusión a la vez.
Para determinar este tipo de errores se debe conocer quédescriptores son los más
apropiados para un documento, para lo que hay que recurrir a unconsenso entre
varios indizadores y usuarios. Por tanto, la perfección de laindización establece una
relación entre la presencia de descriptores correctamenteasignados y la ausencia
de omisiones.
Universidad de Murcia Indización/ 26
1.3.4 La consistencia de la indización.
Para designar al concepto que nos ocupará en este apartado hemosdescubierto
diferentes términos. Nos referimos a “uniformidad”,“coherencia”" y “consistencia”. El
Diccionario de la Lengua Española los define de la siguientemanera:
«Uniformidad»: “calidad de uniforme”; y «uniforme» como “dos omás cosas que
tienen la misma forma. Igual, conforme, semejante”.
«Coherencia»: “conexión, relación o unión de unas cosas conotras”, y
«Consistencia»: “duración, estabilidad, solidez. Trabazón,coherencia entre las
partículas de una masa o los elementos de un conjunto”.
Los términos más utilizados en la literatura española,posiblemente en parecidas
proporciones, son coherencia y consistencia3. Este último comoreflejo del término
inglés «consistency», empleado unánimemente en la bibliografíaanglosajona. En
adelante emplearemos el término “consistencia” para expresar elconcepto que
ahora referimos.
La consistencia en la indización se puede estudiar comoreferencia a un único
indizador o a varios. En el primer caso, cuando un profesionalindiza un mismo
documento en diferentes momentos temporales (consistenciaintraindizador). En el
segundo caso, cuando varios profesionales indizan un mismodocumento de manera
diferente (consistencia interindizadores).
La consistencia de la indización la definieron Zunde y Dexter[1969, p. 259] como:
“el grado de concordancia en la representación de la informaciónesencial
de un documento, por medio de un conjunto de términos deindización
seleccionados por cada uno de los indizadores de un grupo”.
Desde principios de los años sesenta hasta el presente se hanpresentado
bastantes estudios tanto teóricos como prácticos sobre laconsistencia de la
3 Precisamente en la norma UNE 50-121-91 se utilizaindistintamente el término “coherencia” y“consistencia” referido almismo concepto.
Universidad de Murcia Indización/ 27
indización. En el trabajo de Zunde y Dexter se muestra unarevisión de los trabajos
publicados hasta ese momento. Veamos algunos de ellos:
Rodgers [1961] en un ensayo sobre combinaciones de dosindizadores la
consistencia alcanzada fue del 24%.
Jacoby [1962] en la indización de patentes de Química obtuvouna
consistencia media del 10%.
Slamecka y Jacoby [1962] obtuvieron unos valores de consistenciadel
16,3% para indizadores experimentados y del 12,6% paraindizadores sin
experiencia.
En otro trabajo Slamecka y Jacoby [1963] presentaron un ensayocon
indizadores experimentados que se sirvieron de un vocabulariocontrolado
para indizar un grupo de documentos. La consistencia conseguidaosciló
entre el 35% y el 45%.
Painter [1963] alcanzó valores de consistencia entre el 40% y el70%
según el sistema de indización y los tipos de documentos.
Korotkin y Oliver [1964] en otra prueba alcanzaron valores queoscilaron
entre el 36% y el 59%.
Más recientemente, Sievert y Andrews [1991] han efectuado unanálisis en la Base
de datos ISA4. En este estudio se concluye que la consistenciaen los descriptores
es del 47,2%, mientras que en los identificadores es del32,8%.
Otros trabajos* publicados sobre este asunto son los de Leonard[1975 ; 1977] ,
Rolling [1981], Funk, Reid y Mcgoogar [1983], Markey [1984],Sievert [1987], o más
recientemente el de Livonen [1990], Reich y Biever [1991], Tonta[1991] o Ellis et al.
[1994].
4 Information Science Abstracts recoge casi quinientas revistas,libros, informes y actas de Congresossobre Biblioteconomía yDocumentación.* Estas referencias no se han consultadodirectamente, sino que se localizaron durante el proceso derevisiónbibliográfica y de consulta de diferentes Bases de datos.
Universidad de Murcia Indización/ 28
Como se ha podido observar cada investigador llega a porcentajesdiferentes. No
obstante, la tónica general es que la consistencia no se sitúepor debajo del 25% ni
por encima del 60%. Por tanto, es necesario contemplar lainconsistencia en la
indización más como un elemento inherente a esta tarea que comouna anomalía.
Para averiguar la consistencia entre la indización manual y laautomática Salton y
McGill [1983, p. 100], propusieron una fórmula que tiene valideztambién para
emplearse entre dos indizadores profesionales. La fórmula, conuna leve
modificación de los símbolos, es la siguiente:
TcoCi =——————
(A + B) – Tco
donde,
Ci = la consistencia entre dos sistemas o dos indizadores.
Tco = el número de términos comunes asignados por los dossistemas o dos
indizadores.
A = el número de términos asignados por el sistema 1 o indizador1.
B = el número de términos propuestos por el sistema 2 oindizador 2.
Tco = el número de términos comunes asignados por ambos sistemaso
indizadores.
La explotación de los índices de consistencia como indicador deuna indización
correcta es problemática porque podemos encontrar unaindización
consistentemente incorrecta. Esto se produce cuando dosprofesionales indizan un
documento y cometen el mismo error, o por el contrario, dosindizadores pueden
lograr una perfección y pureza en la indización de uno y estarante una indización
consistente.
En definitiva, las características de la indización se puedenesquematizar del
siguiente modo:
Universidad de Murcia Indización/ 29
1.APLICACIÓN DE CRITERIOS DURANTE LA
INDIZACIÓN
- Exhaustividad
- Especificidad
- Grado de coordinación
- Ponderación de los descriptores
- Generación de enlaces
2. EVALUACIÓN DE LA CALIDAD DE LA
INDIZACIÓN: REINDIZACIÓN
· Exhaustividad de la indización
· Especificidad
· Corrección: Perfección y Pureza
· Consistencia
3. EVALUACIÓN DEL RESULTADO DE LA
RESPUESTA DOCUMENTAL
- Exhaustividad en la recuperación
- Precisión en la recuperación
1.4 LA RECUPERACIÓN DOCUMENTAL: EVALUACIÓN DEL
RESULTADO DE LA RESPUESTA DOCUMENTAL.
La recuperación documental comprende una serie de etapasdivididas en: pregunta,
búsqueda y respuesta documentales. Examinemos cada una deellas.
La pregunta documental se formaliza por medio del lenguajenatural o controlado.
En este segundo caso, la tarea inicial es la conversión de lapregunta o de la frase
documental en lenguaje natural a un lenguaje controlado a travésde vocabularios
controlados. El fin es adquirir unos descriptores simples ocompuestos para
Universidad de Murcia Indización/ 30
interrogar una base de datos. Estos descriptores se empleansolos o combinados
con operadores booleanos. Veamos dos ejemplos:
Pregunta 1: ELECTROMIOGRAFÍA
Pregunta 2: ELECTROMIOGRAFÍA Y ADOLESCENTES
Por otro lado, las preguntas en lenguaje natural también sonposibles. Algunos
sistemas de almacenamiento y recuperación de la informaciónpermiten interrogar
las bases de datos en lenguaje natural.
Ejemplo:
Pregunta: La relación entre los índices plubiométricos y ladesertificación.
La búsqueda documental comienza una vez introducida la preguntaen el lugar
destinado para ese fin en el programa informático, yproporcionada la orden de
inicio. La duración de la búsqueda dependerá de lascaracterísticas del sistema y de
la complejidad de la pregunta. Si el sistema es manual, el lapsode tiempo estará
sujeto al tipo y al tamaño del mismo, y a la habilidad delprofesional.
La respuesta del sistema, o lo que es lo mismo, el resultado dela búsqueda puede
ser positiva y se materializa en un número, y negativa cuando nose ha encontrado
nada que responda a la pregunta planteada. Veamos la respuestaen dos
programas diferentes una vez preguntado por «Fotografíasubmarina» y «Bases de
datos»:
: FOTOGRAFIA SUBMARINA 0
Buscar: BASES DE DATOS
[ No hay documentos asociados ]
[ a esa petición de búsqueda ]
Por el contrario denominamos respuesta positiva cuando elresultado es ≥1. Del
mismo modo, el programa puede responder de manerasdistintas:
Universidad de Murcia Indización/ 31
: TESIS DOCTORALES 17
Buscar: LINGÜÍSTICA COMPUTACIONAL
Lingüística: 51
Computacional: 22
Lingüística computacional: 6
Sin embargo, se encuentra muy extendida la utilización de laexpresión “búsqueda
documental” para aglutinar todo el proceso de recuperacióndocumental, esto es, la
pregunta, la búsqueda automática o manual y la respuesta.
1.4.1 La exhaustividad y la precisión en la recuperacióndocumental.
Tradicionalmente, los resultados de las respuestas documentalesse han evaluado
por la exhaustividad («recall» en inglés) y la precisión. Eltérmino «recall» se ha
traducido de diferentes modos en español. Así por ejemplo,Coll-Vinent [1990, p.
139] emplea “recogida”, mientras que Slype [1991, p. 271]utiliza “llamada”. Para
expresar este concepto Pérez Álvarez-Ossorio [1988, p. 64],García Gutiérrez [1992,
p. 11], Gil Urdiciain [1994b, p. 80] o la norma UNE 50-121-91[p. 158] recurren a
“exhaustividad”. En cambio, Gómez Guinovart [1996, p.
Gil Leiva, Isidoro - UM Gil...Has de saber que esta vida es el minúsculo chapoteo de una gota de agua. Una bella criatura que desaparece en el mismo momento en que empieza a existir. - [PDF Document] (2024)
References
- https://fdocuments.ec/document/gil-leiva-isidoro-um-gil-has-de-saber-que-esta-vida-es-el-minsculo-chapoteo.html
- https://techblog.comsoc.org/page/71/?blackhole=cce79df19c
Top Articles
Prov 29 Nkjv
How Mastery Rank Works in Warframe - StudioLoot
Infinite Mage Novel Chapter 74 - faqwiki.us
Les Hirondelles de Kaboul - Yasmina Khadra
My Base Guide - 20 Of the Best Things to Do in Fort Benning GA
20 Best Things to Do in Fort Benning, GA - Travel Lens
Racine Craigslist
6.5 liters to gallons [liquid]
Seduction Patient Portal
Jake Andrich Lpsg
Latest Posts
Tatti Roana Bondage
WTB Honda CB750 CBX Kawasaki Z1 900 KZ 1000 H2 CB 750 H1 500 - wanted - by dealer - sale - craigslist
Article information
Author: Velia Krajcik
Last Updated:
Views: 6370
Rating: 4.3 / 5 (74 voted)
Reviews: 81% of readers found this page helpful
Author information
Name: Velia Krajcik
Birthday: 1996-07-27
Address: 520 Balistreri Mount, South Armand, OR 60528
Phone: +466880739437
Job: Future Retail Associate
Hobby: Polo, Scouting, Worldbuilding, Cosplaying, Photography, Rowing, Nordic skating
Introduction: My name is Velia Krajcik, I am a handsome, clean, lucky, gleaming, magnificent, proud, glorious person who loves writing and wants to share my knowledge and understanding with you.