Gil Leiva, Isidoro - UM Gil...Has de saber que esta vida es el minúsculo chapoteo de una gota de agua. Una bella criatura que desaparece en el mismo momento en que empieza a existir. - [PDF Document] (2024)

  • Gil Leiva, Isidoro

    La automatización de la indización, propuesta teórico-metodológica:

    aplicación al área de biblioteconomía y documentación

    Universidad de Murcia

    Servicio de Publicaciones

  • Universidad de Murcia Agradecimientos/

    A mis padres por suconfianza y apoyo sin peros

  • Universidad de Murcia Agradecimientos/

    AGRADECIMIENTOS

    Quiero agradecer a Javi, Gregorio y Pedro el apoyo que me hanprestado durante ellargo período en el que he llevado a cabo estetrabajo. Asimismo, quiero agradecera Vivina los continuos consejosy ánimos desde que inicié esta labor.

    También doy las gracias a Yolanda, Juani, Pepita y Antonio porsuayuda.

    Finalmente, agradezco a los doctores Rodríguez Muñoz y VeraLuján la dirección deesta tesis doctoral.

  • Has de saber que esta vida esel minúsculo chapoteode una gota deagua.

    Una bella criatura que desapareceen el mismo momento

    en que empieza a existir.Por lo tanto, márcate tu meta,

    y aprovecha al máximo cada díay cada noche para alcanzarla.

    Tsong-khapa

  • Universidad de Murcia Resumen/

    RESUMEN

    Se expone un marco conceptual sobre la automatización de laindización concretado

    en su delimitación, los posicionamientos de los investigadoresen Biblioteconomía y

    Documentación con respecto a estas indagaciones, el desarrollodiacrónico ocurrido

    en esta automatización, y en la explicitación de lainterdisciplinariedad inherente a

    este proceso. Se presenta una propuesta teórico-metodológicapara diseñar un

    procedimiento semiautomático para la indización de documentossobre

    Biblioteconomía y Documentación constituido por cuatro módulos.En los tres

    primeros se preparan las fuentes utilizadas, se seleccionan lostérminos candidatos

    a descriptores y se valoran y ponderan dichos términos, mientrasque en el cuarto

    módulo el usuario ejecuta una validación y edición interactivade los resultados

    propuestos. El sistema se fundamenta en el uso de un vocabulariocontrolado sobre

    Biblioteconomía y Documentación construido para tal fin. Laconsistencia media

    obtenida entre la indización de cincuenta artículos analizadospor indizadores de la

    Base de datos ISOC y por nuestra propuesta es de 25,93%.

  • Universidad de Murcia Abstract/

    ABSTRACT

    A conceptual framework is described for the automatization ofindexing involving its

    delimitation, the positioning of researchers in Library Scienceand Documentation

    with respect to these investigations, the diachronousdevelopment that has occurred

    in this automatization, and specifying the inherentinterdisciplinary nature of the

    process. A theoretical-methodological proposal is presented todesign a semi-

    automatic procedure for indexing Library Science andDocumentation documents. It

    consists of four modules. In the first three modules, thesources to be used are

    prepared, the terms to be candidates for descriptors are firstselected, and then

    evaluated and assigned weights. In the fourth module the userinteractively edits and

    convalidates the proposed results. The system is based on theuse of a controlled

    Library Science and Documentation vocabulary constructed to thisend. The mean

    consistency obtained for the indexing of 50 articles analyzed byISOC data base

    indexers and by our proposal was 25.93%.

  • Universidad de Murcia Indice/

    ÍNDICE

    0.- INTRODUCCIÓN..................................................................................1

    1. Aspectos formales.................................................................................12.Motivaciones..........................................................................................2

    2.1 Motivacionescientíficas...............................................................22.2 Motivaciones personales............................................................. 3

    3. Metodología...........................................................................................44.Objetivos..............................................................................................105. Estructuración ypresentación..............................................................11

    1.- LA INDIZACIÓN.................................................................................14

    1.1. El proceso documental.....................................................................14

    1.2. Laindización.....................................................................................161.2.1. La indización.Definición........................................................161.2.2. Las etapas de la indización................................................... 191.2.3. Laszonas de extracción de los conceptos.Tiempo dedicado 20

    1.3. Las características de la indización.................................................. 221.3.1. Laexhaustividad en laindización.......................................... 221.3.2. Laespecificidad en laindización........................................... 251.3.3. Lacorrección de la indización............................................... 251.3.4. Laconsistencia de la indización............................................ 26

    1.4. La recuperación documental: Evaluación del resultado de larespuestadocumental..............................................................29

    1.4.1. La exhaustividad y la precisión en la recuperación............... 31

    1.5. Los sistemas de indización...............................................................341.5.1. La indización pormaterias.....................................................341.5.2. La indización porunitérminos................................................351.5.3. La indización pordescriptores............................................... 35

    1.5.3.1. Los enlaces entre losdescriptores................................. 371.5.3.2. Losoperadores utilizados en las preguntasdocu-mentales......................................................................................401.5.3.3. Las características generales de los descriptores......... 42

    1.6. Los lenguajes documentales............................................................421.6.1. La tipología de los lenguajesdocumentales.......................... 43

    1.6.1.1. Las listas de palabras clave........................................... 441.6.1.2. Lasclasificaciones.........................................................441.6.1.3. Las listas de encabezamientos de materias.................. 45

  • Universidad de Murcia Indice/

    1.6.1.4. Lostesauros...................................................................48

    1.7. La normalización de la indización..................................................... 50

    2.- LA AUTOMATIZACIÓN DE LA INDIZACIÓN.................................... 53

    2.1. Introducción......................................................................................53

    2.2. La indización humana versus indizaciónautomática........................ 542.2.1. Argumentaciones encontra de la automatización de la indi-zación..............................................................................................542.2.2. Argumentaciones a favor de la automatización de laindi-zación..............................................................................................57

    2.3. El desarrollo diacrónico de la automatización de laindización ......... 602.3.1. Los métodosestadísticos......................................................612.3.2. Los métodos lingüísticos....................................................... 652.3.3. Eluso detesauros.................................................................742.3.4. El uso de sistemashíbridos...................................................762.3.5. La comparación de la eficacia de la indizaciónautomática

    versus manual.......................................................................79

    2.4. La interdisciplinariedad en la automatización de laindización.......... 812.4.1. Lingüística.............................................................................852.4.2. Terminología.........................................................................872.4.3.Informática.............................................................................882.4.4. Lingüística computacional..................................................... 892.4.5.Estadística.............................................................................902.4.6. Sistemasexpertos.................................................................91

    2.5. La automatización de la indización para información notextual....... 92

    2.6. El nivel de implantación de sistemas para la automatizaciónde la indización.................................................................................93

    2.7. Esquema representativo de las herramientas utilizadas en laautomatización de la indización............................................... 98

    3.- PROPUESTA TEÓRICO-METODOLÓGICA PARA LA AUTOMATI-ZACIÓN DE LAINDIZACIÓN EN EL ÁREA DE BIBLIOTECONOMÍAY DOCUMENTACIÓN...........................................................................100

    3.1. Introducción....................................................................................100

    3.2. La elección de las fuentes utilizadas en la automatizaciónde la indización....................................................... 101

  • Universidad de Murcia Indice/

    3.2.1. Los antecedentes de estos estudios................................... 1013.2.2. Ensayo en las Basesde datos del CSIC............................. 103

    3.2.2.1. Material ymétodos.......................................................1043.2.2.2. Resultados...................................................................1053.2.2.3.Conclusiones................................................................106

    3.3. La elección de un vocabulariocontrolado....................................... 1073.3.1. Lajustificación de la elección de un vocabulario controlado1083.3.2.La elaboración de la lista de términos autorizados .............111

    3.4. Propuesta para la automatización de laindización......................... 1153.4.1. Los módulos delsistema.....................................................117

    3.4.1.1. Módulo 1: Preprocesamiento....................................... 1183.4.1.2. Módulo 2:Procesamiento ............................................1233.4.1.3. Módulo 3: Valoración yponderación............................ 132

    3.4.2. Análisis de un documento en función de la propuestaprecedente.................................................1353.4.3. La evaluación de la propuesta............................................ 1493.4.4. Losproblemas detectados.................................................. 156

    4.-CONCLUSIONES..............................................................................1575.-BIBLIOGRAFÍA.................................................................................1656.-ANEXOS............................................................................................191

    Anexo 1:Glosario..........................................................................191Anexo 2: Definiciones sobreindización......................................... 195Anexo 3:Etapas en la indización.................................................. 197Anexo 4:Proceso íntegro de la indización.................................... 199Anexo 5: Palabrasvacías..............................................................200Anexo 7: Índices de consistenciaresultantes................................ 202Anexo 8: Vocabulariocontrolado...................................................220

  • Universidad de Murcia Index/

    INDEX

    0. INTRODUCTION...................................................................................1

    1. Formal aspects......................................................................................12.Motivations.............................................................................................2

    2.1 Scientificmotivations.................................................................22.2 Personal motivations.................................................................3

    3. Methodology..........................................................................................44. Objectives............................................................................................105. Arrangement and presentation............................................................ 11

    1. INDEXING...........................................................................................14

    1.1 The documentary process.................................................................14

    1.2 Indexing.............................................................................................161.2.1 Indexing.Definition...............................................................161.2.2. The stages of indexing........................................................ 191.2.3.The zones of extraction of concepts. Dedicated time..........20

    1.3. The characteristics of indexing......................................................... 221.3.1.Completeness in indexing................................................... 221.3.2.Specificity in indexing.......................................................... 251.3.3.Correction of indexing......................................................... 251.3.4.Consistency of indexing...................................................... 26

    1.4 Information retrieval: evaluation of the result of thedocumentaryresponse..................................................................................................29

    1.4.1. Completeness and accuracy inretrieval.............................. 31

    1.5. Indexing systems..............................................................................341.5.1. Indexing bysubject..............................................................341.5.2. Indexing by uniterms...........................................................351.5.3. Indexing by descriptors....................................................... 35

    1.5.3.1. Links between descriptors..................................... 371.5.3.2. The operators usedin documentary questioning... 401.5.3.3. General characteristics ofthe descriptors.............. 42

    1.6. Documentary languages...................................................................421.6.1. Typology of documentarylanguages................................... 43

    1.6.1.1. Keywordlists..........................................................441.6.1.2.Classifications........................................................441.6.1.3. Subject-headinglists.............................................. 451.6.1.4.Thesauri.................................................................48

    1.7. The normalization of indexing........................................................... 50

  • Universidad de Murcia Index/

    2. THE AUTOMATIZATION OFINDEXING............................................. 53

    2.1. Introduction.......................................................................................53

    2.2. Human indexing versus automaticindexing...................................... 542.2.1. Argumentsagainst automatization of indexing.................... 542.2.2.Arguments in favour of automatization of indexing .............57

    2.3. The diachronic development of the automatization ofindexing ........ 602.3.1. Statistical methods..............................................................612.3.2. Linguisticmethods...............................................................652.3.3. The use of thesauri.............................................................742.3.4. The use of hybrid systems.................................................. 762.3.5.Comparison of the efficacy of manual versus automaticindexing.........................................................................................79

    2.4. Interdisciplinarity in the automatization ofindexing........................... 812.4.1.Linguistics............................................................................852.4.2.Terminology.........................................................................872.4.3. Computer science...............................................................882.4.5. Computationallinguistics.....................................................892.4.5. Statistics..............................................................................902.4.6. Expertsystems....................................................................91

    2.5. The automatization of indexing for non-text information................... 92

    2.6. The level of implantation of systems for the automatizationofindexing...................................................................................................93

    2.7. Representative scheme of the tools used in theautomatization ofindexing...................................................................................................98

    3. THEORETICAL-METHODOLOGICAL PROPOSAL FORTHE AUTOMATIZATION OFINDEXING IN THE AREA OFLIBRARY SCIENCE AND DOCUMENTATION..................................... 100

    3.1 Introduction......................................................................................100

    3.2. The choice of sources used in the automatization ofindexing ....... 1013.2.1. Antecedents of these studies............................................ 1013.2.2. Trial withCSIC data bases................................................103

    3.2.2.1. Material and methods.......................................... 1043.2.2.2.Results.................................................................1053.2.2.3. Conclusions......................................................... 106

    3.3. The choice of a controlled vocabulary............................................ 1073.3.1. Thejustification of the choice of a controlled vocabulary .. 1083.3.2.Construction of the list of authorized terms....................... 111

  • Universidad de Murcia Index/

    3.4. Proposal for the automatization ofindexing.................................... 1153.4.1. The modulesof the system ...............................................117

    3.4.1.1. Module 1: Preprocessing..................................... 1183.4.1.2. Module 2:Processing .......................................... 1233.4.1.3.Module 3: Evalation and weight assignation........ 132

    3.4.2. Analysis of a document as a function of theprecedingproposal......................................................................................1353.4.3. Evaluation of theproposal................................................. 1493.4.4.Problems detected............................................................156

    4.-CONCLUSIONS................................................................................157

    5.-REFERENCES..................................................................................165

    APPENDICES........................................................................................191

    Appendix 1:Glossary.............................................................................191Appendix 2: Definitions concerning indexing......................................... 195Appendix 3: Stages inindexing..............................................................197Appendix 4: Integral process of indexing............................................... 199Appendix 5: Stopwords.........................................................................200Appendix 7: Resultant consistencyindices............................................ 202Appendix 8:Controlled vocabulary........................................................ 220

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 11

    0.- INTRODUCCIÓN

    1 ASPECTOS FORMALES.

    El Doctorado, según el Real Decreto 185/1985 del 16 de febrero,constituye la

    condición esencial para el progreso científico, social yeconómico de una

    comunidad. La formación de los investigadores depende de laprofundidad de sus

    contenidos y la seriedad en su planteamiento. Por ello, la Leyde Reforma

    Universitaria se plantea cuatro grandes objetivos en losestudios de postgrado:

    1. Disponer de un marco adecuado para la consecución ytransmisión de los

    avances científicos.

    2. Formar a los nuevos investigadores y preparar equipos deinvestigación que

    afronten con éxito el reto que suponen las nuevas ciencias,técnicas y

    metodologías.

    3. Impulsar la formación del nuevo profesorado.

    4. Perfeccionar el desarrollo profesional, científico, técnico yartístico de los titulados

    superiores.

    La Ley señala como requisitos para la obtención del título deDoctor, la necesidad

    de estar en posesión del título de Licenciado, Arquitecto oIngeniero, para: a)

    realizar y aprobar los cursos y seminarios del programa deDoctorado

    correspondiente con una duración de, al menos, dos cursosacadémicos, y b)

    presentar y aprobar una Tesis Doctoral consistente en un trabajooriginal de

    investigación, ambas fases bajo la supervisión y responsabilidadacadémica de un

    Departamento1.

    Tras la obtención del título de Licenciado, y con posesión deltítulo de Diplomado en

    Biblioteconomía y Documentación, comenzamos los Cursos deDoctorado en el

    1 Real Decrecto nº 185/1985, publicado en el Boletín Oficial delEstado nº 41 del 16 de febrero de 1985por el que se regula eltercer ciclo de estudios universitarios, la obtención y expedicióndel título deDoctor y otros estudios postgraduados.

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 22

    programa «TÉCNICAS Y MÉTODOS ACTUALES EN INFORMACIÓN YDOCUMENTACIÓN»2,

    coordinado por los Dres. Vivina Asensi y José V. RodríguezMuñoz, correspondiente

    al bienio 94/96. Estos cursos nos sirvieron para perfilar einiciar la presente Tesis

    doctoral.

    2 MOTIVACIONES.

    2.1 Científicas.

    Entre las razones que justifican las investigaciones para laautomatización de la

    indización destacan:

    La subjetividad está presente en el proceso de la indización. Elgrado de

    coincidencia entre los términos de indización asignados porindizadores

    profesionales diferentes suele oscilar entre el 30% y 60%. Sobreestos y otros

    aspectos se manifestó Cleverdon [1984] cuando expresó que sidos

    indizadores expertos analizan separadamente un mismo documentosólo

    convergen en el 30% de los términos propuestos; si dos personaso grupos

    construyen un tesauro solamente concuerdan en el 60% de lostérminos

    incluidos; si dos profesionales interrogan una base de datos conla misma

    cuestión sólo el 40% de la información recuperada es común; ypor último, si

    se pregunta a dos científicos sobre la relevancia de un conjuntode

    documentos, para una determinada cuestión, el acuerdo entreambos no

    excede del 60%. (Factor subjetividad).

    Las publicaciones periódicas, en la actualidad, son el vehículode transmisión

    de ingentes cantidades de información científico-técnica. Lacomunidad

    científica necesita mantenerse al corriente de los continuosavances

    2 Los treinta y dos crétidos se completaron con los siguientescursos: Programación lógica y lenguajenatural; Concepto e historiade la archivística; Evaluación de sistemas de informaciónydocumentación. Contraste de los lenguajes de recuperaciónempleados; Análisis de sistemas deinformación: propuesta de lametodología métrica; Tendencias actuales en los sistemasderecuperación de información (I); Indicadoresde actividadcientífica y modelosbibliométricos;Tendencias actuales en lossistemas de recuperación de información (II); Líneasdeinvestigación en bibliotecas de instituciones educativas; Eldesarrollo informativo de la literatura gris enlos distintos camposde la ciencia; Proceso y puesta en marcha de un Centro dedocumentación;Aplicaciones estadísticas en información ydocumentación; y Bases de datos lingüístico-gramaticales.Cursosimpartidos tanto por doctores del departamento de Información yDocumentación como porotros como Lengua Española y LingüísticaGeneral, Sociosanitarias o Matemáticas.

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 33

    ocurridos, y para ello, dispone de las bases de datos. Parael

    almacenamiento de un documento en éstas se ha de indizarpreviamente. En

    la Base de datos española ISOC se incorporan unos veintiseis milartículos al

    año; en el Centro de Documentación ruso ICSTI hasta 1992 seindizaban

    anualmente casi cincuenta mil nuevos documentos; en laBiblioteca Nacional

    de Agricultura de los Estados Unidos entre setenta y ochentamil; mientras

    que en la Base de datos alemana PHYS unos ciento veinticincomil. Si

    tenemos en cuenta que una indización adecuada de un documentorequiere

    unos diez minutos -si bien es muy dificil precisar este dato-,supone que un

    profesional en siete horas de trabajo al día “sin descanso”indizará menos de

    cincuenta documentos.

    Sin embargo, si un profesional sólo logra indizar ese número dedocumentos,

    algunas unidades de información y/o productores de bases dedatos

    necesitan un gran número de indizadores si pretenden que susclientes

    permanezcan al tanto de las últimas novedades científicas. Encambio, con la

    automatización de esta operación se consigue mayor rapidez. Asípor

    ejemplo, en el Getty Conservation Institute de los EstadosUnidos que

    produce boletines de resúmenes sobre Arte y Arqueología, antesde aplicar la

    automatización se indizaban 3,3 resúmenes a la hora. Después sepasó a

    16,8. (Factor tiempo y económico).

    En definitiva, un sistema de indización asistida, semiautomáticao automática

    interesa para alcanzar una mayor consistencia en la indización,para efectuarla

    siempre bajo los mismos parámetros, y para reducir el tiempo yel coste de

    ejecución. Obviamente, estos elementos repercuten en la calidadde los resultados y

    en la productividad de la institución.

    2.2 Motivaciones personales.

    La razón personal que nos mueve a emprender esta tesis estriple. En primer lugar,

    para la adquisición de un método de trabajo que nos conduzca alconocimiento de

    unos saberes que culminen nuestro aprendizaje universitario. Ensegundo lugar,

    guiados por el fin mismo de la investigación científica, esdecir, la producción de

    unos frutos que redunden de algún modo en la comunidad en la quevivimos. Y en

    tercer lugar, el interés por este tema del Análisis delcontenido de la Información

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 44

    arranca desde nuestra etapa como alumno de la Escuela deBiblioteconomía y

    Documentación de esta Universidad. Estas inquietudes nosllevaron a realizar un

    trabajo sobre los Orígenes del Análisis, Almacenamiento yRecuperación de la

    Información, donde se estudiaron aspectos de los incipientesmodos de indización

    sobre los primeros soportes documentales en la Antigüedad.

    3 METODOLOGÍA.

    El método científico según Sierra Bravo [1994, p. 29] es:

    “una forma de realizar una actividad; el camino o proceso que laactividad en

    cuestión ha de seguir para alcanzar su objetivo [...]. En elmétodo científico se

    pueden distinguir su contenido o método propiamente dicho,formado

    fundamentalmente por la serie de etapas sucesivas a seguir paraalcanzar el

    resultado pretendido y su base racional, constituida por elconjunto de ideas

    que sirven de fundamento y de orientación al método propiamentedicho”.

    Por tanto, según estos principios, necesitábamos un método detrabajo con el que

    guiar la investigación que pretendíamos iniciar. Porconsiguiente, la metodología

    adoptada no fue otra que la típica del método científicodividido en estas etapas:

    1.- Descubrimiento de los problemas de la investigación.

    La indización y sus aspectos circundantes han sido temas deinterés para los

    investigadores en las últimas décadas debido a que estaoperación es la clave para

    el almacenamiento y la recuperación de la información. Laautomatización de esta

    tarea ha centrado numerosos trabajos desde finales de los añoscincuenta hasta la

    actualidad. La mayor parte de ellos han pretendido llegar almismo fin, pero en

    ocasiones han seguido diferentes metodologías.

    Al acercanos a la automatización de la indización se echa enfalta trabajos donde se

    ofrezca una visión global del desarrollo ocurrido en esteproceso. Por otro lado, se

    ha reconocido que la Documentación es un áreainterdisciplinaria, e incluso se ha

    puesto de manifiesto cuales son las disciplinas y las cienciasque prestan

    fundamentos tanto teóricos como prácticos para su constitución.Pero en cambio, no

    se ha tratado la interdisciplinariedad inherente a laautomatización de la indización.

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 55

    Por último, también hay carencias en cuanto a propuestasdirigidas a la

    automatización de la indización de textos en español.

    Estas ideas de partida tratamos de corroborarlas en la siguientefase del método

    científico, que no es otra que la documentación de lainvestigación.

    2.- Documentación de la investigación.

    La investigación científica debe partir de los descubrimientoscientíficos antes

    conseguidos y, por tanto, exige una labor de documentación y delectura para

    conocer su existencia y recogerlos si fuera preciso. En virtudde este principio,

    emprendimos la labor de documentación por medio de una revisiónbibliográfica.

    Esta fase de documentación la dividimos en cuatro momentos biendiferenciados

    pero complementarios y, en la mayoría de las ocasiones,coincidentes en el espacio

    y en el tiempo. Consideramos doblemente justificado detallar deforma minuciosa

    esta fase de búsqueda y de revisión documental, por nuestracondición de

    doctorando, lo que nos lleva a explicitar la labor documentalllevada a cabo, y por

    nuestra categoría de documentalista.

    PRIMERA FASE:

    - Análisis y estudio de monografías españolas y extranjeras, quededicaran parte de

    su contenido a la automatización de la indización, con el fin deobtener una primera

    visión del asunto. Esto dio lugar a la confección de un conjuntode fichas temáticas

    en donde se recogían aspectos que nos parecían interesantes, asícomo citas

    textuales.

    SEGUNDA FASE:

    - Análisis y estudio de publicaciones periódicas por medio delvaciado de revistas:

    · Revisamos revistas españolas sobre Biblioteconomía yDocumentación en busca

    de trabajos publicados. Algunas de las revistas fueron:

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 66

    Revista Española de Documentación Científica

    Revista General de Información y Documentación

    Ciencias de la Documentación

    Boletín de la ANABAD

    Boletín de la Asociación Andaluza de Bibliotecarios

    Boletín de la Sociedad Española del Procesamiento del LenguajeNatural

    ITEM. Revistade Biblioteconomia i Documentació

    Métodos de Información

    · Vaciado de las Actas publicadas con motivo de los principalesCongresos y

    Jornadas celebradas en España sobre BiblioteconomíayDocumentación:

    Jornadas Españolas de Documentación Automatizada

    Jornades Catalanes de Documentació

    · Vaciado de Actas publicadas en Congresos afines aBiblioteconomía y

    Documentación:

    Sociedad Española para el Procesamiento del Lenguaje Natural

    Lenguajes Naturales y Lenguajes Formales

    · Vaciado de las bases de datos (en papel) disponibles en laBiblioteca de la

    Escuela de Biblioteconomía y Documentación de la Universidad deMurcia:

    LISA(1991-1992-1993-1995-1996-1997)

    PASCAL (1991-1992)

    · Vaciado de las publicaciones periódicas extranjerasdisponibles en la Biblioteca de

    la Escuela de Biblioteconomía y Documentación de la Universidadde Murcia, que

    trataran, directa o indirectamente, nuestro asunto:

    Documentaliste-Sciences de l'Information

    Documentation et Bibliothéques

    Encyclopedia of Library of Information Science

    Information Sciences Applications an International Journal

    International Forum on Information and Documentation

    Journal of Documentation

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 77

    Journal of Information Science

    Knowledge Organization

    · Vaciado de otras revistas no ubicadas en Murcia cuya revisiónera interesante. De

    este modo, examinamos publicaciones y números determinados en laBiblioteca de

    la Escuela de Biblioteconomía y Documentación de Granada y en laBiblioteca del

    Centro de Información y Documentación Científica (CINDOC) enMadrid. Las

    fuentes fueron:

    Annual Review of Information Science and Technology

    Aslib Proceedings

    Automatic Documentation and Mathematical Linguistics

    Information Processing and Management

    Journal of the American Society for Information Science(JASIS)

    Library Hi Tech

    Library Software review

    Pascal Thema

    The Indexer

    TERCERA FASE:

    Consultas a Bases de datos nacionales e internacionalessobre:

    Artículos Científicos:

    Base de datos ISOCdel CSIC

    Base de datos Medline (CD-ROM)

    Base de datos Silver Platter (CD-ROM),(Área Biblioteconomía yDoc.)

    Tesis Doctorales nacionales y extranjeras:

    TESEO: En febrero de 1996 se consultó esta base de datos delMinisterio de

    Educación y Ciencia, dedicada a Tesis doctorales españolas.Los

    descriptores utilizados fueron:

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 88

    INDIZACIÓN

    INDIZACIÓN AUTOMÁTICA

    LINGÜÍSTICA COMPUTACIONAL

    PROCESAMIENTO DEL LENGUAJE NATURAL

    LINGÜÍSTICA INFORMÁTICA

    Sobre la automatización de la indización no se encontró ningunaTesis. Esta

    base de datos se volvió a consultar en febrero de 1997 y elresultado fue el

    mismo.

    Dissertation Abstracts Online: Esta base de datos norteamericanacuenta

    con más de un millón doscientas mil tesis, principalmente, deEstados

    Unidos, si bien abarca Canadá y Europa desde 1988. La búsquedase

    efectuó en febrero de 1996 y se localizaron 18 Tesis Doctorales,la más

    reciente de 1995 y la más antigua de 1970.

    CUARTA FASE:

    En esta última fase el objetivo era buscar información sobre laautomatización de la

    indización en Internet. Para ello, utilizamos los buscadoresLycos, Yahoo, Infoseek y

    Altavista. Esta opción nos permitió conocer Departamentosuniversitarios en los que

    se ha trabajado este asunto y empresas que comercializanproductos para el

    análisis de la información.

    En esta fase de documentación solamente se han encontrado dosartículos

    directamente relacionados con nuestro tema de investigaciónpublicados en fuentes

    españolas. El primer articulo lo publicó en 1983 Valle Bracero yFernández García,

    bajo el título “Automatización de la indización y coordinaciónde descriptores”, en la

    Revista Española de Documentación Científica. El otro artículocorresponde al

    titulado: “Primeras experiencias sobre el análisis de textos encastellano aplicado a

    la indexación automática de información”, publicado en 1990 porSimón Granda y

    Lema Garzón, en las Terceras Jornadas Españolas deDocumentación

    Automatizada. Estos trabajos presentan varias propuestas para laautomatización

    cuyofundamento esencial era la extracción de un conjunto deestructuras

    sintagmáticas preestablecidas o “patrones admitidos” paraconstituir candidatos a

    descriptores.

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 99

    Por otro lado, los manuales sobre Biblioteconomía yDocumentación publicados por

    investigadores o profesionales españoles apenas dedican unaslíneas a la

    automatización de la indización. En cambio, en países comoFrancia, Brasil pero

    principalmente, Estados Unidos se ha trabajado en este temadesde los años

    sesenta.

    3.- Definición de los problemas.

    La fase anterior de documentación nos valió por un lado, paradefinir los problemas

    de partida, y por otro,para concretar aún más la dirección y laslíneas de

    investigación de este trabajo. Por tanto, cabe precisar que:

    No se han encontrado trabajos de investigación que presenten deun modo

    diacrónico el desarrollo ocurrido en la automatización de laindización donde se

    concreten las metodologías empleadas, los problemas planteados ola misma

    agrupación de propuestas.

    Por otro lado, hemos localizado estudios dedicados a plantear ydemostrar la

    interdisciplinariedad de la Documentación, así como de larelación existente entre la

    Lingüística y la Documentación, pero no se ha planteado lainterdisciplinariedad

    inherente a la automatización de la indización.

    Por último, la automatización de la indización ha sido un asuntopoco tratado por

    los investigadores españoles de Biblioteconomía y Documentación.Esto ha

    provocado una carencia de propuestas dirigidas en este sentidopara textos en

    español.

    4.- Cómo se han abordado los problemas.

    Para llevar a cabo los objetivos que se mencionan en el epígrafesiguiente se han

    seguido diferentes formas de actuar. Por un lado, el análisiscrítico de una parte

    importante de la bibliografía consultada nos ha permitidoaclarar y especificar temas

    tan importantes como las características de la indización,mostrar el desarrollo

    diacrónico y la problemática de la automatización de laindización, o la

    interdisciplinariedad inherente a este asunto. Por otro lado,hemos llevado también a

    cabo un trabajo experimental dividido en dos momentos diferentesde la

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 1100

    investigación. En primer lugar, un ensayo sobre la indización endiferentes Bases de

    datos donde se comprobó la importancia de los títulos, losresúmenes y los textos

    en la indización de los documentos. En segundo lugar, se aplicómanualmente el

    sistema propuesto a un grupo de artículos indizados en una dedichas Bases de

    datos con el fin de hallar los índices de consistencia entre laindización efectuada

    por los indizadores profesionales y por el sistema.

    4 OBJETIVOS.

    Perseguimos tres objetivos principales:

    En primer lugar, pretendemos adentrarnos en los aspectosconceptuales relativos a

    la indización para elaborar un marco teórico del proceso íntegroque contemple

    desde su delimitación conceptual, fases de actuación, desarrollodiacrónico y el

    papel fundamental que desempeña la indización como “puente”entre el

    almacenamiento de los documentos y su recuperación. Endefinitiva, en esta parte

    del trabajo buscamos acercarnos al tema de estudio y a ellodedicaremos el capítulo

    uno.

    En segundo lugar, acometeremos la revisión y el análisis deldesarrollo diacrónico

    sucedido en la automatización de la indización desde lasprimeras propuestas, a

    finales de los años cincuenta, hasta el presente. Asimismo,comprobaremos cuales

    son las ciencias y las disciplinas que intervienen, en mayor omenor medida, en

    automatizar esta operación. El fin de este capítulo segundo esconocer las iniciativas

    más relevantes en la automatización de la indización, lasmetodologías empleadas,

    los resultados obtenidos y el nivel de implantación de estossistemas en la

    actualidad.

    En tercer lugar, el descubrimiento, la asimilación y lamaduración de todos los

    aspectos estudiados en la consecución de los objetivosanteriores, nos

    proporcionarán los conocimientos suficientes para diseñar unprocedimiento que nos

    lleve a una propuesta para la automatización de la indizaciónpara el español, y más

    concretamente para el área de Biblioteconomía y Documentación.En consecuencia,

    el tercer capítulo de la tesis lo dedicaremos al desarrolloteórico del sistema, en el

    que se explicarán las razones, las herramientas y lasmetodologías adoptadas.

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 1111

    5 ESTRUCTURACIÓN Y PRESENTACIÓN.

    La estructura de este trabajo está compuesta por unaintroducción, por un cuerpo

    central integrado por tres capítulos, y por la parte dedicada alas conclusiones.

    Además, incluye las referencias bibliográficas y el bloque deanexos.

    En la introducción, como se ha comprobado, se explica el marcoacadémico en el

    que se ha desarrollado esta tesis, cuales son las motivacionesque nos han inducido

    a acometer esta investigación, la metodología seguida y losobjetivos marcados.

    El contenido de cada uno de los tres capítulos ya se hacomentado en el epígrafe

    anterior dedicado a los objetivos perseguidos con este trabajo.Y en el cuarto y

    último capítulo, se exponen las conclusiones alcanzadas en estainvestigación.

    El anexo está conformado por una serie de gráficos y datos cuyaaparición en el

    cuerpo central de la Tesis no estaba plenamente justificada.Así, contiene los

    siguientes anexos:

    ANEXO 1: Glosario de términos sobre Biblioteconomía yDocumentación

    empleados a lo largo de este trabajo.

    ANEXO 2: Tablas con definiciones de la “indización”

    ANEXO 3: Etapas de la indización aportadas por diferentesautores.

    ANEXO 4: Esquema del proceso íntegro de la indización.

    ANEXO 5: Fichero de palabras vacías.

    ANEXO 6: Resúmenes de artículos de revista.

    ANEXO 7: Resultados de los índices de consistencia obtenidos enla

    comparación de la indización efectuada por profesionales y laconseguida tras la

    aplicación manual de la propuesta.

  • UUnniivveerrssiiddaadd ddee MMuurrcciiaaIInnttoodduucccciióónn// 1122

    ANEXO 8: Vocabulario controlado sobre Biblioteconomía yDocumentación

    utilizado por la propuesta.

    En cuanto a la presentación de la Tesis se ha optado por lacolocación de las notas

    explicativas o aclarativas a pie de página, con la enumeracióncorrelativa a partir de

    la nota 1. Este mismo proceso se ha repetido en cada uno de loscapítulos. El

    motivo de este planteamiento es evitar el desplazamiento hastala parte final para

    consultar alguna nota. Por otro lado, para las citasbibliográficas se ha optado por el

    método de colocar entre corchetes el nombre o nombres de losautores, el año de

    publicación de la obra y la página que se cita, recogido en lanorma UNE 50-104-94

    (equivalente a ISO 690:1987).

  • Universidad de Murcia Resumen capítulo 1/ 13

    En este primer capítulo se revisan los principalesaspectosteóricos relativos a la indización. Se comienzacon una brevepresentación del proceso documentalcomo contexto en el que seefectúa la indización.Posteriormente, se lleva a cabo sudelimitación, así comoel examen de las etapas sucesivas en laindización de losdocumentos. Después se analizan susprincipalescaracterísticas, los sistemas de indización, loslenguajesdocumentales, y por último, la normalización deestatarea.

  • Universidad de Murcia Indización/ 14

    11..-- LLAA IINNDDIIZZAACCIIÓÓNN

    11..11 EELL PPRROOCCEESSOO DDOOCCUUMMEENNTTAALL..

    El primer paso que juzgamos necesario es situar la indización enel proceso

    documental. El proceso documental es el conjunto de operacionesdirigidas a la

    selección, la adquisición, el registro y el tratamiento de losdocumentos con el fin de

    posibilitar su almacenamiento y recuperación para sudifusión.

    La entrada de los documentos en una Biblioteca o un Centro deDocumentación se

    efectúa por medio de dos etapas sucesivas: la selección y laadquisición. La política

    de adquisiciones debe estar perfectamente diseñada en relaciónal presupuesto, los

    recursos y los servicios prestados. La incorporación de fondosal centro se lleva a

    cabo por compra y de modo gratuito. Los fondos gratuitos seconsiguen por el

    intercambio de documentos entre instituciones o por donacionesprivadas.

    Por otro lado, como su nombre indica seleccionar es elegir ladocumentación que

    debe incorporarse al centro. Por tanto, la selección delmaterial y su posterior

    adquisición es la primera etapa del proceso que dirige a laconstitución de los fondos

    documentales. Por lo general, en cada centro hay una personaencargada de esta

    tarea y una cuestión clave en el proceso de la selección escontar con las

    necesidades, las características y las preferencias de losusuarios. La selección de

    los documentos se lleva a cabo a través de bibliografías, decatálogos editoriales en

    papel o en línea, por consultas a bases de datos, a revistasespecializadas y de

    reseñas, entre otras fuentes.

    Otra fase en el proceso documental es el tratamiento técnico quereciben los

    documentos para que sean utilizados por los usuarios. Estetratamiento se divide en:

    análisis de la forma y análisis del contenido. El análisis de laforma de un documento

    también se conoce como descripción bibliográfica o catalogación,mientras que el

    análisis del contenido abarca dos procesos diferentes: elresumen y la indización.

    La catalogación se acomete una vez que el documento ha ingresadoen el Centro,

    aunque a veces, la descripción bibliográfica viene en laspáginas preliminares del

    propio documento. El objetivo de la catalogación es:

  • Universidad de Murcia Indización/ 15

    “suministrar una representación del documento que lo describa deforma

    única, sin ambigüedades, y que permita luego identificarlo,localizarlo,

    incorporarlo a los ficheros y catálogos”. [Guinchat y Menou,1983, p. 101]

    Con respecto al análisis del contenido de los documentos(resumen e indización)

    cabe mencionar lo siguiente. El principal objetivo del resumenes informar a los

    usuarios del contenido puntual de los documentos a través de loselementos que

    contribuyan a la toma de decisiones sobre la conveniencia deconsultar el texto

    completo. Moreiro González [1989a, p. 157 y ss.] apunta otrosobjetivos como

    reflejar los diferentes bloques de datos con sus característicasy sus atributos

    principales, reemplazar la información y expresar el contenidoesencial de los

    documentos no textuales. En cuanto a la tipología, este autorseñala que

    encontramos resúmenes por la mediación informativa que cumplen,la

    descodificación del texto íntegro, el mediador, el número defuentes analizadas, el

    modo de difusión y la calidad de las fuentes.

    La indización tiene como principal objetivo el almacenamiento yla recuperación de

    la información. Al ser la indización un proceso que intervieneen dos momentos

    diferentes del trabajo con los documentos, ofrece dos vertientesenfrentadas. La

    primera es la indización de los documentos, que tiene por misiónel almacenamiento

    de los mismos una vez que han sido analizados y representadossus conceptos

    esenciales a través de términos de indización. En segundo lugar,la indización de las

    preguntas para propiciar la recuperación documental. Enconsecuencia, el objetivo

    general de la indización es el almacenamiento y la recuperaciónde la información.

    El proceso de la indización se divide en dos etapas:

    1. Análisis de los documentos y las preguntas para la selecciónde sus

    conceptos esenciales explícitos o implícitos.

    2. Conversión de los conceptos seleccionados en lenguaje naturala un

    lenguaje documental por medio de herramientas como losvocabularios

    controlados.

    La última fase de la cadena documental es la salida de lainformación. Todas las

    operaciones desarrolladas en la fase de entrada y de tratamientode la información

  • Universidad de Murcia Indización/ 16

    tienen un objetivo principal: la difusión de la información. Larazón de ser de estas

    operaciones, y de la misma disciplina de la Documentación, esdifundir la

    información que previamente ha sido seleccionada, adquirida yanalizada. De este

    modo, si a la fase de difusión no se da una importancia suprematodo el trabajo

    desarrollado servirá para poco.

    1.2 LA INDIZACIÓN.

    En los años setenta se dedicaron numerosos esfuerzos deinvestigación para la

    creación de las bases teóricas de la indización y para labúsqueda de una

    metodología y de unos principios sólidos. A finales de estadécada, Cooper [1978]

    defendió que la indización se había estudiado extensamente perono se había

    profundizado en el proceso. Algunos de los estudios hasta esafecha presentaban

    cómo eran indizados los documentos por los profesionales, másque cómo se

    deberían indizar y la posibilidad de automatizar esta operaciónpor medio de

    normas. En cambio, otros versaban sobre los problemas centralesde la indización:

    la búsqueda de criterios normativos tanto para la indizaciónhumana como para su

    automatización.

    1.2.1 La indización. Definición.

    Hay un gran número de definiciones sobre la «indización» y en elanexo 2

    mostramos un conjunto de ellas. Aunque no es nuestro objetivorepasar cada una

    de las definiciones existentes, intentaremos hallar algunas delas principales

    deficiencias cometidas en su delimitación. En casi todas lasdefiniciones mostradas

    en el anexo, por lo general, hay coincidencia a la hora de ladelimitación del

    concepto de la indización. No obstante, no estamos de acuerdocon la mayoría de

    estas definiciones por mostrarse incompletas. Sorprende enprimer lugar, la cantidad

    de verbos empleados para describir la acción que tratamos:retener, asignar,

    extraer, captar, resumir, describir, caracterizar, escoger,analizar, aislar, identificar,

    traducir, indicar, interpretar o enumerar. Nosotrosrecurriremos, generalmente, a los

    verbos analizar, seleccionar, asignar y convertir parareferirnos al proceso de la

    indización.

    Hemos comprobado que para definir la indización solamente seconsidera el

    documento como fuente de análisis en la mayoría de lasocasiones. Esto significa

  • Universidad de Murcia Indización/ 17

    efectuar una delimitación sesgada del proceso, porque se deja delado la petición

    del usuario o la pregunta documental. Por estos motivosconsideramos necesaria la

    siguiente distinción para especificar el proceso íntegro de laindización. Por un lado,

    hablaremos de la indización de los documentos, y por otro, de laindización de las

    preguntas.

    En la indización de los documentos interviene, en un primermomento, el análisis y

    la selección de los conceptos presentes en el título, el resumeno el texto íntegro

    (fig. 1).

    → Lectura horizontal →Fuentes ==============> Términos deIndización

    Figura 1. Extracción de términos explícitos

    Así como la asignación de los conceptos implícitos en los textos(fig. 2).

    Fuentes ==============> Términos de indización

    ↑ Lectura vertical ↑

    Figura 2. Asignación de términos implícitos

    Por tanto, el subproceso de la indización de los documentosqueda del siguiente

    modo:

    → Lectura horizontal →Fuentes ================> Términos deindización

    ↑ Lectura vertical ↑

    Figura 3. Subproceso de la indización de los documentos

    En un segundo momento, los conceptos en lenguaje natural, tantolos extraídos del

    documento como los asignados, siguen uno de estos caminos: elalmacenamiento

    de esos conceptos a través de términos en lenguaje natural, o laconversión de

    dichos conceptos en términos normalizados y controlados con laayuda de un

    vocabulario controlado. Por último, un aspecto tan importantecomo los

    anteriormente descritos, es tener presente, en cada momento delproceso (análisis,

  • Universidad de Murcia Indización/ 18

    selección, asignación y conversión) cómo solicitaría un usuarioese documento, es

    decir, realizar una indización de los documentos orientada a laspreguntas de los

    usuarios, o lo que es lo mismo, a la recuperación de losdocumentos.

    En cuanto a la indización de las preguntas cabe mencionar losiguiente. Cuando

    llega al documentalista una petición de información documental,tras un diálogo con

    el usuario, la modela y la materializa en una frase o unapregunta que servirá para

    interrogar al sistema que tiene almacenada la información. Estafrase o pregunta

    documental, debe sufrir el mismo proceso expresado para laindización de los

    documentos. Pero en esta ocasión es preciso estimar qué términosse pudieron

    manejar en la fase de análisis del documento, es decir, ejecutaruna indización de la

    pregunta orientada al documento.

    La observación del esquema del proceso íntegro de la indización(anexo 3) nos

    induce a definirla como un proceso guiado por el documentalistaque permite

    recorrer tanto a los documentos como a las preguntas un trayectoiniciado desde

    puntos enfrentados. Este proceso consiste en el análisis y laselección de los

    conceptos esenciales, así como la asignación de los implícitos-si fuera necesario-

    y, el almacenamiento de los mismos en lenguaje natural o suconversión en

    términos normalizados y controlados con la ayuda de una serie deherramientas,

    que permitan recuperar los documentos en el momento deseado. Esdecir, la

    indización representa a dos objetos en movimiento -documento ypregunta- hacia el

    mismo punto, cuya unión provoca una respuesta.

    Por tanto, de lo mencionado anteriormente se deduce que:

    El objetivo de la indización de los documentos es permitirsu

    almacenamiento, mientras que el de la indización de laspreguntas encamina

    la recuperación documental. Por tanto, el objetivo general de laindización es

    el almacenamiento y la recuperación de la información. Estolleva a que la

    indización y la recuperación sean las dos caras de una mismamoneda.

    Las etapas de la indización las dividimos en dos: el análisis delos

    documentos y de las preguntas para la selección de los conceptosexplícitos

    o implícitos. Y el almacenamiento de los conceptos por medio detérminos en

  • Universidad de Murcia Indización/ 19

    lenguaje natural, o su conversión a un lenguaje normalizado ycontrolado

    (vocabularios controlados).

    1.2.2 Las etapas de la indización.

    Al igual que ocurre con la definición de la indización, sepresentan diferencias en

    cuanto a la enumeración de los pasos ejecutables. En laliteratura revisada, unos

    autores dividen esta tarea en dos fases mientras que otrosestablecen hasta ocho.

    En el anexo 4 han sido recogidas las propuestas de variosautores. La disparidad de

    criterios a la hora de dividir el proceso que nos ocupa en fasesqueda patente. No

    obstante, sin entrar de lleno en este asunto efectuaremosalgunos comentarios al

    respecto.

    No participamos de la opinión de considerar una faseindependiente la asignación

    de conceptos que no están explícitos en el documento. Tampocojuzgamos lógico

    enumerar la etapa de asignación de conceptos explícitos, tras lafase de conversión

    de los términos en lenguaje natural al de indización. Porúltimo, no coincidimos con

    la división de Slype en dos de sus etapas propuestas. El primerdesacuerdo se

    produce porque considera como primera etapa la lectura deldocumento y como

    segunda la identificación de los conceptos explícitos eimplícitos del mismo. No es

    necesario, a nuestro juicio, la separación de la fase de lecturade la de selección de

    los conceptos, ya que no son dos etapas sucesivas en el espacioy en el tiempo,

    sino simultáneas. El segundo desacuerdo llega cuando apunta comocuarta y última

    etapa, la incorporación de enlaces sintácticos entre losdescriptores. A nuestro

    entender, no hay diferencia si un concepto al convertirlo entérmino de indización

    lleva asociado algún enlace, porque el proceso de conversión esel mismo, sólo que

    más largo.

    Según lo alegado en párrafos precedentes existe una estrecharelación entre la

    indización y la recuperación documental. Por tanto, esconveniente que en los

    servicios de información sea la misma persona la que lleve acabo la tarea de indizar

    y la de atender a los usuarios. Hay casos en los que esimposible que se produzca

    tal coincidencia como, por ejemplo, la recuperación de lainformación en las bases

    de datos en línea. Esta circunstancia es una más de las causasque incitan a

    conseguir, en la medida de lo posible, la mayor normalizaciónposible en el proceso

    de la indización y la recuperación documental. Por estasrazones, es recomendable

  • Universidad de Murcia Indización/ 20

    el máximo contacto entre los productores de las bases de datos yaquellos

    profesionales que, desde cualquier punto distante, lasinterroga, para asegurar que

    la fase de recuperación se realice convenientemente.

    1.2.3 Las zonas de extracción de los conceptos. Tiempodedicado.

    En cuanto a las zonas de extracción de los conceptos y el tiempodedicado a ello no

    existe una coincidencia plena por parte de los profesionales yde los investigadores.

    Si bien es cierto que se produce una mayor coincidencia encuanto a las fuentes o

    zonas más apropiadas para la obtención de los conceptos quefinalmente se

    convertirán en términos de indización.

    La norma UNE 50-121-91 señala las siguientes partes de losdocumentos como

    importantes a la hora de la indización: título, resumen, sumarioo tabla de

    contenidos, introducción, frases de apertura de capítulos ypárrafos, conclusiones,

    ilustraciones, palabras o grupos de palabras con una tipografíainusual.

    En un estudio realizado por Euratom [Dijk y Slype, 1972, p. 105]se llegó a la

    conclusión de que, los resúmenes de los documentosproporcionaban el triple de los

    términos de indización que los títulos.

    Para comprobar la importancia de los títulos, los resúmenes ylos textos para la

    indización de los documentos, practicamos un ensayo sobreartículos científicos de

    diferentes áreas del conocimiento en las Bases de datos delCSIC. Este ensayo se

    detallará en el capítulo tercero, pero podemos adelantar que decara a la indización

    de los documentos, en general, los títulos proporcionan unnúmero menor de

    conceptos que los resúmenes. Y además, en ocasiones, estas dosfuentes se han

    mostrado insuficientes para la adecuada indización de losartículos, por lo que es

    necesario recurrir también al texto. En consecuencia,consideramos precisa la

    utilización de los títulos, los resúmenes y los textos para laindización de los

    documentos.

    Por otro lado, en virtud de las observaciones llevadas a cabodurante este estudio,

    consideramos que los indizadores (dedicados al análisis del áreade Biblioteconomía

    y Documentación en la Base de datos ISOC) toman como fuentesprincipales para

    la extracción de conceptos, en primer lugar, los resúmenes y, ensegundo lugar, los

  • Universidad de Murcia Indización/ 21

    títulos. Y con respecto al texto: la introducción, los epígrafesde los apartados y las

    conclusiones.

    El tiempo medio dedicado, o que debería dedicarse, a laindización es por diversos

    motivos de difícil delimitación. Señalaremos solamente tres.Primero, depende de

    las directrices marcadas por el sistema, las que obedecen a suvez, a varios factores

    como los tipos y las necesidades de los usuarios o simplemente,la cantidad de

    profesionales dedicados a esta operación. Segundo, en el caso deque la institución

    no marque las pautas, el tiempo consagrado a cada documento vaen función de la

    profesionalidad de los indizadores. Tercero, está sujeto a lascaracterísticas propias

    de la indización como la profundidad o la perfecciónperseguidas, así como a otros

    factores como la clase de documentos analizados, el tipo deinformación contenida

    en los mismos o incluso, el tamaño de los documentos1.

    En un experimento citado en García Gutiérrez [1984, p. 115], yefectuado para

    comprobar la realidad sobre la indización en Gran Bretaña aprincipios de los años

    setenta, se constató que el tiempo para obtener cuatro palabrasclave era de tres

    minutos; cinco minutos para conseguir de cinco a diez; ochominutos para cosechar

    de once a veinte, y doce minutos para más de veinte palabrasclave. A estos

    tiempos hay que sumarles el tiempo de convertir las palabrasclave en descriptores,

    si se emplea el término palabra clave para expresar los términosseleccionados y/o

    asignados en lenguaje natural.

    En el estudio ya citado, desarrollado en Euratom, se llegó a laconclusión de que

    una indización sobre el texto completo de un artículo exige ochoveces más tiempo

    que la practicada sobre el resumen. Del mismo modo, Farrow[1994, p. 158] toma

    unos párrafos de Cleverdon [1962] en los que éste últimoexpresaba que, para la

    indización de informes técnicos, el tiempo óptimo dedicado podíaser de cuatro

    minutos, más un 60% en función de las condiciones de trabajo.Con respecto a este

    mismo asunto, Amat [1989, p. 176] mencionó que para una media deunos diez

    términos se emplea un tiempo medio de veinte minutos.

    1 En el estudio que ya se ha mencionado sobre las seis áreas delconocimiento indizadas en Bases dedatos del CSIC hemos constatadoque no existe relación entre el número de páginas de losdocumentosy el número de descriptores asignados. Hemos detectado artículoscon escasas páginasy descriptores; artículos con bastantes páginasy pocos descriptores; artículos con pocas páginas y

  • Universidad de Murcia Indización/ 22

    Como se ha observado, resulta difícil la delimitación del tiempoque se debe dedicar

    a la indización de un documento.

    1.3 LAS CARACTERÍSTICAS DE LA INDIZACIÓN.

    En este apartado veremos los elementos que confieren o niegan,en gran medida, la

    calidad al producto resultante de la indización. Nos referimos ala exhaustividad en

    la indización (los conceptos caracterizadores del contenido deun documento), la

    especificidad (la precisión para detectar los conceptos másimportantes de los

    documentos), la corrección (la omisión de términos correctos ola inclusión de otros

    innecesarios), y la consistencia (el grado de coincidencia a lahora de la

    presentación de los términos de indización por dos sistemas opor dos indizadores

    diferentes).

    1.3.1 La exhaustividad en la indización.

    La exhaustividad en la indización está relacionada, como bien seindica en la norma

    UNE 50-121-91 [p. 156], con la cantidad de conceptos quecaracterizan el contenido

    íntegro del documento. Hemos constatado que la exhaustividad enla indización se

    suele identificar con el número de términos de indizaciónasignados a un

    documento. Es decir, cuantos más descriptores se asigna a undocumento mayor

    exhaustividad y viceversa. En esta dirección se han manifestadoSparck Jones

    [1973], Maron [1979, p. 224], García Gutiérrez [1984, p. 122],Rowley [1988, p. 56],

    Salton [1989, p. 277], Amat [1989, p. 176] o Pinto Molina [1993,p. 223].

    Con respecto a esta concepción de la exhaustividad en laindización, se puede

    objetar que la exhaustividad tiene que ver con la selección y/oasignación de todos

    los conceptos esenciales explícitos o implícitos en el documentoo en la pregunta

    documental. Por tanto, si recurrimos al cómputo de losdescriptores como medio

    para medir la exhaustividad, bien en la indización de undocumento, o bien entre dos

    sistemas o dos Bases de datos diferentes, confundimos susignificado y utilizamos

    un solo factor para la medición de la exhaustividad.

    una cantidad importante de descriptores y, por último, artículoscon un número elevado tanto depáginas como de descriptores.

  • Universidad de Murcia Indización/ 23

    Para Soergel [1994, p. 591] una entidad2 indizada es pertinentepara un número de

    conceptos, por ello, entiende como exhaustividad en laindización que esos

    conceptos deben estar comprendidos en los descriptores asignadosa esa entidad.

    Y coincidimos plenamente con este autor cuando opina que elnúmero de

    descriptores empleados por documento no debe ser el único ydeterminante valor

    considerado para comprobar el grado de exhaustividad en laindización de los

    documentos. En este error se ha incurrido más de lo que seríadeseable, como

    hemos comprobado. Este autor proporciona otros factores para lamedición de la

    exhaustividad, tales como el grado de precoordinación, lacorrección de la

    indización, y el criterio de indización.

    El grado de precoordinación en los descriptores es un factorpara la comparación del

    grado de exhaustividad en la indización entre diferentes basesde datos o

    instituciones que analizan los mismos documentos. Imaginemos dosinstituciones

    con diferentes grados de coordinación:

    DOCUMENTOS

    DESCRIPTORES DE LA

    UNIDAD DE

    INFORMACIÓN A

    DESCRIPTORES DE LA

    UNIDAD DE

    INFORMACIÓN B

    Documento 1

    FORMACIÓN DE

    USUARIOS

    DEMANDA DE

    INFORMACIÓN

    SERVICIOS DE

    INFORMACIÓN

    USUARIOS /

    FORMACIÓN/

    DEMANDA/

    INFORMACIÓN/

    SERVICIOS

    Documento 2

    PROGRAMAS DE

    ORDENADOR

    REDES DE

    COMUNICACIONES

    REDES DE INFORMACIÓN

    ORDENADOR /

    PROGRAMAS/

    REDES/

    COMUNICACIONES/

    INFORMACIÓN

    2 Este autor utiliza “entidad” o “ítem” como términos generalesque pueden referirse tanto adocumentos como a módulos de programaso a otros elementos.

  • Universidad de Murcia Indización/ 24

    En la Unidad de información B el número de descriptoresasignados a cada

    documento es de cinco, con un grado de precoordinación nulo,mientras que en la

    Unidad de información A al emplear un grado mayor deprecoordinación solamente

    se atribuyen tres términos de indización por documento. Portanto, ¿podemos

    considerar que la exhaustividad en la Unidad de información A esmayor que en la

    B?. Evidentemente, no. Esto demuestra que el número dedescriptores no es un

    factor determinante para medir la exhaustividad en laindización.

    Otro factor es la corrección de la indización. Es lógico pensarque si a un documento

    se atribuyen términos de indización incorrectos, por un lado,aumenta el número de

    términos asignados, pero por otro lado, y éste es el principalproblema, no se captan

    todos los conceptos expresados en el documento.

    El tercer factor mencionado por Soergel es el criterio deindización. En algunos

    sistemas una vez que se han seleccionado los términos deindización se aumenta

    su número por la asignación de otros relacionados o genéricos.Así por ejemplo, si

    un documento trata sobre “depresión clínica” podría indizarsepor el descriptor

    «DEPRESIÓN CLÍNICA», que posiblemente fuera uno de los máscorrectos. Pero a

    la vez por otros términos más amplios como «PSICOSIS», «PSICOSISAFECTIVA»,

    o «DESORDEN MENTAL». Sin embargo, estos tres términos noproporcionan un

    mayor grado de exhaustividad en cuanto a los conceptos presentesen el

    documento.

    Por consiguiente, para un análisis comparativo entre variossistemas o bases de

    datos que analicen los mismos documentos para comprobar el gradode

    exhaustividad, se tendrá que tener en cuenta este factor.

    A nuestro juicio existen varias causas por las que algunossistemas de información o

    Bases de datos amplían el número de descriptores sin abarcar másconceptos

    contenidos en el documento:

    Por la generalidad o la especialización de la informacióntratada.

    Por las exigencias de los usuarios.

  • Universidad de Murcia Indización/ 25

    Cuantos más descriptores sean asignados a un documento, mayoresserán

    las posibilidades de recuperarlo, aunque disminuye el grado deprecisión en

    la recuperación.

    1.3.2 La especificidad en la indización.

    Desde mitad de los años setenta se han publicado trabajos sobrela medición de la

    especificidad de los términos de indización [Sparck Jones, 1972; Robertson, 1972,

    1974 ; Yu y Salton, 1976 ; Wu y Salton, 1981 o Wong y Yao,1992]. Para Van Slype

    [1991, p. 123], la especificidad estima la calidad en laselección de los términos que

    equivalen a los conceptos presentes en los documentos, mientrasque, para Rowley

    [1988, p. 56] será la “libertad” que permite el sistema para serpreciso acerca del

    tema de un documento, por lo que debe fijarse previamente.

    El patrón de especificidad deseada lo definen tanto losdescriptores recogidos en el

    lenguaje de indización empleado, como las directrices deindización marcadas por el

    sistema de información. En consecuencia, la comparación de dossistemas en

    función de la especificidad puede resultar difícil y delicado,como hemos visto en

    párrafos precedentes.

    1.3.3 La corrección de la indización.

    La corrección de la indización o la ausencia de errores es unfactor de suma

    importancia para el resultado de la recuperación, porque, comoseñalara Soergel

    [1994, p. 593], en el proceso de la indización pueden darse dostipos de errores: por

    omisión (cuando un término es omitido) y por inclusión (alcontrario, se incluye un

    término sin ser necesario). En cambio, la ausencia de un términocorrecto y la

    asignación de uno más genérico, específico o relacionado, es unaclase especial de

    error de omisión y de inclusión a la vez.

    Para determinar este tipo de errores se debe conocer quédescriptores son los más

    apropiados para un documento, para lo que hay que recurrir a unconsenso entre

    varios indizadores y usuarios. Por tanto, la perfección de laindización establece una

    relación entre la presencia de descriptores correctamenteasignados y la ausencia

    de omisiones.

  • Universidad de Murcia Indización/ 26

    1.3.4 La consistencia de la indización.

    Para designar al concepto que nos ocupará en este apartado hemosdescubierto

    diferentes términos. Nos referimos a “uniformidad”,“coherencia”" y “consistencia”. El

    Diccionario de la Lengua Española los define de la siguientemanera:

    «Uniformidad»: “calidad de uniforme”; y «uniforme» como “dos omás cosas que

    tienen la misma forma. Igual, conforme, semejante”.

    «Coherencia»: “conexión, relación o unión de unas cosas conotras”, y

    «Consistencia»: “duración, estabilidad, solidez. Trabazón,coherencia entre las

    partículas de una masa o los elementos de un conjunto”.

    Los términos más utilizados en la literatura española,posiblemente en parecidas

    proporciones, son coherencia y consistencia3. Este último comoreflejo del término

    inglés «consistency», empleado unánimemente en la bibliografíaanglosajona. En

    adelante emplearemos el término “consistencia” para expresar elconcepto que

    ahora referimos.

    La consistencia en la indización se puede estudiar comoreferencia a un único

    indizador o a varios. En el primer caso, cuando un profesionalindiza un mismo

    documento en diferentes momentos temporales (consistenciaintraindizador). En el

    segundo caso, cuando varios profesionales indizan un mismodocumento de manera

    diferente (consistencia interindizadores).

    La consistencia de la indización la definieron Zunde y Dexter[1969, p. 259] como:

    “el grado de concordancia en la representación de la informaciónesencial

    de un documento, por medio de un conjunto de términos deindización

    seleccionados por cada uno de los indizadores de un grupo”.

    Desde principios de los años sesenta hasta el presente se hanpresentado

    bastantes estudios tanto teóricos como prácticos sobre laconsistencia de la

    3 Precisamente en la norma UNE 50-121-91 se utilizaindistintamente el término “coherencia” y“consistencia” referido almismo concepto.

  • Universidad de Murcia Indización/ 27

    indización. En el trabajo de Zunde y Dexter se muestra unarevisión de los trabajos

    publicados hasta ese momento. Veamos algunos de ellos:

    Rodgers [1961] en un ensayo sobre combinaciones de dosindizadores la

    consistencia alcanzada fue del 24%.

    Jacoby [1962] en la indización de patentes de Química obtuvouna

    consistencia media del 10%.

    Slamecka y Jacoby [1962] obtuvieron unos valores de consistenciadel

    16,3% para indizadores experimentados y del 12,6% paraindizadores sin

    experiencia.

    En otro trabajo Slamecka y Jacoby [1963] presentaron un ensayocon

    indizadores experimentados que se sirvieron de un vocabulariocontrolado

    para indizar un grupo de documentos. La consistencia conseguidaosciló

    entre el 35% y el 45%.

    Painter [1963] alcanzó valores de consistencia entre el 40% y el70%

    según el sistema de indización y los tipos de documentos.

    Korotkin y Oliver [1964] en otra prueba alcanzaron valores queoscilaron

    entre el 36% y el 59%.

    Más recientemente, Sievert y Andrews [1991] han efectuado unanálisis en la Base

    de datos ISA4. En este estudio se concluye que la consistenciaen los descriptores

    es del 47,2%, mientras que en los identificadores es del32,8%.

    Otros trabajos* publicados sobre este asunto son los de Leonard[1975 ; 1977] ,

    Rolling [1981], Funk, Reid y Mcgoogar [1983], Markey [1984],Sievert [1987], o más

    recientemente el de Livonen [1990], Reich y Biever [1991], Tonta[1991] o Ellis et al.

    [1994].

    4 Information Science Abstracts recoge casi quinientas revistas,libros, informes y actas de Congresossobre Biblioteconomía yDocumentación.* Estas referencias no se han consultadodirectamente, sino que se localizaron durante el proceso derevisiónbibliográfica y de consulta de diferentes Bases de datos.

  • Universidad de Murcia Indización/ 28

    Como se ha podido observar cada investigador llega a porcentajesdiferentes. No

    obstante, la tónica general es que la consistencia no se sitúepor debajo del 25% ni

    por encima del 60%. Por tanto, es necesario contemplar lainconsistencia en la

    indización más como un elemento inherente a esta tarea que comouna anomalía.

    Para averiguar la consistencia entre la indización manual y laautomática Salton y

    McGill [1983, p. 100], propusieron una fórmula que tiene valideztambién para

    emplearse entre dos indizadores profesionales. La fórmula, conuna leve

    modificación de los símbolos, es la siguiente:

    TcoCi =——————

    (A + B) – Tco

    donde,

    Ci = la consistencia entre dos sistemas o dos indizadores.

    Tco = el número de términos comunes asignados por los dossistemas o dos

    indizadores.

    A = el número de términos asignados por el sistema 1 o indizador1.

    B = el número de términos propuestos por el sistema 2 oindizador 2.

    Tco = el número de términos comunes asignados por ambos sistemaso

    indizadores.

    La explotación de los índices de consistencia como indicador deuna indización

    correcta es problemática porque podemos encontrar unaindización

    consistentemente incorrecta. Esto se produce cuando dosprofesionales indizan un

    documento y cometen el mismo error, o por el contrario, dosindizadores pueden

    lograr una perfección y pureza en la indización de uno y estarante una indización

    consistente.

    En definitiva, las características de la indización se puedenesquematizar del

    siguiente modo:

  • Universidad de Murcia Indización/ 29

    1.APLICACIÓN DE CRITERIOS DURANTE LA

    INDIZACIÓN

    - Exhaustividad

    - Especificidad

    - Grado de coordinación

    - Ponderación de los descriptores

    - Generación de enlaces

    2. EVALUACIÓN DE LA CALIDAD DE LA

    INDIZACIÓN: REINDIZACIÓN

    · Exhaustividad de la indización

    · Especificidad

    · Corrección: Perfección y Pureza

    · Consistencia

    3. EVALUACIÓN DEL RESULTADO DE LA

    RESPUESTA DOCUMENTAL

    - Exhaustividad en la recuperación

    - Precisión en la recuperación

    1.4 LA RECUPERACIÓN DOCUMENTAL: EVALUACIÓN DEL

    RESULTADO DE LA RESPUESTA DOCUMENTAL.

    La recuperación documental comprende una serie de etapasdivididas en: pregunta,

    búsqueda y respuesta documentales. Examinemos cada una deellas.

    La pregunta documental se formaliza por medio del lenguajenatural o controlado.

    En este segundo caso, la tarea inicial es la conversión de lapregunta o de la frase

    documental en lenguaje natural a un lenguaje controlado a travésde vocabularios

    controlados. El fin es adquirir unos descriptores simples ocompuestos para

  • Universidad de Murcia Indización/ 30

    interrogar una base de datos. Estos descriptores se empleansolos o combinados

    con operadores booleanos. Veamos dos ejemplos:

    Pregunta 1: ELECTROMIOGRAFÍA

    Pregunta 2: ELECTROMIOGRAFÍA Y ADOLESCENTES

    Por otro lado, las preguntas en lenguaje natural también sonposibles. Algunos

    sistemas de almacenamiento y recuperación de la informaciónpermiten interrogar

    las bases de datos en lenguaje natural.

    Ejemplo:

    Pregunta: La relación entre los índices plubiométricos y ladesertificación.

    La búsqueda documental comienza una vez introducida la preguntaen el lugar

    destinado para ese fin en el programa informático, yproporcionada la orden de

    inicio. La duración de la búsqueda dependerá de lascaracterísticas del sistema y de

    la complejidad de la pregunta. Si el sistema es manual, el lapsode tiempo estará

    sujeto al tipo y al tamaño del mismo, y a la habilidad delprofesional.

    La respuesta del sistema, o lo que es lo mismo, el resultado dela búsqueda puede

    ser positiva y se materializa en un número, y negativa cuando nose ha encontrado

    nada que responda a la pregunta planteada. Veamos la respuestaen dos

    programas diferentes una vez preguntado por «Fotografíasubmarina» y «Bases de

    datos»:

    : FOTOGRAFIA SUBMARINA 0

    Buscar: BASES DE DATOS

    [ No hay documentos asociados ]

    [ a esa petición de búsqueda ]

    Por el contrario denominamos respuesta positiva cuando elresultado es ≥1. Del

    mismo modo, el programa puede responder de manerasdistintas:

  • Universidad de Murcia Indización/ 31

    : TESIS DOCTORALES 17

    Buscar: LINGÜÍSTICA COMPUTACIONAL

    Lingüística: 51

    Computacional: 22

    Lingüística computacional: 6

    Sin embargo, se encuentra muy extendida la utilización de laexpresión “búsqueda

    documental” para aglutinar todo el proceso de recuperacióndocumental, esto es, la

    pregunta, la búsqueda automática o manual y la respuesta.

    1.4.1 La exhaustividad y la precisión en la recuperacióndocumental.

    Tradicionalmente, los resultados de las respuestas documentalesse han evaluado

    por la exhaustividad («recall» en inglés) y la precisión. Eltérmino «recall» se ha

    traducido de diferentes modos en español. Así por ejemplo,Coll-Vinent [1990, p.

    139] emplea “recogida”, mientras que Slype [1991, p. 271]utiliza “llamada”. Para

    expresar este concepto Pérez Álvarez-Ossorio [1988, p. 64],García Gutiérrez [1992,

    p. 11], Gil Urdiciain [1994b, p. 80] o la norma UNE 50-121-91[p. 158] recurren a

    “exhaustividad”. En cambio, Gómez Guinovart [1996, p.

Gil Leiva, Isidoro - UM Gil...Has de saber que esta vida es el minúsculo chapoteo de una gota de agua. Una bella criatura que desaparece en el mismo momento en que empieza a existir. - [PDF Document] (2024)

References

Top Articles
Latest Posts
Article information

Author: Velia Krajcik

Last Updated:

Views: 6370

Rating: 4.3 / 5 (74 voted)

Reviews: 81% of readers found this page helpful

Author information

Name: Velia Krajcik

Birthday: 1996-07-27

Address: 520 Balistreri Mount, South Armand, OR 60528

Phone: +466880739437

Job: Future Retail Associate

Hobby: Polo, Scouting, Worldbuilding, Cosplaying, Photography, Rowing, Nordic skating

Introduction: My name is Velia Krajcik, I am a handsome, clean, lucky, gleaming, magnificent, proud, glorious person who loves writing and wants to share my knowledge and understanding with you.