Table of Contents

The subject indexing process / Mai (2000)

Citation - Mai, J.-E. (2000). The subject indexing process: An investigation of problems in knowledge representation. Unpublished PhD, THE UNIVERSITY OF TEXAS AT AUSTIN.

Keyworks - Mai, Jens-Erik, subject_analysis, indexing_process

Intro / 序言

研究動機

文獻的表徵與由此陳述的知識是圖書資訊學中核心且獨特的研究領域,而這個領域通常指索引編製。因此,我們會對這個主題相關的文獻索引問題真正所知的有限感到驚訝。圖書資訊學普遍需求的是如何索引的規則或規範。當這個需求浮現時,通常是基可能說明主題索引編製程序的知識作用的假定上。

類似此類的聲明在許多索引編製的文獻都曾出現。現在的研究接受這樣的研究挑戰與探究表徵文件主題的問題。雖然近年來有許多相關研究,但是問題的進展很少,原因可能是因為這些研究的研究方法本身的問題。之前相關的研究都是以實證研究方法。但是主題索引編製程序的問題不只是在程序本身。實證探究能了解的有限。這個假定由少數實際被執行的索引編製實證研究發現(或是說缺乏研究發現)得到支持。(如,Chu & O'Brien 1993 and Bertrand & Cellier 1995)

本研究試圖說明一些文件知識表徵的主要問題;更明確的說,本研究試圖說明以新的方法說明主題索引編製的本質。

研究假定

本研究是基於以下的假定:不可能作出如何索引的普遍觀點,因此從這只是其中之一種探索主題索引編製程序的詮釋觀點。本論文的目的是依照這種觀點解釋主題索引編製程序的本質,因此得以提供一種主題索引編製程序的了解,以解釋為何從索引編製程序不能預期可預料的結果。 本研究提供一種主題編製程序的理解,這種理解視編製程序為許多的詮釋工作,這些詮釋某些程度上根據索引者其特定文化與社會情境。本研究的目標並非提供一種新的改善的索引編製方法,而是探究主題索引編製程序的本質。這種探究與特定的索引語言及索引編製實作保持了一定程度的獨立關係。

因為文件表徵的主要問題在於語言與意義,研究中的主題索引編製程序會由語言觀點的哲學來探索。 其他研究者也以類似假定開始的研究。如 Fairthorne (1969, 78),提到「特殊的主要論題可以視為獨立的主要論題,但是影含著內容貧乏的風險。因此對普遍語言與意義問題的熟稔是基本的條件」。Blair (1990, vii-viii) 在他關於資訊檢索語言問題的著作序言中,提到:「資訊檢索研究的主要任務是了解有效檢索時文件應該如何被表徵。這首先是一個語言與意義的問題。任何文件表徵的理論…必須根基於明確的語言與意義理論上。」

依此著眼點,本研究認為主題索引編製程序由數個階段所組成,這些階段應被視為是詮釋的階段,而非心智的表徵或是心智的規則。因此,這種情況下需要以一種詮釋的研究方法以了解主題索引編製程序中的不確定與詮釋的本質。

「任何種類的書目描述…都可以被視為是描述的。當詮釋的觀點進入的時候,問題變成:是否應該這種描述要依照一種方法或是標準的正典,以使詮釋得以可能?」

研究問題

本研究將延續Fairthorme, Blair, Benediktsson 與其他人所建議的索引編製與圖書館資訊科學研究方法。為了在研究中能更理解主題索引編製程序,本研究將回答尋求以下研究問題:

記號學理論與主題索引編製程序

由根據這些研究問題而得到的發現,顯示在主題索引編製程序中是多重詮釋的。如果主題索引編製程序是一詮釋的串聯,則需要由這個觀點來解釋程序的本質。由於以上目的,Charles Sanders Peirce 著作中討論的記號與記號學研究,提供研究與理解主題索引編製程序詮釋本質的理論性架構或方法。因為 Peirce的記號學(Semiotics) 包含了對記號的意義如何產生、詮釋與表徵的理論解釋,因此對本研究是有用的理論基礎。

Peirce 提供一個意義與表徵的普遍理論。這個普遍理論不限於語言本身,也包含任何由主題到詮釋的現象,且著重於解釋為何某些記號意義對某人指涉一種事物而對其他人指涉另一種事物。一些其他語言哲學家討論過這個問題,但是只有Peirce 發展出不同種類詮釋的完整解釋。他建構出記號種類或類型的類目。這種歸類顯示記號的詮釋是不同種類的,且由於目前研究的目的之一是檢視主題索引編製過程的詮釋性本質,Peirce 的記號學便顯初其理論上的價值。透過對主題索引編製程序詮釋階段的歸類,明白的顯示這些階段的詮釋本質為何。因而產生以下問題:

應用記號學研究主題索引編製程序的目的是為了顯示此程序的本質是多麼根本詮釋的。本論文中呈現的主題索引編製程序記號學說明,將會透過呈現程序中不同種類的個別詮釋,闡述索引程序的多元詮釋的本質。

研究分析與發現

為了分析非常細節的索引編製程序,程序(在第二章)將分為許多階段與元件,每個階段都是一個詮釋,且每個元件都為其所詮釋。在主題索引編製程序的記號學分析中(在第五章),每一個階段都是一個記號被詮釋的過程,並且詮釋的結果即為下一個程序的元件。此外也顯示了索引編製程序中個別詮釋的獨立情形。

為了獲得索引編製程序中不同詮釋本質更完整的了解,每一個程序中的元件都被視為是一個記號,並以Peirce的記號分類歸類。Peirce 區分十種記號類型,每一種都有一種不同的詮釋且具有不同的類型的不確定性。透過分類中對每一個元件的歸類,顯示了主題索引編製程序是高度視社會與文化情境的偶然性而定的,而非只是一種簡單的將文件表徵的轉換程序。社會與文化情境引發的索引編製偶然性(indexing contingency),建議了索引編製的實證研究更需要注意文字如何被詮釋,而非索引者索引時所呈現的動作。

研究貢獻

本研究的價值有二。第一,目前為止無人從詮釋方法的觀點綜合索引編製研究的文獻。且也無人根據詮釋性理解創出索引編製的方法。本研究將強調主題索引編製程序相關的主要問題,與以詮釋學的出發點點提供主題索引編製程序本質的解釋。第二,也許是最重要的,本論文將揭示索引編製研究需要採取新的研究方向。本論文將呈現主題索引編製程序的問題是埋藏在哲學性問題之中,且在圖書館與資訊科學情境中這些問題需要被提出。

The subject indexing process / 主題索引編製歷程

主題索引程序的意義

文獻主題的形成

Mai(2000) 認為 “very little has been done to clarify the intellectual processes concerned with the first or initial step in the indexing process where the subject of a document is identified.”

四階段論者 Langridge (1989) 索引編製的第一階段是 “the most important and the most difficult part of all classification and indexing” 但是關於第一階段的文獻反而少之又少。

二階段論者 Frohmann (1980)認為大部分的研究都針對第二階段,第一階段的分析很少。

雖然手冊與指引並非在理論上解釋索引編製的程序,但是至少這些指引描繪了索引者應該做的索引工作。 雖然我們期待在這些指引中發現一些如何決定文獻主題的指引,但是實際上只有建議檢查目次、章節標題、前言、序言、等等。並且假定透過這些工序可以將文件的主題顯現出來。 但是實際上這些工序並沒有提供任何關於決定文件主題的細節或幫助,並假定本質上是直覺的過程。

DDC 法

杜威十進分類法建議十四種文獻主題分析的資訊來源, 前十種資訊來源是由文獻本身而來,最後四種是來自文獻之外:

  1. 題名(title)
  2. 目次(table of contents), 章名(chapter headings)
  3. 序言(preface), 引言(introduction), 前言(foreword), 書衣(book jacket)
  4. 略看(scan)內文
  5. 參考書目(bibliographical references), 索引詞目(index entries)
  6. 抄錄編目(cataloging copy)
  7. 相關評論(reviews), 參考工具資料(reference works), 主題專家(subject experts)

Mai(2000)認為這些指引是非常模糊而不充分的。

ISO 1985 法

ISO Documentation Methods for Examining Documents, Determining their Subjects, and Selection Indexing Terms (ISO 1985)

此ISO標準主要用在主題項目的決定,應用的範圍:

  1. 在索引編製公司或是索引編製網路中;
  2. 在不同的索引編製公司間,特別是交換書目資料

此標準主張索引編製的程序分為三個階段:

  1. 審視文獻與建立其主題內容。為了避免花費過多的時間檢視文獻內容,建議審視的範圍包含:標題,摘要,目次,序言、起始的章節與段落、結論,插圖、圖表、表格、與其標題,底線或是其他特殊印刷字體的文字。
  2. 確定主題內呈現的原則性概念;
  3. 以索引語言的詞彙陳述其概念。
小結

Mai(2000)認為研究焦點應該由How to轉向What is indexing about, 因為索引的本質可能就無法被精確的描述與標準化。

note:

主題分析,透過索引詞彙表示文獻主題及其內容,以利於資料的檢索與取用。傳統的人工編目、分類、索引工作,與電腦自動化的索引技術,都是在處理主題分析的工作。

而在主題分析理論的研究中,將主題分析工作分為不同的階段。在此有幾種不同的說法,如二階段(Frohmann 1980; Petersen 1994)、三階段(Farrow 1991; Miksa 1983; Taylor 1994)、四階段(Langridge 1989; Chu and O'Brien 1993)等等不同的主張。同樣主張三階段的學者,其三個階段的定義也不盡然相同。而Mai(2000)指出,大多數的索引研究,都針對主題分析階段的後半部,即如何運用索引詞彙表達文獻主題,而對於前半部-文獻主題的決定卻少有研究。因此Mai也參考了主題分析實務工作中所使用權威性的工作指引與作業標準,即DDC的分類編目指引,與ISO 1984 文獻編目分類工作標準,發現這些實務的工作規範在這個部分仍然只有模糊的說明工作的可以如何進行,而並沒有精準工作標準。

因此Mai 針對這方面研究的缺乏提出了兩種可能的原因:(1)以往的研究沒有想到這方面的問題,因此需要進一步更精確的描述索引編製者在編製索引時的資訊工作;(2)索引編製工作原本就不可能被精確的描述。Mai進一步區分了這兩種分別代表的不同的研究問題問法,前者的研究重點在於如何編製索引,後者的則說明精確的索引編製工作的不可能性。Mai本身採取了第二種的思考進路,因此認為研究應該轉移到另一個思考的重點,即索引編製的本質為何?即發現出索引工作為何困難的地方。

此外,在DDC主題分類工作指引中建議的14種資訊中,前十種資訊來源是在文獻內容之中,而最後四種是來自文獻之外。而這四種文獻之外的參考資訊,即使用了主題分類的社會性資源與技巧,以協助主題的發現與形成:抄錄編目(cataloging copy), 相關評論(reviews), 參考工具資料(reference works), 主題專家(subject experts)。 ISO 並沒有列出這些資源,但是有強調需要參考使用者潛在的需求問題。ISO 的使用者需求一方面建議索引者必須參考文件使用社群,另一方面也提出了可能會與另一個社群的索引產生不一致,與產生交換上的困難。

這讓我想到,是否可以透過對於其他標準與工作指引中的社會性資源與技巧,作為檢視現實索引編製工作中的社會互動現象的一種比較標準?對於在收集資料與研究時間有限的情況下,是否可以作為一種研究的技巧?即,第一階段的前導研究,在於確認是否各種書後索引編製均普遍存在社會性資源的運用現象與技巧。而第二階段透過相關研究文獻與標準,建立基本的資料收集的原則性架構與起始問題。第三階段,則描繪現有索引編製的社會性資源與技巧的現況,確立研究命題的正規架構。

Document adn subject analysis / 文件與主題分析

因為索引程序本質上的不精確性,因此研究索引程序的本質,以獲得更好的了解。

Indexing viewed in terms of steps

各種不同索引的階段理論:

  1. 2階:Frohmann 1992, Petersen 1994。第一階段是形成主題,第二階段是將主題轉為索引語言
  2. 3階:Farrow 1991, Miksa 1983, Taylor 1994. 形成主題,將主題正規化,將正規化主題轉換為索引語言
  3. 4階:Chu and O'Brien 1993, Langridge 1989. 形成主題,將主題正規化,轉換為索引字彙,組合索引字彙

階段(step)是索引編製邏輯上的過程,而非心理上或動作上必須操作的操作。初學者可能如字面上依序完成索引編製工作,但是對有經驗的索引者或編目者,可能不會意識到有這些階段,也就是說對專家而言,索引過程可能只是一整個複雜的程序。但是將程序區分為各別的邏輯階段,能更仔細的審視索引編製程序。

Mai 的三階段索引程序

Miksa 使用 範圍-對照程序圖式 (Scope-Matching Process diagram) 來表示索引編製的程序。這個程序一共有四種元素: 原本文件(document)–>抽象主題(subject)–>主題詞(subject heading)–>標題詞彙(subject headings) Miksa 關注的並非每一個階段的細節,而是過程的最初與最後。這個關注的核心可以用一個問句來表示,即:在現代主題詞實務中,一個主題詞的指涉物(referent)為何? 他的圖式簡明的呈現了這種基本關係。在他呈現這個關係的嘗試中,他說明了索引編製者由文件發展到主題詞的過程的某些含糊性。他明白的否認這個程序無法以一個幾何的圖形精準的呈現,但是圖式仍然能有效的呈現程序中存在「某種程度不可定義的實質或範圍」。

Miksa 的圖式說明他的論點。他認為主題表徵的文獻傾向認為問題的回答是:「主題詞應當以某些基本的方式呈現或符合作品的主題性內容」。但是 Miksa 根據對主題詞指涉物的描繪,認為主題編目者的工作是將文件的內容轉換為文件的表徵。當編目者形成了「名稱」以建議、表徵、符合主題內容應當的實質。

Miksa 對主題表徵過程的方法在解釋主題索引過程時有三重意義:

  1. 他使用指涉物(referent)的概念,每一個分析的結果都是前一個內容物的指涉物,即索引編製的過程呈現一個序列的關係
  2. 提供基本索引編製過程的輪廓
  3. 堅持關於過程的物件或元素只是一「某些未定義的實質」,每個階段是一個詮釋。
未處理
  1. 索引者的階層
  2. 詮釋取徑
    1. 質與量的研究方法
    2. 圖書資訊學中的實證主義
    3. 新焦點
    4. 研究的核心對象
    5. Wittgensteinian (維根斯坦學派)的知識觀點
    6. 小結
  3. 總結

Ch.3 表徵 (Representation)

主題分析(subject analysis)的定義

主題分析在LIS(圖書資訊學)文獻中,主要有兩種不同的用法,(1)用來分析文件的主旨內容,與(2)建構索引語言與系統。在此研究中的用法是前者。在某些研究中,主題分析可能是指索引編製歷程中的最後階段(Chan, Richmond, and Svenonius 1985),有些是指最初的階段(Langridge 1989)。Hjorland(1997)指出有許多相關研究使用一些類似但不同的詞彙,如 content analysis, conceptual analysis, information analysis, aboutness analysis, text analysis, 等等。在此研究中,將「文件分析(document analysis)」定義為索引編製的第一個分析階段,而「主題分析(subject analysis)」為索引編製的最後一個階段。

決定主題詞 (Determining the subject matter)

(determining 翻成決定好嗎?還是形成好?)

決定文件的主題詞,在傳統上被當作是與特定索引語言相關的問題。 因此在傳統的索引編製教學中,會被認為是主題索引編製程序的最後階段,排在一開始的文件分析與主題分析之後。

Wilson 的論點

Wilson 認為絕對不可能由文件中找出一個絕對主題。

Patrick Wilson 在 1968年的書《Tow kind of power》的一章〈主題與定位意識(Subjects and the sense of position)〉中討論了文件主題決定。

Wilson 的方法

Wilson 認為一般人在找出整個文件的主題時,使用的方法有四種。Mai 認為這四種方法仍然是編目與索引者在進行主題詞彙決定的時候所使用的方法:

  1. purposive way (目的法)。以作者在文件中的意圖為方向。根據這種方法,索引者的任務是找出作者的意圖與目的。目的法假定作者的書寫是有企圖要動作或是描述、說明、解釋、證實、呈現某事,並聲明其意旨。作者的書寫也可能有多重目的,或是其意圖不明顯,以至於需要猜測作者的意圖。這種方法的問題在於,難以從文件的閱讀中發現作者的意圖。Wilson 認為這種方法看起來客觀中性,但是實際上依賴索引者對作者意圖的詮釋。
  2. figure-ground way (描繪基礎法)。此法假定在文件中對某些面向或事物比其他部分討論更顯著,而這些顯著與核心便是文件的主題。這種方法的認為雖然文件中擁有許多不同的概念,但是將會有幾種概念是最顯著優勢的。Wilson 認為這當然不是一種客觀中性的判斷,因為不同人認為顯著的部分可能不同。
  3. constantly-referred-to method (參照法)。對照於第二種方法來自於主觀的優勢印象,此法正好相反。此法假定,在此一文件中越常被提到的事物、名稱、參照來源,越能代表文件的主題。此假定的問題是常被提及的事物也許只是在作品中為了交代更普遍主題的基本背景資訊,因此最常出現的字不能表現出文件的主題。但是將直接參照與間接參照聚集起來一起計算,將可獲得較佳的結果,但是這也導致將有不一致的結果,因為會有不同聚集組織參照的方法。
  4. appeal to unity (一致法)。這種方法與前兩種不同;前兩種視主題為在許多主題中最具優勢的,而這種方法主要在識別出作者核心論點所包涵的內容。這種方法依賴索引者對文件主題的解讀與詮釋。
不確定的主題 (the subject is indeterminate)
Wilson 的批評 (critique of Wilson)

索引編製研究(studies on indexing)

perceptual and conceptual indexing/知覺式編製與概念式編製

Farrow

Farrow, 1991, 1994, 1995

Beghtol

Beghtol, 1986

對Farrow 與 Beghtol 的批評

conceptions of indexing/索引編製的構思

Albrechtsen (1992, 1993):領域的主題分析。文件被使用的領域(domain)決定文件的主題。

Albrechtsen argues that there are three general conceptions or viewpoints of subject analysis and indexing. She argues that these conceptions relate to the type of information which constitutes the subject and to which method of indexing is used. The relations among these factors can be expressed in the table found in figure 3-1 that combines her 1992 and 1993 tables (Albrechtsen 1992, 141; 1993, 220)8.

Albrechtsen 認為有三種普遍的主題分析與索引編製的概念(構思)或觀點。這些不同的概念與其構成主體的資訊類型,以及其所使用的索引編製的方法有關。

Conceptions of subject analysis and indexing Type of subject information Indexing method
Simplistic conception Explicit information Extraction
Content-oriented conception Implicit information Assignment
Requirement-oriented conception Pragmatic information, contextual potentials Assignment

Albrechtsen 認為requirement-oriented 需要結合領域分析。

informaiton need, and indexing

representation of it” (Vickery 1968,355)

Empirical Investigations

Criticism of Mentalism in Indexing

Frohmann (1990):

Blair (1990):

相關性研究 / Relevance Studies

總結

Five Conceptions or Indexing

Mai 提出五個索引編製基本構思:

Fig. 3-4. Aspects of the Five Conceptions of Indexing