卜小蝶. (2006). 使用者導向資訊檢索
索引特徵 index features
詞彙不多。單一層次的混合索引。沒有中英文對照。主要是學術專有詞彙,有少部份的人名與企業產品名稱(多半是英文)。
由作者自己編製索引。事實上,不只有索引是作者自己編,整本書的撰寫與排版都是作者一人作業。出版社只剩下封面設計、申請isbn而已。
參與者 participants
- 受訪者:作者、排版者、索引編製者、校對者
- 出版社:編輯
- 印刷公司
- 學生:校對
工作流程 indexing process
研究歷程紀錄 research process note
錄音筆搞飛機。全部檔案沒了。訪談紀錄根據印象打出。
訪談紀錄
A: 卜小蝶 C: 訪談者
- 以往書後索引編製經驗
- 受訪者十年前編製過一本自己著作的書後索引,(圖書資訊檢索技術)。該次索引編製,是使用由當時在中研院的師丈,根據自動抽詞技術所開發的自動選詞程式,從word檔中自動選出關鍵詞組。但是,由於年代久遠,該程式已經找不到、或不堪使用,並沒有使用在今天新書的書後索引編製工作上。該程式除了stop words,並沒有使用任何詞庫,因此只單單靠統計判斷出關鍵詞組,並產生出該詞所在位置的頁碼,輸出成word檔。在輸出的word檔中,是一詞一個頁碼的形式。得到詞組word檔之後,受訪者再使用word,將關鍵詞組排序,以集中相同的款目,整理頁碼,並剃除不要的詞目。該程式只能選出2-4個詞長的詞目。
- 第二次就是這本書。
- 每一個個案,其索引工作的緣由與期望:
- 受訪者認為,學術的書籍應該都要作索引。而且由於作者自己最了解書裡面的內容,因此最適合作索引。(可再進一步澄清)
- 書後索引編製工作的學習與經驗:
- 受訪者在大學時念的就是圖資系,但是當時並沒有索引編製的課程。當時的課程,有中文編目、西文編目、中文參考資料、西文參考資料。參考資料的課程中,會接觸到各種索引的形式,但是主要的課程內容與要求,是學生知道有哪些索引資料可以使用,如何使用,以找到參考問題的答案,並非學習如何編製參考資料(索引)。當時並沒有索引摘要的課程。受訪者在編書後索引之前也沒有任何製作書後索引的經驗。
- 受訪者常常使用書後索引。主要是英文專書。因為「英文閱讀的速度比較慢」,大部分英文學術專書也都有索引。使用情境上,受訪者提到主要像是因為研究需要查詢相關概念的說明解釋,與相關文獻等等。受訪者也表示,在這種需求上,他比較少用到中文文獻。
- 受訪者舉一個實例。他需要找到最初提到 user warrant 概念的來源,並記得在何光國教授的「圖書館學理論基礎」中有提到。於是受訪者去找該書的書後索引,但是沒有收這個款目。因此只好一頁一頁瀏覽。
- 索引編製工作
- 工作地點:在家,在電腦前。
- 溝通:在學校有與出版社編輯作初次的直接面談。之後以電話與email聯絡。也有與印刷公司聯絡,以及與校對的學生聯絡。與印刷公司聯絡的情況,例如受訪者自己作樣書,需要跟印刷公司取得若干彩色印出的封面,然後在學校自己印出內文,請影印店膠裝,再自己用雙面膠黏上印刷公司提供的彩色封面,完全自己手工打造。
- 這一本書的索引編製工作。儘管受訪者表示還是希望能有程式可以幫忙選詞,但是由沒有程式可以用,所以只好自己動手。首先,受訪者自己印出本文的word檔。然後,一邊看紙本,一邊挑選出關鍵字款目與頁碼,打入excel檔中。在Excel檔中,有兩欄,一欄是關鍵詞,另一欄是所在頁碼。全部打完約半天,是一整個完整的時間,中間不間斷,下午,約2-3小時。之後再將這些「關鍵詞-頁碼組」依關鍵詞的筆劃與英文字母順序排序與合併(merge)。此排序與合併階段的工作比較累,也花時間,總共約兩到三天才完成。款目排序是使用Excel的排序功能,排序後,剔除不必要的款目。有以下情況會惕除,如:如果某一關鍵詞只有一個頁碼時,而這個關鍵詞但是又不是很重要的概念時,就會剔除。如果太過模糊不清(fuzzy)的款目,受訪者表示,這通常是受訪者(作者)自己也不太能掌握的概念,通常也不會有詳盡或正確的解釋與說明,受訪者不希望讀者會查詢這個關鍵詞,因此也會選擇剔除。當出現同義異字詞的情況,受訪者會選擇幾種作法:一種類似且相同位置的同義詞,會同時列出兩個關鍵詞,並保留各自的頁碼,也就是不進行任何處理,如clustering 與 cluster analysis;另一種,會將兩邊頁碼合併在同一款目下,指保留一個詞,而刪除另一個詞;第三種情況,如果兩個同義異字詞會出現在不同的地方,在頁面編排上並不鄰近,則會重複著錄兩邊的頁碼。同型異義詞的情況,在這本書中沒有沒有發現這樣的情況。受訪者認為,這是因為本書是比較專門的著作。作者自己希望詞彙要專指性(specific)。同樣的情況,如果有模糊性的詞彙,可能考慮擴張詞彙。模糊詞彙的發現,如在排序合併關鍵詞的時候,發現某詞的頁數很多,或是,一方面頁數很多,卻也有一些以這個詞為基礎的更具專指性的詞彙被選入,如「圖像檢索」、「圖像檢索功能」等等,此時受訪者會重新回頭檢視內文,將一些原本為「圖像檢索」的「關鍵詞-頁碼」組,修改為更具專指性的關鍵詞彙,如「圖像檢索設計」「圖像檢索xx」等等。另有一種情況是,受訪者發現某個關鍵詞的頁碼太少,根據受訪者自己寫作的經驗,認為這個詞不應該只有提到這麼少次,這時受訪者會再用Word的全文檢索的功能,查詢該詞彙出現的頁次,並把相關的頁次再加入索引檔中。
- 選詞的類型。本書的書後索引沒有選書名,人名只有部份而非所有出現過的人名都有選。主要是學術專有名詞與概念詞彙。選詞的規劃是在選詞前就已經先預定好的。
- 選詞的範圍,一開始認為只要選內文。在第一回編製工作時,有猶豫一下是否要選圖表標題內的詞彙,但是後來決定不選。因為在圖表目次中就有出現了,受訪者認為從讀者圖表目次中就可以找到,因此不需要作。在第二回編製工作時,又將標題內的詞彙納入。原因是,一開始受訪者認為在目次已經有出現這些概念詞彙,因此不需要重複作在書後索引裡面,但是修訂校對時,發現在沒有列入目次的標題中,有一些關鍵詞,而且出現在標題通常表示以下的段落都與這個關鍵詞概念相關,因此在第二回中又增選入許多在小標題中的關鍵詞。受訪者也納悶,為什麼第一次選詞的時候,幾乎都沒有看到在次標題中的概念詞,雖然那麼明顯,且數量還不少,但是完全沒有注意到。
- 不採用詞彙間的交叉連結,即,見\參見關係,與作一個層次,不做多層次的書後索引,是在選詞開始前就已經決定好的。受訪者認為書後索引不需要「分類」,作不同詞彙的索引(如,人名、書名),與作有層次的書後索引,都是作分類。而書後索引是要讓使用者檢索內文中的關鍵詞彙,因此不需要再多作任何分類工作。
- 索引編製的時間與歷程:編製索引歷經三回的修正
- 第一回:選出詞彙2-3小時。排序與整理2-3天。之後排版,列印,並逐條檢查索引與頁碼是否正確(天數不明)。
- 第二回:請學生幫忙校對。一方面修改內容後,頁碼有所更動;另一方面,再修改過程中,發現有些詞應該要收錄,因此又在增加一些索引款目。此次增加主要是增加出現在標題部份的關鍵詞。
- 第三回:將校訂稿送給出版社排版後,又發生頁數變動的情況。因此又再次修改頁碼。
- 編製工作的思考:
- 認為索引編製應該要具備詳盡性,與具體性。
- 這次的索引編製,受訪者覺得他有一種「希望讀者去查什麼,那些是書中提到的具體概念」的感覺,而不是那麼客觀的呈現書裡面有哪些關鍵詞彙。受訪者對於自己的這種作法並不是很有信心。
- 受訪者認為自己編製索引的方法不是很好。例如,應該先選標題;以及不要那麼早就開始選詞編索引,免得頁碼變動又要修改。
- 受訪者還是覺得,如果能有以前那個關鍵詞自動選詞工具會很好。
- 中文的相關詞彙會集中在一起,如「檢索xxx」、「索引xxx」、「圖像檢索xxx」等等。認為許多關鍵字的字首可以最為發展出更具體的長詞彙的關鍵。也許可以作為改善自動選詞程式的方法。