research:bob-indexing:diary:2006-08

書後索引研究日誌 2006-Aug
Aug-1
Aug-2
Aug-3
Aug-4
Aug-8
Aug-15
Aug-16
Aug-21
Aug-22
Aug-23
Aug-24
Aug-25
Aug-28
Aug-29
Aug-30

書後索引研究日誌 2006-Aug

Aug-1

Easterby-Smith, M. (1980). The design, analysis and interpretation of repertory grids. In M. L. G. Shaw (Ed.), Recent advances in personal construct technology (pp. 9-30). London: Academic Press Inc.

Aug-2

回覆嚴鼎忠老師問題

Aug-3

repertory grid technique

Aug-4

與美美老師開會。Demo repertory grid technique。
分析《圖書館年鑑》，建立抽取索引詞彙樣本方法。

Aug-8

弗雷格：專名(proper name)，概念詞/通名(common name)

Aug-15

建立「專名/通名」判準。前測及受訪對象：伯瑜、雯郁、冠吟。
為了建立區分「專名/通名」款目的一致性與有效度，先透過便利訪談，與參與者互動，建立有效的區分判準說明與範例。測試以《鼎鍾文集》的索引一到二頁為樣本，研究者先說明「專名/通名」的概念，並記錄下那些概念能有效的說明，與一些實例。之後請參與者就樣本中的索引款目進行區分，由研究者觀察區分的行為；如果發現有難以區分的情形，就與參與者討論，建立起有效能區別的概念與說明方式。
在第三個測試中(冠吟)，發現「專名/通名」實在容易誤導參與者。畢竟這是個不很普遍的專門用法，雖然對語言哲學與邏輯學來說，這是正確的用法。但是參與者根本不容易瞭解，而且「專名」對一般人，都以為「學術專有名詞」就是專名，但是我認為學術專有名詞有時會是專名，但卻更多是接近「通名」的情況，因為那比較傾向概念，而不具體。所以我決定改用「具體款目/概念款目」來說明，這樣也比較接近我區分這兩種款目的動機與意義，參與者也比較容易理解。

具體款目與概念款目判準說明

目的：這是說明區分書後索引款目中，兩種不同類型款目的說明。這個區分是為了進行相關書後索引款目行為研究，對索引款目進行抽樣前所需要進行的分類工作。因為這項研究將主要鎖定在概念款目的編製行為過程，所以這個分類希望能篩選出書後索引款目中的概念款目，建立一書後索引個案研究所需的款目樣本群。
具體款目：是能指稱具體、特定對象的索引款目。如：人名，地名，機關名稱，書名，文獻題名，特定的標準、格式、表格等。
概念款目：是說明一概念或是一類型的款目。如：學科專有術語。一個概念款目並不會指定具體事實。
區分技巧：一個有點小幫助區分技巧，是運用英文文法中的「定冠詞(the)/不定冠詞(a/an)」的區分。當一個款目應該使用定冠詞(the)，如「國立台灣師範大學」，便是一個具體款目；若應該使用不定冠詞(a/an)，如「綜合大學」，便是一個概念款目。
這個區分仍然有些限制。例如款目「著作權法」，在一般書籍中可能是指「中華民國著作權法」，但是在智財權或是科技法律的主題中，「著作權法」款目可能是一個概念詞彙，因為可能會有很多不同類型(英美法系/大陸法系)或是不同國家、不同時代的著作權法。特別是英美法系，如美國，是沒有一個特定的「著作權法」的，而是由許多相關的法案所組織起來的。這種模糊情形，也可能反映了讀者對檢索詞彙與編製者對主題詞彙兩者語意上的差距；即，讀者並不一定會按照作者的原義進行檢索。但本研究主要探究的是編製者資訊行為，因此一但注意到這種模糊性，應該對照內文，明瞭編製者原本意圖。
另一個模糊性，是出現在複合詞類款目，如「動詞為首/含有動詞的款目」。如「培養優秀館員」，這很難判斷是否是一個概念？因為這個款目實際上是由三個不同的詞素所構成，即「培養(v)+優秀(adj)+館員(n)」。當複合款目只有(adj)+(n)的結構的時候，基本上還可以視為一個概念，因為形容詞會被當成名詞的修飾或是限制條件。在西文的索引款目中，比較正式的用法應該是用倒裝法，將主詞素倒置在前，如「館員, 優秀的」。但是加上了動詞，讓這個複合款目的理解更麻煩。但基本上，因為這類款目無法指涉一具體事物，因此還是要將之選進被研究的款目樣本群中。
1. 我個人也很懷疑會有人會由「培養」開始檢索款目「培養優秀館員」，畢竟這是個很容易找到同義詞的動詞。但是這涉及到編製者對於索引當初規劃的目的、預期，與其編製過程的許多相關因素。在這個前測個案樣本中，第二層次以後的索引款目，編製者希望反映出的是一級款目的主題知識架構；因此其下的二級架構大部分是源於原本文章中的段落標題。並且，這些二級款目並不會再變成另一個一級款目以被檢索，其標引的頁數也完全包含在原先的一級款目之中。因此，似乎編製者建立此款目的意圖不在於「能被檢索」，而是在於「能呈現知識架構」。這個研究者推斷的論點是需要進一步檢驗的，因此這類的款目最好能出現在款目樣本群中，以進行進一步檢驗。

Aug-16

:data:attic:research:bob-indexing:具體款目與概念款目區分判準說明_20060815.doc
Polanyi, 個人知識, Ch2, 蓋然性
取得“Indexing books”一書

Aug-21

找學弟妹做了一次款目區分作業。可修正若干判準說明。

Aug-22

修正判準說明： :data:attic:research:bob-indexing:具體款目與概念款目區分判準說明_20060822.doc
理論 Clean room
book indexing behavior grid research 研究程序說明

判準說明修正

作業中有疑惑時，可討論或詢問。這些疑惑應當紀錄下來。疑惑的發生可能有四種原因：(1)作業者不熟悉判準；(2)判準中與教學時沒有清楚的說明；(3)此判準在理論上不清楚；(4)索引編製者給出有問題的款目。
若有模糊難以判斷的款目，可畫圈圈出。
作業完成後請簽名
第二層款目是否要進行區分：若第一層是具體款目，則其下位款目不須區分。若第一層是概念款目，則其下位款目需要進行區分。
根據此索引凡例說明，有引號者為直接摘出的句子，不須區分。

理論 Clean Room

研究者在閱讀文獻與理論的時候，像是兩面刃一樣。一方面怕重複既有研究；另一方面又怕受到他人研究結論的影響，或是有研究方法更嚴重的說，污染。我今天拿到一本可能是相關研究的著作，剛剛出版的，所以之前的文獻探討沒有能看到；而我研究已經進行了一部份，要不要看？

因此，我設想出一種類似科技研發領域中 Clean Room 的方法：找指導老師或是其他了解自己研究的學者或研究夥伴看，然後由他們比較這個研究問題與方法過程，中間是否有重複或雷同的部分；但是一定不能透漏任何研究結果。因為即便是一樣的研究問題，不同的研究方法與不同的樣本，也可能得出不同的結論，研究本身還是有一定的意義與價值。但是過早知道相關研究的結論，難免對研究者在作判斷的時候，會有一些心智上的影響。

book indexing behavior grid research 款目研究程序說明

目的：這個研究是為了探究書後索引編製者，其編製過程中的資訊行為，並進一步進行分析，以建立一有效的簡化說明模型。
方法基礎：這個研究是在既有訪談，與書後索引款目的內容的基礎上，並以George Kelly 創出的 Repertory Grid 方法來進行。
- 質性研究：基本上，研究者認為這是一種質性取向的研究；雖然這個研究看起來有點實驗設計，看起來會用到許多抽樣設計，應該也會用到電腦統計分析。但是研究者認為最基本的還是訪談中的互動；這個整個程序，可以看做是一個遊戲規則，透過這個遊戲規則，研究者能引出更多單純訪談所問不到的內隱資料；統計分析只是觀察的科學透鏡，能解釋資料的還是研究者的肉眼跟腦漿。
- Repertory grid technique：透過有系統的引出資料與分析，以交叉解釋驗證資料與解釋。
- 概念與具體款目：根據Frege 的語言邏輯分析理論；Frege 區分出專名與概念。此一詞彙分析，研究者認為也對索引款目有效。根據前期的訪談研究，專名的辨識與選出是索引工作中常常被提到的項目，但是也許並不盡然；這種差異在工具書(圖鑑、目錄)與一般書籍(教科書或學術專書)的區別中，尤其明顯。此一區分讓研究者認為，概念詞的指出辨識、表達創造、款目間組織是一個比較複雜的過程，並需要具備許多不易明言的技藝。這些部分單就訪談中，很難透過編製者直接辨識出來。
研究設計動機：前述，研究者認為這是一個質性取向研究，但是研究者自己也許並不那麼只相信「質性研究」這個招牌，他也懷疑只透過研究者自己訪談分析的資料，只在這短短投入的研究時間，能有多少有效力。這個念頭讓他苦惱失眠，浮現研究生症候群。另一個焦慮來源，是研究對象實在不多；如果認真的篩選下來，全台灣能不能找出來一般研究訪談認為最低的12個對象，都很難。資料不足的問題，也曾考慮過透過個案研究來進行；可是就連個案研究所須文件也不多。當然，也許拉低一點標準，世界就會很美好。另一個方法，是再融合其他研究設計，並有其他引出資料的方法。這時，Repertory Grid 出現在我在廁所看相關文獻的時候。雖然這種方法對圖書資訊學是完全陌生的(心理臨床研究、實驗法、多變量分析，很少有圖資研究使用這些方法)，但是又好像很有關係(Repertroy Grid 常常應用在專家知識管理系統、與教學知識增長研究)。陌生領域與自掘墳墓是我的座右銘，因此我努力嘗試設計出此一 book indexing behavior grid research 研究。
研究階段：此一研究基本上區分三個大階段，其下又各分若干階段：
1. 接觸訪談
  1. 選擇個案
  2. 訪談進行
  3. 初步訪談資料分析
2. Repertory Grid
  1. 索引款目分析
  2. 索引款目抽樣
  3. 卡片製作與劃記還原
  4. 卡片訪談
  5. Grid 資料分析
3. 比較分析

以下只說明 Repertory Grid 部分：

索引款目分析：由研究者進行索引款目的「具體款目/概念款目」分析。此分析並建立一判準說明書，與邀請數位相關科系的區分作業者，進行相同區分工作，以提高此一分析的信度。
索引款目抽樣：根據研究個案中，書後索引款目的概念詞款目，進行二階段分層抽樣。第一階段使用間隔抽樣，抽出30%概念款目；第二階段根據此30%款目，研究者進行Card Sorting進行差異抽樣，找出10-15組不同類型的款目。
- 間隔抽樣：此抽樣採取間隔抽樣。雖然間隔抽樣與隨機抽樣都是可以採用的系統抽樣法，但是決定使用間隔抽樣的原因有三：(1)用紙跟筆就可以進行，比較方便；(2)可以向受訪的編製者證明，這些被抽出來的款目不是我故意找碴的；(3)原本書後索引已經是以筆劃或是字母順序重新排列過，在內文編排的頁碼上已經是隨機混雜的，因此在索引中進行間隔抽樣，款目間發生過度集中的機率並不高。間隔抽樣數量為30%的款目，此數量在大部分系統抽樣中，在3000樣本下的小樣本是可以被接受的比例，故從之。
- 差異抽樣：所有30%的款目，由研究者進行card sorting，分類出10-15組不同類型的概念款目。在這10-15組概念款目類型(conceptual index entry type)中，各自隨機抽出一個實例作為該概念款目類型的代表(repreatation)。這個縮減樣本數量的原因有二：(1)Repertory Grid Technique的進行是一件耗費時間的工作，如果結合訪談與ladding，根據相關研究文獻，15個元素(elements, 在此為選出概念款目類型的代表實例=repreatation of conceptrual index entries)，將花上兩個小時，而兩個小時根據經驗，一般而言應該是研究者與訪談者精神集中的上限，因此必須控制元素數量；(2)過多的同類型款目，影響元素的同質性，反而會引出不具理論意義的構念。
抽樣完成後，研究者製作概念款目類型代表卡片。此卡片呈現該索引款目的在書後索引的上下文，與原頁數。研究者需要試圖還原該索引款目指回的原頁數的劃記原貌。
進行卡片訪談，引出構念。此訪談有許多repertory grid 需要注意的細節。關鍵問句：「這三條款目的編製工作過程中，有那兩個是較相似的，而另一個是較不同的？哪個地方是相似的？那個地方是不同的？」
使用Rep IV 進行Grid資料的統計分析。此分析有主成份分析(PCA)，與根據叢集分析的焦點分析(FOCUS analysis)兩種。
說明解讀分析資料。

Aug-23

Frege：專名/概念名/對象/概念
羅素：限定摹狀詞
索引款目判定前測：包子、乃瑋

羅素：專名/摹狀詞

羅素在其「論指云(on denoting)」一文中，提出摹狀詞理論。羅素區分專名與摹狀詞。
羅素此一區分是根據兩種不同的認識作用：親識的知識(knowledge by acquaintance)與描述的知識(knowledge by description)。第一種是通過親自經驗命名的對象進行認識，語言在此起「命名」的功能；另一種是通過對某個對象的特徵進行如此如此的描述，我們才會理解它，語言在此起「描述」的功能。具有命名功能的表達式是專名，具有描述功能的表達式是摹狀詞。
專名是一個完全的符號，它直接指稱親識的對象。羅素稱之為具體項目(particular)(洪漢鼎原書作「殊相」)，他說「專名乃是一個簡單符號，它的意義只能作為主詞的東西，即一個個體或具體項目。」具體項目是羅素邏輯原子主義分析最終的不可再分析的東西，即專名紙稱的對象。反之，摹狀詞就不是一個簡單的符號，而是一個複合的符號，它的意義是由組成它的符號的意義而來的。羅素：「一個摹狀詞由幾個字組成，這些字的意義已經確定，摹狀詞所有的意義都是從這些意義而來。」¹⁾

斯特勞森：表達式(expression)是具有唯一性指稱用法的表達式，包括有單稱指示代詞(這個、那個)；專名(人名、地名)；單稱人稱代詞和單稱非人稱代詞(它、他、你、我)；限定摹狀詞或帶有定冠詞的詞(這桌子、那山、法國國王)。斯特勞森認為表達式本身不起指稱作用，只有使用表達式的時候，表達式才會用來指稱某個對象。²⁾

Aug-24

Aug-25

Aug-28

將款目依照詞性分類註記，共得11類540條款目。根據第二版判準測試，三人扣除專名後的概念詞完全一致的款目共有477條，達88.33%。各類分布如下：

詞類	款目數量	佔比	抽樣數量
[c]	47	8.70%	14
[c.domain]	69	12.78%	21
[c+adj]	44	8.15%	13
[c+and]	2	0.37%	1
[u]	133	24.63%	39
[u.domain]	94	17.41%	28
[u_adj]	6	1.11%	2
[u_sentence]	12	2.22%	4
[u+adj]	115	21.30%	34
[u+and]	15	2.78%	5
[u+adj+and]	3	0.56%	1
SUM	541	100.00%	162
Threshold value: 157			抽樣數量以Excel ceiling()函數計算

由於分析第一次抽出結果(15項款目，已廢棄)，發現四種主要樣式：(1)由主詞抽出；(2)由條列項目中抽出；(3)既有領域專有詞彙；(4)因為該詞附有英文原文對照而選出。懷疑是否還有其他行為樣式，因此決定擴大到30%樣本比例，重新分析。為了讓excel跑出亂數表，花了幾個小時，結果還是沒有辦法自動亂數抽樣出款目，只好手工一個個由亂數表抽樣。

亂數以Excel Randbetween()函數產生 <csv :data:attic:research:bob-indexing:randen_20060829.csv></csv>

作業中間，excel檔竟然壞掉一次！ Backup execl file :data:attic:research:bob-indexing:dingchung_indexing-analysis_20060829.xls

款目詞類分類註記

一般而言，名詞有四類：專有名詞(proper nouns)、通用名詞(common nouns)、抽象名詞(abstract nouns)、集合名詞(collective nouns)。
將已篩選過專名(proper nouns)後之款目，根據其詞性分類。首先辨識出(1)不可數名詞款目[u]，包含抽象詞與集合詞[u_collect]都屬於此類；與可數名詞款目[c]；以及較模糊不易判斷的款目[?]。
- 有些款目，中英文因為翻譯的關係，不容易分辨出兩者是相同的詞類。如「數位儲存(Digital Stores)」，根據英文是一集合名詞[c]，但中文似是一概念詞[u]；回溯內文脈絡，可知此詞是指數位儲存系統的集合，當屬於集合名詞，但中文怎麼看也是一個概念詞，因為中文的「概念-集合」之間的區別並不明顯，有時兩者語義上互相轉換也都可以理解。因此，集合與概念此兩類詞類都會是抽樣的範圍之內。
[u]: 不可數的款目。包括不可數的單詞，與約定俗成的雙詞，如「新興市場」。
- [u.domain]: 一些學科內常用的專有詞彙，如Content Analysis、Digital Library等。雖然也有形容詞加以修飾，但已被學科內視為一般性的用法，因此將此類詞彙排除在經修飾限定的詞彙之外，但只限於適用在特定學科領域。因此表記為[u.domain]。
- [u_adj]: 英文有些詞類是形容詞的形式[u_adj]，。如「Educational」，回溯內文脈絡，可知這裡完整的指涉是「教育方面的需求」，是一個經修飾限定的概念詞款目。因此，此類詞與有形容詞修飾的通用名詞，是相同的。
- [u+adj]: 某些通名根據形容詞或形容詞子句修飾過後[u+adj]，更具專指性，但仍非專名。如「Library without wall」。根據抽樣原則，只排除專名，因此此種形式會是抽樣的範圍之內。
  - 大部分四字的中文款目，幾乎都可以拆解為「修飾限定詞+n」的形式，這些款目如果已經被視為是約定俗成的詞彙時，表記為[u]。但，如果是多個名詞累積的中文款目，如「中國圖書館事業」，可拆解為「中國圖書館+事業」，或「中國+圖書館事業」，都屬於透過修飾限定詞修飾通用不可數概念，因此表記為[u+adj]。
  - 大部分其後有“性”、“度”、“化”、“式”、“型”、“學”、“主義”的中文款目概念，在英文中通常利用詞尾變化來達成者，直接表記為[u]。但是不與上一條可拆解為「adj+noun」形式的原則牴觸。如「中文圖書資料自動化」，仍表記為[u+adj]
  - 部分中文款目中有動詞者，將動詞視為動作名詞，前方視為修飾限定詞，因此表記為[u+adj]。一般正確的形式是「n+v」或「adj+v」，如「中美資料交流」。
- [u_sentence]: 許多超長詞彙，可以視為有複雜的命題結構，如具有兩級以上的概念命題，視為句子或子句的形式[u_sentence]
- [u+and]: 詞彙以“and”, “和”、“與”、“及”等連接詞連接的，表記加上[+and]
- 中文款目中附有英文註解，但若中文與英文註解詞性不同，以中文為主。如「一組組顯示格式(grouped record display)」，中文是[u_sentence]，英文是[u+adj]
[c]: 可數的款目。包括可數的單詞，與中文的集合名詞。雖然此處是可數名詞，但是大部分的普通名詞並不會列為索引款目，而通常是指一特別規格的物品，乃至於其集合。因此在索引款目中的可數名詞，需要判斷的是：這是指一物品集合(collective nouns)，或是指該特殊物品背後的專有格式？如是一專有格式，在本判準中將視為一「專名(proper name)/具體款目」，而加以排除抽樣之中。如果提及該物品是拿來「使用/利用」的，視為一個集合概念。即，要麻就是格式專名，要麻就是集合名詞。
- [c+adj]: 某些詞經過形容詞或形容詞子句，加以修飾限制的集合名詞。此名詞是由修飾限制所限定，而非具體物。
- [c.domain]: 在某些學科領域裡面，常被使用的集合名詞。此集合名詞在學科內有約定俗成的具體效果，但本質上並非具體的物品，可是唯一有分類效果的概念集合。如「OPAC」是Online Public Acess Catalog之縮寫，而OPAC是一個具體資訊系統的分類，只要符合某些判準條件，一個資訊系統就可以被視為一OPAC系統。
  - 延伸此一判準，大部分「xx系統」的款目，都是指一系統概念的集合，而非具體系統。具體系統會有一明確的規範，如「DDC」、「LC」、「MARC」等，皆有具體規範可查者，屬專名。無具體規範可查者，視為一集合概念。
- [c+and]: 詞彙以“and”, “和”、“與”、“及”等連接詞連接的，表記加上[+and]

選出款目(已廢棄)

詞類	位置	款目	上位款目	頁碼
u	394.1	Adaptability		27
u+adj	395.2	Computer Assistend Reference Services		59
u	395.2	Cyberian		193
u_adj	396.1	Educational		129
u+adj+and	404.1	公務人員保障及培訓		223-224
u_sentence	404.1	分析和整理資料的知識		40
u+and	405.2	外匯與投資		286
u+adj	406.1	全文處理(Text Processing)技術		104
c	408.1	自動化館際互借系統		76
c+adj	410.2	青少年兒童讀物		138
c.domain	411.2	電腦線上目錄(OPAC)	查檢資料方式	332
c.domain	413.2	書目中心		51
u.domain	424.1	閱覽性資料		330
c+and	424.1	學術性及大專圖書館		328
u.domain	426.1	讀者服務		28, 51, 53-54, 59, 64, 78, 153, 189, 203, 206, 322, 329, 333

Aug-29

繼續內容分析與抽樣。真是抽樣難難無絕期。
延續選出款目行為分類與編碼。之前階段的抽樣以款目為單位，而非以款目與頁碼之關係為單位，原本是考量避免造成多頁碼的款目具有較高的抽樣比例，而減少了只有一頁的款目抽樣比例。在詞類的分析上，c.domain 與 u.domain 款目比例上普遍擁有較多的頁碼關係；而建構式的款目，如 c+adj, u+and, u+adj 等，大多是只有對應到單頁的關係；而 c 與 u 則介於兩者之間。而這樣的觀察可能仍然太過簡化，因此試圖為款目與頁碼關係，作出計量與分類統計。
款目與頁碼關係，就概念可能性上，有以下72種組合(3x3x4x2)：

	涵蓋一具體字詞[t]	涵蓋一或數個段落[p]	涵蓋一或數個具體章節[s]
由內文字詞[a]	11	13	17
由條列項目[b]	19	23	29
由標題[c]	31	37	41

款目的位置：
- 為受詞[.obj]
- 為主詞[.sub]
- 為獨立詞項[.iso]
- 為難辨的詞項[.cpx]：修飾某些概念、形容詞、命題的限定條件，等。
為附有英文原文對照[.eng]

Aug-30

Fight in Excel …. :data:attic:research:bob-indexing:dingchung_indexing-analysis_20060830.xls

¹⁾

洪漢鼎（1992）。語言學的轉向。台北：遠流。頁98

²⁾

洪漢鼎（1992）。語言學的轉向。台北：遠流。頁115-6

Table of Contents