2006-09
書後索引研究日誌 2006-Sep
Sep-5
與老師開會討論
美美老師認為需要作一個隨機15組款目作對照,我認為這種隨機對照組沒有必要。因為即使隨機組與經過同質性設計的分層抽樣組的結果一樣,也不能代表什麼;結果不一樣,也不代表什麼。因為根據或然率,這兩組一定會有一樣的結果,只是出現一樣的機率大小的問題。既然隨機的對照組只能做一組的話,這種對照不可能得出有意義的結果。其次,如果想要對照出同質性分層抽樣與隨機抽樣的研究設計差異,必須在多設計幾次同質性與隨機抽樣的實驗工作;而這些設計會花上許多時間與成本。這當中即使蘊含了有趣的研究方法或是研究工具的問題,但是這些時間成本與主要研究問題無關。第三,從540個款目中抽出10~15個款目,在研究社群的共識上原本就是過低的抽樣比例,這點我承認,並不想反駁此一命題。我仍然必須減少到10~15個款目,是因為在執行reportory grid可行性的限制,過多的元素會花費對象過多的時間,特別是在過程中又要顧及ladding等訪談工作。在此抽樣數量的限制下,我必須設計一些方法,確保最終抽樣出來的元素的同質性與代表性。從已經進行的30%抽樣分析中,我已經發現各種款目編製樣態並非均勻分配,而是呈現相當大的集中現象。在已得知母群有這樣的偏差,更不可能只單純採用隨機抽樣工作。我將堅持原本的立場。
美美老師似乎原則上同意只做先做一個個案。
代表性的演算法,公式發展,詞性分類問題,在並沒有得到大多討論或建議,看來還是要自己搞。新的代表性公式在等討論的時間中已經又設計出來了,好像又更改進了一點。
-
Sep-6
根據昨日的excel,STD-all(fix)分析中,可能的幾個元素類型為:(9)
根據analysis1中數量較多的組合,選出一組STD-all(fix)數值最大的:(10)
a-p: [c.domain].cpx
b-t: [u.domain].iso, [u].cpx, [c.domain].eng, [c.domain].sub
b-p: [u].sub
c-t: [u+adj].iso, [u].obj
c-p: [u].iso
c-s: [u+adj].iso
綜合前兩者,所有不重複的組合有:(15)
a-t: [u.domain].obj
a-p: [c.domain].cpx, [u].sub
b-t: [c.domain].eng, [c.domain].sub, [u.domain].iso, [u].cpx
b-p: [u].iso, [u].sub
b-s: [c].obj
c-t: [u+adj].iso, [u].obj
c-p: [u].iso
c-s: [u+adj].obj, [u+adj].iso
另一種表達:(15)
eng: b-t[c.domain]
iso: b-t[u.domain]
iso: b-t[u]
iso: c-t[u+adj]
iso: c-p[u]
iso: c-s[u+adj]
obj: a-t[u.domain]
obj: b-s[c]
obj: c-t[u]
obj: c-s[u+adj]
sub: a-p[u]
sub: b-t[c.domain]
sub: b-p[u]
cpx: a-p[c.domain]
cpx: b-t[u]
其中比例:
奇怪,最多的眾數還是沒有抽到…… a-t.cpx 這種組合出現次數最多,但是卻因為許多種細目詞類都有,其中的差異不大,造成analysis3的計算上,得分很低。即使在乘上次數與總體比例,結果還是低分。
Sep-7
Sep-8
類別 | 樣本數量 | 隨機亂數 | 抽樣結果(元素) |
iso: b-t[c] | 2 | 2 | (421.1) 圖書館自動化系統, p.307 |
iso: b-t[c.domain] | 5 | 4 | (413.2) 書目資料庫, p.105 |
iso: b-t[u] | 11 | 8 | (413.2) 效力(Effectiveness), p.75 |
iso: b-t[u.domain] | 13 | 4 | (400.2) Subject Heading, p.331 |
iso: c-s[u] | 5 | 1 | (401.2) 人力發展, p.286-287 |
iso: c-s[u+adj] | 5 | 3 | (420.1) 圖書資訊事業發展方向, p.26-27 |
obj: a-t[u](eng) | 2 | 2 | (400.2) Standardization, p.77 |
obj: a-t[u.domain] | 31 | 22 | (418.2) 資訊交換碼(Information interchange code), p.372 |
sub: a-p[u+adj](cons) | 1 | 1 | (419.1) 資訊師資培育, p.40-41 |
sub: b-p[u] | 2 | 1 | (411.2) 卡片式, p.331 |
cpx: a-t[c.domain] | 23 | 17 | (410.1) 東亞圖書館(美國), p.109 |
cpx: a-t[u] | 31 | 4 | (399.2) protocol, p.63 |
cpx: a-t[u.domain] | 20 | 8 | (414.2) 參考服務, p.53 |
cpx: a-p[c.domain](cons) | 1 | 1 | (419.2) 電子圖書館(數位化圖書館)(Electronic Library), p.50-51 |
類別 | 樣本數量 | 隨機亂數 | 抽樣結果(元素) |
iso: b-t[c] | 2 | 2 | (421.1) 圖書館自動化系統, p.307 |
iso: b-t[c.domain] | 5 | 4 | (413.2) 書目資料庫, p.105 |
iso: b-t[u] | 11 | 8 | (413.2) 效力(Effectiveness), p.75 |
iso: b-t[u.domain] | 13 | 4 | (400.2) Subject Heading, p.331 |
iso: c-s[u] | 5 | 1 | (401.2) 人力發展, p.286-287 |
iso: c-s[u+adj] | 5 | 3 | (420.1) 圖書資訊事業發展方向, p.26-27 |
obj: a-t[u](eng) | 2 | 2 | (400.2) Standardization, p.77 |
obj: a-t[u.domain] | 31 | 22 | (418.2) 資訊交換碼(Information interchange code), p.372 |
sub: a-p[u+adj](cons) | 1 | 1 | (419.1) 資訊師資培育, p.40-41 |
sub: b-p[u] | 2 | 1 | (411.2) 卡片式, p.331 |
cpx: a-t[c.domain] | 23 | 17 | (410.1) 東亞圖書館(美國), p.109 |
cpx: a-t[u] | 31 | 4 | (399.2) protocol, p.63 |
cpx: a-t[u.domain] | 20 | 8 | (414.2) 參考服務, p.53 |
23:00
24:00
類型 | 數量 | 抽樣 | 款目 |
.cpx | a-t | [c.domain][u.domain] | 6.2 | 26 | 10 | 417.2 | 期刊論文索引資料庫 | p.121 |
.obj | b-s | [c] | 2.8 | 1 | 1 | 409.1 | 庋藏書目資料庫 | p.105-107 |
.iso | b-t | [u.domain] | 36.9 | 6 | 3 | 419.2 | 資訊檢索 | p.50 |
.iso | b-t | [u] | 31.2 | 2 | 1 | 405.2 | 正確性 | p.331 |
.iso | c-p | [u] | 5 | 1 | 1 | 409.2 | 定義(in 兒童圖書館) | p.128-129 |
.sub | b-p | [u] | 16.8 | 2 | 1 | 411.2 | 卡片式 (in 查檢資料方式) | p.331-332 |
.cpx | a-t | [u] | 3.8 | .eng | 5 | 4 | 405.1 | 付得起(Affordability) | p.27-28 |
.iso | c-s | [u][u+adj] | 20 | 8 | 6 | 404.1 | 分試制度 | p.219-221 |
.sub | a-p | [u][u+adj] | 1 | 1 | 1 | 404.1 | 目的(in 公共圖書館) | p.22 |
.cpx | a-t | [u_adj][u+adj][u+and] | 1.8 | .eng | 3 | 1 | 417.2 | 棘齒輪形(ratcher-shaped) | p.271 |
.iso | c-t | [u+adj] | 3.1 | 2 | 2 | 421.2 | 圖書館發展方向 (in 圖書館管理) | p.13 |
* | a-t | [c+and] | .cons | 5 | 5 | 422.1 | 圖書館學系/研究所 | p.151(at.cons) |
.cpx | a-t | [u.domain] | .cons | 9 | 2 | 405.1 | 主題標題(Subject Heading) | p.64 |
* | a-t | [c] | 10.8 | 14 | 10 | 421.1 | 圖書館自動化系統 | p.21(at.cpx) |
.iso | b-t | [c][c.domain] | 19.6 | 5 | 1 | 419.2 | 電子計算機 | p.169(bt) |
Sep-9
Sep-11
製作元素卡片
小棋測試analysis5,這次比較快。比較兩種的結果,analysis4.2可以發現有些元素有集中的趨勢,analysis5元素幾乎都是分散的。這種情況符合當初抽樣指數的特性。
與謝老師討論抽樣問題。謝老師對過多的抽樣動作,所造成的偏差,提出問題。但是由於我抽樣的目的並不是要反映母體的比例,而是要找出各種不同差異的款目類型。
與美美老師討論,美美老師認為用第二個元素樣本(analysis5)
Sep-13
> Mulvany, N. C. (1994). Indexing books. Chicago: The University of Chicago Press.
Sep-15
Sep-19
Sep-20
Sep-29