Table of Contents

Linked Data (鍊結資料)

Linked Data (鍊結資料)是Tim Berners-Lee 語義網理想的一種展現。在 2008年以後的社會網路風潮中,Linked Data 的理想更進一步被重視。

語義網原本的理想

Linked Data可以從它的前身,語義網,來理解。

Tim BL 早期推動的網際網路(WWW)是一個以文件互連的網路,但是他理想的語義網希望達到的是讓「資料互連的網路」。但是這個理想並不是一開始的版本;Tim BL 一開始的理想是完成自動語義推論的資訊搜尋工作。因此,早期 Tim BL 推動的語義網主要在建立 RDF, OWL 這類能讓電腦辨識資料的標準。

「電腦與網路的工作,是讓使用全球資訊網的人,能透過資訊空間來溝通。但是如果能進一步加重電腦的角色,善用它們的分析能力,來幫助我們瞭解全球資訊網上大量的資訊與人類話語,這樣不是更好嗎?」「首先,要把全球資訊網上的資料,組織或轉換成電腦能自然理解的資料型態。所得到的結果是一個機器能直接或間接處理的資料網路,我稱作語意網(Semantic Web)。」(一千零一網,頁215) Tim BL 會有這樣的理想,相當主要是因為要解決資訊檢索的問題。與上述理想的同一頁,Tim BL說道:
「我們透過全球資訊網從機器得到的幫助想其實相當有限。但搜尋引擎已能快速過濾大量的索引,找出冷僻的文件,效果良好;可是也可以反過來說,搜尋引擎一點用處也沒有,因為它們根本無法判斷文件的品質,搜尋的結果總是一大堆垃圾。問題在於搜尋引擎通常是以關鍵字在文件中的出現次數為搜尋標準,但關鍵字重複的出現跟文件真正要講的內容往往沒有多大關連」(一千零一網,頁215)。

對稍稍理解今日網路搜尋引擎技術的人來說,Tim BL 對搜尋引擎的理解似乎沒有趕上時代。搜尋引擎的相關性品質的確是不能透過單純透過詞頻來解決的,但也沒有當代的搜尋引擎是僅僅靠詞頻就能處理的。但是 Tim BL認為這個問題,是需要透過「能夠進行邏輯推論的搜尋引擎」才能解決的。為了發展推論引擎為前提,Tim BL 建立了RDF與語義網的基礎。

但是,長期的努力,也建立了許多「本體知識集(ontologies)」,但是遠遠無法達到 Tim BL 的理想境界。Tim BL 也坦承過去許多技術計畫並不成功「在過去數年許多語義網技術的研究與評估計畫產生了許多本體知識集,與許多的資料集;但是這些資料,都埋葬在以zip格式封存的某處,而不能成為被鍊結的資料在網路上被取用」。 更有甚者,Tim BL 在2006備忘錄中沒有提到的是,在 2006 年以前的語義網技術與標準發展,有如侏儸紀恐龍一樣,標準一個一個的湧現,又一個比另一個複雜。 2004 提出的 OWL 2,正代表這樣的複雜度到達另一個高峰。

2006 備忘錄

因此,這份 2006 文件可以顯示出 Tim BL 的思想轉換。他想要「簡單」,提到「正是這些意外的重新利用資訊,使得網路增長」,但這些都是早期語義網技術發展所欠缺的。 他希望讓資料回復到「簡單」「容易被利用」「能放在網路上公開」這樣的方向上。

Datasets

References

meta

.