第8回LinkedData勉強会に参加した
第8回LinkedData勉強会に参加してきた。
この勉強会の申し込みのお知らせの数日前にWikidataに出会い、「いったいどういうサービスなんだ?」と疑問に思っていたので渡りに船だった。
疑問に思っていた点は以下のとおり。
- DBpediaとWikidataの関係は何?
- Wikidataが扱っているデータの特性は?
- Wikipediaの重要な方針に特筆性(notability)があるが、Wikidataの場合はどうなのか?(参考:Wikipedia:独立記事作成の目安)
- Wikipediaの重要な方針に二次資料に基づいて書くというものがあるが、Wikidataの場合はどうなのか(参考:Wikipedia:独自研究は載せない)
- Wikidataのデータフォーマットはどうなっているの?
- Wikidataのデータ入力の方法は?
上記の疑問はこの勉強会でおおよそ解決された。
DBpediaとWikidataの関係
講演者の山本さんの資料参照。DBpediaはWikipediaのLinked Data化が目的、Wikidataはいろいろな構造化データをWikipedia的に集めるのが目的。
Wikidataが扱っているデータの特性
知識処理の分野にデータ・情報・知識・知恵階層モデル(Data-Information-Knowledge-Wisdom Hierarchy, DIKW hierachy)というのがあり、Rowleyという人がどういう意味でデータ、情報、知識という言葉を定義しているのかをサーベイしている(Rowleyの論文)。その内容をまとめると以下の画像のような定義になる。
Wikidataでは、上記の定義のデータレベルのものを扱っているのではなく、データを選択し、かつ、構造化(オブジェクト指向のデータ表現)しているため情報のレベルで取り扱っている。各オブジェクトの必須入力データは「ラベル」であり、ラベルとしてモノや場所、概念の名前が入力される。各オブジェクトはプロパティをいくつも持つ。プロパティとしては住所、座標(緯度経度)などがある。
WikidataもWikidataを引き継いで特筆性(notability)や二次資料に基づいて書くというのを方針として持ってはいるものの、あんまり守られていないとのこと。Wikipediaの文書に対しての要求とWikidataの情報に対する要求では特筆性(notability)が異なるのは当然。また、文書は情報を処理した結果作られるものなので情報が生のまま載っていることはマレ。よって、二次資料に基づいてデータ入力するというのは基本的に難しいと思う。
当日の勉強会で質問したところ、現実世界に実物があるならばそれを根拠としてデータを入力するのは良いのではないかという意見をもらった(「たとえば、カップ麺の情報をカップ麺のパッケージなどを根拠にWikidataに入力するのはどういう扱いになるのか?」という質問)
特筆性(notability)については、講演者の東さんも述べていた。
qiita.com
qiita.com:特筆性に関する整理