Predicting Quality Flaws in User-generated Content: The Case of Wikipedia の概要と考察
2012年にACMというカンファレンスに出された「Predicting Quality Flaws in User-generated Content: The Case of Wikipedia」という論文を読み考察をしました。
[原文] http://www.uni-weimar.de/medien/webis/publications/papers/stein_2012i.pdf
この論文ではWikipediaについているcleanup tagをもとに記事の質の悪さを予測する手法を提案している。
序章
現在誰もが知っているWikipediaには日々膨大な記事が作成されていおり、その著者に誰もがなれるため様々な質の記事が生み出されている。
本来は記事がリリースされる前に専門家のチェックを理想とするが、記事の量が膨大なため人手で目を通すのは不可能に近い。
そこで、この論文では記事の良し悪しを見るためcleanup tagを用いて、コンピューターが記事の欠落を予測する手法を提案している。
実験
cleanup tagとはWikipediaの記事の欠落を表すタグである。
下記の画像を見ると分かるようにcleanup tagは読者や編集者に記事の問題点を知らせている。
そしてこのようなcleanup tagはテンプレートから作成されており、その種類は320000ほど存在する。
そこでcleanup tagと記事の内容をSQLでwikipediaから取得し、最も頻度の高い10個のcleanup tagを用いて予測を行う。
分類にはOptimistic Setting
と Pessimistic Setting
というモデルを作成し、SVMを使い分類を行っている。
横軸は閾値で縦軸は精度と再現率となっているが精度ではOptimistic
の方が明らかに高いことが見て分かる。
また、cleanup tagの種類ごとに精度を見てみると、Orphan
は常に精度は1で、それ以外は記事の欠落の比率が大きくなるにつれて精度が低くなっているのが分かる。
Orphan
の定義自体リンクの個数といった具体的なもので表されるため、このような高い精度になったと考えられる。
下記はOrphan
タグの定義
結論
結果を見てみると多くの欠落が記事に含まれているとどういったcleanup tagが現れるのかという精度が低くなってしまうが、逆に欠落の少ない記事であれば高い精度がでている。
とくにリンクの数が少ないことを表すOrphan
というタグに至っては、記事の欠落の比率にかかわらず常に精度は1である。
それぞれのタグをif else文のみで完結に定義しているのにこのような高い精度を出しているのは感嘆する。
この論文をもとに今後、悪質な記事が減ることを期待する。
記事の質をcleanup tagを用いて解析したのは新規性のある素晴らしいアイデアだと思うが、このようなtagはwikipediaにしかついていないので応用性が乏しいのではないかと考える。