Predicting Quality Flaws in User-generated Content: The Case of Wikipedia の概要と考察

f:id:tsurutan:20161016154131j:plain

2012年にACMというカンファレンスに出された「Predicting Quality Flaws in User-generated Content: The Case of Wikipedia」という論文を読み考察をしました。

この論文ではWikipediaについているcleanup tagをもとに記事の質の悪さを予測する手法を提案している。

現在誰もが知っているWikipediaには日々膨大な記事が作成されていおり、その著者に誰もがなれるため様々な質の記事が生み出されている。

本来は記事がリリースされる前に専門家のチェックを理想とするが、記事の量が膨大なため人手で目を通すのは不可能に近い。

そこで、この論文では記事の良し悪しを見るためcleanup tagを用いて、コンピューターが記事の欠落を予測する手法を提案している。

cleanup tagとはWikipediaの記事の欠落を表すタグである。

下記の画像を見ると分かるようにcleanup tagは読者や編集者に記事の問題点を知らせている。

f:id:tsurutan:20161015144829p:plain

そしてこのようなcleanup tagはテンプレートから作成されており、その種類は320000ほど存在する。

そこでcleanup tagと記事の内容をSQLでwikipediaから取得し、最も頻度の高い１０個のcleanup tagを用いて予測を行う。

f:id:tsurutan:20161015150846p:plain

分類にはOptimistic Setting と Pessimistic Settingというモデルを作成し、SVMを使い分類を行っている。

f:id:tsurutan:20161016152546p:plain

横軸は閾値で縦軸は精度と再現率となっているが精度ではOptimisticの方が明らかに高いことが見て分かる。

また、cleanup tagの種類ごとに精度を見てみると、Orphanは常に精度は1で、それ以外は記事の欠落の比率が大きくなるにつれて精度が低くなっているのが分かる。

f:id:tsurutan:20161015153352p:plain

f:id:tsurutan:20161015153415p:plain

Orphanの定義自体リンクの個数といった具体的なもので表されるため、このような高い精度になったと考えられる。

下記はOrphanタグの定義

f:id:tsurutan:20161016153622p:plain

結果を見てみると多くの欠落が記事に含まれているとどういったcleanup tagが現れるのかという精度が低くなってしまうが、逆に欠落の少ない記事であれば高い精度がでている。

とくにリンクの数が少ないことを表すOrphanというタグに至っては、記事の欠落の比率にかかわらず常に精度は1である。

それぞれのタグをif else文のみで完結に定義しているのにこのような高い精度を出しているのは感嘆する。

この論文をもとに今後、悪質な記事が減ることを期待する。

記事の質をcleanup tagを用いて解析したのは新規性のある素晴らしいアイデアだと思うが、このようなtagはwikipediaにしかついていないので応用性が乏しいのではないかと考える。

tsurutanのつぶやき