2007年3月21日 星期三

Automatic Ranking by Extended Binary Classification

軒田今天到中研院給了個相當精采的演講!內容是關於如何打分數...

舉個例子,今天我看了一些電影,並在 imdb 上評分 1 到 10。別人要如何從我評過分的電影來推測我的喜好呢?或者更精確一點,能不能猜到我對某部新電影的評分?

這並不是一個單純的 regression 問題,因為評分雖然有大小,但對我來說 10 和 9 的差距並不一定等同於 6 和 5 的差距。也就是 1- 10 的給分制只是一種相對大小,但無法真正的量化。
這也不是一個單純的 multi-class 問題,因為分數之間是有大小關係的。對於一部我可能會評為 5 分的電影,猜測我會評 6 分和猜測會評 10 分,這兩者的錯誤程度是有分的。

對於這種 "ranking" 問題,軒田他們給了一個 scheme,只要你手上有一個 binary classifier 就能套用他們的流程解決問題!大致上的概念是,根據我之前的評分紀錄,去判斷我為什麼會投 1 - 7 分或是 8 - 10 分,由此定出一個 threshold,這是一個 two-class 的問題。定出 9 個 threshold 以後,就有各個分數的區間了。

沒有留言: