今天把precision不高的原因做了研究,
發現我找到的所有feature跟所有正確的feature相比,
有一些出入,不只數量較少,而且有些找到的feature並不正確,
如果數量少就算了,因為有些feature的support非常低,
不正確的feature就是造成precision不高的最大原因,
之後就要想想要怎麼去除這些不正確的feature,
還有今天做了劉兵的compactness pruning的動作,
雖然之前老師說用sequential mining的話,
這個步驟就可以省略,
但我後來想一想,因為我有移除掉stopword,
如果找出的feature phrase在原本沒去除stopword的句子中,
其實隔很遠的話,哪這個feature的確是沒有用的,
而根據觀察的結果,這樣的動作也確實是必要的。
沒有留言:
張貼留言