2007年4月3日 星期二

4/3(二)工作日誌

把stopword以及做了word stemming後,
item大幅地減少,
透過associate rule來找出pattern的速度也增快不少。
我先把目前所有抓的reviews來做實驗。
總共有544篇意見,
transaction大概有2500條。
用劉兵只找frequent pattern的方法。
的確可以跑出想要的feature。
但出現的feature我覺得有些少。
只有room、service、claen、staff等...
大概不到20個。
不過太多應該也不太好。
所以我想應該就會依靠這些feature來進行下一步分群的動作。

沒有留言: