今天把第五家旅館的答案標了一半,
還有重新檢查了一下之前標的答案,
之後再做實驗的結果,
precision及recall都有一些提高。
大概高了5、6%左右。
這是因為之前覺得有些不是feature的字就沒有把他算進去。
但其實有可能是這旅館的特色。
像我做Las Vegas的旅館時,
一開始標答案並沒有算show這個字,
後來發現Las Vegas的旅館有些都有自己的show。
像是treasure island的海盜船秀之類的...
所以答案應該改正。
還有之前說的要用wordnet來做分群。
原本以為很簡單,
但要透過程式來呼叫並不是哪麼容易,
後來想用裏面的字典來找同義字,
但是裡面的字典有些複雜,
要找出規則並不簡單,
看來這一部分如果要做的話還要再花些時間了。
沒有留言:
張貼留言