2007年5月31日 星期四

5/31(四)工作日誌

今天demo完後就帶kayed到台北處理機票的事,
回來後就再修了一下論文。
然後就思考了老師說的介面的部分要怎麼修改,
預計明天可以開始進行。

2007年5月30日 星期三

5/30(三)工作日誌

下午花了一些時間把最後輸出結果的介面再做一些修正,
之後的時間就都花在論文的修改,
把實驗及problem definition的部分多寫了一些,
還有把之前的部分再重新檢視做改善。
因為英文不好,
句子可能不是很通順,文法也可能用得很奇怪。
所以花了很多時間在檢查。

2007年5月29日 星期二

5/29(二)工作日誌

今天花了一天的時間,
把之前找到的畫直條圖的元件整合到系統中。
由於是網路上找到的東西,
看method及有那些屬性就花了我不少時間。
最後的結果為,
可以先選擇兩家旅館,
之後畫面會顯示出兩家旅館相同及不同的feature,
而算出來的appraisal則會以直條圖呈現。

2007年5月28日 星期一

5/28(一)工作日誌

今天和老師討論了最後的介面,
要改成web介面的話,
我的視窗程式就要先改成主控台的應用程式,
這一方面的修改就要再仔細思考要怎麼修改。
之後的時間我就去找要能夠方便比較旅館間的feature的元件,
找到了一個可以秀出直方圖的元件。
之後就是要將這個元件套入系統中並能呈現出好的結果。

2007年5月25日 星期五

5/25(五)工作日誌

今天把程式的介面做一些修改,
因為下禮拜的demo,
所以把整個畫面弄得簡單一些。
之前因為測試方便,
把許多button都分隔出來,
今天主要的時間就是在做這些修正。
還有今天在做測試時,
突然Bellagio這家hotel跑不出feature來,
(而且就只有這家)
為了找這個bug也花了蠻多時間,
最後只好先放棄,
先改做別家hotel。

2007年5月24日 星期四

5/24(四)工作日誌

下午和學長討論了一些用wordnet來對同義詞作分群,
討論的結果是如果把所有抓到的feature都拿來作分群的話,
效果應該會不太好。
應該先挑出一些關鍵常出現的feature,
然後根據這些feature來找同義字,
再看找到的feature中有沒有這些同義字,
再來進一步做分群的動作。
而今天發現wordnet中可以將查詢同義字的結果存成檔案,
如此一來我可以先挑出要找同義字的關鍵feature,
如room、clerk等...
然後將這些關鍵feature的同義字檔案拿來當作分群的依據,
如此我就不用直接連結wordnet的API,
也省去許多麻煩。
而也能得到一樣的效果。
所以之後應該就會看看要挑出哪些關鍵feature的分群效果會較好

2007年5月23日 星期三

5/23(三)工作日誌

今天參考了之前看過的paper,
將論文的第一、二章的內容再衝什一些。
看related work的部分就花了蠻多的時間,
然後就把修改的論文上傳到google document。
請老師有空時再做修改訂正。
之後就把程式的小地方修改一下,
還有繼續研究wordnet的ductionary檔案。

2007年5月22日 星期二

5/22(二)工作日誌

今天將論文的實驗及系統架構部分做修改,
另外還有修改投影片的部分。
之後就在查詢有關wordnet的部分,
有找到一個c#的wordnet open source,
但整個file有些複雜難懂,
而且後來發現是要在Linux下才能run。
所以之後就直接研究wordnet的dictionary,
看了蠻久的時間,
有發現了一些規則,
但要套進系統中做分群的動作,
應該還要一段時間才行。

2007年5月21日 星期一

5/21(一)工作日誌

今天把五個實驗的結果做個整理比較,
之後就根據整理的結果寫在論文上。
我總共做了五家旅館,
每間旅館各取前100則意見,
抓取feature的結果和劉兵的方法做比較之後,
recall都一樣,
precision平均高了6%。
recall都一樣的原因是因為,
依照min support抓出來的feature都是一樣的,
而我改善的方法是從這些抓出來的feature以name entity來去除多餘的feature,
所以precision會提高。
另外今天把修改過後的第1、2張放到了google document上。

2007年5月18日 星期五

5/18(五)工作日誌

今天把第五家旅館的答案給標好。
跑實驗的結果如下,
precision及recall分別為60%及77%。
結果還算OK,
之後就把系統架構的部份再做一些補充,
下禮拜應該就可以寫實驗的部分了。
之後想在跟老師討論一下關於算分數的部分,
要怎麼做評估。

2007年5月17日 星期四

5/17(四)工作日誌

由於kayed要回埃及了,
之前他有說希望可以帶他買些禮物之類的。
所以今天帶kayed出去逛了一整個下午,
因此時間沒有很多,
之後就接著標之前標到一半的答案,
但還沒有標完。
預計明天就可以完成,並做實驗。
還有坤墇有給我一個用WordNet功能的library。
不過是C++的library。
要了解及套在系統中不是那麼的容易。
所以這一部分我想等實驗做完以及論文的初稿寫完後,
再盡力完成。

2007年5月16日 星期三

5/16(三)工作日誌

今天把第五家旅館的答案標了一半,
還有重新檢查了一下之前標的答案,
之後再做實驗的結果,
precision及recall都有一些提高。
大概高了5、6%左右。
這是因為之前覺得有些不是feature的字就沒有把他算進去。
但其實有可能是這旅館的特色。
像我做Las Vegas的旅館時,
一開始標答案並沒有算show這個字,
後來發現Las Vegas的旅館有些都有自己的show。
像是treasure island的海盜船秀之類的...
所以答案應該改正。
還有之前說的要用wordnet來做分群。
原本以為很簡單,
但要透過程式來呼叫並不是哪麼容易,
後來想用裏面的字典來找同義字,
但是裡面的字典有些複雜,
要找出規則並不簡單,
看來這一部分如果要做的話還要再花些時間了。

2007年5月15日 星期二

5/15(二)工作日誌

今天將第四家旅館的答案給標好,
結果算出來後不會差得太多,
precision及recall分別是44%及77%。
另外在計算分數的部分,
就算再加了新的意見進來,
由於之前已計算過的pattern,
總時間也只要在幾分鐘內就可完成,
比之前算一家旅館就要半小時以上好太多了。
這樣的時間應該是可以接受的。
之後就將系統架構的部分寫了大半。
還有將introduction及related work再做一些補充。

2007年5月14日 星期一

5/14(一)工作日誌

今天把算分數的pattern先記錄下來,
當有新的意見進來時,
如果之前紀錄的pattern有包含了新進意見的pattern,
則不用再透過網路去計算。
如此一來則可以大幅減少計算的時間。
然後就將論文的系統架構中的這一個部分,
做了一些修改編寫。
還有將系統的介面部分做一些加強改進。
因為一開始系統沒有考慮到選擇飯店的部分,
所以做修改花了蠻多時間,
預計明天可以完成這個部分。

2007年5月11日 星期五

5/11(五)工作日誌

今天標好第三個旅館的答案,
擷取feature的效果和之前一樣,
沒有太大的差異。
之後就將系統的class做一些整合修正,
還有將擷取到feature之後,
對於含有這些feature的句子的呈現做了一些改善。

2007年5月10日 星期四

5/10(四)工作日誌

今天幫資料庫增加了一些查詢的function,
讓介面能夠更方便的使用。
由於.NET和資料庫的繫結有些複雜,
所以花了一些時間。
另外開始標第三家旅館的標準答案,
希望明天可以再做兩家旅館的實驗。
另外有鑑於透過網路來對pattern算分數的方法,
真的是有些慢,
今天想到我應該把算過得pattern都先記錄起來,
之後如果遇到之前沒有算過的pattern再去做query,
如此可以節省不少時間。

2007年5月9日 星期三

5/9(三)工作日誌

今天將計算feature的分數的方法寫了大部分,
預計這兩天應該可以寫完系統架構的初稿,
之後就會請kayed先幫我看一看related work及系統架構這兩章,
然後再請老師修改訂正。
還有今天也把第二家旅館的標準答案給標完,
並測試擷取feature的效果,
precision及recall幾乎和之前做的一樣,
大概是5成多及7成多快8成。
這樣的效果還能接受,
接下來就是盡快將論文的初稿寫好,
再來看是否可以將實驗結果做改善。

2007年5月8日 星期二

5/8(二)工作日誌

今天將feature pruning的部分寫完,
這個地方我大部分跟劉兵是相同的做法,
差別是我還有用Name Entity的工具來去除不必要的feature,
但做了這個之後效果就會差得很多,
在實驗結果的部分我會做說明。
還有今天開始標第二家旅館的答案,
預計明天可以標完,
之後再加緊把剩下的旅館都做出來跑實驗。

2007年5月7日 星期一

5/7(一)工作日誌

今天的時間主要都花在寫論文上,
把系統架構的frequent explicit features generate這一小節給完成。
在這個禮拜希望能夠把系統架構這整個章節給完成,
再寫一些實驗的部分,
另外要將算分數的pattern的地方做修正,
以得到更正確的分數,
還有要將剩下的旅館意見的正確答案標一標,
理想的情形是要能標到五個旅館的答案,
希望這些能在這個禮拜完成。

2007年5月4日 星期五

5/4(五)工作日誌

今天看了一下extracting appraisal expressions這篇paper,
這篇paper的目的是要找出含有appraisal意味的句子,
而有appraisal意味的句子的判別方法,
是由別的paper所制定的條件來判別,
他們再用他們的方法將這些句子找出來,
但用的方法不是很好懂,
且評估的作法我也看不太懂,
但我覺得跟我要做的目的有些差別。
或許我應該要再仔細的了解這一篇paper才能找到可用的地方。
另外今天也將系統架構的部分再多寫了一點。

2007年5月3日 星期四

5/3(四)工作日誌

今天將name entity的工具加到系統中,
把人名、地名、時間等不必要的item去除,
而再計算precision及recall後,
效果還算可以,達到51%及74%。
而用PMI-IR algorithm算分數的方法,
今天也有了結果,
結果還算可以,
每個feature的分數看起來和意見中的感覺相差不會太大,
但有一兩個feature除外,這點就還要再找一下原因,
所以之後的工作可能就是加緊論文的寫作部分,
還有將一些小地方做修改加強。

2007年5月2日 星期三

5/2(三)工作日誌

今天把turney的PMI-IR algorithm中的pattern給抓出來,
在測試效果時分數是有算出來,
但想更進一步了解這樣的pattern到底好不好時,
因為request太多,被altavista檔掉了,
這方面可能還要再想方法解決。
另外今天找到了name enity的工具,
之後要將name enity的tool套至系統中,
將地名及人名的term給去掉,以提升precision。

2007年5月1日 星期二

5/1(二)工作日誌

雖然precision和recall不是說非常的好,
不過由於之前寫得一些結構,
再做一些修改之後就可以抓出turney的pattern出來,
所以這兩天會在這部份著手,
之後就可以算出feature的分數出來,
再看看效果如何。
另外今天看了一些登凱之前給我的reference,
是有關TERMINOLOGY FINDING的paper,
大概看了一下後,
也將論文的related word部份再多補充了一些,
還有寫了一部分的系統架構。