今天demo完後就帶kayed到台北處理機票的事,
回來後就再修了一下論文。
然後就思考了老師說的介面的部分要怎麼修改,
預計明天可以開始進行。
2007年5月31日 星期四
2007年5月30日 星期三
5/30(三)工作日誌
下午花了一些時間把最後輸出結果的介面再做一些修正,
之後的時間就都花在論文的修改,
把實驗及problem definition的部分多寫了一些,
還有把之前的部分再重新檢視做改善。
因為英文不好,
句子可能不是很通順,文法也可能用得很奇怪。
所以花了很多時間在檢查。
之後的時間就都花在論文的修改,
把實驗及problem definition的部分多寫了一些,
還有把之前的部分再重新檢視做改善。
因為英文不好,
句子可能不是很通順,文法也可能用得很奇怪。
所以花了很多時間在檢查。
2007年5月29日 星期二
5/29(二)工作日誌
今天花了一天的時間,
把之前找到的畫直條圖的元件整合到系統中。
由於是網路上找到的東西,
看method及有那些屬性就花了我不少時間。
最後的結果為,
可以先選擇兩家旅館,
之後畫面會顯示出兩家旅館相同及不同的feature,
而算出來的appraisal則會以直條圖呈現。
把之前找到的畫直條圖的元件整合到系統中。
由於是網路上找到的東西,
看method及有那些屬性就花了我不少時間。
最後的結果為,
可以先選擇兩家旅館,
之後畫面會顯示出兩家旅館相同及不同的feature,
而算出來的appraisal則會以直條圖呈現。
2007年5月28日 星期一
5/28(一)工作日誌
今天和老師討論了最後的介面,
要改成web介面的話,
我的視窗程式就要先改成主控台的應用程式,
這一方面的修改就要再仔細思考要怎麼修改。
之後的時間我就去找要能夠方便比較旅館間的feature的元件,
找到了一個可以秀出直方圖的元件。
之後就是要將這個元件套入系統中並能呈現出好的結果。
要改成web介面的話,
我的視窗程式就要先改成主控台的應用程式,
這一方面的修改就要再仔細思考要怎麼修改。
之後的時間我就去找要能夠方便比較旅館間的feature的元件,
找到了一個可以秀出直方圖的元件。
之後就是要將這個元件套入系統中並能呈現出好的結果。
2007年5月25日 星期五
5/25(五)工作日誌
今天把程式的介面做一些修改,
因為下禮拜的demo,
所以把整個畫面弄得簡單一些。
之前因為測試方便,
把許多button都分隔出來,
今天主要的時間就是在做這些修正。
還有今天在做測試時,
突然Bellagio這家hotel跑不出feature來,
(而且就只有這家)
為了找這個bug也花了蠻多時間,
最後只好先放棄,
先改做別家hotel。
因為下禮拜的demo,
所以把整個畫面弄得簡單一些。
之前因為測試方便,
把許多button都分隔出來,
今天主要的時間就是在做這些修正。
還有今天在做測試時,
突然Bellagio這家hotel跑不出feature來,
(而且就只有這家)
為了找這個bug也花了蠻多時間,
最後只好先放棄,
先改做別家hotel。
2007年5月24日 星期四
5/24(四)工作日誌
下午和學長討論了一些用wordnet來對同義詞作分群,
討論的結果是如果把所有抓到的feature都拿來作分群的話,
效果應該會不太好。
應該先挑出一些關鍵常出現的feature,
然後根據這些feature來找同義字,
再看找到的feature中有沒有這些同義字,
再來進一步做分群的動作。
而今天發現wordnet中可以將查詢同義字的結果存成檔案,
如此一來我可以先挑出要找同義字的關鍵feature,
如room、clerk等...
然後將這些關鍵feature的同義字檔案拿來當作分群的依據,
如此我就不用直接連結wordnet的API,
也省去許多麻煩。
而也能得到一樣的效果。
所以之後應該就會看看要挑出哪些關鍵feature的分群效果會較好
討論的結果是如果把所有抓到的feature都拿來作分群的話,
效果應該會不太好。
應該先挑出一些關鍵常出現的feature,
然後根據這些feature來找同義字,
再看找到的feature中有沒有這些同義字,
再來進一步做分群的動作。
而今天發現wordnet中可以將查詢同義字的結果存成檔案,
如此一來我可以先挑出要找同義字的關鍵feature,
如room、clerk等...
然後將這些關鍵feature的同義字檔案拿來當作分群的依據,
如此我就不用直接連結wordnet的API,
也省去許多麻煩。
而也能得到一樣的效果。
所以之後應該就會看看要挑出哪些關鍵feature的分群效果會較好
2007年5月23日 星期三
5/23(三)工作日誌
今天參考了之前看過的paper,
將論文的第一、二章的內容再衝什一些。
看related work的部分就花了蠻多的時間,
然後就把修改的論文上傳到google document。
請老師有空時再做修改訂正。
之後就把程式的小地方修改一下,
還有繼續研究wordnet的ductionary檔案。
將論文的第一、二章的內容再衝什一些。
看related work的部分就花了蠻多的時間,
然後就把修改的論文上傳到google document。
請老師有空時再做修改訂正。
之後就把程式的小地方修改一下,
還有繼續研究wordnet的ductionary檔案。
2007年5月22日 星期二
5/22(二)工作日誌
今天將論文的實驗及系統架構部分做修改,
另外還有修改投影片的部分。
之後就在查詢有關wordnet的部分,
有找到一個c#的wordnet open source,
但整個file有些複雜難懂,
而且後來發現是要在Linux下才能run。
所以之後就直接研究wordnet的dictionary,
看了蠻久的時間,
有發現了一些規則,
但要套進系統中做分群的動作,
應該還要一段時間才行。
另外還有修改投影片的部分。
之後就在查詢有關wordnet的部分,
有找到一個c#的wordnet open source,
但整個file有些複雜難懂,
而且後來發現是要在Linux下才能run。
所以之後就直接研究wordnet的dictionary,
看了蠻久的時間,
有發現了一些規則,
但要套進系統中做分群的動作,
應該還要一段時間才行。
2007年5月21日 星期一
5/21(一)工作日誌
今天把五個實驗的結果做個整理比較,
之後就根據整理的結果寫在論文上。
我總共做了五家旅館,
每間旅館各取前100則意見,
抓取feature的結果和劉兵的方法做比較之後,
recall都一樣,
precision平均高了6%。
recall都一樣的原因是因為,
依照min support抓出來的feature都是一樣的,
而我改善的方法是從這些抓出來的feature以name entity來去除多餘的feature,
所以precision會提高。
另外今天把修改過後的第1、2張放到了google document上。
之後就根據整理的結果寫在論文上。
我總共做了五家旅館,
每間旅館各取前100則意見,
抓取feature的結果和劉兵的方法做比較之後,
recall都一樣,
precision平均高了6%。
recall都一樣的原因是因為,
依照min support抓出來的feature都是一樣的,
而我改善的方法是從這些抓出來的feature以name entity來去除多餘的feature,
所以precision會提高。
另外今天把修改過後的第1、2張放到了google document上。
2007年5月18日 星期五
5/18(五)工作日誌
今天把第五家旅館的答案給標好。
跑實驗的結果如下,
precision及recall分別為60%及77%。
結果還算OK,
之後就把系統架構的部份再做一些補充,
下禮拜應該就可以寫實驗的部分了。
之後想在跟老師討論一下關於算分數的部分,
要怎麼做評估。
跑實驗的結果如下,
precision及recall分別為60%及77%。
結果還算OK,
之後就把系統架構的部份再做一些補充,
下禮拜應該就可以寫實驗的部分了。
之後想在跟老師討論一下關於算分數的部分,
要怎麼做評估。
2007年5月17日 星期四
5/17(四)工作日誌
由於kayed要回埃及了,
之前他有說希望可以帶他買些禮物之類的。
所以今天帶kayed出去逛了一整個下午,
因此時間沒有很多,
之後就接著標之前標到一半的答案,
但還沒有標完。
預計明天就可以完成,並做實驗。
還有坤墇有給我一個用WordNet功能的library。
不過是C++的library。
要了解及套在系統中不是那麼的容易。
所以這一部分我想等實驗做完以及論文的初稿寫完後,
再盡力完成。
之前他有說希望可以帶他買些禮物之類的。
所以今天帶kayed出去逛了一整個下午,
因此時間沒有很多,
之後就接著標之前標到一半的答案,
但還沒有標完。
預計明天就可以完成,並做實驗。
還有坤墇有給我一個用WordNet功能的library。
不過是C++的library。
要了解及套在系統中不是那麼的容易。
所以這一部分我想等實驗做完以及論文的初稿寫完後,
再盡力完成。
2007年5月16日 星期三
5/16(三)工作日誌
今天把第五家旅館的答案標了一半,
還有重新檢查了一下之前標的答案,
之後再做實驗的結果,
precision及recall都有一些提高。
大概高了5、6%左右。
這是因為之前覺得有些不是feature的字就沒有把他算進去。
但其實有可能是這旅館的特色。
像我做Las Vegas的旅館時,
一開始標答案並沒有算show這個字,
後來發現Las Vegas的旅館有些都有自己的show。
像是treasure island的海盜船秀之類的...
所以答案應該改正。
還有之前說的要用wordnet來做分群。
原本以為很簡單,
但要透過程式來呼叫並不是哪麼容易,
後來想用裏面的字典來找同義字,
但是裡面的字典有些複雜,
要找出規則並不簡單,
看來這一部分如果要做的話還要再花些時間了。
還有重新檢查了一下之前標的答案,
之後再做實驗的結果,
precision及recall都有一些提高。
大概高了5、6%左右。
這是因為之前覺得有些不是feature的字就沒有把他算進去。
但其實有可能是這旅館的特色。
像我做Las Vegas的旅館時,
一開始標答案並沒有算show這個字,
後來發現Las Vegas的旅館有些都有自己的show。
像是treasure island的海盜船秀之類的...
所以答案應該改正。
還有之前說的要用wordnet來做分群。
原本以為很簡單,
但要透過程式來呼叫並不是哪麼容易,
後來想用裏面的字典來找同義字,
但是裡面的字典有些複雜,
要找出規則並不簡單,
看來這一部分如果要做的話還要再花些時間了。
2007年5月15日 星期二
5/15(二)工作日誌
今天將第四家旅館的答案給標好,
結果算出來後不會差得太多,
precision及recall分別是44%及77%。
另外在計算分數的部分,
就算再加了新的意見進來,
由於之前已計算過的pattern,
總時間也只要在幾分鐘內就可完成,
比之前算一家旅館就要半小時以上好太多了。
這樣的時間應該是可以接受的。
之後就將系統架構的部分寫了大半。
還有將introduction及related work再做一些補充。
結果算出來後不會差得太多,
precision及recall分別是44%及77%。
另外在計算分數的部分,
就算再加了新的意見進來,
由於之前已計算過的pattern,
總時間也只要在幾分鐘內就可完成,
比之前算一家旅館就要半小時以上好太多了。
這樣的時間應該是可以接受的。
之後就將系統架構的部分寫了大半。
還有將introduction及related work再做一些補充。
2007年5月14日 星期一
5/14(一)工作日誌
今天把算分數的pattern先記錄下來,
當有新的意見進來時,
如果之前紀錄的pattern有包含了新進意見的pattern,
則不用再透過網路去計算。
如此一來則可以大幅減少計算的時間。
然後就將論文的系統架構中的這一個部分,
做了一些修改編寫。
還有將系統的介面部分做一些加強改進。
因為一開始系統沒有考慮到選擇飯店的部分,
所以做修改花了蠻多時間,
預計明天可以完成這個部分。
當有新的意見進來時,
如果之前紀錄的pattern有包含了新進意見的pattern,
則不用再透過網路去計算。
如此一來則可以大幅減少計算的時間。
然後就將論文的系統架構中的這一個部分,
做了一些修改編寫。
還有將系統的介面部分做一些加強改進。
因為一開始系統沒有考慮到選擇飯店的部分,
所以做修改花了蠻多時間,
預計明天可以完成這個部分。
2007年5月11日 星期五
5/11(五)工作日誌
今天標好第三個旅館的答案,
擷取feature的效果和之前一樣,
沒有太大的差異。
之後就將系統的class做一些整合修正,
還有將擷取到feature之後,
對於含有這些feature的句子的呈現做了一些改善。
擷取feature的效果和之前一樣,
沒有太大的差異。
之後就將系統的class做一些整合修正,
還有將擷取到feature之後,
對於含有這些feature的句子的呈現做了一些改善。
2007年5月10日 星期四
5/10(四)工作日誌
今天幫資料庫增加了一些查詢的function,
讓介面能夠更方便的使用。
由於.NET和資料庫的繫結有些複雜,
所以花了一些時間。
另外開始標第三家旅館的標準答案,
希望明天可以再做兩家旅館的實驗。
另外有鑑於透過網路來對pattern算分數的方法,
真的是有些慢,
今天想到我應該把算過得pattern都先記錄起來,
之後如果遇到之前沒有算過的pattern再去做query,
如此可以節省不少時間。
讓介面能夠更方便的使用。
由於.NET和資料庫的繫結有些複雜,
所以花了一些時間。
另外開始標第三家旅館的標準答案,
希望明天可以再做兩家旅館的實驗。
另外有鑑於透過網路來對pattern算分數的方法,
真的是有些慢,
今天想到我應該把算過得pattern都先記錄起來,
之後如果遇到之前沒有算過的pattern再去做query,
如此可以節省不少時間。
2007年5月9日 星期三
5/9(三)工作日誌
今天將計算feature的分數的方法寫了大部分,
預計這兩天應該可以寫完系統架構的初稿,
之後就會請kayed先幫我看一看related work及系統架構這兩章,
然後再請老師修改訂正。
還有今天也把第二家旅館的標準答案給標完,
並測試擷取feature的效果,
precision及recall幾乎和之前做的一樣,
大概是5成多及7成多快8成。
這樣的效果還能接受,
接下來就是盡快將論文的初稿寫好,
再來看是否可以將實驗結果做改善。
預計這兩天應該可以寫完系統架構的初稿,
之後就會請kayed先幫我看一看related work及系統架構這兩章,
然後再請老師修改訂正。
還有今天也把第二家旅館的標準答案給標完,
並測試擷取feature的效果,
precision及recall幾乎和之前做的一樣,
大概是5成多及7成多快8成。
這樣的效果還能接受,
接下來就是盡快將論文的初稿寫好,
再來看是否可以將實驗結果做改善。
2007年5月8日 星期二
5/8(二)工作日誌
今天將feature pruning的部分寫完,
這個地方我大部分跟劉兵是相同的做法,
差別是我還有用Name Entity的工具來去除不必要的feature,
但做了這個之後效果就會差得很多,
在實驗結果的部分我會做說明。
還有今天開始標第二家旅館的答案,
預計明天可以標完,
之後再加緊把剩下的旅館都做出來跑實驗。
這個地方我大部分跟劉兵是相同的做法,
差別是我還有用Name Entity的工具來去除不必要的feature,
但做了這個之後效果就會差得很多,
在實驗結果的部分我會做說明。
還有今天開始標第二家旅館的答案,
預計明天可以標完,
之後再加緊把剩下的旅館都做出來跑實驗。
2007年5月7日 星期一
5/7(一)工作日誌
今天的時間主要都花在寫論文上,
把系統架構的frequent explicit features generate這一小節給完成。
在這個禮拜希望能夠把系統架構這整個章節給完成,
再寫一些實驗的部分,
另外要將算分數的pattern的地方做修正,
以得到更正確的分數,
還有要將剩下的旅館意見的正確答案標一標,
理想的情形是要能標到五個旅館的答案,
希望這些能在這個禮拜完成。
把系統架構的frequent explicit features generate這一小節給完成。
在這個禮拜希望能夠把系統架構這整個章節給完成,
再寫一些實驗的部分,
另外要將算分數的pattern的地方做修正,
以得到更正確的分數,
還有要將剩下的旅館意見的正確答案標一標,
理想的情形是要能標到五個旅館的答案,
希望這些能在這個禮拜完成。
2007年5月4日 星期五
5/4(五)工作日誌
今天看了一下extracting appraisal expressions這篇paper,
這篇paper的目的是要找出含有appraisal意味的句子,
而有appraisal意味的句子的判別方法,
是由別的paper所制定的條件來判別,
他們再用他們的方法將這些句子找出來,
但用的方法不是很好懂,
且評估的作法我也看不太懂,
但我覺得跟我要做的目的有些差別。
或許我應該要再仔細的了解這一篇paper才能找到可用的地方。
另外今天也將系統架構的部分再多寫了一點。
這篇paper的目的是要找出含有appraisal意味的句子,
而有appraisal意味的句子的判別方法,
是由別的paper所制定的條件來判別,
他們再用他們的方法將這些句子找出來,
但用的方法不是很好懂,
且評估的作法我也看不太懂,
但我覺得跟我要做的目的有些差別。
或許我應該要再仔細的了解這一篇paper才能找到可用的地方。
另外今天也將系統架構的部分再多寫了一點。
2007年5月3日 星期四
5/3(四)工作日誌
今天將name entity的工具加到系統中,
把人名、地名、時間等不必要的item去除,
而再計算precision及recall後,
效果還算可以,達到51%及74%。
而用PMI-IR algorithm算分數的方法,
今天也有了結果,
結果還算可以,
每個feature的分數看起來和意見中的感覺相差不會太大,
但有一兩個feature除外,這點就還要再找一下原因,
所以之後的工作可能就是加緊論文的寫作部分,
還有將一些小地方做修改加強。
把人名、地名、時間等不必要的item去除,
而再計算precision及recall後,
效果還算可以,達到51%及74%。
而用PMI-IR algorithm算分數的方法,
今天也有了結果,
結果還算可以,
每個feature的分數看起來和意見中的感覺相差不會太大,
但有一兩個feature除外,這點就還要再找一下原因,
所以之後的工作可能就是加緊論文的寫作部分,
還有將一些小地方做修改加強。
2007年5月2日 星期三
5/2(三)工作日誌
今天把turney的PMI-IR algorithm中的pattern給抓出來,
在測試效果時分數是有算出來,
但想更進一步了解這樣的pattern到底好不好時,
因為request太多,被altavista檔掉了,
這方面可能還要再想方法解決。
另外今天找到了name enity的工具,
之後要將name enity的tool套至系統中,
將地名及人名的term給去掉,以提升precision。
在測試效果時分數是有算出來,
但想更進一步了解這樣的pattern到底好不好時,
因為request太多,被altavista檔掉了,
這方面可能還要再想方法解決。
另外今天找到了name enity的工具,
之後要將name enity的tool套至系統中,
將地名及人名的term給去掉,以提升precision。
2007年5月1日 星期二
5/1(二)工作日誌
雖然precision和recall不是說非常的好,
不過由於之前寫得一些結構,
再做一些修改之後就可以抓出turney的pattern出來,
所以這兩天會在這部份著手,
之後就可以算出feature的分數出來,
再看看效果如何。
另外今天看了一些登凱之前給我的reference,
是有關TERMINOLOGY FINDING的paper,
大概看了一下後,
也將論文的related word部份再多補充了一些,
還有寫了一部分的系統架構。
不過由於之前寫得一些結構,
再做一些修改之後就可以抓出turney的pattern出來,
所以這兩天會在這部份著手,
之後就可以算出feature的分數出來,
再看看效果如何。
另外今天看了一些登凱之前給我的reference,
是有關TERMINOLOGY FINDING的paper,
大概看了一下後,
也將論文的related word部份再多補充了一些,
還有寫了一部分的系統架構。
訂閱:
文章 (Atom)