2007年2月13日 星期二

2/13(二)工作日誌

今天早上對程式的部分稍做一些修改,trace要用的associate rule的方法。
之後覺得還是應該要用chunking以及word stemming之後產生的rule才會比較好。
Chunking的部分問了一下登凱應該是可以找到。他說他哪邊可能有。
不過還要再找一下。
Stemming的部分有找到一些演算法。
不過還要再測試一下看哪種的效果較好。
Meeting完後帶kayed去了一下大賣場買他過年要吃的食物。
順便也帶他逛了一下這邊的百貨公司。
這好像是他第一次到大賣場逛,所以我們逛了挺久的。
到八點左右才回來。
感覺他對於能出去晃晃也是挺開心的,希望能幫助他解解悶。

2007年2月12日 星期一

2/12(一)工作日誌

今天把之前看的paper做一些整理,以做為將來reference的整理。
並從中學習paper的寫法以及架構的鋪陳。
所以也順便把自己寫的內容再多做一些修改及編寫。
資料方面也看了一下自己抓的內容及標答案。
發現到reviews的文章真的相當口語,有些東西查字典也不見的查的到。
有時也可能是user寫錯字,這種情形當然在我們自己寫blog時也常發生。
不過我的目的只是要找出敘述中的feature,所以基本上是還好。
然後看了一下坤墇請大家標的文章,選了一篇來玩玩。
發現這真的是個大工程,一篇文章所要耗費的時間其實不是很短。
而且有關正反面意見的句子可能就一兩句而已,標起來實在挺累人。
不過以後我有空會多幫忙他標些文章的,希望可以減輕他一些負擔。

2007年2月9日 星期五

2/9(五)工作日誌

今天由於白天家中有些事情,所以白天耽擱了一些時間。
只有利用晚上將data的部分做一些處理,雖然之前已經有準備一些data了。
不過只準備了一小部分用來當前處理的測試,晚上將之後要用的data都準備好。
總共是500則user對於紐約的旅館reviews。
並且標記了一些在reviews的敘述當中的feature,也就是要當作產生rule以及正確答案的對照。
另外也寫了一小部分的related work。

2007年2月8日 星期四

2/8(四)工作日誌

今天報完paper後由於老師的指導使得我對投影片的作法,以及報paper的方式,了解自己的不足。
這是以後要再多改進的地方,之後就把論文的introduction的部分再做修改訂正,
之後寫了一部分的related work。
至於今天報的paper基本上跟我要做的domain真的很相似,連future work的部分剛好就是我現在做的data。
因此這幾天應該要好好思考是不是可以從這一篇paper來改進,或者是用目前做的方法來產生summary。
再進一步來比較產生summary的效果如何。
但是標資料的部分真的很累人,光是目前在做的部分的資料標記應該就會花蠻多時間了。
所以這一部分也是要再思考的。

2007年2月7日 星期三

2/7(三)工作日誌

今天大致上是把明天要報的paper仔細的看一次,大體上都沒什麼問題。
然後再把投影片的部分做最後的調整及修改。
白天花了蠻長的時間做這些動作 ,也由於再把paper仔細看過一次,所以對於拍賣網站的意見,
有了更深入的了解,而將自己的方法套用到這個domain上感覺是可行的。
但詳細的做法還要再想一想,目前只是有個觸發,但具體的說法還不能說清楚。
晚上把老師之前修改的論文訂正到我的檔案,但發現老師好像把我原本的內容給刪除掉了。
所以我不太清楚被刪掉的內容是該如何做訂正,還是就全部刪除。
關於這一個部分我覺得用pbwiki來做訂正論文好像不是相當適宜。

2007年2月6日 星期二

2/6(二)工作日誌

今天把要報的論文的細節部分給弄清楚,投影片也做得差不多了,基本上這篇論文的做法其實很簡單。
而實驗的部分這一篇paper是用評估的方法來做,他們先設定一個假設,假設一個feedback comment在含有禮貌性的句子的情況下,變異數會比較小,最後再定一個式子並透過這個式子來成立他們的假設不過基本上對於summary的方法,好像也沒有什麼標準答案,所以這樣來做衡量,應該是可行的。

而之後在論文的部分,應該要開始標出reviews中的feature了,預計可能會找個一千則reviews,然後從這些review中的句子找出含有feature的句子,並標示出那些term是feature,這個部分雖然不會用到什麼技術,但也是相當耗時間的動作。

2007年2月5日 星期一

2/5(一)工作日誌

今天主要是在看下次要報的paper,而我決定 的paper topic為Social Summarization of Text Feedback for Online Auctions and Interactive Presentation of the Summary,作者是一群日本人,因為看到一半,所以只能先簡述一下這一篇的內容。這一篇paper主要是想要對拍賣網站上關於feedback意見做一個summary的動作,當然拍賣網站的意見非常多,要全部抓下來做分析是不可能的,所以他們的作法是針對幾個特定的seller,並擷取他們最近的幾則feedback,例如20則等,總共有1000個意見,而每個意見當然有一句以上的敘述,而敘述大概是3000多個左右,然後由他們研究出的Social Summarization method來找出非禮貌性的敘述,也就是說可以找出user非慣例性的禮貌回答,而是真正代表內心心意的回答,之後再將這些敘述做一個Summarization的動作,而根據這個summary我們還可以看出一個seller在網路上的特性等。
基本上我目前對這篇paper的認知大概是如此,而實際的做法等…我就是在下次的meeting中會報告給大家聽。

2007年2月2日 星期五

2/2(五)工作日誌

基本上今天時間都花在尋找以及看一些paper上,我在sigir’06上找到一篇關於text clustering的paper。覺得這一篇對於我之後找到feature再做clustering的動作上可能會有一些幫助,如此也可以使得我的系統在擷取feature上面,不會跟劉兵的完全一 樣。這一篇的大意是說作者研究了一個新的clustering algorithm,並在其中使用了EM的概念,對於text clustering有更好的效果。而細節的部分我還沒詳細看。所以沒辦法再多說明。

另外,找到了一篇關於拍賣網站上的feedback的summarization的paper,由於之前和老師討論到的關於拍賣網站上的意見分析,剛好發現有人有做相關這方面的研究,所以想看看別人在這方面是做了些什麼,同樣的細節部分我也還沒多看,而下次的報告中我應該是從這兩篇挑出一篇來報告。

而我還有找到一篇韓家威的paper,topic是Discovering Interesting Patterns Through User’s Interactive Feedback,原本想說可能會跟我做的有些相關,但稍微看了一些,似乎這一篇一樣是從feedback中找出frequent的pattern,並依此認定它是interesting的pattern,如此看來,可能跟我想要做的有些出入了。