2007年6月28日 星期四

6/28(四)工作日誌

今天從老師那邊知道論文還有很多問題,
之後這一段時間會將related work做好統整後再充實內容。
還有將introduction寫得更完善。
在系統部分就和阿岡一樣加入使用者能在web線上使用的考量,
來多加敘述及描寫。
能做的就盡量多做以符合老師的要求。

2007年6月27日 星期三

6/27(三 )工作日誌

今天將related work及sytem architecture的部份加了一些內容。
也上傳到google document了。
而上傳的同時發現在google document的圖的部份,
在word的顯示上沒有問題,
但一到線上就會亂掉了,
這個地方我想之後會用小畫家存成整個圖檔再修正吧。
還有老師前天回覆的系統架構的部份,
我不太了解老師指的是哪一個部份,
可否請老師說明的清楚一些,
我再跟老師報告。

2007年6月26日 星期二

6/26(二)工作日誌

今天將之前看的一些paper在研讀一番,
看看好的conference的論文的寫作技巧,
再對照自己的論文,
看有哪些地方可以再加強。
這幾天應該就會繼續這樣的工作,
讓論文能夠更完整一些。

2007年6月25日 星期一

6/25(一)工作日誌

今天主要都在修改論文的內容,
看還有那些地方可以加強修正,
之後就將投影片的內容也更著做修改。
最近應該就會先把這些部分給完成,
再看老師有什麼建議可以再加強。

2007年6月22日 星期五

6/22(五)工作日誌

今天交給老師初稿後,
就將google document的內容更新。
並將references也做更新。
之後就在仔細看看論文當中有沒有哪裡還可以再加強的地方,
或者有哪些錯誤要修正。
這幾天會再仔細看看內容,
如果有更動,隨時會上傳至google document上

2007年6月21日 星期四

6/21(四)工作日誌

今天的時間都花在改論文上,
每個章節都有再做修飾及加強。
還有實驗的部分,
我對評估算出的評價多加了一個統計的檢定方法,
為paired t test,
這是一種檢定兩組樣本有無顯著不同的方法,
加了這個檢定我想應該可以讓實驗更加完整。
也證明計算的方法是有效的。

2007年6月20日 星期三

6/20(三)工作日誌

放假的期間將評價的評估以及計算時間的實驗完成,
評價的評估結果還算不錯,
平均起來一個feature和標準答案不會相差到0.5。
證明這個計算的方法是可行的。
而計算時間的部分我總共計算了40家旅館。
每增加五家旅館時間就會有顯著的下降,
從前五家的800多秒到最後的300秒。
今天就把論文整個做修改,
重新檢視之前寫不好的地方,
還有格式上的問題,
也做了改善。

2007年6月15日 星期五

6/15(五)工作日誌

今天主要是在改論文的introduction的部分,
還有參考一些好的會議的論文,
看看好的論文是怎麼寫的。
好加強自己不足的部分。
這個連假會把之前提到的實驗給做完,
再加在論文的實驗部分。

2007年6月14日 星期四

6/14(四)工作日誌

之前透過持續增長的pattern而減少計算時間的想法,
跑了二十家的旅館後,
計算時間從一開始前十家旅館的十分鐘以上,
到後十家旅館的八分鐘左右,
有了顯著的下降。
之後我會再多做幾家,
希望時間可以控制在可以接受的範圍內。
明天會在用之前想的評估方法來評估計算出的分數好壞。

2007年6月13日 星期三

郭泓志 6/13 好投強打

台灣球員大聯盟首轟

6/13(三)工作日誌

今天被老師指導論文的缺失後,
回去就開始著手改進。
之後會再更仔細的編排論文的章節及寫作技巧。
然後我評估分數的分法初步的構想是,
將yahoo上旅館的feature的分數當作標準答案,
然後將我找到的feature中有包括yahoo上的feature的分數兩兩相減,
再除以總共所做的旅館個數。
基本yahoo上的feature都是大方向如service、location這種feature,
所以我應該都能抓到,
而我想評估的方法就大致上會是這樣。

2007年6月12日 星期二

6/12(二)工作日誌

今天把另一個耳機的feature extraction的實驗做好,
recall結果為0.8677,
precision在name entity前後分別為0.403及0.4183。
之後算了20家旅館的評價分數,
明天再算十家,
然後評估分數到底算得好不好。
另外把老師交代的論文樣版做了大部分,
google documnet的鏈結都弄好了,
reference也大部分都有了,
有幾篇找不到,明天再花時間仔細找找。
abstract的部分之後寫好了再補上。

2007年6月11日 星期一

6/11(一)工作日誌

今天將一個耳機產品的答案標好,
並計算其precision及recall,
recall為0.73左右。
而precision在named entity前後分別為0.3718及0.3984
效果雖然沒有hotel哪麼好,
不過也算是有效果。
之後的時間修改了計算評價分數正規化的方法,
然後抓了之後要做實驗的旅館的網頁。
這幾天就要計算算出的評價分數效果到底好不好。
如果效果不錯,
而且在計算的時間上真的能夠經由計算一定數量的旅館之後,
而將時間控制在可接受的範圍內,
希望可以還是使用目前的方法來計算。

2007年6月8日 星期五

6/8(五)工作日誌

今天將別的類別的產品的reviews網頁抓好,
我是想做再amazon.com上關於耳機的reviews。
由於網站不同,
網頁上意見的tag也不同。
所以之後就要做修改能夠抓出amazon.com上網頁的意見。
還有標出這些意見的標準答案。
預計這個周末應該可以完成。

2007年6月7日 星期四

6/7(四)工作日誌

今天大部分的時間是在修改程式,
將一開始選擇旅館的介面改成加入新的旅館才會顯示,
而之前跑過的旅館則由旁邊的下拉式選單則可選取。
之後幾天想試試看當算過越多旅館的分數後,
是不是再計算新的旅館的分數的時間,會大幅的減少。
還有嘗試做新的domain,看看擷取feature的效果如何。

2007年6月6日 星期三

6/6(三)工作日誌

今天看了extracting semantic orientations of phrases這一篇,
這一篇是用supervised的方法來決定phrase的semantic orientation,
而且文中提到就算沒有training過的phrase或字也能決定。
但這篇paper決定的是positive、negative、neurtal這三個類別。
先用人去對phrase標出這三個類別,然後再用他的方法訓練,
之後測試再做分類。
但要標出這三個類別比標出是幾顆星容易得多。
因為這三個類別可以說都有明確的界線,
但要套用在我算分數的方法,可能不是這麼適合。

2007年6月5日 星期二

6/5(二)工作日誌

今天報告完之後就修改了老師指出的投影片的問題,
然後就看了之前老師寄給我的paper,
其中有兩篇是比較相關的,
分別是mutliple aspect ranking
以及extracting semantic orientations of phrases from dictionary這兩篇。
而mutliple aspect ranking這篇用的方法,
是將一個餐廳的意見來做訓練,
然後將固定的feature建一個類似vector的record。
如一個餐廳的feature有food、service、price三個feature。
他就會針對一個意見建一個如<5,5,5>record來做訓練
其中5是代表五顆星的意思。
不過就我的觀點來看,這對固定的feature可以這樣來做ranking的動作。
可是當feature是變動時,應該不能用這種方法來訓練。
另一篇的方法我明天會再研讀,看會不會有新的想法。

2007年6月4日 星期一

6/4(一)工作日誌

今天把明天要報告的投影片做修改,
之後就把上次demo後老師所指出的最後輸出介面,
做出老師指示的介面。
將選取的旅館相同的feature並排顯示,
其餘的feature分別以pros、cons表示。
之後我會再修正一開始的選取功能,
以利一開始的閱讀,
而不會造成混淆。

2007年6月1日 星期五

6/1(五)工作日誌

今天大部分的時間都花在修介面和寫論文。
介面的部分要設計出一個不雜亂又能清楚顯示的方法,
還要再衡量一下。
而今天先把所選取的旅館以及其feature找出,
並將其共同的找出,這部分沒有太大的問題。
之後的時間我就稍微看了一下學長給我的論文,
希望在related work的部分可以再多充實一些。