2007年1月29日 星期一

1/29(一)工作日誌

由於天氣突然變冷的關係,我有點感冒,今天蠻長的時間都在睡覺,剩下來的時間找了一下word stemming的演算法。
發現單靠演算法為基礎的話效果可能並不是很好,應該要有字典輔助可能效果才會較佳。而之前找的porter的演算法,似乎已經是很有名的有關word stemming的演算法了,但實際的效果並不如預期,甚至可以說差很多,這也是我不太了解的地方。
而預官考試剩下三天,這兩天可能大部分的時間會花在準備考試上吧。

2007年1月26日 星期五

1/26(五)工作日誌

今天其實主要看預官的時間比較多,做了一些憲法和英文的題目,發現自己英文真的不太好,寫出來的分數都不太好,挫折感很大。
而憲法也是背了就忘,題目也做得不是很順。國文就直接放棄了吧,報酬率實在太低。

然後有稍微看了一下承道的演算法,應該是可以用在系統中,不過當然還是要再做一些修改,所以之後系統的部分,會在這方面著手吧。而word stemming的演算法還在search當中,這方面應該是不會太難解決,而考完預官之後,會研究一下老師之前說的IR的方法,希望可以拿來當做計算分數的方法。

2007年1月25日 星期四

1/25(四)工作日誌

今天看了一下參考的論文,了 解一下之後的架構要怎麼寫,introduction算是完成了一部分,接下來就是related work了。而系統方面,之前找的word stemming的程式,試用了好幾個單字,但效果真的不是很好,trace裡面的code發現它主要是根據一個單字的結尾來判斷,但光是這樣可能並不會有很好的效果,所以可能要再找其它的word stemming演算法來試試。
另外,associate rule的部分,突然想到承道之前做軟工的計畫中有寫一個產生associate rule的演算法,這幾天可能會去trace看看,是否符合我的需求。如果OK的話應該就會依照他的演算法來產生associate rule。

2007年1月24日 星期三

1/24(三)工作日誌

基本上前處理的部分應該還要加上word stemming,如此產生的rule才不會太多,以及產生一些並不是真正可以產生feature的rule。
因此在網路上找了有關word steming的tool,但找到的tool不知是我用的方法不對,還是演算法本身的問題,我傳一個字串received進去,回傳的值竟是receic,跟原本想的原形似乎不太相同。這部分就還要再修改一下,所以會再根據source code來做修正吧。

晚上則把論文的introduction再多寫了一些,預計明天可以完成這個部分,往後面的章節進行,以上大概就是今天的進度。

2007年1月23日 星期二

1/23(二)工作日誌

今天主要是在找有關於stop word remove以及word stemming的tool ,但並沒有找到合適的。這兩個tool找到之後,再套入系統中,則前處理就算差不多了,接下來應該就可以進入較核心的關於找feature的部分了。因此associate rule的tool也要開始找了還有測試了一下坤墇給的斷句程式,那個較適合我的系統。

而晚上則在準備預官的東西,看了一些計概以及憲法的東西還有孫子兵法,今天大致上做了這些。

2007年1月22日 星期一

1/22(一)工作日誌

早上寫了proposal的部分,將introduction 寫了幾段,大意是說隨著網路的普及化,網站上對於一事物的意見越來越多而這些意見對使用者而言雖然是豐富的資訊,但由於這些資訊越來越多,會使得使用者瀏覽所有意見的意願下降,而適當的對這些意見做分析產生評價化的動作,不僅可以方便使用者,對於廠商來說也是一項利多,可以讓他們知道何處該改進以及競爭對手的優缺點在那。

而系統方面由於坤墇的幫忙,完成了斷句的部分,效果大至上是OK,經過POS 之後的效果應該也還可以,因此之後就是要依照associate rule的產生來尋找feature的規則了。

2007年1月19日 星期五

1/19(五)工作日誌

今天看了一下雅虎的評價意見,覺得大家寫的意見真的都差不多。不過可能看得還不夠多,或許之後可能會再得到一些新的想法,對於整個系統的方面,由於老師說要web的介面,所以之後時間上充裕的話,可能會找一些ajax的書來參考,對於這個新的語言,已經聽了很久,對其功能,其實也是很想試試。希望到時能有新的斬獲。

題外話,由於預官考試而看了孫子兵法,覺得這個著作能被古今中外所推崇,真的不是沒有道理。其內容讓我學到不少。

2007年1月18日 星期四

1/18(四)工作日誌

今天早上就是meeting,而內容的部分就不再累述,寫工作日誌的確是逼自己有產出的方法。
1. 關於論文的部分,下午有一個小的想法,對於一個事物找到的feature的部分,假設已經有算出分數了,而分數的算法基本上應該也都是靠形容這一個feature的句子所得到的,如一個名為view的feature,透過所有這個feature的形容的句子來計算而得到分數,而每個句子有其各自的分數,那我想最後的output可以不只是有這個分數,還可以用最接近這個分數的句子的集合,來為這個feature做一個簡單的summarization,或許這樣會令結果有趣一些。不知道老師的看法如何?

2. 另外由於2/1就要預官的考試,所以這段時間可能需要抽一些時間來準備考試,還請老師見諒。

2007年1月17日 星期三

至1/17的工作日誌

1/12
今天和老師討論了一個多小時,有了一些新的啟發,簡短敘述如下幾點:
1. 對於最後量化的動作,在計算方面上或許可以想成是一個learning的問題,如此一來可能可以 用一些在IR上應用的model來解決,如language model、mixture model等。
2. 對於整個題目的延伸方面,不只是在單一的產品或店家上面,可以應用在像是拍賣的評價機制,對於拍賣網站上的評價意見中,套用找出feature以及量化的動作,再應用統計分析的方法,來看是否有一些如outlier或者是其他有趣的pattern來探討整個評價的機制。

1/15
今天的工作內容向老師簡述如下:
1. 對於網頁擷取的部分,是打算先將入口網站上有關於使用者意見的檔案存下來,再依照regular expression對html檔做存取,把使用者的意見抓下來。下午研究了一下,關於這部分應該是沒太大的問題。但我是將固定格式取出。
2. 而使用者的意見部分,原本是打算就存成普通的txt檔,但考量在之後還有許多的處理動作,存成資料庫之後會比較好管理,
因此之後就都在研究關於應用程式和資料庫連結及編輯的方法,雖然.net上有說明文件,但比想像中的複雜一些,所以花了較長時間,希望明天可以把這部分解決,繼續之後的處理。
3. proposal的部分預計明天開始編寫。

1/16
今天主要是在研究資料庫和應用程式的連結,簡述如下:
1. 對於資料庫的連結大致上是沒有問題了,新增、刪除、以及存取記錄上都OK,但發現抓取想要的網頁的部分有一些問題,因此做了一些修改,而對於資料庫的查詢輸出的方法則還在構思當中。
2.晚上開始寫proposal,真正開始寫才真的覺得棘手,發現很難表達要表達的意思,用中文都覺得有些困難,但這是自己應該要加強的,之後應該多參考其他paper的寫作方法再繼續修正改進,覺得這個部分是比implement更困難的。

1/17
今天的工作內容簡述如下:
1. 白天主要還是在implement整個系統,對於資料庫的欄位屬性部分做了一些思考,因此做了資料庫部分的修改而之前找的POS tool,今天做了一些測試,效果還可以,只是要先讀取其內建的模組,所以效率有點慢,不過這都是處理的部分,所以我覺得應該沒有關係。之後可能就要再修改斷句tool,方便自己使用。
2. 晚上就參考了一些之前看的論文,覺得其實introduction應是較麻煩的地方,之後可能會先從related work來寫作,如此寫作的速度可能會快一些。