1/12
今天和老師討論了一個多小時,有了一些新的啟發,簡短敘述如下幾點:
1. 對於最後量化的動作,在計算方面上或許可以想成是一個learning的問題,如此一來可能可以 用一些在IR上應用的model來解決,如language model、mixture model等。
2. 對於整個題目的延伸方面,不只是在單一的產品或店家上面,可以應用在像是拍賣的評價機制,對於拍賣網站上的評價意見中,套用找出feature以及量化的動作,再應用統計分析的方法,來看是否有一些如outlier或者是其他有趣的pattern來探討整個評價的機制。
1/15
今天的工作內容向老師簡述如下:
1. 對於網頁擷取的部分,是打算先將入口網站上有關於使用者意見的檔案存下來,再依照regular expression對html檔做存取,把使用者的意見抓下來。下午研究了一下,關於這部分應該是沒太大的問題。但我是將固定格式取出。
2. 而使用者的意見部分,原本是打算就存成普通的txt檔,但考量在之後還有許多的處理動作,存成資料庫之後會比較好管理,
因此之後就都在研究關於應用程式和資料庫連結及編輯的方法,雖然.net上有說明文件,但比想像中的複雜一些,所以花了較長時間,希望明天可以把這部分解決,繼續之後的處理。
3. proposal的部分預計明天開始編寫。
1/16
今天主要是在研究資料庫和應用程式的連結,簡述如下:
1. 對於資料庫的連結大致上是沒有問題了,新增、刪除、以及存取記錄上都OK,但發現抓取想要的網頁的部分有一些問題,因此做了一些修改,而對於資料庫的查詢輸出的方法則還在構思當中。
2.晚上開始寫proposal,真正開始寫才真的覺得棘手,發現很難表達要表達的意思,用中文都覺得有些困難,但這是自己應該要加強的,之後應該多參考其他paper的寫作方法再繼續修正改進,覺得這個部分是比implement更困難的。
1/17
今天的工作內容簡述如下:
1. 白天主要還是在implement整個系統,對於資料庫的欄位屬性部分做了一些思考,因此做了資料庫部分的修改而之前找的POS tool,今天做了一些測試,效果還可以,只是要先讀取其內建的模組,所以效率有點慢,不過這都是處理的部分,所以我覺得應該沒有關係。之後可能就要再修改斷句tool,方便自己使用。
2. 晚上就參考了一些之前看的論文,覺得其實introduction應是較麻煩的地方,之後可能會先從related work來寫作,如此寫作的速度可能會快一些。
沒有留言:
張貼留言