Hiện nay, tồn tại một sốthuật toán học phân lớp văn bản thực hiện có kết quảrất tốt khi được xây dựng dựa trên một tập ví dụhọc lớn
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin HÀ NỘI – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS Hà Quang Thuỵ Cán bộ đồng hướng dẫn: NCS Lê Anh Cường HÀ NỘI – 2006 ii Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (trường Đại học Công nghệ) và NCS Lê Anh Cường (Japan Advanced Institute of Science and Technology) đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận này. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi những kiến thức quí báu để tôi có thể vững bướ c trên con đường đi của mình. Tôi xin gửi lời cảm ơn các anh chị trong nhóm seminar về khai phá dữ liệu: anh Nguyễn Việt Cường, anh Đặng Thanh Hải, chị Nguyễn Cẩm Tú, … đã nhiệt tình chỉ bảo trong quá trình tôi tham gia nghiên cứu khoa học và làm khoá luận. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K47CC, K47CA đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơ n vô hạn tới cha mẹ, và các anh chị tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, ngày 24 tháng 05 năm 2006 Sinh viên Trần Thị Oanh iii TÓM TẮT NỘI DUNG Hiện nay, tồn tại một số thuật toán học phân lớp văn bản thực hiện có kết quả rất tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled data) thì l ại rất phong phú. Do vậy, việc xem xét các thuật toán học không cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc học này được đề cập đến với tên gọi là học bán giám sát. Trong khóa luận này, chúng tôi khảo sát hai thuật toán học bán giám sát điển hình nhất, đó là self-training và co-training và đề xuất một s ố kỹ thuật làm trơn. Khóa luận cũng tiến hành ứng dụng các nghiên cứu nói trên vào bài toán phân lớp văn bản và cho kết quả rất khả quan . iv MỤC LỤC MỞ ĐẦU .1 Chương 1 TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ HỌC BÁN GIÁM SÁT .3 1.1. Phân lớp văn bản 3 1.2. Thuật toán phân lớp văn bản điển hình 5 1.2.1. Thuật toán Naive Bayes .5 1.3. Tổng quan về học bán giám sát .7 1.3.1. Học giám sát và học không giám sát 9 1.3.2. Phạm vi sử dụng học bán giám sát .11 1.4. Một số phương pháp học bán giám sát 12 1.4.1. Thuật toán cực đại kỳ vọng toán 12 1.4.2. Học SVM truyền dẫn .13 1.4.3. Phân hoạch đồ thị quang phổ .15 CHƯƠNG 2 THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING.16 2.1. Thuật toán self-training 16 2.2. Thuật toán co-training 17 2.3. So sánh hai thuật toán 21 2.4. Các kỹ thuật làm trơn 23 2.4.1. Đảm bảo phân phối lớp .24 2.4.2. Kết hợp bộ phân lớp .26 2.4.3. Thuật toán self-training và co-training với các kỹ thuật làm trơn .27 Chương 3 THỰC NGHIỆM TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN .29 3.1. Giới thiệu bài toán thực nghiệm 29 3.2. Các lớp văn bản .31 3.3. Môi trường thực nghiệm 31 v 3.4. Bộ dữ liệu thực nghiệm .35 3.5. Quá trình tiến hành thực nghiệm .35 3.5.1. Xây dựng các đặc trưng .35 3.5.2. Thiết lập tham số cho mô hình .36 3.6. Kết quả của các bộ phân lớp 37 3.7. Một số nhận xét kết quả đạt được 40 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 41 Tài liệu tham khảo .42 vi Bảng các ký hiệu và chữ viết tắt EM: Expectation-Maximization. i.i.d : independent and identically distributed random variables. PAC: Probably Approximately Correct. SAE: Selected Added Examples. TSVM: Transductive Support Vector Machine. WSD: Word Sense Disambiguation. vii Danh mc hỡnh v Hỡnh 1. Siờu phng cc i (thut toỏn TSVM) Hỡnh 2. th trng s da trờn cỏc mu d liu gỏn nhón v cha gỏn nhón (thut toỏn Spectral Graph Partition) Hỡnh 3. Biu din trc quan ca thut toỏn self-training Hỡnh 4. S thut toỏn self-training Hỡnh 5. Biu din trc quan thit lp co-training. Hỡnh 6. S thit lp co-training cho bi toỏn hai lp Hỡnh 7. S th tc SAE duy trỡ phõn phi lp Hỡnh 8. Thut toỏn co-training vi k thut lm trn c xu t Hỡnh 9: Hai khung nhỡn ca mt trang web Hỡnh 10: th biu din o F1 ca b phõn lp giỏm sỏt Naùve Bayes da trờn content Hỡnh 11: th biu din o F1 ca b phõn lp bỏn giỏm sỏt self- training gc v self-training ci tin viii Danh mục các bảng biểu Bảng 1: Bảng so sánh hai thiết lập self-training và co-training (trang 22). Bảng 2. Bảng mô tả các phân lớp Bảng 3: Cấu hình máy tính Bảng 4: Bảng công cụ phần mềm hỗ trợ Bảng 5: Bảng công cụ phần mềm xử lý dữ liệu Bảng 6: Bảng các lớp thực hiện học bán giám sát Bảng 7: Danh sách các n-gram Bảng 8: Các độ đo của bộ phân lớp giám sát Naïve Bayes dựa trên content Bảng 9: Các độ đo của self-training (ban đầu/cải tiến MAX/ c ải tiến MEDIAN) dựa trên content. ix [...]... ca nú 15 Thut toỏn self-training v co-training CHNG 2 THUT TON SELF-TRAINING V CO-TRAINING 2.1 Thut toỏn self-training Cú th núi rng, ý tng u tiờn v s dng d liu cha gỏn nhón trong phõn lp l thit lp self-training í tng v self-training xut hin t nhng nm 1960 ú l thut toỏn bc (wrapper-algorithm) s dng lp nhiu ln mt phng phỏp hc giỏm sỏt Hỡnh v 3 biu din mt cỏi nhỡn trc quan ca thit lp self-training Vũng:... Hỡnh 6:S thit lp co-training gc cho vn hai lp 2.3 So sỏnh hai thut toỏn Bng 1 a ra mt s so sỏnh hai thit lp self-training v co-training Núi chung, s khỏc nhau c bn gia thut toỏn self-training v co-training l ch: Selftraining ch s dng mt khung nhỡn d liu, trong khi ú co-training s dng hai khung nhỡn d liu Self-training khụng yờu cu s phõn chia ca features thnh hai khung nhỡn c lp nh co-training Nú ch... nh danh s dng chớnh t ú v ng cnh m t ú xut hin S co-training ó c s dng trong rt nhiu lnh vc nh phõn tớch thng kờ v xỏc nh cm danh t Hỡnh v 5 di õy cho chỳng ta mt cỏi nhỡn trc quan ca thit lp co-training Hỡnh 5: S biu din trc quan thit lp co-training 18 Thut toỏn self-training v co-training Blum v Mitchell [4] ó cụng thc hoỏ hai gi thit ca mụ hỡnh co-training v chng minh tớnh ỳng n ca mụ hỡnh da trờn... thut toỏn hc giỏm sỏt Chng 2 trỡnh by hai thut toỏn self-training v co-training Phn u chng gii thiu hai thut toỏn hc bỏn giỏm sỏt Self-training, Co-training v ỏnh giỏ chỳng Thụng qua ú, khúa lun xut mt s k thut lm trn v mụ hỡnh thi hnh thut toỏn self-training v co-training trờn c s thut toỏn Naùve Bayes 1 Thc nghim phõn lp trang web c trỡnh by trong Chng 3 Ni dung thc nghim cỏc phng phỏp Naùve Bayes... ch cn mt b phõn lp vi mt khung nhỡn ca d liu 21 Thut toỏn self-training v co-training Bng 1 Bng so sỏnh hai thit lp self-training v co-training Tiờu chớ Self-training Co-training Khung nhỡn 1 khung nhỡn 2 khung nhỡn c lp Tỡnh hung s dng Khi b phõn lp c l khú Tho món thit lp cochnh sa training u Tn dng ngun d liu cha gỏn nhón rt phong phỳ Hc tt trong trng hp cỏc features khụng th phõn chia thnh cỏc views... chỳng Tờn gi self-training xut phỏt t vic nú s dng d oỏn ca chớnh nú dy chớnh nú S thut toỏn self-training c mụ t nh hỡnh 4 t L : Tp cỏc d liu gỏn nhón U : Tp cỏc d liu cha gỏn nhón Lp - Hun luyn b phõn lp h trờn tp d liu hun - luyn L S dng h phõn lp d liu trong tp U Tỡm tp con U ca U cú tin cy cao nht L + U -> L U U-> U Hỡnh 4: S thut toỏn self-training Self-training ó c ng dng trong mt vi nhim... Mitchell ó tin hnh thc nghim co-training trong phõn lp trang web theo s trong hỡnh 6 th hin rng vic s dng d liu cha gỏn nhón to ra mt ci tin quan trng trong thc hnh Trong s thit lp trờn, vic s dng U ' s to ra kt qu tt hn vỡ: Nú bt buc hai b phõn lp la chn cỏc mu cú tớnh i din hn cho phõn phi D to ra tp U 20 Thut toỏn self-training v co-training Cho trc: o L l tp cỏc mu hun luyn ó gỏn nhón o U l tp cỏc... self-training Self-training ó c ng dng trong mt vi nhim v x lý ngụn ng t nhiờn: Riloff, Wiebe v Wilson (2003) [10] s dng self-training xỏc nh cỏc danh t cú thuc quan im cỏ nhõn hay khụng Self-training cng c ng dng trong phõn tớch cỳ phỏp v dch mỏy 2.2 Thut toỏn co-training Thut toỏn co-training da trờn gi thit rng cỏc features cú th c phõn chia thnh 2 tp con; Mi tp con phự hp hun luyn mt b phõn lp... bng thut toỏn co-training Hai ụng cng ó chng minh tớnh ỳng n ca s co-training bng nh lý sau: nh lý (A.Blum & T Mitchell) Nu C2 cú th hc c theo mụ hỡnh PAC vi nhiu phõn lp, v nu gi thit c lp iu kin tho món, thỡ ( C1 , C2 ) cú th hc c theo mụ hỡnh co-training ch t d liu cha gỏn nhón, khi cho trc mt b d oỏn yu nhng hu ớch ban u h ( x1 ) Blum v Mitchell ó tin hnh thc nghim co-training trong phõn lp trang... tho món Vỡ hc trờn 2 views d liu nờn chỳng s cung cp nhiu thụng tin hu ớch cho nhau hn - Khú khn trong la chn ngng tin cy ca d oỏn ( lm gim noise trong d oỏn) - Cú th cú trng hp cú mu khụng c gỏn nhón cn xỏc nh s ln lp trỏnh lp vụ hn Gi thit c lp iu kin thng khụng ỳng trong thc t Khú khn Co-training v self-training l hai thut toỏn hc bỏn giỏm sỏt cú nhim v chớnh l m rng tp cỏc mu gỏn nhón ban u Hiu