Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
838,85 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thị Oanh
THUẬT TOÁNSELF-TRAININGVÀCO-TRAINING
ỨNG DỤNGTRONGPHÂNLỚPVĂNBẢN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
HÀ NỘI – 2006
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thị Oanh
THUẬT TOÁNSELF-TRAININGVÀCO-TRAINING
ỨNG DỤNGTRONGPHÂNLỚPVĂNBẢN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS Hà Quang Thuỵ
Cán bộ đồng hướng dẫn: NCS Lê Anh Cường
HÀ NỘI – 2006
ii
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới Tiến sĩ
Hà Quang Thuỵ (trường Đại học Công nghệ) và NCS Lê Anh Cường (Japan Advanced
Institute of Science and Technology) đã tận tình hướng dẫn tôi trong suốt quá trình
thực hiện khoá luận này.
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong
suốt bốn năm học qua, đã cho tôi những kiến thức quí báu để tôi có thể vững bướ
c trên
con đường đi của mình.
Tôi xin gửi lời cảm ơn các anh chị trong nhóm seminar về khai phá dữ liệu:
anh Nguyễn Việt Cường, anh Đặng Thanh Hải, chị Nguyễn Cẩm Tú, … đã nhiệt tình
chỉ bảo trong quá trình tôi tham gia nghiên cứu khoa học và làm khoá luận.
Tôi xin gửi lời cảm ơn tới các bạntronglớp K47CC, K47CA đã ủng hộ,
khuyến khích tôi trong suốt quá trình học tập tại trường.
Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơ
n vô hạn tới cha mẹ,
và các anh chị tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp
tôi vượt qua khó khăn trong học tập cũng như trong cuộc sống.
Hà Nội, ngày 24 tháng 05 năm 2006
Sinh viên
Trần Thị Oanh
iii
TÓM TẮT NỘI DUNG
Hiện nay, tồn tại một số thuật toán học phânlớpvănbản thực hiện có kết quả rất
tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế
thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người
nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữ liệu chưa gán nhãn
(unlabeled data) thì l
ại rất phong phú. Do vậy, việc xem xét các thuật toán học không
cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ
liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc
học này được đề cập đến với tên gọi là học bán giám sát.
Trong khóa luận này, chúng tôi khảo sát hai thuật toán học bán giám sát điển hình
nhất, đó là self-trainingvàco-trainingvà đề xuất một s
ố kỹ thuật làm trơn. Khóa luận
cũng tiến hành ứngdụng các nghiên cứu nói trên vào bài toánphânlớpvănbảnvà cho
kết quả rất khả quan .
iv
MỤC LỤC
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ PHÂNLỚPVĂNBẢNVÀ HỌC BÁN
GIÁM SÁT 3
1.1. Phânlớpvănbản 3
1.2. Thuật toánphânlớpvănbản điển hình 5
1.2.1. Thuật toán Naive Bayes 5
1.3. Tổng quan về học bán giám sát 7
1.3.1. Học giám sát và học không giám sát 9
1.3.2. Phạm vi sử dụng học bán giám sát 11
1.4. Một số phương pháp học bán giám sát 12
1.4.1. Thuật toán cực đại kỳ vọng toán 12
1.4.2. Học SVM truyền dẫn 13
1.4.3. Phân hoạch đồ thị quang phổ 15
CHƯƠNG 2 THUẬT TOÁNSELF-TRAININGVÀ CO-TRAINING.16
2.1. Thuật toánself-training 16
2.2. Thuật toánco-training 17
2.3. So sánh hai thuật toán 21
2.4. Các kỹ thuật làm trơn 23
2.4.1. Đảm bảo phân phối lớp 24
2.4.2. Kết hợp bộ phânlớp 26
2.4.3. Thuật toánself-trainingvàco-training với các kỹ thuật làm trơn 27
Chương 3 THỰC NGHIỆM TRONG BÀI TOÁNPHÂNLỚPVĂN
BẢN 29
3.1. Giới thiệu bài toán thực nghiệm 29
3.2. Các lớpvănbản 31
3.3. Môi trường thực nghiệm 31
v
3.4.
Bộ dữ liệu thực nghiệm 35
3.5. Quá trình tiến hành thực nghiệm 35
3.5.1. Xây dựng các đặc trưng 35
3.5.2. Thiết lập tham số cho mô hình 36
3.6. Kết quả của các bộ phânlớp 37
3.7. Một số nhận xét kết quả đạt được 40
KẾT LUẬNVÀ HƯỚNG PHÁT TRIỂN 41
Tài liệu tham khảo 42
vi
Bảng các ký hiệu và chữ viết tắt
EM: Expectation-Maximization.
i.i.d : independent and identically distributed random variables.
PAC: Probably Approximately Correct.
SAE: Selected Added Examples.
TSVM: Transductive Support Vector Machine.
WSD: Word Sense Disambiguation.
vii
Danh mục hình vẽ
Hình 1. Siêu phẳng cực đại (thuật toán TSVM)
Hình 2. Đồ thị trọng số dựa trên các mẫu dữ liệu gán nhãn và chưa gán
nhãn (thuật toán Spectral Graph Partition)
Hình 3. Biểu diễn trực quan của thuật toánself-training
Hình 4. Sơ đồ thuật toánself-training
Hình 5. Biểu diễn trực quan thiết lập co-training.
Hình 6. Sơ đồ thiết lập co-training cho bài toán hai lớp
Hình 7. Sơ đồ thủ tục SAE để duy trì phân phối lớp
Hình 8. Thuật toánco-training với kỹ thuật làm trơn được đề xu
ất
Hình 9: Hai khung nhìn của một trang web
Hình 10: Đồ thị biểu diễn độ đo F1 của bộ phânlớp giám sát Naïve Bayes
dựa trên content
Hình 11: Đồ thị biểu diễn độ đo F1 của bộ phânlớpbán giám sát self-
training gốc vàself-training cải tiến
viii
Danh mục các bảng biểu
Bảng 1: Bảng so sánh hai thiết lập self-trainingvàco-training (trang 22).
Bảng 2. Bảng mô tả các phânlớp
Bảng 3: Cấu hình máy tính
Bảng 4: Bảng công cụ phần mềm hỗ trợ
Bảng 5: Bảng công cụ phần mềm xử lý dữ liệu
Bảng 6: Bảng các lớp thực hiện học bán giám sát
Bảng 7: Danh sách các n-gram
Bảng 8: Các độ đo của bộ phânlớp giám sát Naïve Bayes dựa trên content
Bảng 9: Các độ đo của self-training (ban đầu/cải tiến MAX/ c
ải tiến
MEDIAN) dựa trên content.
ix
[...]... ca nú 15 Thut toỏn self-training v co-training CHNG 2 THUT TON SELF-TRAINING V CO-TRAINING 2.1 Thut toỏn self-training Cú th núi rng, ý tng u tiờn v s dng d liu cha gỏn nhón trong phõn lp l thit lp self-training í tng v self-training xut hin t nhng nm 1960 ú l thut toỏn bc (wrapper-algorithm) s dng lp nhiu ln mt phng phỏp hc giỏm sỏt Hỡnh v 3 biu din mt cỏi nhỡn trc quan ca thit lp self-training Vũng:... Hỡnh 6:S thit lp co-training gc cho vn hai lp 2.3 So sỏnh hai thut toỏn Bng 1 a ra mt s so sỏnh hai thit lp self-training v co-training Núi chung, s khỏc nhau c bn gia thut toỏn self-training v co-training l ch: Selftraining ch s dng mt khung nhỡn d liu, trong khi ú co-training s dng hai khung nhỡn d liu Self-training khụng yờu cu s phõn chia ca features thnh hai khung nhỡn c lp nh co-training Nú ch... nh danh s dng chớnh t ú v ng cnh m t ú xut hin S co-training ó c s dng trong rt nhiu lnh vc nh phõn tớch thng kờ v xỏc nh cm danh t Hỡnh v 5 di õy cho chỳng ta mt cỏi nhỡn trc quan ca thit lp co-training Hỡnh 5: S biu din trc quan thit lp co-training 18 Thut toỏn self-training v co-training Blum v Mitchell [4] ó cụng thc hoỏ hai gi thit ca mụ hỡnh co-training v chng minh tớnh ỳng n ca mụ hỡnh da trờn... thut toỏn hc giỏm sỏt Chng 2 trỡnh by hai thut toỏn self-training v co-training Phn u chng gii thiu hai thut toỏn hc bỏn giỏm sỏt Self-training, Co-training v ỏnh giỏ chỳng Thụng qua ú, khúa lun xut mt s k thut lm trn v mụ hỡnh thi hnh thut toỏn self-training v co-training trờn c s thut toỏn Naùve Bayes 1 Thc nghim phõn lp trang web c trỡnh by trong Chng 3 Ni dung thc nghim cỏc phng phỏp Naùve Bayes... ch cn mt b phõn lp vi mt khung nhỡn ca d liu 21 Thut toỏn self-training v co-training Bng 1 Bng so sỏnh hai thit lp self-training v co-training Tiờu chớ Self-training Co-training Khung nhỡn 1 khung nhỡn 2 khung nhỡn c lp Tỡnh hung s dng Khi b phõn lp c l khú Tho món thit lp cochnh sa training u Tn dng ngun d liu cha gỏn nhón rt phong phỳ Hc tt trong trng hp cỏc features khụng th phõn chia thnh cỏc views... chỳng Tờn gi self-training xut phỏt t vic nú s dng d oỏn ca chớnh nú dy chớnh nú S thut toỏn self-training c mụ t nh hỡnh 4 t L : Tp cỏc d liu gỏn nhón U : Tp cỏc d liu cha gỏn nhón Lp - Hun luyn b phõn lp h trờn tp d liu hun - luyn L S dng h phõn lp d liu trong tp U Tỡm tp con U ca U cú tin cy cao nht L + U -> L U U-> U Hỡnh 4: S thut toỏn self-trainingSelf-training ó c ng dng trong mt vi nhim... Mitchell ó tin hnh thc nghim co-trainingtrong phõn lp trang web theo s trong hỡnh 6 th hin rng vic s dng d liu cha gỏn nhón to ra mt ci tin quan trng trong thc hnh Trong s thit lp trờn, vic s dng U ' s to ra kt qu tt hn vỡ: Nú bt buc hai b phõn lp la chn cỏc mu cú tớnh i din hn cho phõn phi D to ra tp U 20 Thut toỏn self-training v co-training Cho trc: o L l tp cỏc mu hun luyn ó gỏn nhón o U l tp cỏc... self-trainingSelf-training ó c ng dng trong mt vi nhim v x lý ngụn ng t nhiờn: Riloff, Wiebe v Wilson (2003) [10] s dng self-training xỏc nh cỏc danh t cú thuc quan im cỏ nhõn hay khụng Self-training cng c ng dng trong phõn tớch cỳ phỏp v dch mỏy 2.2 Thut toỏn co-training Thut toỏn co-training da trờn gi thit rng cỏc features cú th c phõn chia thnh 2 tp con; Mi tp con phự hp hun luyn mt b phõn lp... bng thut toỏn co-training Hai ụng cng ó chng minh tớnh ỳng n ca s co-training bng nh lý sau: nh lý (A.Blum & T Mitchell) Nu C2 cú th hc c theo mụ hỡnh PAC vi nhiu phõn lp, v nu gi thit c lp iu kin tho món, thỡ ( C1 , C2 ) cú th hc c theo mụ hỡnh co-training ch t d liu cha gỏn nhón, khi cho trc mt b d oỏn yu nhng hu ớch ban u h ( x1 ) Blum v Mitchell ó tin hnh thc nghim co-trainingtrong phõn lp trang... tho món Vỡ hc trờn 2 views d liu nờn chỳng s cung cp nhiu thụng tin hu ớch cho nhau hn - Khú khn trong la chn ngng tin cy ca d oỏn ( lm gim noise trong d oỏn) - Cú th cú trng hp cú mu khụng c gỏn nhón cn xỏc nh s ln lp trỏnh lp vụ hn Gi thit c lp iu kin thng khụng ỳng trong thc t Khú khn Co-training v self-training l hai thut toỏn hc bỏn giỏm sỏt cú nhim v chớnh l m rng tp cỏc mu gỏn nhón ban u Hiu . TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ
HỌC BÁN GIÁM SÁT
1.1. Phân lớp văn bản
Phân lớp văn bản là việc gán một văn bản (tài liệu) được biểu diễn trong ngôn. TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ HỌC BÁN
GIÁM SÁT 3
1.1. Phân lớp văn bản 3
1.2. Thuật toán phân lớp văn bản điển hình 5
1.2.1. Thuật toán Naive Bayes