1. Trang chủ
  2. » Luận Văn - Báo Cáo

THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

54 528 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 838,85 KB

Nội dung

Hiện nay, tồn tại một sốthuật toán học phân lớp văn bản thực hiện có kết quảrất tốt khi được xây dựng dựa trên một tập ví dụhọc lớn

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin HÀ NỘI – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Oanh THUẬT TOÁN SELF-TRAINING CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS Hà Quang Thuỵ Cán bộ đồng hướng dẫn: NCS Lê Anh Cường HÀ NỘI – 2006 ii Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn chân thành sự biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (trường Đại học Công nghệ) NCS Lê Anh Cường (Japan Advanced Institute of Science and Technology) đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận này. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi những kiến thức quí báu để tôi có thể vững bướ c trên con đường đi của mình. Tôi xin gửi lời cảm ơn các anh chị trong nhóm seminar về khai phá dữ liệu: anh Nguyễn Việt Cường, anh Đặng Thanh Hải, chị Nguyễn Cẩm Tú, … đã nhiệt tình chỉ bảo trong quá trình tôi tham gia nghiên cứu khoa học làm khoá luận. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K47CC, K47CA đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. lời cuối cùng, tôi xin bày tỏ lòng chân thành biết ơ n vô hạn tới cha mẹ, các anh chị tôi, những người luôn ở bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi vượt qua khó khăn trong học tập cũng như trong cuộc sống. Hà Nội, ngày 24 tháng 05 năm 2006 Sinh viên Trần Thị Oanh iii TÓM TẮT NỘI DUNG Hiện nay, tồn tại một số thuật toán học phân lớp văn bản thực hiện có kết quả rất tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled data) thì l ại rất phong phú. Do vậy, việc xem xét các thuật toán học không cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc học này được đề cập đến với tên gọi là học bán giám sát. Trong khóa luận này, chúng tôi khảo sát hai thuật toán học bán giám sát điển hình nhất, đó là self-training co-training đề xuất một s ố kỹ thuật làm trơn. Khóa luận cũng tiến hành ứng dụng các nghiên cứu nói trên vào bài toán phân lớp văn bản và cho kết quả rất khả quan . iv MỤC LỤC MỞ ĐẦU .1 Chương 1 TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN HỌC BÁN GIÁM SÁT .3 1.1. Phân lớp văn bản 3 1.2. Thuật toán phân lớp văn bản điển hình 5 1.2.1. Thuật toán Naive Bayes .5 1.3. Tổng quan về học bán giám sát .7 1.3.1. Học giám sát học không giám sát 9 1.3.2. Phạm vi sử dụng học bán giám sát .11 1.4. Một số phương pháp học bán giám sát 12 1.4.1. Thuật toán cực đại kỳ vọng toán 12 1.4.2. Học SVM truyền dẫn .13 1.4.3. Phân hoạch đồ thị quang phổ .15 CHƯƠNG 2 THUẬT TOÁN SELF-TRAINING CO-TRAINING.16 2.1. Thuật toán self-training 16 2.2. Thuật toán co-training 17 2.3. So sánh hai thuật toán 21 2.4. Các kỹ thuật làm trơn 23 2.4.1. Đảm bảo phân phối lớp .24 2.4.2. Kết hợp bộ phân lớp .26 2.4.3. Thuật toán self-training co-training với các kỹ thuật làm trơn .27 Chương 3 THỰC NGHIỆM TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN .29 3.1. Giới thiệu bài toán thực nghiệm 29 3.2. Các lớp văn bản .31 3.3. Môi trường thực nghiệm 31 v 3.4. Bộ dữ liệu thực nghiệm .35 3.5. Quá trình tiến hành thực nghiệm .35 3.5.1. Xây dựng các đặc trưng .35 3.5.2. Thiết lập tham số cho mô hình .36 3.6. Kết quả của các bộ phân lớp 37 3.7. Một số nhận xét kết quả đạt được 40 KẾT LUẬN HƯỚNG PHÁT TRIỂN 41 Tài liệu tham khảo .42 vi Bảng các ký hiệu chữ viết tắt EM: Expectation-Maximization. i.i.d : independent and identically distributed random variables. PAC: Probably Approximately Correct. SAE: Selected Added Examples. TSVM: Transductive Support Vector Machine. WSD: Word Sense Disambiguation. vii Danh mc hỡnh v Hỡnh 1. Siờu phng cc i (thut toỏn TSVM) Hỡnh 2. th trng s da trờn cỏc mu d liu gỏn nhón v cha gỏn nhón (thut toỏn Spectral Graph Partition) Hỡnh 3. Biu din trc quan ca thut toỏn self-training Hỡnh 4. S thut toỏn self-training Hỡnh 5. Biu din trc quan thit lp co-training. Hỡnh 6. S thit lp co-training cho bi toỏn hai lp Hỡnh 7. S th tc SAE duy trỡ phõn phi lp Hỡnh 8. Thut toỏn co-training vi k thut lm trn c xu t Hỡnh 9: Hai khung nhỡn ca mt trang web Hỡnh 10: th biu din o F1 ca b phõn lp giỏm sỏt Naùve Bayes da trờn content Hỡnh 11: th biu din o F1 ca b phõn lp bỏn giỏm sỏt self- training gc v self-training ci tin viii Danh mục các bảng biểu Bảng 1: Bảng so sánh hai thiết lập self-training co-training (trang 22). Bảng 2. Bảng mô tả các phân lớp Bảng 3: Cấu hình máy tính Bảng 4: Bảng công cụ phần mềm hỗ trợ Bảng 5: Bảng công cụ phần mềm xử lý dữ liệu Bảng 6: Bảng các lớp thực hiện học bán giám sát Bảng 7: Danh sách các n-gram Bảng 8: Các độ đo của bộ phân lớp giám sát Naïve Bayes dựa trên content Bảng 9: Các độ đo của self-training (ban đầu/cải tiến MAX/ c ải tiến MEDIAN) dựa trên content. ix [...]... ca nú 15 Thut toỏn self-training v co-training CHNG 2 THUT TON SELF-TRAINING V CO-TRAINING 2.1 Thut toỏn self-training Cú th núi rng, ý tng u tiờn v s dng d liu cha gỏn nhón trong phõn lp l thit lp self-training í tng v self-training xut hin t nhng nm 1960 ú l thut toỏn bc (wrapper-algorithm) s dng lp nhiu ln mt phng phỏp hc giỏm sỏt Hỡnh v 3 biu din mt cỏi nhỡn trc quan ca thit lp self-training Vũng:... Hỡnh 6:S thit lp co-training gc cho vn hai lp 2.3 So sỏnh hai thut toỏn Bng 1 a ra mt s so sỏnh hai thit lp self-training v co-training Núi chung, s khỏc nhau c bn gia thut toỏn self-training v co-training l ch: Selftraining ch s dng mt khung nhỡn d liu, trong khi ú co-training s dng hai khung nhỡn d liu Self-training khụng yờu cu s phõn chia ca features thnh hai khung nhỡn c lp nh co-training Nú ch... nh danh s dng chớnh t ú v ng cnh m t ú xut hin S co-training ó c s dng trong rt nhiu lnh vc nh phõn tớch thng kờ v xỏc nh cm danh t Hỡnh v 5 di õy cho chỳng ta mt cỏi nhỡn trc quan ca thit lp co-training Hỡnh 5: S biu din trc quan thit lp co-training 18 Thut toỏn self-training v co-training Blum v Mitchell [4] ó cụng thc hoỏ hai gi thit ca mụ hỡnh co-training v chng minh tớnh ỳng n ca mụ hỡnh da trờn... thut toỏn hc giỏm sỏt Chng 2 trỡnh by hai thut toỏn self-training v co-training Phn u chng gii thiu hai thut toỏn hc bỏn giỏm sỏt Self-training, Co-training v ỏnh giỏ chỳng Thụng qua ú, khúa lun xut mt s k thut lm trn v mụ hỡnh thi hnh thut toỏn self-training v co-training trờn c s thut toỏn Naùve Bayes 1 Thc nghim phõn lp trang web c trỡnh by trong Chng 3 Ni dung thc nghim cỏc phng phỏp Naùve Bayes... ch cn mt b phõn lp vi mt khung nhỡn ca d liu 21 Thut toỏn self-training v co-training Bng 1 Bng so sỏnh hai thit lp self-training v co-training Tiờu chớ Self-training Co-training Khung nhỡn 1 khung nhỡn 2 khung nhỡn c lp Tỡnh hung s dng Khi b phõn lp c l khú Tho món thit lp cochnh sa training u Tn dng ngun d liu cha gỏn nhón rt phong phỳ Hc tt trong trng hp cỏc features khụng th phõn chia thnh cỏc views... chỳng Tờn gi self-training xut phỏt t vic nú s dng d oỏn ca chớnh nú dy chớnh nú S thut toỏn self-training c mụ t nh hỡnh 4 t L : Tp cỏc d liu gỏn nhón U : Tp cỏc d liu cha gỏn nhón Lp - Hun luyn b phõn lp h trờn tp d liu hun - luyn L S dng h phõn lp d liu trong tp U Tỡm tp con U ca U cú tin cy cao nht L + U -> L U U-> U Hỡnh 4: S thut toỏn self-training Self-training ó c ng dng trong mt vi nhim... Mitchell ó tin hnh thc nghim co-training trong phõn lp trang web theo s trong hỡnh 6 th hin rng vic s dng d liu cha gỏn nhón to ra mt ci tin quan trng trong thc hnh Trong s thit lp trờn, vic s dng U ' s to ra kt qu tt hn vỡ: Nú bt buc hai b phõn lp la chn cỏc mu cú tớnh i din hn cho phõn phi D to ra tp U 20 Thut toỏn self-training v co-training Cho trc: o L l tp cỏc mu hun luyn ó gỏn nhón o U l tp cỏc... self-training Self-training ó c ng dng trong mt vi nhim v x lý ngụn ng t nhiờn: Riloff, Wiebe v Wilson (2003) [10] s dng self-training xỏc nh cỏc danh t cú thuc quan im cỏ nhõn hay khụng Self-training cng c ng dng trong phõn tớch cỳ phỏp v dch mỏy 2.2 Thut toỏn co-training Thut toỏn co-training da trờn gi thit rng cỏc features cú th c phõn chia thnh 2 tp con; Mi tp con phự hp hun luyn mt b phõn lp... bng thut toỏn co-training Hai ụng cng ó chng minh tớnh ỳng n ca s co-training bng nh lý sau: nh lý (A.Blum & T Mitchell) Nu C2 cú th hc c theo mụ hỡnh PAC vi nhiu phõn lp, v nu gi thit c lp iu kin tho món, thỡ ( C1 , C2 ) cú th hc c theo mụ hỡnh co-training ch t d liu cha gỏn nhón, khi cho trc mt b d oỏn yu nhng hu ớch ban u h ( x1 ) Blum v Mitchell ó tin hnh thc nghim co-training trong phõn lp trang... tho món Vỡ hc trờn 2 views d liu nờn chỳng s cung cp nhiu thụng tin hu ớch cho nhau hn - Khú khn trong la chn ngng tin cy ca d oỏn ( lm gim noise trong d oỏn) - Cú th cú trng hp cú mu khụng c gỏn nhón cn xỏc nh s ln lp trỏnh lp vụ hn Gi thit c lp iu kin thng khụng ỳng trong thc t Khú khn Co-training v self-training l hai thut toỏn hc bỏn giỏm sỏt cú nhim v chớnh l m rng tp cỏc mu gỏn nhón ban u Hiu

Ngày đăng: 25/04/2013, 10:36

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Đặng Thanh Hải,Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek. Khóa luận văn tốt nghiệp đại học 2004, Đại học Công nghệ - Đại học Quốc gia Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Khóa luận văn tốt nghiệp đại học 2004, Đại học Công nghệ - Đại học Quốc gia Hà Nội
[5]. A. P. Dempster, N. M. Laird, and D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):138, 1977 Sách, tạp chí
Tiêu đề: Journal of the Royal Statistical Society, Series B
[11]. F. G. Cozman, and I. Cohen, “Unlabeled data can degrade classification performance of generative classifiers,” Int’l Florida Artificial Intell. Society Conf., 327-331, 2002 Sách, tạp chí
Tiêu đề: Unlabeled data can degrade classification performance of generative classifiers,” "Int’l Florida Artificial Intell. Society Conf
[14]. Le C. A., Huynh V. N., and Shimazu A., Combining Classifiers with Multi- Representation of Context in Word Sense Disambiguation. In Proc. PAKDD, 262–268, 2005 Sách, tạp chí
Tiêu đề: Proc. PAKDD
[15]. McCallum, A. and Nigam K. "A Comparison of Event Models for Naive Bayes Text classification". In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48. Technical Report WS-98-05. AAAI Press. 1998 Sách, tạp chí
Tiêu đề: A Comparison of Event Models for Naive Bayes Text classification
[21]. Rosie Jones, Andrew McCallum, Kamal Nigam, Ellen Rillof, Bootstrapping for text learning Tasks, IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications, 1999 Sách, tạp chí
Tiêu đề: IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications
[1]. Nguyễn Việt Cường, Bài toán lọc và phân lớp nội dung Web tiếng Việt theo hướng tiếp cận entropy cực đại. Khóa luận tốt nghiệp đại học 2005, Đại học Công nghệ - Đại học Quốc gia Hà Nội Khác
[3]. Andrew McCallum, Kamal Nigam, A Comparison of Event Model for Naive Bayes Text Classification, Working Notes of the 1998 AAAI/ICML Workshop on Learning for Text Categorization, 1998 Khác
[4]. Avrim Blum and Tom Mitchell, Combining labeled and unlabeled data with co- training. In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98), 1998 Khác
[6]. Chapelle, O., Zien, A., & Sch¨olkopf, B. (Eds.), Semi supervised learning. MIT Press, 2006 Khác
[7]. Cozman, F., Cohen, I., & Cirelo, M., Semi-supervised learning of mixture models. ICML-03, 20th International Conference on Machine Learning, 2003 Khác
[8]. David Yarrowsky, Unsupervised Word Sense Disambiguation Rivaling Supervised Methods, In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196 Khác
[9]. E. Riloff and R. Jones, Learning Dictionaries for Information Extraction by Multi- Level Bootstrapping.In Proceedings of the 16th National Conference on Artificial Intelligence, 1999 Khác
[10]. Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using Extraction Pattern Bootstrapping. 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL, 2003 Khác
[12]. Joachims, T. Transductive learning via spectral graph partitioning. In Proceeding of. The Twentieth International Conference on Machine Learning (ICML2003), 290-297, 2003 Khác
[13]. Joachims T., Transductive Inference for Text Classification using Support Vector Machines. International Conference on Machine Learning (ICML), 1999 Khác
[16]. Michael Collins and Yoram Singer, Unsupervised Model for Name Entity Recognition, In EMNLP Khác
[17]. Michael Thelen and Ellen Riloff, A bootstrapping method for Learning Semantic Lexicons using Extraction Pattern Contexts. 2002 Conf. on Empirical Methods in Natural Language Processing, Philadelphia, PA, July 2002, 214-221 Khác
[18]. Nigam, K., Ghani, R., Analyzing the effectiveness and applicability of cotraining. In Proceedings of Ninth International Conference on Information and Knowledge Management (CIKM-2000), 86–93, 2000 Khác
[19]. Nigam, K., Ghani, R., Understanding the behavior of co-training. In Proceedings of KDD-2000 Workshop on Text Mining,.2000 Khác

HÌNH ẢNH LIÊN QUAN

Mục đích là tìm ram ột nhát cắt cực tiểu (v v+ −) trên đồ thị (như hình 2). Sau đĩ, gán nhãn dương cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v + , và gán  nhãn âm cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v − - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
c đích là tìm ram ột nhát cắt cực tiểu (v v+ −) trên đồ thị (như hình 2). Sau đĩ, gán nhãn dương cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v + , và gán nhãn âm cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa v − (Trang 25)
Hình 2. Đồ thị trọng số dựa trên các mẫu dữ liệu gán  nhãn và dữ liệu chưa gán nhãn - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 2. Đồ thị trọng số dựa trên các mẫu dữ liệu gán nhãn và dữ liệu chưa gán nhãn (Trang 25)
Hình 3: Biểu diễn trực quan của thiết lập self- self-training  - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 3 Biểu diễn trực quan của thiết lập self- self-training (Trang 26)
Hình 3: Biểu diễn trực quan của thiết lập self- self-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 3 Biểu diễn trực quan của thiết lập self- self-training (Trang 26)
Hình 4: Sơ đồ thuật tốn self-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 4 Sơ đồ thuật tốn self-training (Trang 27)
Hình 4: Sơ đồ thuật toán self-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 4 Sơ đồ thuật toán self-training (Trang 27)
Hình 5: Sơ đồ biểu diễn trực quan thiết lập co-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 5 Sơ đồ biểu diễn trực quan thiết lập co-training (Trang 28)
Hình 5: Sơ đồ biểu diễn trực quan thiết lập co-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 5 Sơ đồ biểu diễn trực quan thiết lập co-training (Trang 28)
Blum và Mitchell [4] đã cơng thức hố hai giả thiết của mơ hình co-training và chứng minh tính đúng đắn của mơ hình dựa trên thiết lập họ c giám sát theo mơ hình  PAC chuẩn - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
lum và Mitchell [4] đã cơng thức hố hai giả thiết của mơ hình co-training và chứng minh tính đúng đắn của mơ hình dựa trên thiết lập họ c giám sát theo mơ hình PAC chuẩn (Trang 29)
Nếu C2 cĩ thể học được theo mơ hình PAC với nhiễu phân lớp, và nếu giả thiết - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
u C2 cĩ thể học được theo mơ hình PAC với nhiễu phân lớp, và nếu giả thiết (Trang 30)
Bảng 1 đưa ram ột số so sánh hai thiết lập self-training và co-training. Nĩi chung, sự khác nhau cơ bản giữa thuật tốn self-training và co-training là ở chỗ :  Self-training chỉ  sử  dụng một khung nhìn dữ liệu, trong khi đĩ co-training sử  dụ ng hai  khu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 1 đưa ram ột số so sánh hai thiết lập self-training và co-training. Nĩi chung, sự khác nhau cơ bản giữa thuật tốn self-training và co-training là ở chỗ : Self-training chỉ sử dụng một khung nhìn dữ liệu, trong khi đĩ co-training sử dụ ng hai khu (Trang 31)
Bảng 1 đưa ra một số so sánh hai thiết lập self-training và co-training. Nói  chung, sự khác nhau cơ bản giữa thuật toán self-training và co-training là ở chỗ:  Self-training chỉ  sử  dụng một khung nhìn dữ liệu, trong khi đó co-Self-training sử  dụng hai - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 1 đưa ra một số so sánh hai thiết lập self-training và co-training. Nói chung, sự khác nhau cơ bản giữa thuật toán self-training và co-training là ở chỗ: Self-training chỉ sử dụng một khung nhìn dữ liệu, trong khi đó co-Self-training sử dụng hai (Trang 31)
Bảng 1. Bảng so sánh hai thiết lập self-training và co-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 1. Bảng so sánh hai thiết lập self-training và co-training (Trang 32)
Bảng 1. Bảng so sánh hai thiết lập self-training và co-training - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 1. Bảng so sánh hai thiết lập self-training và co-training (Trang 32)
Hình7: SAE: SelectedAddedExamples để lựa chọn các mẫu được gán nhãn mới mà vẫn đảm bảo được phân phối lớp ban đầu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 7 SAE: SelectedAddedExamples để lựa chọn các mẫu được gán nhãn mới mà vẫn đảm bảo được phân phối lớp ban đầu (Trang 35)
Hình 8: Thuật tốn co-training mới với thủ tục duy trì phân phối lớp và liên kết các bộ phân lớp - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 8 Thuật tốn co-training mới với thủ tục duy trì phân phối lớp và liên kết các bộ phân lớp (Trang 38)
Hình 8: Thuật toán co-training mới với thủ tục duy trì phân phối lớp và liên  kết các bộ phân lớp - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 8 Thuật toán co-training mới với thủ tục duy trì phân phối lớp và liên kết các bộ phân lớp (Trang 38)
Hình 9: Hai khung nhìn của một trang web - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 9 Hai khung nhìn của một trang web (Trang 40)
Hình 9: Hai khung nhìn của một trang web - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 9 Hai khung nhìn của một trang web (Trang 40)
Bảng 2. Bảng mơ tả các phân lớp - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 2. Bảng mơ tả các phân lớp (Trang 41)
Bảng 2. Bảng mô tả các phân lớp - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 2. Bảng mô tả các phân lớp (Trang 41)
3.3.2. Cơng cụ phần mềm. - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
3.3.2. Cơng cụ phần mềm (Trang 42)
Bảng 4: Bảng cơng cụ phần mềm hỗ trợ - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 4 Bảng cơng cụ phần mềm hỗ trợ (Trang 42)
Bảng 4: Bảng công cụ phần mềm hỗ trợ - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 4 Bảng công cụ phần mềm hỗ trợ (Trang 42)
Bảng 5: Bảng cơng cụ phần mềm xử lý dữ liệu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 5 Bảng cơng cụ phần mềm xử lý dữ liệu (Trang 43)
Bảng 5: Bảng công cụ phần mềm xử lý dữ liệu - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 5 Bảng công cụ phần mềm xử lý dữ liệu (Trang 43)
Bảng 6: Bảng các lớp thực hiện học bán giám sát - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 6 Bảng các lớp thực hiện học bán giám sát (Trang 44)
Bảng 6: Bảng các lớp thực hiện học bán giám sát - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 6 Bảng các lớp thực hiện học bán giám sát (Trang 44)
Bảng 7: Danh sách các n-gram - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 7 Danh sách các n-gram (Trang 46)
Bảng 7: Danh sách các n-gram - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 7 Danh sách các n-gram (Trang 46)
• Bộ phân lớp giám sát Nạve Bayes dựa trên nội dung của một tài liệu: Bảng 8 biểu diễn kết quả bộ phân lớp này với các độđo: Độ chính xác, độ hồi tưởng,  độđo F1 - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
ph ân lớp giám sát Nạve Bayes dựa trên nội dung của một tài liệu: Bảng 8 biểu diễn kết quả bộ phân lớp này với các độđo: Độ chính xác, độ hồi tưởng, độđo F1 (Trang 47)
Bảng 8: Các độ đo của bộ phân lớp giám sát Nạve Bayes  dựa trên content - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 8 Các độ đo của bộ phân lớp giám sát Nạve Bayes dựa trên content (Trang 47)
Hình 10: Đồ thị biểu diễn độ đo F1 của bộ phân lớp giám sát Nạve Bayes dựa trên content  - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 10 Đồ thị biểu diễn độ đo F1 của bộ phân lớp giám sát Nạve Bayes dựa trên content (Trang 48)
Hình 10: Đồ thị biểu diễn độ đo F1 của bộ phân lớp  giám sát Nạve Bayes dựa trên content - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 10 Đồ thị biểu diễn độ đo F1 của bộ phân lớp giám sát Nạve Bayes dựa trên content (Trang 48)
Từ bảng các độ đo kết quả, ta biểu diễn đồ thị độ đo F1 trung bình của các bộ phân lớp bán giám sát self-training (ban đầu/ MAX/ MEDIAN) như hình vẽ  11 - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
b ảng các độ đo kết quả, ta biểu diễn đồ thị độ đo F1 trung bình của các bộ phân lớp bán giám sát self-training (ban đầu/ MAX/ MEDIAN) như hình vẽ 11 (Trang 49)
Bảng 9: Các độ đo của self-training (ban đầu/cải tiến  MAX/ cải tiến MEDIAN) dựa trên content - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Bảng 9 Các độ đo của self-training (ban đầu/cải tiến MAX/ cải tiến MEDIAN) dựa trên content (Trang 49)
Hình 11: Đồ thị biểu diễn độ đo F1 của bộ phân lớp bán giám sát self-training gốc và self-training cải tiế n  - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 11 Đồ thị biểu diễn độ đo F1 của bộ phân lớp bán giám sát self-training gốc và self-training cải tiế n (Trang 50)
Hình 11: Đồ thị biểu diễn độ đo F1 của bộ phân lớp  bán giám sát self-training gốc và self-training cải tiến - THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING  ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN
Hình 11 Đồ thị biểu diễn độ đo F1 của bộ phân lớp bán giám sát self-training gốc và self-training cải tiến (Trang 50)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w