Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
867,91 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Nguyễn tuấn trinh TÌM HIU PHƯƠNG PHÁP V HC NA GIÁM SÁT VÀ VIC PHÂN LOI VĂN BN ÁP DNG VÀO BÀI TOÁN LUẬN VĂN THẠC SỸ KỸ THUẬT HÀNỘI–NĂM2015 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HÀNỘI-NĂM2015 LỜI CAM ĐOAN Tôicamđoanđâylàcôngtrìnhnghiêncứucủariêngtôi. Cácsốliệu,kếtquảnêutrongluậnvănlàtrungthựcvàchưatừngđượcai côngbốtrongbấtkỳcôngtrìnhnàokhác. Tác giả luận văn Nguyễn tuấn trinh LỜI CẢM ƠN Lờiđầutiênemxingửilờicảmơnđếntoànthểcácthầy,côgiáoHọcviện CôngnghệBưuchínhViễnthôngđãtậntìnhchỉbảoemtrongsuốtthờigianhọc tậptạinhàtrường. EmxingửilờicảmơnsâusắcđếnPGS.TS.ĐoànVănBan,ngườiđãtrực tiếphướngdẫn,tạomọiđiềukiệnthuậnlợivàtậntìnhchỉbảochoemtrongsuốt thờigianlàmluậnvăntốtnghiệp. HỌCVIÊN Nguyễn tuấn trinh i MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC i DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU 1 CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY 3 1.1. Khái niệm học máy 3 1.2. Một số khái niệm cơ bản trong học máy 4 1.2.1.Khônggianbiểudiễncủadữliệu 4 1.2.2.Bảnchấtcủacácdữliệu 4 1.2.3.Tiềnxửlýdữliệu 4 1.2.4.Quátrìnhrờirạchóadữliệu 5 1.2.5.Tậpmẫu 5 1.2.6.Quátrìnhtìmkiếmtrongkhônggiangiảthuyết 5 1.3. Học có giám sát 5 1.3.1.Kháiniệm 5 1.3.2.Cáchgiảimộtbàitoánhọccógiámsát 7 1.4. Học không có giám sát 8 1.4.1.Kháiniệm 8 1.4.2.Môhìnhtoánhọc 9 1.5. Học nửa giám sát 9 1.5.1.Kháiniệm 9 ii 1.5.2.Môhìnhtoánhọc 10 1.6. Tổng kết chương 10 CHƯƠNG 2 - MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 11 2.1. Mô hình sinh và thuật toán kỳ vọng cực đại 11 2.1.1.Giớithiệuvềmôhìnhsinh 11 2.1.2.Môhìnhsinhtronghọcnửagiámsát 11 2.1.3.Thuậttoánkỳvọngcựcđại 12 2.1.3.1.Giớithiệuthuậttoán 12 2.1.3.2.Nộidungthuậttoán 12 2.1.3.3.Đánhgiáthuậttoán 14 2.2. Thuật toán tự huấn luyện 15 2.2.1.Giớithiệuthuậttoántựhuấnluyện 15 2.2.2.Đánhgiáthuậttoán 16 2.3. Thuật toán S3VM 16 2.3.1.ThuậttoánSVM 16 2.3.2.GiớithiệuthuậttoánS3VM 21 2.3.3.NộidungthuậttoánS3VM 22 2.3.4.NhậnxétvềS3VM 23 2.4. Thuật toán K - láng giềng gần nhất 23 2.4.1.Giớithiệuthuậttoán 23 2.4.2.ÁpdụngKNNvàobàitoánphânloạivănbản 24 2.5. Thuật toán Naive Bayes 26 2.5.1.Thuậttoán 26 2.5.2.Ápdụngvàobàitoánphânloại 27 iii 2.5.3.ỨngdụngNaiveBayestrongphânlớpvănbản 30 2.6. Thuật toán cây quyết định 32 2.6.1.Giớithiệuthuậttoán 32 2.6.2.ThuậttoánID3 36 2.6.2.1.Entropy 36 2.6.2.2.InformationGain 36 2.6.2.3.PhátbiểuthuậttoánID3 37 2.6.3.Đánhgiáthuậttoáncâyquyếtđịnh 37 2.7. Tổng kết chương 38 CHƯƠNG 3 - PHÂN LOẠI VĂN BẢN DỰA VÀO PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT 39 3.1. Phát biểu bài toán phân loại văn bản 39 3.1.1.Môhìnhtổngquát 41 3.1.1.1.Giaiđoạnhuấnluyện 41 3.1.1.2.Giaiđoạnphânlớp 43 3.1.2.Quátrìnhtiềnxửlývănbản 44 3.1.3.Phươngphápbiểudiễnvănbản 44 3.1.3.1.Môhìnhkhônggianvéctơ 45 3.1.3.2.Kháiniệmtrọngsố 45 3.1.4.Đánhgiábộphânlớp 47 3.1.4.1.Macro-Averaging 48 3.1.4.2.Micro-Averaging 49 3.2. Giới thiệu bài toán thực nghiệm 49 3.3. Môi trường thực nghiệm 49 iv 3.3.1.Dữliệusửdụng 49 3.3.2.Tríchchọnđặctrưng 51 3.3.3.Phươngphápđánhgiá 52 3.3.4.Côngcụphânlớp 53 3.3.5.Kếtquảthửnghiệmvàđánhgiá 54 3.4. Tổng kết chương 57 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 59 v DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Côngnghệthôngtin CNTT Côngnghệthôngtin Cơsởdữliệu CSDL Cơsởdữliệu Self-training Self-training Tựhuấnluyện EM ExpectationMaximization Kỳvọngcựcđại Machinelearning Machinelearning Họcmáy Supervisedlearning Supervisedlearning Họccógiámsát Unsupervisedlearning Unsupervised learning Họckhônggiámsát K-NearestNeighbors algorithm KNN Klánggiềnggầnnhất Semi-supervised learning Semi-supervised learning Họcnửagiámsát NaiveBayes NaiveBayes Bayesngâythơ Decisiontree Decisiontree Câyquyếtđịnh Supportvectormachine SVM Máyvéctơhỗtrợ Semi-supervised supportvectormachine S3VM Máyvéctơhỗtrợnửa giámsát vi DANH MỤC CÁC HÌNH Hình1.1:Môhìnhhọccógiámsát 6 Hình1.2:Môhìnhhọcnửagiámsát 9 Hình2.1:Dữliệucónhãn 11 Hình2.2:Dữliệucónhãnvàchưacónhãn 12 Hình2.3PhânlớpSVM 17 Hình2.4:Câyquyếtđịnh 34 Hình3.1:Môhìnhgiaiđoạnhuấnluyện 41 Hình3.2:Chitiếtgiaiđoạnhuấnluyện 42 Hình3.3:Môhìnhgiaiđoạnphânlớp 43 Hình3.4:Chitiếtgiaiđoạnphânlớp 43 Hình3.5:Sosánhđộchínhxácvàđộbaophủbộdữliệubanđầu 57 Hình3.6:Sosánhđộchínhxácvàđộbaophủbộdữliệusaukhi“stemming” 57 [...]... Nghiên cứu tổng quan về học máy và một số phương pháp học máy, nghiên cứu một số thuật toán học có giám sát, học nửa giám sát từ kết quả thu được đề tài cài đặt ứng dụng thử nghiệm vào bài toán phân loại văn bản. 3 Đối tượng và phạm vi nghiên cứu Luận văn này thực hiện nghiên cứu các kiến thức cơ bản về học máy, một số các thuật toán học có giám sát, nửa giám sát và ứng dụng phân loại văn bản. 4 Phương pháp nghiên... 2: Một số thuật toán học nửa giám sát Chương 3: Phân loại văn bản dựa vào phương pháp học nửa giám sát Trong đó đề tài tập trung vào chương 3 nhằm nghiên cứu và áp dụng các kỹ thuật phân loại email của bộ dữ liệu dbworld [18]. 3 CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học. Nghĩa là việc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời thường mà học ... học có giám sát, học không giám sát và học nửa giám sát ; Các mô hình toán của học máy, học có giám sát, học không giám sát, học nửa giám sát ; Nắm được các bước giải một bài toán trong học máy. Đây chính là những kiến thức cơ sở để ta có thể tiếp tục tìm hiểu, nghiên cứu các thuật toán về học nửa giám sát trong các chương tiếp theo. 11 CHƯƠNG 2 - MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 2.1 Mô hình sinh và thuật toán kỳ vọng cực... được coi là vô hạn trên Web. Tự động phân lớp văn bản là một nhiệm vụ rất quan trọng có thể giúp ích cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này. Với mục tiêu góp phần vào lĩnh vực nghiên cứu và ứng dụng phân loại văn bản vào cuộc sống, tác giả đã chọn đề tài “TÌM HI U PHƯƠNG PHÁP V H C N A GIÁM SÁT VÀ VI C PHÂN LO I VĂN B N ÁP D NG VÀO BÀI TOÁN ” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành hệ thống thông tin. ... - Nghiên cứu các tài liệu do thầy giáo hướng dẫn cung cấp - Tìm hiểu, nghiên cứu các tài liệu liên quan trong sách, tạp chí, các bài báo nước ngoài. - Tìm kiếm các tài liệu trên mạng internet, …. Thực nghiệm: Cài đặt thử nghiệm và đánh giá một số thuật toán học nửa giám sát, thuật toán học có giám sát. 5 Nội dung luận văn Luận văn gồm 3 chương: Chương 1: Tổng quan về phương pháp học máy Chương 2: Một số thuật toán học nửa giám sát ... cách khác là dữ liệu chưa gán nhãn có chi phí rất rẻ. Học nửa giám sát đã khắc phục được các nhược điểm, và phát huy được ưu điểm của học có giám sát và học không có giám sát. Bằng cách kết hợp giữa học có giám sát và học không có giám sát, với một lượng lớn dữ liệu chưa gán nhãn và một lượng nhỏ những dữ liệu đã được gán nhãn, bằng các giải thuật học nửa giám sát sẽ thu được kết quả vừa có độ chính xác cao vừa mất ít thời gian công sức. Do đó, học ... nhãn, mà việc xây dựng các dữ liệu huấn luyện có gán nhãn đòi hỏi tốn thời gian và công sức. Đây cũng chính là nhược điểm của các phương pháp học có giám sát. Để giải quyết vấn đề trên người ta đã đề xuất một phương pháp SVM cải tiến mà tận dụng được các khả năng của dữ liệu huấn luyện đã gán nhãn và dữ liệu chưa gán nhãn. Trong phần tiếp theo ta sẽ đi tìm hiểu phương pháp SVM cải tiến, hay còn gọi là phương pháp học bán giám sát SVM. 2.3.2 Giới thiệu thuật toán. .. các bài toán về xử lý ngôn ngữ tự nhiên, các bài toán phát hiện các đối tượng hệ thống từ các hình ảnh. Ngoài ra thuật toán tự huấn luyện còn được ứng dụng để giải quyết các bài toán phân tách và dịch máy, … Giải thuật có mô hình toán học dễ hiểu, sáng sủa và dễ học, giải thuật có độ phức tạp phụ thuộc vào số lượng mẫu huấn luyện và độ phức tạp của bộ phân lớp có giám sát h. ... gọi là thuật toán nhân. Sau khi đã chọn được thuật toán nhân ta áp dụng vào thuật toán tự huấn luyện như sau. Thuật toán: Repeat Huấn luyện bộ phân lớp có giám sát h trên tập L; 16 Sử dụng h để phân lớp dữ liệu trong tập U; Tìm tập con U’ U có độ tin cậy cao nhất: L L + U’; U U – U’; Until U = 2.2.2 Đánh giá thuật toán Giải thuật tự huấn luyện là phương pháp đơn giản nhất trong học nửa giám sát. Thuật toán tự huấn luyện được ứng dụng ... Ta giả thiết rằng đa số mẫu được tạo ra một cách độc lập và giống nhau từ một phân phối chung trên X và một số lượng nhỏ mẫu đã được gán nhãn. Mục tiêu là tìm ra một cấu trúc thông minh trên tập dữ liệu X. 1.6 Tổng kết chương Trên đây là một số kiến thức cơ bản về học máy, thông qua đó ta có thể nắm bắt được các kiến thức nền tảng về học máy như: Khái niệm thế nào là học máy, học có giám sát, học không giám sát và học nửa giám sát ; Các mô hình toán của