1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU PHƯƠNG PHÁP VỀ HỌC NỬA GIÁM SÁT VÀ VIỆC PHÂN LOẠI VĂN BẢN ÁP DỤNG VÀO BÀI TOÁN

72 776 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 867,91 KB

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Nguyễn tuấn trinh TÌM HI󰗃U PHƯƠNG PHÁP V󰗁 H󰗍C N󰗭A GIÁM SÁT VÀ VI󰗇C PHÂN LO󰖡I VĂN B󰖣N ÁP D󰗥NG VÀO BÀI TOÁN LUẬN VĂN THẠC SỸ KỸ THUẬT HÀNỘI–NĂM2015 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HÀNỘI-NĂM2015 LỜI CAM ĐOAN Tôicamđoanđâylàcôngtrìnhnghiêncứucủariêngtôi. Cácsốliệu,kếtquảnêutrongluậnvănlàtrungthựcvàchưatừngđượcai côngbốtrongbấtkỳcôngtrìnhnàokhác. Tác giả luận văn Nguyễn tuấn trinh LỜI CẢM ƠN Lờiđầutiênemxingửilờicảmơnđếntoànthểcácthầy,côgiáoHọcviện CôngnghệBưuchínhViễnthôngđãtậntìnhchỉbảoemtrongsuốtthờigianhọc tậptạinhàtrường. EmxingửilờicảmơnsâusắcđếnPGS.TS.ĐoànVănBan,ngườiđãtrực tiếphướngdẫn,tạomọiđiềukiệnthuậnlợivàtậntìnhchỉbảochoemtrongsuốt thờigianlàmluậnvăntốtnghiệp. HỌCVIÊN Nguyễn tuấn trinh i   MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC i DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU 1 CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY 3 1.1. Khái niệm học máy 3 1.2. Một số khái niệm cơ bản trong học máy 4 1.2.1.Khônggianbiểudiễncủadữliệu 4 1.2.2.Bảnchấtcủacácdữliệu 4 1.2.3.Tiềnxửlýdữliệu 4 1.2.4.Quátrìnhrờirạchóadữliệu 5 1.2.5.Tậpmẫu 5 1.2.6.Quátrìnhtìmkiếmtrongkhônggiangiảthuyết 5 1.3. Học có giám sát 5 1.3.1.Kháiniệm 5 1.3.2.Cáchgiảimộtbàitoánhọccógiámsát 7 1.4. Học không có giám sát 8 1.4.1.Kháiniệm 8 1.4.2.Môhìnhtoánhọc 9 1.5. Học nửa giám sát 9 1.5.1.Kháiniệm 9 ii   1.5.2.Môhìnhtoánhọc 10 1.6. Tổng kết chương 10 CHƯƠNG 2 - MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 11 2.1. Mô hình sinh và thuật toán kỳ vọng cực đại 11 2.1.1.Giớithiệuvềmôhìnhsinh 11 2.1.2.Môhìnhsinhtronghọcnửagiámsát 11 2.1.3.Thuậttoánkỳvọngcựcđại 12 2.1.3.1.Giớithiệuthuậttoán 12 2.1.3.2.Nộidungthuậttoán 12 2.1.3.3.Đánhgiáthuậttoán 14 2.2. Thuật toán tự huấn luyện 15 2.2.1.Giớithiệuthuậttoántựhuấnluyện 15 2.2.2.Đánhgiáthuậttoán 16 2.3. Thuật toán S3VM 16 2.3.1.ThuậttoánSVM 16 2.3.2.GiớithiệuthuậttoánS3VM 21 2.3.3.NộidungthuậttoánS3VM 22 2.3.4.NhậnxétvềS3VM 23 2.4. Thuật toán K - láng giềng gần nhất 23 2.4.1.Giớithiệuthuậttoán 23 2.4.2.ÁpdụngKNNvàobàitoánphânloạivănbản 24 2.5. Thuật toán Naive Bayes 26 2.5.1.Thuậttoán 26 2.5.2.Ápdụngvàobàitoánphânloại 27 iii   2.5.3.ỨngdụngNaiveBayestrongphânlớpvănbản 30 2.6. Thuật toán cây quyết định 32 2.6.1.Giớithiệuthuậttoán 32 2.6.2.ThuậttoánID3 36 2.6.2.1.Entropy 36 2.6.2.2.InformationGain 36 2.6.2.3.PhátbiểuthuậttoánID3 37 2.6.3.Đánhgiáthuậttoáncâyquyếtđịnh 37 2.7. Tổng kết chương 38 CHƯƠNG 3 - PHÂN LOẠI VĂN BẢN DỰA VÀO PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT 39 3.1. Phát biểu bài toán phân loại văn bản 39 3.1.1.Môhìnhtổngquát 41 3.1.1.1.Giaiđoạnhuấnluyện 41 3.1.1.2.Giaiđoạnphânlớp 43 3.1.2.Quátrìnhtiềnxửlývănbản 44 3.1.3.Phươngphápbiểudiễnvănbản 44 3.1.3.1.Môhìnhkhônggianvéctơ 45 3.1.3.2.Kháiniệmtrọngsố 45 3.1.4.Đánhgiábộphânlớp 47 3.1.4.1.Macro-Averaging 48 3.1.4.2.Micro-Averaging 49 3.2. Giới thiệu bài toán thực nghiệm 49 3.3. Môi trường thực nghiệm 49 iv   3.3.1.Dữliệusửdụng 49 3.3.2.Tríchchọnđặctrưng 51 3.3.3.Phươngphápđánhgiá 52 3.3.4.Côngcụphânlớp 53 3.3.5.Kếtquảthửnghiệmvàđánhgiá 54 3.4. Tổng kết chương 57 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 59                   v   DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT  Thuật ngữ Viết tắt Ý nghĩa Côngnghệthôngtin CNTT Côngnghệthôngtin Cơsởdữliệu CSDL Cơsởdữliệu Self-training Self-training Tựhuấnluyện EM ExpectationMaximization  Kỳvọngcựcđại Machinelearning Machinelearning Họcmáy Supervisedlearning Supervisedlearning  Họccógiámsát Unsupervisedlearning Unsupervised learning Họckhônggiámsát K-NearestNeighbors algorithm KNN Klánggiềnggầnnhất Semi-supervised learning Semi-supervised learning Họcnửagiámsát NaiveBayes NaiveBayes Bayesngâythơ Decisiontree Decisiontree Câyquyếtđịnh Supportvectormachine  SVM Máyvéctơhỗtrợ Semi-supervised supportvectormachine S3VM Máyvéctơhỗtrợnửa giámsát   vi   DANH MỤC CÁC HÌNH  Hình1.1:Môhìnhhọccógiámsát 6 Hình1.2:Môhìnhhọcnửagiámsát 9 Hình2.1:Dữliệucónhãn 11 Hình2.2:Dữliệucónhãnvàchưacónhãn 12 Hình2.3PhânlớpSVM 17 Hình2.4:Câyquyếtđịnh 34 Hình3.1:Môhìnhgiaiđoạnhuấnluyện 41 Hình3.2:Chitiếtgiaiđoạnhuấnluyện 42 Hình3.3:Môhìnhgiaiđoạnphânlớp 43 Hình3.4:Chitiếtgiaiđoạnphânlớp 43 Hình3.5:Sosánhđộchínhxácvàđộbaophủbộdữliệubanđầu 57 Hình3.6:Sosánhđộchínhxácvàđộbaophủbộdữliệusaukhi“stemming”  57           [...]... Nghiên cứu tổng quan về học máy và một số phương pháp học máy, nghiên  cứu một số thuật toán học có giám sát, học nửa giám sát từ kết quả thu được đề tài  cài đặt ứng dụng thử nghiệm vào bài toán phân loại văn bản.   3 Đối tượng và phạm vi nghiên cứu Luận văn này thực hiện nghiên cứu các kiến thức cơ bản về học máy, một số  các thuật toán học có giám sát, nửa giám sát và ứng dụng phân loại văn bản.    4 Phương pháp nghiên... 2: Một số thuật toán học nửa giám sát Chương 3: Phân loại văn bản dựa vào phương pháp học nửa giám sát Trong đó đề tài tập trung vào chương 3 nhằm nghiên cứu và áp dụng các kỹ  thuật phân loại email của bộ dữ liệu dbworld  [18].          3    CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học.  Nghĩa  là việc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời thường mà học ... học có giám sát, học không giám sát và học nửa giám sát ; Các mô hình toán của  học máy, học có giám sát, học không giám sát, học nửa giám sát ; Nắm được các  bước giải một bài toán trong học máy. Đây chính là những kiến thức cơ sở để ta có  thể  tiếp  tục  tìm hiểu,   nghiên  cứu  các  thuật  toán về học nửa giám sát trong  các  chương tiếp theo.      11    CHƯƠNG 2 - MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 2.1 Mô hình sinh và thuật toán kỳ vọng cực... được coi là vô hạn trên Web. Tự động phân lớp văn bản là một nhiệm vụ rất quan  trọng có thể giúp ích cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn này.  Với mục tiêu góp phần vào lĩnh vực nghiên cứu và ứng dụng phân loại văn bản vào cuộc sống, tác giả đã chọn đề tài “TÌM HI U PHƯƠNG PHÁP V H C N A GIÁM SÁT VÀ VI C PHÂN LO I VĂN B N ÁP D NG VÀO BÀI TOÁN ” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành hệ thống thông tin.  ... - Nghiên cứu các tài liệu do thầy giáo hướng dẫn cung cấp  -  Tìm hiểu,   nghiên  cứu  các  tài  liệu  liên  quan  trong  sách,  tạp  chí,  các  bài báo  nước ngoài.  - Tìm kiếm các tài liệu trên mạng internet, ….  Thực nghiệm: Cài đặt thử nghiệm và đánh giá một số thuật toán học nửa giám sát,   thuật toán học có giám sát.   5 Nội dung luận văn Luận văn gồm 3 chương:  Chương 1: Tổng quan về phương pháp học máy  Chương 2: Một số thuật toán học nửa giám sát ... cách khác là dữ liệu chưa gán nhãn có chi phí rất rẻ.  Học nửa giám sát đã khắc phục được các nhược điểm, và phát huy được ưu  điểm của học có giám sát và học không có giám sát.  Bằng cách kết hợp giữa học có  giám sát và học không có giám sát,  với một lượng lớn dữ liệu chưa gán nhãn và một  lượng nhỏ những dữ liệu đã được gán nhãn, bằng các giải thuật học nửa giám sát sẽ  thu được kết quả vừa có độ chính xác cao vừa mất ít thời gian công sức. Do đó, học ... nhãn, mà việc xây dựng các dữ liệu huấn luyện có gán nhãn đòi hỏi tốn thời gian và công sức. Đây cũng chính là nhược điểm của các phương pháp học có giám sát.  Để  giải quyết vấn đề trên người ta đã đề xuất một phương pháp SVM cải tiến mà tận  dụng được các khả năng của dữ liệu huấn luyện đã gán nhãn và dữ liệu chưa gán  nhãn. Trong phần tiếp theo ta sẽ đi tìm hiểu phương pháp SVM cải tiến, hay còn gọi  là phương pháp học bán giám sát SVM.       2.3.2 Giới thiệu thuật toán. .. các  bài toán về xử  lý  ngôn ngữ tự nhiên, các bài toán phát hiện các đối tượng hệ thống từ các hình ảnh.  Ngoài  ra  thuật  toán tự  huấn  luyện  còn  được  ứng  dụng để  giải  quyết  các  bài toán phân tách và dịch máy, …   Giải thuật có mô hình toán học dễ hiểu,  sáng sủa và dễ học,  giải thuật có độ  phức tạp phụ thuộc vào số lượng mẫu huấn luyện và độ phức tạp của bộ phân lớp có  giám sát h. ... gọi là thuật toán nhân. Sau khi đã chọn được thuật toán nhân ta áp dụng vào thuật  toán tự huấn luyện như sau.   Thuật toán:   Repeat Huấn luyện bộ phân lớp có giám sát h trên tập L;    16    Sử dụng h để phân lớp dữ liệu trong tập U;  Tìm tập con U’  U có độ tin cậy cao nhất:  L  L + U’; U  U – U’; Until U =    2.2.2 Đánh giá thuật toán Giải thuật tự huấn luyện là phương pháp đơn giản nhất trong học nửa giám sát.   Thuật  toán tự  huấn  luyện  được  ứng  dụng ... Ta giả thiết rằng đa số mẫu được tạo ra một cách độc lập và giống nhau từ  một phân phối chung trên X và một số lượng nhỏ mẫu đã được gán nhãn. Mục tiêu  là tìm ra một cấu trúc thông minh trên tập dữ liệu X.  1.6 Tổng kết chương Trên đây là một số kiến thức cơ bản về học máy, thông qua đó ta có thể nắm  bắt  được  các kiến thức  nền  tảng  về học máy  như: Khái  niệm  thế  nào  là  học máy,  học có giám sát, học không giám sát và học nửa giám sát ; Các mô hình toán của 

Ngày đăng: 17/04/2015, 15:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w