(Luận văn) học nửa giám sát dựa trên đồ thị và ứng dụng

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ––––––––––––––––––––––––––––––––––– lu an n va p ie gh tn to Chuyên ngành: Khoa học máy tính d oa nl w Mã số: 60 48 01 01 va an lu ll u nf LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN z m co l gm @ an Lu THÁI NGUYÊN - 2015 n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si i LỜI CẢM ƠN Trong trình làm luận văn “Học nửa giám sát dựa đồ thị ứng dụng” nhận đƣợc giúp đỡ tận tình cá nhân tập thể Trƣớc hết, xin bày tỏ lịng biết ơn sâu sắc đến thầy giáo PGS.TS Đồn Văn Ban, ngƣời tận tình hƣớng dẫn, bảo cho tơi suốt q trình thực luận văn Xin bày tỏ lòng biết ơn chân thành tới thầy, cô giáo Viện Công nghệ Thông tin nhƣ thầy, cô giáo Trƣờng Đại học Công nghệ Thông lu tin & Truyền thông Thái Nguyên, đem lại cho kiến thức vô có ích an n va năm học tập trƣờng gh tn to ngƣời bên cạnh, động viên khuyến khích tơi q trình thực đề ie tài nghiên cứu p Tơi xin chân thành cảm ơn! d oa nl w , ngày 10 tháng năm 2015 ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si LỜI CẢM ƠN i DANH MỤC HÌNH VẼ v LỜI MỞ ĐẦU .1 lu an CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC MÁY va n 1.1 Giới thiệu học máy 1.2.1 Học có giám sát 1.2.2 Học không giám sát p ie gh tn to 1.2 Các phƣơng pháp học máy 1.2.3 Học tăng cƣờng 11 nl w 1.2.4 Học nửa giám sát 12 d oa 1.3 Một số phƣơng pháp học nửa giám sát 14 an lu 1.3.1 Phƣơng pháp tự huấn luyện 14 1.3.2 Phƣơng pháp đồng huấn luyện 15 va u nf 1.3.3 Phƣơng pháp Máy véc tơ hỗ trợ truyền dẫn 18 ll 1.3.4 Phƣơng pháp dựa đồ thị 22 m oi 1.4 Kết luận 24 z at nh CHƢƠNG 2: PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ .25 2.1 Giới thiệu 25 z 2.2 Các loại đồ thị phổ biến sử dụng học nửa giám sát 27 @ gm 2.2.1 Đồ thị kết nối đầy đủ 27 -láng giềng gần 28 m co 2.2.3 Đồ thị l 2.2.2 Đồ thị rời rạc 27 2.2.4 Đồ thị -láng giềng gần 28 an Lu 2.2.5 Đồ thị trọng số exp 29 n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si 2.3 Các phƣơng pháp xác định khoảng cách điểm liệu 29 2.3.1 Khoảng cách cục bộ, khoảng cách toàn cục trọng số 29 2.3.2 Khoảng cách Hamming 30 2.3.3 Khoảng cách Manhattan cho thuộc tính số học 30 2.3.4 Các hàm khoảng cách cục không đồng 31 2.3.5 Hàm khoảng cách tri thức chuyên gia 31 2.4 Thuật toán lan truyền nhãn đồ thị 32 2.4.1 Ký hiệu 32 2.4.2 Nội dung thuật toán 33 2.4.3 Sự hội tụ thuật toán 34 lu an 2.4.4 Phƣơng pháp xác định siêu tham số đồ thị 36 n va 2.4.5 Độ phức tạp thuật toán 38 2.6 Các trƣờng Gaussian ngẫu nhiên hàm điều hòa 40 2.6.1 Các trƣờng Gaussian ngẫu nhiên 40 ie gh tn to 2.5 Thuật toán học nửa giám sát dựa đồ thị - Mincut 38 p 2.6.2 Đồ thị Laplacian 42 w 2.6.3 Các hàm điều hòa 43 oa nl 2.7 Đánh giá 44 d 2.8 Kết luận chƣơng 44 lu an CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN 45 u nf va 3.1 Mơ tả tốn 45 3.2 Mô tả liệu đầu vào 45 ll oi m 3.3 Trích chọn đặc trƣng 47 z at nh 3.4 Cài đặt thử nghiệm 50 Môi trƣờng cài đặt thử nghiệm 50 z Các chức chƣơng trình 51 gm @ 3.5 Kết thực nghiệm đánh giá độ phức tạp 54 3.6 Kết luận 56 l m co KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO 58 an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT lu an Thuật ngữ Viết tắt Ý nghĩa Concept Concept Khái niệm Self-training Self-training Tự huấn luyện Co-training Co-training Đồng huấn luyện Machine learning Machine learning Học máy Supervised learning Supervised learning Học có giám sát Unsupervised learning Unsupervised learning Học không giám sát Reinforcement learning Reinforcement learning Học tăng cƣờng va Semi-supervised n Semi-supervised learning Học nửa giám sát Support vector machine Máy véc tơ hỗ trợ SVM gh tn to learning ie Transductive support Máy véc tơ hỗ trợ truyền p TSVM dẫn nl w vector machine Labeled Propagation Lan truyền nhãn Graph-based Graph-based Dựa đồ thị Labeled Propagation d oa ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si DANH MỤC HÌNH VẼ Hình 1.1: Phƣơng pháp phân cụm liệu .9 Hình 1.2: Khung nhìn liệu văn liên kết 17 Hình 1.3: Dữ liệu đƣợc học theo phƣơng pháp Co-training 18 Hình 1.4: Phƣơng pháp Máy véc tơ hỗ trợ 19 Hình 1.5: Phƣơng pháp máy vecto hỗ trợ truyền dẫn .22 Hình 1.6: Minh họa đồ thị đƣợc gán nhãn 23 Hình 2.1: Phƣơng pháp dựa đồ thị .25 Hình 2.2: Đồ thị kết nối đầy đủ 27 lu Hình 2.3: Đồ thị rời rạc .27 an n va Hình 2.4: Đồ thị -láng giềng gần 28 Hình 2.6: Trọng số cạnh hai đỉnh đồ thị .29 gh tn to Hình 2.5: Đồ thị -láng giềng gần .28 p ie Hình 2.7: Đồ thị với trọng số cạnh .32 Hình 3.1: Tệp liệu tin nhắn mẫu 45 nl w Hình 3.2: Nội dung tin nhắn đƣợc chuyển thành dạng vector 46 d oa Hình 3.3: Nội dung file liệu dạng vector 47 an lu Hình 3.4: Trích chọn đặc trƣng 48 va Hình 3.5: Trích chọn thuộc tính cho file đầu vào chƣơng trình 49 u nf Hình 3.6: Dữ liệu chƣơng trình 49 ll Hình 3.7: Dữ liệu chƣơng trình mở Notepad 50 m oi Hình 3.8: Giao diện chọn tệp liệu .51 z at nh Hình 3.9: Kết lựa chọn phƣơng pháp tự huấn luyện 52 Hình 3.10: Giao diện đồ thị lan truyền nhãn trƣớc thực 53 z gm @ Hình 3.11: Giao diện đồ thị lan truyền nhãn sau thực .54 Hình 3.12: Kết đồ thị sau đƣợc gán nhãn dạng đồ thị 54 m co l an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si LỜI MỞ ĐẦU Học máy (Machine learning) ngành khoa học nghiên cứu kĩ thuật, phƣơng pháp cho phép máy tính có khả "học" giống nhƣ ngƣời Hay nói cách khác cụ thể hơn, học máy phƣơng pháp để tạo chƣơng trình máy tính việc phân tích tập liệu, qua máy tính có khả tích lũy đƣợc tri thức thông qua việc học đƣợc khái niệm để định trƣờng hợp tƣơng tự Lĩnh vực học máy truyền thống thƣờng đƣợc chia thành bốn lĩnh vực con, lu bao gồm: Học có giám sát (Supervised learning), Học khơng giám sát an n va (Unsupervised learning), Học nửa giám sát (Semi-Supervised learning) Học tăng Học nửa giám sát sử dụng liệu gán nhãn chƣa gán nhãn để huấn gh tn to cƣờng (Reinforcement learning) ie luyện - điển hình lƣợng nhỏ liệu có gán nhãn với lƣợng lớn liệu p chƣa gán nhãn Học nửa giám sát đứng học không giám sát (khơng có nl w liệu có nhãn nào) có giám sát (tồn liệu đƣợc gán nhãn) Để gán nhãn d oa liệu cho tốn học máy thƣờng địi hỏi phân loại tay ví dụ an lu huấn luyện Chi phí cho quy trình khiến tập liệu đƣợc gán nhãn hoàn toàn trở nên không khả thi, liệu không va u nf Trong tình đó, học nửa giám sát có giá trị thực tiễn lớn lao Chính vậy, học ll nửa giám sát kết hợp số lƣợng lớn liệu chƣa đƣợc gán nhãn m oi với liệu đƣợc gán nhãn để xây dựng phân lớp tốt z at nh Một số phƣơng pháp điển hình lĩnh vực đƣợc kể đến nhƣ: Phƣơng pháp EM với mơ hình sinh hỗn hợp (EM with generative mixture models), phƣơng z gm @ pháp Tự huấn luyện (Self-training), phƣơng pháp Đồng huấn luyện (Co-training), phƣơng pháp máy véc tơ hỗ trợ (Transductive support vector machines) phƣơng l m co pháp Dựa đồ thị (Graph-based) Trong phƣơng pháp học nửa giám sát dựa đồ thị (Graph-based) hƣớng nghiên cứu mở đem lại hiệu lớn an Lu Với lý trên, tác giả chọn đề tài “ n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si ” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành Khoa học máy tính Nghiên cứu tổng quan học nửa giám sát số phƣơng pháp học nửa giám sát Nghiên cứu phƣơng pháp học nửa giám sát dựa đồ thị Cài đặt thử nghiệm thuật toán lan truyền nhãn đồ thị thuật toán tự huấn luyện lu Đối tượng nghiên cứu: Học nửa giám sát an va Phạm vi nghiên cứu: n - Nghiên cứu tổng quan học có giám sát, học khơng giám sát học nửa to gh tn giám sát p ie - Các phƣơng pháp học nửa giám sát phổ biến - Phƣơng pháp học nửa giám sát dựa đồ thị (Graph-based) số nl w thuật toán d oa - Cài đặt thử nghiệm thuật toán lan truyền nhãn phƣơng pháp học nửa va an lu giám sát dựa đồ thị thuật toán tự huấn luyện u nf Các luận điểm mà luận văn thể đƣợc: ll Nghiên cứu tổng quan đánh giá phƣơng pháp học nửa giám sát, tập m oi trung vào phƣơng pháp học nửa giám sát dựa đồ thị z at nh Tập trung tìm hiểu số thuật toán lĩnh vực học nửa giám sát nhƣ: Phƣơng pháp EM với mơ hình sinh hỗn hợp, phƣơng pháp Tự huấn luyện, phƣơng z nghiên cứu chi tiết phƣơng pháp dựa đồ thị l gm @ pháp Đồng huấn luyện phƣơng pháp máy véc tơ hỗ trợ Đồng thời tập trung m co Cài đặt phần mềm thử nghiệm mô thuật toán lan truyền nhãn thuật toán tự huấn luyện, đánh giá độ phức tạp hai thuật toán an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si - Đọc tài liệu, phân tích, tổng hợp - Thống kê, phân tích liệu - Thực nghiệm đánh giá kết - Kết hợp nghiên cứu lý thuyết, tìm hiểu tình hình ứng dụng, đánh giá khả ứng dụng đề xuất giải pháp Nội dung luận văn gồm 03 chƣơng: Chƣơng 1: Tổng quan phƣơng pháp học máy lu an Chƣơng trình bày tổng quan phƣơng pháp học máy gồm va phƣơng pháp Học có giám sát (Supervised learning), Học khơng giám sát n (Unsupervised learning), Học nửa giám sát (Semi-Supervised learning) to gh tn Chƣơng 2: Phƣơng pháp học nửa giám sát dựa đồ thị p ie Tập trung tìm hiểu số thuật toán lĩnh vực học nửa giám sát nhƣ: Phƣơng pháp EM với mơ hình sinh hỗn hợp, phƣơng pháp Tự huấn nl w luyện, phƣơng pháp Đồng huấn luyện phƣơng pháp máy véc tơ hỗ trợ d oa Đồng thời tập trung nghiên cứu chi tiết phƣơng pháp dựa đồ thị an lu Chƣơng 3: Cài đặt thử nghiệm thuật toán ll u nf đồ thị va Cài đặt thử nghiệm thuật toán tự huấn luyện lan truyền nhãn dựa oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy Học máy (Machine Learning) ngành khoa học nghiên cứu thuật toán cho phép máy tính học đƣợc khái niệm (concept)[7] Có hai loại phƣơng pháp học máy chính: Phƣơng pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập đƣợc trƣớc Phƣơng pháp cho phép tận dụng đƣợc nguồn liệu nhiều sẵn có lu Phƣơng pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật an n va Phƣơng pháp cho phép tận dụng đƣợc kiến thức chuyên ngành để hỗ trợ Hiện nay, thuật toán cố gắng tận dụng đƣợc ƣu điểm hai phƣơng gh tn to máy tính Các ngành khoa học liên quan đến lĩnh vực học máy điển hình là: p ie pháp nl w Lý thuyết thống kê: kết xác suất thống kê tiền đề cho d oa nhiều phƣơng pháp học máy Đặc biệt, lý thuyết thống kê cho phép ƣớc lƣợng sai số an lu phƣơng pháp học máy va Các phƣơng pháp tính: thuật tốn học máy thƣờng sử dụng tính tốn u nf số thực/số ngun liệu lớn Trong đó, tốn nhƣ: tối ƣu có/khơng ll ràng buộc, giải phƣơng trình tuyến tính v.v… đƣợc sử dụng phổ biến m oi Khoa học máy tính: sở để thiết kế thuật toán, đồng thời đánh giá z at nh thời gian chạy, nhớ thuật toán học máy Lĩnh vực học máy truyền thống thƣờng đƣợc chia thành bốn lĩnh vực con: z gm @ Học có giám sát: Máy tính đƣợc xem số mẫu gồm đầu vào đầu tƣơng ứng trƣớc Sau học xong mẫu này, máy tính quan sát đầu vào m co l cho kết Học khơng giám sát: Máy tính đƣợc xem mẫu khơng có đầu ra, sau an Lu máy tính phải tự tìm cách phân loại mẫu mẫu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Hàm điều hịa đƣợc thể vài cách nhìn khác cách nhìn khác cung cấp tập hợp lý luận bổ sung kỹ thuật phong phú cho lĩnh vực học nửa giám sát 2.7 Đánh giá Hầu hết thuật toán học nửa giám sát dựa đồ thị dựa việc học lan truyền, nhƣợc điểm phƣơng pháp dễ dàng mở rộng thêm điểm liệu mà không thuộc tập L∪ U, điểm liệu đƣợc thêm vào đồ thị làm thay đổi cấu trúc đồ thị, dẫn tới chi phí tính tốn bị tăng lên Bên cạnh đó, lý có ảnh hƣởng tới chi phí tính tốn lu phụ thuộc vào loại đồ thị xây dựng, sử dụng đồ thị kết nối đầy đủ ta an n va phải tính tốn cho tất cạnh nối hai đỉnh Trong chƣơng này, tìm hiểu phƣơng pháp học nửa giám sát gh tn to 2.8 Kết luận chƣơng p ie dựa đồ thị số thuật tốn sử dụng để phục vụ q trình học Nghiên cứu thuật toán lan truyền nhãn để học từ liệu gán nhãn chƣa gán nhãn, nl w nhãn đƣợc lan truyền đồ thị thông qua hàm trọng số đỉnh lân cận d oa gán nhãn Đây thuật toán quan trọng với học máy đồ thị Chúng ta an lu nghiên cứu cách xác định siêu tham số để phục vụ trình lan truyền va nhãn với thuật toán Cây khung nhỏ Vì đồ thị đầu vào tất ll oi m toán u nf thuật toán nên cần xây dựng đồ thị cho phù hợp với yêu cầu z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TỐN 3.1 Mơ tả tốn Với mục tiêu gán nhãn cho đỉnh đồ thị dựa sở đỉnh có tiến hành xây dựng chƣơng trình nhãn ứng dụng nhằm mơ q trình thực thuật tốn Chƣơng trình ứng dụng cài đặt hai thuật toán học nửa giám sát theo hai phƣơng pháp phƣơng pháp tự huấn luyện với kết hợp liệu gán nhãn, chƣa gán nhãn phƣơng pháp dựa đồ thị để thực việc phân loại tin lu nhắn rác có tập tin nhắn thông thƣờng an Dữ liệu đầu vào chƣơng trình đƣợc lấy ngẫu nhiên với 50 tin nhắn n va 3.2 Mô tả liệu đầu vào gh tn to có tin nhắn rác liệu thử nghiệm SMS Spam corpus (nguồn Mỗi dòng liệu chứa nội dung tin nhắn dƣới dạng text Kết thúc p ie http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) nl w dòng dấu phân cách “phẩy”, sau dấu phẩy tin nhắn đƣợc phân loại d oa thành ham-tin nhắn hợp lệ spam-tin nhắn rác Ví dụ nội dung liệu: ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.1: Tệp liệu tin nhắn mẫu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Trƣớc tiến hành phân lớp liệu, cần phải xử lý để chuyển đổi liệu định dạng phù hợp Luận văn sử dụng phần mềm Weka (nguồn http://www.cs.waikato.ac.nz/ml/weka/) để thực thao tác tiền xử lý liệu Chi tiết bƣớc xử lý nhƣ sau: Bƣớc 1: Chuyển đổi liệu dạng chuỗi dạng vector: weka xây dựng từ điển từ khóa Sau chuyển đổi, liệu dùng để chuyển đổi bao gồm 148 ghi 100 thuộc tính Hình 3.2 rõ liệu sau đƣợc chuyển đổi lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh Hình 3.2: Nội dung tin nhắn chuyển thành dạng vector z Khi liệu dạng vector đƣợc mơ tả nhƣ hình sau Các thuộc tính @ gm từ nội dung tin nhắn, thuộc tính cột liệu Mỗi tin nhắn đƣợc m co l thể hàng với số 0,1… thể số lần xuất thuộc tính (từ tiếng anh) nội dung tin nhắn nhƣ hình 3.3 Khi ta chỉnh sửa đƣợc an Lu nội dung file cần n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si lu an n va ie gh tn to p Hình 3.3: Nội dung file liệu dạng vector oa nl w Bƣớc 2: Trích chọn đặc trƣng đƣợc trình bày chi tiết mục 3.3 d Bƣớc 3: Thực gán số thứ tự cho đỉnh với đỉnh SMS an lu đƣợc thể dòng liệu gán nhãn trƣớc cho số đỉnh số u nf va đỉnh chƣa gán nhãn Bằng cách thêm số nhãn 1,0 (thể nhãn) hay -1 (chƣa gán nhãn) trƣớc phần liệu tin nhắn Bƣớc đƣợc thực ll 3.3 Trích chọn đặc trƣng z at nh thuật tốn oi m chƣơng trình nhằm chuẩn hóa liệu đầu vào cho phù hợp với liệu đầu vào z Trích chọn đặc trƣng (Feature Selection, Feature Extraction) nhiệm vụ @ gm quan trọng giai đoạn tiền xử lý liệu triển khai mơ hình khai phá liệu l máy học Một vấn đề gặp phải liệu dùng để xây dựng mơ hình m co liệu thƣờng chứa nhiều thơng tin khơng cần thiết (thậm chí gây nhiễu) cho việc xây an Lu dựng mơ hình Chẳng hạn, liệu gồm hàng trăm thuộc tính dùng để mô tả khách hàng doanh nghiệp đƣợc thu thập, nhiên xây dựng mô n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si hình cần khoảng 50 thuộc tính từ hàng trăm thuộc tính Nếu ta sử dụng tất thuộc tính (hàng trăm) khách hàng để xây dựng mơ hình ta cần nhiều CPU, nhiều nhớ trình huấn luyện, chí thuộc tính khơng cần thiết làm giảm độ xác mơ hình gây khó khăn việc phát tri thức Có nhiều phƣơng pháp để trích chọn thuộc tính tốt để huấn luyện mà đảm bảo đƣợc yêu cầu, giúp trình thực thi huấn luyện nhanh Trong trích chọn đặc trƣng văn bản, phƣơng pháp kể đến nhƣ Bag-of-words hay Chỉ số Gain,… luận văn sử dụng phƣơng pháp trích chọn dựa bag-of-words với lu kỹ thuật loại bỏ từ dừng “stop word” lấy từ gốc “stemming” an n va Sau đặc trƣng phù hợp đƣợc chọn, phân lớp đƣợc đào tạo với tập đƣợc mơ hình tốt Hiệu mơ hình phân loại sau đƣợc đánh giá gh tn to liệu huấn luyện Quá trình huấn luyện thƣờng đƣợc lặp lặp lại nhiều lần để có Trong luận văn Wake đƣợc sử dụng để chọn đặc trƣng tốt p ie tập liệu kiểm tra chuẩn bị riêng nl w cách sử dụng tính Attribute Selection với tùy chọn Best First để lọc bỏ tính d oa khơng thực quan trọng từ giảm số thuộc tính cần xét giúp chƣơng trình phân lớp nhƣ hình sau ll u nf va an lu thuật toán thực đƣợc nhanh mà đảm bảo số tiêu chí dùng cho oi m z at nh z m co l gm @ an Lu Hình 3.4: Trích chọn đặc trưng n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Từ ta đƣợc file đầu vào cho toán tự huấn luyện lan truyền nhãn với 30 thuộc tính nhƣ hình 3.5 Dữ liệu đầu vào xem sửa cần thiết nhƣ hình 3.5 nhƣ sau: lu an n va p ie gh tn to d oa nl w Hình 3.5: Trích chọn thuộc tính cho file đầu vào chương trình ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.6: Dữ liệu chương trình n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Dữ liệu đầu vào thuật toán tập ghi liệu chƣa đƣợc phân lớp Với ghi liệu chứa giá trị thuộc miền rời rạc lu an n va p ie gh tn to oa nl w d Hình 3.7: Dữ liệu chương trình mở Notepad an lu Cấu trúc liệu tệp đầu vào mơ tả lại nhƣ sau: u nf va Đầu tiên thơng tin Wake Tiếp theo n dịng thơng tin thuộc tính có dạng @ thuộc tính với n số ll oi m thuộc tính z at nh Mỗi dòng tƣơng ứng với giá trị đối tƣợng luận văn dịng thể liệu thuộc tính sms z Các giá trị thuộc tính cách dấu “,” m co l gm Môi trƣờng cài đặt thử nghiệm @ 3.4 Cài đặt thử nghiệm Chƣơng trình thử nghiệm đƣợc viết ngơn ngữ C#.Net Visual lƣu trữ hệ quản trị sở liệu Sql Server 2008 R2 an Lu Studio 2010 sử dụng phiên Net Framework 4.0 Dữ liệu chƣơng trình đƣợc n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Các chức chƣơng trình Nhập liệu: Cho phép nhập liệu từ tệp text có cấu trúc nhƣ mô tả mục 3.6 Trƣớc nhập liệu, ngƣời dùng chỉnh sửa phần mềm Wake Để nhập liệu, ngƣời dùng nhấn vào nút “Chọn ”, sau tìm đến tệp liệu lƣu trữ máy tính có dạng *.arff *.text Sau chọn tệp, liệu đƣợc lấy thơng tin cần thiết thuộc tính thực lƣu vào sở liệu hiển thị lên tab “Chi tiết liệu” để phục vụ cho việc thực thuật toán đƣợc dễ dàng lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.8: Giao diện chọn tệp liệu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Tại giao diện này, cột wi thuộc tính thứ i thuộc tính trích chọn bên ngƣời dùng thực thao tác lựa chọn vào combobox “Chọn phƣơng pháp” Chƣơng trình cho phép lựa chọn phƣơng pháp tự huấn luyện phƣơng pháp lan truyền nhãn Sau lựa chọn, nhấn nút “Thực hiện” Với phƣơng pháp tự huấn luyện, kết hiển thị nhƣ sau: lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh Hình 3.9: Kết lựa chọn phương pháp tự huấn luyện Các tin nhắn thuộc lớp sms spam 11 lại ham z Với phƣơng pháp lan truyền nhãn, giao diện hiển thị thông tin ma trận @ gm nhãn, ma trận xác suất nhãn, ma trận trọng số cạnh ma trận xác suất l Mỗi nút đồ thị SMS Ngoài tab “Đồ thị lan truyền nhãn”, m co hiển thị đồ thị nhãn với đỉnh hình trịn, đỉnh màu đỏ ứng với trƣờng đƣờng nối đỉnh an Lu hợp chƣa gán nhãn, đỉnh xanh ứng với nhãn đỉnh vàng ứng với nhãn n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Trong hình 3.10 ta xem chi tiết ma trận đƣợc tính tốn q trình lan truyền nhãn nhƣ: ma trận trọng số cạnh W, ma trận xác suất chuyển đổi P, ma trận nhãn YL, ma trận xác suất chuyển nhãn f lu an n va p ie gh tn to d oa nl w va an lu Hình 3.10: Giao diện đồ thị lan truyền nhãn trước thực u nf Ở giao diện bảng “Nút i” thể SMS thứ i ll Để thực thuật toán lan truyền nhãn, ngƣời dùng nhấn vào nút “Thực m oi hiện” tab “Phƣơng pháp lan truyền nhãn”, chƣơng trình trả kết z at nh đỉnh đƣợc gán nhãn Đồng thời hiển thị ma trận xác suất hội tụ ma trận xác xuất nhãn fu với tin nhắn spam z gm @ Sau hệ thống thực xong việc lan truyền nhãn, ta xem kết dƣới dạng bảng ma trận xác suất nhạn hội tụ ma trận xác suất nhãn fu nhƣ l dƣới dạng đồ thị nhƣ hình 3.11 Màn hình hiển thị thơng tin đỉnh nhãn m co chúng sau đƣợc lan truyền từ đỉnh gán nhãn khác an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si lu an n va tn to Hình 3.11: Giao diện đồ thị lan truyền nhãn sau thực gh Sau thực thuật toán lan truyền nhãn, đỉnh đƣợc gán nhãn p ie nên khơng cịn đỉnh màu đỏ (chƣa gán nhãn) nhƣ hình Tại giao diện này, w ngƣời dùng nhấn vào nút “Lƣu kết quả” để lƣu lại liệu gán nhãn Kết oa nl xuất tệp text d 3.5 Kết thực nghiệm đánh giá độ phức tạp lu ll u nf va an 3.5.1 Kết thực nghiệm oi m z at nh z m co l gm @ an Lu Hình 3.12: Kết đồ thị sau gán nhãn dạng đồ thị n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si Kết thực nghiệm thuật toán thu đƣợc 11 tin nhắn đƣợc phân lớp tin nhắn rác 39 tin nhắn tin nhắn phân lớp sai, tỷ lệ tin nhắn phân lớp đạt 94% 3.5.2 Đánh giá độ phức tạp thuật toán  Với thuật toán tự huấn luyện Dữ liệu đầu vào bao gồm: ℓ: số lƣợng liệu gán nhãn u: số lƣợng liệu chƣa gán nhãn (u ≫ ℓ) n = ℓ + u =50 : tổng số lƣợng liệu Độ phức tạp thuật toán tự huấn luyện dựa việc đánh giá trình lặp lu bƣớc (xem 1.3.1): an Vịng lặp thứ có độ phức tạp: O (ℓ) n va  Thuật tốn thực số vịng lặp nhiều là: u vịng lặp Trong đó: to p ie gh tn Vịng lặp thứ hai có độ phức tạp là: O (ℓ + 1) Vòng lặp thứ u có độ phức tạp là: O (ℓ+u−1) nl w Do thuật tốn có độ phức tạp là: d oa O (ℓ) + O (ℓ +1) + + O (ℓ +u−1) = O(ℓ +u−1) (O (ℓ +u) − O (ℓ))/ an lu = O(ℓ +u−1) O (u) / va ≈ O(n2) ≈ O(502) u nf  Với thuật toán lan truyền nhãn ll Thuật toán lan truyền nhãn đƣợc thực dựa trình tính tốn ma trận m oi việc lặp lại để xác định hội tụ thuật toán z at nh Đầu vào thuật toán đồ thị, đó: ℓ: số đỉnh gán nhãn l gm @ n = ℓ + u =50: tổng số đỉnh đồ thị z u: số đỉnh chƣa gán nhãn (u ≫ ℓ) m co Thuật toán thực q trình tính tốn với độ phức tạp thành phần nhƣ sau: - Quá trình xác định ma trận trọng số W, ma trận xác suất P, ma trận xác an Lu suất chuyển nhãn PUU, ma trận xác suất PUL, ma trận nhãn YL, ma trận xác suất nhãn n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si f, có độ phức tạp: O(n2) (1) - Quá trình xác định siêu tham số α dựa thuật tốn tìm khung nhỏ nhất, có độ phức tạp: O (n2×log n) (2) - Q trình lặp để thực việc lan truyền nhãn đƣợc thực m bƣớc lặp (m lớn), đó: việc xác định hội tụ thuật tốn dựa q trình tính tốn định thức ma trận, phép tốn nhân ma trận tìm ma trận nghịch đảo, có độ phức tạp: O(n3) Do đó, độ phức tạp q trình lặp là: O (m×n3) (3)  Từ (1), (2) (3) suy độ phức tạp thuật tốn la truyền nhãn là: O (m×503) lu 3.6 Kết luận an n va Trong chƣơng này, tác giả cài đặt chƣơng trình thử nghiệm phƣơng pháp luyện, ứng dụng cho phép ngƣời dùng nhập liệu đầu vào, gán nhãn thông qua gh tn to tự huấn luyện lan truyền nhãn dựa học nửa giám sát Với thuật tốn tự huấn ie q trình tự huấn luyện Với thuật toán lan truyền nhãn đồ thị, chƣơng trình cho p phép theo dõi kết q trình tính tốn thơng qua ma trận, đồng thời hiển nl w thị kết cách trực quan lên giao diện Chƣơng trình dễ dàng phát triển d oa với nhiều thuộc tính an lu Trong chƣơng này, tác giả chƣơng trình thử nghiệm thuật toán phân va lớp áp dụng vào toán phân loại tin nhắn rác Với phƣơng pháp trích chọn đặc u nf trƣng nhƣ trình bày trên, giúp giảm nhiều thời gian thực phân lớp ll thuật toán Đồng thời, luận văn trình bày chi tiết bƣớc tiền xử lý m oi liệu cho phép khai thác thuật toán phân lớp hiệu z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN  Kết luận : - Trình bày khái qt học có giám sát, học khơng giám sát học nửa giám sát - Giới thiệu số phƣơng pháp học nửa giám sát phổ biến nhƣ: Self-training, Co-training, TSVM đánh giá ƣu nhƣợc điểm phƣơng pháp - Trình bày phƣơng pháp học nửa giám sát dựa đồ thị số thuật lu toán nhƣ: Labeled Propagation, Mincut an n va - Đã cài đặt chƣơng trình thử nghiệm thuật tốn lan truyền nhãn đồ thị  Hạn chế ie gh tn to thuật toán tự huấn luyện Về chƣơng trình ứng dụng: thời gian có hạn nên tơi chƣa có điều kiện xây p dựng phần mềm ứng dụng hồn chỉnh, áp dụng thuật tốn vào lĩnh nl w vực đời sống d oa  Hƣớng phát triển an lu Với việc nghiên cứu học nửa giám sát phƣơng pháp học nửa giám sát va dựa đồ thị, tiếp tục nghiên cứu sâu hƣớng tìm hiểu u nf phƣơng pháp, thuật tốn học nửa giám sát khác để áp dụng lý ll thuyết nghiên cứu đƣợc nhằm xây dựng phần mềm áp dụng vào thực tiễn oi m z at nh z m co l gm @ an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] TS Nguyễn Tân Ân (2011), Bài giảng mạng noron nhân tạo, Trƣờng Đại học Sƣ phạm Hà Nội, Hà Nội [2] PGS TS Đoàn Văn Ban, ThS Nguyễn Hiền Trinh (2009), Ngơn ngữ hình thức ơtơmát, NXB Đại học Thái Nguyên [3] PGS TS Hà Quang Thụy (2011), Bài giảng nhập môn khai phá liệu, Trƣờng Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội lu Tài liệu tiếng Anh an n va [4] Avirm Blum, Shuchi Chawla (2001), Learning from labeled and Unlabeled to Data using Graph Mincuts, Computer Science Department, Carnegie gh tn Mellon University, 5000 Forbes Avenue, Pittsburgh, PA15213USA Amarnag Subramanya (2012), Partha Pratim Talukdar, A Tutorial on p ie [5] Matthias Seeger (2001), Learning with labeled and unlabeled data, nl w [6] Graph-based Semi-Supervised Learning Algorithms for NLP, South Korea Olivier Chapelle, Bernhard Schăolkopf, Alexander Zien (2006), Semi- an lu [7] d oa Technical Report, University of Edinburgh Partha Pratim Talukdar (July 16, 2010), Experiments in Graph-based Semi- u nf [8] va Supervised Learning ll Supervised Learning Methods for Class-Instance Acquisition, Search Labs, m oi Microsoft Research Mountain View, CA 94043, Fernando Pereira Google, z at nh Inc.Mountain View, CA 94043 [9] Xiaojin Zhu (May 2005), Semi-Supervised Learning with Graphs z gm @ [10] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma m co l an Lu n va http://www.lrc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si

Định dạng
Số trang	64
Dung lượng	1,7 MB