Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,69 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ––––––––––––––––––––––––––––––––––– Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS ĐỒN VĂN BAN THÁI NGUN - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c i LỜI CẢM ƠN Trong trình làm luận văn “Học nửa giám sát dựa đồ thị ứng dụng” tơi nhận đƣợc giúp đỡ tận tình cá nhân tập thể Trƣớc hết, xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo PGS.TS Đồn Văn Ban, ngƣời tận tình hƣớng dẫn, bảo cho tơi suốt q trình thực luận văn Xin bày tỏ lòng biết ơn chân thành tới thầy, cô giáo Viện Công nghệ Thông tin nhƣ thầy, cô giáo Trƣờng Đại học Công nghệ Thông tin & Truyền thông Thái Nguyên, đem lại cho kiến thức vô có ích năm học tập trƣờng ngƣời ln bên cạnh, động viên khuyến khích tơi q trình thực đề tài nghiên cứu Tơi xin chân thành cảm ơn! , ngày 10 tháng năm 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c LỜI CẢM ƠN i DANH MỤC HÌNH VẼ v LỜI MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy 1.2 Các phƣơng pháp học máy 1.2.1 Học có giám sát 1.2.2 Học không giám sát 1.2.3 Học tăng cƣờng 11 1.2.4 Học nửa giám sát 12 1.3 Một số phƣơng pháp học nửa giám sát 14 1.3.1 Phƣơng pháp tự huấn luyện 14 1.3.2 Phƣơng pháp đồng huấn luyện 15 1.3.3 Phƣơng pháp Máy véc tơ hỗ trợ truyền dẫn 18 1.3.4 Phƣơng pháp dựa đồ thị 22 1.4 Kết luận 24 CHƢƠNG 2: PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ .25 2.1 Giới thiệu 25 2.2 Các loại đồ thị phổ biến sử dụng học nửa giám sát 27 2.2.1 Đồ thị kết nối đầy đủ 27 2.2.2 Đồ thị rời rạc 27 2.2.3 Đồ thị -láng giềng gần 28 2.2.4 Đồ thị -láng giềng gần 28 2.2.5 Đồ thị trọng số exp 29 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c 2.3 Các phƣơng pháp xác định khoảng cách điểm liệu 29 2.3.1 Khoảng cách cục bộ, khoảng cách toàn cục trọng số 29 2.3.2 Khoảng cách Hamming 30 2.3.3 Khoảng cách Manhattan cho thuộc tính số học 30 2.3.4 Các hàm khoảng cách cục không đồng 31 2.3.5 Hàm khoảng cách tri thức chuyên gia 31 2.4 Thuật toán lan truyền nhãn đồ thị 32 2.4.1 Ký hiệu 32 2.4.2 Nội dung thuật toán 33 2.4.3 Sự hội tụ thuật toán 34 2.4.4 Phƣơng pháp xác định siêu tham số đồ thị 36 2.4.5 Độ phức tạp thuật toán 38 2.5 Thuật toán học nửa giám sát dựa đồ thị - Mincut 38 2.6 Các trƣờng Gaussian ngẫu nhiên hàm điều hòa 40 2.6.1 Các trƣờng Gaussian ngẫu nhiên 40 2.6.2 Đồ thị Laplacian 42 2.6.3 Các hàm điều hòa 43 2.7 Đánh giá 44 2.8 Kết luận chƣơng 44 CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TỐN 45 3.1 Mơ tả toán 45 3.2 Mô tả liệu đầu vào 45 3.3 Trích chọn đặc trƣng 47 3.4 Cài đặt thử nghiệm 50 Môi trƣờng cài đặt thử nghiệm 50 Các chức chƣơng trình 51 3.5 Kết thực nghiệm đánh giá độ phức tạp 54 3.6 Kết luận 56 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 57 TÀI LIỆU THAM KHẢO 58 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Viết tắt Ý nghĩa Concept Concept Khái niệm Self-training Self-training Tự huấn luyện Co-training Co-training Đồng huấn luyện Machine learning Machine learning Học máy Supervised learning Supervised learning Học có giám sát Unsupervised learning Unsupervised learning Học không giám sát Reinforcement learning Reinforcement learning Học tăng cƣờng Semi-supervised learning Semi-supervised learning Support vector machine SVM Transductive support TSVM vector machine Học nửa giám sát Máy véc tơ hỗ trợ Máy véc tơ hỗ trợ truyền dẫn Labeled Propagation Labeled Propagation Lan truyền nhãn Graph-based Graph-based Dựa đồ thị Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c DANH MỤC HÌNH VẼ Hình 1.1: Phƣơng pháp phân cụm liệu .9 Hình 1.2: Khung nhìn liệu văn liên kết 17 Hình 1.3: Dữ liệu đƣợc học theo phƣơng pháp Co-training 18 Hình 1.4: Phƣơng pháp Máy véc tơ hỗ trợ 19 Hình 1.5: Phƣơng pháp máy vecto hỗ trợ truyền dẫn .22 Hình 1.6: Minh họa đồ thị đƣợc gán nhãn 23 Hình 2.1: Phƣơng pháp dựa đồ thị .25 Hình 2.2: Đồ thị kết nối đầy đủ 27 Hình 2.3: Đồ thị rời rạc .27 Hình 2.4: Đồ thị -láng giềng gần 28 Hình 2.5: Đồ thị -láng giềng gần .28 Hình 2.6: Trọng số cạnh hai đỉnh đồ thị .29 Hình 2.7: Đồ thị với trọng số cạnh .32 Hình 3.1: Tệp liệu tin nhắn mẫu 45 Hình 3.2: Nội dung tin nhắn đƣợc chuyển thành dạng vector 46 Hình 3.3: Nội dung file liệu dạng vector 47 Hình 3.4: Trích chọn đặc trƣng 48 Hình 3.5: Trích chọn thuộc tính cho file đầu vào chƣơng trình 49 Hình 3.6: Dữ liệu chƣơng trình 49 Hình 3.7: Dữ liệu chƣơng trình mở Notepad 50 Hình 3.8: Giao diện chọn tệp liệu .51 Hình 3.9: Kết lựa chọn phƣơng pháp tự huấn luyện 52 Hình 3.10: Giao diện đồ thị lan truyền nhãn trƣớc thực 53 Hình 3.11: Giao diện đồ thị lan truyền nhãn sau thực .54 Hình 3.12: Kết đồ thị sau đƣợc gán nhãn dạng đồ thị 54 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c LỜI MỞ ĐẦU Học máy (Machine learning) ngành khoa học nghiên cứu kĩ thuật, phƣơng pháp cho phép máy tính có khả "học" giống nhƣ ngƣời Hay nói cách khác cụ thể hơn, học máy phƣơng pháp để tạo chƣơng trình máy tính việc phân tích tập liệu, qua máy tính có khả tích lũy đƣợc tri thức thông qua việc học đƣợc khái niệm để định trƣờng hợp tƣơng tự Lĩnh vực học máy truyền thống thƣờng đƣợc chia thành bốn lĩnh vực con, bao gồm: Học có giám sát (Supervised learning), Học khơng giám sát (Unsupervised learning), Học nửa giám sát (Semi-Supervised learning) Học tăng cƣờng (Reinforcement learning) Học nửa giám sát sử dụng liệu gán nhãn chƣa gán nhãn để huấn luyện - điển hình lƣợng nhỏ liệu có gán nhãn với lƣợng lớn liệu chƣa gán nhãn Học nửa giám sát đứng học khơng giám sát (khơng có liệu có nhãn nào) có giám sát (tồn liệu đƣợc gán nhãn) Để gán nhãn liệu cho tốn học máy thƣờng địi hỏi phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu đƣợc gán nhãn hồn tồn trở nên khơng khả thi, liệu khơng Trong tình đó, học nửa giám sát có giá trị thực tiễn lớn lao Chính vậy, học nửa giám sát kết hợp số lƣợng lớn liệu chƣa đƣợc gán nhãn với liệu đƣợc gán nhãn để xây dựng phân lớp tốt Một số phƣơng pháp điển hình lĩnh vực đƣợc kể đến nhƣ: Phƣơng pháp EM với mơ hình sinh hỗn hợp (EM with generative mixture models), phƣơng pháp Tự huấn luyện (Self-training), phƣơng pháp Đồng huấn luyện (Co-training), phƣơng pháp máy véc tơ hỗ trợ (Transductive support vector machines) phƣơng pháp Dựa đồ thị (Graph-based) Trong phƣơng pháp học nửa giám sát dựa đồ thị (Graph-based) hƣớng nghiên cứu mở đem lại hiệu lớn Với lý trên, tác giả chọn đề tài “ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c ” làm đề tài nghiên cứu luận văn tốt nghiệp thạc sĩ chuyên ngành Khoa học máy tính Nghiên cứu tổng quan học nửa giám sát số phƣơng pháp học nửa giám sát Nghiên cứu phƣơng pháp học nửa giám sát dựa đồ thị Cài đặt thử nghiệm thuật toán lan truyền nhãn đồ thị thuật toán tự huấn luyện Đối tượng nghiên cứu: Học nửa giám sát Phạm vi nghiên cứu: - Nghiên cứu tổng quan học có giám sát, học khơng giám sát học nửa giám sát - Các phƣơng pháp học nửa giám sát phổ biến - Phƣơng pháp học nửa giám sát dựa đồ thị (Graph-based) số thuật toán - Cài đặt thử nghiệm thuật toán lan truyền nhãn phƣơng pháp học nửa giám sát dựa đồ thị thuật toán tự huấn luyện Các luận điểm mà luận văn thể đƣợc: Nghiên cứu tổng quan đánh giá phƣơng pháp học nửa giám sát, tập trung vào phƣơng pháp học nửa giám sát dựa đồ thị Tập trung tìm hiểu số thuật toán lĩnh vực học nửa giám sát nhƣ: Phƣơng pháp EM với mơ hình sinh hỗn hợp, phƣơng pháp Tự huấn luyện, phƣơng pháp Đồng huấn luyện phƣơng pháp máy véc tơ hỗ trợ Đồng thời tập trung nghiên cứu chi tiết phƣơng pháp dựa đồ thị Cài đặt phần mềm thử nghiệm mô thuật toán lan truyền nhãn thuật toán tự huấn luyện, đánh giá độ phức tạp hai thuật tốn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c - Đọc tài liệu, phân tích, tổng hợp - Thống kê, phân tích liệu - Thực nghiệm đánh giá kết - Kết hợp nghiên cứu lý thuyết, tìm hiểu tình hình ứng dụng, đánh giá khả ứng dụng đề xuất giải pháp Nội dung luận văn gồm 03 chƣơng: Chƣơng 1: Tổng quan phƣơng pháp học máy Chƣơng trình bày tổng quan phƣơng pháp học máy gồm phƣơng pháp Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học nửa giám sát (Semi-Supervised learning) Chƣơng 2: Phƣơng pháp học nửa giám sát dựa đồ thị Tập trung tìm hiểu số thuật toán lĩnh vực học nửa giám sát nhƣ: Phƣơng pháp EM với mơ hình sinh hỗn hợp, phƣơng pháp Tự huấn luyện, phƣơng pháp Đồng huấn luyện phƣơng pháp máy véc tơ hỗ trợ Đồng thời tập trung nghiên cứu chi tiết phƣơng pháp dựa đồ thị Chƣơng 3: Cài đặt thử nghiệm thuật toán Cài đặt thử nghiệm thuật toán tự huấn luyện lan truyền nhãn dựa đồ thị Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP HỌC MÁY 1.1 Giới thiệu học máy Học máy (Machine Learning) ngành khoa học nghiên cứu thuật toán cho phép máy tính học đƣợc khái niệm (concept)[7] Có hai loại phƣơng pháp học máy chính: Phƣơng pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập đƣợc trƣớc Phƣơng pháp cho phép tận dụng đƣợc nguồn liệu nhiều sẵn có Phƣơng pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phƣơng pháp cho phép tận dụng đƣợc kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng đƣợc ƣu điểm hai phƣơng pháp Các ngành khoa học liên quan đến lĩnh vực học máy điển hình là: Lý thuyết thống kê: kết xác suất thống kê tiền đề cho nhiều phƣơng pháp học máy Đặc biệt, lý thuyết thống kê cho phép ƣớc lƣợng sai số phƣơng pháp học máy Các phƣơng pháp tính: thuật tốn học máy thƣờng sử dụng tính tốn số thực/số ngun liệu lớn Trong đó, tốn nhƣ: tối ƣu có/khơng ràng buộc, giải phƣơng trình tuyến tính v.v… đƣợc sử dụng phổ biến Khoa học máy tính: sở để thiết kế thuật toán, đồng thời đánh giá thời gian chạy, nhớ thuật toán học máy Lĩnh vực học máy truyền thống thƣờng đƣợc chia thành bốn lĩnh vực con: Học có giám sát: Máy tính đƣợc xem số mẫu gồm đầu vào đầu tƣơng ứng trƣớc Sau học xong mẫu này, máy tính quan sát đầu vào cho kết Học không giám sát: Máy tính đƣợc xem mẫu khơng có đầu ra, sau máy tính phải tự tìm cách phân loại mẫu mẫu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Hàm điều hịa đƣợc thể vài cách nhìn khác cách nhìn khác cung cấp tập hợp lý luận bổ sung kỹ thuật phong phú cho lĩnh vực học nửa giám sát 2.7 Đánh giá Hầu hết thuật toán học nửa giám sát dựa đồ thị dựa việc học lan truyền, nhƣợc điểm phƣơng pháp dễ dàng mở rộng thêm điểm liệu mà không thuộc tập L∪ U, điểm liệu đƣợc thêm vào đồ thị làm thay đổi cấu trúc đồ thị, dẫn tới chi phí tính tốn bị tăng lên Bên cạnh đó, lý có ảnh hƣởng tới chi phí tính tốn phụ thuộc vào loại đồ thị xây dựng, sử dụng đồ thị kết nối đầy đủ ta phải tính tốn cho tất cạnh nối hai đỉnh 2.8 Kết luận chƣơng Trong chƣơng này, tìm hiểu phƣơng pháp học nửa giám sát dựa đồ thị số thuật toán sử dụng để phục vụ trình học Nghiên cứu thuật tốn lan truyền nhãn để học từ liệu gán nhãn chƣa gán nhãn, nhãn đƣợc lan truyền đồ thị thông qua hàm trọng số đỉnh lân cận gán nhãn Đây thuật toán quan trọng với học máy đồ thị Chúng ta nghiên cứu cách xác định siêu tham số để phục vụ q trình lan truyền nhãn với thuật tốn Cây khung nhỏ Vì đồ thị đầu vào tất thuật toán nên cần xây dựng đồ thị cho phù hợp với u cầu tốn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TỐN 3.1 Mơ tả toán Với mục tiêu gán nhãn cho đỉnh đồ thị dựa sở đỉnh có tiến hành xây dựng chƣơng trình nhãn ứng dụng nhằm mơ q trình thực thuật tốn Chƣơng trình ứng dụng cài đặt hai thuật tốn học nửa giám sát theo hai phƣơng pháp phƣơng pháp tự huấn luyện với kết hợp liệu gán nhãn, chƣa gán nhãn phƣơng pháp dựa đồ thị để thực việc phân loại tin nhắn rác có tập tin nhắn thông thƣờng 3.2 Mô tả liệu đầu vào Dữ liệu đầu vào chƣơng trình đƣợc lấy ngẫu nhiên với 50 tin nhắn có tin nhắn rác liệu thử nghiệm SMS Spam corpus (nguồn http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) Mỗi dòng liệu chứa nội dung tin nhắn dƣới dạng text Kết thúc dòng dấu phân cách “phẩy”, sau dấu phẩy tin nhắn đƣợc phân loại thành ham-tin nhắn hợp lệ spam-tin nhắn rác Ví dụ nội dung liệu: Hình 3.1: Tệp liệu tin nhắn mẫu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Trƣớc tiến hành phân lớp liệu, cần phải xử lý để chuyển đổi liệu định dạng phù hợp Luận văn sử dụng phần mềm Weka (nguồn http://www.cs.waikato.ac.nz/ml/weka/) để thực thao tác tiền xử lý liệu Chi tiết bƣớc xử lý nhƣ sau: Bƣớc 1: Chuyển đổi liệu dạng chuỗi dạng vector: weka xây dựng từ điển từ khóa Sau chuyển đổi, liệu dùng để chuyển đổi bao gồm 148 ghi 100 thuộc tính Hình 3.2 rõ liệu sau đƣợc chuyển đổi Hình 3.2: Nội dung tin nhắn chuyển thành dạng vector Khi liệu dạng vector đƣợc mơ tả nhƣ hình sau Các thuộc tính từ nội dung tin nhắn, thuộc tính cột liệu Mỗi tin nhắn đƣợc thể hàng với số 0,1… thể số lần xuất thuộc tính (từ tiếng anh) nội dung tin nhắn nhƣ hình 3.3 Khi ta chỉnh sửa đƣợc nội dung file cần Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Hình 3.3: Nội dung file liệu dạng vector Bƣớc 2: Trích chọn đặc trƣng đƣợc trình bày chi tiết mục 3.3 Bƣớc 3: Thực gán số thứ tự cho đỉnh với đỉnh SMS đƣợc thể dòng liệu gán nhãn trƣớc cho số đỉnh số đỉnh chƣa gán nhãn Bằng cách thêm số nhãn 1,0 (thể nhãn) hay -1 (chƣa gán nhãn) trƣớc phần liệu tin nhắn Bƣớc đƣợc thực chƣơng trình nhằm chuẩn hóa liệu đầu vào cho phù hợp với liệu đầu vào thuật tốn 3.3 Trích chọn đặc trƣng Trích chọn đặc trƣng (Feature Selection, Feature Extraction) nhiệm vụ quan trọng giai đoạn tiền xử lý liệu triển khai mơ hình khai phá liệu máy học Một vấn đề gặp phải liệu dùng để xây dựng mơ hình liệu thƣờng chứa nhiều thông tin không cần thiết (thậm chí gây nhiễu) cho việc xây dựng mơ hình Chẳng hạn, liệu gồm hàng trăm thuộc tính dùng để mơ tả khách hàng doanh nghiệp đƣợc thu thập, nhiên xây dựng mơ Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c hình cần khoảng 50 thuộc tính từ hàng trăm thuộc tính Nếu ta sử dụng tất thuộc tính (hàng trăm) khách hàng để xây dựng mơ hình ta cần nhiều CPU, nhiều nhớ trình huấn luyện, chí thuộc tính khơng cần thiết làm giảm độ xác mơ hình gây khó khăn việc phát tri thức Có nhiều phƣơng pháp để trích chọn thuộc tính tốt để huấn luyện mà đảm bảo đƣợc yêu cầu, giúp q trình thực thi huấn luyện nhanh Trong trích chọn đặc trƣng văn bản, phƣơng pháp kể đến nhƣ Bag-of-words hay Chỉ số Gain,… luận văn sử dụng phƣơng pháp trích chọn dựa bag-of-words với kỹ thuật loại bỏ từ dừng “stop word” lấy từ gốc “stemming” Sau đặc trƣng phù hợp đƣợc chọn, phân lớp đƣợc đào tạo với tập liệu huấn luyện Quá trình huấn luyện thƣờng đƣợc lặp lặp lại nhiều lần để có đƣợc mơ hình tốt Hiệu mơ hình phân loại sau đƣợc đánh giá tập liệu kiểm tra chuẩn bị riêng Trong luận văn Wake đƣợc sử dụng để chọn đặc trƣng tốt cách sử dụng tính Attribute Selection với tùy chọn Best First để lọc bỏ tính khơng thực quan trọng từ giảm số thuộc tính cần xét giúp chƣơng trình thuật tốn thực đƣợc nhanh mà đảm bảo số tiêu chí dùng cho phân lớp nhƣ hình sau Hình 3.4: Trích chọn đặc trưng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Từ ta đƣợc file đầu vào cho toán tự huấn luyện lan truyền nhãn với 30 thuộc tính nhƣ hình 3.5 Dữ liệu đầu vào xem sửa cần thiết nhƣ hình 3.5 nhƣ sau: Hình 3.5: Trích chọn thuộc tính cho file đầu vào chương trình Hình 3.6: Dữ liệu chương trình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Dữ liệu đầu vào thuật toán tập ghi liệu chƣa đƣợc phân lớp Với ghi liệu chứa giá trị thuộc miền rời rạc Hình 3.7: Dữ liệu chương trình mở Notepad Cấu trúc liệu tệp đầu vào mơ tả lại nhƣ sau: Đầu tiên thông tin Wake Tiếp theo n dịng thơng tin thuộc tính có dạng @ thuộc tính với n số thuộc tính Mỗi dòng tƣơng ứng với giá trị đối tƣợng luận văn dịng thể liệu thuộc tính sms Các giá trị thuộc tính cách dấu “,” 3.4 Cài đặt thử nghiệm Môi trƣờng cài đặt thử nghiệm Chƣơng trình thử nghiệm đƣợc viết ngơn ngữ C#.Net Visual Studio 2010 sử dụng phiên Net Framework 4.0 Dữ liệu chƣơng trình đƣợc lƣu trữ hệ quản trị sở liệu Sql Server 2008 R2 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Các chức chƣơng trình Nhập liệu: Cho phép nhập liệu từ tệp text có cấu trúc nhƣ mơ tả mục 3.6 Trƣớc nhập liệu, ngƣời dùng chỉnh sửa phần mềm Wake Để nhập liệu, ngƣời dùng nhấn vào nút “Chọn ”, sau tìm đến tệp liệu lƣu trữ máy tính có dạng *.arff *.text Sau chọn tệp, liệu đƣợc lấy thông tin cần thiết thuộc tính thực lƣu vào sở liệu hiển thị lên tab “Chi tiết liệu” để phục vụ cho việc thực thuật tốn đƣợc dễ dàng Hình 3.8: Giao diện chọn tệp liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Tại giao diện này, cột wi thuộc tính thứ i thuộc tính trích chọn bên ngƣời dùng thực thao tác lựa chọn vào combobox “Chọn phƣơng pháp” Chƣơng trình cho phép lựa chọn phƣơng pháp tự huấn luyện phƣơng pháp lan truyền nhãn Sau lựa chọn, nhấn nút “Thực hiện” Với phƣơng pháp tự huấn luyện, kết hiển thị nhƣ sau: Hình 3.9: Kết lựa chọn phương pháp tự huấn luyện Các tin nhắn thuộc lớp sms spam 11 lại ham Với phƣơng pháp lan truyền nhãn, giao diện hiển thị thông tin ma trận nhãn, ma trận xác suất nhãn, ma trận trọng số cạnh ma trận xác suất Mỗi nút đồ thị SMS Ngoài tab “Đồ thị lan truyền nhãn”, hiển thị đồ thị nhãn với đỉnh hình trịn, đỉnh màu đỏ ứng với trƣờng hợp chƣa gán nhãn, đỉnh xanh ứng với nhãn đỉnh vàng ứng với nhãn đƣờng nối đỉnh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Trong hình 3.10 ta xem chi tiết ma trận đƣợc tính tốn q trình lan truyền nhãn nhƣ: ma trận trọng số cạnh W, ma trận xác suất chuyển đổi P, ma trận nhãn YL, ma trận xác suất chuyển nhãn f Hình 3.10: Giao diện đồ thị lan truyền nhãn trước thực Ở giao diện bảng “Nút i” thể SMS thứ i Để thực thuật toán lan truyền nhãn, ngƣời dùng nhấn vào nút “Thực hiện” tab “Phƣơng pháp lan truyền nhãn”, chƣơng trình trả kết đỉnh đƣợc gán nhãn Đồng thời hiển thị ma trận xác suất hội tụ ma trận xác xuất nhãn fu với tin nhắn spam Sau hệ thống thực xong việc lan truyền nhãn, ta xem kết dƣới dạng bảng ma trận xác suất nhạn hội tụ ma trận xác suất nhãn fu nhƣ dƣới dạng đồ thị nhƣ hình 3.11 Màn hình hiển thị thơng tin đỉnh nhãn chúng sau đƣợc lan truyền từ đỉnh gán nhãn khác Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Hình 3.11: Giao diện đồ thị lan truyền nhãn sau thực Sau thực thuật toán lan truyền nhãn, đỉnh đƣợc gán nhãn nên khơng cịn đỉnh màu đỏ (chƣa gán nhãn) nhƣ hình Tại giao diện này, ngƣời dùng nhấn vào nút “Lƣu kết quả” để lƣu lại liệu gán nhãn Kết xuất tệp text 3.5 Kết thực nghiệm đánh giá độ phức tạp 3.5.1 Kết thực nghiệm Hình 3.12: Kết đồ thị sau gán nhãn dạng đồ thị Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c Kết thực nghiệm thuật toán thu đƣợc 11 tin nhắn đƣợc phân lớp tin nhắn rác 39 tin nhắn tin nhắn phân lớp sai, tỷ lệ tin nhắn phân lớp đạt 94% 3.5.2 Đánh giá độ phức tạp thuật toán Với thuật toán tự huấn luyện Dữ liệu đầu vào bao gồm: ℓ: số lƣợng liệu gán nhãn u: số lƣợng liệu chƣa gán nhãn (u ≫ ℓ) n = ℓ + u =50 : tổng số lƣợng liệu Độ phức tạp thuật toán tự huấn luyện dựa việc đánh giá trình lặp bƣớc (xem 1.3.1): Thuật tốn thực số vịng lặp nhiều là: u vịng lặp Trong đó: Vịng lặp thứ có độ phức tạp: O (ℓ) Vịng lặp thứ hai có độ phức tạp là: O (ℓ + 1) Vịng lặp thứ u có độ phức tạp là: O (ℓ+u−1) Do thuật tốn có độ phức tạp là: O (ℓ) + O (ℓ +1) + + O (ℓ +u−1) = O(ℓ +u−1) (O (ℓ +u) − O (ℓ))/ = O(ℓ +u−1) O (u) / ≈ O(n2) ≈ O(502) Với thuật toán lan truyền nhãn Thuật toán lan truyền nhãn đƣợc thực dựa q trình tính tốn ma trận việc lặp lại để xác định hội tụ thuật toán Đầu vào thuật toán đồ thị, đó: ℓ: số đỉnh gán nhãn u: số đỉnh chƣa gán nhãn (u ≫ ℓ) n = ℓ + u =50: tổng số đỉnh đồ thị Thuật toán thực q trình tính tốn với độ phức tạp thành phần nhƣ sau: - Quá trình xác định ma trận trọng số W, ma trận xác suất P, ma trận xác suất chuyển nhãn PUU, ma trận xác suất PUL, ma trận nhãn YL, ma trận xác suất nhãn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c f, có độ phức tạp: O(n2) (1) - Quá trình xác định siêu tham số α dựa thuật tốn tìm khung nhỏ nhất, có độ phức tạp: O (n2×log n) (2) - Q trình lặp để thực việc lan truyền nhãn đƣợc thực m bƣớc lặp (m lớn), đó: việc xác định hội tụ thuật tốn dựa q trình tính tốn định thức ma trận, phép tốn nhân ma trận tìm ma trận nghịch đảo, có độ phức tạp: O(n3) Do đó, độ phức tạp q trình lặp là: O (m×n3) (3) Từ (1), (2) (3) suy độ phức tạp thuật toán la truyền nhãn là: O (m×503) 3.6 Kết luận Trong chƣơng này, tác giả cài đặt chƣơng trình thử nghiệm phƣơng pháp tự huấn luyện lan truyền nhãn dựa học nửa giám sát Với thuật toán tự huấn luyện, ứng dụng cho phép ngƣời dùng nhập liệu đầu vào, gán nhãn thơng qua q trình tự huấn luyện Với thuật tốn lan truyền nhãn đồ thị, chƣơng trình cho phép theo dõi kết q trình tính tốn thơng qua ma trận, đồng thời hiển thị kết cách trực quan lên giao diện Chƣơng trình dễ dàng phát triển với nhiều thuộc tính Trong chƣơng này, tác giả chƣơng trình thử nghiệm thuật toán phân lớp áp dụng vào toán phân loại tin nhắn rác Với phƣơng pháp trích chọn đặc trƣng nhƣ trình bày trên, giúp giảm nhiều thời gian thực phân lớp thuật tốn Đồng thời, luận văn trình bày chi tiết bƣớc tiền xử lý liệu cho phép khai thác thuật toán phân lớp hiệu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận : - Trình bày khái qt học có giám sát, học không giám sát học nửa giám sát - Giới thiệu số phƣơng pháp học nửa giám sát phổ biến nhƣ: Self-training, Co-training, TSVM đánh giá ƣu nhƣợc điểm phƣơng pháp - Trình bày phƣơng pháp học nửa giám sát dựa đồ thị số thuật toán nhƣ: Labeled Propagation, Mincut - Đã cài đặt chƣơng trình thử nghiệm thuật toán lan truyền nhãn đồ thị thuật tốn tự huấn luyện Hạn chế Về chƣơng trình ứng dụng: thời gian có hạn nên tơi chƣa có điều kiện xây dựng phần mềm ứng dụng hồn chỉnh, áp dụng thuật tốn vào lĩnh vực đời sống Hƣớng phát triển Với việc nghiên cứu học nửa giám sát phƣơng pháp học nửa giám sát dựa đồ thị, tiếp tục nghiên cứu sâu hƣớng tìm hiểu phƣơng pháp, thuật tốn học nửa giám sát khác để áp dụng lý thuyết nghiên cứu đƣợc nhằm xây dựng phần mềm áp dụng vào thực tiễn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] TS Nguyễn Tân Ân (2011), Bài giảng mạng noron nhân tạo, Trƣờng Đại học Sƣ phạm Hà Nội, Hà Nội [2] PGS TS Đồn Văn Ban, ThS Nguyễn Hiền Trinh (2009), Ngơn ngữ hình thức ơtơmát, NXB Đại học Thái Ngun [3] PGS TS Hà Quang Thụy (2011), Bài giảng nhập môn khai phá liệu, Trƣờng Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội Tài liệu tiếng Anh [4] Avirm Blum, Shuchi Chawla (2001), Learning from labeled and Unlabeled Data using Graph Mincuts, Computer Science Department, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA15213USA [5] Amarnag Subramanya (2012), Partha Pratim Talukdar, A Tutorial on Graph-based Semi-Supervised Learning Algorithms for NLP, South Korea [6] Matthias Seeger (2001), Learning with labeled and unlabeled data, Technical Report, University of Edinburgh [7] Olivier Chapelle, Bernhard Schăolkopf, Alexander Zien (2006), SemiSupervised Learning [8] Partha Pratim Talukdar (July 16, 2010), Experiments in Graph-based SemiSupervised Learning Methods for Class-Instance Acquisition, Search Labs, Microsoft Research Mountain View, CA 94043, Fernando Pereira Google, Inc.Mountain View, CA 94043 [9] Xiaojin Zhu (May 2005), Semi-Supervised Learning with Graphs [10] Zoubin Ghahramani (2012), Graph-based Semi-supervised Learning, Department of Engineering University of Cambridge, UK, La Palma Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn c ... cứu: Học nửa giám sát Phạm vi nghiên cứu: - Nghiên cứu tổng quan học có giám sát, học khơng giám sát học nửa giám sát - Các phƣơng pháp học nửa giám sát phổ biến - Phƣơng pháp học nửa giám sát dựa. .. hiểu chất học nửa giám sát, ta xem xét khái niệm học có giám sát, học khơng giám sát học tăng cƣờng 1.2 Các phƣơng pháp học máy 1.2.1 Học có giám sát Học có giám sát kỹ thuật ngành học máy nhằm... Một vấn đề quan trọng thuật toán học nửa giám sát dựa đồ thị phụ thuộc vào chất lƣợng đồ thị hay siêu tham số nó[6] Phƣơng pháp học nửa giám sát dựa đồ thị tạo đồ thị mà đỉnh tƣợng trƣng cho liệu