Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
1,18 MB
Nội dung
LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn: “Các Phương pháp học nửa giám sát ứng dụng” sản phẩm riêng cá nhân tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng 11 năm 2015 Học viên thực Nguyễn Việt Anh LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành tời PGS.TS Đoàn Văn Ban, hướng dẫn tận tình trình em thực luận văn Em gửi lời cảm ơn tới thầy cô, giáo sư đầu ngành khoa Công Nghệ Thông Tin thuộc Viện đại học Mở Hà Nội, giúp đỡ tận tình để em hồn thành khóa học thạc sĩ Khóa học mở rộng kiến thức, góc nhìn, phương pháp luận phương pháp nghiên cứu để từ đưa giải pháp, ứng dụng vào thực tiễn công việc, phát triển thân phát triển đơn vị cơng tác Cuối cùng, em xin cảm ơn tới gia đình, bạn bè, học viên lớp, đồng nghiệp động viên giúp đỡ em suốt thời gian hai năm qua Mặc dù cố gắng hồn thành luận văn cách tốt có thể, lực nhiều hạn chế thời gian công tác quan không cho phép nên khơng tránh khỏi thiếu sót Vậy em mong nhận đóng góp thầy bạn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT DANH SÁCH HÌNH VẼ GIỚI THIỆU Lý chọn đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Phạm vi đề tài CHƯƠNG PHƯƠNG PHÁP HỌC MÁY 10 1.1 Khái niệm học máy 10 1.2 Một số khái niệm học máy 11 1.2.1 Không gian biểu diễn liệu 11 1.2.2 Bản chất liệu 12 1.2.3 Tiền xử lý liệu 12 1.2.4 Q trình rời rạc hóa liệu 12 1.2.5 Tập mẫu 13 1.2.6 Q trình tìm kiếm khơng gian giả thuyết 13 1.3 Học có giám sát 13 1.3.1 Khái niệm 13 1.3.2 Cách giải tốn học có giám sát 14 1.4 Học khơng có giám sát 16 1.4.1 Khái niệm 16 1.4.2 Mơ hình tốn học 17 1.5 Học nửa giám sát 17 1.5.1 Khái niệm 17 1.5.2 Mơ hình tốn học 18 1.6 Kết chương 18 CHƯƠNG MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT 19 2.1 Mơ hình sinh tht toán kỳ vọng cực đại 19 2.1.1 Giới thiệu mơ hình sinh 19 2.1.2 Mơ hình sinh học nửa giám sát 19 2.1.3 Thuật toán kỳ vọng cực đại 21 2.1.4 Kết luận 23 2.2 Thuật toán tự huấn luyện 23 2.2.1 Giới thiệu thuật toán tự huấn luyện 23 2.2.2 Nội dung thuật toán 25 2.2.3 Đánh giá thuật toán 25 2.3 Thuật toán học học bán giám sát dựa đồ thị 26 2.3.1 Thuật toán lan truyền nhãn đồ thị 27 2.3.2 Thuật toán học nửa giám sát dựa đồ thị - Mincut 33 2.3.4 Đánh giá 35 2.4 Thuật toán S3VM 36 2.4.1 Thuật toán SVM 36 2.4.2 Giới thiệu thuật toán S3VM 41 2.4.3 Nội dung thuật toán S3MV 42 2.4.4 Kết luận S3VM 44 2.5 Tổng kết chương 45 CHƯƠNG ỨNG DỤNG SVM VÀ PHƯƠNG PHÁP ỨNG DỤNG BÁN GIÁM SÁT SVM VÀO BÀI TOÁN PHÂN LỚP 46 3.1 Huấn luyện SVM 46 3.2 Các ưu SVM phân lớp văn 47 3.3 Bán giám sát SVM phân lớp trang Web 49 3.3.1 Giới thiệu toán phân lớp trang Web (Web Classification) 49 3.3.2 Áp dụng S3VM vào phân lớp trang Web 49 CHƯƠNG 4.ỨNG DỤNG HỌC BÁN GIÁM SÁT PHÂN LỚP 51 4.1 Giới thiệu phần mềm SVMlin 51 4.2 Download SVMlin 52 4.3 Cài đặt 52 4.4 Sử dụng phần mềm kết đánh giá 52 4.5 Áp dụng phân loại văn 54 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 58 Danh mục tài liệu tiếng Việt 58 Danh mục tài liệu tiếng Anh 58 BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT Từ Tiếng Anh Tiếng Việt S3VM Semi – Superviesd Suport Vector Thuật toán huấn luyện nửa giám sát Machines SVM Superviesd Vector Machines Thuật tốn huấn luyện có giám sát EM Expectation Maximization Kì vọng cực đại DNA Axit đêoxiribonucleic Bộ mã gen sinh vật DANH SÁCH HÌNH VẼ Hình II.1 Dữ liệu gán nhãn 20 Hình II.2.Dữ liệu gán nhãn không gán nhãn 20 Hình II.3 Quá trình huấn luyện 24 Hình II.4 Minh họa phương pháp Graph-based 26 Hình II.5 Thể việc gán nhãn thơng qua hàm tính độ tương tự đỉnh 27 Hình II.6 Phân loại SVM 36 Hình III.7 Biểu mẫu SVM .Error! Bookmark not defined GIỚI THIỆU Lý chọn đề tài Hai kỹ người sáng tạo nghệ thuật định hai kỹ khó tự động hóa mục tiêu hướng đến nhà khoa học Dưới góc nhìn người làm khoa học làm công nghệ thông tin muốn máy móc có khả thu thập tri thức, học tập đưa định trí đưa phương pháp, cách học cho máy móc khác Hiện nay,các hệ chuyên gia hỗ trợ người việc định, song hệ chuyên gia số mặt hạn chế như.Q trình tích lũy tri thức phức tạp, chi phí phát triển hệ chuyên gia cao, hệ chun gia khơng có khả tự học, khả tự thích nghi mơi trường thay đổi Số lượng chuyên gia khan người xử lý khối lượng lớn liệu khổng lồ từ xa lộ thông tin ( đủ để định cho tất tiến trình, giao dịch hang ngày spam mail, giả mạo, …) Ngồi việc thơng tin, liệu đời sống người liệu dạng số máy móc xử lý nên việc máy móc tự động hiểu, tự động học từ liệu thu thập để thực thi nhiệm vụ đánh giá hướng phát triển tăng tính hiệu Phương pháp học máy móng viên gạch cho trí tuệ nhân tạo, với khả nhận thức tiệm cận với loài người với khối lượng xử lý thông tin cực lớn máy móc Với thành cơng số chương trình học máy chứng minh tồn tập hợp quy tắc học tổng qt, cho phép xây dựng chương trình có khả tự học nhiều lĩnh vực khác như: máy truy tìm liệu, chẩn đốn y khoa, phát giả mạo, phân tích tài chứng khốn, sinh học, nhận dạng chữ viết, tiếng nói, … Các phương pháp học máy gồm: học có giám sát, học không giám sát, học tăng cường, chuyển đổi, học cách học, học điện tốn …Trong em quan tâm đến phương pháp học nửa giám sát với khả ứng dụng cao, phù hợp với khả điều kiện thực tế Học nửa giám sát lớp kỹ thuật học máy, sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Học nửa giám sát đứng học không giám sát (khơng có liệu có nhãn nào) có giám sát (tồn liệu gán nhãn) Các nhà nghiên cứu nhận thấy liệu không gán nhãn, sử dụng kết hợp với chút liệu có gán nhãn, cải thiện đáng kể độ xác Để gán nhãn liệu cho tốn học máy thường địi hỏi chuyên viên có kĩ để phân loại tay ví dụ huấn luyện Chi phí cho quy trình khiến tập liệu gán nhãn hoàn toàn trở nên tốn kém, liệu khơng gán nhãn thường tương đối rẻ tiền Trong tình đó, học nửa giám sát khắc phục nhược điểm Với lý trên, em chọn đề tài “Các phương pháp học nửa giám sát ứng dụng” làm đề tài nghiên luận văn tốt nghiệp thạc sĩ chuyên ngành Công Nghệ Thơng Tin 2.Mục đích nghiên cứu - Nghiên cứu lý thuyết học máy (machine learning): học khơng giám sát, học có giám sát, học nửa giám sát - Nghiên cứu số thuật toán học nửa giám sát - Rút kết luận khả ứng dụng phương pháp học nửa giám sát Đối tượng phạm vi nghiên cứu - Các kiến thức vê học máy - Một số thuật toán học nửa giám sát ứng dụng thực tế - Ứng dụng phân loại trang web Phương pháp nghiên cứu - Nghiên cứu tổng hợp tài liệu, phương pháp học máy: học giám sát, học không giám sát, học nửa giám sát - Nghiên cứu giải thuật học nửa giám sát ứng dụng Phạm vi đề tài - Thuật toán kỳ vọng cực đại (Expectation-Maximization) - Thuật toán tự huấn luyện (Self – training) - Thuật toán S3VM - Cài đặt thử nghiệm chương trình ứng dụng để phân loại website lớn Nên cung gặp phải đề giải thuật SVM bùng nổ tổ hợp, độ phức tạp cao, giải quyêt toán tối ưu khó, … 2.5 Tổng kết chương Trong chương hai tìm hiểu ba thuật tốn học nửa giám sát, thuật toán phổ biến áp dụng học nửa giám sát Qua ta năm bắt kỹ thuật chủ yếu học nửa giám sát, làm sở cho việc giải toán học máy mà liệu huấn luyện kết hợp liệu có gán nhãn liệu khơng gán nhãn 45 CHƯƠNG ỨNG DỤNG SVM VÀ PHƯƠNG PHÁP ỨNG DỤNG BÁN GIÁM SÁT SVM VÀO BÀI TOÁN PHÂN LỚP Trong lĩnh vực khai phá liệu, phương pháp phân lớp văn dựa phương pháp định định Bayes, định, k-người láng giềng gần nhất, … Những phương pháp cho kết chấp nhận sử dụng nhiều thực tế Trong năm gần đây, phương pháp phân lớp sử dụng tập phân lớp vector hỗ trợ (máy vector hỗ trợ - Support Vector Machine – SVM) quan tâm sử dụng nhiều lĩnh vực nhận dạng phân lớp SVM họ phương pháp dựa sở hàm nhân (kernel) để tối thiểu hoá rủi ro ước lượng Phương pháp SVM đời từ lý thuyết học thống kê Vapnik Chervonenkis xây dựng cónhiều tiềm phát triển mặt lý thuyết nhưứng dụng thực tiễn Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả phân lớp tốt toán phân lớp văn nhiều ứng dụng khác (như nhận dạng chữ viết tay, phát hiên mặt người ảnh, ước lượng hồi quy,…) Xét với phương pháp phân lớp khác, khả phân lớp SVM tương đối tốt hiệu 3.1 Huấn luyện SVM Huấn luyện SVM việc giải tốn quy hoạch tồn phương SVM Các phươngpháp số giải toán quy hoạch u cầu phải lưu trữ ma trận có kích thước bằngbình phương số lượng mẫu huấn luyện Trong tốn thực tế, điều làkhơng khả thi thơng thường kích thước tập liệu huấn luyện thường lớn (cóthể lên tới hàng chục nghìn mẫu) Nhiều thuật toán khác phát triển để giảiquyết vấn đề nêu Những thuật toán dựa việc phân rã tập liệu huấn luyệnthành nhóm liệu Điều có nghĩa tốn quy hoạch tồn phương với kíchthước nhỏ Sau đó, thuật toán 46 kiểm tra điều kiện KKT (Karush-Kuhn-Tucker) để xác định phương án tối ưu Một số thuật tốn huấn luyện dựa vào tính chất: Nếu tập liệu huấn luyệncủa toán quy hoạch tồn phương cần giải bước có mẫu vi phạmcác điều kiện KKT, sau giải toán náy, hàm mục tiêu tăng Như vậy, mộtchuỗi tốn quy hoạch tồn phương với mẫu vi phạm điều kiệnKKT đảm bảo hội tụđến phương án tối ưu Do đó, ta trì tập dữliệu làm việc đủ lớn có kích thước cốđịnh bước huấn luyện, ta loại bỏ thêmvào số lượng mẫu 3.2 Các ưu SVM phân lớp văn Nhưđã biết, phân lớp văn tiến trình đưa văn chưa biết chủđềvào lớp văn biết (tương ứng với chủđề hay lĩnh vực khác nhau) Mỗi lĩnhvực xác định số tài liệu mẫu lĩnh vực Để thực q trình phânlớp, phương pháp huấn luyện sử dụng để xây dựng tập phân lớp từ tài liệumẫu, sau dùng tập phân lớp để dựđoán lớp tài liệu (chưa biết chủđề) Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuậttốn phân lớp đa lớp có đặc điểm chung yêu cầu văn phải biểu diễn dướidạng vector đặc trưng, nhiên thuật toán khác phải sử dụng uớc lượngtham số ngưỡng tối ưu thuật tốn SVM tự tìm tham số tối ưunày Trong phương pháp SVM phương pháp sử dụng không gian vector đặctrưng lớn (hơn 10.000 chiều) phương pháp khác có số chiều bé hơnnhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) Trong cơng trình năm 1999 [12], Joachims so sánh SVM với NaïveBayesian, k-Nearest Neighbour, Rocchio, C4.5 đến năm 2003 [13], Joachims đãchứng minh SVM làm việc tốt với đặc tính đề 47 cậptrước củavăn Các kết cho thấy SVM đưa độ xác phân lớp tốt sosánh với phương pháp khác Theo Xiaojin Zhu [15] cơng trình nghiên cứu nhiều tác giả(chẳng hạn Kiritchenko Matwin vào năm 2001, Hwanjo Yu Han vào năm2003, Lewis vào năm 2004) thuật toán SVM đem lại kết tốt phânlớp văn Kiritchenko Matwin nghiên cứu so sánh phương pháp SVM với kỹ thuậtNạve Bayesian, sau đóđã chứng minh SVM phương pháp tốt cho phânlớp thưđiện tử phân lớp văn Hwanjo Yu Han cho thấy SVM hoàn toàn tiến hành tốt so vớicác phương pháp phân lớp văn khác Tất tài liệu nghiên cứu cho thấyrằng SVM đưa kết xác khía cạnh phân lớp văn Lewis nghiên cứu phân lớp văn khám phá kết SVMlà tốt Lewis đãđưa tập hợp nhỏ tài liệu phân lớp văn Tác giảđã cốgắng cải tiến phương pháp RCV1 cho phân lớp văn sử dụng phương pháp mớiđược ứng dụng cho số kỹ thuật phân lớp văn khác SVM đãđưa kết quảtốt đặt dựa vào k-người láng giềng gần kỹ thuật tập phân lớp Rocchio-Style Prototype Những phân tích tác giả cho thấy SVM có nhiều điểm phù hợpcho việc ứng dụng phân lớp văn Và thực tế, thí nghiệm phân lớp văn bảntiếng Anh SVM đạt độ xác phân lớp cao tỏ xuất sắc so với cácphương pháp phân lớp văn khác Vấn đề học bán giám sát tận dụng liệu chưa gánnhãn để cải tiến hiệu độ xác phân lớp, điều đưa để sosánh với tập phân lớp thiết kề mà khơng tính đến liệu chưa gán nhãn Trong phần sau chương này, khóa luận giới thiệu phương thức cải tiếncủa SVM bán giám sát SVM (semi-supervised support vector machine– S3VM) [16,17] Bán giám sát SVM đưa nhằm nâng SVM lên mức cao hơn, khiSVM thuật tốn học có giám sát, sử dụng liệu gán nhãn 48 bán giám sátSVM sử dụng liệu gán nhãn (tập huấn luyện – training set) kết hợp với liệu chưagán nhãn (working set) 3.3 Bán giám sát SVM phân lớp trang Web 3.3.1 Giới thiệu toán phân lớp trang Web (Web Classification) Phân lớp trang Web trường hợp đặc biệt phân lớp văn hiệndiện siêu liên kết trang Web, cấu trúc trang Web chặt chẽ, đầy đủ hơn, dẫnđến tính hỗn hợp plain texts, thẻ hypertext, hyperlinks… Internet với 10 tỷ trang Web tập huấnluyện phong phú chủđề sống, với số lượng chủđề Website khơng nhiều việcsử dụng Internet sở huấn luyện phù hợp Trong trang Web, độ chínhxác khơng phải tuyệt đối, ta thấy chủđề gồm có nhiều từ chunmơn với tần suất xuất cao, việc tận dụng tần số phụ thuộc từ vào chủđề có thểđem lại kết khả quan cho phân lớp 3.3.2 Áp dụng S3VM vào phân lớp trang Web Có thể thấy trang Web siêu văn (hypertext) phổ dụng Nội dungcủa trang Web thường mơ tả ngắn gọn, súc tích, có siêu liên kết chỉđến cácWeb có nội dung liên quan cho phép trang khác liên kết đến Nhưđã nói trên, vìđược xem văn thơng thường nên trìnhphân lớp trang Web việc biểu diễn văn sử dụng mơ hình khơng gian vector Việcbiểu diễn xử lý tài liệu Web giống biểu diễn xử lý văn mô hìnhnày Tuy nhiên phân lớp Web việc khai thác mạnh siêu liên kết trongvăn vấn đềđáng quan tâm Với việc sử dụng siêu liên kết trangWeb từđó lấy thông tin mối liên hệ nội dung trang, dựavào đóđể nâng cao hiệu phân lớp tìm kiếm 49 Đểáp dụng vào phân lớp trang Web, thuật toán S3VM xem trang Web mộtvector biểu diễn giống văn Áp dụng cơng thức trongphương trình siêu phẳng: f(x1, x2,…, xn) = C +Σ wi xi thay văn tương ứng với trang Web vào phương trình siêu phẳng này: f(d1, d2,…,dn) = C +Σ wi di (3.6) Với i=1,…,n Nếu f(d) ≥ trang Web thuộc lớp +1 Ngược lại f(d) < trang Web thuộc lớp –1 Có thể thấy q trình áp dụng thuật toán S3VM vào toán phân lớp trangWeb việc thay vector trọng số biểu diễn trang Web vào phương trình siêuphẳng S3VM, từđó tìm nhãn lớp trang Web chưa gán nhãn Như vậy, thực chất trình phân lớp bán giám sát áp dụng liệu làcác trang Web tập liệu huấn luyện trang Web tập working set (dữ liệuchưa gán nhãn) trang Web đượccác trang Web có nhãn tập huấn luyệntrỏ tới 50 CHƯƠNG4.ỨNG DỤNG HỌC BÁN GIÁM SÁT PHÂNLỚP Khóa luận định hướng khai thác phần mềm nguồn mởđể tiến hành thử nghiệmphân lớp bán giám sát tài liệu web Phần đầu chương giới thiệu phần mềm nguồnmở SVMlin có tiêu đề "Fast Linear SVM Solvers for Supervised and SemisupervisedLearning" Vikas Sindhwani cơng bố Các phần khóa luận giớithiệu trình khai thác phần mềm nhằm thực toán phân lớp đánh giá Nộidung chương tổng hợp từ nội dung trình bày [19,20,21] Phần mềm SVMlin thuộc diện phần mềm nguồn mở, công bố theo tiêuchuẩn giấy phép sử dụng phần mềm GNU 4.1.Giới thiệu phần mềm SVMlin SVMlin gói phần mềm dành cho SVMs tuyến tính, thoả mãn tốn phânlớp số lớn mẫu liệu đặc trưng Là chương trình phần mềm viếttrên ngôn ngữ C++ (hầu hết viết C) Ngoài tập liệu đãđược gán nhãn, SVMlin cịn tận dụng tập liệu chưađược gán nhãn trình học Tập liệu chưa gán nhãn thực sử hữu íchtrong việc nâng cao độ xác q trình phân lớp mà số lượng liệu đượcgán nhãn từ trước Hiện SVMlin thực cài đặt thuật tốn [19, 20]sau: • Thuật tốn học có giám sát (chỉ sử dụng liệu gán nhãn) • Thuật tốn phân lớp bình phương tối thiểu đãđược chuẩn hóa tuyến tính (Linear Regularized Least Squares Classification) • Bán giám sát (có thể sử dụng liệu chưa gán nhãn tương đối tốt) • Thuật tốn học tuyến tính SVM truyền dẫn sử dụng nhiều lần chuyểnđổi (Multi-switch linear Transductive L2-SVMs) Theo Vikas Sindhwani, dùng SVMlin phân loại văn (tập liệu RCV1-v2/LYRL2004) với 804414 liệu gán nhãn 47326 đặc trưng, SVMlin 51 haiphút để huấn luyện SVM tuyến tính máy Intel với tốc độ xử lý 3GHz 2GBRAM Nếu cho 1000 nhãn, sử dụng hàng trăm ngàn liệu chưa gán nhãnđể huấn luyện SVM tuyến tính bán giám sát vòng khoảng 20 phút Dữ liệuchưa gán nhãn hữu ích việc cải thiện q trình phân lớp số lượng nhãn lớpkhông lớn 4.2 Download SVMlin Người dùng tải phiên SVMlin trang Web: http://www.cs.uchicago.edu/people/vikass http://vikas.sindhwani.org/svmlin.html 4.3 Cài đặt Trước tiên, cần giải nén file cài đặt lệnh sau: unzip svmlin.zip tar –xvzf svmlin.tar.gz Sau tạo thư mục có tên svmlin-v1.0 chứa Makefile filenguồn ssl.h, ssl.cpp svmlin.cpp Gõ lệnh: make Sẽ tạo file thực thi svmlin Quá trình thực thi sử dụng để huấn luyện, kiểm tra đánh giá trìnhthực 4.4 Sử dụng phần mềm kết đánh giá * Các file liệu Định dạng liệu đầu vào cho SVMlin tương tự nhưđịnh dạng công cụSVM-Light/LIBSVM (Điểm khác biệt khơng có cột mô tả nhãn củacác liệu) 52 Mỗi dịng mơ tả mẫu liệu danh sách cặp gồm số đặctrưng : giá trị đặc trưng cho đặc trưng có giá trị khác không, phân cách nhaubởi ký tự trống Mỗi hàng kết thúc ký tự‘\n’ :: : Cho ví dụ, ma trận liệu với liệu đặc trưng sau: 03001 41000 65920 60053 Được mô tả file đầu vào là: 2:3 5:1 1:4 2:1 2:5 3:9 4:2 1:6 4:5 5:3 Nhãn liệu huấn luyện chứa file riêng biệt, gọi file môtả nhãn liệu Mỗi dòng file chứa nhãn cho liệu dịng tương ứng file mơtả liệu Nhãn liệu nhận giá trị sau: +1 (dữ liệu gán nhãn thuộc lớp dương) -1 (dữ liệu gán nhãn thuộc lớp âm) (các liệu chưa gán nhãn) Phiên cơng cụ SVMlin có thểáp dụng cho tốn phânlớp nhị phân • Q trình huấn luyện Gõ lệnh: svmlin [options] training_examples training_labels Trong đó: training_examples.weights.File chứa liệu huấn luyện training_examples.outputs File chứa kết mô hình phân lớp • Kiểm tra (testing) Gõ lệnh: 53 svmlin -f training_examples.weights test_examples_filename Trong đó: training_examples.weights: File chứa kết mơ hình phân lớp test_examples_filename: File chứa liệu kiểm tra • Đánh giá Nếu nhãn liệu kiểm thửđãđược biết trước, sử dụng lệnh sau đểtính ma trận thực thi q trình phân lớp: svmlin -f weights_filename test_examples_filenametest_labels_filename • Dữ liệu huấn luyện Dữ liệu huấn luyện sử dụng bao gồm 1460 tài liệu (trong có 50 tài liệuđược gán nhãn) lấy từ liệu chuẩn 20-newsgroups • Kết phân lớp Với liệu huấn luyện đây, SVMlin đạt độ xác 92.8% lựa chọnchức multi-switch TSVM đạt độ xác 95.5% lựa chọn chức năngsemi-supervised SVM Điều khẳng định tính hiệu học bán giám sát SVM 4.5 Áp dụng phân loại văn Mô tả vector đặc trưng văn bản: Là vector có số chiều số đặc trưng toàn tập liệu, đặc trưng ghép thành đôi khác Nếu văn có chứa đặc trưng có giá trị 1, ngược lại Việc cài đặt SVM phức tạp ta nên dùng thư viện cài săn mạng LibSVM, SVMLight Thuật toán gồm giai đoạn huấn luyện phân lớp: Huấn luyện: Đầu vào: Các vector đặc trưng văn tập huấn luyện (Ma trận MxN, với M số vector đặc trưng tập huấn luyện, N số đặc trưng vector) Tập nhãn/lớp cho vector đặc trưng tập huấn luyện 54 Các tham số cho mơ hình SVM: C, (tham số hàm kernel, thường dùng hàm Gauss) Đầu ra: Mơ hình SVM (Các Support Vector, nhân tử Lagrange a, tham số b) Phân lớp: Đầu vào: Vector đặc trưng văn cần phân lớp Mơ hình SVM Đầu ra: Nhãn/lớp văn cần phân loại 55 KẾT LUẬN Những kết đạt luận văn: Trong trình nghiên cứu thực hiện, luận văn đạt điếm sau: - Giới thiệu số khái niệm lĩnh vực học máy, học có giám sát, học khơng giám sát học nửa giám sát - Trình bày số thuật toán học nửa giám sát thuật thoán EM (kỳ vọng cực đại), đặc biệt thuật toán S3VM (Semi – superviesd Suport vector machines) - Giới thiệu số kỹ thuật phân lớp liệu việc sử dụng học có giám sát, học nửa giám sát ứng dụng toán phân lớpđặc biệt tốn phân loại web site - Mơ qt hóa q trình xử lý thuật tốn học có giám sát SVM, học nửa giám sát S3VM ứng dụng để phân loại web site - Bài toán phân lớp trang Web áp dụng thuật toán bán giám sát SVM nêu lênrất cụ thể Trong phần thực nghiệm giới thiệu phần mềm mã nguồn mở có tên làSVMlin, cách sử dụng phần mềm kết chạy phần mềm V Sindhwani tiến hànhtrong năm 2007 Em tải phần mềm nghiên cứu khảo sát song hạn chế thờigian trình độ nên chưa làmchủ thực phần mềm Hướng phát triển tương lai: Với kết đạt được, tác giả đề xuất số công việc thời gian tới sau: Nhưđã trình bày trên, hạn chế thời gian kiến thức nên khố luận chưa thể tìm hiểu sâu, đặc biệt tiến hành thực phần mềm SVMlin khảo sát Vì thời gian tới em tìm hiểu kỹ phần mềm để chủđộng nẵm vững việc thực phần mềm, đặc biệt thuật toán học bán giám sát tảng lý thuyết phần mềm [19,20] Tiếp tục nghiên cứu cài đặt thêm số thuật toán khác học nửa giám sát như: Thuật toán tự huấn luyện, thuật toán cực đại kỳ vọng, … 56 Tiếp tục nghiên cứu để ứng dụng thuật toán học nửa giám sát sang số lĩnh vức khác như: Bài tốn phân loại protein, tốn nhận dạng hình ảnh, … 57 TÀI LIỆU THAM KHẢO Danh mục tài liệu tiếng Việt B.Bouchon – Meunier, Hồ Thuần, Đặng Thanh Hà, Logic mờ ứng dụng, NXB Đại học Quốc Gia Hà Nội, [2007] Lê Hữu Đạt, Lê Phương Lan, Hồng Đức Hải, Lập trình Windows, NXB giáo dục, [2000] PGS TS Đoàn Văn Ban, ThS Nguyễn Hiền Trinh, Ngơn ngữ hình thức ơtơmát, NXB Đại học Thái Nguyên, [2009] PGS TS Hà Quang Thụy, Bài giảng nhập môn khai phá liệu, Trường Đại học Công nghệ Đại học Quốc gia Hà Nội, Hà Nội, [2001] TS Nguyễn Tân Ân, Bài giảng mạng noron nhân tạo, Trường Đại học Sư phạm Hà Nội, Hà Nội, [2011] Nguyễn Thị Hải Yến, Phân lớp bán giám sát ứng dụng thuật toán SVM vào phân lớp trang WEB, Đại học Quốc gia Hà Nội, [2007] Danh mục tài liệu tiếng Anh Alex Smola, S.V.N Vishwanathan, Introduction to Machine Learning, Departments of Statistics and Computer Science Purdue University, College of Engineering and Computer ScienceAustralian National University, [2008] Alexander Zien, Semi-Supervised Support Vector Machines and Application to Spam Filtering, Empirical Inference Department, Bernhard Scholkopf, Max Planck Institute for Biological Cybernetics, [2006] István Pilászy, Text Categorization and Support Vector Machines, Department of Measurement and Information SystemsBudapest University of Technology and Economics, [2005] 10 Vikas Sindhwani, Newton Methods for Fast Solution of Semi-supervised Linear SVMs, Department of Computer Science, University of Chicago, Chicago, IL 60637,USA, [2006] 58 11 V Sindhwani, S.S Keerthi, Newton Methods for Fast Solution of Linear SVMs Large Scale Kernel Machines, MIT Press, 2005Mellon University, CMU-LTI-05-192, [2007] 12 13 http://people.cs.uchicago.edu/~vikass/svmlin.html MacKay D J C Information Theory, Inference, and Learning Algorithms, Uni Cambridge, [2003] 59