Luận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụng

77 3 0
Luận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụngLuận văn thạc sĩ: Phương pháp học nửa giám sát và ứng dụng

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ———————————— TRẦN ANH TUẤN PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀ ỨNG DỤNG Chuyên nghành: Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN Thái nguyên – Năm 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ -i- MỤC LỤC MỤC LỤC i DANH MỤC CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC HÌNH v MỞ ĐẦU CHƢƠNG 1: PHƢƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy 1.2 Một số khái niệm học máy 1.2.1 Không gian biểu diễn liệu 1.2.2 Bản chất liệu 1.2.3 Tiền xử lý liệu 1.2.4 Q trình rời rạc hóa liệu 1.2.5 Tập mẫu 1.2.6 Quá trình tìm kiếm không gian giả thuyết 1.3 Học có giám sát 1.3.1 Khái niệm 1.3.2 Cách giải toán học có giám sát 1.3.3 Cực tiểu hóa rủi ro kinh nghiệm 10 1.4 Học khơng có giám sát 11 1.4.1 Khái niệm 11 1.4.2 Phân cụm liệu 12 1.5 Học tăng cƣờng 14 1.6 Học nửa giám sát 16 1.6.1 Khái niệm 16 - ii - 1.6.2 Bài toán học nửa giám sát 19 1.7 Tổng kết chƣơng 21 CHƢƠNG 2: MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 22 2.1 Một số thuật toán học nửa giám sát 22 2.1.1 Mơ hình sinh thuật toán kỳ vọng cực đại 22 2.1.1.1 Giới thiệu mơ hình sinh 22 2.1.1.2 Mơ hình sinh học nửa giám sát 22 2.1.1.3 Thuật toán kỳ vọng cực đại 24 2.1.2 Thuật toán tự huấn luyện 25 2.1.2.1 Giới thiệu thuật toán tự huấn luyện 25 2.1.2.2 Nội dung thuật toán 26 2.1.3 Thuật toán đồng huấn luyện 27 2.1.3.1 Giới thiệu thuật toán đồng huấn luyện 27 2.1.3.2 Nội dung thuật toán 28 2.1.4 Thuật toán máy véc tơ hỗ trợ (S3VM) 29 2.4.1.1 Thuật toán SVM 29 2.1.4.2 Giới thiệu thuật toán S3VM 34 2.1.4.3 Nội dung thuật toán S3VM 34 2.2 Phân cụm liệu 36 2.2.1 Khái quát trình phân cụm liệu 36 2.2.2 Bài toán phân cụm liệu 36 2.2.3 Các yêu cầu phân cụm liệu 39 2.2.4 Các kỹ thuật phân cụm 41 - iii - 2.2.5 Một số thuật toán phân cụm liệu nửa giám sát 46 2.2.5.1 Thuật toán COP-Kmeans 46 2.2.5.2 Phân cụm nửa giám sát tập liệu đƣợc gán nhãn 47 2.2.5.3 Thuật toán K-Means phân cấp 49 2.3 Tổng kết chƣơng 50 CHƢƠNG 3: ỨNG DỤNG HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN CỤM VĂN BẢN 51 3.1 Phân tích tốn 51 3.2 Hƣớng giải toán 53 3.3 Giải pháp, công nghệ sử dụng 57 3.4 Cài đặt chƣơng trình thử nghiệm 58 3.4.1 Nội dung chƣơng trình 58 3.4.2 Kết thực nghiệm 63 3.4.3 Thực phân cụm thử nghiệm 64 3.5 Kết luận chƣơng 67 KẾT LUẬN 68 TÀI LIỆU THAM KHẢO 70 - iv - DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machine S3VM Semi – superviesd Suport vector machines EM Expectation-Maximization MaxEnt Maximum Entropy TSVM Transductive Support Vector Machine RSS Residual Sum of Squares -v- DANH MỤC CÁC HÌNH Hình 1.1: Mơ hình học có giám sát Hình 1.2: Minh họa phân cụm liệu 13 Hình 1.3: Sơ đồ trình thực học nửa giám sát 17 Hình 1.4: Mơ hình học nửa giám sát 19 Hình 1.5: Dữ liệu chƣa gán nhãn sử dụng trình học nửa giám sát 20 Hình 1.6: Mơ hình hóa tập liệu học nửa giám sát 21 Hình 2.1 Dữ liệu có nhãn 23 Hình 2.2 Dữ liệu có nhãn chƣa có nhãn 23 Hình 2.3 Quá trình tự huấn luyện 26 Hình 2.4 Phân lớp SVM 29 Hình 2.5: Phân cụm vector truy vấn 37 Hình 2.6: Hình thành cụm cha 38 Hình 2.7: Các chiến lƣợc phân cụm phân cấp 42 Hình 2.8: Thuật toán K-Means phân cấp 50 Hình 3.1 Thuật tốn phân cụm văn 57 Hình 3.2: Giao diện chƣơng trình 63 Hình 3.3: Thử nghiệm nhập văn để phân cụm 65 Hình 3.4: Thử nghiệm chèn văn vào danh sách chờ phân cụm 66 Hình 3.5: Kết phân cụm thử nghiệm 66 -1- MỞ ĐẦU Đặt vấn đề Hoạt động học tập hoạt động chuyên hƣớng vào tái tạo lại tri thức ngƣời học Sự tái tạo hiểu theo nghĩa phát lại Sự thuận lợi cho ngƣời học đƣờng mà để phát lại đƣợc nhà khoa học tìm hiểu trƣớc, ngƣời học việc tái tạo lại Và để tái tạo lại, ngƣời học khơng có cách khác phải huy động nội lực thân (động cơ, ý chí, …), phát huy cao việc tái tạo lại diễn tốt nhiêu Do hoạt động học làm thay đổi ngƣời học Ai học ngƣời phát triển, không học thay đƣợc, ngƣời học cần phải có trách nhiệm với thân mình, trình học Mặc dù hoạt động học làm thay đổi khách thể Nhƣng nhƣ khơng phải mục đích tự thân hoạt động học mà phƣơng tiện để đạt đƣợc mục đích làm thay đổi chủ thể hoạt động Hoạt động học hoạt động tiếp thu tri thức lý luận, khoa học Nghĩa việc học không dừng lại việc nắm bắt khái niệm đời thƣờng mà học phải tiến đến tri thức khoa học, tri thức có tính chọn lựa cao, đƣợc khái qt hố, hệ thống hố Hoạt động học tập khơng hƣớng vào việc tiếp thu tri thức, kĩ năng, kĩ xảo mà hƣớng vào việc tiếp thu tri thức thân hoạt động học Hoạt động học muốn đạt kết cao, ngƣời học phải biết cách học, phƣơng pháp học, nghĩa phải có tri thức thân hoạt động học Vậy, việc làm để máy tính có khả học tập, tƣ có khả học tập giống ngƣời lĩnh vực nghiên cứu đƣợc ý thời đại Dựa khuynh hƣớng hƣớng dẫn PGS, TS -2Đồn Văn Ban, tơi mạnh dạn nhận đề tài: ”PHƢƠNG PHÁP HỌC NỬA GIÁM SÁT VÀ ỨNG DỤNG” để tìm hiểu ứng dụng vào thực tế Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: - Đề tài nghiên cứu vấn đề chung học máy, số thuật toán khai phá liệu ứng dụng thuật toán học nửa giám sát phân cụm văn Phạm vi nghiên cứu: - Khai phá liệu, giải thuật phân cụm - Học máy m ột số thuật toán học nửa giám sát ứng dụng thực tế Hƣớng nghiên cứu đề tài - Nghiên cứu lý thuyết học máy, học không giám sát, học có giám sát, học nửa giám sát - Nghiên cứu số thuật toán học nửa giám sát, phân cụm liệu - Từ kết thu đƣợc đề tài cài đặt ứng dụng toán phân cụm văn Những nội dung Luận văn đƣợc trình bày chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Luận văn đƣợc chia làm ba chƣơng với nội dung nhƣ sau: Chƣơng 1: Trình bày khái niệm học máy, học có giám sát, học khơng giám sát, học tăng cƣờng học nửa giám sát Chƣơng 2: Trình bày số thuật tốn học nửa giám sát toán phân cụm liệu Chƣơng 3: Trình bày tốn phân cụm liệu văn bản, cách biểu diễn xử lý liệu văn tiến hành cài đặt thử nghiệm thuật toán -35 Phƣơng pháp nghiên cứu - Nghiên cứu tổng hợp tài liệu, phƣơng pháp học máy: Học giám sát, học không giám sát, học nửa giám sát - Nghiên cứu giải thuật học nửa giám sát Ý nghĩa khoa học: Đề tài nghiên cứu vấn đề chung học máy, số thuật toán khai phá liệu ứng dụng thuật toán học nửa giám sát để phân cụm văn -4- CHƢƠNG 1: PHƢƠNG PHÁP HỌC MÁY 1.1 Khái niệm học máy Học máy (machine learning) ngành khoa học nghiên cứu kĩ thuật, phƣơng pháp cho phép máy tính có khả "học" giống nhƣ ngƣời Hay nói cách khác cụ thể hơn, học máy phƣơng pháp để tạo chƣơng trình máy tính việc phân tích tập liệu, qua máy tính có khả tích lũy đƣợc tri thức thông qua việc học đƣợc khái niệm để định trƣờng hợp tƣơng tự [11] Qua ta thấy học máy có liên quan mật thiết với thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, nhƣng học máy khác với thống kê chỗ, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều toán suy luận đƣợc xếp vào loại tốn NP-khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lí đƣợc Phân loại: Có hai loại phƣơng pháp học máy chính: - Phƣơng pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập đƣợc trƣớc Phƣơng pháp cho phép tận dụng đƣợc nguồn liệu nhiều sẵn có - Phƣơng pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phƣơng pháp cho phép tận dụng đƣợc kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng đƣợc ƣu điểm hai phƣơng pháp ... -35 Phƣơng pháp nghiên cứu - Nghiên cứu tổng hợp tài liệu, phƣơng pháp học máy: Học giám sát, học không giám sát, học nửa giám sát - Nghiên cứu giải thuật học nửa giám sát Ý nghĩa khoa học: Đề tài... sau: Chƣơng 1: Trình bày khái niệm học máy, học có giám sát, học không giám sát, học tăng cƣờng học nửa giám sát Chƣơng 2: Trình bày số thuật tốn học nửa giám sát toán phân cụm liệu Chƣơng 3: Trình... Nghiên cứu lý thuyết học máy, học không giám sát, học có giám sát, học nửa giám sát - Nghiên cứu số thuật toán học nửa giám sát, phân cụm liệu - Từ kết thu đƣợc đề tài cài đặt ứng dụng toán phân

Ngày đăng: 07/02/2023, 09:28

Tài liệu cùng người dùng

Tài liệu liên quan