1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN VĂN THẠC SĨ) Phương pháp đồng huấn luyện và ứng dụng

111 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 111
Dung lượng 2,41 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI iHỌC CÔNG NGHỆ Hoàng Thị Ngọc Trang PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ HÀ NỘI – 2009 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Hồng Thị Ngọc Trang PHƯƠNG PHÁP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ Ngành: Công nghệ Thông tin Chuyên ngành: Khoa học Máy tính Mã số: 60 48 01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Hoàng Xuân Huấn HÀ NỘI – 2009 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC Trang LỜI CAM ĐOAN DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ BẢNG KÝ HIỆU VÀ CHỮ VIẾT TẮT MỤC LỤC MỞ ĐẦU CHƢƠNG GIỚI THIỆU VỀ NHẬN DẠNG MẪU 1.1 Mẫu toán nhận dạng thường gặp 1.1.1 Mẫu (pattern) 1.1.2 Nhận dạng mẫu gì? 1.1.3 Các toán nhận dạng mẫu thường gặp 1.2 Ví dụ tốn nhận dạng mẫu 1.3 Các lĩnh vực liên quan 1.4 Các hệ thống nhận dạng mẫu 1.5 Chu trình thiết kế phân lớp 10 1.6 Kết luận 11 CHƢƠNG GIỚI THIỆU VỀ HỌC BÁN GIÁM SÁT VÀ PHƢƠNG PHÁP ĐỒNG HUẤN LUYỆN 12 2.1 Phương pháp học bán giám sát 12 2.1.1 Học có giám sát học khơng có giám sát 13 2.1.2 Động lực thúc đẩy hiệu học bán giám sát 14 2.1.3 Phạm vi sử dụng học bán giám sát 14 2.2 Phương pháp tự huấn luyện 16 2.3 Phương pháp đồng huấn luyện 17 2.3.1 Thiết lập đồng huấn luyện 17 2.3.2 Sơ đồ thiết lập đồng huấn luyện 21 2.3.3 Sự hiệu tính ứng dụng co-training 22 TIEU LUAN MOI download : skknchat@gmail.com 2.4 So sánh hai phương pháp đồng huấn luyện tự huấn luyện 24 CHƢƠNG MỘT SỐ LƢỢC ĐỒ ỨNG DỤNG CO-TRAINING 27 3.1 Co-training toán phân lớp với vector hỗ trợ kết hợp không gian tường thuật (VSSVM) 27 3.1.1 Bài toán phân lớp nhị phân 27 3.1.2 Giới thiệu SVM 28 3.1.3 Không gian tường thuật 35 3.1.4 Version Space Support Vector Machines (VSSVM) 37 3.1.5 Co-training toán VSSVM 38 3.1.6 Kết luận 41 3.2 Co-training toán phân lớp văn 42 3.2.1 Bài toán thực nghiệm phân lớp văn 42 3.2.2 Bộ liệu thực nghiệm phân lớp văn 45 3.2.3 Quá trình tiến hành thực nghiệm 45 3.2.4 Kết phân lớp so với phương pháp Naïve Bayes 47 3.2.5 Kết luận 50 3.3 Một tiếp cận co-training cho đa phân lớp bán giám sát (MCS) 50 3.3.1 Hệ thống đa phân lớp bán giám sát 50 3.3.2 Kỹ thuật co-training cho MCS 52 3.3.3 Dữ liệu thử nghiệm 54 3.3.4 Phân tích đánh giá kết 56 3.5 Kết luận 60 3.4 Co-training toán hồi quy nửa giám sát 61 3.4.1 Giới thiệu toán hồi quy 61 3.4.2 Co-training toán hồi quy 62 3.4.3 Thuật toán COREG 65 3.4.4 Phân tích 69 3.4.5 Kết thực nghiệm COREG 71 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG ỨNG DỤNG COTRAINING NÂNG CAO CHẤT LƢỢNG MẠNG NỘI SUY RBF 78 4.1 Mạng nội suy RBF 78 4.1.1 Bài toán nội suy nhiều biến với cách tiếp cận RBF 78 4.1.2 Kỹ thuật hàm sở bán kính 80 4.1.3 Kiến trúc mạng RBF 82 4.1.4 Huấn luyện mạng RBF 83 4.2 Ứng dụng co-training nâng cao chất lượng mạng RBF 91 4.2.1 Cấu hình thực nghiệm thuật tốn COREG 92 4.2.2 Kết thực nghiệm HDH với COREG 93 4.3 Nhận xét 94 KẾT LUẬN 95 TÀI LIỆU THAM KHẢO 97 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC BẢNG BIỂU Trang Bảng Bảng so sánh hai thiết lập self-training co-training 22 Bảng Kết huấn luyện không dùng Co-training- Model 37 Bảng Kết huấn luyện dùng Co-training với lần lặp –Model 37 Bảng Kết huấn luyện không dùng Co-training –Model 38 Bảng Kết huấn luyện dùng Co-training với lần lặp –Model 38 Bảng Bảng mô tả phân lớp phân lớp trang Web 41 Bảng7 Các n-gram sử dụng mơ hình phân lớp trang web 43 Bảng 8: Kết phân lớp giám sát Naïve Bayes với độ đo 45 Bảng 9: Kết độ đo co-training 46 Bảng 10 So sánh kết phân lớp đơn 54 Bảng 11: Kết sau hợp đầu cuối phân lớp 55 Bảng 12 Các cấu hình sử dụng cho học 68 Bảng 13 Bộ liệu tổng hợp 69 Bảng 14 Bộ liệu thực 69 Bảng 15 So sánh MSE COREG với phương pháp học có giám sát 70 Bảng 16 So sánh giá trị MSE phương pháp với học có giám sát 73 Bảng 17 Kết thử nghiệm phương pháp liệu thực 74 Bảng 18 Hàm sử dụng thực nghiệm COREG-RBF 90 Bảng 19 Kết thử chất lượng mạng RBF 91 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC HÌNH VẼ Trang Hình 1: Các cá cần phân loại Hình Biểu đồ đặc trưng chiều dài hai loại cá Hình 3: Biểu đồ đặc trưng độ sáng hai loại cá Hình 4: Hai đặc trưng độ sáng chiều rộng cho cá hồi cá vược Hình 5: Một mơ hình phức tạp cho cá Hình Sơ đồ hệ thống nhận dạng mẫu thơng dụng Hình Chu trình thiết kế phân lớp 10 Hình 8: Biểu diễn trực quan thiết lập self-training 15 Hình 9: Sơ đồ thuật tốn self-training 16 Hình 10: Sơ đồ biểu diễn trực quan thiết lập co-training 18 Hình 11: Sơ đồ thiết lập co-training gốc cho tốn hai lớp 20 Hình 12: Sơ đồ thiết lập co-training cải tiến cho toán hai lớp 21 Hình 13 Hai siêu phẳng tách biệt lề chúng 27 Hình 14 Thêm nhiễu vào mẫu 28 Hình 15 Siêu phẳng tách biệt tuyến tính 28 Hình 16 Siêu phẳng tách biệt chuẩn 29 Hình 17 Ánh xạ từ không gian chiều sang không gian chiều 31 Hình 18 Nhập nhằng phân lớp mẫu nằm hai siêu phẳng 33 Hình 19 Sơ đồ luật phân lớp VSSVM 35 Hình 20 Mơ hình thứ co-training VSSVM 36 Hình 21 Hai khung nhìn trang web 40 Hình 22 Độ đo F1 phân lớp giám sát Naïve Bayes dựa content 45 Hình 23 Đồ thị biểu diễn độ đo F1 phân lớp bán giám sát cotraining 46 Hình 24 Thuật tốn co-training cho đa phân lớp, MCS/CO1 50 Hình 25 Thuật tốn co-training cho nhiều phân lớp (MCS/CO2) 51 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung Hình 26 Ví dụ đầu vào cho phân lớpMCS 52 Hình 27 Biểu đồ so sánh kết MCS với kỹ thuật có giám sát 56 Hình 28 Kết hợp phân lớp huấn luyện với MCS 57 Hình 29 Đồ thị biểu diễn phụ thuộc chiều cao –tuổi 59 Hình 30 Sơ đồ giả code thuật tốn COREG 65 Hình 31 Hàm sở bán kính Gaussian với  =1 76 Hình 32 Hàm sở bán kính Multiquadric với  =1 76 Hình 33 Hàm sở bán kính Inverse Multiquadric với r =1 c = 77 Hình 34 Hàm sở bán kính Cauchy với r =1 c = 77 Hình 35 Mơ tả kiến trúc mạng nơron RBF 79 Hình 36 Quá trình hội tụ đến giá trị cực tiểu thuật tốn Gradient 82 Hình 37 Thuật tốn huấn luyện nhanh (Quyck Training) 83 Hình 38 Thuật tốn lặp pha huấn luyện mạng HDH 86 Hình 39 Minh họa mở rộng dần tập liệu nhờ COREG 92 (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung BẢNG KÝ HIỆU VÀ CHỮ VIẾT TẮT EM: Expectation-Maximization i.i.d : independent and identically distributed random variables kNN: k-Nearest Neighbor MCS: Multiple Classifier System MSE: Mean Squared Error PAC: Probably Approximately Correct RBF: Radial Basis Function SAE: Selected Added Examples SSL: Semi-Supervised Learning TSVM: Transductive Support Vector Machine VSSVM: Version Space Support Vector Machine WSD: Word Sense Disambiguation (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung MỞ ĐẦU Sự phát mạnh mẽ cơng nghệ cao nói chung khoa học máy tính nói riêng ngày thu hút nhiều nhà khoa học công nghệ quan tâm nghiên cứu toán nhận dạng mẫu Thoạt tiên, toán nhận dạng mẫu xuất phát từ nhu cầu tạo nên thành phần máy có khả quan sát mơi trường Cùng với phát triển ứng dụng công nghệ thông tin, đặc biệt lĩnh vực học máy, người ta phải sâu phát triển hệ nhận dạng mẫu có khả tìm mẫu sở liệu lớn hay gọi khám phá tri thức từ liệu Phân lớp mẫu toán thường gặp nhận dạng mẫu phân thành hai loại có giám sát khơng có giám sát Trong tốn phân lớp có giám sát, dựa tập liệu gán nhãn, người ta xây dựng phân lớp để gán nhãn cho liệu chưa biết Còn tốn khơng giám sát, người ta phân tập liệu chưa gán nhãn thành các tập cho đối tượng liệu tập có đặc tính giống so với đối tượng tập khác Trong toán nhận dạng mẫu, toán phân lớp có giám sát tốn ứng dụng rộng rãi Việc xây dựng phân lớp toán thực thuật toán học máy (học có giám sát) Với học có giám sát truyền thống người thường phải bỏ nhiều công sức để gán nhãn cho tập liệu đào tạo muốn có học tốt Nhưng thực tế lại tồn sẵn nguồn “tài nguyên” phong phú nguồn liệu chưa gán nhãn Một phương pháp học đời nhằm đạt mục tiêu “khai thác” nguồn tài nguyên phong phú này, giúp giảm nhiều chi phí công sức việc gán nhãn cho người Phương pháp thu hút nhiều quan tâm nhà khoa học đề gọi chung với tên phương pháp học bán giám sát (Semi-supervised learning: SSL) Phương pháp giới thiệu A Blum, T Mitchel vào năm 1998 [11] Xiaojin Zhu (2006) đưa nhìn tương đối đầy đủ tổng quát (chi tiết xem [47]) Mục đích học bán giám sát khai thác liên kết liệu gán nhãn liệu chưa gán nhãn để hiểu thiết kế thuật tốn cho tận dụng tốt thông tin từ nguồn liệu chưa gán nhãn Học bán giám sát quan tâm nhiều khai phá liệu nguồn liệu chưa gán nhãn thực phong phú sẵn có Ngồi học bán giám sát cịn đưa cơng cụ định lượng để hiểu (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung(LUAN.VAN.THAC.SI).Phuong.phap.dong.huan.luyen.va.ung.dung 86 Thuật tốn mơ tả hình 37 sau đây: Bƣớc 1: Cho tập liệu vào {xi} gồm N véctơ Khởi gán tham số Input N; M=N; /M=N Nơron ẩn for i=1 to M vi=xi; / xác định véctơ tâm Input l; m = l; // l số vòng lặp mong muốn E= 99999.9; e=0.0001; //khởi gán tổng sai số bình phương E, sai số e cho điều kiện dừng 1 =1.0; // khởi gán tốc độ học Bƣớc 2: Khởi gán trọng số kết nối For i =1 to M For j =1 to J wij = random(0,1) – 0.5; /khởi gán w đoạn [-0.5,0.5] Bƣớc 3: Tính tốn tham số bán kính   ; (2M ) n / tính giá trị tham số  For k=1 to M k = ; /đặt k =  cho Nơron thứ k Bƣớc 4: Tính giá trị k = fk (xi,vk) k=1…M cho véctơ vào xi For i=1 to N / véctơ vào thứ i For k = to M /mỗi Nơron ẩn thứ k If i =k then ki =1 / xi = vk, ki = exp(0)=1 Else ki = exp(-||xi –vk||2/ (2k2); Bƣớc 5: Cập nhật giá trị đầu zji Nơron For i=1 to N / với véctơ đầu vào For j= to J / với Nơron M zji = (1 / M ) w  k 1 N Enew = J  ( y i 1 j 1 i j kj i k  z ij ) / cập nhật cho tầng /tính tổng sai số If Enew < E then 1 = 1 * 1.04 Else 1 = 1 * 0.92; E = Enew; Bƣớc 6: Chỉnh lại trọng số w For k =1 to M For j= to J wkj = wkj + (21/M) / với trọng số wkj N (y i 1 i j z ij ) ki ; Bƣớc 7: Dừng huấn luyện If (m  l ) or (E

Ngày đăng: 17/12/2023, 02:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w