Phương thức học máy trực tuyến dựa trên mô hình Bayes Phương thức học máy trực tuyến dựa trên mô hình Bayes Phương thức học máy trực tuyến dựa trên mô hình Bayes luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG —————*————— Phạm Xuân Cường PHƯƠNG THỨC HỌC MÁY TRỰC TUYẾN DỰA TRÊN MƠ HÌNH BAYES CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SỸ KHOA HỌC CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS Đinh Viết Sang HÀ NỘI 10-2017 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Phạm Xuân Cường Đề tài luận văn: Phương thức học máy trực tuyến dựa Bayes Chuyên ngành: Khoa học máy tính Mã số SV: CB160558 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày… .………… với nội dung sau: Chỉnh sửa lại số lỗi tả, cơng thức viết thiếu chương 1, 2, Bổ sung thêm mô tả cách đặt tên thuật toán tác giả đề xuất trước đưa bảng kết thử nghiệm Bổ sung thêm thông tin thời gian thực hiện, độ phức tạp thuật toán mà tác giả đề xuất Ngày 09 tháng 11 năm 2017 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG SĐH.QT9.BM11 Ban hành lần ngày 11/11/2014 PHIẾU GIAO NHIỆM VỤ LUẬN VĂN TỐT NGHIỆP Thông tin học viên Họ tên sinh viên: Phạm Xuân Cường Lớp: Khoa học máy tính Hệ đào tạo: Thạc sỹ Khoa học Thời gian làm LVTN: Từ ngày 06 / 03 / 2017 đến 23 / 10 / 2017 Mục đích nội dung LVTN Nghiên cứu đề xuất giải thuật học máy trực tuyến dựa Bayes Các nhiệm vụ cụ thể Luận văn: • Nghiên cứu phương thức học máy trực tuyến • Đề xuất giải thuật học máy dựa Bayes • Đề xuất giải thuật học máy dựa Hoeffding ma trận ngẫu nhiên • So sánh đánh giá kết thử nghiệm Lời cam đoan học viên: Tôi Phạm Xn Cường cam kết Luận văn cơng trình nghiên cứu thân hướng dẫn Tiến sỹ Đinh Viết Sang Các kết nêu luận văn trung thực, chép tồn văn cơng trình khác Hà Nội, ngày 23 tháng 10 năm 2017 Tác giả Luận văn Phạm Xuân Cường Xác nhận GVHD: Hà Nội, ngày 23 tháng 10 năm 2017 Giáo viên hướng dẫn TS Đinh Viết Sang Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT LỜI CẢM ƠN Lời xin chân thành bày tỏ lòng biết ơn sâu sắc tới giảng viên Tiến sỹ Đinh Viết Sang, người đào tạo, định hướng bảo tơi tận tình q trình thực luận văn tốt nghiệp Những lời khuyên phản biện thầy giúp nhận thiếu sót q trình nghiên cứu để hồn thiện luận văn với kết tốt Tôi xin gửi lời cảm ơn sâu sắc tới thành viên nhóm nghiên cứu Đại học Griffith, Australia: giáo sư Alan Wee-chung Liew, anh Nguyễn Tiến Thành, chị Nguyễn Thị Thu Thủy giúp đỡ nhiều đường nghiên cứu học thuật Bên cạnh tơi xin gửi lời cảm ơn tới tất người tin tưởng hỗ trợ dù trực tiếp hay gián tiếp Cuối cùng, xin bày tỏ cảm kích tình u sâu sắc bố mẹ, anh, chị, vợ gái người ủng hộ hỗ trợ vô điều kiện để tơi đạt thành cơng sống Tôi xin đặc biệt gửi lời cảm ơn tới vợ tôi, người thấu hiểu, cảm thông liên tục hỗ trợ tơi q trình thực luân văn Thạc sỹ Hà Nội, ngày 26 tháng 10 năm 2017 Tác giả luận văn Phạm Xuân Cường Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT DANH SÁCH CÁC BÀI BÁO XUẤT BẢN GẦN ĐÂY Thanh T Nguyen, Phuong M Nguyen, Cuong X Pham and Alan W-C Liew, “Heterogeneous Classifier Ensemble with Fuzzy Rule-based Meta Learner”, Information Sciences, 2017 (accepted) Cuong X Pham, Truong D Manh, Sang D Viet, Son Hoang, Thanh T Nguyen, Alan W-C Liew, “Learning from data stream based on Random Projection and Hoeffding Tree classifier”, International Conference on Digital Image Computing: Techniques and Applications (DICTA), 2017 (accepted) Thuy T T Nguyen, Thanh T Nguyen, Cuong X Pham, Alan W-C Liew,“A Novel Online Bayes Classifier” International Conference on Digital Image Computing: Techniques and Applications (DICTA), 2016 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT Mục lục LỜI CẢM ƠN DANH SÁCH BẢNG DANH SÁCH HÌNH VẼ DANH MỤC TỪ VIẾT TẮT GIỚI THIỆU 10 1.1 Đặt vấn đề 10 1.2 Cấu trúc luận văn 12 1.3 Các ký hiệu toán học 13 TỔNG QUAN CÁC PHƯƠNG PHÁP HỌC TRỰC TUYẾN 15 2.1 Phương pháp học trực tuyến tuyến tính 17 2.2 Phương pháp học trực tuyến dựa phân loại 20 2.3 Phương pháp học trực tuyến Bayes 22 2.4 Phương pháp học trực tuyến tập hợp 24 2.5 Phương pháp đánh giá so sánh 30 2.5.1 Các độ đo hiệu 31 2.5.1.1 Độ xác sai số 31 2.5.1.2 Confusion Matrix 32 2.5.1.3 Độ đo Precision, Recall F1 34 Kiểm định thống kê 36 Các nghiên cứu đề xuất 41 2.6.1 Câu hỏi nghiên cứu mục tiêu 41 2.6.2 Tầm quan trọng nghiên cứu 42 2.5.2 2.6 MƠ HÌNH HỌC ONLINE DỰA TRÊN LÝ THUYẾT BAYES 44 3.1 45 Các nghiên cứu liên quan Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 3.1.1 Suy diễn biến thiên cho phân phối chuẩn nhiều chiều 45 Mơ hình đề xuất 49 MƠ HÌNH HỌC ONLINE DỰA TRÊN CÂY HOEFFDING VÀ PHÉP CHIẾU NGẪU NHIÊN 54 4.1 Các nghiên cứu liên quan 55 4.1.1 Bộ phân loại Hoeffding 55 4.1.2 Các phép chiếu ngẫu nhiên 58 Mơ hình đề xuất 60 3.2 4.2 THỬ NGHIỆM VÀ ĐÁNH GIÁ 66 5.1 Tập liệu thử nghiệm 66 5.2 Cấu hình thử nghiệm mơ hình phương pháp so sánh 67 5.3 Kết thử nghiệm so sánh 70 5.4 Dữ liệu nhiễu 76 KẾT LUẬN 77 TÀI LIỆU THAM KHẢO 79 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT Danh sách bảng 1.1 Các ký hiệu toán học 14 2.1 Ví dụ ma trận Confusion 32 5.1 Thông tin tập liệu dùng để đánh giá mơ hình 67 5.2 Trung bình phương sai theo sai số thuật toán đề xuất thuật toán so sánh 71 5.3 Trung bình phương sai theo F1 thuật toán đề xuất thuật toán so sánh 74 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT Danh sách hình vẽ 1.1 Các đặc điểm BigData 11 2.1 Phân loại phương thức học trực tuyến 15 2.2 Quy trình hoạt động thuật tốn học trực tuyến 16 2.3 Minh họa màu sắc cho confusion matrix chưa chuẩn hóa confusion matrix chuẩn hóa 33 2.4 Đường cong P-R toán phân loại 35 3.1 Mơ tả trực quan quy trình hoạt động thuật tốn VIGO với kích thước lơ |B| = 53 4.1 Quy trình hoạt động thuật tốn RP Hoeffding 65 5.1 Quy trình thử nghiệm mơ hình đề xuất 69 5.2 Thống kê độ hiệu thuật toán 25 tập liệu 72 5.3 Kết kiểm định thống kê sai số thuật toán RP Hoeffding với thuật toán khác 25 tập liệu 5.4 Kết kiểm định thống kê F1 thuật toán RP Hoeffding thuật toán khác 25 tập liệu 5.5 74 75 Trung bình sai số thuật tốn VIGO thuật toán PA, SCW, AROW 25 tập liệu nhiễu 76 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT Danh mục từ viết tắt STT Từ viết tắt Ý nghĩa VI Variational Inference VIGO Variational Inference for Gaussian PA Passive Aggressive learning SOP Second-order Perceptron GMM Gaussian Mixture Model SCW Soft Confidence Weighted ALMA Approximate Large Margin Algorithm ROMMA Relaxed Online Maximum Margin Algorithms OGD Online Gradient Descent Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT Algorithm Bộ học kết hợp dựa phép chiếu ngẫu nhiên Hoeffding Input: Kích thước hệ học kết hợp K, Số chiều không gian (down-space) q (Khởi tạo phân loại sở) 1: 2: 3: for k = K Khởi tạo Hoeffding rỗng Hk end for (Tạo ma trận ngẫu nhiên) 4: 5: 6: for k = K (k) Tạo R(k) = {ri j } end for (Phân loại cập nhật lại Hoeffding) 7: repeat 8: Lấy quan sát đến (xt , y(xt )) từ luồng liệu 9: for k = K (k) √1 xt R(k) q 10: zt = 11: Áp dụng phân loại Hk tập zt để thu đầu dạng xác suất hậu nghiệm (soft label) (k) {Pk (ym |xt )} m = 1, , M 12: (k) Cập nhật lại phân loại Hk sử dụng zt 13: end for 14: Dự đoán nhãn lớp xt sử dụng luật kết hợp Sum Product 15: until (Cịn quan sát đến) Hình sau minh họa trực quan quy trình hoạt động thuật tốn dựa Hoeffding ma trận ngẫu nhiên (RP Hoeffding) tác giả luận văn đề xuất Tiếp tục với quan sát R1 z(1) Cây Hoeffding z(2) Cây Hoeffding R2 xt Bộ kết hợp yˆt yt Độ đo đánh giá RK z(K) Cây Hoeffding K Tiến hành cập nhật Hình 4.1: Quy trình hoạt động thuật toán RP Hoeffding Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 43 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ 5.1 Tập liệu thử nghiệm Để đánh giá tính hiệu có mơ hình đề xuất, nhóm tác giả thực thử nghiệm mơ hình 25 tập liệu lấy từ kho liệu UCI [58] Để cho khách quan, nhóm tác giả lựa chọn tập liệu đa dạng theo tiêu chí số quan sát, số đặc trưng số lớp khác tiến hành so sánh mức độ hiệu mơ hình học máy Ví dụ tập liệu Hepatitis hay Iris có số quan sát nhỏ (< 150) đến tập liệu có số quan sát lớn Letter ( > 20000) Thông tin chi tiết tập liệu minh họa bảng 5.1 Tập liệu Số đặc trưng Số quan sát Số lớp Banana 5300 Breast Cancer 683 Haberman Hepatitis Tập liệu Số đặc trưng Số quan sát Số lớp Conn Bench Vowel 10 528 11 Dermatology 34 358 306 Iris 150 19 80 Letter 16 20000 26 Ionosphere 34 351 Libras 90 360 15 Ring 20 7400 Nursery 12960 Titanic 2201 Penbased 16 10992 10 Sonar 60 208 Segment 19 2310 Spambase 57 4601 Newthyroid 215 Tic tac toe 958 Vehicle 18 846 Twonorm 20 7400 Waveform_wo_noise 21 5000 Wdbc 30 569 Wine 13 178 Balance 625 Bảng 5.1: Thông tin tập liệu dùng để đánh giá mơ hình Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 44 5.2 Cấu hình thử nghiệm mơ hình phương pháp so sánh Nhìn chung, thuật tốn học trực tuyến hoạt động đồng thời với toán phân lớp nhị phân đa lớp, thuật tốn mà nhóm tác giả đề xuất (VIGO) làm Để tiến hành so sánh kết mơ hình đề xuất, nhóm tác giả lựa chọn số thuật toán học trực tuyến bậc bật PA [7, 8] thuật toán học trực tuyến bậc hai SCW, AROW (những thuật tốn có thư viện LIBOL) với tham số mặc định (nếu có) Các thuật toán AROW, Hoeffding SCW thuật tốn cơng bố hội nghị đầu ngành học máy NIPS, KDD hay ICML Đối với thuật tốn đề xuất dựa Bayes, nhóm tác giả sử dụng tham số mặc định thảo luận phần 3.2 thực thử nghiệm với kích thước lơ |B| = Giai đoạn huấn luyện (training) kiểm thử (testing) gần hoàn thành đồng thời thời điểm quan sát đến sau mơ hình cập nhật quan sát đến thỏa mãn điều kiện cập nhật Nhóm tác giả tiến hành so sánh độ sai số thuật toán để đánh giá độ hiệu thuật toán, đặc biệt thuật tốn đề xuất Để đảm bảo tính khách quan cơng bằng, nhóm tác giả thực sinh 100 hoán vị tập liệu gốc Thử nghiệm thuật toán với 100 tập liệu hốn vị sau lấy trung bình kết để thu kết cuối Đồng thời tác giả tiến hành so sánh kết thuật toán dựa Hoeffding ma trận ngẫu nhiên (tác giả đặt tên thuật toán RP Hoeffding) với thuật toán dựa Bayes (VIGO) với cấu số tập hốn vị Ngồi ra, tác giả tiến hành so sánh kết với thuật toán Hoeffding Online Bagging (tác giả sử dụng thuật toán Online Bagging cài đặt thư viện MOA, phân lớp sở lựa chọn Hoeffding) Bên cạnh đó, Online Bagging thuật toán học kết hợp trực tuyến cho độ xác cao tốn thực tế Đối với mơ hình đề xuất, phép chiếu ngẫu nhiên theo phân phối Gauss (Gaussian random projections) sử dụng để tạo ma trận ngẫu nhiên dùng cho việc tạo tập liệu có số chiều nhỏ tập liệu ban đầu Số chiều tất tập liệu đặt q = log2 p Số phân loại sở thuật toán Online Bagging tham số K mơ hình đề xuất cài đặt 200 tài liệu [40] Kết mơ hình đề xuất so sánh với kết thuật toán khác dựa thước đo độ sai số (error rate) F1 (trung bình điều hịa Precision Recall) Quy trình thử nghiệm mơ hình minh họa hình 5.1 Đầu tiên, tác giả lựa chọn ngẫu nhiên S hoán vị tập liệu ban đầu sau tiến hành thử nghiệm mơ hình đề xuất tập hoán vị ta thu sai số F1 Tiếp theo, ta tính trung bình phương sai toàn kết ta thu kết cuối Trong mơ hình đề xuất, tác giả cố định số tập hoán vị 100 Sau thu kết thử nghiệm, tác giả tiến hành làm kiểm định thống kê để đảm bảo khác biệt kết ngẫu nhiên Trong số phương pháp kiểm định giả thuyết thống kê, tác giả lựa chọn sử dụng kiểm định Wilcoxon signed rank với mức ý nghĩa α = 0.05 (5%) để đánh giá kết phương pháp đề xuất với thuật tốn cịn lại Giả thuyết kiểm định đặt "Hai phương pháp có kết tương đương nhau" Dựa kết thủ tục kiểm định Wilcoxon, ta thu giá trị Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 45 Tập liệu gốc Tập hoán vị Tập hoán vị Tập hoán vị S Kết thử nghiệm S Phương pháp đề xuất Kết thử nghiệm Kết thử nghiệm Trung bình phương sai Hình 5.1: Quy trình thử nghiệm mơ hình đề xuất P-value dùng để đánh giá giả thuyết Mức độ hiệu hai phương pháp xem khác hoàn toàn giá trị P-value nhỏ mức ý nghĩa α Khi kiểm định cho thấy kết hai phương pháp hoàn toàn khác biệt, tác giả sử dụng sai số F1 để định xem thuật toán hiệu thống kê số lần thắng (win) thua (lose) tập liệu cụ thể Bên cạnh tác giả tiến hành kiểm định phương sai sai số F1 cách sử dụng công cụ kiểm định Levene với mức ý nghĩa 0.05 100 tập hoán vị từ liệu ban đầu Mục đích việc kiểm thử phương sai để đánh giá xem liệu thuật tốn có ổn định hay khơng 5.3 Kết thử nghiệm so sánh Bảng sau biểu diễn giá trị sai số thử nghiệm thuật toán 25 tập liệu Thuật toán VIGO thuật toán dựa Bayes tác giả đồng nghiệp đề xuất năm 2016 Ngồi ra, thuật tốn RP Hoeffding thuật toán dựa Hoeffding ma trận ngẫu nhiên Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 46 Tập liệu Online Hoeffding Online Bagging PA SCW AROW VIGO RP Hoeffding Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai banana 3.70E-01 3.42E-04 3.53E-01 1.30E-04 4.83E-01 5.85E-05 4.51E-01 1.57E-03 4.49E-01 3.31E-04 3.93E-01 7.88E-05 3.13E-01 7.23E-05 breast-cancer 4.39E-02 6.86E-06 4.79E-02 1.95E-05 2.04E-01 8.17E-05 1.66E-01 9.92E-05 1.45E-01 5.77E-05 6.38E-02 2.84E-05 3.94E-02 6.20E-06 haberman 2.66E-01 1.14E-04 2.64E-01 9.14E-05 3.86E-01 5.04E-04 2.87E-01 2.05E-04 2.64E-01 7.84E-05 2.62E-01 1.86E-04 2.69E-01 7.27E-05 hepatitis 2.01E-01 1.39E-04 1.34E-01 3.20E-04 2.66E-01 1.24E-03 2.47E-01 8.25E-04 1.93E-01 9.13E-04 1.58E-01 3.35E-04 1.93E-01 6.88E-05 ionosphere 1.35E-01 1.92E-04 1.81E-01 4.44E-04 2.28E-01 2.76E-04 1.93E-01 1.84E-04 1.76E-01 1.16E-04 9.58E-02 9.46E-05 1.75E-01 2.19E-04 ring1 2.71E-02 1.65E-06 2.33E-02 6.88E-07 3.14E-01 1.11E-05 2.83E-01 6.90E-06 2.65E-01 3.54E-06 3.43E-03 1.90E-06 2.31E-02 6.71E-07 sonar 3.20E-01 3.39E-04 3.38E-01 5.32E-04 4.32E-01 5.58E-07 2.91E-01 5.82E-08 2.75E-01 3.09E-07 2.51E-01 4.54E-09 3.06E-01 1.44E-04 spambase 2.08E-01 2.21E-05 1.83E-01 2.47E-05 3.32E-01 2.61E-05 1.13E-01 1.01E-05 9.71E-02 2.71E-05 1.67E-01 2.08E-05 3.24E-01 3.04E-05 tic-tac-toe 3.11E-01 9.20E-05 3.24E-01 1.20E-04 4.37E-01 2.40E-04 3.57E-01 7.22E-05 3.39E-01 7.52E-05 2.77E-01 9.09E-05 3.47E-01 2.40E-05 titanic 2.33E-01 7.78E-05 2.27E-01 7.07E-06 3.48E-01 6.47E-05 2.31E-01 6.34E-06 2.36E-01 7.82E-05 2.30E-01 1.23E-05 2.31E-01 3.19E-06 two norm 3.14E-02 2.22E-06 2.53E-02 8.45E-07 3.60E-02 2.06E-06 2.80E-02 1.11E-06 2.45E-02 7.63E-07 2.94E-02 1.15E-06 2.40E-02 4.76E-07 wdbc 7.29E-02 2.05E-05 7.42E-02 3.84E-05 6.27E-01 1.77E-30 6.27E-01 1.77E-30 6.28E-01 1.83E-06 6.84E-02 3.60E-05 8.79E-02 2.16E-05 balance 1.37E-01 6.63E-05 1.35E-01 5.26E-05 2.09E-01 9.15E-05 1.36E-01 5.21E-05 1.34E-01 4.30E-05 1.45E-01 1.30E-04 1.29E-01 2.17E-05 conn bench vowel 4.11E-01 5.99E-05 4.06E-01 2.60E-04 7.66E-01 3.06E-04 6.10E-01 4.22E-04 6.20E-01 4.52E-04 2.71E-01 1.40E-04 3.68E-01 2.16E-04 dermatology 9.40E-02 1.20E-04 1.47E-01 1.12E-04 5.30E-01 4.05E-04 1.17E-01 7.37E-05 8.73E-02 1.87E-04 7.91E-02 5.59E-05 2.75E-01 5.59E-04 iris 9.40E-02 1.20E-04 1.04E-01 1.87E-04 3.97E-01 1.13E-03 1.47E-01 1.76E-04 1.13E-01 8.45E-04 6.51E-02 8.16E-05 8.27E-02 6.40E-05 letter 3.68E-01 4.87E-06 3.65E-01 9.34E-06 5.33E-01 8.76E-06 4.85E-01 5.15E-04 4.62E-01 5.95E-04 1.45E-01 3.86E-06 3.66E-01 3.69E-05 libras 4.74E-01 1.42E-04 4.76E-01 3.25E-04 8.46E-01 2.67E-04 5.12E-01 3.99E-04 4.73E-01 6.55E-04 3.05E-01 1.64E-04 4.06E-01 2.84E-04 newthyroid 6.00E-02 4.95E-05 6.94E-02 8.40E-05 4.46E-01 4.73E-04 1.38E-01 1.49E-04 9.63E-02 6.22E-04 6.85E-02 5.76E-05 1.15E-01 2.50E-04 nursery 1.22E-01 1.65E-04 9.34E-02 2.17E-06 3.83E-01 1.12E-05 3.24E-01 1.22E-05 2.46E-01 5.23E-06 8.38E-02 7.38E-06 1.34E-01 4.43E-05 penbased 1.30E-01 2.87E-05 1.24E-01 1.98E-05 1.77E-01 5.75E-06 1.41E-01 2.98E-04 1.90E-01 9.66E-04 3.44E-02 2.03E-06 1.25E-01 2.70E-06 segment 2.15E-01 3.85E-05 2.11E-01 8.27E-05 4.49E-01 5.17E-05 1.59E-01 6.24E-04 2.44E-01 3.82E-03 1.17E-01 6.24E-05 2.51E-01 1.23E-05 vehicle 5.37E-01 3.12E-04 5.33E-01 2.18E-04 6.94E-01 2.64E-04 3.26E-01 4.73E-04 3.28E-01 9.43E-04 2.26E-01 8.77E-05 5.82E-01 1.44E-04 waveform_wo_noise 1.93E-01 1.33E-06 1.92E-01 4.66E-06 2.06E-01 1.83E-05 1.65E-01 1.25E-05 1.59E-01 3.30E-05 1.68E-01 1.05E-05 1.81E-01 2.40E-05 wine 8.26E-02 1.20E-04 8.86E-02 1.62E-04 6.53E-01 1.09E-03 2.46E-01 4.37E-04 1.17E-01 5.68E-04 1.08E-01 1.40E-04 2.99E-01 2.26E-04 *Giá trị in đậm minh họa cho thuật toán có độ sai số thấp Bảng 5.2: Trung bình phương sai theo sai số thuật toán đề xuất thuật toán so sánh Từ bảng kết ta dễ thấy rằng, thuật toán VIGO đạt mức độ hiệu vượt trội thuật toán học máy trực tuyến bật AROW, Online Bagging phân lớp đơn Hoeffding Cụ thể hơn, giải thuật VIGO đạt độ sai số thấp 16 tập liệu thuật toán so sánh tốt 1-3 tập liệu (ví dụ AROW tốt tập liệu breast-cancer, spambase waveform_wo_noise) Đồng thời ta thấy thuật toán VIGO chí cịn vượt trội hồn tồn thuật tốn PA SCW hai thuật tốn khơng đạt sai số tốt tập liệu thử nghiệm Bên cạnh đó, thuật tốn dựa Hoeffding ma trận ngẫu nhiên cho kết tốt Giải thuật đạt độ sai số thấp tập liệu sai số tập lại tương đương với thuật tốn VIGO Từ đó, ta khẳng định mơ hình đề xuất có hiệu cao thuật tốn (benchmarks) so sánh Hình 5.2 mơ tả thống kê thuật tốn có độ sai số thấp 25 tập liệu thử nghiệm Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 47 Số tập liệu có độ sai số tốt 16 16 14 12 10 3 2 VIGO RP Hoeffding AROW Online Bagging Hoeffding Tree Thuật tốn Hình 5.2: Thống kê độ hiệu thuật toán 25 tập liệu Ngược lại với giá trị độ sai số, giá trị F1 thể mức độ phân loại hiệu thuật toán Đối với độ đo này, thuật toán đạt giá trị cao tốt Tác giả luận văn tiến hành so sánh kết thuật toán dựa độ đo F1 giá trị độ sai số khơng phản ánh xác việc phân loại tập liệu cân Bảng 5.3 mô tả chi tiết giá trị F1 thuật toán thử nghiệm Từ bảng 5.3 ta quan sát rằng, thuật toán VIGO đạt giá trị F1 cao 12 tập liệu, thuật toán AROW thuật toán dựa Hoeffding ma trận ngẫu nhiên có kết tốt tập liệu Các thuật toán khác Online Bagging, Hoeffding Tree, SCW đạt giá trị F1 tốt tập liệu Tác giả luận văn tiến hành làm kiểm định thống kê để đảm bảo kết thử nghiệm sai số F1 thuật tốn hồn tồn khác biệt Hình sau mơ tả kết kiểm định sai số thuật toán thử nghiệm Ta dễ dàng thấy thuật toán VIGO thắng thuật toán so sánh (benchmarks) PA, SCW, AROW 23 tập liệu, thua tập liệu (thua tập spambase waveform_wo_noise thuật tốn AROW) Ngồi ra, xét thuật tốn dựa Hoeffding ma trận ngẫu nhiên thuật toán PA, SCW, AROW, Online Bagging Online Hoeffding Tree thuật tốn mà tác giả đề xuất chiến thắng toàn tập liệu thử nghiệm thuật toán PA, thắng 16 thua thuật tốn SCW Hình sau mơ tả kết kiểm định sai số thuật toán dựa Hoeffding ma trận ngẫu nhiên Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 48 Tập liệu Online Hoeffding Online Bagging PA SCW AROW VIGO RP Hoeffding Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai Trung bình Phương sai banana 5.93E-01 7.74E-04 6.10E-01 2.72E-04 5.15E-01 5.11E-05 5.57E-01 1.31E-03 5.56E-01 1.75E-04 6.05E-01 6.12E-05 6.44E-01 1.51E-04 breast-cancer 9.52E-01 7.36E-06 9.48E-01 2.15E-05 7.56E-01 8.15E-05 8.20E-01 8.37E-05 8.37E-01 5.71E-05 9.23E-01 3.77E-05 9.57E-01 7.02E-06 haberman 5.11E-01 3.09E-03 5.28E-01 1.93E-03 4.99E-01 2.88E-04 5.51E-01 7.80E-04 5.18E-01 6.57E-04 5.77E-01 7.13E-04 4.79E-01 2.55E-03 hepatitis 5.62E-01 5.10E-03 6.78E-01 1.72E-03 5.15E-01 2.20E-03 5.64E-01 1.54E-03 6.62E-01 3.31E-03 6.12E-01 1.97E-03 5.03E-01 2.73E-03 ionosphere 8.53E-01 1.89E-04 8.09E-01 4.14E-04 7.42E-01 1.40E-04 7.82E-01 1.55E-04 7.89E-01 1.19E-04 8.87E-01 1.28E-04 8.11E-01 2.14E-04 ring1 9.73E-01 1.66E-06 9.77E-01 6.87E-07 6.74E-01 1.38E-05 7.02E-01 1.21E-05 7.19E-01 8.14E-06 9.60E-01 1.72E-06 9.77E-01 6.72E-07 sonar 6.78E-01 4.08E-04 6.61E-01 5.37E-04 5.68E-01 3.03E-04 7.07E-01 6.60E-04 7.27E-01 4.68E-04 7.30E-01 3.90E-04 6.88E-01 1.57E-04 spambase 7.91E-01 2.17E-05 8.16E-01 2.33E-05 6.42E-01 2.51E-05 8.84E-01 3.87E-06 9.00E-01 2.31E-05 8.24E-01 2.09E-05 6.00E-01 1.39E-04 tic-tac-toe 5.49E-01 1.09E-03 4.95E-01 1.28E-03 5.15E-01 3.03E-04 5.12E-01 5.65E-04 5.43E-01 2.08E-04 6.93E-01 7.16E-05 4.09E-01 2.31E-04 twonorm1 9.69E-01 2.22E-06 9.75E-01 8.45E-07 9.64E-01 1.03E-06 9.72E-01 6.53E-07 9.75E-01 5.70E-07 9.63E-01 1.74E-06 9.76E-01 4.76E-07 wdbc 9.22E-01 2.30E-05 9.20E-01 4.19E-05 6.34E-01 1.35E-04 8.99E-01 6.63E-05 9.36E-01 1.84E-05 9.04E-01 6.29E-05 9.04E-01 2.31E-05 balance 6.04E-01 1.40E-04 5.91E-01 1.17E-04 5.99E-01 1.91E-04 7.74E-01 3.75E-04 6.37E-01 1.19E-03 7.31E-01 2.78E-04 6.09E-01 5.25E-05 conn-bench-vowel 5.91E-01 6.55E-05 2.29E-01 2.99E-04 2.34E-01 1.93E-04 3.92E-01 3.86E-04 3.70E-01 3.47E-04 7.24E-01 1.44E-04 6.31E-01 2.51E-04 dermatology 8.36E-01 2.44E-04 5.43E-01 5.18E-04 4.45E-01 6.23E-04 9.04E-01 3.97E-05 9.09E-01 1.61E-04 8.89E-01 1.13E-04 6.87E-01 5.85E-04 iris 9.06E-01 1.17E-04 8.68E-01 3.63E-04 6.01E-01 1.43E-03 8.76E-01 3.27E-04 8.75E-01 8.31E-04 9.32E-01 1.10E-04 9.17E-01 6.07E-05 letter 6.28E-01 5.91E-06 1.36E-01 6.25E-06 4.64E-01 1.94E-06 5.06E-01 8.33E-04 5.19E-01 5.15E-04 8.53E-01 3.18E-06 6.21E-01 4.93E-05 libras 5.35E-01 1.23E-04 1.49E-01 1.95E-04 1.61E-01 1.77E-04 5.15E-01 5.31E-04 5.15E-01 1.08E-03 6.79E-01 1.86E-04 5.98E-01 2.16E-04 newthyroid 9.14E-01 9.10E-05 7.96E-01 5.91E-04 3.68E-01 1.05E-03 8.45E-01 2.03E-04 8.88E-01 4.53E-04 8.85E-01 1.88E-04 8.30E-01 4.78E-04 nursery 5.89E-01 7.71E-05 5.35E-01 4.09E-05 3.93E-01 1.25E-05 4.60E-01 1.24E-04 4.53E-01 3.80E-06 7.17E-01 6.66E-04 5.50E-01 6.88E-05 penbased 8.70E-01 3.07E-05 5.60E-01 9.61E-05 8.21E-01 6.68E-06 8.58E-01 4.47E-04 8.14E-01 1.29E-03 9.63E-01 1.88E-06 8.74E-01 3.32E-06 segment 7.71E-01 6.26E-05 5.95E-01 1.74E-04 5.49E-01 4.12E-05 8.41E-01 3.61E-04 7.71E-01 1.70E-03 8.94E-01 4.12E-05 7.30E-01 3.06E-05 vehicle 4.42E-01 5.18E-04 2.85E-01 1.93E-04 3.07E-01 9.83E-05 6.69E-01 2.53E-03 6.69E-01 1.12E-03 7.50E-01 7.90E-05 3.69E-01 2.64E-04 waveform_wo_noise 7.95E-01 1.35E-06 7.18E-01 1.02E-05 7.94E-01 1.83E-05 8.39E-01 1.49E-05 8.39E-01 2.88E-05 8.24E-01 1.32E-05 8.09E-01 3.33E-05 wine 9.19E-01 1.33E-04 8.59E-01 3.91E-04 3.42E-01 8.30E-04 7.76E-01 5.46E-04 8.84E-01 5.15E-04 8.57E-01 1.84E-04 6.95E-01 2.09E-04 *Giá trị in đậm minh họa cho thuật tốn có giá trị F1 cao Bảng 5.3: Trung bình phương sai theo F1 thuật toán đề xuất thuật tốn so sánh 25 25 Thắng Hịa Thua 20 Tập liệu 17 15 15 12 12 11 10 10 0 Hoeffding Tree AROW 0 SCW PA Online Bagging Thuật tốn Hình 5.3: Kết kiểm định thống kê sai số thuật toán RP Hoeffding với thuật toán khác 25 tập liệu Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 49 Tương tự với kiểm định giá trị F1, kết mô tả trực quan hình 5.4 21 20 17 Thắng Hịa Thua 15 Tập liệu 13 13 11 10 10 10 5 2 0 Hoeffding Tree AROW SCW PA Online Bagging Thuật toán Hình 5.4: Kết kiểm định thống kê F1 thuật toán RP Hoeffding thuật toán khác 25 tập liệu Bên cạnh độ đo hiệu độ sai số F1 thời gian thực thuật tốn khía cạnh phát triển thuật toán ta cần phải quan tâm Đối với thuật toán VIGO độ phức tạp thuật tốn nằm bước tối ưu xấp xỉ phân phối xác suất Thủ tục có độ phức tạp O(n × p) n số bước lặp để tìm giá trị tối ưu p số chiều không gian liệu Tương tự, sau phân tích thuật tốn RP Hoeffding ta thấy độ phức tạp tính tốn giải thuật O(K × p × N) với K số hệ học kết hợp, N số quan sát Do đó, ta thấy thuật tốn RP Hoeffding có độ phức tạp cao thuật toán VIGO Ta xét kết thử nghiệm tập liệu Letter (20000 quan sát) làm ví dụ, thời gian thực thuật tốn VIGO trung bình 100 tập hoán vị 37s thời gian thực thuật toán RP Hoeffding 434s, cao nhiều so với thuật toán VIGO Tuy nhiên, thuật tốn RP Hoeffding lại có ưu điểm dễ dàng song song hóa, cài đặt song song thuật tốn RP Hoeffding đạt thời gian tốt thuật toán VIGO 5.4 Dữ liệu nhiễu Để đánh giá mức độ suy giảm độ hiệu mơ hình liệu nhiễu, tác giả tiến hành tạo liệu nhiễu cách lựa chọn ngẫu nhiên nhãn lớp quan sát khác tập huấn luyện để thay với tỉ lệ 0%,10% 20% Sau tập liệu thử nghiệm với thủ tục 10-folds Cross Validation, trình lặp lại 10 lần Kết thuật toán VIGO thuật toán khác 25 tập liệu nhiễu minh họa hình 5.5 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 50 0.5 20% 10% 0% Trung bình sai số 0.4 0.3 0.2 0.1 PA SCW AROW Thuật tốn VIGO Hình 5.5: Trung bình sai số thuật tốn VIGO thuật toán PA, SCW, AROW 25 tập liệu nhiễu Dễ thấy rằng, thuật toán VIGO đạt kết tốt thuật tốn cịn lại xử lý liệu có nhiễu Ngồi ra, thuật tốn cịn dễ dàng cải thiện cách thay đổi kích thước lơ |B| (minibatch size) Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 51 KẾT LUẬN Trong luận văn này, tác giả giới thiệu tổng quan phương pháp học trực tuyến (Online learning) áp dụng việc giải toán dự đoán, phân loại phổ biến theo hướng tiếp cận học máy Học máy trực tuyến phương pháp tiên tiến bật giúp giải toán dự đoán mà liệu đến liên tục theo thời gian đặc biệt với số lượng lớn liệu Phương pháp giải nhược điểm tồn học máy truyền thống lưu trữ lượng lớn liệu đặc biệt liệu đến nhanh liên tục theo thời gian Trong chương luận văn, tác giả giới thiệu tổng quan phương pháp học trực tuyến Cụ thể học trực tuyến chia thành nhóm bao gồm: học trực tuyến tuyến tính, học trực tuyến dựa Bayesian, học trực tuyến dựa học trực tuyến kết hợp Tiếp theo đó, chương chương tác giả mô tả cụ thể hai phương pháp học trực tuyến đề xuất gần hai cơng trình nghiên cứu tác giả đồng nghiệp Trong đó, chương tác giả mơ tả giải thuật VIGO giải thuật học trực tuyến tiếp cận theo hướng sử dụng lý thuyết Bayes Cụ thể hơn, giải thuật VIGO, tác giả sử dụng phương pháp VI để xấp xỉ phân phối xác suất hậu nghiệm p(x|y = k) theo phân phối chuẩn nhiều chiều (Multivariate Gaussian distribution) Các kết thử nghiệm mô tả đầy đủ chương Từ kết thử nghiệm đó, kết luận phương pháp đề xuất đạt độ hiệu tương đương với thuật toán học trực tuyến bật đề xuất trước chí cịn có kết tốt tập liệu có nhiễu Trong chương 4, tác giả giới thiệu mơ hình học online kết hợp đồng (homogeneous ensemble method) cho tốn học online có giám sát cách sử dụng phép chiếu ngẫu nhiên phân loại Hoeffding Khi số chiều liệu lớn, Hoeffding thường nhiều thời gian để huấn luyện Để hạn chế điều này, tác giả sử dụng phép chiếu ngẫu nhiên để tạo khơng gian có số chiều thấp không gian ban đầu bảo tồn khoảng cách điểm liệu Ngồi tính khơng ổn định phép chiếu ngẫu nhiên lợi tạo tập liệu đa dạng, điều phù hợp cho học kết hợp Các kết thử nghiệm cho thấy phương pháp đề xuất đạt kết phân loại Hoeffding số thuật toán học Online phổ biến Định hướng phát triển Các nội dung liên quan đến phương pháp học máy trực tuyến tác giả trình bày từ tổng quan chi tiết giải thuật đề xuất Tiếp theo đây, tác giả đồng nghiệp mong muốn nghiên cứu sâu Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 52 phương pháp học trực tuyến để đưa đánh giá tổng quan tất phương pháp học máy trực tuyến Ngoài tác giả mong muốn phát triển thuật toán có thành thư viện để đóng góp vào phát triển chung cộng đồng nghiên học máy nói riêng doanh nghiệp có nhu cầu áp dụng kỹ thuật học máy tiên tiến vào sản phẩm họ Điều khơng giúp nâng cao chất lượng dịch vụ mà thúc đẩy xã hội tiếp cận nắm bắt hội thời đại công nghiệp 4.0 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 53 TÀI LIỆU THAM KHẢO [1] A Mojgan, "Inforgraphic: Exploiting Big Data for creating new products and innovation," 2014 [2] F Rosenblatt, "The perceptron: A probabilistic model for information storage and organization in the brain," Psychological Review, vol 65, no 6, pp 386–408, 1958 [3] K Crammer and Y Singer, "Ultraconservative online algorithms for multiclass problems", Journal of Machine Learning Research, vol 3, pp 951–991, 2003 [4] C Gentile, "A new approximate maximal margin classification algorithm," Journal of Machine Learning Research, vol 2, pp 213–242, 2001 [5] Y Li and P M Long, "The relaxed online maximum margin algorithm.," Machine Learning, vol 46, no 1-3, pp 361–387, 2002 [6] M Zinkevich, "Online convex programming and generalized infinitesimal gradient ascent," in ICML, 2003 [7] K Crammer, O Dekel, S Shalev-Shwartz, and Y Singer, "Online passive aggressive algorithms," in NIPS, 2003 [8] K Crammer, O Dekel, J Keshet, S Shalev-Shwartz, and Y Singer, "Online passive aggressive algorithms," Journal of Machine Learning Research, vol 7, pp 551–585, 2006 [9] N Cesa-Bianchi, A Conconi, and C Gentile, "A second-order perceptron algorithm," SIAM Journal on Computing, vol 34, no 3, pp 640–668, 2005 [10] M Dredze, K Crammer, and F Pereira, "Confidence-weighted linear classification," in ICML, 2008 [11] L Yang, R Jin, and J Ye, "Online learning by ellipsoid method," in ICML, 2009 [12] K Crammer, A Kulesza, and M Dredze, "Adaptive regularization of weight vectors," in NIPS, 2009 [13] K Crammer, A Kulesza, and M Dredze, "Adaptive regularization of weight vectors " Machine Learning, vol 91 no 2, pp 155–187, 2013 [14] F Orabona and K Crammer, "New adaptive algorithms for online classification," in NIPS, 2010 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 54 [15] K Crammer and D D Lee, "Learning via gaussian herding," in NIPS, 2010 [16] J Wang, P Zhao, and S C H Hoi, "Exact soft confidence-weighted learning," in ICML, 2012 [17] J R Quinlan, C4.5: programs for machine learning Morgan Kaufmann, San Francisco, 1993 [18] L Breiman, J Friedman, R Olshen, and C J Stone, "Classification and Regression Trees," Wadsworth and Brooks, Monterey, CA, 1984 [19] J R Quinlan, "Induction of decision trees," Machine Learning, vol 1, pp 81-106, 1986 [20] S L Crawford, "Extensions to the CART algorithm," International journal of man-machine studies, vol 31, pp 197-217, 1989 [21] J C Schlimmer and D Fisher, "A case study of incremental concept induction," in Fifth National Conference on Artificial Intelligence, Philadelphia, 1986 [22] P E Utgoff, "ID5: An incremental ID3," in ICML, 1988 [23] P E Utgoff, "Incremental induction of decision trees," Machine Learning, vol 4, pp 161-186, 1989 [24] P E Utgoff, N C Berkman, and J A Clouse, "Decision tree induction based on efficient tree restructuring," Machine Learning, vol 29, no 1, pp 5-44, 1997 [25] P Domingos and G Hulten, "Mining high-speed data streams," presented at the KDD, New York, 2000 [26] W Hoeffding, "Probability inequalities for sums of bounded random variables," Journal of the American Statistical Association, vol 58, pp 13-30, 1963 [27] R Caruana and A Niculescu-Mizil, "An empirical comparison of supervised learning algorithms," in ICML, 2006, pp 161-168 [28] C M Bishop, Pattern Recognition and Machine Learning Springer-Verlag, New York, 2006 [29] L Breiman, "Bagging predictors," Machine Learning, vol 26, pp 123-140, 1996 [30] T K Ho, “The random subspace method for constructing decision forests,” IEEE Trans Pattern Anal Mach Intell., vol 20, no 8, pp 832–844, Aug 1998 [31] L Breiman, “Random forest,” Mach Learning, vol 45, no 1, pp 5–32, Oct 2001 [32] Y Freund and R.E Schapire, “Experiments with a new boosting algorithm,” in Proc of Int Conf on Mach Learning (ICML), vol 96, 1996, pp 148–156 [33] N Oza and S Russell, "Online bagging and boosting," in Artificial Intelligence and Statistics, 2001 [34] A Fern and R Givan, "Online ensemble learning: An empirical study," Machine Learning, vol 53, no 1/2, pp 71-109, 2003 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 55 [35] C Domingo and O Watanabe, "MadaBoost: A modification of AdaBoost," in ACM Annual Workshop on Computational Learning Theory, 2000, pp 180-189 [36] N H Bshouty and D.Gavinsky, "On boosting with polynomially bounded distributions," Journal of Machine Learning Research, vol 3, pp 483–506, 2002 [37] S Wang, L L Minku, and X Yao, "Dealing with Multiple Classes in Online Class Imbalance Learning," presented at the International Joint Conference on Artificial Intelligence, 2016 [38] M Sokolova, G Lapalme, "A systematic analysis of performance measures for classification tasks," Information Processing and Management 45(4) (2009), 427-437 [39] J Demsar, Statistical comparisons of classifiers over multiple datasets, Journal of Machine Learning Research (2006), 1–30 [40] T.T Nguyen, T.T.T Nguyen, X.C Pham, A.W.-C Liew, “A novel combining classifier method based on Variational Inference,” Pattern Recognition (2016) [41] N Balakrishnan, V.B Nevzorov, A Primer on Statistical Distributions, Wiley & Sons Press, 2003 [42] C Désir, S Bernard, C Petitjean, L Heutte, One class random forests, Pattern Recognit 46 (12) (2013) 3490–3506 [43] C.M Bishop, Pattern Recognition and Machine Learning, Springer-Verlag, New York, 2006 [44] N Nasios, A.G Bors, Variational learning for Gaussian mixture models, IEEE Trans Syst Man Cybern Part B Cybern 36 (2006) 849–862 [45] D.M Blei, M.I Jordan, Variational methods for the Dirichlet process, in: Proceedings of ACM International Conference on Machine Learning, 2004 [46] D.M Blei, M.I Jordan, Variational Inference for Dirichlet process mixtures, Bayesian Anal (2006) 121–143 [47] P Domingos and G Hulten, “Mining high-speed data streams,” in Proceedings of the KDD conference, 2000, pp 71–80 [48] Geoff Hulten, L Spencer and P Domingos, “Mining time-changing data streams,” in Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, 2001, pp 97–106 [49] J Gama, R Fernandes and R Rocha, “Decision trees for mining data streams,” Intelligent Data Analysis, vol 10, no 1, pp 23–45, 2006 [50] J Gama, P Medas and P Rodrigues, “Learning decision trees from dynamic data streams,” Journal of Universal Computer Science, vol 1, no 8, pp 1353–1366, 2005 Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 56 [51] R G A Bifet, “Adaptive parameter-free learning from evolving data streams,” in Proceedings of the 8th International Symposium on Intelligent Data Analysis: Advances in Intelligent Data Analysis VIII, 2009, pp 249–260 [52] W Johnson and J Lindenstrauss, “Extensions of lipschitz mapping into hilbert space,” in Proceeding of the Conference in modern analysis and probability, 1958, pp 189–206 [53] E Bingham and H Mannila, “Random projection in dimensionality reduction: applications to image and text data,” in Proceeding of the 7th International Conferene on Knowledge Discovery and Data Mining (ACM SIGKDD), 2001, pp 245–250 [54] X.Z Fern and C.E Brodley, “Random projection for high dimensional data clustering: A cluster ensemble approach,” in Proceedings of the ICML, 2003, pp 186–193 [55] R Avogadri and G Valentini, “Fuzzy ensemble clustering based on random projections for dna microarray data analysis,” Artificial Intelligence in Medicine, vol 45, no 8, pp 173–183, 2003 [56] A Schclar and L Rokach, “Random projection ensemble classifiers,” in J Filipe, J Cordeiro, Enterprise Information Systems, Lecture Notes in Business Information Processing, 2009, pp 309–316 [57] J Su and H Zhang, “A fast decision tree learning algorithm,” in Proceedings of the 21st national conference on Artificial intelligence, vol 1, 2007, pp 500–505 [58] "UCI Machine learning repository: Datasets," http://archive.ics.uci.edu/ml/datasets.html Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 57 ... họa hình sau: Học máy trực tuyến dựa Bayesian Học máy trực tuyến kết hợp Học máy trực tuyến Học máy trực tuyến dựa Học máy trực tuyến tuyến tính Hình 2.1: Phân loại phương thức học trực tuyến. .. giải thuật học máy trực tuyến dựa Bayes Các nhiệm vụ cụ thể Luận văn: • Nghiên cứu phương thức học máy trực tuyến • Đề xuất giải thuật học máy dựa Bayes • Đề xuất giải thuật học máy dựa Hoeffding... điểm t Học từ quan sát xt Hình 2.2: Quy trình hoạt động thuật toán học trực tuyến 2.1 Phương pháp học trực tuyến tuyến tính Phương pháp học trực tuyến tuyến tính sử dụng hàm phân loại tuyến tính