NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA TRONG HỌC MÁY

62 231 0
NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA TRONG HỌC MÁY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC Trang Trang phụ bìa:..................................................................................................... Bản xác nhận chỉnh sửa luận văn:....................................................................... Bản cam đoan: .................................................................................................... Mục lục:............................................................................................................... Tóm tắt luận văn:................................................................................................. Danh mục các ký hiệu, viết tắt, các bảng, các hình vẽ (nếu có).......................... MỞ ĐẦU .......................................................................................................... 1 Chương 1. TỔNG QUAN VỀ HỌC MÁY.................................................... 3 1.1. Giới thiệu tổng quan về học máy ............................................................... 3 1.2. Hồi quy Logistic......................................................................................... 6 1.2.1. Bài toán hồi quy................................................................................ 6 1.2.2. Mô hình hồi quy Logistic.................................................................. 9 1.2.3. Lập dự đoán .................................................................................... 14 1.2.4. Hồi quy Logistic đa biến................................................................. 14 1.3. Hồi quy Logistic cho nhiều lớp................................................................ 15 1.4. Kết luận .................................................................................................... 15 Chương 2. ĐIỀU HÒA VÀ LỰA CHỌN MÔ HÌNH ................................ 16 2.1. Giới thiệu về lựa chọn mô hình................................................................ 16 2.2. Hồi quy chóp ............................................................................................ 18 2.3. Lasso......................................................................................................... 21 2.4. Cross validation........................................................................................ 26 2.4.1. Holdout (Splitting).......................................................................... 26 2.4.2. Leaveoneout cross validation....................................................... 27 2.4.3. Kfold cross validation.................................................................... 28 2.5. Kết luận .................................................................................................... 30 CHƯƠNG 3. THỰC NGHIỆM ĐÁNH GIÁ.............................................. 31 3.1. Đánh giá trên bài toán 2 lớp..................................................................... 31 3.1.1. Các tham số và kết quả thực nghiệm.............................................. 32 3.1.2. Kết quả............................................................................................ 33 3.2. Đánh giá trên bài toán nhiều lớp.............................................................. 39 3.2.1. Các tham số và kết quả thực nghiệm.............................................. 40 3.2.2. Kết quả............................................................................................ 40 3.3. Ứng dụng trong nhận dạng chữ số viết tay .............................................. 44 3.4. Kết luận .................................................................................................... 48 KẾT LUẬN VÀ KHUYẾN NGHỊ............................................................... 49 1. Kết luận ....................................................................................................... 49 2. Khuyến nghị ................................................................................................ 49 PHỤ LỤC THAM KHẢO ............................................................................ 51

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN MẠNH HƯNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA TRONG HỌC MÁY LUẬN VĂN THẠC SĨ Chuyên ngành: Khoa học máy tính Hà Nội - Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN MẠNH HƯNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA TRONG HỌC MÁY Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 CÁN BỘ HƯỚNG DẪN KHOA HỌC Cán hướng dẫn chính: TS Nguyễn Quang Uy Hà Nội - Năm 2016 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI HỌC VIỆN KỸ THUẬT QUÂN SỰ Cán chấm phản biện 1: Cán chấm phản biện 2: Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ HỌC VIỆN KỸ THUẬT QUÂN SỰ Ngày…tháng…năm 2016 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Mạnh Hưng Đề tài luận văn: Nghiên cứu phương pháp điều hòa học máy Chuyên ngành: Khoa học máy tính Mã số: 60480101 Cán hướng dẫn: TS Nguyễn Quang Uy Tác giả, cán hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày với nội dung sau: Ngày tháng năm 2016 Cán hướng dẫn Tác giả luận văn (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) Nguyễn Quang Uy Nguyễn Mạnh Hưng CHỦ TỊCH HOẶC THƯ KÝ HỘI ĐỒNG (Ký ghi rõ họ tên) Tôi xin cam đoan: Những kết nghiên cứu trình bày luận văn hoàn toàn trung thực, tôi, không vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, hoàn toàn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN (Ký ghi rõ họ tên) Nguyễn Mạnh Hưng MỤC LỤC Trang Trang phụ bìa: Bản xác nhận chỉnh sửa luận văn: Bản cam đoan: Mục lục: Tóm tắt luận văn: Danh mục ký hiệu, viết tắt, bảng, hình vẽ (nếu có) MỞ ĐẦU Chương TỔNG QUAN VỀ HỌC MÁY 1.1 Giới thiệu tổng quan học máy 1.2 Hồi quy Logistic 1.2.1 Bài toán hồi quy 1.2.2 Mô hình hồi quy Logistic 1.2.3 Lập dự đoán 14 1.2.4 Hồi quy Logistic đa biến 14 1.3 Hồi quy Logistic cho nhiều lớp 15 1.4 Kết luận 15 Chương ĐIỀU HÒA VÀ LỰA CHỌN MÔ HÌNH 16 2.1 Giới thiệu lựa chọn mô hình 16 2.2 Hồi quy chóp 18 2.3 Lasso 21 2.4 Cross validation 26 2.4.1 Holdout (Splitting) 26 2.4.2 Leave-one-out cross validation 27 2.4.3 K-fold cross validation 28 2.5 Kết luận 30 CHƯƠNG THỰC NGHIỆM ĐÁNH GIÁ 31 3.1 Đánh giá toán lớp 31 3.1.1 Các tham số kết thực nghiệm 32 3.1.2 Kết 33 3.2 Đánh giá toán nhiều lớp 39 3.2.1 Các tham số kết thực nghiệm 40 3.2.2 Kết 40 3.3 Ứng dụng nhận dạng chữ số viết tay 44 3.4 Kết luận 48 KẾT LUẬN VÀ KHUYẾN NGHỊ 49 Kết luận 49 Khuyến nghị 49 PHỤ LỤC THAM KHẢO 51 TÓM TẮT LUẬN VĂN Họ tên học viên: Nguyễn Mạnh Hưng Chuyên ngành: Khoa học máy tính Khoá: 26B Cán hướng dẫn: TS Nguyễn Quang Uy Tên đề tài: Các phương pháp điều hòa học máy Tóm tắt: Luận văn nghiên cứu tổng quan phương pháp điều hòa (Regularization) phổ biến học máy, cài đặt phương pháp điều hòa hồi quy Logistic Cụ thể là, luận văn tập trung nghiên cứu vào kỹ thuật thống kê, học máy, lý thyết mô hình hồi quy Logistic phương pháp điều hòa Đã cài đặt thử nghiệm số kỹ thuật với tập liệu Logistic áp dụng toán cụ thể DANH MỤC HÌNH VẼ Hình 1.1 Học máy Hình 2.1 Các hệ số hồi quy chóp hiển thị cho tập liệu tín dụng 19 Hình 2.2 Biều đồ dự đoán sử dụng hồi quy chóp 20 Hình 2.3 Các hệ số Lasso chuẩn tập liệu tín dụng 22 Hình 2.4 Mô tả hàm lỗi giới hạn Lasso mô hình chóp 24 Hình 2.5 So sánh Lasso hồi quy chóp 25 Hình 2.6 Phương pháp Leave – One - Out 28 Hình 2.7 Phương pháp K-fold cross validation 30 DANH MỤC BẢNG BIỂU Bảng 1.1 Hệ số ước tính mô hình hồi quy Logistic sử dụng Balance 13 Bảng 3.1 Thông tin liệu thử nghiệm cho toán lớp 31 Bảng 3.2 Các tham số thực nghiệm toán lớp 33 Bảng 3.3 Kết toán Breast cancer Banknote authentication 34 Bảng 3.4 Kết toán Spambase Magic Gamma Telescope 35 Bảng 3.5 Mô hình thực nghiệm toán lớp 36 Bảng 3.6 Thông tin liệu thử nghiệm cho toán nhiều lớp 39 Bảng 3.7 Các tham số thực nghiệm toán nhiều lớp 40 Bảng 3.8 Kết toán Heart Disease User Knowledge Modeling 41 Bảng 3.9 Mô hình liệu Heart Disease 42 Bảng 3.10 Mô hình liệu User Knowledge Modeling 44 Bảng 3.11 Phân bố lớp liệu chữ số viết tay 46 Bảng 3.12 Kết thí nghiệm toán nhận dạng chữ số viết tay 47 Bảng 3.13 Số biến mô hình toán nhận dạng chữ số viết tay 48 38 Magic Gamma Telescope X40 : -4.019e+00 X41 : -4.681e+01 X42 : -1.417e+01 X43 : -1.743e+01 X44 : -1.149e+02 X45 : -1.145e-01 X46 : -2.897e+00 X47 : -2.345e+02 X48 : -2.254e+00 X49 : -4.993e+00 X50 : -3.743e+00 X51 : 2.132e+00 X52 : 4.435e+00 X53 : 6.799e+00 X54 : 1.676e+01 X55 : 2.222e+00 X56 : -1.928e-02 X57 : 3.754e-03 X40 : X41 : -0.6552 X42 : -1.0791 X43 : -0.6058 X44 : -1.9895 X45 : -1.2512 X46 : -0.1623 X47 : -0.9537 X48 : -0.9269 X49 : -0.8401 X50 : X51 : 1.6861 X52 : 0.4832 X53 : 3.6310 X54 : 0.1477 X55 : 0.1993 X56 : X57 : 0.0002 X40 : -0.0629 X41 : -0.5684 X42 : -0.9017 X43 : -1.0625 X44 : -1.3908 X45 : -0.8651 X46 : -0.1767 X47 : -1.4090 X48 : -1.2702 X49 : -0.6584 X50 : 0.2176 X51 : 2.5878 X52 : 0.5656 X53 : 2.2855 X54 : 1.1258 X55 : 0.0435 X56 : 0.0003 X57 : 0.0002 Intercept: 16.0421 X1: -0.0710 X2: -0.1411 X3: -0.6227 X4: -38.0123 X5: 44.2963 X6: 0.0040 X7: 0.0077 X8: 0.0016 X10: -0.1200 X11: 0.0088 Intercept: 10.35 X1: -0.0612 X2: -0.125 X3: -0.1076 X4: -20.988 X5: 20.985 X6: 0.0036 X7: 0.0071 X8: 0.0008 X10: -0.1076 X11: 0.0045 Intercept: 6.2270 X1: -0.0219 X2: -0.0437 X3: 0.2809 X4: -2.2112 X5: -0.3281 X6: 0.0035 X7: 0.0065 X8: -0.0002 X10: -0.0441 X11: -0.0047 Nhận xét: Ta nhận thấy rằng, phương pháp hồi quy Ridge cho kết dự đoán lỗi tốt hơn, mô hình phù hợp cuối lại phức tạp Trong đó, mô hình phương pháp hồi quy Ridge có hệ số nhỏ hơn, mô hình Lasso có hệ số so với mô hình phương pháp hồi quy Ridge hồi quy Lasso 39 3.2 Đánh giá toán nhiều lớp Đối với toán có k lớp, cần phải tính logit lớp với (k-1) lớp lại Cúng ta có (k-1) phương trình Logistic lớp, dựa vào phần 1.3, từ dễ dàng dự đoán lớp mà đối tượng thuộc vào Đầu vào: Các file liệu thu thập từ trang web https://archive.ics.uci.edu/ml/datasets.html Dữ liệu đầu vào đa biến đầu có nhiều lớp Các tập liệu trình bày chi tiết bảng 3.5 Bảng 3.6 Thông tin liệu thử nghiệm cho toán nhiều lớp Tên CSDL Số biến Mô tả Heart 14 Thu thập thuộc tính độ tuổi, giới tính, vị trí Disease đau ngực, nồng độ cholesterol,… bệnh nhân nghi ngờ mắc bệnh tim Kết quả: kết luận tình trạng bệnh tim bệnh nhân Tác giả: - Hungarian Institute of Cardiology Budapest: Andras Janosi, M.D - University Hospital, Zurich, Switzerland: William Steinbrunn, M.D - University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D - V.A Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D Loại liệu biến: Số nguyên 40 User Knowledge Modeling Dữ liệu thực tế tình trạng kiến thức học sinh loại máy điện chiều Đầu ra: Kết luận tình trạng kiến thức học sinh Tác giả: - Hamdi Tolga Kahraman - Ilhami Colak - Seref Sagiroglu Loại liệu biến: Số nguyên 3.2.1 Các tham số kết thực nghiệm Từ file liệu gốc, thực huấn luyện (training) m ghi kiểm tra (testing) n ghi, ghi có p thuộc tính gán nhãn sẵn Bảng 3.7 Các tham số thực nghiệm toán nhiều lớp Số mẫu Dữ liệu Số biến Training Testing Heart Disease 250 40 14 User Knowledge Modeling 200 50 Dữ liệu thí nghiệm là: - Error trainning: Sai số (%) dự báo cho tập huấn luyện - Error testing: Sai số (%) dự báo cho tập kiểm tra 3.2.2 Kết Thí nghiệm xây dựng ngôn ngữ R – ngôn ngữ lập trình sử dụng ngày rộng rãi lĩnh vực thống kê 41 Bảng 3.8 Kết toán Heart Disease User Knowledge Modeling Lambda Ridge Modeling Error Error Error training testing training testing (%) (%) (%) (%) 35.2 40 2.5 0.01 33.6 45 6.9999 0.1 43.2 47.5 25.5 22 44.8 47.5 66.5 70 10 44.8 47.5 66.5 70 100 44.8 47.5 66.5 70 Best Bestlam = 0.0227 Bestlam = 0.0018 lambda 36 47.5 3.5 0.01 35.6 45 14.5 12 0.1 35.2 45 21 20 42.4 47.5 42 32 10 44.8 47.5 57 42 100 44.8 47.5 66.5 70 Best Bestlam = 0.1028 Bestlam = 0.0334 35.6 15 Logistic Hồi quy User Knowledge Error Hồi quy Lasso Heart Disease lambda 45 12 Với bestlam lambda tốt có qua phương pháp K-fold cross validation với k = 42 Nhận xét: Dựa vào kết bảng 3.7 3.8, ta nhận thấy rằng: Đối với hai tập huấn luyện thử nghiệm, phương pháp hồi quy Logistic phần lớn cho kết tốt Tuy nhiên, lựa chọn lambda hợp lý, phương pháp hồi quy Ridge Lasso cho tỷ lệ lỗi thấp cho với phương pháp hồi quy Logistic Mô hình thu sử dụng mô hình hồi quy Logistic crossvalidation cho hồi quy ridge Lasso với lambda tốt có từ bảng 3.7 3.8 Bảng 3.9 Mô hình liệu Heart Disease Hồi quy Logistic Intercept: -10.3693 X1: 0.0003 X2: 1.9375 X3: 0.7379 X4: 0.0278 X5: 0.0052 X6: -1.7341 Log(P1/P0) X7: 0.3662 X8: -0.01336 X9: 0.7773 X10: 0.2999 X11: 0.3620 X12: 0.8777 X13: 0.2030 Lasso Intercept: -5.3099 X1: X2: 0.7083 X3: 0.5814 X4: 0.0079 X5: 0.0005 X6: -0.5073 X7: 0.1947 X8: -0.0111 X9: 0.5044 X10: 0.2447 X11: 0.1762 X12: 0.5813 X13: 0.2570 Hồi quy Ridge Intercept: -5.7868 X1: 0.0079 X2: 0.9419 X3: 0.4277 X4: 0.0098 X5: 0.0021 X6: -0.7302 X7: 0.2065 X8: -0.0090 X9: 0.5471 X10: 0.1610 X11: 0.1888 X12: 0.3709 X13: 0.1736 Intercept: -12.1553 X1: 0.0310 X2: 1.1959 X3: 0.9252 X4: 0.0187 Log(P2/P0) X5: 0.0075 X6: -0.5042 X7: 0.2528 X8: -0.0281 X9: 0.8345 Intercept: -6.4155 X1: 0.0047 X2: 0.7083 X3: 0.5815 X4: 0.0079 X5: 0.0014 X6: -0.0126 X7: 0.1947 X8: -0.0153 X9: 0.5044 Intercept: -7.0432 X1: 0.0242 X2: 0.5945 X3: 0.4843 X4: 0.0064 X5: 0.0037 X6: -0.1423 X7: 0.1141 X8: -0.0167 X9: 0.6183 43 X10: 0.5214 X11: 0.5769 X12: 1.1843 X13: 0.3867 X10: 0.3888 X11: 0.1762 X12: 0.7948 X13: 0.2842 X10: 0.2699 X11: 0.3739 X12: 0.5486 X13: 0.2346 Intercept: -11.6605 X1: 0.0444 X2: 1.5595 X3: 1.1184 X4: 0.0265 X5: 0.0012 X6: -0.6487 Log(P3/P0) X7: 0.4439 X8: -0.0234 X9: 1.2365 X10: 0.7795 X11: 0.8789 X12: 1.6512 X13: 0.5195 Intercept: -6.7149 X1: X2: 0.7083 X3: 0.5814 X4: 0.0079 X5: 0.0005 X6: -0.0126 X7: 0.1947 X8: -0.0133 X9: 0.7408 X10: 0.5526 X11: 0.1762 X12: 0.8276 X13: 0.3283 Intercept: -6.4356 X1: -0.0013 X2: 0.7223 X3: 0.5398 X4: 0.0083 X5: 0.0008 X6: -0.1319 X7: 0.2036 X8: -0.0157 X9: 0.8009 X10: 0.4147 X11: 0.4507 X12: 0.6754 X13: 0.2908 Intercept: -23.0294 X1: 0.0325 X2: 1.9572 X3: 1.0334 X4: 0.0429 X5: 0.0002 X6: -1.8498 Log(P4/P0) X7: 0.8491 X8: -0.0035 X9: 0.8294 X10: 0.6105 X11: 1.0245 X12: 1.6414 X13: 0.6697 Intercept: -7.3511 X1: X2: 0.7083 X3: 0.5814 X4: 0.0079 X5: 0.0004 X6: -0.0126 X7: 0.1947 X8: -0.0111 X9: 0.5044 X10: 0.3888 X11: 0.1762 X12: 0.7948 X13: 0.2842 Intercept: -9.3580 X1: 0.0198 X2: 0.6656 X3: 0.4271 X4: 0.0132 X5: 0.0014 X6: -0.4553 X7: 0.2826 X8: -0.0094 X9: 0.4470 X10: 0.3415 X11: 0.4025 X12: 0.6165 X13: 0.2688 44 Bảng 3.10 Mô hình liệu User Knowledge Modeling Hồi quy Logistic Intercept: -29.8585 X1: -2.3273 X2: 10.6744 Log(P1/P0) X3: 6.5969 X4: 25.7055 X5: 87.9262 Lasso Intercept: -13.2123 X1: -2.0553 X2: 4.833 X3: 2.4098 X4: 11.9987 X5: 41.8671 Hồi quy Ridge Intercept: -0.9575 X1: -0.5308 X2: 2.2782 X3: 0.6401 X4: 1.9619 X5: 2.0012 Intercept: -60.6202 X1: -8.1262 X2: 13.279 Log(P2/P0) X3: 10.7449 X4: 40.7292 X5: 154.2592 Intercept: -29.7707 X1: -2.5926 X2: 5.3316 X3: 4.0389 X4: 20.8073 X5: 74.177 Intercept: -3.7668 X1: 0.2865 X2: 2.429 X3: 1.6082 X4: 1.3574 X5: 7.9676 Intercept: -98.3948 X1: -8.8208 X2: 12.4197 Log(P3/P0) X3: 15.8617 X4: 60.1812 X5: 197.0203 Intercept: -57.3830 X1: -2.0552 X2: 5.1645 X3: 6.3624 X4: 34.7113 X5: 105.8275 Intercept: -9.1666 X1: 0.2083 X2: 3.0524 X3: 1.4013 X4: 4.5244 X5: 14.0609 Nhận xét: Tương tự với toán lớp, mô hình phương pháp Logistic phức tạp so với mô hình phương pháp hồi quy Ridge Lasso Với liệu Heart Disease User Knowledge Modeling, mô hình phương pháp hồi quy Ridge có hệ số nhỏ Tuy nhiên phương pháp Lasso, có toán Heart Disease thu mô hình có hệ số hơn so với mô hình phương pháp hồi quy Ridge Lasso, toán User Knowledge Modeling không 3.3 Ứng dụng nhận dạng chữ số viết tay Nhận dạng chữ số viết tay cần thiết ứng dụng rộng rãi nhiều lĩnh vực nhận dạng chữ số chi phiếu ngân hàng, mã số bì thư dịch vụ bưu chính, hay chữ số biểu mẫu nói chung Vấn 45 đề nhận dạng chữ viết tay nói chung nhận dạng chữ số viết tay nói riêng thách thức lớn nhà nghiên cứu Bài toán lớn đặt phía trước phức tạp việc nhận dạng chữ viết phụ thuộc nhiều vào phong cách viết cách thể ngôn ngữ người viết Chúng ta luôn viết ký tự xác theo cách Do vậy, xây dựng hệ thống nhận dạng chữ viết nhận dạng ký tự cách đáng tin cậy tất ứng dụng điều không dễ dàng Khó khăn lớn nhận dạng chữ viết tay biến thiên đa dạng cách viết người Cùng người viết có nhiều khác biệt cách viết tùy thuộc vào ngữ cảnh, kiểu viết người thay đổi theo thời gian theo thói quen… Điều gây trở ngại việc trích chọn đặc trưng lựa chọn mô hình nhận dạng Để giải vấn đề vừa nêu, phạm vi đề tài này, trọng nghiên cứu số giải pháp nhận dạng chữ số viết tay Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả nhận dạng chữ số viết tay, đề xuất phân tích so sánh cải tiến với thuật toán, thử nghiệm liệu thực Đầu vào: tập liệu lấy từ trang web: https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+ Digits Dữ liệu đầu vào đa biến với thuộc tính dạng số nguyên phân lớp bao gồm: Tập huấn luyện: 3823 đối tượng Tập kiểm tra: 1797 đối tượng 46 Mỗi đối tượng bitmap 32x32 chữ số viết tay chia thành khối 4x4 không chồng lấn nhau, có giá trị số lượng điểm ảnh khối Vì thế, đầu vào ma trận 8x8 Số thuộc tính: 64 thuộc tính + thuộc tính lớp Mỗi thuộc tính: - Tất 64 thuộc tính đầu vào kiểu số nguyên khoảng 16 - Thuộc tính lớp kiểu số nguyên khoảng Phân bố lớp: Bảng 3.11 Phân bố lớp liệu chữ số viết tay Tập huấn luyện Tập kiểm tra : 376 : 389 : 380 3: 389 : 387 : 376 : 377 : 387 : 380 : 382 : 376 : 389 : 380 3: 389 : 387 : 376 : 377 : 387 : 380 : 382 Sau ta áp dụng mô hình hồi quy Logistic phương pháp hồi quy Ridge Lasso để tiến hành thử nghiệm kiểm tra độ xác phương pháp 47 Bảng 3.12 Kết thí nghiệm toán nhận dạng chữ số viết tay Lambda Error training Error testing (%) (%) 0.6539 5.51 0.01 5.179 8.2359 0.05 13.2879 16.4162 0.1 36.3065 38.6199 89.8247 89.8163 10 89.8247 89.8163 100 89.8247 89.8163 Hồi quy Logistic Lasso Digit Bestlam = 0.0004 Best lambda Hồi quy Ridge 0.9155 4.3405 0.01 3.2173 6.2882 0.05 4.1329 6.5665 0.1 5.0222 7.1786 8.1872 11.0183 10 16.1653 18.3082 100 56.6832 57.4290 Bestlam = 0.022 Best lambda 3.2435 6.5108 Với bestlam lambda tốt có qua phương pháp K-fold cross validation với k = 10 Nhận xét: Từ bảng 3.12 ta nhận thấy, tập huấn luyện, kết phương pháp hồi quy Logistic cho kết tốt so với hai phương pháp 48 Lasso hồi quy Ridge Đối với tập thử nghiệm, với lambda hợp lý, phương pháp Lasso cho kết tốt so với phương pháp hồi quy Logistic hồi quy Ridge Bảng 3.13 Số biến mô hình toán nhận dạng chữ số viết tay Ln(P1/P0) Ln(P2/P0) Ln(P3/P0) Ln(P4/P0) Ln(P5/P0) Ln(P6/P0) Ln(P7/P0) Ln(P8/P0) Ln(P9/P0) Hồi quy Logistic 64 64 64 64 64 64 64 64 64 Số biến Lasso 36 34 31 38 36 39 32 38 35 Hồi quy Ridge 64 64 64 64 64 64 64 64 64 Ta thấy số lượng hệ số mô hình theo phương pháp Lasso nhiều so với phương pháp hồi quy Logistic hồi quy Ridge 3.4 Kết luận Qua thời gian nghiên cứu ứng dụng phương pháp hồi quy vào toán “Nhận dạng chữ số viết tay”, mô hình đưa kết gần với dự liệu thu thập được, việc đánh giá so sánh ưu nhược điểm mô hình trình bày mục 3.3 49 KẾT LUẬN VÀ KHUYẾN NGHỊ Kết luận Qua thời gian nghiên cứu ứng dụng phương pháp điều hòa học máy, kỹ thuật đưa cho kết sát với liệu thu thập được, việc đánh giá so sánh ưu nhược điểm kỹ thuật trình bày chương Tuy nhiên luận văn thử nghiệm kỹ thuật dựa số liệu thử nghiệm, có sẵn kết so sánh để định hướng tiêu chuẩn cho liệu, thực tế áp dụng cho lĩnh vực hay liệu khác có nhiều khó khăn Do luận văn mở rộng nghiên cứu chuyên sâu vào lĩnh vực ứng dụng phương pháp thông số kỹ thuật tốt Khuyến nghị Qua thời gian thực luận văn nghiên cứu tổng quan toán phương pháp hồi quy Logistic, phương pháp điều hòa lựa chọn mô hình, ứng dụng toán “Nhận dạng chữ số viết tay” Đã cài đặt thử nghiệm phương pháp với tập liệu đa biến, với phương pháp hồi quy Logistic, hồi quy chóp, Lasso, cross validation; so sánh kết phương pháp với Qua thực nghiệm số tập liệu thu thập nói phương pháp hồi quy Logistic cho lỗi thử nghiệm nhất, nhiên hồi quy chóp vào Lasso cho mô hình phù hợp đơn giản Với phương pháp có ưu nhược điểm khác phù hợp với tập liệu thống kê Mặc dù luận văn đạt mục tiêu đề số điểm hạn chế sau: 50 Thứ nhất, phạm vi ứng dụng luận văn nhỏ, chưa có ứng dụng toán thực Thứ hai, vấn đề điều kiện nghiên cứu thời gian nên liệu phục vụ thực nghiệm chưa phong phú cỡ mẫu nhỏ, kết thu chưa đánh giá hết hiệu mô hình 51 PHỤ LỤC THAM KHẢO Tiếng Anh: [1] Arthur, Samuel (1959), Some Studies in Machine Learning Using the Game of Checkers [2] Damodar N Gujarati (1995), Basic Econometrics, Third Edition, McGraw-Hill [3] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani (2014), An Introduction to Statistical Learning with Applications in R, Springer New York Heidelberg Dordrecht London [4] Jerome Friedman, Trevor Hastie, Robert Tibshirani (2010), Journal of Statistical Software, Volume 33, Issue [5] John P Hoffmann (2010), Linear Regression Analysis: Applications and Assumptions, Brigham Young University, [6] Stuart J Russell and Peter Norvig (2003), Artificial Intelligence: A Modern Approach, Second Edition, Prentice Hall [7] Xin Yan and Xiao Gang Su (2010), Linear Regression Analysis theory and computing, International Statistical Review [8] Zhu, J and Hastie, T (2004), elasticnet: Elastic Net Regularization and Variable Selection, R package version 1.02, URL http://CRAN.Rproject.org/package=elasticnet LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Mạnh Hưng Ngày tháng năm sinh: 03/02/1992 Nơi sinh: Ninh Bình Địa liên lạc: Số 4/4 Phố Ngô Quyền – Phường Nam Bình – Thành phố Ninh Bình – Tỉnh Ninh Bình Quá trình đào tạo: + Từ năm 2010 đến 2014: Học đại học hệ quy Đại học Phương Đông + Từ năm 2014 đến nay: Học cao học chuyên ngành Khoa học máy tính Học viện kỹ thuật quân Quá trình công tác: + Từ năm 2015 đến nay: Nhân viên công ty cổ phần giải pháp công nghệ GO

Ngày đăng: 06/07/2017, 22:05

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan