Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
2,38 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ MỘT SỐ THUẬT TOÁN TỐI ƯU NGẪU NHIÊN VÀ ỨNG DỤNG ĐINH TUẤN CƯỜNG cuong.dinhtuan153@gmail.com Ngành: Toán Tin Giảng viên hướng dẫn: TS.Vũ Thành Nam Viện: Chữ kí GVHD Toán ứng dụng Tin học HÀ NỘI, 11/2021 LỜI CẢM ƠN Lời đầu tiên, tác giả xin bày tỏ lòng biết ơn chân thành sâu sắc tới TS Vũ Thành Nam, người tận tình hướng dẫn, giúp đỡ động viên tác giả suốt trình thực luận văn Tác giả xin trân trọng cảm ơn Viện Toán ứng dụng Tin học, Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi cho tác giả trình học tập nghiên cứu Xin cảm ơn thầy cô, bạn sinh viên, học viên cao học Viện Toán ứng dụng Tin học giúp đỡ, trao đổi tác giả kiến thức kinh nghiệm quý báu để giúp cho luận văn hoàn thiện Tác giả xin gửi lời cảm ơn chân thành tới đồng nghiệp công ty One Mount Group hỗ trợ tác giả trình làm việc tạo điều kiện cho tác giả thời gian nghiên cứu thực đề tài Cuối cùng, tác giả xin kính tặng người thân yêu niềm hạnh phúc vinh dự to lớn này! TÓM TẮT NỘI DUNG LUẬN VĂN Nhiều mơ hình học máy (machine learning) dẫn đến tốn tối ưu hàm mục tiêu xuất viết dạng tổng hàm chi phí tập huấn luyện hữu hạn viết dạng kỳ vọng hàm rủi ro (risk function) Với toán tối ưu cỡ lớn (dữ liệu lớn), ta sử dụng phương pháp hướng giảm gradient cổ điển chi phí tính tốn cao (vì phải tính gradient cho tồn hàm thành phần) Vì việc sử dụng kỹ thuật hướng giảm gradient ngẫu nhiên (stochastic gradient descent) mang lại lợi ích mặt tính tốn ta chọn ngẫu nhiên hướng giảm gradient hàm thành phần Do đề tài nghiên cứu thuật toán tối ưu ngẫu nhiên ứng dụng học máy Trong nội dung luận văn này, tác giả trình bày phương pháp hướng giảm gradient ngẫu nhiên số biến thể cải tiến, ứng dụng vào thuật toán hồi quy Logistic Các thử nghiệm số thực trên liệu số viết tay liệu chấm điểm tín dụng thực tế Việt Nam Từ khóa: Hướng giảm gradient ngẫu nhiên, stochastic, SVM, hồi quy Logistic, chấm điểm tín dụng Hà Nội, ngày 30 tháng 11 năm 2021 Giáo viên hướng dẫn HỌC VIÊN Kí ghi rõ họ tên Kí ghi rõ họ tên Mục lục DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU BẢNG KÍ HIỆU VÀ CÁC TỪ NGỮ VIẾT TẮT LỜI NÓI ĐẦU KIẾN THỨC CHUẨN BỊ 1.1 Học máy 1.2 Ký hiệu định nghĩa 1.3 Tối ưu học máy 1.3.1 Các mơ hình tuyến tính: 1.3.2 Mạng nơ-ron hồi quy logistic 7 8 11 THUẬT TOÁN HƯỚNG GIẢM GRADIENT 12 2.1 Thuật toán hướng giảm gradient cổ điển 12 2.2 Một số biến thể thuật toán hướng giảm Gradient 14 2.2.1 Thuật toán hướng giảm gradient toàn (Batch Gradient Descent) 14 2.2.2 Thuật toán hướng giảm gradient ngẫu nhiên (Stochastic Gradient Descent) 15 2.2.3 Thuật toán hướng giảm gradient nhiều điểm (Mini-Batch Gradient Descent) 15 THUẬT TỐN HƯỚNG GIẢM GRADIENT NGẪU CĨ ĐÀ 3.1 Giới thiệu 3.2 Chứng minh hội tụ 3.2.1 Momentum 3.2.2 Công thức Lyapunov NHIÊN 17 17 19 19 20 3.2.3 Hội tụ trường hợp đa tầng SGDM THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Bài toán phân loại chữ viết tay 4.1.1 Dữ liệu huấn luyện 4.1.2 Kết thực nghiệm 4.2 Bài tốn chấm điểm tín dụng 4.2.1 Giới thiệu toán 4.2.2 Dữ liệu 4.2.3 Phương pháp đánh giá 4.2.4 Kết đánh giá KẾT QUẢ 21 24 24 24 26 27 27 30 32 34 KẾT LUẬN 38 TÀI LIỆU THAM KHẢO 38 DANH MỤC HÌNH VẼ 1.1 Hàm chi phí thuật tốn hồi quy Logistic 11 2.1 2.2 Thuật toán hướng giảm gradient Độ lớn bước nhảy ảnh hưởng tới hội tụ thuật toán 13 14 4.1 4.2 4.3 4.4 4.5 4.6 4.7 MNIST: Bộ sở liệu chữ số viết tay MNIST: Hình ảnh số biểu diễn dạng ma trận Kết so sánh phiên SGD Kết so sánh phiên SGD Thông tin số lượng khách hàng tỉ lệ nợ xấu qua tháng Ma trận hỗn loạn Đường cong ROC 25 25 26 27 31 33 34 DANH MỤC BẢNG BIỂU 4.1 4.2 4.3 4.4 4.5 4.6 Bảng so sánh kết thời gian chạy thuật toán Các loại liệu sử dụng để xây dựng features tốn chấm điểm tín dụng Thông tin chi tiết cách chia tập train/test Kết mơ hình tập train/val tính theo cross-validation Kết mơ hình tập test tính theo tháng Đánh giá độ xác mơ hình 26 30 32 35 36 36 BẢNG KÍ HIỆU VÀ CÁC TỪ NGỮ VIẾT TẮT GD Thuật toán hướng giảm gradient - Gradient Descent SGD Thuật toán hướng giảm gradient ngẫu nhiên - Stochastic Gradient Descent SGDM Thuật toán hướng giảm gradient ngẫu nhiên có đà - Stochastic Gradient Descent with momentum LỜI NÓI ĐẦU Trong nội dung luận văn, tác giả trình bày nghiên cứu thuật toán hướng giảm gradient ngẫu nhiên ứng dụng toán phân loại số viết tay tốn chấm điểm tín dụng Nội dung luận văn gồm có phần: • Chương 1: Trình bày kiến thức tối ưu lồi ứng dụng học máy • Chương 2: Trình bày thuật tốn hướng giảm gradient số biến thể cải tiến • Chương 3: Trình bày thuật tốn hướng giảm gradient ngẫu nhiên có đà • Chương 4: Trình bày kết thực nghiệm thuật toán liệu số viết tay liệu chấm điểm tín dụng thực tế Luận văn hồn thành chương trình Thạc sĩ Khoa học ngành Tốn tin Viện Toán ứng dụng Tin học, Đại học Bách Khoa Hà Nội hướng dẫn TS Vũ Thành Nam Mặc dù hoàn thành với nhiều cố gắng hạn chế thời gian kinh nghiệm, luận văn tránh khỏi sai sót Tác giả mong nhận ý kiến đóng góp q báu từ thầy bạn học viên để luận văn hoàn thiện CHƯƠNG KIẾN THỨC CHUẨN BỊ 1.1 Học máy Học máy thuật ngữ khai sinh vào cuối năm 50 Arthur Samuel Nó lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống học tự động từ liệu để giải vấn đề cụ thể Ví dụ máy xác định phân biệt đồ vật gia đình, hay nhận diện khuôn mặt dựa liệu lịch sử Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận xếp vào loại tốn NP-khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý Các thuật toán học máy thường chia thành ba loại dựa vào liệu học gồm có: học có giám sát (supervised learning), học khơng giám sát (unsupervised learning) học tăng cường (reinforcement learning) Học có giám sát Phương pháp học có giám sát đòi hỏi liệu huấn luyện phải gán nhãn Một loạt thuật toán máy học dựa phương pháp bao gồm: hồi quy tuyến tính, hồi quy logistic, phân lớp Bayes (naive bayes), định, k – láng giềng gần máy vector hỗ trợ (support vector machine), Những phương pháp chủ yếu phương pháp hồi quy phân loại Nguyên tắc hoạt động thuật toán việc học ánh xạ sau: y = f (x) (1.1.1) Với đầu vào x xác định đầu y tương ứng Các thuật tốn tìm tối ưu hóa tham số ánh xạ cách giảm thiểu hàm chi phí đại diện cho tổng lỗi dự đoán hệ thống dựa vào tập liệu gán nhãn Học không giám sát Học không giám sát phương pháp tạo mơ hình có khả trích xuất cấu trúc liệu mà khơng cần gán nhãn Nhìn chung, với phương LUẬN VĂN THẠC SĨ 4.1.2 ĐINH TUẤN CƯỜNG Kết thực nghiệm Phần này, tác giả đánh giá kết thực với phiên khác thuật toán SGDM (cố định độ lớn bước nhảy trọng số; SGDM đa tầng) so sánh với thuật tốn SGD ngun Hình 4.3: Kết so sánh phiên SGD Ta thấy cố định β = 0.9 500 bước lặp đầu tiên, với α = 0.1 thuật tốn hội tụ không nhanh với α = α = 0.5, sau khoảng 10000 vòng lặp, α = 0.1 thu kết tốt so với giá trị khác Như thấy tăng tốc độ hội tụ thuật tốn sử dụng α với giá trị thích hợp vịng lặp khác để thu kết hội tụ nhanh tốt Phần tiếp theo, tác giả sử dụng thuật toán SGDM đa tầng để so sánh với thuật toán cố định α β để có nhìn rõ tốc độ hội tụ giá trị hàm chi phí thu sau vịng lặp Thời gian huấn luyện (giây) Thuật tốn Cross Entropy Loss Seed Seed Seed SGDM đa tầng 0.269 2.318 2.271 2.634 SGDM α = 0.5, β = 0.9 0.305 2.384 2.399 2.362 SGDM α = 0.1, β = 0.9 0.275 2.354 2.342 2.413 SGD 0.275 2.372 2.297 2.464 Bảng 4.1: Bảng so sánh kết thời gian chạy thuật toán 26 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Hình 4.4: Kết so sánh phiên SGD Ta thấy thuật toán SGDM đa tầng hội tụ nhanh thu kết tốt so với thuật toán SGD thuật toán SGDM (trong hai trường hợp cố định bước nhảy α trọng số β hình 4.4) Trong đó, thời gian chạy thuật tốn khơng có khác biệt rõ rệt (bảng 4.1) Ở phần tiếp theo, tác giả sử dụng thuật tốn SGDM đa tầng tốn chấm điểm tín dụng 4.2 4.2.1 Bài tốn chấm điểm tín dụng Giới thiệu toán Trong năm vừa qua, hoạt động tín dụng ngân hàng, tổ chức tín dụng có nhiều đóng góp to lớn cho tăng trưởng chung kinh tế đất nước Các tổ chức tài khơng ngừng cải tiến quy trình, nghiệp vụ để 27 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG làm giảm đến mức thấp rủi ro tín dụng, bên cạnh tối ưu vận hành, để giúp giảm thời gian xét duyệt, thẩm định khoản vay, nâng cao trải nghiệm khách hàng Do đó, tổ chức tín dụng xây dựng hệ thống xếp hạng tín dụng nội để nhằm hỗ trợ quản lý rủi ro tín dụng hiệu quả, giúp tổ chức tài đánh giá mức độ rủi ro khách hàng, lựa chọn khách hàng xây dựng sách rủi ro cách hợp lý Trước đây, thời gian để xét duyệt khoản vay kéo dài từ vài ngày tháng tổ chức tín dụng cần thời gian công sức để xác định, định giá tài sản đảm bảo, hồ sơ, khách hàng trước định có cho vay hay khơng Việc đơi gặp phải sai lầm việc đánh giá hay xác minh hầu hết dựa vào kinh nghiệm tri thức kiểm định viên Trong thời đại kinh tế thị trường, tổ chức tài muốn mở rộng quy mơ hoạt động, cạnh tranh tổ chức tài trở nên khắc nghiệt hết, lúc tổ chức cung cấp trải nghiệm khách hàng thoải mái, cung cấp khoản vay cách nhanh chóng đảm bảo rủi ro tín dụng có lợi lớn việc thu hút khách hàng, mở rộng phát triển Điểm tín dụng lần đầu xuất từ năm 1909 Mỹ, công ty John Moodys sử dụng để xếp hạng trái phiếu đường sắt Mỹ Đến nay, trải qua 100 năm, điểm tín dụng thu thành công ngày sử dụng rộng rãi không nước phương tây mà ở Việt Nam Những ưu điểm việc sử dụng điểm tín dụng giúp tối ưu q trình cho vay từ việc tính theo ngày xuống cịn vài giờ, chí số tổ chức tín dụng cịn cung cấp khoản vay tiêu dùng tín chấp mà thời gian xét duyệt kéo dài không tiếng đồng hồ Bên cạnh đó, việc sử dụng điểm tín dụng hạn chế tác động người việc xét duyệt khoản vay, tiến tới tự động hoá, giúp tối ưu vận hành, rủi ro trải nghiệm khách hàng Điểm tín dụng cá nhân tổ chức thể khả mà định chế tài phải gia tăng chi phí quản lý rủi ro hoặc/và chi phí thu nợ tương lai chấp thuận cấp tín dụng cho cá nhân tổ chức Có hai dạng điểm tín dụng chính: điểm tín dụng hành vi vay vốn điểm tín dụng hành vi trả nợ • Điểm tín dụng hành vi vay vốn: hình thành thời điểm trước định cấp tín dụng, giúp định chế tài xác định xác suất dẫn đến gia tăng chi phí quản lý rủi ro tương lai Hiện có dạng điểm giúp định chế cho vay giải vấn đề sau: – Định danh giả mạo: Điểm định danh khách hàng 28 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG – Địa điểm giả mạo: Điểm địa chỉ/vị trí khách hàng – Điểm gian lận: Điểm gian lận khách hàng – Điểm tín dụng tổng thể (dự đốn xác suất vỡ nợ): Điểm tín dụng • Điểm tín dụng hành vi trả nợ: hình thành sau định cấp tín dụng, giúp định chế tài xác định chiến lược thu hồi nợ phù hợp nhằm gia tăng tỷ lệ nợ thu hồi giảm thiểu chi phí thu hồi nợ Thơng thường, tổ chức thường dựa vào liệu thể trực tiếp khả tài khách hàng, hợp đồng lao động, kê lương, lịch sử tín dụng (thường biết đến với tên gọi CIC) Tuy nhiên, phương pháp gặp phải số hạn chế sau: • Những người chưa sử dụng thẻ, chưa có tài khoản ngân hàng chưa vay khơng có lịch sử tín dụng • Trong thực tế, nhiều người khơng có hợp đồng lao động, kê lương hàng tháng phản ánh thu nhập thực tế • Thơng tin ghi nhận CIC khơng cịn cập nhật nên kể người vay, sau nhiều năm hồn cảnh tài cá nhân khách hàng thay đổi, khơng thể đánh giá hết khả tài khách hàng Trong đó, với phương pháp chấm điểm tín dụng sử dụng học máy liệu lớn, tất loại liệu có giá trị Ví dụ liệu hành vi, thói quen mua sắm trực tuyến, mua sắm tiêu dùng, tốn loại cước phí, chí liệu khám chữa bệnh sử dụng chấm điểm tín dụng Ví dụ khách hàng khơng có khoản vay ngân hàng họ có nhiều khoản khác cần tốn hàng tháng Việc trả tiền hạn phần xác định mức độ rủi ro tín dụng khách hàng Ví dụ khách hàng trả hóa đơn điện thoại di động trả sau định kỳ, tốn theo u cầu hóa đơn tiền điện, nước, Internet hay tiện ích khác, với mức độ chi tiêu trực tuyến, mua sắm online tạo nên thước đo việc chấm điểm tín dụng Các chuyên gia đánh giá liệu thay có khả hỗ trợ tốt đánh giá rủi ro tín dụng có độ phủ rộng thường xuyên cập nhật Việc kết nối thông tin từ giao dịch mà khách hàng tham gia hàng ngày tạo chế giám sát hữu hiệu bổ sung cho phương pháp đánh giá rủi ro tín dụng truyền thống 29 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Tuy nhiên, sử dụng nhiều nguồn liệu đặt thách thức khơng nhỏ việc phân tích để đưa kết nhanh chóng, xác hữu ích từ liệu lớn Khi đó, học máy trí tuệ nhân tạo cho giải pháp tiềm để xử lý nguồn thông tin khổng lồ Tất giao dịch khác họ mua hàng tạp hóa, tốn hóa đơn tiện ích, chuyển tiền cho gia đình bạn bè chí mua vé cho phim kết hợp để cung cấp nhìn tồn diện hành vi tài khả trả nợ khách hàng 4.2.2 Dữ liệu Như tác giả trình bày phần trước, ngày nhiều loại liệu thay sử dụng để chấm điểm tín dụng cho khách hàng, khơng giúp mở rộng tập khách hàng mà giúp nâng cao tính xác điểm tín dụng Với đặc thù cơng ty, tổ chức tài sử dụng loại liệu khác để chấm điểm tín dụng Trong luận văn này, tác giả sử dụng liệu thực tế lịch sử mua sắm, tiêu dùng, giao dịch, khoảng 63000 khách hàng tổ chức Việt Nam từ tháng 09/2018 tới tháng 06/2020 để chấm điểm tín dụng cho khách hàng Đây nguồn liệu thực tế người dùng nên nhạy cảm bảo mật, phạm vi luận văn, tác giả miêu tả cách khái quát liệu sau: STT Loại liệu Chi tiết Hành vi tiêu dùng thiết yếu Thời gian, số lượng, địa điểm, thông tin mặt hàng giá trị đơn hàng khách hàng mua siêu thị, mua hàng trực tuyến Hoá đơn điện, nước, điện thoại, mạng Lịch sử toán hoá đơn Hoá đơn dịch vụ hộ, gửi xe, bảo trì Hố đơn tiền học Lịch sử du lịch, nghỉ dưỡng khách hàng: thời gian, Hành vi tiêu dùng cao cấp khách sạn, chi phí Lịch sử khám chữa bệnh bệnh viện sao: thời gian, chi phí Lịch sử, thời gian thao tác: vuốt, chạm, bấm, lướt Hành vi ứng dụng điện thoại khách hàng sử dụng ứng dụng điện thoại Lịch sử giao dịch trực tuyến khách hàng ứng dụng Bảng 4.2: Các loại liệu sử dụng để xây dựng features tốn chấm điểm tín dụng 30 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Từ nguồn liệu trên, tác giả xây dựng 900 thuộc tính (features) để đưa vào mơ hình huấn luyện Để chọn lọc thuộc tính tốt nhất, tác giả tiến hành chuẩn hoá liệu chọn lọc thuộc tính quan trọng bước sau: • Loại bỏ thuộc tính có độ tương quan với cao (correlation), giữ lại thuộc tính có số thơng tin (Information value) cao • Tiến hành bước lặp cho bỏ bớt thuộc tính khơng làm ảnh hưởng nhiều tới chất lượng mơ hình Q trình lặp kết thúc tác giả thu 54 thuộc tính quan trọng từ 900 thuộc tính ban đầu Dữ liệu nhãn tác giả sử dụng liệu lịch sử cho vay tín dụng từ năm 2018 tới năm 2020 63000 khách hàng, với định nghĩa khách hàng nợ xấu khách hàng nợ hạn 30 ngày thời hạn vay từ tháng trở lên Hình 4.5: Thơng tin số lượng khách hàng tỉ lệ nợ xấu qua tháng Tác giả chia tập liệu thành tập liệu huấn luyện (tập train) tập kiểm tra (tập test) với số lượng chi tiết bảng 4.3 Tập kiểm tra gồm có phần OOS(out of sample - không trùng khách hàng với tập huấn luyện) OOT (out of time - thời gian tập kiểm tra sau tập huấn luyện) 31 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Tháng Số lượng khách hàng Tỉ lệ bad Train Test 2018-09-01 2885 7.47% 2452 433 2018-10-01 3570 6.39% 3034 536 2018-11-01 2526 5.84% 2147 379 2018-12-01 2911 5.84% 2474 437 2019-01-01 3546 6.22% 3014 532 2019-02-01 3365 6.21% 2860 505 2019-03-01 2201 6.92% 1871 330 2019-04-01 3420 5.95% 2907 513 2019-05-01 2408 5.52% 2047 361 2019-06-01 2690 6.04% 2286 404 2019-07-01 3423 6.75% 2910 513 2019-08-01 3278 6.53% 2786 492 2019-09-01 2406 5.76% 2045 361 2019-10-01 2313 7.29% 1966 347 2019-11-01 2486 7.27% 2113 373 2019-12-01 2732 6.95% 2322 410 2020-01-01 3146 6.08% 2674 472 2020-02-01 3261 6.45% 2772 489 2020-03-01 3477 6.89% 2955 522 2020-04-01 2229 6.05% 2229 2020-05-01 2995 7.30% 2995 2020-06-01 2462 5.96% 2462 Bảng 4.3: Thông tin chi tiết cách chia tập train/test Ta thấy liệu không cân phần lớn khách hàng khách hàng tốt, tỉ lệ khách hàng nợ xấu khoảng 6% 4.2.3 Phương pháp đánh giá - Ma trận hỗn loạn: Ma trận hỗn loạn (confusion matrix) thường sử dụng làm sở cho biện pháp đánh giá mơ hình cho toán phân lớp, đặc biệt toán phân lớp nhị phân 32 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Hình 4.6: Ma trận hỗn loạn Trong tốn đánh giá tín dụng, ta quan tâm đến việc tìm người đăng kí tín dụng khơng thể trả nợ hạn (tín dụng xấu) nên nhãn positive thử nghiệm nhãn tín dụng xấu nhãn negative nhãn tín dụng tốt True positive số mẫu mà mơ hình gán nhãn positive thực mẫu có nhãn positive False positive số mẫu mà mơ hình gán nhãn positive thực mẫu có nhãn negative Tương tự ta có định nghĩa true negative false negative - Độ xác: Độ xác mơ hình tính bởi: Độ xác = TP + TN TP + FP + TN + FN - Đường cong ROC: Trong toán đánh giá tín dụng, việc gán nhãn nhầm người đăng kí tín dụng có tín dụng xấu thành tín dụng tốt gây tổn thất nhiều lần so với lợi ích việc gán nhãn người đăng kí tín dụng có tín dụng tốt Thơng thường toán phân lớp nhị phân, máy phân lớp gán nhãn sử dụng ngưỡng phân loại xác suất cho nhãn positive 0.5, tức với mẫu bất kì, xác suất dự đốn thuộc nhãn positive lớn 0.5 gán nhãn positive cho mẫu; ngược lại gán nhãn negative Tuy nhiên tổ chức tín dụng, việc chọn ngưỡng phân loại tuỳ thuộc vào vị rủi ro tổ chức Để đánh giá mơ hình hoạt động với ngưỡng phân loại khác nào, ta sử dụng đến đường cong ROC Đường cong ROC có trục x tỉ lệ false positive (FPR): FPR = FP FP + TN 33 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG trục y tỉ lệ true positive (TPR): TPR = TP TP + FN FPR thể tỉ lệ số người cho vay có tín dụng tốt gán nhãn xấu tổng số người cho vay có tín dụng tốt Ngược lại TPR cho biết tỉ lệ số người cho vay có tín dụng xấu gán nhãn xấu tổng số người cho vay có tín dụng xấu Hình 4.7: Đường cong ROC Đường cong ROC bao gồm điểm rời rạc nối với thành đường, với điểm thể FPR TPR tương ứng với ngưỡng phân loại xác suất cho nhãn positive Khi ngưỡng phân loại 1, FPR TPR ngược lại ngưỡng phân loại 0, FPR TPR Mơ hình tốt có ngưỡng mà TPR FPR Người ta đại lượng hóa đường cong ROC đại lượng AUC (area under the ROC curve) AUC có giá trị diện tích phần nằm đường cong ROC Ngồi tốn chấm điểm tín dụng, hay sử dụng số Gini, tính sau: Gini = ∗ AU C − 4.2.4 Kết đánh giá Tác giả sử dụng thuật toán hồi quy Logistic kết hợp với số phương pháp lấy lại mẫu để làm giảm cân nhãn thực 34 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG phương pháp lựa chọn thuộc tính biến cho mơ hình Tác giả sử dụng kỹ thuật 5-folds cross-validation để phát triển mơ hình tập huấn luyện thực kiểm tra kết tập kiểm tra thu kết chi tiết sau: Train Val AUC Gini AUC Gini test1 0.9355 0.8710 0.8360 0.6720 test2 0.9364 0.8728 0.8208 0.6416 test3 0.9357 0.8714 0.8336 0.6672 test4 0.9331 0.8662 0.8309 0.6618 test5 0.9338 0.8676 0.8311 0.6622 test6 0.9323 0.8646 0.8383 0.6766 test7 0.9333 0.8666 0.8384 0.6768 test8 0.9373 0.8746 0.8237 0.6474 test9 0.9360 0.8720 0.8327 0.6654 test10 0.9352 0.8704 0.8334 0.6668 Bảng 4.4: Kết mơ hình tập train/val tính theo cross-validation Kết thu tốt tập validation có Gini từ 0.6 trở lên tất tập đánh giá Gini tập train mức 0.8 Sau đó, tác giả thực kiểm tra kết mơ hình tập test, thu kết sau: 35 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Tháng Số lượng khách hàng Tỉ lệ bad AUC test Gini test 2018-09-01 2885 7.47% 0.7392 0.4784 2018-10-01 3570 6.39% 0.8196 0.6392 2018-11-01 2526 5.84% 0.6674 0.3348 2018-12-01 2911 5.84% 0.7150 0.4300 2019-01-01 3546 6.22% 0.7040 0.4080 2019-02-01 3365 6.21% 0.7443 0.4886 2019-03-01 2201 6.92% 0.7022 0.4044 2019-04-01 3420 5.95% 0.7644 0.5288 2019-05-01 2408 5.52% 0.7480 0.4960 2019-06-01 2690 6.04% 0.7528 0.5056 2019-07-01 3423 6.75% 0.7312 0.4624 2019-08-01 3278 6.53% 0.7674 0.5348 2019-09-01 2406 5.76% 0.7854 0.5708 2019-10-01 2313 7.29% 0.7433 0.4866 2019-11-01 2486 7.27% 0.7972 0.5944 2019-12-01 2732 6.95% 0.7843 0.5686 2020-01-01 3146 6.08% 0.7789 0.5578 2020-02-01 3261 6.45% 0.7425 0.4850 2020-03-01 3477 6.89% 0.7833 0.5666 2020-04-01 2229 6.05% 0.7031 0.4062 2020-05-01 2995 7.30% 0.7026 0.4052 2020-06-01 2462 5.96% 0.7082 0.4164 Bảng 4.5: Kết mơ hình tập test tính theo tháng Dựa vào kết đánh giá ta thấy mơ hình cho kết ổn định qua tháng tập kiểm tra, đặc biệt ba tháng OOT mơ hình cho kết tốt (gini 0.4), kết khả quan áp dụng vào thực tế Tiếp theo, tác giả so sánh kết sử dụng SGDM đa tầng với sử dụng thuật toán khác, kết thu sau: Model Gini(Train) Gini(Test) Thời gian huấn luyện (giây) SGDM đa tầng 0.6697 0.4895 11.0 LGBMClassifier 0.9143 0.5032 30.8 XGBClassifier 0.8271 0.4821 226.7 Bảng 4.6: Đánh giá độ xác mơ hình 36 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG Mơ hình sử dụng LGBMClassifier cho kết cao ta thấy kết bị overfit nặng tập huấn luyện Mô hình sử dụng XGBClassifier nhiều thời gian để huấn luyện, gặp vấn đề với overfit Mặc dù mơ hình sử dụng SGDM đa tầng khơng thu kết tốt tập kiểm tra lại có ổn định từ tập huấn luyện tới tập kiểm tra thuật toán chạy thời gian nhanh nhất, đánh giá cao sử dụng thực tế Kết mở hướng nghiên cứu kết hợp phương pháp với để thu kết tốt nữa, cải thiện thuật tốn SGDM đa tầng để thu kết tốt 37 KẾT LUẬN Qua luận văn này, lần cho ta thấy sức mạnh to lớn thuật toán hướng giảm gradient ngẫu nhiên tốn có liệu lớn Ngồi tác giả có số đóng góp sau: • Trình bày thuật tốn hướng giảm gradient ngẫu nhiên thuật tốn gradient cải tiến, trình bày chứng minh hội tụ thuật tốn • Áp dụng thuật toán SGDM vào toán phân loại chữ viết tay • Tác giả áp dụng thuật tốn SGDM vào tốn chấm điểm tín dụng thực tế doanh nghiệp thu kết khả quan, có khả ứng dụng thực tế Kết thuật toán sử dụng thực tế doanh nghiệp để rút ngắn việc đưa định tín dụng cho doanh nghiệp, giúp nâng cao suất, hiệu công việc trải nghiệm khách hàng, đồng thời hạn chế rủi ro tín dụng tổ chức Một số hướng phát triển luận văn: • Nghiên cứu đề xuất thêm phương pháp cải tiến hàm chi phí thuật tốn hướng giảm gradient ngẫu nhiên • Thử nghiệm sử dụng mơ hình phạm vi liệu lớn hơn, đánh giá hiệu mơ hình sau thời gian chạy thực tế 38 Tài liệu tham khảo [1] L Bottou, “Large-scale machine learning with stochastic gradient descent,” Proceedings of COMPSTAT, pp 177–186, 2010 [2] Y Liu, “An improved analysis of stochastic gradient descent with momentum,” Journal of Field Robotics, vol 36, pp 617 – 635, 2019 [3] N Loizou and P Richtárik, “Linearly convergent stochastic heavy ball method for minimizing generalization error,” arXiv preprint arXiv:1710.10737, 2017 [4] N Loizou and P Richtárik., “Momentum and stochastic momentum for stochastic gradi- ent, newton, proximal point and subspace descent methods,” arXiv preprint arXiv:1712.09677, 2017 [5] P J Rahul Kidambi, Praneeth Netrapalli and S Kakade., “On the insufficiency of existing momentum schemes for stochastic optimization,” Information Theory and Applications Workshop (ITA), pp 1–9, 2018 [6] H L Igor Gitman, “Understanding the role of momentum in stochastic gradient methods,” Advances in Neural Information Processing Systems, p 9630–9640, 2019 [7] Z L Y Yan, T Yang, “A unified analysis of stochastic momentum methods for deep learning,” IJCAI International Joint Conference on Artificial Intelligence, 2018 [8] R J Hao Yu and S Yang, “On the linear speedup analysis of communication efficient momentum sgd for distributed non-convex optimization,” International Conference on Machine Learning, p 7184–7193, 2019 [9] R M G Othmane Sebbouh and A Defazio, “On the convergence of the stochastic heavy ball method,” arXiv preprint arXiv:2006.07867, 2020 [10] I S Alex Krizhevsky and G E Hinton, “Imagenet classification with deep convolutional neural networks,” Advances in neural information processing systems, p 1097–1105, 2012 39 LUẬN VĂN THẠC SĨ ĐINH TUẤN CƯỜNG [11] D Y Geoffrey Hinton, Li Deng, “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal processing magazine, vol 29, pp 82–97, 2012 [12] G D Ilya Sutskever, James Martens and G Hinton, “On the importance of initialization and momentum in deep learning,” International conference on machine learning, p 1139–1147, 2013 40 ... cứu thuật toán tối ưu ngẫu nhiên ứng dụng học máy Trong nội dung luận văn này, tác giả trình bày phương pháp hướng giảm gradient ngẫu nhiên số biến thể cải tiến, ứng dụng vào thuật toán hồi quy... lớn thuật toán hướng giảm gradient ngẫu nhiên tốn có liệu lớn Ngồi tác giả có số đóng góp sau: • Trình bày thuật toán hướng giảm gradient ngẫu nhiên thuật toán gradient cải tiến, trình bày chứng... hội tụ thuật tốn • Áp dụng thuật tốn SGDM vào tốn phân loại chữ viết tay • Tác giả áp dụng thuật toán SGDM vào toán chấm điểm tín dụng thực tế doanh nghiệp thu kết khả quan, có khả ứng dụng thực