Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,72 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HÀ VĂN SANG NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU Chun ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 i Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Phản biện: PGS TS Đỗ Trung Tuấn Phản biện: TS Nguyễn Duy Phương Phản biện: PGS TS Nguyễn Long Giang Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp Trường Đại học Công nghệ vào hồi giờ ngày 13 tháng năm 2018 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội ii MỞ ĐẦU Tính cấp thiết luận án Trong năm gần đây, liệu thực tế gia tăng mợt cách nhanh chóng dung lượng lẫn chủng loại Dữ liệu với số chiều lớn trở thành thách thức đối với kỹ thuật xử lý, phân tích liệu hiện có Học máy (machine learning) khai phá liệu (data mining) cung cấp công cụ giúp người giải vấn đề quản lý, bóc tách thơng tin tri thức cách tự đợng phân tích mợt lượng lớn liệu Tuy nhiên, kỹ thuật phân tích liệu phân lớp, dự báo dẫn đến kết thấp khơng xác khơng phải lúc liệu xử lý đầy đủ, có nhiều liệu dư thừa, khơng liên quan, hay nhiễu Ngồi ra, thuật toán phân lớp chạy nhiều thời gian, chí khơng thể thực hiện liệu chưa tiền xử lý một cách thích hợp Rút gọn đặc trưng kỹ thuật giải đề thu gọn chiều liệu nhằm giải vấn đề nêu Rút gọn đặc trưng phân loại thành “lựa chọn đặc trưng” “trích xuất đặc trưng” Trong đó, lựa chọn đặc trưng chọn mợt nhóm nhỏ đặc trưng phù hợp, liên quan từ tập liệu gốc cách loại bỏ đặc trưng nhiễu, dư thừa không liên quan trích xuất đặc trưng trích rút đặc trưng một phép chuyển đổi Rút gọn đặc trưng tạo điều kiện cho kỹ thuật phân tích xử lý liệu cải tiến hiệu theo nghĩa nâng cao hiệu suất mà giữ nguyên nâng cao hiệu Trong năm gần đây, có nhiều nghiên cứu tập trung vào cải tiến hiệu kỹ thuật rút gọn đặc trưng cách lựa chọn tập đặc trưng có ích, trích xuất đặc trưng Tuy nhiên, phương pháp rút gọn đặc trưng khác cho kết khác với miền ứng dụng tương ứng Cộng đồng nghiên cứu Việt Nam quan tâm cơng bớ nhiều cơng trình khoa học liên quan tới học máy khai phá liệu Tuy nhiên, hướng nghiên cứu rút gọn đặc trưng chưa quan tâm nhiều Như vậy, nhận thấy rút gọn đặc trưng hiện chủ đề để nhà nghiên cứu nước tiếp tục nghiên cứu phát triển Mục tiêu luận án Mục tiêu luận án nghiên cứu đề xuất một số kỹ thuật rút gọn đặc trưng tiên tiến phân lớp liệu đối với một số miền ứng dụng Hướng tiếp cận lựa chọn đặc trưng xác định mợt tập đặc trưng tớt từ tập đặc trưng ban đầu mà không làm giảm kết phân lớp Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệu để thu tập đặc trưng phù hợp với bộ phân lớp tương ứng Với mục tiêu cải tiến hiệu kỹ thuật phân tích liệu, lựa chọn đề tài luận án với tiêu đề: "Nghiên cứu cải tiến kỹ thuật rút gọn đặc trưng cho phân lớp liệu” Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án kỹ thuật rút gọn đặc trưng cho toán phân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng Phạm vi áp dụng kỹ thuật rút gọn đặc trưng vào miền ứng dụng rộng Trong luận án này, giới hạn phạm vi với hai miền ứng dụng toán cho điểm tín dụng phân tích liệu ung thư Phương pháp nghiên cứu Luận án sử dụng phương pháp phân tích, tổng hợp lý thuyết, phương pháp mơ hình hóa phương pháp nghiên cứu thực nghiệm Trong đó, lý thuyết sở phân tích phương pháp đề xuất mơ hình hóa Ći hương pháp nghiên cứu thực nghiệm dùng để đánh giá, kiểm chứng kết phương pháp đề xuất Đóng góp luận án Luận án đề xuất phương pháp rút gọn đặc trưng nhằm tăng hiệu kỹ thuật phân lớp theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng: Lựa chọn đặc trưng: đề xuất phương pháp lựa chọn đặc trưng (FRFE) dựa hướng tiếp cận đóng gói Nợi dung phương pháp đề xuất việc loại bỏ đặc trưng đệ quy việc cải tiến hàm đánh giá đặc trưng Hàm đánh giá đặc trưng đề xuất có đặc điểm giúp tránh hiện tượng khớp, tăng hiệu phân lớp giúp cho kết ổn định Thủ tục loại bỏ đệ quy giúp thuật toán không quan tâm tới mối liên quan đặc trưng mà quan tâm tới mới tương quan đặc trưng với bợ phân lớp Thuật tốn học đề xuất nhằm tự đợng tìm tập đặc trưng tối ưu cho bộ liệu Một vấn đề khác mà phương pháp lựa chọn đặc trưng phải đới mặt phương pháp lựa chọn đặc trưng đóng gói (wrapper) có chi phí tính tốn lớn Để giải vấn đề chúng tơi sử dụng bộ phân lớp rừng ngẫu nhiên (random forest) với khả xử lý song song nhằm làm giảm thời gian thực hiện phương pháp đề xuất Thực nghiệm bợ liệu tín dụng cho thấy phương pháp lựa chọn đặc trưng đề xuất có khả đạt mục tiêu mà luận án đặt Những đóng góp dựa hướng tiếp cận lựa chọn đặc trưng cho tốn cho điểm tín dụng báo cáo công bố [SANGHV1, SANGHV2, SANGHV3, SANGHV5] Trích xuất đặc trưng: Ngồi cách tiếp cận lựa chọn đặc trưng, mợt hướng tiếp cận khác trích xuất đặc trưng nhiều nhóm nghiên cứu quan tâm phát triển kỹ thuật lựa chọn đặc trưng trở nên hiệu Chúng tơi đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất xây dựng một hàm nhân dựa việc kết hợp một số hàm nhân Chúng tiến hành thực nghiệm 04 bộ liệu ung thư so sánh kết sử dụng hàm nhân đề xuất với hàm nhân so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Hướng tiếp cận trích xuất đặc trưng cho tốn phân tích liệu ung thư công bố công bố: [SANGHV4] Các kết nghiên cứu trình bày luận án cơng bớ 05 cơng trình Trong có 02 báo đăng tạp chí nước ngồi [SANGHV1, SANGHV2]; 03 báo hợi thảo q́c tế cơng bớ có sớ Scopus, 02 báo Springer xuất đưa vào danh mục LNCS Bố cục luận án Ngoài phần mở đầu, mục lục, kết luận tài liệu tham khảo, nợi dung luận án chia thành 03 chương, cụ thể sau: Chương 1: Phần đầu giới thiệu lý thuyết liên quan tới rút gọn đặc trưng, lựa chọn đặc trưng trích xuất đặc trưng, đồng thời điểm lại một số nghiên cứu gần Cuối phần phân tích, đánh giá mợt sớ kỹ thuật rút gọn đặc trưng thường sử dụng Chương 2: Đề xuất một hàm đánh giá đặc trưng thuật toán học dựa hàm đánh giá nhằm nâng hiệu việc lựa chọn đặc trưng Sau trình bày quy trình, giải pháp đề xuất, luận án áp dụng phương pháp đề xuất cho bộ liệu tín dụng Phần lại chương thực hiện thực nghiệm bợ liệu tín dụng so sánh kết với một số phương pháp lựa chọn đặc trưng khác Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa việc xây dựng một hàm nhân sở kết hợp một số hàm nhân nhằm biến đổi không gian đặc trưng phù hợp với miền liệu Sau trình bày quy trình, phương pháp đề xuất, phương pháp đề xuất tiến hành bốn bộ liệu ung thư Việc thực nghiệm so sánh với một số kỹ thuật khác thực hiện phần lại chương Chương TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG Hầu hết lĩnh vực khoa học cơng nghệ ngày đòi hỏi phân tích liệu nhằm bóc tách tri thức hữu ích giúp cải tiến hay nâng cao hiệu lĩnh vực Dữ liệu quan sát thu thập từ ứng dụng thực tế thường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập liệu có sớ lượng tḥc tính lớn dẫn tới việc tốn tài nguyên áp dụng kỹ thuật phân tích liệu, nhiều trường hợp thực hiện Xuất phát từ nhu cầu thực tiễn đó, kỹ thuật rút gọn đặc trưng nghiên cứu phát triển để giải vấn đề Nội dung chương nhằm giới thiệu tổng quan vấn đề rút gọn đặc trưng điểm lại một số hướng nghiên cứu rút gọn đặc trưng tiêu biểu hiện Phần cuối chương đưa một số kỹ thuật đánh giá hiệu hệ thống thường áp dụng hiện 1.1 Rút gọn đặc trưng Rút gọn đặc trưng hiểu trình thu gọn biến đổi không gian biểu diễn liệu ban đầu thành một khơng gian mợt khơng gian có sớ đặc trưng nhỏ không gian ban đầu mà giữ đặc tính liệu gớc Trong nhiều trường hợp, tập liệu ban đầu có chứa nhiều đặc trưng không liên quan cho mô tả chất hiện tượng mà ta quan tâm, loại bỏ đặc trưng khơng liên quan giữ lại đặc trưng quan trọng Có hai phương pháp để rút gọn đặc trưng gồm lựa chọn đặc trưng trích xuất đặc trưng 1.2 - Lựa chọn đặc trưng Lựa chọn đặc trưng (Feature selection): chọn lựa một tập đặc trưng từ đặc trưng ban đầu mà khơng có thay đổi giá trị đặc trưng x𝑖1 x1 x2 𝑙ự𝑎 𝑐ℎọ𝑛 đặ𝑐 𝑡𝑟ư𝑛𝑔 x𝑖2 [ ⋮ ]→ [ ⋮ ] xN x𝑖M (𝑀 < 𝑁) Hình 1.1 Lựa chọn đặc trưng Lựa chọn đặc trưng một phương pháp tự nhiên để giải vấn đề loại bỏ đặc trưng dư thừa, trùng lặp không liên quan liệu Kết lựa chọn đặc trưng một tập đặc trưng từ tập đặc trưng ban đầu đảm bảo tính chất liệu gớc Lựa chọn đặc trưng giúp: (1) cải tiến hiệu (về tớc đợ, khả dự đốn, đơn giản hóa mơ hình); (2) trực quan hóa liệu cho việc lựa chọn mơ hình; (3) giảm chiều loại bỏ nhiễu 1.2.1 Mục tiêu lựa chọn đặc trưng Mục tiêu lựa chọn đặc trưng xác định đặc trưng quan trọng loại bỏ đặc trưng khơng liên quan khơng phù hợp Ngồi mợt sớ mục tiêu như: tìm tập đặc trưng có kích cỡ nhỏ có thể, mà cần đủ cho việc phân tích liệu (cụ thể phân lớp) Chọn một tập đặc trưng nhằm cải tiến độ xác dự đốn làm giảm kích cỡ tập liệu mà khơng làm giảm đợ xác dự đốn bợ phân lớp 1.2.2 Phân loại kỹ thuật lựa chọn đặc trưng Dựa vào tính sẵn có thơng tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng chia thành ba loại: phương pháp có giám sát, bán giám sát, khơng giám sát 1.2.3 Các thành phần lựa chọn đặc trưng Ba thành phần lựa chọn đặc trưng là: (1) Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung, loại bỏ thay đổi đặc trưng trình tìm kiếm, (3) Tiêu chí đánh giá tập khác 1.2.4 Thủ tục lựa chọn đặc trưng Mặc dù lựa chọn đặc trưng áp dụng với nhiều mơ hình học, nhiên khn khổ luận án tập trung vào việc nghiên cứu kỹ thuật lựa chọn đặc trưng để tăng hiệu bộ phân lớp Tiến trình lựa chọn đặc trưng gồm bớn khới chính: Sinh tập con, đánh giá, điều kiện dừng kiểm chứng kết 1.2.5 Các mơ hình lựa chọn đặc trưng Mơ hình Lọc Tất đặc trưng Filter Tính tốn xếp hạng theo độ đo tương ứng Tập đặc trưng tớt Phân lớp Hình 1.2 Mơ hình chọn lựa đặc trưng Lọc Mơ hình Lọc (Filter) phương pháp lựa chọn đặc trưng đơn giản (Hình 1.2) Đầu vào mơ hình tồn bợ đặc trưng tập liệu, sau thực hiện việc đánh giá đặc trưng sử dụng độ đo tiêu chí định cho trước đầu mơ hình danh sách đặc trưng với điểm sớ đặc trưng Mơ hình Đóng gói Mơ hình đóng gói (Wrapper) tìm kiếm tập đặc trưng tốt cách đánh giá chất lượng tập đặc trưng Việc đánh giá chất lượng thường sử dụng hiệu (đợ xác dự đốn phân lớp) thuật tốn học (Hình 1.3) Wrapper Tất đặc trưng Tập đặc trưng tốt Bộ sinh tập Tập đặc trưng Kết đánh giá Thuật tốn học Hình 1.3 Mơ hình chọn lựa đặc trưng đóng gói Mơ hình đóng gói sử dụng chiến lược tìm kiếm khác chẳng hạn tìm kiếm tuần tự, ngẫu nhiên Mơ hình nhúng Mơ hình nhúng (Embedded) giúp cải tiến hiệu phân lớp tăng tốc độ q trình lựa chọn Mơ hình nhúng tích hợp, nhúng kỹ thuật lựa chọn đặc trưng vào mô hình học 1.3 - Trích xuất đặc trưng Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban đầu sang mợt khơng gian khác mà dễ dàng phân tích Hay nói cách khác xây dựng mợt tập đặc trưng từ tập đặc trưng ban đầu với số đặc trưng nhỏ y1 x1 x1 x2 𝑡𝑟í𝑐ℎ 𝑥𝑢ấ𝑡 đặ𝑐 𝑡𝑟ư𝑛𝑔 y2 x2 [ ⋮ ]→ [ ⋮ ] = 𝑓 ([ ⋮ ]) (𝑀 < 𝑁) xN yM xN Hình 1.4 Trích xuất đặc trưng 1.3.1 Mục tiêu trích xuất đặc trưng Mục tiêu: tăng hiệu thuật toán học, trực quan hóa liệu thực hiện dễ dàng giảm nhiễu dư thừa 1.3.2 Phân loại kỹ thuật trích xuất đặc trưng Các phương pháp khơng giám sát gồm: Phân tích thành phần (PCA), Phân tích giá trị đơn (SVD), Phân tích yếu tớ (FA)… Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân tích thành phần độc lập (ICA)… 1.4 1.4.1 Một số nghiên cứu rút gọn đặc trưng Hướng nghiên cứu lựa chọn đặc trưng Các nhà nghiên cứu hiện tập trung vào phát triển kỹ thuật lựa chọn đặc trưng theo hai hướng là: chiến lược tìm kiếm tiêu chí đánh giá Chiến lược tìm kiếm kinh nghiệm tham lam, tìm kiếm dựa tới ưu Tiêu chí đánh giá theo: đợ đo tương quan lý thuyết thông tin, độ đo đánh giá mờ, Tiêu chuẩn phụ tḥc 1.4.2 Hướng nghiên cứu trích xuất đặc trưng Hướng nghiên cứu dựa lý thuyết thống kê Phương pháp dựa lý thuyết phân tích thớng kê phương pháp thường sử dụng trích xuất đặc trưng Các phương pháp thớng kê phân tích xử lý liệu mợt cách hiệu Chẳng hạn, một số phương pháp cổ điển phân tích thành phần (PCA), phân tích biệt thức tuyến tính (LDA), phân tích yếu tớ (FA) Hướng nghiên cứu dựa hàm nhân Hàm nhân sử dụng để chuyển đổi liệu từ không gian phi tuyến ban đầu sang khơng gian đặc trưng tuyến tính Các phương pháp sử dụng hàm nhân nhằm phát triển một hướng tiếp cận để giải toán phi tuyến, từ áp dụng thuật tốn phân tích liệu tuyến tính 1.4.3 Phân tích đánh giá Cho một tập hợp đặc trưng đầu vào, việc rút gọn đặc trưng thực hiện theo hai hướng tiếp cận khác Hướng tiếp cận lựa chọn một tập đặc trưng tốt từ tập đặc trưng đầu vào Quá trình gọi lựa chọn đặc trưng Hướng tiếp cận thứ hai tạo đặc trưng dựa việc chuyển đổi đặc trưng ban đầu sang mợt khơng gian có chiều thấp q trình gọi trích xuất đặc trưng Sự chuyển đổi mợt kết hợp tuyến tính phi tuyến đặc trưng ban đầu Việc sử dụng kỹ thuật lựa chọn đặc trưng hay trích xuất đặc trưng phụ thuộc nhiều vào miền ứng dụng liệu hiện có Lựa chọn đặc trưng có ưu điểm tiết kiệm chi phí tính tốn Kết q trình mợt sớ đặc trưng khơng phù hợp loại bỏ đặc trưng lựa chọn có khả giữ lại đặc tính liệu gớc Trích xuất đặc trưng cung cấp mợt khả phân tích trực quan hóa liệu tốt liệu gốc chuyển đổi sang không gian đặc trưng Tuy nhiên tập đặc trưng sinh khơng giữ tính chất nguyên gốc liệu ban đầu 1.5 Kết luận chương Chương luận án tập trung vào giới thiệu tổng quan lĩnh vực rút gọn đặc trưng Phần đầu tập trung vào trình bày kiến thức sở toán lựa chọn đặc trưng trích xuất đặc trưng Phần lại chương giới thiệu một số hướng nghiên cứu rút gọn đặc trưng tiêu biểu hiện Đây sở lý thuyết giúp ích cho định hướng nghiên cứu xây dựng mơ hình trình bày chương Tùy tḥc vào tốn liệu tốn, lựa chọn kỹ thuật rút gọn đặc trưng phù hợp để đạt mục tiêu cải tiến hiệu thuật toán phân lớp Các kiến thức giới thiệu chương áp dụng để giải miền liệu cụ thể chương luận án Chương KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TỐN CHO ĐIỂM TÍN DỤNG Trong chương này, chúng tơi đề xuất phương pháp lựa chọn đặc trưng dựa vào hướng tìm kiếm tiến tìm kiếm lùi trình bày chương 1, đề xuất hai hướng tiếp cận, cụ thể sau: Hướng thứ lựa chọn đặc trưng theo hướng tìm kiếm tiến, việc thêm đặc trưng tớt thực hiện cách sử dụng luật lựa chọn đặc trưng có tiêu chí xếp hạng cao Các kết nghiên cứu cơng bớ tạp chí khoa học cơng nghệ q́c tế (Cơng trình khoa học SANGHV1) Hướng thứ hai lựa chọn đặc trưng theo tìm kiếm lùi có tên FRFE (Fast Recursive Feature Elimination) dựa việc loại bỏ đặc trưng đệ quy kết hợp với rừng ngẫu nhiên Tập đặc trưng thu gọn dựa vào tiêu chí xếp hạng đặc trưng đề xuất Tiêu chí kết hợp từ độ quan trọng đặc trưng, mối liên quan đợ xác huấn lụn, kiểm tra đợ đo AUC Kết thực nghiệm phương pháp đề xuất bợ liệu tín dụng cho kết tốt so với một số phương pháp truyền thống Các kết nghiên cứu công bố kỉ yếu hội thảo quốc tế có phản biện 2.1 Bài tốn cho điểm tín dụng Các ngân hàng thương mại thường sử dụng hệ thống cho điểm tín dụng (xếp hạng khách hàng) để đánh giá xem mợt khách hàng có khả trả nợ hay khơng Đánh giá rủi ro tín dụng dựa việc xác định khả trả lãi gốc đến hạn Mức đợ rủi ro tín dụng phụ tḥc vào khách hàng, doanh nghiệp, mức độ rủi ro thường đánh giá thang điểm dựa vào thơng tin tài chính, phi tài có Dựa nhóm khách hàng, mơ hình cho điểm tín dụng thường chia thành hai loại Với nhóm khách hàng doanh nghiệp, áp dụng mơ hình xếp hạng tín dụng (credit rate) Mơ hình thường đánh giá mức đợ tín dụng thang điểm AAA, AA, BBB,…CC Moody hay Standard & Poor Với nhóm khách hàng cá nhân hợ gia đình áp dụng mơ hình cho điểm tín dụng (credit scoring); mơ hình thường đơn giản cần dựa vào thơng tin khách hàng khứ hiện để đưa định có cho vay khơng Hai mơ hình này, hỗ trợ cán bợ tín dụng nhanh chóng định đồng thời giám sát đánh giá mức tín dụng khách hàng Chúng cho phép dự đốn, dự báo khoản vay có chất lượng khơng tốt (nợ xấu) 2.2 Các nghiên cứu liên quan Các phương pháp tuyến tính: PCA, SPCA Các phương pháp phi tuyến: isomap, LLE 2.3 2.3.1 Phương pháp giải Sơ đồ hệ thống lựa chọn đặc trưng Với mục tiêu luận án xây dựng một hàm đánh giá đặc trưng phù hợp với liệu tín dụng nhằm cải tiến đợ xác kỹ thuật phân lớp giảm thời gian thực hiện từ giúp cho ngân hàng đưa định phù hợp Quy trình lựa chọn đặc trưng với tốn cho điểm tín dụng trình bày Hình 2.1 Tập đặc trưng Dữ liệu tín dụng Tiền xử lý liệu Tập đặc trưng Phân Lựa chọn đặc lớp trưng Đợ xác dự báo Hình 2.1 Quy trình lựa chọn đặc trưng tốn cho điểm tín dụng 2.3.2 Đề xuất hàm đánh giá chiến lược tìm kiếm đặc trưng phù hợp 2.3.2.1 Chiến lược lựa chọn đặc trưng tiến Trong hướng tiếp cận sử dụng chiến lược tìm kiếm tiến, từ mợt tập rỗng, thêm vào tập đặc trưng tớt Các bước thực hiện thuật tốn đặc tả dạng giả mã sau: Thuật toán 2.1: Lựa chọn đặc trưng theo hướng tiến Đầu vào: S tập mẫu (xi, yi) xi có chiều p Đầu ra: danh sách xếp hạng p đặc trưng Chương trình: F ← Ø //tập rỗng đặc trưng 2.4.2.2 Bộ liệu tín dụng Úc Bợ liệu tín dụng Úc bao gồm 690 ứng viên, với 383 trường hợp tín dụng tớt 307 trường hợp tín dụng xấu Mỗi mẫu có chứa đặc trưng sớ, đặc trưng phân loại, văn 2.4.3 Kết thực nghiệm 2.4.3.1 Bộ liệu tín dụng Đức Kết thực nghiệm lựa chọn đặc trưng theo hướng lựa chọn tiến Hiệu một số bộ phân lớp khác so sánh thể hiện Bảng 2.1 Cơ sở dùng để so sánh kết phân lớp mà không lựa chọn đặc trưng Bảng 2.1 So sánh hiệu phân lớp liệu tín dụng Đức Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương pháp sở t-test LDA LR GA PSO SVM 76,74 75,72 75,10 76,54 73,76 77,18 CART 74,28 73,52 73,66 75,72 74,16 74,30 k-NN 71,82 71,86 72,62 72,24 71,60 70,86 Naïve Bayes 72,40 70,88 71,44 71,56 74,16 70,52 MLP 73,28 73,44 73,42 74,03 72,54 71,76 RandomForest 75,3 PP đề xuất 76,20 Qua kết so sánh hiệu phương pháp khác thể hiện Bảng 2.1, thấy đợ xác RF tập hợp đặc trưng chọn tăng lên từ 73.4% ban đầu thành 76,20% Và số lượng đặc trưng lựa chọn lại 65% so với số lượng đặc trưng ban đầu Hơn nữa, phương pháp dựa kỹ thuật xử lý song song kiến trúc H20 cho phép thời gian để chạy nhanh 9,5 lần so với bộ phân lớp rừng ngẫu nhiên gốc Kết thực nghiệm theo hướng lùi sử dụng FRFE Áp dụng phương pháp lựa chọn đặc trưng FRFE theo hướng lùi, chúng tơi có kết Hình 2.2 11 0.84 CV Độ xác dự đoán 0.82 Pred 0.80 0.78 0.76 0.74 0.72 0.70 0.68 0.66 10 11 12 13 14 15 16 17 18 19 Số đặc trưng chọn Hình 2.2 Độ xác phân lớp liệu Đức theo hướng lùi Pha huấn luyện cho kết bộ tập đặc trưng tốt bao gồm 13 đặc trưng đợ xác phân lớp dự đốn 77,3% Đợ xác dự đốn tăng lên 78,95%, đợ xác trung bình liệu ban đầu 76,60% Kết thực nghiệm bộ liệu sử dụng đặc trưng thu từ phương pháp lọc, tiến FRFE thể hiện Hình 2.3, cợt ći kết phân lớp dự đoán Random forest tập liệu ban đầu Độ xác Độ xác dự đốn 80 79 78 77 76 75 74 73 72 78.95 75.8 76.2 75.3 75.3 74.9 Phương pháp lựa chọn đặc trưng Hình 2.3 So sánh kết sử dụng đặc trưng lựa chọn liệu Đức Chúng thực hiện so sánh hiệu phân lớp phương pháp đề xuất với phương pháp khác Bảng 2.2 Bảng 2.2 Hiệu phân lớp khác với liệu tín dụng Đức Bộ phân lớp SVM Phương pháp Lọc Phương pháp Đóng gói Phương pháp sở t-test LDA LR GA PSO 76,74 75,72 75,10 76,54 73,76 77,18 12 CART k-NN Naïve Bayes MLP Random Forest PP đề xuất 74,28 71,82 72,40 73,28 73,52 71,86 70,88 73,44 73,66 72,62 71,44 73,42 75,72 72,24 71,56 74,03 74,16 71,60 74,16 72,54 74,30 70,86 70,52 71,76 76,60 78,95 Kết cho thấy thời gian thực hiện việc lựa chọn đặc trưng sử dụng bộ phân lớp Random forest gói H20 nhanh gấp khoảng 10 lần so với thời gian thực hiện việc lựa chọn đặc trưng sử dụng bộ phân lớp Random forest gốc 2.4.3.2 Bộ liệu tín dụng Úc Chúng tơi tiến hành áp dụng phương pháp Đóng gói đề xuất theo hướng tìm kiếm tiến Bảng 2.3 cho thấy hiệu bộ phân lớp khác phương pháp lựa chọn đặc trưng khác Các kết thu cho thấy đợ xác phân lớp RF tập hợp gồm đặc trưng chọn cải thiện rõ rệt Độ xác trung bình 87,82% bợ liệu ban đầu, đợ xác trung bình tăng tới 89,40% sau áp dụng phương pháp lựa chọn đặc trưng Bảng 2.3 So sánh hiệu phân lớp liệu tín dụng Úc Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương pháp sở t-test LDA LR GA PSO SVM 85,52 85,52 85,52 85,52 85,52 85,52 CART 85,25 85,46 85,11 84,85 84,82 85,20 k-NN 86,06 85,31 84,81 84,69 84,64 84,58 Naïve Bayes 68,52 67,09 66,74 86,09 85,86 68,55 MLP 85,60 86,00 85,89 85,57 85,49 84,15 Random forests 86.81 PP đề xuất 89,40 Dựa xử lý song song, thời gian để huấn luyện với kiểm chứng chéo phương pháp chúng 20 lần thử nghiệm 2.974 giây (~ 50 phút) Chiến lược lựa chọn đặc trưng FRFE Sau tiến hành chạy thủ tục FRFE, tập tốt thu bao gồm 07 đặc trưng lựa chọn phương pháp đề xuất đạt đợ xác 87.5% trường hợp bợ 13 liệu tín dụng Úc CV Pred ĐỘ CHÍNH XÁC DỰ ĐỐN 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 0.78 10 11 12 13 SỐ ĐẶC TRƯNG ĐƯỢC CHỌN Hình 2.4 Độ xác dự đốn liệu tín dụng Úc Độ xác Kết so sánh đợ xác dự đốn sử dụng đặc trưng lựa chọn phương pháp thể hiện Hình 2.5 Trong cợt ći kết phân lớp dự đốn Random forest tập liệu ban đầu 89.4 90 89 88 87 86 85 84 83 82 81 89.16 86.81 86.37 83.9 84.5 Phương pháp lựa chọn đặc trưng Hình 2.5 Độ xác dự đốn sử dụng đặc trưng lựa chọn liệu Úc Như ta thấy đợ xác phương pháp đề xuất cao nhiều so với phương pháp khác hiện có Sau áp dụng phương pháp đề xuất, đợ xác tăng lên 89.16%, đợ xác trung bình liệu gớc 87.25% Bảng 2.4 Hiệu phân lớp khác liệu tín dụng Úc Bộ phân lớp SVM CART k-NN Naïve Bayes MLP Random forest PP đề xuất Phương pháp Lọc t-test LDA LR 85,52 85,52 85,52 85,25 85,46 85,11 86,06 85,31 84,81 68,52 67,09 66,74 85,60 86,00 85,89 Phương pháp Đóng gói GA PSO 85,52 85,52 84,85 84,82 84,69 84,64 86,09 85,86 85,57 85,49 89,16 14 Cơ sở 85,52 85,20 84,58 68,55 84,15 86,81 Bằng việc sử dụng kỹ thuật song song kiến trúc H2O, thời gian chạy huấn luyện với kiểm chứng chéo 5-lần 09 phút với bợ liệu tín dụng Úc 2.5 Kết luận chương Trong chương này, đề xuất hai phương pháp lựa chọn đặc trưng để tiến hiệu tốn cho điểm tín dụng dựa hướng tìm kiếm tiến tìm kiếm lùi trình bày chương Hướng thứ lựa chọn đặc trưng theo hướng tìm kiếm tiến, việc thêm đặc trưng tớt thực hiện cách sử dụng luật lựa chọn đặc trưng có tiêu chí xếp hạng cao Phương pháp thứ hai lựa chọn đặc trưng theo tìm kiếm lùi có tên FRFE dựa việc loại bỏ đặc trưng đệ quy dựa cơng thức tính hạng đề xuất kết hợp với rừng ngẫu nhiên Kết thực nghiệm phương pháp đề xuất bợ liệu tín dụng cho kết tốt so với một số phương pháp truyền thớng Chương KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƯ Trong chương chúng tơi áp dụng hướng tiếp cận trích xuất đặc trưng với mục tiêu tìm mợt phép biến đổi phù hợp để tăng hiệu việc phân tích liệu Chúng tơi đề xuất phương pháp trích xuất đặc trưng dựa việc kết hợp hàm nhân cho KPCA sử dụng nhằm cải thiện hiệu phân lớp Phương pháp đề xuất thực nghiệm bộ liệu ung thư ung thư ruột kết, bệnh bạch cầu, bệnh ung thư máu tuyến tiền liệt Phương pháp C-KPCA cho mợt đợ xác phân loại tốt so với KPCA một số trường hợp kết cao so với một số thuật toán lựa chọn đặc trưng khác Kết nghiên cứu cơng bớ kỷ yếu có phản biện hội thảo quốc tế lần thứ 12 học máy khai phá liệu MLDM-2016 (Cơng trình SANGHV4) 3.1 Bài tốn phân tích liệu ung thư Hiện tỷ lệ tử vong chẩn đốn ṃn bệnh ung thư cao chiếm tới 2/3 số lượng bệnh nhân phát hiện ung thư Các bác sĩ tập trung vào mợt sớ triệu chứng chẩn đốn mà bỏ qua yếu tớ nguy tiềm ẩn Ứng dụng khai phá liệu chẩn đốn bệnh ung thư mợt hướng tiếp cận nhằm tăng tỷ lệ phát hiện ung thư sớm nhờ việc phân tích liệu lâm sàng với mục tiêu giảm tỷ lệ tử vong bệnh nhân mắc bệnh ung thư Các nhà nghiên cứu cho biết việc nhận biết sớm biểu hiện ung thư giúp cứu sớng 5000 người năm Trong tốn phân tích liệu ung thư, sớ lượng lớn tḥc tính làm cho q trình học chậm việc phân tích trở nên khó khăn Trong chương chúng tơi áp dụng kỹ thuật trích xuất đặc trưng để giảm chiều liệu ung thư 15 3.2 Các nghiên cứu liên quan - Các phương pháp tuyến tính: PCA, SPCA - Các phương pháp phi tuyến: Manifold, Isomap 3.3 3.3.1 Phương pháp giải Sơ đồ hệ thống trích xuất đặc trưng Nội dung phương pháp đề xuất sử dụng phân rã giá trị đơn (SVD) phân tích thành phần dựa hàm nhân (KPCA) với bợ liệu ung thư để chẩn đoán khả bị bệnh Quy trình hệ thớng bao gồm bước: tiền xử lý liệu, giảm chiều phân lớp liệu (Hình 3.1) Tập đặc trưng KPCA hàm Phân nhân tùy chọn lớp (C-KPCA) Tiền xử lý liệu Dữ liệu ung thư Đợ xác dự báo Hình 3.1 Quy trình trích xuất đặc trưng cho tốn phân tích liệu ung thư 3.3.2 Hàm nhân tùy chọn cho PCA 3.3.2.1 Phương pháp hàm nhân 3.3.2.2 Các hàm nhân phổ biến Các hàm nhân thường dùng hàm nhân tuyến tính, hàm nhân đa thức, hàm nhân RBF Sigmoid 3.3.2.3 Kernel PCA Phân tích thành phần dựa hàm nhân (KPCA) một cách tiếp cận hiệu nhờ việc xây dựng mợt khơng gian đặc trưng có sớ chiều cao cách sử dụng hàm phi tuyến 𝜇(𝑥𝑡), 𝑧 = 𝜇(𝑥𝑡) phân tích thành phần (PCA) thực hiện tương tự áp dụng PCA phi tuyến không gian ban đầu 3.3.3 Xây dựng hàm nhân tùy chọn Có mợt sớ cách để xây dựng mợt hàm nhân Trong luận án này, tập trung vào việc làm để xây dựng một hàm nhân từ hàm nhân khác Mệnh đề 3.1 Giả sử K1 K2 hàm nhân 𝑋 ∗ 𝑋, 𝑋 ⊆ 𝑅𝑛 , 𝑎 ∈ 𝑅+ , 𝑓(∙) mợt hàm tính tốn giá trị thực X 𝜙: 𝑋 → ℝ𝑚 Với K3 mợt hàm nhân ℝ𝑚 × ℝ𝑚 B một ma trận nửa xác định dương (positive semi-definite) n*n Khi hàm X hàm nhân: 16 K ( x, z ) K1 ( x, z ) K ( x, z ) K ( x, z ) a * K1 ( x, z ) K ( x, z ) K1 ( x, z ) * K ( x, z ) K ( x, z ) f ( x) * f ( z ) K ( x, z ) K ( ( x), ( z )) K ( x, z ) x ' Bz Cách xây dựng hàm nhân phức tạp dựa hàm nhân khác dựa nguyên lý mệnh đề Cụ thể, một hàm nhân tạo cách kết hợp hàm nhân khác sử dụng toán tử sau: 𝐾𝑐 = 𝛼1 (𝐾1 ) ∘ 𝛼2 (𝐾2 ) ∘ ⋯ ∘ 𝛼𝑚 (𝐾𝑚 ), 𝛼𝑖 ≥ (3.1) Trong đó: {Ki | i =1, …, m} tập hàm nhân dùng để kết hợp 𝛼𝑖 : hệ số hàm nhân ◦ biểu diễn mợt tốn tử hai hàm nhân ví dụ cộng nhân 3.4 3.4.1 Thực nghiệm kết Thiết lập thực nghiệm Phương pháp đề xuất thực hiện ngôn ngữ R (http://www.rproject.org) thực nghiệm hiện máy tính laptop (bợ vi xử lý core i7 2.7GHz 8G Ram) với một số bộ liệu ung thư bao gồm: ung thư ruột kết (colon tumor), ung thư bạch cầu (leukemia), u bạch huyết (lymphoma) ung thư tuyến tiền liệt (prostate) Chúng sử dụng ba loại hàm nhân Bảng 3.1 để thực hiện kết hợp tốn tử cợng nhân Bảng 3.1 Các loại hàm nhân Hàm nhân Polynomial Radial (RBF) Sigmoid 3.4.2 Công thức 𝑑 𝛾𝑥𝑖𝑇 𝑥𝑗 + 𝑟 , 𝛾 > Ký hiệu K1 exp (−𝛾‖𝑥𝑖 − 𝑥𝑗 ‖ ) K2 𝑡𝑎𝑛ℎ 𝛾𝑥𝑖𝑇 𝑥𝑗 + 𝑐 , 𝛾 > K3 Dữ liệu thực nghiệm Bốn bộ liệu ung thư để sử dụng thực nghiệm là: bộ liệu ung thư ruột kết (Colon Tumor), bộ liệu bạch cầu (Leukemia), bộ liệu bạch huyết (Lymphoma) bộ liệu ung thư tuyến tiền liệt (Prostate) Bảng 3.2 17 Bảng 3.2 Mô tả liệu ung thư Tên liệu Colon Leukemia Lymphoma Prostate 3.4.3 Số thuộc tính 2000 7129 2647 2135 Số mẫu 62 72 77 102 Số lớp 2 2 Bài tốn cần giải Phát hiện ung thư ṛt kết Phát hiện bệnh bạch cầu cấp tính Phát hiện bạch huyết Phát hiện khối u tiền liệt tuyến Kết thực nghiệm Trong q trình thực nghiệm chúng tơi kết hợp lựa chọn hàm nhân tốt cho KPCA sau tiến hành phân lớp liệu trích xuất, việc so sánh hiệu phân lớp chia làm ba mục: (1)Sử dụng tất đặc trưng, (2) Sử dụng đặc trưng trích xuất KPCA (hàm nhân RBF) và(3) Sử dụng đặc trưng trích xuất C-KPCA (hàm nhân tùy chọn) Kết thực nghiệm bộ liệu ung thư sau: 3.4.3.1 Bộ liệu ung thư ruột kết Kết đợ xác phân lớp q trình huấn luyện đánh giá để chọn hàm nhân tốt thể hiện Bảng 3.3 Bảng 3.3 Kết huấn luyện lựa chọn hàm nhân với ung thư ruột kết Số đặc trưng K1+K2+K3 89,27 88,87 92,34 93,55 94,52 88,06 86,53 85,24 83,50 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 74,81 81,53 84,74 87,66 84,72 90,48 87,15 91,94 86,83 92,82 86,50 90,08 86,39 89,03 89,49 82,34 88,71 82,26 K1+K2*K3 87,58 88,31 91,94 92,18 91,94 86,85 81,61 85,10 82,42 10 15 20 50 100 200 500 Kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết Bảng 3.4: Bảng 3.4 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư ruột kết Số đặc trưng 10 15 20 50 100 200 Rbf 87,10 87,42 91,94 91,94 92,26 86,85 83,23 84,03 Poly 88,15 88,87 92,10 93,55 93,63 92,26 81,69 85,48 18 Hàm nhân Sigmoid 90,81 88,87 92,10 93,23 93,32 86,85 85,48 82,74 Combined 89,27 88,87 92,34 93,55 94,52 88,06 86,53 85,24 500 81,21 82,90 84,19 83,50 Với số lượng đặc trưng trích xuất phương pháp C-KPCA (sử dụng hàm nhân tùy chọn K1+K2+K3) đợ xác cao phương pháp KPCA sử dụng hàm nhân Rbf hàm nhân đa thức Với số lượng đặc trưng trích xuất 5, 10, 15, 20 phương pháp C-KPCA ln cho đợ xác cao so với việc sử dụng hàm nhân Đợ xác phân lớp kiểm tra (test) bộ phân lớp rừng ngẫu nhiên (RF) máy vector hỗ trợ (SVM) sử dụng tất đặc trưng so sánh với việc sử dụng 20 đặc trưng trích xuất KPCA C-KPCA thể hiện Bảng 3.5 Bảng 3.5 So sánh kết phân lớp dự đoán liệu ung thư ruột kết Độ đo Tất đặc trưng RF SVM 84,5 83,6 82,3 85,5 82,0 85,4 82,3 85,5 AUC Accuracy Precision Recall 20 đặc trưng (KPCA) RF SVM 85,5 82,6 82,3 85,5 82,0 85,4 82,3 85,5 20 đặc trưng (C-KPCA) RF SVM 86,6 88,2 79,0 88,7 79,2 88,9 79,0 88,7 Đợ xác phân lớp sử dụng 20 đặc trưng trích xuất phương pháp CKPCA cho kết cao ổn định so với việc phân lớp sử dụng tồn bợ đặc trưng 3.4.3.2 Bộ liệu bạch cầu Kết đợ xác phân lớp q trình huấn lụn đánh giá để chọn hàm nhân tốt thể hiện Bảng 3.5 Bảng 3.6 Kết huấn luyện lựa chọn hàm nhân với ung thư bạch cầu Số đặc trưng K1+K2+K3 78,13 81,81 92,71 90,28 90,76 91,94 93,82 92,85 92,78 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 84,91 73,82 84,46 75,56 78,67 81,94 80,62 87,50 82,90 89,10 83,00 90,28 83,28 86,04 84,47 82,50 86,08 82,71 K1+K2*K3 75,21 81,88 89,44 90,00 90,14 88,33 84,38 83,96 87,08 10 15 20 50 100 200 500 Kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết Bảng 3.7 Bảng 3.7 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư bạch cầu Số đặc trưng 10 15 20 Rbf 78,96 76,39 82,92 83,06 84,58 Poly 85,56 89,86 90,21 89,10 90,21 19 Hàm nhân Sigmoid 81,81 88,61 88,89 90,14 88,33 Combined 78,13 81,81 92,71 90,28 90,76 50 100 200 500 83,47 86,94 81,53 82,36 88,19 80,23 81,04 82,99 86,25 86,67 89,72 90,56 91,94 93,82 92,85 92,78 Tiến hành kiểm tra (test) hiệu phân lớp sử dụng tất đặc trưng so với việc sử dụng 20 đặc trưng trích xuất KPCA C-KPCA thể hiện Bảng 3.8 Bảng 3.8 So sánh kết phân lớp dự đoán liệu ung thư bạch cầu Độ đo Tất đặc trưng RF SVM 81,8 77,77 77,8 81,94 80,8 81,8 77,8 81,94 AUC Accuracy Precision Recall 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 74,6 75,9 76,8 67,5 72,2 81,9 76,4 72,2 71,1 82,8 75,9 71,4 72,2 81,9 76,4 72,2 Bảng cho thấy phương pháp đề xuất C-KPCA trích xuất 20 đặc trưng cho kết không cao so với việc sử dụng tồn bợ đặc trưng Lý bợ liệu có 7000 đặc trưng, việc trích xuất 20 đặc trưng chưa đủ thông tin để phân lớp cho đợ xác cao Ngồi phương pháp đề xuất cho kết phân lớp Random forest cao phương pháp KPCA sử dụng hàm nhân mặc định 3.4.3.3 Bộ liệu bạch huyết Kết đợ xác phân lớp trình huấn luyện đánh giá để chọn hàm nhân tốt thể hiện bảng Bảng 3.9 Kết huấn luyện lựa chọn hàm nhân với ung thư bạch huyết Số đặc trưng K1+K2+K3 87,27 98,70 98,64 98,57 100,00 99,81 81,56 88,12 87,40 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 77,50 89,48 76,00 98,57 82,84 97,40 87,90 97,40 90,62 100,00 93,27 97,21 93,76 86,36 96,91 88,25 87,31 84,48 K1+K2*K3 89,68 98,44 97,40 97,79 100,00 97,34 80,06 84,22 83,31 10 15 20 50 100 200 500 Tương tự hai bộ liệu trước, kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết sau: Bảng 3.10 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư bạch huyết Số đặc trưng 10 15 20 Rbf 87,79 98,70 98,25 99,94 100,00 Poly 86,75 98,70 97,92 99,42 100,00 20 Hàm nhân Sigmoid 87,27 98,70 98,70 100,00 100,00 Combined 87,27 98,70 98,64 98,57 100,00 50 100 200 500 96,88 77,01 85,06 83,90 96,30 76,75 85,58 83,25 98,70 82,73 89,87 94,68 99,81 81,56 88,12 87,40 Đợ xác phân lớp kiểm tra (test) bộ phân lớp rừng ngẫu nhiên (RF) máy vector hỗ trợ (SVM) sử dụng tất đặc trưng so sánh với việc sử dụng 20 đặc trưng trích xuất KPCA C-KPCA thể hiện Bảng 3.11 Bảng 3.11 So sánh kết phân lớp dự đoán liệu lymphoma Độ đo Tất đặc trưng RF SVM 97,2 88 88,3 93,5 89,9 93,5 88,3 93,5 AUC Accuracy Precision Recall 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 98,5 96,5 99,6 96,5 93,5 97,4 93,5 97,4 93,5 97,4 94 97,4 93,5 97,4 93,5 97,4 3.4.3.4 Bộ liệu ung thư tuyến tiền liệt Kết đợ xác phân lớp q trình huấn lụn đánh giá để chọn hàm nhân tốt thể hiện bảng Bảng 3.12 Kết huấn luyện lựa chọn hàm nhân với ung thư tuyến tiền liệt Số đặc trưng 10 15 20 50 100 200 500 K1+K2+K3 82,89 88,28 95,00 94,31 97,11 99,10 100,00 100,00 98,48 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 84,25 68,73 84,30 86,03 84,81 94,12 84,81 94,12 87,34 94,41 87,34 95,88 86,52 96,13 88,58 100,00 86,90 100,00 K1+K2*K3 65,88 89,17 94,41 94,12 96,08 99,80 99,02 95,44 98,48 Tương tự bộ liệu trước, kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết sau: Bảng 3.13 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư tiền liệt tuyến Số đặc trưng 10 15 20 50 100 200 500 Rbf 0.8755 0.9123 0.9412 0.9451 0.9426 0.9755 0.9593 1.0000 1.0000 Poly 0.8745 0.9299 0.9515 0.9623 0.9804 0.9902 1.0000 0.9377 0.9078 21 Hàm nhân Sigmoid 0.8745 0.9275 0.9510 0.9637 0.9745 0.9902 1.0000 0.9686 0.9245 Combined 0.8289 0.8828 0.9520 0.9641 0.9711 0.9910 1.0000 1.0000 0.9848 Bảng 3.14 So sánh kết phân lớp dự đoán liệu ung thư tuyến tiền liệt Độ đo AUC Accuracy Precision Recall Tất đặc trưng RF SVM 92,8 90,2 90,2 90,2 90,3 90,3 90,2 90,2 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 93,8 91,2 91 91,3 83,3 91,2 86,3 91,2 83,5 91,3 86,3 91,2 83,3 91,2 86,3 91,2 Tiến hành so sánh hiệu phân lớp với bốn bộ liệu ung thư cho kết Hình 3.2 Hình 3.2 So sánh hiệu phân lớp bốn liệu ung thư Trong thực nghiệm thực hiện bốn bợ liệu ung thư nói trên, phương pháp C-KPCA với hàm nhân đề xuất thường xuyên cho độ xác dự đốn cao so với phương pháp KPCA truyền thớng sử dụng hàm nhân sở Có thể thấy phương pháp CKPCA cho kết ổn định Bảng 3.15 So sánh phương pháp đề xuất(C-KPCA) với phương pháp lựa chọn đặc trưng khác Phương pháp PLSDR [52] GEM [35] IWSS3-MB-NB [87] DRF0-CFS [17] BDE-SVMRankf [11] C-KPCA Colon Tumor Độ Số đặc trưng xác 20 83,5 91,2 5,2 86 10 90,0 75 15 90,3 Leukemia Độ Số đặc trưng xác 20 97,1 91,5 6,4 97,1 13 91,18 82,4 20 72,2 Lymphoma Độ Số đặc trưng xác 20 93,0 93,3 11 93,33 92,9 96,1 Prostate Độ Số đặc trưng xác 20 91,7 5,6 91,1 113 85,29 97,1 15 92,2 Bảng 3.15 thể hiện đợ xác phân lớp phương pháp đề xuất phương pháp lựa chọn đặc trưng phổ biến hiện Với bộ liệu ung thư ruột kết, việc phân lớp sử 22 dụng 15 đặc trưng trích xuất phương pháp C-KPCA chúng tơi cho đợ xác cao bốn phương pháp khác là: PLSDR [52], IWSS3-MB-NB [87], DRF0-CFS [17] BDE-SVMRankf [11] So sánh bộ liệu bạch huyết ung thư tiền liệt tuyến, cho thấy với 15 đặc trưng trích xuất đợ xác phương pháp đề xuất cao phương pháp khác 3.5 Kết luận chương Trong chương này, tập trung vào việc tìm hiểu cách tiếp cận hàm nhân đề xuất phương pháp C-KPCA sử dụng hàm nhân kết hợp từ hàm nhân khác KẾT LUẬN Trong năm gần đây, gia tăng phát triển kỹ thuật rút gọn đặc trưng làm cho khó khăn việc chọn thuật tốn lựa chọn đặc trưng trích xuất đặc trưng phù hợp cho một ứng dụng cụ thể Các thuật toán rút gọn đặc trưng khác với tiêu chí lựa chọn khác cho kết khác Trong luận án chúng tơi trình bày tổng quan vấn đề rút gọn đặc trưng gồm có lựa chọn đặc trưng, trích xuất đặc trưng áp dụng cho toán phân lớp Với miền ứng dụng rủi ro tín dụng, sớ lượng đặc trưng không nhiều số lượng ghi lớn nhiều so với số đặc trưng Nhiệm vụ phải loại bỏ đặc trưng không liên quan, dư thừa tìm đặc trưng tớt cho q trình phân lớp Chúng tơi sử dụng phương pháp lựa chọn đặc trưng FRFE bộ phân lớp rừng ngẫu dựa chế phân tán song song để xây dựng mơ hình đánh giá tín dụng Các kết thực nghiệm cho thấy đợ xác phân lớp sử dụng đặc trưng lựa chọn phương pháp đề xuất cải thiện tương đối khả quan Tiêu chí xếp hạng đặc trưng đề xuất nhằm giúp cải tiến đợ xác làm giảm thời gian thực hiện kỹ thuật phân lớp Ngoài ra, thời gian chạy giảm xuống đáng kể áp dụng thủ tục xử lý song song Với việc phân tích liệu ung thư có sớ lượng đặc trưng lớn so với số ghi, đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất chúng tơi xây dựng một hàm nhân dựa việc kết hợp một số hàm nhân Chúng tiến hành thực nghiệm 04 bộ liệu ung thư so sánh kết sử dụng hàm nhân đề xuất với hàm nhân so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Hướng nghiên cứu Các kết nghiên cứu lựa chọn đặc trưng tập trung xây dựng hàm đánh giá chủ yếu dựa đợ xác bộ phân lớp Trong một số nghiên cứu gần cho thấy việc sử độ đo AUC tốt so với đợ xác phân tích bợ liệu đa lớp không cân bằng, hàm đánh giá sử dụng độ đo nhiên mức độ ảnh hưởng chưa đánh giá mợt cách đợc lập Do đó, nghiên cứu tiếp theo, chúng tơi dự kiến tiến hành khảo sát kỹ ảnh hưởng độ đo AUC nhằm tăng hiệu hàm đánh giá 23 Các kết nghiên cứu trích xuất đặc trưng dừng lại việc kết hợp thủ cơng hàm nhân để có hàm nhân cho KPCA phân tích liệu ung thư Chúng khảo sát nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máy nhằm tự động xây dựng hàm nhân dựa việc kết hợp hàm nhân phù hợp với loại liệu cần phân tích 24 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Tạp chí quốc tế: [SANGHV1] Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan (2016) “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016 (Scopus1) [SANGHV2] Ha Van Sang, Nguyen Ha Nam, & Bao, H N T (2017) A hybrid feature selection method for credit scoring EAI Endorsed Trans Context-Aware Syst & Appl., 4(11), e2 (DBLP2) Hội thảo quốc tế: [SANGHV3] Van-Sang Ha and Ha-Nam Nguyen (2016) “Credit scoring with a feature selection approach based deep learning”, in MATEC Web of Conferences, vol 54, p 05004.(Scopus) [SANGHV4] Van-Sang Ha and Ha-Nam Nguyen (2016) “C-KPCA: Custom Kernel PCA for Cancer Classification”, in Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, Springer International Publishing, pp 459–467(Scopus; DBLP) [SANGHV5] Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”, in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp 133– 142.(Scopus; DBLP) https://www.scopus.com/authid/detail.uri?authorId=57190294285 http://dblp.uni-trier.de/pers/hd/h/Ha:Van=Sang 25 ... SVM 76, 74 75,72 75,10 76, 54 73, 76 77,18 CART 74,28 73, 52 73 ,66 75,72 74, 16 74 ,30 k-NN 71,82 71, 86 72 ,62 72,24 71 ,60 70, 86 Naïve Bayes 72,40 70,88 71,44 71, 56 74, 16 70,52 MLP 73, 28 73, 44 73, 42... 76, 74 75,72 75,10 76, 54 73, 76 77,18 12 CART k-NN Naïve Bayes MLP Random Forest PP đề xuất 74,28 71,82 72,40 73, 28 73, 52 71, 86 70,88 73, 44 73 ,66 72 ,62 71,44 73, 42 75,72 72,24 71, 56 74, 03 74, 16. .. 85, 46 85,11 86, 06 85 ,31 84,81 68 ,52 67 ,09 66 ,74 85 ,60 86, 00 85,89 Phương pháp Đóng gói GA PSO 85,52 85,52 84,85 84,82 84 ,69 84 ,64 86, 09 85, 86 85,57 85,49 89, 16 14 Cơ sở 85,52 85,20 84,58 68 ,55