NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	27
Dung lượng	1,72 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HÀ VĂN SANG NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU Chun ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 i Cơng trình hồn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS TS Nguyễn Hà Nam PGS.TS Nguyễn Hải Châu Phản biện: PGS TS Đỗ Trung Tuấn Phản biện: TS Nguyễn Duy Phương Phản biện: PGS TS Nguyễn Long Giang Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp Trường Đại học Công nghệ vào hồi giờ ngày 13 tháng năm 2018 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội ii MỞ ĐẦU Tính cấp thiết luận án Trong năm gần đây, liệu thực tế gia tăng mợt cách nhanh chóng dung lượng lẫn chủng loại Dữ liệu với số chiều lớn trở thành thách thức đối với kỹ thuật xử lý, phân tích liệu hiện có Học máy (machine learning) khai phá liệu (data mining) cung cấp công cụ giúp người giải vấn đề quản lý, bóc tách thơng tin tri thức cách tự đợng phân tích mợt lượng lớn liệu Tuy nhiên, kỹ thuật phân tích liệu phân lớp, dự báo dẫn đến kết thấp khơng xác khơng phải lúc liệu xử lý đầy đủ, có nhiều liệu dư thừa, khơng liên quan, hay nhiễu Ngồi ra, thuật toán phân lớp chạy nhiều thời gian, chí khơng thể thực hiện liệu chưa tiền xử lý một cách thích hợp Rút gọn đặc trưng kỹ thuật giải đề thu gọn chiều liệu nhằm giải vấn đề nêu Rút gọn đặc trưng phân loại thành “lựa chọn đặc trưng” “trích xuất đặc trưng” Trong đó, lựa chọn đặc trưng chọn mợt nhóm nhỏ đặc trưng phù hợp, liên quan từ tập liệu gốc cách loại bỏ đặc trưng nhiễu, dư thừa không liên quan trích xuất đặc trưng trích rút đặc trưng một phép chuyển đổi Rút gọn đặc trưng tạo điều kiện cho kỹ thuật phân tích xử lý liệu cải tiến hiệu theo nghĩa nâng cao hiệu suất mà giữ nguyên nâng cao hiệu Trong năm gần đây, có nhiều nghiên cứu tập trung vào cải tiến hiệu kỹ thuật rút gọn đặc trưng cách lựa chọn tập đặc trưng có ích, trích xuất đặc trưng Tuy nhiên, phương pháp rút gọn đặc trưng khác cho kết khác với miền ứng dụng tương ứng Cộng đồng nghiên cứu Việt Nam quan tâm cơng bớ nhiều cơng trình khoa học liên quan tới học máy khai phá liệu Tuy nhiên, hướng nghiên cứu rút gọn đặc trưng chưa quan tâm nhiều Như vậy, nhận thấy rút gọn đặc trưng hiện chủ đề để nhà nghiên cứu nước tiếp tục nghiên cứu phát triển Mục tiêu luận án Mục tiêu luận án nghiên cứu đề xuất một số kỹ thuật rút gọn đặc trưng tiên tiến phân lớp liệu đối với một số miền ứng dụng Hướng tiếp cận lựa chọn đặc trưng xác định mợt tập đặc trưng tớt từ tập đặc trưng ban đầu mà không làm giảm kết phân lớp Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệu để thu tập đặc trưng phù hợp với bộ phân lớp tương ứng Với mục tiêu cải tiến hiệu kỹ thuật phân tích liệu, lựa chọn đề tài luận án với tiêu đề: "Nghiên cứu cải tiến kỹ thuật rút gọn đặc trưng cho phân lớp liệu” Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án kỹ thuật rút gọn đặc trưng cho toán phân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng Phạm vi áp dụng kỹ thuật rút gọn đặc trưng vào miền ứng dụng rộng Trong luận án này, giới hạn phạm vi với hai miền ứng dụng toán cho điểm tín dụng phân tích liệu ung thư Phương pháp nghiên cứu Luận án sử dụng phương pháp phân tích, tổng hợp lý thuyết, phương pháp mơ hình hóa phương pháp nghiên cứu thực nghiệm Trong đó, lý thuyết sở phân tích phương pháp đề xuất mơ hình hóa Ći hương pháp nghiên cứu thực nghiệm dùng để đánh giá, kiểm chứng kết phương pháp đề xuất Đóng góp luận án Luận án đề xuất phương pháp rút gọn đặc trưng nhằm tăng hiệu kỹ thuật phân lớp theo hai hướng tiếp cận lựa chọn đặc trưng trích xuất đặc trưng: Lựa chọn đặc trưng: đề xuất phương pháp lựa chọn đặc trưng (FRFE) dựa hướng tiếp cận đóng gói Nợi dung phương pháp đề xuất việc loại bỏ đặc trưng đệ quy việc cải tiến hàm đánh giá đặc trưng Hàm đánh giá đặc trưng đề xuất có đặc điểm giúp tránh hiện tượng khớp, tăng hiệu phân lớp giúp cho kết ổn định Thủ tục loại bỏ đệ quy giúp thuật toán không quan tâm tới mối liên quan đặc trưng mà quan tâm tới mới tương quan đặc trưng với bợ phân lớp Thuật tốn học đề xuất nhằm tự đợng tìm tập đặc trưng tối ưu cho bộ liệu Một vấn đề khác mà phương pháp lựa chọn đặc trưng phải đới mặt phương pháp lựa chọn đặc trưng đóng gói (wrapper) có chi phí tính tốn lớn Để giải vấn đề chúng tơi sử dụng bộ phân lớp rừng ngẫu nhiên (random forest) với khả xử lý song song nhằm làm giảm thời gian thực hiện phương pháp đề xuất Thực nghiệm bợ liệu tín dụng cho thấy phương pháp lựa chọn đặc trưng đề xuất có khả đạt mục tiêu mà luận án đặt Những đóng góp dựa hướng tiếp cận lựa chọn đặc trưng cho tốn cho điểm tín dụng báo cáo công bố [SANGHV1, SANGHV2, SANGHV3, SANGHV5] Trích xuất đặc trưng: Ngồi cách tiếp cận lựa chọn đặc trưng, mợt hướng tiếp cận khác trích xuất đặc trưng nhiều nhóm nghiên cứu quan tâm phát triển kỹ thuật lựa chọn đặc trưng trở nên hiệu Chúng tơi đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất xây dựng một hàm nhân dựa việc kết hợp một số hàm nhân Chúng tiến hành thực nghiệm 04 bộ liệu ung thư so sánh kết sử dụng hàm nhân đề xuất với hàm nhân so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Hướng tiếp cận trích xuất đặc trưng cho tốn phân tích liệu ung thư công bố công bố: [SANGHV4] Các kết nghiên cứu trình bày luận án cơng bớ 05 cơng trình Trong có 02 báo đăng tạp chí nước ngồi [SANGHV1, SANGHV2]; 03 báo hợi thảo q́c tế cơng bớ có sớ Scopus, 02 báo Springer xuất đưa vào danh mục LNCS Bố cục luận án Ngoài phần mở đầu, mục lục, kết luận tài liệu tham khảo, nợi dung luận án chia thành 03 chương, cụ thể sau: Chương 1: Phần đầu giới thiệu lý thuyết liên quan tới rút gọn đặc trưng, lựa chọn đặc trưng trích xuất đặc trưng, đồng thời điểm lại một số nghiên cứu gần Cuối phần phân tích, đánh giá mợt sớ kỹ thuật rút gọn đặc trưng thường sử dụng Chương 2: Đề xuất một hàm đánh giá đặc trưng thuật toán học dựa hàm đánh giá nhằm nâng hiệu việc lựa chọn đặc trưng Sau trình bày quy trình, giải pháp đề xuất, luận án áp dụng phương pháp đề xuất cho bộ liệu tín dụng Phần lại chương thực hiện thực nghiệm bợ liệu tín dụng so sánh kết với một số phương pháp lựa chọn đặc trưng khác Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa việc xây dựng một hàm nhân sở kết hợp một số hàm nhân nhằm biến đổi không gian đặc trưng phù hợp với miền liệu Sau trình bày quy trình, phương pháp đề xuất, phương pháp đề xuất tiến hành bốn bộ liệu ung thư Việc thực nghiệm so sánh với một số kỹ thuật khác thực hiện phần lại chương Chương TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG Hầu hết lĩnh vực khoa học cơng nghệ ngày đòi hỏi phân tích liệu nhằm bóc tách tri thức hữu ích giúp cải tiến hay nâng cao hiệu lĩnh vực Dữ liệu quan sát thu thập từ ứng dụng thực tế thường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập liệu có sớ lượng tḥc tính lớn dẫn tới việc tốn tài nguyên áp dụng kỹ thuật phân tích liệu, nhiều trường hợp thực hiện Xuất phát từ nhu cầu thực tiễn đó, kỹ thuật rút gọn đặc trưng nghiên cứu phát triển để giải vấn đề Nội dung chương nhằm giới thiệu tổng quan vấn đề rút gọn đặc trưng điểm lại một số hướng nghiên cứu rút gọn đặc trưng tiêu biểu hiện Phần cuối chương đưa một số kỹ thuật đánh giá hiệu hệ thống thường áp dụng hiện 1.1 Rút gọn đặc trưng Rút gọn đặc trưng hiểu trình thu gọn biến đổi không gian biểu diễn liệu ban đầu thành một khơng gian mợt khơng gian có sớ đặc trưng nhỏ không gian ban đầu mà giữ đặc tính liệu gớc Trong nhiều trường hợp, tập liệu ban đầu có chứa nhiều đặc trưng không liên quan cho mô tả chất hiện tượng mà ta quan tâm, loại bỏ đặc trưng khơng liên quan giữ lại đặc trưng quan trọng Có hai phương pháp để rút gọn đặc trưng gồm lựa chọn đặc trưng trích xuất đặc trưng 1.2 - Lựa chọn đặc trưng Lựa chọn đặc trưng (Feature selection): chọn lựa một tập đặc trưng từ đặc trưng ban đầu mà khơng có thay đổi giá trị đặc trưng x𝑖1 x1 x2 𝑙ự𝑎 𝑐ℎọ𝑛 đặ𝑐 𝑡𝑟ư𝑛𝑔 x𝑖2 [ ⋮ ]→ [ ⋮ ] xN x𝑖M (𝑀 < 𝑁) Hình 1.1 Lựa chọn đặc trưng Lựa chọn đặc trưng một phương pháp tự nhiên để giải vấn đề loại bỏ đặc trưng dư thừa, trùng lặp không liên quan liệu Kết lựa chọn đặc trưng một tập đặc trưng từ tập đặc trưng ban đầu đảm bảo tính chất liệu gớc Lựa chọn đặc trưng giúp: (1) cải tiến hiệu (về tớc đợ, khả dự đốn, đơn giản hóa mơ hình); (2) trực quan hóa liệu cho việc lựa chọn mơ hình; (3) giảm chiều loại bỏ nhiễu 1.2.1 Mục tiêu lựa chọn đặc trưng Mục tiêu lựa chọn đặc trưng xác định đặc trưng quan trọng loại bỏ đặc trưng khơng liên quan khơng phù hợp Ngồi mợt sớ mục tiêu như: tìm tập đặc trưng có kích cỡ nhỏ có thể, mà cần đủ cho việc phân tích liệu (cụ thể phân lớp) Chọn một tập đặc trưng nhằm cải tiến độ xác dự đốn làm giảm kích cỡ tập liệu mà khơng làm giảm đợ xác dự đốn bợ phân lớp 1.2.2 Phân loại kỹ thuật lựa chọn đặc trưng Dựa vào tính sẵn có thơng tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng chia thành ba loại: phương pháp có giám sát, bán giám sát, khơng giám sát 1.2.3 Các thành phần lựa chọn đặc trưng Ba thành phần lựa chọn đặc trưng là: (1) Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung, loại bỏ thay đổi đặc trưng trình tìm kiếm, (3) Tiêu chí đánh giá tập khác 1.2.4 Thủ tục lựa chọn đặc trưng Mặc dù lựa chọn đặc trưng áp dụng với nhiều mơ hình học, nhiên khn khổ luận án tập trung vào việc nghiên cứu kỹ thuật lựa chọn đặc trưng để tăng hiệu bộ phân lớp Tiến trình lựa chọn đặc trưng gồm bớn khới chính: Sinh tập con, đánh giá, điều kiện dừng kiểm chứng kết 1.2.5 Các mơ hình lựa chọn đặc trưng Mơ hình Lọc Tất đặc trưng Filter Tính tốn xếp hạng theo độ đo tương ứng Tập đặc trưng tớt Phân lớp Hình 1.2 Mơ hình chọn lựa đặc trưng Lọc Mơ hình Lọc (Filter) phương pháp lựa chọn đặc trưng đơn giản (Hình 1.2) Đầu vào mơ hình tồn bợ đặc trưng tập liệu, sau thực hiện việc đánh giá đặc trưng sử dụng độ đo tiêu chí định cho trước đầu mơ hình danh sách đặc trưng với điểm sớ đặc trưng Mơ hình Đóng gói Mơ hình đóng gói (Wrapper) tìm kiếm tập đặc trưng tốt cách đánh giá chất lượng tập đặc trưng Việc đánh giá chất lượng thường sử dụng hiệu (đợ xác dự đốn phân lớp) thuật tốn học (Hình 1.3) Wrapper Tất đặc trưng Tập đặc trưng tốt Bộ sinh tập Tập đặc trưng Kết đánh giá Thuật tốn học Hình 1.3 Mơ hình chọn lựa đặc trưng đóng gói Mơ hình đóng gói sử dụng chiến lược tìm kiếm khác chẳng hạn tìm kiếm tuần tự, ngẫu nhiên Mơ hình nhúng Mơ hình nhúng (Embedded) giúp cải tiến hiệu phân lớp tăng tốc độ q trình lựa chọn Mơ hình nhúng tích hợp, nhúng kỹ thuật lựa chọn đặc trưng vào mô hình học 1.3 - Trích xuất đặc trưng Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban đầu sang mợt khơng gian khác mà dễ dàng phân tích Hay nói cách khác xây dựng mợt tập đặc trưng từ tập đặc trưng ban đầu với số đặc trưng nhỏ y1 x1 x1 x2 𝑡𝑟í𝑐ℎ 𝑥𝑢ấ𝑡 đặ𝑐 𝑡𝑟ư𝑛𝑔 y2 x2 [ ⋮ ]→ [ ⋮ ] = 𝑓 ([ ⋮ ]) (𝑀 < 𝑁) xN yM xN Hình 1.4 Trích xuất đặc trưng 1.3.1 Mục tiêu trích xuất đặc trưng Mục tiêu: tăng hiệu thuật toán học, trực quan hóa liệu thực hiện dễ dàng giảm nhiễu dư thừa 1.3.2 Phân loại kỹ thuật trích xuất đặc trưng Các phương pháp khơng giám sát gồm: Phân tích thành phần (PCA), Phân tích giá trị đơn (SVD), Phân tích yếu tớ (FA)… Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân tích thành phần độc lập (ICA)… 1.4 1.4.1 Một số nghiên cứu rút gọn đặc trưng Hướng nghiên cứu lựa chọn đặc trưng Các nhà nghiên cứu hiện tập trung vào phát triển kỹ thuật lựa chọn đặc trưng theo hai hướng là: chiến lược tìm kiếm tiêu chí đánh giá Chiến lược tìm kiếm kinh nghiệm tham lam, tìm kiếm dựa tới ưu Tiêu chí đánh giá theo: đợ đo tương quan lý thuyết thông tin, độ đo đánh giá mờ, Tiêu chuẩn phụ tḥc 1.4.2 Hướng nghiên cứu trích xuất đặc trưng Hướng nghiên cứu dựa lý thuyết thống kê Phương pháp dựa lý thuyết phân tích thớng kê phương pháp thường sử dụng trích xuất đặc trưng Các phương pháp thớng kê phân tích xử lý liệu mợt cách hiệu Chẳng hạn, một số phương pháp cổ điển phân tích thành phần (PCA), phân tích biệt thức tuyến tính (LDA), phân tích yếu tớ (FA) Hướng nghiên cứu dựa hàm nhân Hàm nhân sử dụng để chuyển đổi liệu từ không gian phi tuyến ban đầu sang khơng gian đặc trưng tuyến tính Các phương pháp sử dụng hàm nhân nhằm phát triển một hướng tiếp cận để giải toán phi tuyến, từ áp dụng thuật tốn phân tích liệu tuyến tính 1.4.3 Phân tích đánh giá Cho một tập hợp đặc trưng đầu vào, việc rút gọn đặc trưng thực hiện theo hai hướng tiếp cận khác Hướng tiếp cận lựa chọn một tập đặc trưng tốt từ tập đặc trưng đầu vào Quá trình gọi lựa chọn đặc trưng Hướng tiếp cận thứ hai tạo đặc trưng dựa việc chuyển đổi đặc trưng ban đầu sang mợt khơng gian có chiều thấp q trình gọi trích xuất đặc trưng Sự chuyển đổi mợt kết hợp tuyến tính phi tuyến đặc trưng ban đầu Việc sử dụng kỹ thuật lựa chọn đặc trưng hay trích xuất đặc trưng phụ thuộc nhiều vào miền ứng dụng liệu hiện có Lựa chọn đặc trưng có ưu điểm tiết kiệm chi phí tính tốn Kết q trình mợt sớ đặc trưng khơng phù hợp loại bỏ đặc trưng lựa chọn có khả giữ lại đặc tính liệu gớc Trích xuất đặc trưng cung cấp mợt khả phân tích trực quan hóa liệu tốt liệu gốc chuyển đổi sang không gian đặc trưng Tuy nhiên tập đặc trưng sinh khơng giữ tính chất nguyên gốc liệu ban đầu 1.5 Kết luận chương Chương luận án tập trung vào giới thiệu tổng quan lĩnh vực rút gọn đặc trưng Phần đầu tập trung vào trình bày kiến thức sở toán lựa chọn đặc trưng trích xuất đặc trưng Phần lại chương giới thiệu một số hướng nghiên cứu rút gọn đặc trưng tiêu biểu hiện Đây sở lý thuyết giúp ích cho định hướng nghiên cứu xây dựng mơ hình trình bày chương Tùy tḥc vào tốn liệu tốn, lựa chọn kỹ thuật rút gọn đặc trưng phù hợp để đạt mục tiêu cải tiến hiệu thuật toán phân lớp Các kiến thức giới thiệu chương áp dụng để giải miền liệu cụ thể chương luận án Chương KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TỐN CHO ĐIỂM TÍN DỤNG Trong chương này, chúng tơi đề xuất phương pháp lựa chọn đặc trưng dựa vào hướng tìm kiếm tiến tìm kiếm lùi trình bày chương 1, đề xuất hai hướng tiếp cận, cụ thể sau: Hướng thứ lựa chọn đặc trưng theo hướng tìm kiếm tiến, việc thêm đặc trưng tớt thực hiện cách sử dụng luật lựa chọn đặc trưng có tiêu chí xếp hạng cao Các kết nghiên cứu cơng bớ tạp chí khoa học cơng nghệ q́c tế (Cơng trình khoa học SANGHV1) Hướng thứ hai lựa chọn đặc trưng theo tìm kiếm lùi có tên FRFE (Fast Recursive Feature Elimination) dựa việc loại bỏ đặc trưng đệ quy kết hợp với rừng ngẫu nhiên Tập đặc trưng thu gọn dựa vào tiêu chí xếp hạng đặc trưng đề xuất Tiêu chí kết hợp từ độ quan trọng đặc trưng, mối liên quan đợ xác huấn lụn, kiểm tra đợ đo AUC Kết thực nghiệm phương pháp đề xuất bợ liệu tín dụng cho kết tốt so với một số phương pháp truyền thống Các kết nghiên cứu công bố kỉ yếu hội thảo quốc tế có phản biện 2.1 Bài tốn cho điểm tín dụng Các ngân hàng thương mại thường sử dụng hệ thống cho điểm tín dụng (xếp hạng khách hàng) để đánh giá xem mợt khách hàng có khả trả nợ hay khơng Đánh giá rủi ro tín dụng dựa việc xác định khả trả lãi gốc đến hạn Mức đợ rủi ro tín dụng phụ tḥc vào khách hàng, doanh nghiệp, mức độ rủi ro thường đánh giá thang điểm dựa vào thơng tin tài chính, phi tài có Dựa nhóm khách hàng, mơ hình cho điểm tín dụng thường chia thành hai loại Với nhóm khách hàng doanh nghiệp, áp dụng mơ hình xếp hạng tín dụng (credit rate) Mơ hình thường đánh giá mức đợ tín dụng thang điểm AAA, AA, BBB,…CC Moody hay Standard & Poor Với nhóm khách hàng cá nhân hợ gia đình áp dụng mơ hình cho điểm tín dụng (credit scoring); mơ hình thường đơn giản cần dựa vào thơng tin khách hàng khứ hiện để đưa định có cho vay khơng Hai mơ hình này, hỗ trợ cán bợ tín dụng nhanh chóng định đồng thời giám sát đánh giá mức tín dụng khách hàng Chúng cho phép dự đốn, dự báo khoản vay có chất lượng khơng tốt (nợ xấu) 2.2 Các nghiên cứu liên quan Các phương pháp tuyến tính: PCA, SPCA Các phương pháp phi tuyến: isomap, LLE 2.3 2.3.1 Phương pháp giải Sơ đồ hệ thống lựa chọn đặc trưng Với mục tiêu luận án xây dựng một hàm đánh giá đặc trưng phù hợp với liệu tín dụng nhằm cải tiến đợ xác kỹ thuật phân lớp giảm thời gian thực hiện từ giúp cho ngân hàng đưa định phù hợp Quy trình lựa chọn đặc trưng với tốn cho điểm tín dụng trình bày Hình 2.1 Tập đặc trưng Dữ liệu tín dụng Tiền xử lý liệu Tập đặc trưng Phân Lựa chọn đặc lớp trưng Đợ xác dự báo Hình 2.1 Quy trình lựa chọn đặc trưng tốn cho điểm tín dụng 2.3.2 Đề xuất hàm đánh giá chiến lược tìm kiếm đặc trưng phù hợp 2.3.2.1 Chiến lược lựa chọn đặc trưng tiến Trong hướng tiếp cận sử dụng chiến lược tìm kiếm tiến, từ mợt tập rỗng, thêm vào tập đặc trưng tớt Các bước thực hiện thuật tốn đặc tả dạng giả mã sau: Thuật toán 2.1: Lựa chọn đặc trưng theo hướng tiến Đầu vào: S tập mẫu (xi, yi) xi có chiều p Đầu ra: danh sách xếp hạng p đặc trưng Chương trình: F ← Ø //tập rỗng đặc trưng 2.4.2.2 Bộ liệu tín dụng Úc Bợ liệu tín dụng Úc bao gồm 690 ứng viên, với 383 trường hợp tín dụng tớt 307 trường hợp tín dụng xấu Mỗi mẫu có chứa đặc trưng sớ, đặc trưng phân loại, văn 2.4.3 Kết thực nghiệm 2.4.3.1 Bộ liệu tín dụng Đức Kết thực nghiệm lựa chọn đặc trưng theo hướng lựa chọn tiến Hiệu một số bộ phân lớp khác so sánh thể hiện Bảng 2.1 Cơ sở dùng để so sánh kết phân lớp mà không lựa chọn đặc trưng Bảng 2.1 So sánh hiệu phân lớp liệu tín dụng Đức Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương pháp sở t-test LDA LR GA PSO SVM 76,74 75,72 75,10 76,54 73,76 77,18 CART 74,28 73,52 73,66 75,72 74,16 74,30 k-NN 71,82 71,86 72,62 72,24 71,60 70,86 Naïve Bayes 72,40 70,88 71,44 71,56 74,16 70,52 MLP 73,28 73,44 73,42 74,03 72,54 71,76 RandomForest 75,3 PP đề xuất 76,20 Qua kết so sánh hiệu phương pháp khác thể hiện Bảng 2.1, thấy đợ xác RF tập hợp đặc trưng chọn tăng lên từ 73.4% ban đầu thành 76,20% Và số lượng đặc trưng lựa chọn lại 65% so với số lượng đặc trưng ban đầu Hơn nữa, phương pháp dựa kỹ thuật xử lý song song kiến trúc H20 cho phép thời gian để chạy nhanh 9,5 lần so với bộ phân lớp rừng ngẫu nhiên gốc Kết thực nghiệm theo hướng lùi sử dụng FRFE Áp dụng phương pháp lựa chọn đặc trưng FRFE theo hướng lùi, chúng tơi có kết Hình 2.2 11 0.84 CV Độ xác dự đoán 0.82 Pred 0.80 0.78 0.76 0.74 0.72 0.70 0.68 0.66 10 11 12 13 14 15 16 17 18 19 Số đặc trưng chọn Hình 2.2 Độ xác phân lớp liệu Đức theo hướng lùi Pha huấn luyện cho kết bộ tập đặc trưng tốt bao gồm 13 đặc trưng đợ xác phân lớp dự đốn 77,3% Đợ xác dự đốn tăng lên 78,95%, đợ xác trung bình liệu ban đầu 76,60% Kết thực nghiệm bộ liệu sử dụng đặc trưng thu từ phương pháp lọc, tiến FRFE thể hiện Hình 2.3, cợt ći kết phân lớp dự đoán Random forest tập liệu ban đầu Độ xác Độ xác dự đốn 80 79 78 77 76 75 74 73 72 78.95 75.8 76.2 75.3 75.3 74.9 Phương pháp lựa chọn đặc trưng Hình 2.3 So sánh kết sử dụng đặc trưng lựa chọn liệu Đức Chúng thực hiện so sánh hiệu phân lớp phương pháp đề xuất với phương pháp khác Bảng 2.2 Bảng 2.2 Hiệu phân lớp khác với liệu tín dụng Đức Bộ phân lớp SVM Phương pháp Lọc Phương pháp Đóng gói Phương pháp sở t-test LDA LR GA PSO 76,74 75,72 75,10 76,54 73,76 77,18 12 CART k-NN Naïve Bayes MLP Random Forest PP đề xuất 74,28 71,82 72,40 73,28 73,52 71,86 70,88 73,44 73,66 72,62 71,44 73,42 75,72 72,24 71,56 74,03 74,16 71,60 74,16 72,54 74,30 70,86 70,52 71,76 76,60 78,95 Kết cho thấy thời gian thực hiện việc lựa chọn đặc trưng sử dụng bộ phân lớp Random forest gói H20 nhanh gấp khoảng 10 lần so với thời gian thực hiện việc lựa chọn đặc trưng sử dụng bộ phân lớp Random forest gốc 2.4.3.2 Bộ liệu tín dụng Úc Chúng tơi tiến hành áp dụng phương pháp Đóng gói đề xuất theo hướng tìm kiếm tiến Bảng 2.3 cho thấy hiệu bộ phân lớp khác phương pháp lựa chọn đặc trưng khác Các kết thu cho thấy đợ xác phân lớp RF tập hợp gồm đặc trưng chọn cải thiện rõ rệt Độ xác trung bình 87,82% bợ liệu ban đầu, đợ xác trung bình tăng tới 89,40% sau áp dụng phương pháp lựa chọn đặc trưng Bảng 2.3 So sánh hiệu phân lớp liệu tín dụng Úc Bộ phân lớp Phương pháp Lọc Phương pháp Đóng gói Phương pháp sở t-test LDA LR GA PSO SVM 85,52 85,52 85,52 85,52 85,52 85,52 CART 85,25 85,46 85,11 84,85 84,82 85,20 k-NN 86,06 85,31 84,81 84,69 84,64 84,58 Naïve Bayes 68,52 67,09 66,74 86,09 85,86 68,55 MLP 85,60 86,00 85,89 85,57 85,49 84,15 Random forests 86.81 PP đề xuất 89,40 Dựa xử lý song song, thời gian để huấn luyện với kiểm chứng chéo phương pháp chúng 20 lần thử nghiệm 2.974 giây (~ 50 phút) Chiến lược lựa chọn đặc trưng FRFE Sau tiến hành chạy thủ tục FRFE, tập tốt thu bao gồm 07 đặc trưng lựa chọn phương pháp đề xuất đạt đợ xác 87.5% trường hợp bợ 13 liệu tín dụng Úc CV Pred ĐỘ CHÍNH XÁC DỰ ĐỐN 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 0.78 10 11 12 13 SỐ ĐẶC TRƯNG ĐƯỢC CHỌN Hình 2.4 Độ xác dự đốn liệu tín dụng Úc Độ xác Kết so sánh đợ xác dự đốn sử dụng đặc trưng lựa chọn phương pháp thể hiện Hình 2.5 Trong cợt ći kết phân lớp dự đốn Random forest tập liệu ban đầu 89.4 90 89 88 87 86 85 84 83 82 81 89.16 86.81 86.37 83.9 84.5 Phương pháp lựa chọn đặc trưng Hình 2.5 Độ xác dự đốn sử dụng đặc trưng lựa chọn liệu Úc Như ta thấy đợ xác phương pháp đề xuất cao nhiều so với phương pháp khác hiện có Sau áp dụng phương pháp đề xuất, đợ xác tăng lên 89.16%, đợ xác trung bình liệu gớc 87.25% Bảng 2.4 Hiệu phân lớp khác liệu tín dụng Úc Bộ phân lớp SVM CART k-NN Naïve Bayes MLP Random forest PP đề xuất Phương pháp Lọc t-test LDA LR 85,52 85,52 85,52 85,25 85,46 85,11 86,06 85,31 84,81 68,52 67,09 66,74 85,60 86,00 85,89 Phương pháp Đóng gói GA PSO 85,52 85,52 84,85 84,82 84,69 84,64 86,09 85,86 85,57 85,49 89,16 14 Cơ sở 85,52 85,20 84,58 68,55 84,15 86,81 Bằng việc sử dụng kỹ thuật song song kiến trúc H2O, thời gian chạy huấn luyện với kiểm chứng chéo 5-lần 09 phút với bợ liệu tín dụng Úc 2.5 Kết luận chương Trong chương này, đề xuất hai phương pháp lựa chọn đặc trưng để tiến hiệu tốn cho điểm tín dụng dựa hướng tìm kiếm tiến tìm kiếm lùi trình bày chương Hướng thứ lựa chọn đặc trưng theo hướng tìm kiếm tiến, việc thêm đặc trưng tớt thực hiện cách sử dụng luật lựa chọn đặc trưng có tiêu chí xếp hạng cao Phương pháp thứ hai lựa chọn đặc trưng theo tìm kiếm lùi có tên FRFE dựa việc loại bỏ đặc trưng đệ quy dựa cơng thức tính hạng đề xuất kết hợp với rừng ngẫu nhiên Kết thực nghiệm phương pháp đề xuất bợ liệu tín dụng cho kết tốt so với một số phương pháp truyền thớng Chương KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TỐN PHÂN TÍCH DỮ LIỆU UNG THƯ Trong chương chúng tơi áp dụng hướng tiếp cận trích xuất đặc trưng với mục tiêu tìm mợt phép biến đổi phù hợp để tăng hiệu việc phân tích liệu Chúng tơi đề xuất phương pháp trích xuất đặc trưng dựa việc kết hợp hàm nhân cho KPCA sử dụng nhằm cải thiện hiệu phân lớp Phương pháp đề xuất thực nghiệm bộ liệu ung thư ung thư ruột kết, bệnh bạch cầu, bệnh ung thư máu tuyến tiền liệt Phương pháp C-KPCA cho mợt đợ xác phân loại tốt so với KPCA một số trường hợp kết cao so với một số thuật toán lựa chọn đặc trưng khác Kết nghiên cứu cơng bớ kỷ yếu có phản biện hội thảo quốc tế lần thứ 12 học máy khai phá liệu MLDM-2016 (Cơng trình SANGHV4) 3.1 Bài tốn phân tích liệu ung thư Hiện tỷ lệ tử vong chẩn đốn ṃn bệnh ung thư cao chiếm tới 2/3 số lượng bệnh nhân phát hiện ung thư Các bác sĩ tập trung vào mợt sớ triệu chứng chẩn đốn mà bỏ qua yếu tớ nguy tiềm ẩn Ứng dụng khai phá liệu chẩn đốn bệnh ung thư mợt hướng tiếp cận nhằm tăng tỷ lệ phát hiện ung thư sớm nhờ việc phân tích liệu lâm sàng với mục tiêu giảm tỷ lệ tử vong bệnh nhân mắc bệnh ung thư Các nhà nghiên cứu cho biết việc nhận biết sớm biểu hiện ung thư giúp cứu sớng 5000 người năm Trong tốn phân tích liệu ung thư, sớ lượng lớn tḥc tính làm cho q trình học chậm việc phân tích trở nên khó khăn Trong chương chúng tơi áp dụng kỹ thuật trích xuất đặc trưng để giảm chiều liệu ung thư 15 3.2 Các nghiên cứu liên quan - Các phương pháp tuyến tính: PCA, SPCA - Các phương pháp phi tuyến: Manifold, Isomap 3.3 3.3.1 Phương pháp giải Sơ đồ hệ thống trích xuất đặc trưng Nội dung phương pháp đề xuất sử dụng phân rã giá trị đơn (SVD) phân tích thành phần dựa hàm nhân (KPCA) với bợ liệu ung thư để chẩn đoán khả bị bệnh Quy trình hệ thớng bao gồm bước: tiền xử lý liệu, giảm chiều phân lớp liệu (Hình 3.1) Tập đặc trưng KPCA hàm Phân nhân tùy chọn lớp (C-KPCA) Tiền xử lý liệu Dữ liệu ung thư Đợ xác dự báo Hình 3.1 Quy trình trích xuất đặc trưng cho tốn phân tích liệu ung thư 3.3.2 Hàm nhân tùy chọn cho PCA 3.3.2.1 Phương pháp hàm nhân 3.3.2.2 Các hàm nhân phổ biến Các hàm nhân thường dùng hàm nhân tuyến tính, hàm nhân đa thức, hàm nhân RBF Sigmoid 3.3.2.3 Kernel PCA Phân tích thành phần dựa hàm nhân (KPCA) một cách tiếp cận hiệu nhờ việc xây dựng mợt khơng gian đặc trưng có sớ chiều cao cách sử dụng hàm phi tuyến 𝜇(𝑥𝑡), 𝑧 = 𝜇(𝑥𝑡) phân tích thành phần (PCA) thực hiện tương tự áp dụng PCA phi tuyến không gian ban đầu 3.3.3 Xây dựng hàm nhân tùy chọn Có mợt sớ cách để xây dựng mợt hàm nhân Trong luận án này, tập trung vào việc làm để xây dựng một hàm nhân từ hàm nhân khác Mệnh đề 3.1 Giả sử K1 K2 hàm nhân 𝑋 ∗ 𝑋, 𝑋 ⊆ 𝑅𝑛 , 𝑎 ∈ 𝑅+ , 𝑓(∙) mợt hàm tính tốn giá trị thực X 𝜙: 𝑋 → ℝ𝑚 Với K3 mợt hàm nhân ℝ𝑚 × ℝ𝑚 B một ma trận nửa xác định dương (positive semi-definite) n*n Khi hàm X hàm nhân: 16 K ( x, z )  K1 ( x, z )  K ( x, z ) K ( x, z )  a * K1 ( x, z ) K ( x, z )  K1 ( x, z ) * K ( x, z ) K ( x, z )  f ( x) * f ( z ) K ( x, z )  K ( ( x),  ( z )) K ( x, z )  x ' Bz Cách xây dựng hàm nhân phức tạp dựa hàm nhân khác dựa nguyên lý mệnh đề Cụ thể, một hàm nhân tạo cách kết hợp hàm nhân khác sử dụng toán tử sau: 𝐾𝑐 = 𝛼1 (𝐾1 ) ∘ 𝛼2 (𝐾2 ) ∘ ⋯ ∘ 𝛼𝑚 (𝐾𝑚 ), 𝛼𝑖 ≥ (3.1) Trong đó: {Ki | i =1, …, m} tập hàm nhân dùng để kết hợp 𝛼𝑖 : hệ số hàm nhân ◦ biểu diễn mợt tốn tử hai hàm nhân ví dụ cộng nhân 3.4 3.4.1 Thực nghiệm kết Thiết lập thực nghiệm Phương pháp đề xuất thực hiện ngôn ngữ R (http://www.rproject.org) thực nghiệm hiện máy tính laptop (bợ vi xử lý core i7 2.7GHz 8G Ram) với một số bộ liệu ung thư bao gồm: ung thư ruột kết (colon tumor), ung thư bạch cầu (leukemia), u bạch huyết (lymphoma) ung thư tuyến tiền liệt (prostate) Chúng sử dụng ba loại hàm nhân Bảng 3.1 để thực hiện kết hợp tốn tử cợng nhân Bảng 3.1 Các loại hàm nhân Hàm nhân Polynomial Radial (RBF) Sigmoid 3.4.2 Công thức 𝑑 𝛾𝑥𝑖𝑇 𝑥𝑗 + 𝑟 , 𝛾 > Ký hiệu K1 exp (−𝛾‖𝑥𝑖 − 𝑥𝑗 ‖ ) K2 𝑡𝑎𝑛ℎ 𝛾𝑥𝑖𝑇 𝑥𝑗 + 𝑐 , 𝛾 > K3 Dữ liệu thực nghiệm Bốn bộ liệu ung thư để sử dụng thực nghiệm là: bộ liệu ung thư ruột kết (Colon Tumor), bộ liệu bạch cầu (Leukemia), bộ liệu bạch huyết (Lymphoma) bộ liệu ung thư tuyến tiền liệt (Prostate) Bảng 3.2 17 Bảng 3.2 Mô tả liệu ung thư Tên liệu Colon Leukemia Lymphoma Prostate 3.4.3 Số thuộc tính 2000 7129 2647 2135 Số mẫu 62 72 77 102 Số lớp 2 2 Bài tốn cần giải Phát hiện ung thư ṛt kết Phát hiện bệnh bạch cầu cấp tính Phát hiện bạch huyết Phát hiện khối u tiền liệt tuyến Kết thực nghiệm Trong q trình thực nghiệm chúng tơi kết hợp lựa chọn hàm nhân tốt cho KPCA sau tiến hành phân lớp liệu trích xuất, việc so sánh hiệu phân lớp chia làm ba mục: (1)Sử dụng tất đặc trưng, (2) Sử dụng đặc trưng trích xuất KPCA (hàm nhân RBF) và(3) Sử dụng đặc trưng trích xuất C-KPCA (hàm nhân tùy chọn) Kết thực nghiệm bộ liệu ung thư sau: 3.4.3.1 Bộ liệu ung thư ruột kết Kết đợ xác phân lớp q trình huấn luyện đánh giá để chọn hàm nhân tốt thể hiện Bảng 3.3 Bảng 3.3 Kết huấn luyện lựa chọn hàm nhân với ung thư ruột kết Số đặc trưng K1+K2+K3 89,27 88,87 92,34 93,55 94,52 88,06 86,53 85,24 83,50 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 74,81 81,53 84,74 87,66 84,72 90,48 87,15 91,94 86,83 92,82 86,50 90,08 86,39 89,03 89,49 82,34 88,71 82,26 K1+K2*K3 87,58 88,31 91,94 92,18 91,94 86,85 81,61 85,10 82,42 10 15 20 50 100 200 500 Kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết Bảng 3.4: Bảng 3.4 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư ruột kết Số đặc trưng 10 15 20 50 100 200 Rbf 87,10 87,42 91,94 91,94 92,26 86,85 83,23 84,03 Poly 88,15 88,87 92,10 93,55 93,63 92,26 81,69 85,48 18 Hàm nhân Sigmoid 90,81 88,87 92,10 93,23 93,32 86,85 85,48 82,74 Combined 89,27 88,87 92,34 93,55 94,52 88,06 86,53 85,24 500 81,21 82,90 84,19 83,50 Với số lượng đặc trưng trích xuất phương pháp C-KPCA (sử dụng hàm nhân tùy chọn K1+K2+K3) đợ xác cao phương pháp KPCA sử dụng hàm nhân Rbf hàm nhân đa thức Với số lượng đặc trưng trích xuất 5, 10, 15, 20 phương pháp C-KPCA ln cho đợ xác cao so với việc sử dụng hàm nhân Đợ xác phân lớp kiểm tra (test) bộ phân lớp rừng ngẫu nhiên (RF) máy vector hỗ trợ (SVM) sử dụng tất đặc trưng so sánh với việc sử dụng 20 đặc trưng trích xuất KPCA C-KPCA thể hiện Bảng 3.5 Bảng 3.5 So sánh kết phân lớp dự đoán liệu ung thư ruột kết Độ đo Tất đặc trưng RF SVM 84,5 83,6 82,3 85,5 82,0 85,4 82,3 85,5 AUC Accuracy Precision Recall 20 đặc trưng (KPCA) RF SVM 85,5 82,6 82,3 85,5 82,0 85,4 82,3 85,5 20 đặc trưng (C-KPCA) RF SVM 86,6 88,2 79,0 88,7 79,2 88,9 79,0 88,7 Đợ xác phân lớp sử dụng 20 đặc trưng trích xuất phương pháp CKPCA cho kết cao ổn định so với việc phân lớp sử dụng tồn bợ đặc trưng 3.4.3.2 Bộ liệu bạch cầu Kết đợ xác phân lớp q trình huấn lụn đánh giá để chọn hàm nhân tốt thể hiện Bảng 3.5 Bảng 3.6 Kết huấn luyện lựa chọn hàm nhân với ung thư bạch cầu Số đặc trưng K1+K2+K3 78,13 81,81 92,71 90,28 90,76 91,94 93,82 92,85 92,78 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 84,91 73,82 84,46 75,56 78,67 81,94 80,62 87,50 82,90 89,10 83,00 90,28 83,28 86,04 84,47 82,50 86,08 82,71 K1+K2*K3 75,21 81,88 89,44 90,00 90,14 88,33 84,38 83,96 87,08 10 15 20 50 100 200 500 Kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết Bảng 3.7 Bảng 3.7 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư bạch cầu Số đặc trưng 10 15 20 Rbf 78,96 76,39 82,92 83,06 84,58 Poly 85,56 89,86 90,21 89,10 90,21 19 Hàm nhân Sigmoid 81,81 88,61 88,89 90,14 88,33 Combined 78,13 81,81 92,71 90,28 90,76 50 100 200 500 83,47 86,94 81,53 82,36 88,19 80,23 81,04 82,99 86,25 86,67 89,72 90,56 91,94 93,82 92,85 92,78 Tiến hành kiểm tra (test) hiệu phân lớp sử dụng tất đặc trưng so với việc sử dụng 20 đặc trưng trích xuất KPCA C-KPCA thể hiện Bảng 3.8 Bảng 3.8 So sánh kết phân lớp dự đoán liệu ung thư bạch cầu Độ đo Tất đặc trưng RF SVM 81,8 77,77 77,8 81,94 80,8 81,8 77,8 81,94 AUC Accuracy Precision Recall 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 74,6 75,9 76,8 67,5 72,2 81,9 76,4 72,2 71,1 82,8 75,9 71,4 72,2 81,9 76,4 72,2 Bảng cho thấy phương pháp đề xuất C-KPCA trích xuất 20 đặc trưng cho kết không cao so với việc sử dụng tồn bợ đặc trưng Lý bợ liệu có 7000 đặc trưng, việc trích xuất 20 đặc trưng chưa đủ thông tin để phân lớp cho đợ xác cao Ngồi phương pháp đề xuất cho kết phân lớp Random forest cao phương pháp KPCA sử dụng hàm nhân mặc định 3.4.3.3 Bộ liệu bạch huyết Kết đợ xác phân lớp trình huấn luyện đánh giá để chọn hàm nhân tốt thể hiện bảng Bảng 3.9 Kết huấn luyện lựa chọn hàm nhân với ung thư bạch huyết Số đặc trưng K1+K2+K3 87,27 98,70 98,64 98,57 100,00 99,81 81,56 88,12 87,40 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 77,50 89,48 76,00 98,57 82,84 97,40 87,90 97,40 90,62 100,00 93,27 97,21 93,76 86,36 96,91 88,25 87,31 84,48 K1+K2*K3 89,68 98,44 97,40 97,79 100,00 97,34 80,06 84,22 83,31 10 15 20 50 100 200 500 Tương tự hai bộ liệu trước, kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết sau: Bảng 3.10 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư bạch huyết Số đặc trưng 10 15 20 Rbf 87,79 98,70 98,25 99,94 100,00 Poly 86,75 98,70 97,92 99,42 100,00 20 Hàm nhân Sigmoid 87,27 98,70 98,70 100,00 100,00 Combined 87,27 98,70 98,64 98,57 100,00 50 100 200 500 96,88 77,01 85,06 83,90 96,30 76,75 85,58 83,25 98,70 82,73 89,87 94,68 99,81 81,56 88,12 87,40 Đợ xác phân lớp kiểm tra (test) bộ phân lớp rừng ngẫu nhiên (RF) máy vector hỗ trợ (SVM) sử dụng tất đặc trưng so sánh với việc sử dụng 20 đặc trưng trích xuất KPCA C-KPCA thể hiện Bảng 3.11 Bảng 3.11 So sánh kết phân lớp dự đoán liệu lymphoma Độ đo Tất đặc trưng RF SVM 97,2 88 88,3 93,5 89,9 93,5 88,3 93,5 AUC Accuracy Precision Recall 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 98,5 96,5 99,6 96,5 93,5 97,4 93,5 97,4 93,5 97,4 94 97,4 93,5 97,4 93,5 97,4 3.4.3.4 Bộ liệu ung thư tuyến tiền liệt Kết đợ xác phân lớp q trình huấn lụn đánh giá để chọn hàm nhân tốt thể hiện bảng Bảng 3.12 Kết huấn luyện lựa chọn hàm nhân với ung thư tuyến tiền liệt Số đặc trưng 10 15 20 50 100 200 500 K1+K2+K3 82,89 88,28 95,00 94,31 97,11 99,10 100,00 100,00 98,48 Hàm nhân 1/(K1+K2+K3) K1*K2*K3 84,25 68,73 84,30 86,03 84,81 94,12 84,81 94,12 87,34 94,41 87,34 95,88 86,52 96,13 88,58 100,00 86,90 100,00 K1+K2*K3 65,88 89,17 94,41 94,12 96,08 99,80 99,02 95,44 98,48 Tương tự bộ liệu trước, kết cho thấy việc kết hợp hàm nhân sử dụng toán tử + cho kết cao so với cách kết hợp khác nhiều trường hợp So sánh hàm nhân tùy chọn với hàm nhân có kết sau: Bảng 3.13 So sánh hàm nhân tùy chọn với hàm nhân sở liệu ung thư tiền liệt tuyến Số đặc trưng 10 15 20 50 100 200 500 Rbf 0.8755 0.9123 0.9412 0.9451 0.9426 0.9755 0.9593 1.0000 1.0000 Poly 0.8745 0.9299 0.9515 0.9623 0.9804 0.9902 1.0000 0.9377 0.9078 21 Hàm nhân Sigmoid 0.8745 0.9275 0.9510 0.9637 0.9745 0.9902 1.0000 0.9686 0.9245 Combined 0.8289 0.8828 0.9520 0.9641 0.9711 0.9910 1.0000 1.0000 0.9848 Bảng 3.14 So sánh kết phân lớp dự đoán liệu ung thư tuyến tiền liệt Độ đo AUC Accuracy Precision Recall Tất đặc trưng RF SVM 92,8 90,2 90,2 90,2 90,3 90,3 90,2 90,2 20 đặc trưng (KPCA) 20 đặc trưng (C-KPCA) RF SVM RF SVM 93,8 91,2 91 91,3 83,3 91,2 86,3 91,2 83,5 91,3 86,3 91,2 83,3 91,2 86,3 91,2 Tiến hành so sánh hiệu phân lớp với bốn bộ liệu ung thư cho kết Hình 3.2 Hình 3.2 So sánh hiệu phân lớp bốn liệu ung thư Trong thực nghiệm thực hiện bốn bợ liệu ung thư nói trên, phương pháp C-KPCA với hàm nhân đề xuất thường xuyên cho độ xác dự đốn cao so với phương pháp KPCA truyền thớng sử dụng hàm nhân sở Có thể thấy phương pháp CKPCA cho kết ổn định Bảng 3.15 So sánh phương pháp đề xuất(C-KPCA) với phương pháp lựa chọn đặc trưng khác Phương pháp PLSDR [52] GEM [35] IWSS3-MB-NB [87] DRF0-CFS [17] BDE-SVMRankf [11] C-KPCA Colon Tumor Độ Số đặc trưng xác 20 83,5 91,2 5,2 86 10 90,0 75 15 90,3 Leukemia Độ Số đặc trưng xác 20 97,1 91,5 6,4 97,1 13 91,18 82,4 20 72,2 Lymphoma Độ Số đặc trưng xác 20 93,0 93,3 11 93,33 92,9 96,1 Prostate Độ Số đặc trưng xác 20 91,7 5,6 91,1 113 85,29 97,1 15 92,2 Bảng 3.15 thể hiện đợ xác phân lớp phương pháp đề xuất phương pháp lựa chọn đặc trưng phổ biến hiện Với bộ liệu ung thư ruột kết, việc phân lớp sử 22 dụng 15 đặc trưng trích xuất phương pháp C-KPCA chúng tơi cho đợ xác cao bốn phương pháp khác là: PLSDR [52], IWSS3-MB-NB [87], DRF0-CFS [17] BDE-SVMRankf [11] So sánh bộ liệu bạch huyết ung thư tiền liệt tuyến, cho thấy với 15 đặc trưng trích xuất đợ xác phương pháp đề xuất cao phương pháp khác 3.5 Kết luận chương Trong chương này, tập trung vào việc tìm hiểu cách tiếp cận hàm nhân đề xuất phương pháp C-KPCA sử dụng hàm nhân kết hợp từ hàm nhân khác KẾT LUẬN Trong năm gần đây, gia tăng phát triển kỹ thuật rút gọn đặc trưng làm cho khó khăn việc chọn thuật tốn lựa chọn đặc trưng trích xuất đặc trưng phù hợp cho một ứng dụng cụ thể Các thuật toán rút gọn đặc trưng khác với tiêu chí lựa chọn khác cho kết khác Trong luận án chúng tơi trình bày tổng quan vấn đề rút gọn đặc trưng gồm có lựa chọn đặc trưng, trích xuất đặc trưng áp dụng cho toán phân lớp Với miền ứng dụng rủi ro tín dụng, sớ lượng đặc trưng không nhiều số lượng ghi lớn nhiều so với số đặc trưng Nhiệm vụ phải loại bỏ đặc trưng không liên quan, dư thừa tìm đặc trưng tớt cho q trình phân lớp Chúng tơi sử dụng phương pháp lựa chọn đặc trưng FRFE bộ phân lớp rừng ngẫu dựa chế phân tán song song để xây dựng mơ hình đánh giá tín dụng Các kết thực nghiệm cho thấy đợ xác phân lớp sử dụng đặc trưng lựa chọn phương pháp đề xuất cải thiện tương đối khả quan Tiêu chí xếp hạng đặc trưng đề xuất nhằm giúp cải tiến đợ xác làm giảm thời gian thực hiện kỹ thuật phân lớp Ngoài ra, thời gian chạy giảm xuống đáng kể áp dụng thủ tục xử lý song song Với việc phân tích liệu ung thư có sớ lượng đặc trưng lớn so với số ghi, đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA nhằm làm giảm số lượng đặc trưng dựa kỹ thuật hàm nhân PCA Cải tiến đề xuất chúng tơi xây dựng một hàm nhân dựa việc kết hợp một số hàm nhân Chúng tiến hành thực nghiệm 04 bộ liệu ung thư so sánh kết sử dụng hàm nhân đề xuất với hàm nhân so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết ổn định tốt so với phương pháp khác nhiều trường hợp Hướng nghiên cứu Các kết nghiên cứu lựa chọn đặc trưng tập trung xây dựng hàm đánh giá chủ yếu dựa đợ xác bộ phân lớp Trong một số nghiên cứu gần cho thấy việc sử độ đo AUC tốt so với đợ xác phân tích bợ liệu đa lớp không cân bằng, hàm đánh giá sử dụng độ đo nhiên mức độ ảnh hưởng chưa đánh giá mợt cách đợc lập Do đó, nghiên cứu tiếp theo, chúng tơi dự kiến tiến hành khảo sát kỹ ảnh hưởng độ đo AUC nhằm tăng hiệu hàm đánh giá 23 Các kết nghiên cứu trích xuất đặc trưng dừng lại việc kết hợp thủ cơng hàm nhân để có hàm nhân cho KPCA phân tích liệu ung thư Chúng khảo sát nghiên cứu tìm hiểu việc ứng dụng kỹ thuật học máy nhằm tự động xây dựng hàm nhân dựa việc kết hợp hàm nhân phù hợp với loại liệu cần phân tích 24 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Tạp chí quốc tế: [SANGHV1] Ha Van Sang, Nguyen Ha Nam, Nguyen Duc Nhan (2016) “A Novel Credit Scoring Prediction Model based on Feature Selection Approach and Parallel Random Forest” Indian Journal of Science and Technology, Vol 9(S20), May 2016 (Scopus1) [SANGHV2] Ha Van Sang, Nguyen Ha Nam, & Bao, H N T (2017) A hybrid feature selection method for credit scoring EAI Endorsed Trans Context-Aware Syst & Appl., 4(11), e2 (DBLP2) Hội thảo quốc tế: [SANGHV3] Van-Sang Ha and Ha-Nam Nguyen (2016) “Credit scoring with a feature selection approach based deep learning”, in MATEC Web of Conferences, vol 54, p 05004.(Scopus) [SANGHV4] Van-Sang Ha and Ha-Nam Nguyen (2016) “C-KPCA: Custom Kernel PCA for Cancer Classification”, in Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, Springer International Publishing, pp 459–467(Scopus; DBLP) [SANGHV5] Van-Sang Ha and Ha-Nam Nguyen (2016), “FRFE: Fast Recursive Feature Elimination for Credit Scoring”, in Nature of Computation and Communication: Second International Conference, ICTCC 2016, Springer International Publishing, pp 133– 142.(Scopus; DBLP) https://www.scopus.com/authid/detail.uri?authorId=57190294285 http://dblp.uni-trier.de/pers/hd/h/Ha:Van=Sang 25 ... SVM 76, 74 75,72 75,10 76, 54 73, 76 77,18 CART 74,28 73, 52 73 ,66 75,72 74, 16 74 ,30 k-NN 71,82 71, 86 72 ,62 72,24 71 ,60 70, 86 Naïve Bayes 72,40 70,88 71,44 71, 56 74, 16 70,52 MLP 73, 28 73, 44 73, 42... 76, 74 75,72 75,10 76, 54 73, 76 77,18 12 CART k-NN Naïve Bayes MLP Random Forest PP đề xuất 74,28 71,82 72,40 73, 28 73, 52 71, 86 70,88 73, 44 73 ,66 72 ,62 71,44 73, 42 75,72 72,24 71, 56 74, 03 74, 16. .. 85, 46 85,11 86, 06 85 ,31 84,81 68 ,52 67 ,09 66 ,74 85 ,60 86, 00 85,89 Phương pháp Đóng gói GA PSO 85,52 85,52 84,85 84,82 84 ,69 84 ,64 86, 09 85, 86 85,57 85,49 89, 16 14 Cơ sở 85,52 85,20 84,58 68 ,55

Ngày đăng: 19/05/2019, 11:31