Trong luận án này, chúng tôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưng nhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướn
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Văn Sang
NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN
ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2018
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS TS NGUYỄN HÀ NAM
2 PGS TS NGUYỄN HẢI CHÂU
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Hà Nam và PGS.TS Nguyễn Hải Châu tại Bộ môn các Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội Các số liệu và kết quả trình bày trong luận án là trung thực và chưa được công bố trong bất cứ các công trình nào khác trước đây
Tác giả
Hà Văn Sang
Trang 4LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS Nguyễn Hà Nam và PGS.TS Nguyễn Hải Châu
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam
và PGS.TS Nguyễn Hải Châu Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định hướng nghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong quá trình nghiên cứu Không chỉ về lĩnh vực nghiên cứu khoa học, các Thầy còn chỉ bảo cho tôi nhiều điều trong cuộc sống Đó là những bài học vô cùng quý giá và hữu ích cho chính bản thân tôi trong thời gian tới
Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa học trong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu
Tôi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ môn Tin học Tài chính kế toán, khoa Hệ thống Thông tin kinh tế, Học viện Tài chính, những người đồng nghiệp
đã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng như sắp xếp công việc trong quá trình tôi làm nghiên cứu sinh
Tôi cũng gửi lời cảm ơn tất cả bạn bè, những người đã giúp đỡ và hỗ trợ tôi trong suốt quá trình nghiên cứu
Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt là vợ của tôi, những người đã động viên, tạo mọi điều kiện thuận lợi để tôi có thể hoàn thành chương trình nghiên cứu sinh của mình
Hà Văn Sang
Hà Nội, 1-12-2017
Trang 5TÓM TẮT
Rút gọn đặc trưng ngày càng được sử dụng rộng rãi nhằm tăng hiệu năng cũng như giảm chi phí trong quá trình phân tích dữ liệu Mục tiêu của việc rút gọn đặc trưng là xác định và giảm bớt đặc trưng của dữ liệu gốc dựa trên việc biến đổi không gian đặc trưng hoặc lựa chọn những đặc trưng quan trọng, loại bỏ các đặc trưng không liên quan, dư thừa nhằm giảm kích thước dữ liệu, từ đó cải thiện hiệu quả, độ chính xác của các mô hình phân tích dữ liệu Các kỹ thuật rút gọn đặc trưng đã được áp dụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, phân tích dữ liệu ung thư, tìm kiếm thông tin, phân lớp văn bản Tuy nhiên, không tồn tại một kỹ thuật rút gọn đặc trưng mà hiệu quả trên mọi miền dữ liệu Trong luận án này, chúng tôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưng nhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướng tiếp cận
là lựa chọn đặc trưng và trích xuất đặc trưng
Có nhiều cách tiếp cận rút gọn đặc trưng khác nhau đã được giới thiệu, tuy nhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữ liệu khác nhau Chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng có tên FRFE (Fast Recursive Feature Elimination) dựa trên hướng tiếp cận đóng gói (wrapper) với lõi là một thủ tục loại bỏ đặc trưng đệ quy Để tăng hiệu quả của việc lựa chọn đặc trưng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trưng và thủ tục lựa chọn đặc trưng tương ứng Hơn nữa, do đặc điểm của phương pháp lựa chọn đặc trưng đóng gói là chi phí tính toán cao, vì vậy chúng tôi đã áp dụng các thư viện xử lý phân tán để cải thiện hiệu năng của thuật toán đề xuất Kết quả thực nghiệm thuật toán FRFE (được viết bằng ngôn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho thấy thuật toán đề xuất đã cải thiện được thời gian chạy so với thuật toán cơ sở và đạt kết quả khả quan so với các kỹ thuật hiện có
Theo hướng tiếp cận trích xuất đặc trưng, chúng tôi đã đề xuất phương pháp trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA Đóng góp chính của phương pháp đề xuất
Trang 6là xây dựng một hàm nhân mới dựa trên việc kết hợp có định hướng một số hàm nhân
cơ bản [67] Kết quả thực nghiệm thuật toán C-KPCA trên bốn bộ dữ liệu ung thư cho thấy thuật toán đề xuất cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiều trường hợp
Từ khóa: khai phá dữ liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng, rút gọn đặc trưng, KPCA
Trang 7MỤC LỤC
LỜI CAM ĐOAN I LỜI CẢM ƠN II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VII DANH MỤC HÌNH ẢNH IX DANH MỤC BẢNG BIỂU XI
MỞ ĐẦU 1
Tính cấp thiết của luận án 1
Mục tiêu của luận án 3
Đối tượng và phạm vi nghiên cứu 4
Phương pháp nghiên cứu 4
Đóng góp của luận án 4
Bố cục của luận án 5
CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG 7
1.1 Rút gọn đặc trưng 7
1.2 Lựa chọn đặc trưng 7
1.2.1 Mục tiêu của lựa chọn đặc trưng 8
1.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng 8
1.2.3 Các thành phần chính của lựa chọn đặc trưng 9
1.2.4 Thủ tục lựa chọn đặc trưng 12
1.2.5 Các mô hình lựa chọn đặc trưng 13
1.3 Trích xuất đặc trưng 16
1.3.1 Mục tiêu của trích xuất đặc trưng 17
1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng 17
1.4 Một số nghiên cứu về rút gọn đặc trưng 19
1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng 19
1.4.2 Hướng nghiên cứu về trích xuất đặc trưng 27
Trang 81.5 Kết luận chương 31
CHƯƠNG 2 KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO ĐIỂM TÍN DỤNG 32
2.1 Bài toán cho điểm tín dụng 32
2.2 Các nghiên cứu liên quan 35
2.3 Phương pháp đề xuất 37
2.3.1 Sơ đồ hệ thống lựa chọn đặc trưng 37
2.3.2 Đề xuất hàm đánh giá và chiến lược tìm kiếm đặc trưng phù hợp 38
2.3.3 Cải tiến tốc độ xử lý bằng thư viện H20 45
2.4 Thực nghiệm và kết quả 48
2.4.1 Thiết lập thực nghiệm 48
2.4.2 Dữ liệu thực nghiệm 49
2.4.3 Đánh giá hiệu năng phân lớp 49
2.4.4 Kết quả thực nghiệm 53
2.5 Kết luận chương 66
CHƯƠNG 3 KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TOÁN PHÂN TÍCH DỮ LIỆU UNG THƯ 67
3.1 Bài toán phân tích dữ liệu ung thư 67
3.2 Các nghiên cứu liên quan 69
3.3 Phương pháp giải quyết 71
3.3.1 Sơ đồ hệ thống trích xuất đặc trưng 71
3.3.2 Hàm nhân tùy chọn cho PCA 73
3.3.3 Xây dựng hàm nhân tùy chọn 77
3.4 Thực nghiệm và kết quả 82
3.4.1 Thiết lập thực nghiệm 82
3.4.2 Dữ liệu thực nghiệm 82
3.4.3 Kết quả thực nghiệm 84
3.5 Kết luận chương 96
KẾT LUẬN 97
DANH MỤC CÔNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 99
TÀI LIỆU THAM KHẢO 100
Trang 9DANH MỤC TỪ VIẾT TẮT
ACO Ant Colony Optimization Tối ưu đàn kiến
AUC Area under curve Diện tích dưới đường cong
BG Bidirectional Generation Sinh tập con từ hai hướng
CFS Correlation-based Feature
Selection
Lựa chọn đặc trưng dựa trên tương quan
FCFS Fast Correlation-based Feature
Selection
Lựa chọn đặc trưng dựa trên tương quan nhanh
FRFE Fast Recursive Feature Elimination Loại bỏ đặc trưng đệ quy nhanh
GA Genetic Algorithm Thuật toán di truyền
ICA Independent component analysis Phân tích thành phần độc lập
KDD Knowledge Discovery in
Databases
Khám phá tri thức
k-NN k-Nearest Neighbors k-láng giềng gần nhất
LDA Linear discriminant analysis Phân tích biệt thức tuyến tính
LR Logistic Regression Hồi qui logistic
MLP Multi-layer Perceptron Perceptron nhiều tầng
mRMR minimum Redundancy Maximum
RG Random Generation Sinh tập con ngẫu nhiên
SA Simulated Annealing Thuật toán mô phỏng tôi luyện SBE Sequential Backward Elimination Loại bỏ lùi tuần tự
SBG Sequential Backward Generation Sinh tập con lùi tuần tự
SBS Sequential Sackward Search Tìm kiếm lùi tuần tự
SFG Sequential Forward Generation Sinh tập con tiến tuần tự
Trang 10SFS Sequential forward search Tìm kiếm tiến tuần tự
SVD Singular Value Decomposition Phân tích giá trị riêng
SVM Support Vector Machine Máy véc tơ hỗ trợ
Trang 11DANH MỤC HÌNH ẢNH
Hình 1.1 Lựa chọn đặc trưng 7
Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59] 9
Hình 1.3 Thủ tục lựa chọn đặc trưng[86] 12
Hình 1.4 Mô hình chọn lựa đặc trưng Lọc 13
Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói 14
Hình 1.6 Trích xuất đặc trưng 16
Hình 2.1 Quy trình lựa chọn đặc trưng của bài toán cho điểm tín dụng 37
Hình 2.2 Sơ đồ khối của thuật toán lựa chọn đặc trưng theo hướng tiến 39
Hình 2.3 Sơ đồ khối của lựa chọn đặc trưng theo hướng lui 41
Hình 2.4 Chiến lược lựa chọn đặc trưng FRFE 44
Hình 2.5 Kiến trúc của thư viện H20 46
Hình 2.6 Phân lớp Random forest 47
Hình 2.7 Ví dụ về đường cong AUC [27] 51
Hình 2.8 Kiểm chứng chéo 5 lần 52
Hình 2.9 Danh sách các đặc trưng được sắp xếp theo độ lợi thông tin (IG) giảm dần 53
Hình 2.10 Danh sách các đặc trưng được sắp xếp theo độ đo Relief-F giảm dần 54
Hình 2.11 Danh sách các đặc trưng được sắp xếp theo độ tương quan giảm dần 55
Hình 2.12 So sánh kết quả dự đoán sử dụng 5, 10, 15, 20 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu của Đức 56
Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức 56
Hình 2.14 Độ chính xác phân lớp trên bộ dữ liệu Đức theo hướng quay lui 58
Hình 2.15 So sánh kết quả sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Đức 58
Trang 12Hình 2.17 Xếp hạng đặc trưng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc 61
Hình 2.18 Xếp hạng đặc trưng theo độ tương quan trên bộ dữ liệu tín dụng của Úc 62
Hình 2.19 So sánh kết quả dự đoán sử dụng 5, 7, 10 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu tín dụng của Úc 63
Hình 2.20 Độ chính xác phân lớp với bộ dữ liệu Úc 63
Hình 2.21 Độ chính xác dự đoán trên bộ dữ liệu tín dụng Úc 65
Hình 2.22 Độ chính xác dự đoán sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Úc 65
Hình 3.1 Phân tích dữ liệu ung thư 68
Hình 3.2 Quy trình trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư 71
Hình 3.3 Chuyển dữ liệu sang không gian có chiều lớn hơn[21] 74
Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thư ruột kết 85
Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thư bạch cầu 87
Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma 89
Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thư tuyến tiền liệt 91
Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thư 93
Trang 13DANH MỤC BẢNG BIỂU
Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59] 11
Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8] 14
Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8] 15
Bảng 1.4 So sánh ba mô hình[33] 16
Bảng 2.1 Ý nghĩa của diện tích dưới đường cong AUC 51
Bảng 2.2 So sánh hiệu năng của các bộ phân lớp [55] trên bộ dữ liệu tín dụng của Đức 57
Bảng 2.3 Hiệu năng của các bộ phân lớp khác nhau [55] với bộ dữ liệu tín dụng Đức 59
Bảng 2.4 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Úc 64
Bảng 2.5 Hiệu năng của các bộ phân lớp khác nhau trên bộ dữ liệu tín dụng của Úc 66
Bảng 3.1 Cấu trúc bảng dữ liệu ung thư ruột kết 72
Bảng 3.2 Các hàm nhân được sử dụng 82
Bảng 3.3 Tổng hợp các bộ dữ liệu ung thư được sử dụng trong thực nghiệm 83
Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư ruột kết 84
Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thư ruột kết 85
Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư ruột kết 86
Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư bạch cầu 86
Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thư bạch cầu 87
Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư bạch cầu 88
Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư máu trắng 88
Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng 89
Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma 90
Trang 14Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thư tiền liệt tuyến 91 Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư tuyến tiền liệt 92 Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với các phương pháp lựa chọn đặc trưng khác 94 Bảng 3.17 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Colon và
Prostate 95 Bảng 3.18 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Lymphoma và Prostate 95
Trang 15MỞ ĐẦU
Tính cấp thiết của luận án
Trong những năm gần đây, dữ liệu trong thực tế đã gia tăng một cách nhanh chóng cả về dung lượng lẫn về chủng loại Dữ liệu với số chiều lớn đã trở thành thách thức đối với các kỹ thuật xử lý, phân tích dữ liệu hiện có Học máy (machine learning)
và khai phá dữ liệu (data mining) cung cấp các công cụ giúp con người giải quyết vấn
đề quản lý, bóc tách thông tin và tri thức bằng cách tự động phân tích một lượng lớn
dữ liệu Tuy nhiên, các kỹ thuật phân tích dữ liệu như phân lớp, dự báo có thể dẫn đến kết quả thấp hoặc không chính xác do không phải lúc nào dữ liệu cũng được xử
lý đầy đủ, vẫn có nhiều dữ liệu dư thừa, không liên quan, hay nhiễu Ngoài ra, các thuật toán phân lớp chạy mất nhiều thời gian, thậm chí có thể không thể thực hiện được nếu dữ liệu chưa được tiền xử lý một cách thích hợp
Rút gọn đặc trưng là kỹ thuật giải quyết vấn đề thu gọn chiều dữ liệu nhằm
giải quyết các vấn đề nêu trên Rút gọn đặc trưng được phân loại thành “lựa chọn đặc
trưng” và “trích xuất đặc trưng” Trong đó, lựa chọn đặc trưng có thể chọn ra một
nhóm con các đặc trưng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ các đặc trưng nhiễu, dư thừa không liên quan trong khi đó trích xuất đặc trưng sẽ trích rút
ra các đặc trưng mới bằng một phép chuyển đổi Rút gọn đặc trưng tạo điều kiện cho các kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao hiệu suất
mà vẫn giữ nguyên hoặc nâng cao được hiệu quả
Nhiều kỹ thuật rút gọn đặc trưng đã được cộng đồng nghiên cứu trên thế giới công bố [9][12][69][99] Theo thống kê từ năm 2010 tới năm 2017 trên cơ sở dữ liệu của Google scholar (https://scholar.google.com) thì có tới 88.500 tài liệu liên quan tới chủ đề lựa chọn đặc trưng (tìm kiếm từ khóa “Feature Selection”), và có tới 159.000 tài liệu liên quan tới chủ đề trích xuất đặc trưng (tìm kiếm từ khóa “Feature Extraction”) Cũng trong khoảng thời gian từ 2010-2017 trên cơ sở dữ liệu của trang
Trang 16Sciencedirect1 thì chủ đề lựa chọn đặc trưng có trên 11.880 bài báo khoa học, trong khi chủ đề trích chọn đặc trưng có hơn 32.980 bài báo liên quan
Trong những năm gần đây, nhiều nghiên cứu đã tập trung vào cải tiến hiệu năng của kỹ thuật rút gọn đặc trưng bằng cách lựa chọn tập con đặc trưng có ích, hoặc trích xuất đặc trưng Điển hình như luận án của Hall [34] đề xuất phương pháp lựa chọn đặc trưng dựa trên tương quan cho học máy; Diao và cộng sự [23] sử dụng tìm kiếm hài hòa (Harmony Search) cho việc xây dựng phương pháp lựa chọn đặc trưng Osiris Villacampa [91] nghiên cứu phương pháp lựa chọn đặc trưng và phân lớp cho việc ra quyết định của công ty; Nziga [69] sử dụng phương pháp trích xuất đặc trưng PCA thưa cho dòng dữ liệu Verónica Bolón-Canedo cùng cộng sự [90] giới thiệu về
dữ liệu có số thuộc tính lớn và các phương pháp lựa chọn đặc trưng cho dữ liệu tin sinh Basant Agarwal và Namita Mittal [5] nghiên cứu trích xuất đặc trưng nổi bật trong việc phân tích quan điểm Urszula và Lakhmi [83] giới thiệu xu hướng nghiên cứu về lựa chọn đặc trưng trong nhận dạng mẫu Liang cùng cộng sự [56] nghiên cứu
về rút gọn đặc trưng cho bài toán học đa nhãn Florian Eyben [26] trích xuất không gian đặc trưng nhằm phân lớp dữ liệu âm thanh trực tuyến Mark Nixon [68] sử dụng các kỹ thuật trích xuất đặc trưng trong việc xử lý ảnh Tuy nhiên, các phương pháp rút gọn đặc trưng khác nhau sẽ cho kết quả khác nhau với từng miền ứng dụng tương ứng
Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trình khoa học liên quan tới học máy và khai phá dữ liệu Tuy nhiên, hướng nghiên cứu về
rút gọn đặc trưng chưa được quan tâm nhiều Cụ thể, việc tìm kiếm từ khóa “lựa chọn
1 http://www.sciencedirect.com
Trang 17đặc trưng”, “lựa chọn thuộc tính”, hay “trích chọn đặc trưng” trên Google Scholar2
cho kết quả chỉ khoảng vài chục tài liệu Tài liệu liên quan tới lựa chọn đặc trưng, trích xuất đặc trưng là kết quả nghiên cứu của một số trường đại học Chẳng hạn gần đây có một số luận án liên quan tới chủ đề rút gọn thuộc tính như: trong năm 2015,
Hà Đại Dương [2] nghiên cứu một số phương pháp trích chọn đặc trưng nhằm phát hiện đám cháy qua dữ liệu ảnh; Vũ Văn Định [1] thực hiện việc rút gọn thuộc tính trong bảng quyết định không đầy đủ theo hướng tiếp cận tập thô; Nguyễn Thị Lan Hương [3] nghiên cứu và rút gọn thuộc tính trong bảng quyết định động theo hướng tiếp cận tập thô Các luận án này đã đề xuất việc áp dụng một kỹ thuật lựa chọn hoặc trích xuất đặc trưng vào bài toán của mình, tập trung chủ yếu tới bài toán xử lí ảnh
Như vậy, có thể nhận thấy rằng rút gọn đặc trưng hiện vẫn là chủ đề để các nhà nghiên cứu trong và ngoài nước tiếp tục nghiên cứu và phát triển
Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trưng tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng
Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất có thể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp Để giải quyết mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:
- Xây dựng một hàm đánh giá đặc trưng phù hợp với dữ liệu cần phân tích
- Áp dụng chiến lược tìm kiếm theo kinh nghiệm nhằm làm giảm không gian tìm kiếm
2 https://scholar.google.com.vn/
Trang 18Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệu quả để thu được tập đặc trưng mới phù hợp với bộ phân lớp tương ứng Để giải quyết mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:
- Tìm hiểu kỹ thuật hàm nhân trong việc biến đổi không gian đặc trưng
- Xây dựng hàm nhân mới phù hợp với dữ liệu cần phân tích
Với mục tiêu cải tiến hiệu năng của các kỹ thuật phân tích dữ liệu, chúng tôi
đã lựa chọn đề tài của luận án với tiêu đề: "Nghiên cứu cải tiến các kỹ thuật rút gọn
đặc trưng cho phân lớp dữ liệu”
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là kỹ thuật rút gọn đặc trưng cho bài toán phân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng và trích xuất đặc trưng
Phạm vi áp dụng các kỹ thuật rút gọn đặc trưng vào các miền ứng dụng là tương đối rộng Trong luận án này, chúng tôi giới hạn phạm vi với hai miền ứng dụng
là bài toán cho điểm tín dụng và phân tích dữ liệu ung thư
Phương pháp nghiên cứu
Luận án sử dụng các phương pháp phân tích, tổng hợp lý thuyết, phương pháp
mô hình hóa và phương pháp nghiên cứu thực nghiệm Trong đó, lý thuyết cơ sở được phân tích và phương pháp đề xuất được mô hình hóa Cuối cùng phương pháp nghiên cứu thực nghiệm được dùng để đánh giá, kiểm chứng kết quả của phương pháp đề xuất
Đóng góp của luận án
Luận án đề xuất phương pháp rút gọn đặc trưng nhằm tăng hiệu năng của các
kỹ thuật phân lớp theo hai hướng tiếp cận chính là lựa chọn đặc trưng và trích xuất đặc trưng:
Lựa chọn đặc trưng: chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng (FRFE)
dựa trên hướng tiếp cận đóng gói Nội dung chính của phương pháp đề xuất là việc loại bỏ đặc trưng đệ quy và việc cải tiến hàm đánh giá đặc trưng Hàm đánh giá đặc trưng đề xuất có ưu điểm là giúp tăng hiệu quả phân lớp và giúp cho kết quả này
Trang 19được ổn định hơn Phương pháp đề xuất giúp tự động tìm ra tập con đặc trưng tối
ưu cho mỗi bộ dữ liệu Một vấn đề khác mà các phương pháp lựa chọn đặc trưng phải đối mặt đó là các phương pháp lựa chọn đặc trưng đóng gói (wrapper) có chi phí tính toán lớn Để giải quyết vấn đề này chúng tôi sử dụng bộ phân lớp rừng ngẫu nhiên (random forest) với khả năng xử lý song song nhằm làm giảm thời gian thực hiện của phương pháp đề xuất Thực nghiệm trên bộ dữ liệu tín dụng cho thấy phương pháp lựa chọn đặc trưng đề xuất này có khả năng đạt được mục tiêu mà luận
án đặt ra Những đóng góp dựa trên hướng tiếp cận lựa chọn đặc trưng cho bài toán cho điểm tín dụng được báo cáo trong các công bố [SANGHV1, SANGHV2, SANGHV3, SANGHV5]
Trích xuất đặc trưng: Ngoài cách tiếp cận lựa chọn đặc trưng, một hướng tiếp cận
khác là trích xuất đặc trưng đã và đang được nhiều nhóm nghiên cứu quan tâm phát triển khi các kỹ thuật lựa chọn đặc trưng trở nên ít hiệu quả Chúng tôi đã đề xuất kỹ thuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA Cải tiến chính trong đề xuất của chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ bản[40] Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với một số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiều trường hợp Hướng tiếp cận trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư được công bố trong [SANGHV4]
Các kết quả nghiên cứu trình bày trong luận án được công bố trong 05 công trình Trong đó có 02 bài báo đăng ở tạp chí nước ngoài [SANGHV1, SANGHV2];
03 bài báo hội thảo quốc tế được công bố có chỉ số Scopus, trong đó 02 bài báo được Springer xuất bản và đưa vào danh mục LNCS
Bố cục của luận án
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính
Trang 20Chương 1: Phần đầu giới thiệu về lý thuyết cơ bản liên quan tới rút gọn đặc
trưng, lựa chọn đặc trưng và trích xuất đặc trưng, đồng thời điểm lại một số nghiên cứu gần đây Sau phần phân tích, đánh giá là kết luận của chương
Chương 2: Đề xuất một hàm đánh giá đặc trưng và áp dụng chiến lược tìm
kiếm theo kinh nghiệm dựa trên hàm đánh giá này nhằm nâng hiệu quả của việc lựa chọn đặc trưng Sau khi trình bày về quy trình, giải pháp đề xuất, luận án áp dụng phương pháp đề xuất cho bộ dữ liệu tín dụng Phần còn lại của chương thực hiện thực nghiệm trên các bộ dữ liệu tín dụng và so sánh kết quả với một số phương pháp lựa chọn đặc trưng khác
Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa trên việc xây
dựng một hàm nhân mới trên cơ sở kết hợp một số hàm nhân cơ bản nhằm biến đổi không gian đặc trưng phù hợp với miền dữ liệu Sau khi trình bày về quy trình, phương pháp đề xuất, phương pháp đề xuất được tiến hành trên bốn bộ dữ liệu ung thư Việc thực nghiệm và so sánh với một số kỹ thuật khác được thực hiện ở phần còn lại của chương
Trang 21Chương 1 TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG
Hầu hết các lĩnh vực khoa học và công nghệ ngày nay đều đòi hỏi phân tích
dữ liệu nhằm bóc tách các tri thức hữu ích giúp cải tiến hay nâng cao hiệu quả của các lĩnh vực này Dữ liệu quan sát và thu thập được từ những ứng dụng trong thực tế thường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập dữ liệu có số lượng thuộc tính lớn có thể dẫn tới việc tốn kém tài nguyên khi áp dụng kỹ thuật phân tích dữ liệu,
và nhiều trường hợp không thể thực hiện được Xuất phát từ nhu cầu thực tiễn đó, các
kỹ thuật rút gọn đặc trưng được nghiên cứu và phát triển để giải quyết những vấn đề trên Nội dung chương này nhằm giới thiệu tổng quan về vấn đề rút gọn đặc trưng và điểm lại một số hướng nghiên cứu về rút gọn đặc trưng tiêu biểu hiện nay Phần cuối của chương sẽ đưa ra một số phân tích, đánh giá một số kỹ thuật rút gọn đặc trưng thường được áp dụng hiện nay
1.1 Rút gọn đặc trưng
Rút gọn đặc trưng được hiểu là quá trình thu gọn hoặc biến đổi không gian biểu diễn dữ liệu ban đầu thành một không gian con hoặc một không gian mới có số đặc trưng nhỏ hơn không gian ban đầu mà vẫn giữ được các đặc tính của dữ liệu gốc Trong nhiều trường hợp, tập dữ liệu ban đầu có chứa nhiều đặc trưng không liên quan cho sự mô tả bản chất của hiện tượng mà ta quan tâm, khi đó có thể loại bỏ các đặc trưng không liên quan này và chỉ giữ lại các đặc trưng quan trọng Có hai phương
pháp để rút gọn đặc trưng gồm lựa chọn đặc trưng và trích xuất đặc trưng
1.2 Lựa chọn đặc trưng
- Lựa chọn đặc trưng (Feature Selection): chọn lựa một tập con các đặc trưng
từ các đặc trưng ban đầu mà không có sự thay đổi về giá trị của đặc trưng
x𝑖1
x𝑖2
⋮
x𝑖M] (𝑀 < 𝑁)
Hình 1.1 Lựa chọn đặc trưng
Trang 22Lựa chọn đặc trưng là một trong những phương pháp hết sức tự nhiên để giải quyết vấn đề loại bỏ các đặc trưng dư thừa, trùng lặp và không liên quan trong dữ liệu Kết quả của lựa chọn đặc trưng là một tập con các đặc trưng từ tập đặc trưng ban đầu nhưng vẫn đảm bảo các tính chất của dữ liệu gốc Lựa chọn đặc trưng giúp: (1) cải tiến hiệu năng (về tốc độ, khả năng dự đoán, và đơn giản hóa mô hình); (2) trực quan hóa dữ liệu cho việc lựa chọn mô hình; (3) giảm chiều và loại bỏ nhiễu
1.2.1 Mục tiêu của lựa chọn đặc trưng
Mục tiêu chính của lựa chọn đặc trưng là xác định các đặc trưng quan trọng và loại bỏ các đặc trưng không liên quan hoặc không phù hợp Các thuật toán lựa chọn đặc trưng khác nhau sẽ có thể có các mục tiêu khác nhau Một số mục tiêu thường được sử dụng:
- Tìm ra tập con các đặc trưng có kích cỡ nhỏ nhất có thể, mà nó là cần và đủ cho việc phân tích dữ liệu (cụ thể ở đây là phân lớp)
- Chọn một tập con có M đặc trưng từ một tập gồm N đặc trưng ban đầu (M<N), trong đó giá trị của hàm mục tiêu được tối ưu trên tập con kích cỡ M
- Chọn một tập con các đặc trưng nhằm cải tiến độ chính xác dự đoán hoặc làm giảm kích cỡ của tập dữ liệu mà không làm giảm độ chính xác dự đoán của bộ phân lớp
1.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng
Dựa vào tính sẵn có của thông tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng
có thể được chia thành ba loại: phương pháp có giám sát, bán giám sát, và không giám sát Thông tin nhãn có sẵn của lớp giúp cho các thuật toán lựa chọn đặc trưng
có giám sát lựa chọn được các đặc trưng phù hợp Khi chỉ có một số ít dữ liệu đã được gán nhãn, có thể sử dụng lựa chọn đặc trưng bán giám sát, trong đó có thể tận dụng được lợi thế của cả dữ liệu được gán nhãn và dữ liệu không được gán nhãn Hầu hết các thuật toán lựa chọn đặc trưng bán giám sát đều dựa trên việc xây dựng ma trận tương tự và lựa chọn các đặc trưng phù hợp nhất với ma trận tương tự đó
Trang 231.2.3 Các thành phần chính của lựa chọn đặc trưng
Liu và Motoda [59] chỉ ra ba thành phần chính của lựa chọn đặc trưng là: (1) Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung, loại bỏ hoặc thay đổi đặc trưng trong quá trình tìm kiếm, và (3) Tiêu chí đánh giá các tập con khác nhau Hình 1.2 dưới đây thể hiện lựa chọn đặc trưng theo 3 thành phần nói trên
Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59]
(1) Chiến lược tìm kiếm
Do số tập con là 2N nên không gian tìm kiếm sẽ tăng theo hàm mũ khi N tăng lên Không gian tìm kiếm sẽ là tương đối nhỏ khi số lượng đặc trưng N là nhỏ Khi không gian tìm kiếm lớn thì chiến lược tìm kiếm được sử dụng sẽ ảnh hưởng lớn tới hiệu năng của nó Kết quả tìm kiếm phụ thuộc vào việc lựa chọn chiến lược tìm kiếm Mục tiêu là tìm được một tập con các đặc trưng tối ưu trong thời gian ít nhất có thể theo các tiêu chí cho trước Các chiến lược tìm kiếm có thể được chia thành 3 nhóm dưới đây
Tìm kiếm toàn bộ (chiến lược vét cạn): trong chiến lược này, tất cả các khả
Cơ bản Nhất quán
Chính xác
Tiêu chí đánh giá
Toàn bộ Kinh nghiệm Không xác định
Chiến lược tìm kiếm
Tiến Lùi Ngẫu nhiên
Hướng tìm kiếm
Trang 24theo tiêu chí tìm kiếm Độ phức tạp không gian của chiến lược này trong trường hợp tổng quát nhất là 𝛰(2𝑁) Khi biết trước được hướng tìm kiếm, thì không gian tìm kiếm sẽ là (𝑁
0) + (𝑁1) + ⋯ + (𝑀𝑁) Trong đó, M là số lượng đặc trưng tối thiểu của một tập con thỏa mãn một số tiêu chí đánh giá nào đó
Tìm kiếm theo kinh nghiệm: là quá trình tìm kiếm sử dụng hàm đánh giá để
hướng dẫn sự tìm kiếm Mục tiêu của hàm đánh giá nhằm xác định theo kinh nghiệm định hướng để tìm được tập con tối ưu Chiến lược tìm kiếm theo kinh nghiệm chỉ thực hiện theo một lộ trình cụ thể và tìm ra một tập con gần tối ưu nên nó cho kết quả nhanh hơn so với chiến lược tìm kiếm vét cạn
Tìm kiếm không xác định: chiến lược này khác với hai chiến lược kể trên ở
chỗ nó tìm kiếm tập con kế tiếp một cách ngẫu nhiên Chiến lược này thường được
áp dụng trong không gian tìm kiếm khá lớn và tồn tại nhiều giá trị tối ưu cục bộ Ưu điểm chính là của chiến lược này là tránh được các tối ưu cục bộ và tương đối dễ cài đặt
Tìm kiếm tiến tuần tự (Sequential Forward Generation-SFG): Bắt đầu từ một
tập rỗng các đặc trưng Sselect Tại mỗi bước tìm kiếm, dựa trên một số tiêu chí nhất định, một đặc trưng được thêm vào tập Sselect Quá trình tìm kiếm này sẽ dừng lại khi tất cả các đặc trưng trong tập đặc trưng ban đầu được thêm vào Sselect Kết quả là một danh sách xếp hạng các đặc trưng được tạo ra theo thứ tự được thêm vào Sselect
Tìm kiếm lùi tuần tự (Sequential Backward Generation-SBG): Bắt đầu với
một tập đủ các đặc trưng Tại mỗi bước tìm kiếm dựa vào một số tiêu chí nào đó, một đặc trưng ít quan trọng nhất sẽ bị loại bỏ Các đặc trưng trong tập đặc trưng sẽ dần bị
Trang 25loại bỏ cho tới khi trong tập đặc trưng chỉ còn lại một đặc trưng Kết quả là một danh sách xếp hạng các đặc trưng theo thứ tự bị loại được tạo ra
SBG và SFG là hai phương pháp bổ sung cho nhau vì đôi khi tìm ra đặc trưng quan trọng nhất là dễ dàng hơn so với tìm ra đặc trưng ít quan trọng và ngược lại
Tìm kiếm theo hai hướng (Birectional Generation-BG): Nếu trong trường hợp
tập đặc trưng tối ưu không nằm trong khu vực giữa của không gian tìm kiếm, thì việc bắt đầu tìm kiếm từ cả hai phía của không gian tìm kiếm là giải pháp phù hợp Quá trình tìm kiếm sẽ được bắt đầu từ hai hướng một cách đồng thời Khi một trong hai chiều tìm kiếm tìm được M đặc trưng tốt nhất trước khi đi đến điểm giữa trong không gian tìm kiếm thì quá trình dừng lại Nếu cả hai chiều tìm kiếm tiến đến điểm giữa trong không gian tìm kiếm thì quá trình cũng kết thúc
Khi số lượng các đặc trưng liên quan M là nhỏ hơn N/2, SFG chạy nhanh hơn, ngược lại nếu M lớn hơn N/2 khi đó SBG chạy nhanh hơn Thường thì giá trị của M
là không biết trước nên ta không thể biết chiến lược nào chạy nhanh hơn Khi đó BG
có ý nghĩa
Tìm kiếm ngẫu nhiên (Random Generation-RG): việc tìm kiếm được bắt đầu
theo một hướng ngẫu nhiên Trong khi tìm kiếm việc thêm hay loại bỏ bớt một đặc trưng cũng được thực hiện một cách ngẫu nhiên Do chiến lược tìm kiếm không đi theo một chiều cố định nào đó trong việc tạo ra tập đặc trưng tối ưu nên phương pháp này tránh được các tối ưu địa phương Mối quan hệ giữa hướng tìm kiếm và chiến lược tìm kiếm được mô tả trong Bảng 1.1 Ký hiệu × thể hiện sự kết hợp giữa chiến lược tìm kiếm và hướng tìm kiếm là không khả thi
Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59]
Toàn bộ Kinh nghiệm Không xác định
Trang 261.2.4 Thủ tục lựa chọn đặc trưng
Mặc dù lựa chọn đặc trưng có thể được áp dụng với nhiều mô hình học, tuy nhiên trong khuôn khổ luận án này chúng tôi chỉ tập trung vào việc nghiên cứu kỹ thuật lựa chọn đặc trưng để tăng hiệu năng của các bộ phân lớp Dash và Liu [86] chia tiến trình lựa chọn đặc trưng thành bốn khối chính: Sinh tập con, đánh giá, điều kiện dừng và kiểm chứng kết quả (Hình 1.3)
Hình 1.3 Thủ tục lựa chọn đặc trưng[86]
Sinh tập con: là việc tìm kiếm trong không gian của các đặc trưng để có được
các tập con có khả năng phân lớp và dự đoán tốt nhất Với N là số các đặc trưng thì
Kiểm chứng kết quả
Trang 27tổng số tập con có thể có là 2N, nên việc duyệt qua tất cả các tập con của các đặc trưng
là tốn kém
Đánh giá: sau khi sinh tập con các đặc trưng, người ta sử dụng một hàm hoặc
một bộ tiêu chí để đánh giá mức độ phù hợp (độ tốt) của tập con được chọn lựa Kết quả trả về của hàm đánh giá sau đó được sử dụng để xác định thứ hạng của các tập con đặc trưng được đánh giá
Điều kiện dừng: được sử dụng để đảm bảo tiến trình rút gọn tập đặc trưng kết
thúc khi không thể tìm thấy tập con đặc trưng tốt hơn
Kiểm chứng kết quả: kiểm tra kết quả với các thuật toán học được chọn nhằm
xác nhận hiệu năng của kỹ thuật lựa chọn đặc trưng
1.2.5 Các mô hình lựa chọn đặc trưng
Mô hình Lọc (Filter)
Hình 1.4 Mô hình chọn lựa đặc trưng Lọc
Mô hình Lọc (Filter) là phương pháp lựa chọn đặc trưng đơn giản nhất (Hình 1.4) Đầu vào của mô hình là toàn bộ các đặc trưng của tập dữ liệu, sau khi thực hiện việc đánh giá các đặc trưng sử dụng các độ đo hoặc các tiêu chí nhất định cho trước thì đầu ra của mô hình là danh sách các đặc trưng với điểm số của từng đặc trưng Việc lựa chọn M đặc trưng có điểm số cao nhất (hoặc thấp nhất) sẽ cho tập con đặc trưng tốt nhất theo một tiêu chí nhất định Ưu nhược điểm của một số phương pháp lọc được liệt kê trong Bảng 1.2
Tất cả đặc trưng
Filter Tập con đặc trưng tốt nhất
Phân lớp
Tính toán xếp hạng theo các độ đo tương
ứng
Trang 28Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8]
Kết quả phân lớp cuối cùng có độ chính xác không cao
X2
Khoảng cách Ơ clit t-test
Độ lợi thông tin (IG) Gain ratio
Có thể không loại bỏ được các đặc trưng dư thừa
Lựa chọn đặc trưng dựa trên tương quan (CFS) Lựa chọn đặc trưng dựa trên tương quan nhanh (FCFS)
Mô hình Đóng gói (Wrapper)
Mô hình đóng gói tìm kiếm tập con các đặc trưng tốt bằng cách đánh giá chất lượng của các tập đặc trưng Việc đánh giá chất lượng thường sử dụng hiệu năng (độ chính xác dự đoán hoặc phân lớp) của thuật toán học (Hình 1.5)
Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói
Để đánh giá chất lượng của tập đặc trưng, chúng sử dụng phản hồi (feedback)
từ mô hình dự đoán Sở dĩ mô hình này được gọi là đóng gói bởi nó luôn ‘bao quanh’
bộ phân lớp Mô hình đóng gói có thể sử dụng các chiến lược tìm kiếm khác nhau chẳng hạn như tìm kiếm tuần tự, hoặc ngẫu nhiên Ưu nhược điểm của mô hình đóng gói được mô tả trong Bảng 1.3
Tất cả đặc trưng
Bộ sinh tập con
Thuật toán học
Tập con đặc trưng
Kết quả đánh giá
Wrapper
Tập con đặc trưng tốt nhất
Trang 29Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8]
Thuật toán lựa chọn tuần tự
Có tương tác với bộ phân
lớp
Chi phí tính toán thấp
Dễ bị quá khớp Thực hiện dễ dàng
Dễ gặp tối ưu địa phương
Lựa chọn tiến tuần tự (SFS)
Loại bỏ lùi tuần tự (SBE) Beam Search
Thuật toán lựa chọn tiến hóa
Tìm được tập con tối ưu
Tương tác với bộ phân lớp
Hiệu năng cao hơn mô
Mô hình nhúng (Embedded)
Mô hình nhúng giúp cải tiến hiệu năng phân lớp và tăng tốc độ của quá trình lựa chọn Mô hình nhúng là sự tích hợp, nhúng kỹ thuật lựa chọn đặc trưng vào mô hình học Mô hình này kết hợp ưu điểm của mô hình Lọc và Đóng gói bằng cách sử dụng đồng thời tiêu chí đánh giá độc lập và các thuật toán học để đánh giá tập con các đặc trưng Mô hình Lọc có thể cung cấp một chỉ dẫn thông minh cho mô hình Đóng gói, chẳng hạn như: giảm không gian tìm kiếm, một điểm khởi đầu tốt, đường tìm kiếm ngắn và thông minh hơn Để thực hiện được mô hình Nhúng người phát triển cần tìm hiểu cấu trúc của thuật toán học, xác định các tham số có thể sử dụng cho việc đánh giá mức độ quan trọng của đặc trưng Nói cách khác, các đặc trưng được xếp hạng ngay trong quá trình thực thi của việc học, không phải sau khi việc học hoàn thành như trong mô hình Đóng gói Bảng 1.4 dưới đây so sánh ba mô hình lựa chọn đặc trưng dựa theo ba hướng tiếp cận:
Trang 30Bảng 1.4 So sánh ba mô hình[33]
Mô hình Lọc Mô hình Đóng gói Mô hình Nhúng Tiêu chuẩn Đo lường độ phù hợp
đặc trưng/ tập con đặc trưng
Đo lường tính có ích của tập con đặc trưng
Đo lường tính có ích của tập con đặc trưng
Chiến lược tìm
kiếm
Thường là thứ tự của các đặc trưng
Tìm kiếm không gian toàn bộ đặc trưng
Tìm kiếm được hướng dẫn bởi quá trình học
Đánh giá Sử dụng các kiểm
định thống kê
Sử dụng kiểm chứng chéo
Sử dụng kiểm chứng chéo
Ưu điểm Nhanh, không phụ
thuộc mô hình học
Có thể lựa chọn được các đặc trưng
“tối ưu” nhất
Chi phí tính toán thấp
Nhược điểm Có thể không lựa
chọn được các đặc trưng “hữu ích” nhất
Dễ bị “quá khớp” Ít bị “quá khớp”
1.3 Trích xuất đặc trưng
- Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban
đầu sang một không gian khác mà có thể dễ dàng phân tích hơn Hay nói cách khác là nó xây dựng một tập đặc trưng mới từ tập đặc trưng ban đầu với số đặc trưng nhỏ hơn
y1
y2
⋮
yM] = 𝑓 ([
x1
x2
⋮
xN])
Hình 1.6 Trích xuất đặc trưng
Trích xuất đặc trưng liên quan tới việc tạo ra tập đặc trưng “mới” từ tập đặc trưng ban đầu, thông qua việc áp dụng một hàm hoặc một quá trình chuyển đổi Trích xuất đặc trưng thực hiện một số phép biến đổi từ đặc trưng ban đầu để tạo ra các đặc trưng mới (tập đặc trưng đích) để có thể dễ dàng phân tích hơn
Trang 311.3.1 Mục tiêu của trích xuất đặc trưng
- Tăng hiệu năng của thuật toán học do dữ liệu sau khi trích xuất có thể dễ dàng phân tích hơn so với dữ liệu ban đầu
- Trực quan hóa dữ liệu được thực hiện dễ dàng hơn do dữ liệu sau phép biến đổi
có thể dễ dàng biểu diễn hơn so với dữ liệu gốc
- Giảm nhiễu và dư thừa
1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng
Cách thức phân loại của các kỹ thuật trích xuất đặc trưng thường khác so với cách phân loại của các kỹ thuật lựa chọn đặc trưng Có nhiều cách phân loại dựa trên các đặc điểm của kỹ thuật trích xuất Trong khuôn khổ luận án này, chúng tôi tập trung phân loại các kỹ thuật trích xuất đặc trưng thành hai loại là các phương pháp có giám sát và các phương pháp không có giám sát Ngoài ra, còn có thể phân loại theo các mô hình tuyến tính và mô hình phi tuyến
Các phương pháp không giám sát gồm: Phân tích thành phần chính (PCA),
Phân tích giá trị riêng (SVD), Phân tích yếu tố (FA)…
Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân
Giả sử các phần tử dữ liệu được biểu diễn bằng vector n chiều, phương pháp phân tích thành phần chính sẽ tìm k vector trực giao n chiều có thể dùng để biểu diễn dữ liệu, với k ≤ n Khi đó, phép chiếu trên không gian k chiều cho phép biểu diễn dữ liệu
ban đầu bằng một không gian nhỏ hơn Phương pháp phân tích thành phần chính sẽ kết hợp các đặc trưng ban đầu với nhau để tạo ra các đặc trưng mới Các đặc trưng mới được gọi là thành phần chính và chúng có số lượng ít hơn hoặc bằng các đặc
Trang 32trưng ban đầu PCA là một trong các kỹ thuật không có giám sát bởi dữ liệu ban đầu không có sẵn thông tin về tin nhãn PCA có thể sử dụng để trích xuất các thông tin liên quan nhiều nhất từ một tập dữ liệu có chứa thông tin dư thừa hoặc nhiễu
Phân tích giá trị riêng (SVD)
Phân tích giá trị riêng [6] của một ma trận X cỡ n×d được thực hiện bằng tích
Phân tích yếu tố (Factor Analysis-FA) cũng là một mô hình tuyến tính, nhưng
là mô hình xác suất chứa biến ẩn FA được đề xuất lần đầu tiên bởi các nhà tâm lý
FA giả sử rằng các biến được đo phụ thuộc vào một số yếu tố chung, không rõ và thường không đo đạc được Ví dụ điểm thi của sinh viên thường liên quan, phụ thuộc vào yếu tố “thông minh” của mỗi sinh viên Mục tiêu của FA là khai thác các mối quan hệ như thế và có thể được sử dụng để giảm chiều của tập dữ liệu theo một mô hình yếu tố Phân tích yếu tố là mô hình dữ liệu có nhiều ưu điểm, cụ thể trong trường hợp tập dữ liệu ban đầu có chiều cao, thì phân tích yếu tố cho phép mô hình hóa dữ liệu trực tiếp bởi phân phối Gauss với ít tham biến hơn
Các kỹ thuật có giám sát
Phân tích biệt thức tuyến tính
Phân tích biệt thức tuyến tính (Linear Discriminant Analysis-LDA) là một kỹ thuật có giám sát; trong đó LDA tối đa hóa độ tin cậy tuyến tính giữa dữ liệu của các lớp khác nhau Tương tự như PCA, LDA tìm kiếm một kết hợp tuyến tính của các đặc trưng để dựng hàm phân lớp của các đối tượng LDA mô hình hóa sự khác biệt
Trang 33giữa các lớp trong khi PCA không quan tâm tới những khác biệt này LDA thường được sử dụng với dạng dữ liệu có kiểu số
Phân tích thành phần độc lập
Phân tích thành phần độc lập (Independent Component Analysis-ICA) là một phương pháp biến đổi tuyến tính, trong đó các đại diện mong muốn là một trong các thành phần phụ thuộc ít nhất vào các thành phần đại diện Việc sử dụng các đặc trưng trích xuất được phát triển theo lý thuyết về giảm sự dư thừa Các thuật toán ICA được chia thành hai loại: một là các thuật toán được phát triển từ việc giảm thiểu thông tin tương hỗ; và loại thứ hai những thuật toán khác được phát triển từ việc tối đa hóa phân phối chuẩn
1.4 Một số nghiên cứu về rút gọn đặc trưng
1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng
Trong nghiên cứu [53], các tác giả phân chia các hướng nghiên cứu thành bốn nhóm là hướng nghiên cứu dựa trên sự tương quan, hướng nghiên cứu dựa trên thống
kê, hướng nghiên cứu dựa trên lý thuyết thông tin và hướng nghiên cứu dựa trên học thưa
1.4.1.1 Hướng nghiên cứu dựa trên sự tương quan
Các thuật toán lựa chọn đặc trưng khác nhau sử dụng các tiêu chí khác nhau
để xác định các đặc trưng liên quan Một số độ đo được sử dụng để đánh giá mức độ quan trọng của đặc trưng là điểm số Laplace (Laplacian Score), điểm số Fisher, Relief-F…
Thuật toán cứu trợ (Relief-F) là một trong những thuật toán lựa chọn đặc trưng phổ biến nhất do nó đơn giản và hoạt động hiệu quả Tính chất của dữ liệu ảnh hưởng tới việc thực hiện thuật toán cứu trợ Cụ thể, nếu dữ liệu có nhiều nhiễu thì Relief-F
có thể cho kết quả kém chính xác Nếu trong tập dữ liệu có giá trị ngoại lai (outlier) thì độ chính xác sẽ giảm nhiều hơn nữa Vì vậy, cần phải hết sức cẩn thận khi chọn mẫu cho tập dữ liệu Ngoài ra, Relief-F chỉ xếp hạng các đặc trưng dựa trên mức độ
Trang 34Relief-F với một thuật toán di truyền nhằm lựa chọn các đặc trưng tối ưu Các tham
số của thuật toán di truyền được xác định một cách phù hợp dựa vào số đặc trưng được lựa chọn từ Relief-F
Nhận xét: Ưu điểm của các phương pháp lựa chọn đặc trưng dựa trên sự tương
quan là tương đối đơn giản và dễ hiểu bởi công việc tính toán chỉ tập trung vào xây dựng ma trận tương quan sau đó tính điểm số cho từng đặc trưng Do có hiệu suất cao nên chúng thường được sử dụng cho các bài toán phân lớp Các phương pháp này cũng độc lớp với các thuật toán học khi lựa chọn các đặc trưng Tuy nhiên, nhược điểm của các phương pháp này là không thể xác định được các đặc trưng dư thừa bởi chúng có thể lặp lại việc tìm kiếm các đặc trưng có độ tương quan cao trong suốt quá trình lựa chọn
1.4.1.2 Hướng nghiên cứu dựa trên thống kê
Các độ đo thống kê cũng được sử dụng để làm tiêu chuẩn lựa chọn đặc trưng Các phương pháp lựa chọn đặc trưng sử dụng độ đo thống kê được xếp vào nhóm các phương pháp lọc do chúng không phụ thuộc vào thuật toán học mà chỉ đánh giá đặc trưng dựa trên các độ đo thống kê Các phương pháp này có thể không loại bỏ được các đặc trưng dư thừa trong pha lựa chọn do chúng chỉ đánh giá các đặc trưng một cách độc lập Một số độ đo hay được sử dụng là: phương sai thấp (Low Variance),
điểm số T (T-score), điểm số F (F-score), X2, chỉ số Gini
Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên thống kê sử dụng các
độ đo để loại bỏ các đặc trưng không mong muốn Với ưu điểm đơn giản, dễ hiểu và chi phí tính toán thấp, chúng thường được sử dụng trong bước tiền xử lý sau đó mới
áp dụng cho các phương pháp lựa chọn đặc trưng phức tạp khác Giống như các phương pháp lựa chọn đặc trưng dựa trên sự tương quan, các phương pháp này đánh giá độ quan trọng của các đặc trưng một cách độc lập nên không thể loại bỏ được các đặc trưng dư thừa Một nhược điểm khác của các phương pháp này là chúng chỉ có thể làm việc với dữ liệu rời rạc Các biến kiểu số hay liên tục cần phải xử lý rời rạc hóa trước khi được áp dụng
Trang 351.4.1.3 Hướng nghiên cứu trên lý thuyết thông tin
Phần lớn các thuật toán lựa chọn đặc trưng hiện có là dựa trên lý thuyết thông tin Các thuật toán này sử dụng điều kiện lọc theo kinh nghiệm để đánh giá độ quan trọng của đặc trưng Hầu hết các thuật toán dựa trên khái niệm entropy để đo sự không chắc chắn của một biến ngẫu nhiên rời rạc Độ lợi thông tin (Information Gain) giữa hai biến X và Y được sử dụng để đo lượng thông tin dùng chung của X và Y Một số thuật toán lựa chọn đặc trưng dựa trên lý thuyết thông tin:
- Độ lợi thông tin (Information Gain): đo sự quan trọng của đặc trưng bằng mối tương quan của nó với nhãn lớp Giả sử rằng một đặc trưng có độ tương quan cao với nhãn lớp thì nó có thể giúp đạt hiệu suất phân lớp tốt Công việc đánh giá độ quan trọng của từng đặc trưng được thực hiện riêng biệt, do đó nó có thể
bỏ qua các đặc trưng dư thừa Sau khi có được điểm số của các đặc trưng, có thể lựa chọn ra các đặc trưng có điểm số cao nhất
- Lựa chọn đặc trưng dựa trên thông tin tương hỗ (Mutual Information): nhược điểm của phương pháp độ lợi thông tin là việc giả thiết các đặc trưng là độc lập với nhau Trong thực tế, một đặc trưng được gọi là tốt nếu nó liên quan cao với nhãn lớp và không liên quan tới các đặc trưng khác Nói cách khác cần làm giảm mối liên quan giữa các đặc trưng Phương pháp này xem xét cả các đặc trưng liên quan và các đặc trưng dư thừa trong pha lựa chọn đặc trưng
- Liên quan nhiều nhất-dư thừa ít nhất (Minimum Redundancy Maximum Relevance-mRMR): Peng và cộng sự [76] đề xuất điều kiện liên quan nhiều nhất- dư thừa ít nhất để lựa chọn số đặc trưng cần chọn Thuật toán giúp cho việc lựa chọn càng nhiều đặc trưng, ảnh hưởng của các đặc trưng dư thừa càng giảm
- Thông tin tương hỗ chung (Joint Mutual Information): Meyer và cộng sự [64]
đề xuất điều kiện thông tin tương hỗ chung nhằm tăng cường thông tin bổ sung được chia sẻ giữa các đặc trưng chưa được chọn và đặc trưng đã được chọn
Nhận xét: khác với các phương pháp lựa chọn đặc trưng dựa trên sự tương
Trang 36xác định được các đặc trưng liên quan và các đặc trưng dư thừa Cũng giống như các phương pháp dựa trên sự tương quan, các phương pháp dựa trên lý thuyết thông tin
là độc lập với thuật toán học Do đó, các phương pháp này thường chỉ phù hợp với bài toán phân lớp Do không có sự hướng dẫn của nhãn lớp nên không thể xác định
rõ ràng việc đánh giá mức quan trọng của các đặc trưng Ngoài ra, các phương pháp này chỉ có thể áp dụng cho dữ liệu rời rạc do đó các biến số liên tục cần phải được xử
lý rời rạc hóa
1.4.1.4 Hướng nghiên cứu dựa trên học thưa (Sparse learning)
Trong những năm gần đây, các phương pháp lựa chọn đặc trưng dựa trên học thưa đã được nhiều nhà nghiên cứu quan tâm do hiệu suất tốt và dễ hiểu Hướng nghiên cứu dựa trên học thưa có mục tiêu là giảm thiểu lỗi với một số qui tắc thưa Các qui tắc thưa làm cho các hệ số của đặc trưng thu nhỏ dần (hoặc chính xác bằng 0) và sau đó các đặc trưng tương ứng có thể được loại bỏ một cách dễ dàng Một số phương pháp lựa chọn đặc trưng dựa trên học thưa:
Lựa chọn đặc trưng với qui tắc chuẩn ℓ𝑝: phương pháp này được áp dụng cho bài toán phân lớp nhị phân hoặc hồi qui đa biến Để lựa chọn đặc trưng điều kiện giới hạn thưa ℓ𝑝𝑛𝑜𝑟𝑚 được đưa vào mô hình, trong đó 0 ≤ 𝑝 ≤ 1 Có thể lựa chọn đặc trưng bằng cách lựa chọn các đặc trưng có trọng số lớn Thông thường trọng số càng cao thì độ quan trọng của đặc trưng càng lớn Các phương pháp lựa chọn đặc trưng theo ℓ1-norm gồm có [98][96][36]
Lựa chọn đặc trưng với qui tắc chuẩn ℓ𝑝,𝑞 : phương pháp này được áp dụng cho bài toán phân lớp đa nhãn hoặc hồi qui đa biến Các bài toán này tương đối khó hơn do có đa nhãn và đa mục tiêu và pha lựa chọn đặc trưng phải là nhất quán trên nhiều mục tiêu Việc lựa chọn đặc trưng liên quan được chuyển thành việc giải bài toán tối ưu Đề giải bài toán này một số tác giả đã tìm kiếm giải pháp tối ưu địa phương[16]
Ngoài ra, nhiều tác giả đã nghiên cứu và đề xuất các phương pháp lựa chọn đặc trưng hiệu quả dựa trên học thưa [24][43][74][75]
Trang 37Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên học thưa có thể được
nhúng vào một thuật toán học bất kỳ (chẳng hạn hồi qui tuyến tính, SVM, Random Forest ) Do đó, có thể cải thiện hiệu năng của các thuật toán học Ngoài ra, với đặc tính thưa của trọng số của đặc trưng, mô hình trở nên dễ hiểu, dễ giải thích Tuy nhiên, các phương pháp này vẫn còn gặp phải một số hạn chế Thứ nhất, nó tối ưu hóa trực tiếp một thuật toán học bằng việc lựa chọn đặc trưng, do đó các đặc trưng được lựa chọn chỉ phù hợp với thuật toán học này mà không phù hợp với thuật toán học khác
Có nghĩa là không tổng quát Thứ hai, các phương pháp này liên quan tới việc giải bài toán tối ưu với các phép toán phức tạp trên ma trận (nhân, đảo ngược, ) trong hầu hết các trường hợp Do đó, chi phí tính toán cao là một trong những hạn chế của các phương pháp này
1.4.1.5 Một số hướng nghiên cứu khác:
Ngoài các phương pháp lựa chọn đặc trưng thuộc bốn nhóm đã trình bày ở trên, các nhà nghiên cứu còn tập trung vào phát triển các phương pháp lựa chọn đặc trưng theo chiến lược tìm kiếm và tiêu chí đánh giá
Tìm kiếm kinh nghiệm và tham lam
Nakariyakul và Casasent [66] cải tiến thuật toán lựa chọn đặc trưng tuần tự tiến nhằm chọn một tập hợp con của các đặc trưng Các tác giả đã đề xuất cải tiến các thuật toán lựa chọn đặc trưng gốc bằng cách thêm một bước tìm kiếm bổ sung được gọi là "thay thế đặc trưng yếu" Bước tìm kiếm bổ sung này sẽ thực hiện việc loại bỏ một đặc trưng bất kỳ trong tập các đặc trưng con hiện đang được chọn Sau đó thêm tuần tự từng đặc trưng mới nhằm cải thiện các tập con đặc trưng hiện thời
Yusta [101] trình bày ba chiến lược tìm kiếm theo kinh nghiệm để giải quyết các bài toán lựa chọn đặc trưng (GRASP, tìm kiếm Tabu và thuật toán Memetic) Ba chiến lược tìm kiếm này được so sánh với giải thuật di truyền và với các phương pháp lựa chọn đặc trưng điển hình khác như SFFS và SBFS Kết quả cho thấy GRASP và tìm kiếm Tabu có được kết quả tốt hơn so với các phương pháp còn lại
Tìm kiếm dựa trên tối ưu
Trang 38Khi bài toán lựa chọn đặc trưng có thể được coi là một bài toán tối ưu hóa tổ hợp, các nhà nghiên cứu đã sử dụng các thuật toán di truyền, tối ưu đàn kiến, phương pháp tập thô và tối ưu hóa bầy đàn (Particle Swarm Optimization) để giải quyết
Một thủ tục tìm kiếm khác dựa trên các thuật toán di truyền (GA), đó là một
kỹ thuật tìm kiếm tổ hợp dựa trên cả hai độ đo ngẫu nhiên và xác suất Các tập con đặc trưng được đánh giá bằng cách sử dụng hàm phù hợp và sau đó qua kết hợp trao đổi chéo và đột biến để tạo ra thế hệ tiếp theo của các tập con
Othman Soufan và các cộng sự [82] đề xuất một phương pháp lựa chọn đặc trưng hiệu quả theo mô hình đóng gói trong đó sử dụng chiến lược tìm kiếm dựa trên thuật toán di truyền Việc kiểm tra và đánh giá số lượng lớn các đặc trưng được triển khai song Trong bước tiền xử lý các tác giả cũng tích hợp các phương pháp lọc khác nhau Một ưu điểm nổi bật của phương pháp này là trọng số và các tham số khác của
và cộng sự [30] đề xuất nhằm phán đoán điểm ảnh trong quá trình xử lý ảnh Thuật toán lai này tự động dừng khi giá trị trung bình của cá thể nhỏ hơn một giá trị ngưỡng cho trước Ưu điểm của phương pháp này là không cần phải thiết lập số lượng đặc trưng cần thiết trước khi bắt đầu các vòng lặp
Trong nghiên cứu của Martin Jung và Zscheischler Jakob [46], các tác giả giới thiệu một thuật toán di truyền lai cho việc lựa chọn đặc trưng Thuật toán di truyền được chỉ dẫn bởi Rừng ngẫu nhiên (RF) giúp làm giảm chi phí tính toán của hàm mục
Trang 39tiêu Hướng dẫn này gợi ý những đặc trưng sẽ bị loại bỏ và giữ lại những đặc trưng phù hợp nhất
Gần đây, Ghaemi Manizheh và cộng sự đề xuất một phương pháp lựa chọn đặc trưng sử dụng thuật toán tối ưu rừng (FOA)[29] Đầu tiên, thuật toán tối ưu rừng được áp dụng cho bài toán có không gian liên tục, sau đó nó được áp dụng cho bài toán có không gian đặc trưng rời rạc bằng cách thiết lập lại bậc của cây tốt nhất về giá trị không
Maldonado và Weber [63] giới thiệu một thuật toán đóng gói để lựa chọn đặc trưng, trong đó sử dụng SVM với các hàm nhân Phương pháp của họ được dựa trên
sự lựa chọn tuần tự ngược, bằng cách sử dụng số lỗi đánh giá trên một tập con làm
độ đo để quyết định đặc trưng nào bị loại bỏ trong mỗi lần lặp
Kỹ thuật lai
Các kỹ thuật lai là một dạng của các phương pháp dựa trên kết hợp mô hình (ensemble) với mục đích tạo ra một nhóm các tập con đặc trưng từ các thuật toán lựa chọn đặc trưng khác nhau và sau đó tổng hợp lấy ra kết quả cuối cùng tốt nhất Kỹ thuật này có thể làm giảm thiểu vấn đề không ổn định, nhiễu của từng phương pháp lựa chọn đặc trưng, và do đó các công việc học tiếp sau được cải thiện đáng kể Tương
tự như các phương pháp học kết hợp thông thường, các phương pháp lựa chọn đặc trưng lai gồm hai bước: (1) Xây dựng một tập các kết quả lựa chọn đặc trưng khác nhau, (2) Kết hợp các kết quả này để có được kết quả cuối cùng Việc thực hiện các bước khác nhau sẽ cho ra các phương pháp lựa chọn đặc trưng khác nhau
Unler và cộng sự [89] trình bày một thuật toán lựa chọn tập con đặc trưng lai giữa lọc và đóng gói dựa trên tối ưu hóa hạt bầy đàn (PSO) cho bộ phân lớp SVM
Mô hình lọc dựa trên các thông tin tương hỗ (MI), MI là một độ đo tổng hợp của đặc trưng liên quan và dư thừa đối với các tập con đặc trưng được lựa chọn Mô hình đóng gói là một thuật toán cải tiến dựa trên PSO
Cách tiếp cận của Peng và cộng sự [77] gồm hai phần: (1) thêm một bước tiền lựa chọn để nâng cao hiệu quả trong việc tìm kiếm các tập con đặc trưng với hiệu
Trang 40năng phân lớp được cải tiến, (2) sử dụng đường cong (ROC) để mô tả hiệu suất của đặc trưng riêng lẻ và tập con đặc trưng trong việc phân lớp
Lee và Leu [50] đề xuất một phương pháp lai mới để lựa chọn đặc trưng trong việc phân tích dữ liệu microarray Phương pháp này lần đầu tiên sử dụng thuật toán
di truyền với cài đặt tham số động (GADP) để tạo ra một số tập hợp gen và để xếp hạng các gen theo tần số xuất hiện của chúng trong các tập con gen Sau đó, sử dụng phương pháp X2 để chọn một số gen thích hợp trong số các gen được xếp hạng cao nhất
Xie và Wang [97] đề xuất một phương pháp lựa chọn đặc trưng lai, cải tiến score và tìm kiếm kế tiếp tuần tự (IFSFS) Họ cải tiến F-score gốc bằng cách đo độ phân biệt giữa hai bộ số thực sau đó đo sự phân biệt giữa nhiều hơn hai bộ số thực Các cải tiến F-score và tìm kiếm kế tiếp tuần tự (SFS) được kết hợp để tìm tập con tối ưu trong quá trình lựa chọn đặc trưng, trong đó, cải tiến F-score được dùng như là một tiêu chí đánh giá của phương pháp lọc còn SFS là một hệ thống đánh giá dựa trên phương pháp đóng gói
F-Các phương pháp tập thô
Lý thuyết tập thô (Rough Set) đã được giới thiệu bởi Pawlak [73] để giải quyết với các khái niệm không chính xác hoặc mơ hồ Swiniarski và Skowron [85] giới thiệu các ứng dụng cho phép sử dụng phương pháp tập thô để lựa chọn đặc trưng
Chen và cộng sự [18] đề xuất một phương pháp lựa chọn đặc trưng dựa trên bit để tìm tập đặc trưng nhỏ nhất đại diện cho các chỉ số của một tập dữ liệu cho trước Cách tiếp cận này bắt nguồn từ việc lập chỉ mục bitmap và kỹ thuật tập thô Nó bao gồm hai giai đoạn Trong giai đoạn đầu, tập dữ liệu đã cho được biến đổi thành một
ma trận bitmap được lập chỉ mục với một số thông tin dữ liệu bổ sung Trong giai đoạn thứ hai, một tập hợp các đặc trưng phù hợp được lựa chọn và sử dụng đại diện cho các chỉ số phân lớp của tập dữ liệu cho trước Sau khi các đặc trưng phù hợp được lựa chọn, chúng có thể được đánh giá bởi các chuyên gia trước khi tập các đặc trưng cuối cùng của dữ liệu được đề xuất