Trong lĩnh vực y sinh học, giảm chiều dữ liệu đã được ứng dụng rộng rãivào trong một số kỹ thuật xử lý dữ liệu như: giảm chiều dữ liệu các tập dữ liệu sinh học phân tử đơn lẻ; sử dụng cá
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
—+——
GIANG THÀNH TRUNG
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
GIAM CHIEU DU LIEU, UNG DUNG TRONG
BAI TOAN PHAN LGP BENH NHAN
LUAN AN TIEN SI HE THONG THONG TIN
Trang 2DAI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———+%_———
GIANG THÀNH TRUNG
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
GIẢM CHIEU DU LIEU, GNG DỤNG TRONG
BAI TOAN PHAN LGP BENH NHAN
Chuyên ngành: Hệ thống thông tin
Mã số: 9480104.01
LUẬN ÁN TIỀN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS TS TRAN DANG HUNG
2 TS LE NGUYEN KHOI
Trang 31.4 |Một số thách thức đặt ra khi giảm chiều dit liệu y sinh học
1.5./Van đề nghiên cứu của luận án| 301.6 Kiến thức nền tảng chung| - -. 30
1.6.1.|Đánh giá kết quả thực nghiệm| 30
Trang 42.1 |Giới thiỆN| c2 2020221221121 n HE ng ng nh nh nha 42 2.2 [Kiến thức nền tảng| c 22221222 hi 43
PHÂN LỚP BỆNH NHÂN DỰA TRÊN PHƯƠNG PHÁP
PHAN TÍCH THÀNH PHAN CHÍNH TANG CƯỜNG 76
3.1 |Giới thiỆNÌ eee reer nn nhe nhe nhe nho 77
ii
Trang 53.2.|Phương pháp phân tích thành phần chính| 78
3.2.1 |Giới thiệuÌ 20022220211 n nhà 78
3.2.2.|Phương pháp PCA| Q2 na 80
3.4.2 Phân lớp dựa trên Hoc da ham nhân| 96
3.5 [Thực nghiệm và kết quải| - ce eters 97
Trang 6Danh sách hình vẽ
điều trị
"Ăn Se
tương ứng vdi giá trị của véc tơ 8 được trả vé của thuật toán)
2.5 So sánh độ chính xác của bộ phân lớp trên từng tập dữ liệu
2.6 Đường cong ROC so sánh các mô hình phân lớp| 67
27 So sánh thời gian thực hiện khi số lần lặp là 20 với kích thước
tập di liệu khác nhau
2.8 Mô hình tiền xử lý dữ liệu ảnh cộng hưởng từ bệnh nhân Alzheimer| 71
3.1 Ví dụ về đo thông tin dựa trên phương sail 79
3.2 Minh họa ý tưởng phương pháp PCA|L 80
3.3 Ý tưởng chính của phương pháp PCA| 81
1V
Trang 73.6 Mô hình tiền xử lý tập dữ liệu biểu hiện gen dựa trên RPCA
tập dữ liệu bệnh ung thư
3.7 Biểu đồ đường cong ROC của các mô hình phân lớp trên từng
Trang 8Danh sách bảng
11 Ưu, nhược điểm của Phương pháp lọc|_ - 17
1.2 Ưu, nhược điểm của Phương pháp bao gói| 21
1.3 Ưu, nhược điểm của Phương pháp nhúng 23
1.4 Ưu, nhược điểm của Phương pháp trích chọn đặc trưng| 26
15 Ưu, nhược điểm của Phương pháp lai - 29
1.6 Bảng minh họa kết quả dự đoán| - 31
3.2 Do chính xác của các bộ phân lớp giữa các tập dữ liệu gốc và các
tập dữ liệu được tiền xử lý dựa trên RPCA
3.3 Độ chính xác của các mô hình phân lớp tích hợp từ 2, 3 bộ phan
lớp thành phần
vì
Trang 9Giá trị AUC của các mô hình phân lớp
vii
Trang 10Thuật ngữ và từ viết tắt
Từ viết tắt | Từ gốc Giải nghĩa - Tạm dịch
AD Alzheimer Disease Bệnh Alzheimer
ADNI Alzheimer’s Disease Neroimag- | Sáng kiến chan đoán và điều
ing Initiative trị bệnh Alzheimer dựa trên
fMKL-DR Fast Multiple Kernel Learning | Học đa hàm nhân kết hợp
for Dimensionality Reduction | giảm chiều dữ liệu nhanh
GBM Glioblastoma Multiforme Bệnh ung thư não
KNN K-Nearest Neighbors K láng giềng gần nhất
LUNG Lung Squamous Cell Carci- | Bệnh ung thư phổi
noma
MCMO Matrix Chain Multiplication | Thủ tục tính thứ tự nhân
Ordering Proceduce tích chuỗi ma trận tối ưu
MKL Multiple Kernel Learning Hoc da ham nhan
MKL-DR Multiple Kernel Learning for | Học đa hàm nhân kết hợp
Dimensionality Reduetion giảm chiều dữ liệu
ML Machine Learning Học máy
MMSE Mini Mental State Examina- | Trắc nghiệm trí tuệ
tion
MRI Magnetic Resonance Imaging Anh chụp cộng hưởng từ
OV Ovarian Serous Cytadenocarci- | Bệnh ung thư biểu mô
noma buồng trứngPCA Principal Component Analysis | Phan tích thành phần chính
rMKL-DR Regularized Multiple Kernel
Learning for Dimensionality Reduction
ROC Receiver Operating
Character-istic
ROI Regions of Interest Vùng được quan tâm
RPCA Robust Principal Component | Phân tích thành phần chính
Analysis tăng cường
SDP Semidefinite Programming
SVD Singular Value Decomposition
viii
Trang 11SVM Support Vector Machine Máy vector hỗ trợ
ix
Trang 12Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự
hướng dẫn của PGS.TS Trần Dăng Hưng và TS Lê Nguyên Khôi tại bộ môn
Hệ thống thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ,Đại học Quốc gia Hà Nội Các số liệu và kết quả trình bày trong luận án làtrung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình
nào khác.
Tác giả
Trang 13Lời cảm ơn
Trước tiên tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy giáo,PGS.TS Trần Đăng Hưng - người thầy đã hướng dẫn, khuyến khích, truyềncảm hứng, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu làmnghiên cứu sinh đến khi hoàn thành luận án Toi xin cẩm ơn thay giáo, TS Lê
Nguyên Khôi - người thầy hướng dẫn đã luôn khuyến khích, động viên tôi để tôi có thể hoàn thành luận án Toi xin cám ơn Tiến sĩ Nguyễn Thanh Phương,
Trường Đại học Luxemburg - người đã chia sẻ với tôi nhiều kiến thức và kinh
nghiệm trong nghiên cứu khoa học để tôi có thể hoàn thành luận án này
Tôi xin chân thành cảm ơn các thầy cô giáo khoa Công nghệ thông tin,Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy
Cô trong Bộ môn Các Hệ thống thông tin đã tận tình đào tạo, cung cấp chotôi những kiến thức vô cùng quý giá, đã tạo điều kiện tốt nhất cho tôi về môitrường làm việc trong suốt quá trình học tập, nghiên cứu tại Trường
Tôi xin chân thành cảm ơn Khoa Công nghệ Thông tin, Trung tâm Tính
toán khoa học, Trường Dại học Sư phạm Hà Nội đã tạo điều kiện về môi trường
làm việc và hỗ trợ hệ thống tính toán để giúp tôi hoàn thành nghiên cứu này.
Đồng thời tôi xin chân thành cảm ơn các đồng nghiệp trong Phòng Bảođảm chất lượng và Thanh tra Pháp chế, Khoa Khoa học Tự nhiên - Công nghệ
thuộc Trường Đại học Tây Bắc, Công ty cổ phần Đầu tư GCL đã tạo mọi điều
kiện, bố trí thời gian tốt nhất dành cho tôi trong suốt quá trình làm nghiên cứu
sinh.
Tôi xin cảm ơn Công ty TNHH Đầu tư và Phát triển đô thị Gia Lâm thuộcTập đoàn Vingroup và hỗ trợ bởi Quỹ Đổi mới sáng tạo Vingroup (VINIF) trong
Dự án mã số VINIF.2019.DA18 đã tài trợ cho tôi thực hiện nghiên cứu này.
Cuối cùng, tôi xin chân thành cảm ơn những người thân trong gia đình
cùng toàn thể bạn bè đã luôn giúp đỡ, động viên tôi những lúc gặp phải khó
khăn trong suốt quá trình học tập và nghiên cứu.
xi
Trang 14MỞ ĐẦU
Đặt vấn đề
Trong thập kỷ vừa qua, ngành khoa học sự sống và thực nghiệm đã trải qua
một cuộc cách mạng với sự phát triển nhanh chóng của các thiết bị thí nghiệm
và thiết bị đo công nghệ cao Cùng với sự phát triển đó, lượng dit liệu được do
đạc, lưu trữ và xử lý ngày càng lớn trên tất cả các lĩnh vực của đời sống xã hội,
đặc biệt trong lĩnh vực y sinh học đã có sự phát triển vượt bậc về dữ liệu khitạo ra một lượng lớn dữ liệu, như dữ liệu gen, protein, dữ liệu chuyển hóa, dữ
liệu dược lý, dữ liệu lâm sàng [I] Nhiều bộ dữ liệu y sinh học có sự gia tăng
nhanh chóng về kích thước, độ phức tạp cũng như cách biểu diễn (ảnh, vector
số, video, văn ban) [2] Nguồn dữ liệu này là cơ sở cho việc phân tích và đề xuất
trong các hệ thống trợ giúp ra quyết định hỗ trợ cho các hoạt động chẩn đoán
và chữa trị các bệnh do chúng là thông tin phản ánh khách quan các hoạt động
đã xảy ra trong chính các cơ quan của cơ thể.
Dữ liệu ở dạng thô được xử lý, biến đổi, tính toán và chuyển hóa thành tri thức để trở nên hữu ích nhằm hỗ trợ ra quyết định Tuy nhiên, một trong các
thách thức đối với các phương pháp xử lý dữ liệu đó là các tập dữ liệu hiện nay
có số chiều (hay còn gọi là đặc trưng, thuộc tính hoặc biến) rất lớn Trong nhiềutrường hợp, các bộ dữ liệu có số chiều lên tới hàng nghìn, hàng triệu chiều Cụ
thể, một tập dữ liệu microarray của một loại sinh vật có số lượng gen thường
từ vài nghìn đến vài chục nghìn gen, mỗi gen được coi như một chiều (biến) khi
biểu diễn dữ liệu trong các bài toán Số lượng chiều lớn kéo theo đòi hỏi chi phí tính toán lớn, dẫn đến các phương pháp phân tích gặp nhiều khó khăn để đáp
ứng yêu cầu về thời gian phản hồi khi đưa vào trong các bài toán thực tế Khi
đó, một bước tiền xử lý được đề xuất là giảm chiều dữ liệu nhằm giảm số lượng
biến để phù hợp với các hệ thống máy tính và giảm thời gian thực hiện thuật
toán [3].
Trang 15Giảm chiều dữ liệu được hiểu là từ một tập dữ liệu gốc ban đầu, áp dụng các phương pháp phân tích để giảm rất nhiều đặc trưng của dữ liệu sao cho vẫn
giữ lại được bản chất thông tin của tập dữ liệu đó Hiện nay, giảm chiều dữ liệu
đã trỏ thành một bước kỹ thuật cần thiết nhằm biến đổi dữ liệu gốc ban đầu bằng cách giảm đặc trưng để phù hợp với số mẫu và các mô hình tính toán ở
bước tiếp theo Trong nhiều năm qua, hướng nghiên cứu về giảm chiều dit liệuluôn thu hút được sự quan tâm của các nhà nghiên cứu và thực tế đã có nhiềuphương pháp giảm chiều dữ liệu đã được đưa ra nhằm giải quyết thách thức nêu
trên ñð| Có hai hướng tiếp cận chính để giảm chiều dữ liệu là lựa chọn đặc
trưng và trích chọn đặc trưng Lựa chọn đặc trưng giảm chiều bằng cách lựachon một tập con đặc trưng từ tập đặc trưng gốc sao cho tập dữ liệu từ tập con
đặc trưng vẫn phản ánh được bản chất thông tin nhiều nhất có thể so với tập
dữ liệu ban đầu Trích chọn đặc trưng giảm chiều dựa trên việc biến đổi tập đặc
trưng gốc thành một tập đặc trưng mới trong không gian thấp chiều sao cho tối
thiểu hóa mất mát thông tin so với tập dữ liệu ban đầu.
Trong lĩnh vực y sinh học, giảm chiều dữ liệu đã được ứng dụng rộng rãivào trong một số kỹ thuật xử lý dữ liệu như: giảm chiều dữ liệu các tập dữ liệu
sinh học phân tử đơn lẻ; sử dụng các phương pháp giảm chiều dữ liệu để trích
rút các thông tin hữu ích trong các tập dữ liệu sinh học phân tử, dữ liệu ảnh
y tế; kết hợp đồng thời giảm chiều dữ liệu và tích hợp các tập dữ liệu sinh họcphân tử, Từ tiền xử lý dữ liệu, các phương pháp giảm chiều dữ liệu đã gián
tiếp góp phần đáng kể trong việc nâng cao hiệu quả giải quyết các bài toán y
sinh học, trong đó có bài toán phân lớp bệnh nhân Phân lớp bệnh nhân đóng
vai trò quan trọng, góp phần nâng cao hiệu quả trong chẩn đoán và điều trị
bệnh nhân tại các cơ sở y tế [ổ [7] [8] Thông qua việc chia bệnh nhân thành các
lớp bệnh nhân khác nhau dựa trên đặc điểm sinh học và tình trạng bệnh, các
cơ sở y tế sẽ kịp thời chan đoán phát hiện và xác định tinh trạng bệnh để có
các phác đồ điều trị phù hợp với từng nhóm bệnh nhân khác nhau nhằm nângcao hiệu quả của việc điều trị
Tuy nhiên, cùng với sự phát triển của ngành khoa học dữ liệu, các tap dữ
liệu hiện nay trở nên rất đa dạng, có cấu trúc và mối quan hệ phức tạp, đặc biệt
là có kích thước ngày càng lớn và được biểu diễn bởi nhiều độ đo khác nhau,
đặc biệt là dữ liệu y sinh học Do đó, các nghiên cứu giảm chiều dữ liệu cũngphải đối mặt với các thách thức mới xuất hiện, bao gồm: Một là, các tập dữliệu gồm nhiều dữ liệu nhiễu, thưa và ngoại lai, nếu phân tích chung với dữ liệuthông thường sẽ cho ra kết quả không chính xác Thách thức này thường xảy
Trang 16ra với các tập dữ liệu sinh học phân tử Hai là, các loại dữ liệu sinh học phân
tử khác nhau đều chứa những thông tin hữu ích về vai trò của các phân tử đốivới bệnh tật, do đó một nhu cầu bức thiết là tích hợp các nguồn dữ liệu có ý
nghĩa đồng thời với giảm chiều dữ liệu để tạo ra tập dữ liệu tích hợp mang đầy
đủ thông tin nhưng vẫn phù hợp với các mô hình, công cụ tính toán hiện tại |9|.
Tuy nhiên, bản thân mỗi loại dữ liệu đã có kích thước lớn, ngoài ra, mỗi loại dữ
liệu sử dụng những độ đo khác nhau, do đó, việc tích hợp dữ liệu cũng còn tồntại nhiều thách thức [10] Những thách thức trên đây đòi hỏi cần sớm được giải
quyết nhằm xây dựng được các phương pháp kịp thời đáp ứng với sự thay đổi
phức tạp ngày càng tăng của dữ liệu.
Từ những phân tích nêu trên, tác giả chọn thực hiện luận án Nghiên cứu
một số phương pháp giảm chiều dữ liệu, ứng dụng trong bài toán phân
lớp bệnh nhân làm đề tài nghiên cứu tiến sĩ của mình Thông qua nghiên cứunày, luận án tập trung vào giải quyết một số vấn đề lớn sau:
Thứ nhất, nghiên cứu về các phương pháp giảm chiều dit liệu đã được đề
xuất, xác định ưu, nhược điểm của các phương pháp đã được đề xuất trong lĩnh vực y sinh, từ đó làm tiền đề để đề xuất những cải tiến nhằm nâng cao hiệu quả
của các phương pháp giảm chiều dữ liệu
Thứ hai, nghiên cứu cụ thể về hai phương pháp giảm chiều hiệu quả dựa
trên học đa hàm nhân và phân tích thành phần chính tăng cường Trong đó,học đa hàm nhân là việc học một nhân từ nhiều hàm nhân hoặc ma trận nhân
cơ sở, học đa hàm nhân được ứng dụng hiệu quả trong việc tích hợp dữ liệu.
Ngoài ra, phương pháp phân tích thành phần chính tăng cường là phương phápgiảm chiều dit liệu được mở rộng từ phương pháp phân tích thành phần chínhnhằm thích ứng với dữ liệu ngoại lai, nhiễu, và thưa Từ phân tích ưu, nhược
điểm của các phương pháp trên, luận án đề xuất cải tiến nhằm nâng cao hiệu
quả của phương pháp.
Thứ ba, áp dung các phương pháp đã nghiên cứu vào xây dựng các mô
hình phân lớp bệnh nhân để khẳng định tính ứng dụng cũng như hiệu quả của
phương pháp Đặc biệt chú ý đến việc tích hợp dữ liệu từ nhiều nguồn khácnhau nhằm tận dụng sự phong phú của các nguồn dữ liệu cũng như thông tin
hữu ích trong đó.
Trang 17Câu hỏi nghiên cứu
Từ những hạn chế và thách thức cần đối mặt của các phương pháp giảm chiều dữ liệu hiện nay, luận án đặt ra một số câu hỏi nghiên cứu sau:
1 Làm sao để để khắc phục những tồn tại của phương pháp tích hợp dữ liệu
kết hợp giảm chiều dữ liệu?
2 Làm sao để ứng dụng phương pháp phân tích thành phần chính tăng cường
trong giảm chiều dữ liệu y sinh học?
3 Làm sao để ứng dụng các phương pháp giảm chiều dữ liệu vào giải quyết
bài toán phân lớp bệnh nhân?
Mục tiêu của luận án
Luận án tập trung nghiên cứu về các phương pháp giảm chiều dữ liệu nói
chung và cụ thể về các phương pháp giảm chiều dữ liệu được ứng dụng trong
lĩnh vực y sinh học nói riêng Trong đó, tập trung vào hai hướng nghiên cứu vềphương pháp giảm chiều dit liệu kết hợp tích hợp dữ liệu và phương pháp giảmchiều dữ liệu đối với các tập dữ liệu ngoại lai Từ đó, luận án đặt ra ba mục tiêulớn cần đạt được như sau:
1 Đề xuất cải tiến phương pháp tích hợp dữ liệu kết hợp giảm chiều dữ liệu
2 Nghiên cứu vận dụng phương pháp phân tích thành phần chính tăng cường
trong giảm chiều đữ liệu y sinh học
3 Dé xuất mô hình phân lớp bệnh nhân ứng dụng các phương pháp giảm
chiều đã nghiên cứu nhằm tạo ra một công cụ hỗ trợ quá trình chan đoán
và điều trị bệnh
Nội dung, đối tượng và phạm vi nghiên cứu
Để đạt được các mục tiêu nghiên cứu trên, luận án thực hiện nghiên cứu
các nội dung trên các đối tượng và phạm vi sau:
Trang 18e Nghiên cứu về phương pháp giảm chiều dữ liệu kết hợp tích hợp dit liệu, cụ
thể là Phương pháp học đa hàm nhân kết hợp giảm chiều dữ liệu.
e Nghiên cứu phương pháp Phân tích thành phần chính tăng cường và ứng
dung trong giảm chiều dữ liệu với tap dữ liệu ngoại lai
e Phát triển các thuật toán mới nhằm nâng cao hiệu quả của các phương
pháp đã nghiên cứu, góp phần tăng tính ứng dụng của các phương pháp
đó.
e Nghiên cứu các bài toán phân lớp bệnh nhân, đề xuất các mô hình phân
lớp bệnh nhân dựa trên các phương pháp đã nghiên cứu và đề xuất nhằm
nâng cao hiệu quả phân lớp bệnh nhân.
Phương pháp nghiên cứu
* Nghiên cứu ly thuyết
e Cơ sở lý thuyết về giảm chiều dữ liệu, tích hợp dit liệu và kết hợp giữa giảm
chiều dữ liệu và tích hợp dữ liệu
e Cơ sở lý thuyết về giảm chiều dữ liệu dựa trên phương pháp Phân tích
thành phần chính, Phân tích thành phần chính tăng cường
e Cơ sở lý thuyết về bài toán phân lớp bệnh nhân, các đóng góp của giảm
chiều dit liệu vào bài toán phân lớp bệnh nhân
e Cơ sở lý thuyết về một số độ do được sử dung để đánh giá hiệu quả của các
phương pháp phân lớp.
e Cơ sở lý thuyết về xây dựng mô hình phân lớp bệnh nhân
* Nghiên cứu giả thuyết đưa ra các giả thuyết mới dựa trên các kết quả
phân tích, từ đó xây dựng các phương pháp cải tiến và chứng minh giả thuyết
làm cơ sở kiểm định tính hiệu quả của phương pháp cải tiến.
* Nghiên cứu thực nghiệm
e Cài đặt các công cụ tiền xử lý dữ liệu bằng ngôn ngữ lập trình C#.
e Cài đặt các thuật toán huấn luyện giảm chiều dữ liệu bằng ngôn ngữ lập
trình Matlab.
Trang 19* Nghiên cứu định lượng
* Dánh giá định lượng hiệu quả của các phương pháp dựa trên số liệu thu
được sau khi thực nghiệm.
Các đóng góp chính của luận án
Luận án sau khi được thực hiện đã có ba đóng góp chính sau:
1 Xuất phát từ những tồn tại của phương pháp học đa hàm nhân kết hợp
giảm chiều dữ liệu (MKL-DR - Một phương pháp phù hợp và hiệu quảtrong tiền xử lý dữ liệu y sinh học) là đòi hỏi chi phí về mặt thời gian lớn
do trong thuật toán lặp đi lặp lại việc tính tích chuỗi ma trận Luận án
đã đề xuất một phương pháp cải tiến của phương pháp MKL-DR gọi là
fMKL-DR nhằm giảm đáng kể chi phí về thời gian tính toán mà vẫn giữ
được hiệu quả của phương pháp Kết quả này được công bố trong bài báo
[(GTTrung-1]] và |[G T Trung-2|
2 Dựa trên phương pháp fMKL-DR đã đề xuất ở trên, luận án đề xuất mô
hình phân lớp bệnh nhân gồm:
e Mô hình tích hợp dữ liệu bệnh nhân ung thư từ các nguồn dữ liệu khác
nhau và thực hiện phân lớp bệnh nhân ung thư hiệu quả Kết quả phânlớp khi thực nghiệm trên mô hình đề xuất nằm trong ngưỡng tốt, kết
quả này đóng góp vào việc hỗ trợ, chan đoán trong điều trị bệnh ung
thư.
e Mô hình phân lớp bệnh nhân Alzheimer dựa trên dữ liệu anh cộng
hưởng từ Kết quả phân lớp khi thực nghiệm trên mô hình đề xuất nằmtrong ngưỡng tốt, trợ giúp cho quá trình phát hiện sớm và đúng trạng
thái bệnh của người bệnh để có phác đồ điều trị bệnh phù hợp.
Kết quả này đã được công bố trong bài báo |[GT Trung-3]
3 Dé xuất mô hình phân lớp bệnh nhân ung thư dựa trên phương pháp Phân
tích thành phần chính tăng cường (RPCA) Trong đó đề xuất một hướnggiảm chiều dữ liệu bằng cách lựa chọn các đặc trưng dựa trên RPCA phù
hợp với tập dữ liệu y sinh học Từ đó làm căn cứ xây dựng mô hình phân
lớp bệnh nhân dựa trên phương pháp học đa hàm nhân.
Kết quả này được công bố trên bài báo |[GTTrung-4]
6
Trang 20Đóng góp 1, 2 được trình bay trong nội dung của Chương 2, đóng góp 3 được trình bày trong nội dung của Chương 3 Ngoài các đóng góp trên, luận ấn
còn trình bày các nội dung kiến thức khác phụ trợ cho các phương pháp chính
được trình bày trong mỗi chương.
Bo cục của luận án
Bồ cục của luận án gồm 5 phần chính:
e Mở đầu trình bày khái quát về giảm chiều dữ liệu và ứng dụng trong lĩnh
vực y sinh học Nội dung này sẽ bắt đầu với những khó khăn khi xử lý dit
liệu nói chung và trong các bài toán y sinh học nói riêng, từ đó thôi thúc
các phương pháp giảm chiều dữ liệu được ra đời; khái quát về các kết quảchính đã đạt được, những tồn tại và các hướng nghiên cứu khả thi về cácphương pháp giảm chiều dit liệu Ngoài ra, phần này cũng trình bày về cácđóng góp chính của luận án và bố cục của luận án
e Chương 1, 2, 3 là phần nội dung của luận án tương ứng với 3 nội dung
cụ thể sau:
Chương 1 trình bày Tổng quan vé giảm chiều dữ liệu va ứng
dựng trong xử ly dữ liệu y sinh học Chương nay bao gồm phần giới
thiệu tổng quan về giảm chiều dữ liệu, các thách thức mà các phương pháp
giảm chiều dữ liệu phải đối mặt và các lĩnh vực được ứng dụng các phươngpháp giảm chiều dữ liệu Tiếp theo, bài toán giảm chiều dữ liệu được phát
biểu với một số ví dụ cụ thể Nội dung quan trọng của Chương là phân tích
các hướng nghiên cứu và các phương pháp giảm chiều dữ liệu áp dụng trong
bài toán y sinh học đã được đề xuất để có một bức tranh tổng quan về hệ
thống các phương pháp giảm chiều dữ liệu
Chương 2 trình bày một phương pháp giảm chiều dữ liệu được ứng
dụng hiệu quả trong bài toán y sinh học là phương pháp Phân lớp bệnh
nhân hiệu quả dựa trên hoc đa hàm nhân kết hợp giảm chiêu
dt liệu Chương này sẽ trình bày một Framework hiệu quả trong phân lớp
bệnh nhân ung thư Điểm mạnh của Framework này là kết hợp đồng thời
vừa tích hợp dữ liệu từ nhiều nguồn khác nhau vừa giảm số chiều của dữ
liệu, do đó, phương pháp này phù hợp với tình hình dữ liệu hiện nay trong
các bài toán y sinh học Chương này sẽ trình bay chi tiết về Framework
Trang 21gốc và những đề xuất cải tiến của nhằm nâng cao hiệu suất của phươngpháp, từ đó đề xuất mô hình phân lớp bệnh nhân ung thư và bệnh nhân
Alzheimer Tiếp theo, thiết kế các thực nghiệm để đánh giá hiệu quả của
các đề xuất và cuối cùng là phần kết quả và thảo luận
Chương ở trình bày phương pháp Phân lớp bệnh nhén dựa trên,
phương pháp phân tích thành phan chính tăng cường nhằm giải
quyết những khó khăn trong xử lý dữ liệu y sinh học bị nhiễu, hỏng hayngoại lai Chương này trình bày một đề xuất nhằm trích rút các đặc trưng
có ý nghĩa dựa trên phương pháp Phân tích thành phần chính tăng cường.
Từ đó, luận án đề xuất một mô hình phân lớp bệnh nhân dựa trên phương
pháp đã trình bày Tiếp theo, thực nghiệm được thiết kế để đánh giá hiệu
quả của phương pháp và thảo luận về các kết quả đã đạt được cũng như
những tồn tại, hạn chế và hướng phát triển của phương pháp.
Kết luận tóm lược lại các kết quả đã đạt được của luận án, từ đó phân
tích những hạn chế và các hướng nghiên cứu tiếp theo phù hợp với nội dung
của luận án trong tương lai.
Trang 22Chương |
TONG QUAN VỀ GIẢM CHIEU DU LIỆU VA UNG DUNG TRONG XU LY DU LIEU Y SINH
HOC
Giảm chiều dữ liệu đã trở thành một bước tiền xử lý không thể thiếu khi
phân tích dữ liệu Các phương pháp giảm chiều dữ liệu hiện nay không chỉ giảm
cơ học số đặc trưng của dữ liệu để phù hợp với các phương pháp tính toán hiện
nay mà còn góp phan gia tăng độ chính xác cho các phương pháp phân tích dit
liệu ở các bước tiếp theo khi có thể loại bỏ những dữ liệu gây nhiễu Trong lĩnh
vực y sinh học, các phương pháp giảm chiều dữ liệu được được sử dụng nhiều
do đặc điểm của dữ liệu sinh học phân tử, hoặc dữ liệu ảnh y tế với số lượng đặc
trưng lên đến hàng nghìn, thậm chí hàng triệu Trong Chương này, luận án tập
trung trình bày tổng quan về giảm chiều dữ liệu, tầm quan trọng cũng như ứng
dụng của các phương pháp giảm chiều trong xử lý dữ liệu y sinh học (bao gồm
phương pháp hiệu quả được ứng dụng phổ biến hiện nay như học sâu) nhằm đưa ra bức tranh tổng quan về các phương pháp giảm chiều dữ liệu và ứng dụng
chúng trong lĩnh vực y sinh học.
1.1 Bài toán giảm chiều dữ liệu
Giảm chiều dữ liệu là hoạt động tiền xử lý không thể thiếu đối với các bài
toán khai phá tri thức từ các tập dữ liệu lớn Bài toán giảm chiều dữ liệu được
phát biểu như sau:
Dau vào: Tập dữ liệu X có số chiều 5 lớn
Trang 23Không gian gốc Không gian mới
Chiếu
Hình 1.1: Minh họa Giảm chiều dữ liệu
Đầu ra: Tập dữ liệu X’ (là biểu diễn của tập dữ liệu X trong không gian
mới) có số chiều D nhỏ hơn rất nhiều so với Š mà vẫn giữ được ban chất thông
tin của dữ liệu tương đương X.
Bài toán giảm chiều dit liệu là bài toán đi tim một hàm số:
là số chiều của không gian, số cột là số điểm dữ liệu của ma trận (tương ứng với số mẫu được quan sát) Trong mô hình minh họa này, phép biến đổi chỉ làm thay đổi số chiều của tập dữ liệu mà vẫn giữ nguyên số mẫu quan sát của tập
đữ liệu.
Hình [1.1] minh hoa cho bài toán Giảm chiều dữ liệu Dữ liệu ở không gian
gốc được chiếu sang không gian mới có số chiều thấp hơn không gian cũ giúp
tăng hiệu năng tính toán Ngoài ra, dữ liệu ở không gian mới có thể được phân
tách tốt hơn giúp tăng độ chính xác của các mô hình phân lớp
Việc giảm chiều dit liệu có thể được thực hiện nhằm vào một số mục đích khác nhau như dùng để nén thông tin sao cho z có thể được suy ngược lại (xấp
xỉ) từ z hoặc phục vụ cho các bài toán phân lớp bằng cách chọn ra những đặc
10
Trang 24trưng quan trọng (lựa chọn đặc trưng) hay tạo ra những đặc trưng mới từ tập đặc trưng cũ (trích chọn đặc trưng) Với phương phấp lựa chọn đặc trưng, z có
thể là một phiên bản thu gọn của z khi các đặc trưng của z là tập con của các
đặc trưng trên z Còn với trích chọn đặc trưng, các đặc trưng của z khác hoàn toàn và được sinh ra từ các đặc trưng của z.
Đối với các tập dữ liệu biểu hiện gen thường có số chiều rất lớn, lên đến
hàng nghìn, chục nghìn gen Khi đó bài toán giảm chiều dữ liệu áp dụng trên
tập biểu hiện gen sẽ tìm kiếm một tập con các gen hoặc tạo ra các biến mới là tổ
hợp tuyến tính từ hàng nghìn gen ban đầu sao cho vẫn giữ được bản chất thông
tin của dữ liệu Thêm nữa, giảm chiều dữ liệu là bài toán tiền đề trước khi triển khai các bài toán khai phá dữ liệu khác Do đó, tiêu chí để lựa chọn các phương pháp giảm chiều dữ liệu trên tập dữ liệu biểu hiện gen là phải lựa chọn tập con
(hoặc sinh mới) các gen có ý nghĩa, loại bỏ các gen không liên quan góp phầngia tăng độ chính xác cho các bài toán khai phá dit liệu ở bước tiếp theo
Đối với các tập dữ liệu hình ảnh có kích thước lớn Giả sử một bức ảnh
có kích thước 1.000x1.000 pixel thì số lượng điểm ảnh (đặc trưng) đã lên tới
1.000.000 pixel (đặc trưng) Do đó, bức ảnh cần được giảm chiều trước khi được
xử lý ở các bước tiếp theo Giảm chiều ảnh có hai phương pháp chính Một là,giảm kích thước của bức ảnh theo cách cơ học từ 1.000x1.000 pixel xuống độ
phân giải thấp hơn có thể là 200x200 pixel Khi đó số đặc trưng chỉ còn ở mức
40.000 đặc trưng Tuy nhiên, phương pháp này sẽ gây mất dữ liệu do phải loại
bớt phần lớn đặc trưng để giảm kích thước bức ảnh nên có thể mất bản chất
của dữ liệu Ngoài ra 40.000 cũng vẫn là một số lượng đặc trưng lớn, không phù
hợp với các mô hình tính toán Phương pháp thứ hai là sử dụng các phương
pháp học máy để tìm ra các đặc trưng có ý nghĩa trên bức ảnh Phương pháp này có lợi điểm là tìm ra được đặc trưng có ý nghĩa của bức ảnh mà không phải
dùng toàn bộ số đặc trưng ban đầu, kết quả này có ý nghĩa lớn khi cần phân
lớp, phân cụm bức ảnh trong các bài toán nhận dạng Tuy nhiên, các phương
pháp này đỏi hỏi cần phải có thuật toán trích chọn đặc trưng phù hợp Phương
pháp thứ hai thường được áp dụng trong các bài toán thực tế do có thể đem lại
độ chính xác cao cho các bài toán nhận dạng.
11
Trang 251.2 Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học
va bài toán phân lớp bệnh nhần
Nghiên cứu dữ liệu y sinh để xác định các nguyên nhân, đối tượng gây bệnh
cũng như tìm ra các phương thuốc điều trị là hướng nghiên cứu quan trọng và
có nhiều đóng góp vào nghiên cứu y học chính xác trong điều trị các bệnh vàlĩnh vực chăm sóc sức khỏe [LII {12} [13] Có bốn ngành y sinh lớn được tập trungnghiên cứu bao gồm: tin-sinh học, tin học lâm sàng, tin học hình ảnh và tin học
y tế công cộng Cu thể, trong tin-sinh học, các thí nghiệm thông lượng cao tạo
điều kiện thuận lợi cho việc nghiên cứu toàn bộ gen, mối liên hệ giữa các gen về
bệnh tat; tin học lam sàng, lĩnh vực lâm sàng được hưởng lợi từ lượng lớn dữ
liệu bệnh nhân được thu thập, được phối hợp phân tích với các lĩnh vực khác
để đưa ra quyết định; tin học hình ảnh phân tích và đưa ra dự đoán từ dữ liệu hình ảnh y tế, trợ giúp trong hoạt động chẩn đoán và điều trị bệnh; tin học
y tế công cộng được nghiên cứu dự đoán và giám sát các đợt bùng phát bệnhtruyền nhiễm trên phạm vi địa lý lớn Trong đó, hai ngành tin-sinh học và tinhọc hình ảnh là hai ngành chủ chốt trong nghiên cứu về dữ liệu y sinh nhằm tìm
ra nguyên nhân gây bệnh va đề xuất giải pháp điều trị phù hợp [12] Một trong
những đặc điểm nổi bật của dữ liệu y sinh là có số đặc trưng rất lớn Cụ thể,trong tập dữ liệu sinh học phân tử, mỗi tập dữ liệu biểu hiện gen cũng có thể
có tới hàng chục nghìn gen [14]; đối với tập dữ liệu biểu diễn sự tương tác giữa các gen có tới hàng triệu đặc trưng biểu hiện mối quan hệ giữa các gen [15] Tập
dữ liệu anh y tế (ảnh cộng hưởng từ - MRI, ảnh chụp cắt lớp - CT) cũng có sốchiều lên tới hàng nghìn, thậm chí hàng triệu [16] Ví dụ như một bức ảnh chụp
mặt cắt của vỏ não có kích thước 500x500 điểm ảnh, khi đó số điểm ảnh lên tới
250.000, trong môi trường không gian 3 chiều của ảnh cộng hưởng từ hay ảnh
chụp cắt lớp thì số điểm ảnh gia tăng theo cấp số nhãn.
Số lượng đặc trưng lớn gây nhiều khó khăn trong việc phân tích dữ liệu y
sinh như:
e Số đặc trưng lớn dẫn đến độ phức tạp tính toán tăng mà các hệ thống máy
tính hiện nay không đáp ứng được Để phân tích trên tất cả các đặc trưng
sẽ đòi hỏi cao về nguồn tài nguyên (bộ vi xử lý, bộ nhớ), kỹ thuật tínhtoán và thời gian tính toán Đây là thách thức khó giải quyết mặc dù tốc
độ tính toán cũng như công nghệ hỗ trợ tính toán hiện nay như tính toán
song song, điện toán đám mây cũng đang phát triển không ngừng Đặc biệt
12
Trang 26trong giảm chiều dữ liệu y sinh, khi số lượng đặc trưng biểu diễn các đặc điểm sinh học của đối tượng cũng như mối quan hệ giữa chúng lên tới hàng
nghìn, hàng triệu đặc trưng.
e Khi số đặc trưng lớn, dẫn đến không gian tìm kiếm lớn trong khi bài toán
đặt ra chỉ cần tìm kiếm trong không gian nhỏ, cục bộ Khi đó, việc tìmkiếm lời giải tối u toàn cục trên toàn bộ không gian gặp nhiều khó khăn
e Mặc dù có nhiều đặc trưng, nhưng không phải tat cả các đặc trưng đều
đóng góp thông tin vào từng bài toán cụ thể Ví dụ như đối với bệnh Ung thư phổi, chỉ có một số gen là nguyên nhân gây bệnh, khi đó nếu phân tích trên toàn bộ các gen thì các gen không liên quan có thể sẽ gây nhiễu và làm
ảnh hưởng đến kết quả phân tích
Từ đó, giảm chiều dữ liệu trở thành bước tiền xử lý dữ liệu không thể thiếu
trong xử lý dữ liệu y sinh Giảm chiều dữ liệu góp phần nâng cao chất lượng dự
đoán, giảm thời gian tính toán mà góp phần xây dựng các mô hình ổn định hơn[I7] Cụ thể như sau:
e Đối với tập dữ liệu sinh hoc phân tử: như biểu hiện gen, phương pháp
giảm chiều lựa chọn đặc trưng có thể đo lường và xác định mức độ ảnh hưởng của các gen liên quan đến một bệnh cụ thể, từ đó chọn một tập các gen có liên quan đến bệnh để phân tích Khi đó, tập dữ liệu sau khi đã được
giảm chiều sẽ có số chiều thấp và các gen này đều liên quan đến bệnh do
đó loại bỏ được nhiễu, góp phần giảm thời gian tính toán và gia tăng chấtlượng dự đoán [18] Ngoài ra, phương pháp giảm chiều trích chọn đặc trưng
xây dựng một tập các biến mới được tổ hợp từ các gen ban đầu với giả định
dữ liệu gốc sẽ được chiếu sang không gian mới với số chiều thấp nhưng vẫngitt được ban chất của dữ liệu và có tính phan tách tốt hon [I0]
* Đối với tập dữ liệu ảnh y tế: khi phân tích ảnh y tế 2 chiều, thay vi
phân tích trên tất cả các điểm ảnh với số chiều rất lén, các phương pháp
trích chọn đặc trưng được áp dụng để chọn ra những đặc trưng có ý nghĩa đối với từng bài toán cụ thể 20] Ngoài ra, một hướng giảm chiều khác dựa trên dữ liệu ảnh 3 chiều là sử dụng các độ đo thể tích, diện tích các vùng trên ảnh (như đo thể tích các vùng trên vỏ não), từ đó trích xuất một tập các đặc trưng mới là giá trị các độ đo các vùng của ảnh làm dit liệu biểu
diễn thay cho dữ liệu ảnh ban đầu Tap dữ liệu mới thay thế cho tập dit
13
Trang 27liệu cũ với số chiều thấp và các đặc trưng là các độ đo liên quan đến bài
toán phân tích 21].
Từ trực tiếp giảm số chiều của các tập dữ liệu y sinh, giảm số chiều ditliệu đã đóng góp gián tiếp vào việc tăng cường hiệu quả phương pháp đối với
các bài toán trong lĩnh vực y sinh, trong đó có bài toán phân lóp bệnh nhân.
Phân lớp bệnh nhân dựa trên dữ liệu lâm sàng cũng như dữ liệu sinh học phân
tử sẽ phân loại bệnh nhân vào các nhóm khác nhau (các bệnh nhân trong cùng
một nhóm sẽ có các kết quả lâm sàng, đặc điểm sinh học, tình trạng bệnh tương
tự nhau) Khi đó, các liệu pháp chăm sóc, điều trị sẽ phù hợp cho từng nhómbệnh nhân, từ đó góp phần gia tăng hiệu quả điều trị bệnh [10] Phân lớp bệnhnhân không chỉ có ý nghĩa trong việc điều trị bệnh mà còn được sử dụng trong
việc chan đoán tinh trạng bệnh, kết quả chẩn đoán sớm tinh trạng mắc bệnh
và mức độ tiến triển bệnh của bệnh nhân sẽ góp phần kịp thời điều trị bệnh
[Z1I (22) (23) Các phương pháp phân lớp bệnh nhân hiện nay nghiên cứu và phân
tích dựa trên dit liệu sinh học phân tử, dit liệu ảnh y tế, do đó, giảm chiều dit
liệu là bước tiền xử lý không thể thiếu nhằm nâng cao hiệu quả của các phương
pháp phân tích [24 i25] [26].
1.3 Các hướng tiếp cận trong nghiên cứu giảm chiều dữ liệu
trong y sinh học
Có hai hướng tiếp cận chính để giải quyết bài toán Giảm chiều dữ liệu bao
gồm: Lựa chon đặc trưng và Trích chọn đặc trưng Ngoài ra một hướng tiếp cận
khác dựa tích hợp các phương pháp thuộc hai hướng tiếp cận chính để tận dụng
ưu điểm và giảm bớt nhược điểm của từng phương pháp đó là hướng tiếp cậnxây dựng các phương phap Lai Hình thể hiện danh sách các phương pháp
giảm chiều dữ liệu theo từng nhánh Trong phần này, luận án trình bày một số
phương pháp nổi bật trong các nhóm cũng như đánh giá về các phương pháp
Trang 28Hình 1.2: Các phương pháp giảm chiều dữ liệu trong lĩnh vực y sinh học
biến được lựa chọn vẫn phản ánh được bản chất thông tin nhiều nhất có thể
so với tập dữ liệu ban đầu Lựa chọn đặc trưng nhằm cải thiện hiệu năng của
thuật toán phân lớp về độ chính xác và thời gian xây dựng mô hình [27] Các
phương pháp giảm chiều dựa trên lựa chọn đặc trưng có thể được phân thành
ba nhóm sau:
1.3.1.1 Các phương pháp lọc (Filter Methods)
Các phương pháp lọc sử dụng tiêu chuẩn lựa chọn các biến dựa trên xếp
hạng các biến sau đó lựa chọn các biến liên quan theo thứ tự đã sắp xếp Cácphương pháp xếp hạng bằng thống kê đơn giản đã được sử dụng và đã cho các
kết quả thực nghiệm tốt Một trong số đó là xếp hạng các biến dựa trên việc chođiểm các biến, sau đó lựa chọn một ngưỡng và loại bỏ các biến có điểm thấp hơn
ngưỡng đã chon [28] Các phương pháp lọc lựa chọn các đặc trưng mà không
15
Trang 29cần quan quan tâm tới các mô hình phân lớp dựa trên đơn biến hay đa biến.
DL kiểm thử
Giảm chiêu DL
DL huấn (Biéu diễn dit
luyén At toán tì R liệu với tập đặcye Thuat toán tìm Tập con trung tim được)
kiêm đặc trưng ‘
cho két Tap con cho
qua huan két qua huan luyện tot luyện tốt
nhất nhất/tập kiếm
thử mới Thuật toán ML
Tập đặc Nội dung trưng con thông tin
Hình 1.3: Mô hình lựa chọn đặc trưng bằng Phương pháp lọc
Các nhà nghiên cứu đã sử dụng nhiều phương pháp lọc khác nhau trong
các nghiên cứu của họ để lựa chọn gen từ dữ liệu microarray Lin và Chen đã sử
dụng phân cụm thống kê dựa trên mối quan hệ tuyến tính và hệ số tương quan
cho tập dữ liệu microarray cDNA của bệnh ung thư vú [29] Sun va các cộng
sự đã sử dụng các phương pháp lựa chọn đặc trưng dựa trên học tập cục bộ, ý
tưởng chính là phân tích bài toán phi tuyến phức tạp thành một tập các thànhphần tuyến tính thông qua học cục bộ, sau đó tìm các đặc trưng liên quan trên
toàn bộ tập đó |ö0| Zhu và các cộng sự sử dung entropy dựa trên mô hình để lựa
chọn đặc trưng [31] Một phương pháp lựa chọn đặc trưng dựa trên lý thuyết trò chơi cộng tác đa pha đã được đề xuất cho bài toán phân lớp dữ liệu microarraybởi Mortazavi và các cộng sự năm 2016 Kết quả dựa trên độ chính xác phânlớp trung bình trên 11 tập dit liệu microarray cho thấy phương pháp được đề
xuất đã cải thiện trên cả độ chính xác và độ ổn định của mô hình phân lớp [32].
Nam 2017, Dashtban và cộng sự đã đề xuất một phương pháp xác định các gen
dự đoán cho phân lớp bệnh ung thư dựa trên việc phát triển một phương pháp
16
Trang 30tiến hóa từ thuật toán di truyền [33].
Bảng 1.1: Ưu, nhược điểm của Phương pháp lọc
Phương pháp Ưu điểm Nhược điểm
Lọc
Đơn biến
Nhanh, có thể mở rộng.
Phụ thuộc vào bộ phân lớp.
Bỏ qua các đặc trưng phụ thuộc.
Các đặc trưng bị xem xét độc lập.
Một số đặc trưng có phân tách
mạnh khi được nhóm thành nhóm, nhưng khi đứng độc lập
sẽ phân tách yêu và sẽ bị bỏ qua
Chậm hơn kỹ thuật đơn biến.
Kho mở rộng hơn kỹ thuật đơn
biến.
Bỏ qua tương tác với bộ phân
lớp.
Có thể tồn tại đặc trưng dư thừa.
Lợi ích của các phương pháp xếp hạng biến là tính toán dễ dàng, tránh
được hiện tượng “quá khớp dữ liệu" và được chứng minh là hiệu quả với một
số tập dữ liệu nhất định Một trong những hạn chế của các phương pháp xếp
hạng là tập con các biến có thể không tối ưu bởi vì trong đó có thể vẫn tồn
tại những biến dư thừa Việc tìm một thuật toán học phù hợp tương đối khókhăn vì không có thuật toán học nền tảng nào cho việc lựa chọn đặc trưng [34]
Ngoài ra, không có phương pháp lý tưởng để lựa chon số chiều của không gian
đặc trưng [35].
1.3.1.2 Các phương pháp bao gói (Wrapper Methods)
Không giống như các phương pháp lọc dựa trên sự phù hợp của đặc trưng,
các phương pháp bao gói phụ thuộc vào hiệu năng của bộ phân lớp để lấy ra tập
con các đặc trưng Các phương pháp bao gói lựa chọn tập con đặc trưng bằngcách sử dụng thuật toán quy nạp như là một hộp đen (tức là không cần kiếnthức về thuật toán mà chỉ cần chỉ ra giao diện) Độ chính xác của bộ phân lớp
17
Trang 31quy nạp được ước lượng xấp xỉ bằng các kỹ thuật ước lượng độ chính xác Bàitoán chính của phương pháp bao gói là tìm kiếm không gian trạng thái và cáccông cụ tìm kiếm khác nhau cho các phương pháp khác nhau [35].
DL kiểm thử
Giảm chiêu DL
DL huấn (Biểu diễn dữ
luyện liệu với tập đặcy¢ as toán tim Tap con trưng tim được)
^⁄
Hình 1.4: Mô hình lựa chọn đặc trưng bằng Phương pháp bao gói
Có nhiều kỹ thuật tìm kiếm khác nhau được sử dụng để tìm tập con các
đặc trưng sao cho hiệu suất phân lớp đạt tối đa, ví dụ như phương pháp nhánh
và cận, thuật toán di truyền, tối ưu bầy đàn Có hai nhánh nghiên cứu thuộchướng này đó là các phương pháp lựa chọn tuần tự và các phương pháp lựa chọntiến hóa
a, Các phương pháp lựa chọn tuần tự
Các phương pháp lựa chọn tuần tự tìm tối thiểu (hoặc tối đa) các đặc trưng
bằng việc lặp lại tiến trình Phương pháp lựa chọn đặc trưng tuần tự (SequentialFeature Selection - SFS) bắt đầu với một tap rỗng và thêm một đặc trưng chobước đầu tiên mà làm tăng hiệu năng của hàm mục tiêu Từ bước thứ hai trở
đi, các đặc trưng còn lại được thêm riêng lẻ vào tập con hiện tại sao cho hiệu
năng của bộ phân lớp là cao nhất Tiến trình này lặp cho đến khi đạt được số
18
Trang 32lượng đặc trưng phù hợp Bằng cách này, tập đặc trưng con tốt nhất sẽ đượcchọn ra va sẽ cho độ chính xác của bộ phân lớp là cao nhất [35] Phương pháplựa chọn tiến-động tuần tự (Sequential Floating Forward Selection - SFFS) linhhoạt hơn so với phương pháp lựa chọn đặc trưng tuần tự khi nó thêm vào một
bước quay lui để có thể quay trở lại tìm các bộ tối ưu phù hợp hơn.
Cả hai phương pháp SFS và SFFS đều phải tạo ra các tập hợp con lồng
nhau gây dư thừa vì theo ý tưởng của phương pháp, hai đặc trưng có độ tương
quan cao sẽ được chèn vào nếu chúng cho độ chính xác cao nhất trong xấp xỉSFS Phương pháp Lựa chọn tiến động tuần tự thích nghi (Adaptive Sequential
Floating Forward Selection - ASFFS) đã được phát triển nhằm tránh được hiệu
ứng lồng nhau [36] Phương thức ASFFS cố gắng tạo ra một tập con có dư thừa
ít hon so với phương pháp SFFS Về mặt lý thuyết, ASFFS sẽ tạo ra một tậphợp con các đặc trưng tốt hơn SFFS, tuy nhiên, trong thực tế ASFFS phụ thuộc
vào hàm mục tiêu và đặc tính của dữ liệu.
b, Các phương pháp lựa chọn tiến hóa
Một phương pháp lựa chọn tiến hóa là một phương pháp mà không phảilúc nào nó cũng đi tìm phương án tốt nhất nhưng chắc chắn tìm ra một giảipháp tốt trong thời gian hợp lý bằng cách chấp nhận hi sinh một số mục tiêu
để gia tăng hiệu quả Mục tiêu của tiễn hóa là tìm ra một phương án trong một khoảng thời gian hợp lý mà nó đủ tốt để giải quyết bài toán Các phương pháp lựa chọn tiến hóa đánh giá các tập con đặc trưng khác nhau để tối ưu hóa hiệu
suất của hàm mục tiêu Các tập con đặc trưng khác nhau được tạo ra bằng cáchtìm kiếm trên không gian tìm kiếm hoặc dựa trên các hàm mục tiêu tối ưu Cácphương pháp tiến hóa dựa trên những ý tưởng của sự tiến hóa sinh học như sinh
sản, đột biến, tái tổ hợp để tìm kiếm giải pháp của bài toán tối ưu Một phương
pháp lựa chọn tiến hóa bao gồm năm bước sau:
Bước 1 Khởi tao và ước tính quần thể (số tập con) ban đầu.
Bước 2 Thực hiện lựa chọn cạnh tranh.
Bước 2 Ấp dụng các phương pháp tiến hóa khác nhau để tạo ra tập ứngviên mdi.
Buéc 4 Uóc lượng các ứng viên đủ tiêu chuẩn.
Bước 5 Lap lại từ Bước 2 cho đến khi một số tiêu chí hội tụ được đáp ứng
Một số phương pháp lựa chọn đặc trưng tiến hóa đã được đề xuất và áp
dụng thành công trong bài toán lựa chon gen Năm 2009, Maugis và cộng sự đã
19
Trang 33thực hiện việc lựa chọn các biến cho bài toán phân cụm với mô hình Gaussianhỗn hợp Trong mô hình của Maugis, không có bất cứ giả định trước nào về liênkết giữa các biến được lựa chọn và các biến bị loại bỏ [37] Ai-Jun và Xin-Yan
giới thiệu phương pháp lựa chọn đặc trưng ngẫu nhiên Bayesian cho bài toán lựa
chọn gen Ai-Jun đã dựa trên các hệ số hồi quy bằng cách sử dụng phương phápchuỗi Markov Monte Carlo trên tập dữ liệu bệnh bạch cầu và đại trang [8] Ji
và cộng sự giới thiệu một phương pháp lựa chọn gen mới dựa trên bình phương
tối thiểu từng phan (Partial Least Squares - PLS) [39] Sharma và cộng sự giới
thiệu một phương pháp hiệu quả trong bài toán lựa chon gen |40| Sharma trướchết chia các gen vào một tap con nhỏ có kích thước h, chọn tập con nhỏ hơn
có kích thước r(r < h) từ các tập con đã chia ban dau Sau đó gdp các gen đã
được chọn với các tập con khác để gia tăng dần kích thước của tập con, lặp
lại tiến trình này cho đến khi tất cả các tập con đã được gộp vào một tập con
bao hàm nhiều thông tin Hiệu quả của phương pháp này đã được thể hiện khi phân tích ba tập dữ liệu biểu hiện gen khác nhau và kết quả thể hiện qua mức
độ liên quan giữa các gen được lựa chọn tốt về chức năng sinh học của chúng
Cadenas và cộng sự đã giới thiệu một phương pháp dựa trên rừng ngẫu nhiên
mờ (Fuzzy Random Forest - FRF) Phương pháp này tích hợp các phương pháp
lọc và phương pháp bao gói thành một thủ tục tìm kiếm tuần tự giúp tăng độ
chính xác của mô hình phân lớp [đI| Năm 2014, Srivastava đã đánh giá hiệu
suất của phương pháp lựa chọn lọc và phương pháp lựa chọn bao gói thông quaviệc xây dựng mô hình phân lớp dựa trên các tập dit liệu ung thư buồng trứng
và ung thư máu [42] Gan đây, Kar va cộng sự đã phát triển một phương pháp
tính toán hiệu quả và nhận diện gen một cách chính xác gọi là "Kỹ thuật xác
định gen dựa trên tối ưu hóa bay dan (Particle Swarm Optimization - PSO)"
[43] Trong nghiên cứu này, Kar đã sử dụng phương pháp kiểm-định-t để giảm
chiều tập dữ liệu và giới thiệu phương pháp tối ưu hóa bầy đàn để tìm ra các
gen hữu ích Ngoài ra PSO còn được sử dụng trong các bài toán khác như phân
Trang 34còn tồn tại khi sử dụng hiệu suất của bộ phân lớp như là hàm mục tiêu dẫn đếncác bộ phân lớp bị "quá khớp dữ liệu" "Quá khớp dữ liệu" sẽ xuất hiện khi bộphân lớp được huấn luyện từ bộ dữ liệu không có sự khái quát hóa Bộ phân lớp
có thể làm sai lệch và làm tăng lỗi khi phân lớp, điều này sẽ dẫn đến một tập con có độ chính xác cao nhưng khả năng tổng quát kém và không phù hợp với tập dữ liệu thực tế Tóm lược các ưu, nhược điểm của các phương pháp bao gói
được mô tả trong Bảng [1.2]
Bảng 1.2: Ưu, nhược điểm của Phương pháp bao gói
Phương pháp | Ưu điểm Nhược điểm
Các phương pháp lựa chọn tuần tự
Dễ dàng mở rộng với bộ phân Dễ bị tối ưu cục bộ.
lớp Phải tạo ngẫu nhiên nhiều.
Ít bị "quá khớp dữ liệu" Bộ phân lớp phụ thuộc vào các
Chi phí tính toán thấp phương pháp.
Xem xét sự phụ thuộc giữa các Phương án không phải là tối ưu
đặc trưng hoàn toàn.
Bao gói Các phương pháp lựa chọn tiến hóa
Ít bị tối ưu cục bộ Chi phí tính toán cao.
Mở rộng được với bộ phân lớp.
Dựa trên các đặc trưng phụ thuộc.
Có độ chính xác cao hơn phương
1.3.1.3 Các phương pháp nhúng (Embedded Methods)
Các phương pháp nhúng khác với hai nhóm phương pháp đã được trình
bày ở trên khi cỗ gắng khắc phục nhược điểm của hai phương pháp trên khi sử dụng các thuật toán học và làm giảm thiểu thời gian tính toán của thuật toán.
Cách tiếp cận chính của phương pháp nhúng là kết hợp việc lựa chọn đặc trưngnhư là một phần của quá trình huấn luyện Phương pháp này không chỉ xemxét mối quan hệ giữa đặc trưng vào và đặc trưng ra mà còn tìm kiếm các đặctrưng cục bộ giúp cho việc phan tách cục bộ tốt hơn [5] Phương pháp nhúng sử
dụng các điều kiện cục bộ để quyết định các tập con tối ưu cho một nhóm đã được xác định Sau đó, thuật toán học sẽ được sử dụng để lựa chọn tập con tối
21
Trang 35DL kiểm thử
Giảm chiêu DL
DL huấn (Biểu diễn đữ
luyện = liệu với tập đặc
—*[_ Thuật toán ML Tập con trưng tìm được)
7
ôi ưu hóa cục
4
Hình 1.5: Mô hình lựa chọn đặc trưng bằng Phương pháp nhúng
ưu giữa các tập con tối ưu của các nhóm khác nhau [44] Phương pháp nhúngđược chia thành ba nhóm: phương pháp cắt tỉa, bộ dựng sẵn và mô hình chínhtác hóa Với phương pháp cắt tỉa, ban đầu tất cả các đặc trưng được đưa vào
quá trình huấn luyện để xây dựng mô hình phân lớp và các đặc trưng có hệ số
tương quan thấp sẽ được loại bỏ Còn với các phương pháp lựa chọn đặc trưngdựa trên bộ dựng sẵn, một phần của pha huấn luyện của các thuật toán học
có giám sát C4.5 và ID3 được sử dung để lựa chọn các đặc trưng Cuối cùng là nhóm mô hình chính tắc hóa, các lỗi được cực tiểu hóa sử dụng hàm mục tiêu
và các đặc trưng với các hệ số tương quan gần với 0 sẽ được loại bỏ [35]
Có nhiều kỹ thuật lựa chọn đặc trưng nhúng được đề xuất và được ứngdung rộng rãi trong các nghiên cứu về gen và protein Niijima và Okno giới
thiệu một phương pháp lựa chọn đặc trưng không có giám sát gọi là LLDA-RFE
(LLDA based Recursive Feature Elimination) được phát triển từ phương pháp
phân tích phân tách tuyến tinh Laplacian bằng cách loại bỏ đệ quy Phương phápnày đã áp dụng thành công trên một số tập dữ liệu ung thư [45] Maldonado
và cộng sự đã giới thiệu một phương pháp chọn các đặc trưng liên quan đồng
22
Trang 36thời với việc xây dựng bộ phân lớp bằng cách xử phạt mỗi đặc trưng khi sử
dụng chúng trong công thức kép của máy vector hỗ trợ Phương pháp này được gọi là phat-nhan máy vector hỗ trợ (LLDA based Recursive Feature Elimination
SVM - KP-SVM) khi nó tối ưu hóa hình dạng của nhân cơ sở radian (Radial
Basis Function - RBF) không đẳng hướng và loại bỏ các đặc trưng có mức độ
liên quan thấp với bộ phân lớp [46] Xiang và cộng sự đã giới thiệu một phương
pháp hồi quy bình phương tối thiểu phân tách (Least Squares Regression - LSR)
cho bài toán phan lớp đa nhãn và lựa chọn đặc trưng [47] Một hướng khác cũng
đang được quan tâm nghiên cứu đó là tích hợp nhiều nguồn dữ liệu trong các
bài toán Điển hình như Liang sử dụng thuật toán k-láng giéng gần nhất cho
bài toán dự đoán chức năng Liang tìm k-láng giềng gần nhất của một truy vấn
protein dựa trên các loại khác nhau của độ đo sự tương tự và dự đoán chức năng
của nó bởi trọng số trung bình của những láng giềng của protein đó [48] Cao
và cộng sự giới thiệu một phương pháp lựa chọn đặc trưng nhanh dựa trên đa
mô tả dit liệu vector hỗ trợ (Support Vector Data Description - SVDD) va ap
dụng trên tập dữ liệu microarray đa nhãn [49] Năm 2019, Zhang và các cộng
sự đã đề xuất một phương pháp nhúng kết hợp giữa mạng nơ ron và hình phạtnhóm Lasso, phương pháp đã có kết quả tốt với một số bộ dữ liệu y sinh [50]
Bảng 1.3: Ưu, nhược điểm của Phương pháp nhúng
Phương pháp | Ưu điểm Nhược điểm
Dễ dàng mở rộng với bộ phân lớp Bộ phân lớp phụ thuộc vào việc lựa
Mô hình đặc trưng phụ thuộc có độ | chọn.
phức tạp tính toán tốt hơn so với | Cần xem xét sự phụ thuộc giữa các
phương pháp bao gói đặc trưng.
Lựa chọn đặc trưng là phương pháp giảm chiều dữ liệu phổ biến khi phân
tích dữ liệu microarray bởi vì sự đơn giản của phương pháp Tuy nhiên, lựa chọn
đặc trưng còn tồn tại 2 nhược điểm lớn Một là, nhiều thông tin chứa trong dữ
liệu sẽ bị mất vì hầu hết các gen sẽ bị loại khi thực hiện giảm chiều Hai là, sựtương tác và tương quan giữa các biến thường bị bỏ qua Một số thủ tục phức
23
Trang 37tạp cố gắng loại bỏ hạn chế này bằng cách lựa chọn các tập con tối ưu dựa trên
một số tiêu chí cụ thể thay vì lọc ra các biến có sự liên quan thấp đến mô hình.
Tuy nhiên, các phương pháp này thường gây ra tác dụng phụ như "quá khớp
dv liệu" khi tap con đặc trưng có thể tối ưu trên tập dữ liệu huấn luyện nhưng không có kết quả tốt trên dữ liệu kiểm thử độc lập Hơn nữa, các phương pháp này dựa trên các thuật toán lặp đi lặp lại các tính toán phức tạp nên khó để
giải thích.
1.3.2 Trích chọn đặc trưng
Phương pháp trích chọn đặc trưng còn có tên gọi khác là "Xây dựng đặc
trưng" hoặc "Chiếu lên không gian có số chiều thấp" Phương pháp này biến đổi
đặc trưng gốc thành các đặc trưng mới trong không gian thấp chiều, theo cách
này bài toán sẽ được biểu diễn lại trong một không gian có phân tách tốt hơn,
điều này giúp cho việc phân tích về sau có hiệu quả hơn Có hai loại phươngpháp trích chọn đặc trưng là tuyến tính và không tuyến tính (phi tuyến tính)
Các phương pháp tuyến tính thường nhanh hơn, chắc chắn hơn và có thể giải
thích được hơn so với các phương pháp không tuyến tính Tuy nhiên, các phương
pháp phi tuyến có thể đôi khi được sử dụng cho các cấu trúc dữ liệu phức tạp khi các phương pháp tuyến tính không thể phân tách được.
1.3.2.1 Phương pháp trích chọn đặc trưng tuyến tính
Trích chọn tuyến tính giả sử dữ liệu được phân tách tuyến tính trong không
gian phụ có số chiều thấp hơn sau đó biến đổi dữ liệu trên không gian phụ bằng phương pháp hệ số số ma trận Phương pháp trích chọn được sử dụng phổ
biến nhất là phương pháp phân tích thành phần chính (Principal Component
Analysis - PCA) [ỗI| PCA sử dụng ma trận hiệp phương sai cùng giá trị riêng
và vector riêng của nó để tìm các "thành phần chính" trong dữ liệu Thành
phần chính là các vector riêng không tương quan với nhau, mỗi thành phầnchính minh họa cho một tỉ lệ phương sai trong dữ liệu PCA và một số phương
pháp mở rộng từ PCA đã được áp dụng để giảm chiều dữ liệu cho tập dữ liệu
microarray của bệnh ung thu và tập dit liệu ảnh Các phương phap trên đã có
những tác dụng đáng kể trong việc xác định các đặc trưng quan trọng của dữliệu Một trong những điểm yếu của PCA là không xác định được mối quan hệ
phi tuyến tính tồn tại trong tập dữ liệu có số chiều cao, đặc biệt là các hệ thống
24
Trang 38sinh học phức tap [19] Ngoài PCA, một số phương pháp trích chọn tuyến tính
khác như tỉ lệ đa chiều cổ điển (Classical Multidimensional Scaling - MDS) hoặc
phân tích tọa độ chính (Principal Coordinates Analysis) được xây dựng dựa trên
ước lượng ma trận không đồng dạng cho bất cứ ma trận nào Các phương pháp
này đã được sử dụng cho tập dữ liệu biểu hiện gen có số chiều cao bởi vì chúng
hữu ích trong việc kết hợp với lượng tử vector hoặc K-means nhằm gán các mẫu
vào các lớp trong tổng số k lớp [52].
1.3.2.2 Phương pháp trích chọn đặc trưng không tuyến tính
Có nhiều nghiên cứu về các phương pháp trích chọn đặc trưng không tuyến
tính Phổ biến nhất có phương pháp hàm nhân thường được sử dụng hiệu quả trong các tập dữ liệu biểu hiện gen Kernel-PCA là một phương pháp hàm nhân
quan trọng trong nhóm này và được sử dung rộng rãi trên tập dữ liệu sinh hoc
và các bài toán trong lĩnh vực khác Các phương pháp khác sử dụng đa
tạp (manyfolds) cũng được đề xuất Các phương pháp này xây dựng dựa trêngiả thuyết là tồn tại phân tách tuyến tính cho tập dữ liệu (các gen được quantâm) trên không gian có số chiều thấp hơn so với không gian gốc ban đầu Cónhiều phương pháp theo hướng này được đề xuất và áp dụng thành công khigiảm chiều tập dữ liệu microarray như Nhúng tuyến tính cục bộ (Locally Linear
Embedding - LLE), Laplacian Eigenmaps - LE [53] Phương pháp Ánh xạ tự tổ
chức (Self-organizing maps - SOM) cũng được sử dụng để giảm chiều cho tập
dữ liệu biểu hiện gen, phân đoạn/phân lớp ảnh nhưng không thường được sử
dụng trong phân tích thực tế vì phương pháp này cần sử dụng lượng lớn dữ
liệu chính xác để cho kết quả tốt [54] SOM cho phân tách tốt hơn so với LLE, nhưng Kernel-PCA chạy nhanh hơn đáng kể so với hai phương pháp trên Tuy nhiên, Kernel-PCA có nhược điểm lớn là không gian tính toán phức tạp khi lưu
trữ tất cả các tích trong của tập huấn luyện và làm cho kích thước của ma trận
là bậc hai so với số lượng điểm dữ liệu Phương pháp Phân tích thành phần
độc lập (Independent Component Analysis - ICA) được đề xuất bởi Hyvarinen
[55] để giải các bài toán điển hình của các mô hình phi Gaussian và đã được
áp dụng thành công trên nhiều lĩnh vực khác nhau Ý tưởng của ICA tương tự
như ý tưởng của PCA PCA ánh xạ dữ liệu sang một không gian khác với sự
trợ giúp của thành phần chính còn ICA tìm biểu diễn tuyến tính của dữ liệu
phi Gaussian sao cho các thành phần được trích xuất độc lập về mặt thống kê(56) [57] [58] ICA tìm sự tương quan và không tương quan trong dữ liệu bằng
cách tối đa hóa hoặc tối thiểu hóa thông tin tương phản ICA có thể áp dụng
25
Trang 39kết hợp với PCA và cho kết quả tốt hơn khi hoạt động độc lập Nam 2016, Ha
và các cộng sự đã đề xuất một phương pháp cải tiến nhân cho phương phápKernel PCA và áp dụng vào bài toán phân lớp bệnh ung thu [59] Ngoài ra, hiệnnay một hướng nghiên cứu mới hiện nay là tích hợp đữ liệu từ nhiều nguồn khácnhau kết hợp giảm chiều dữ liệu được đề xuất bởi Lin gọi là MKL-DR (Multiple
Kernel Learning and Dimensionality Reduction) trong |60].
Bảng 1.4: Ưu, nhược điểm của Phương pháp trích chon đặc trưng
Phương pháp Ưu điểm Nhược điểm
Khả năng phân tách dữ liệu tốt | Giảm tính hiểu được của dữ liệu.
Trích chọn đặc trưng | Kiểm soát được vấn đề "quá | Chi phí chuyển đổi tốn kém.
khớp dữ liệu".
Các phương pháp trích chọn đặc trưng kiểm soát được vấn đề "quá khớp
dữ liệu" tốt hơn so với lựa chọn đặc trưng đối với tập dữ liệu không có nhãn.Các đặc trưng được trích xuất cũng có độ phân tách cao hơn và đem lại độ chính
xác cao hơn cho các mô hình phân lớp Nhưng đôi khi, qua quá trình biến đổi
sẽ làm giảm tính hiểu được của dữ liệu, ngoài ra việc biến đổi cũng đòi hỏi chi
phí tính toán cho các loại dữ liệu khác nhau |61].
Trong những năm gần đây, phương pháp phân tích dữ liệu y sinh dựa trênhọc sâu (deep learning) đã có nhiều kết quả rất tích cực đóng góp vào giải quyếtcác bài toán y sinh học, trong đó, giảm chiều dữ liệu được xây dựng là một phankiến trúc quan trọng Trong kiến trúc của phương pháp học sâu, bộ tự mã hóa
sâu (Deep Autoencoder) là một mạng nơ ron nhân tạo được dùng để học cách
mã hóa dữ liệu theo cách học không có giám sát [62] Mục tiêu của một bộ tự
mã hóa là học các đặc trưng (đã được mã hóa) từ một tập dữ liệu ban đầu bằngcách huấn luyện mạng nơ ron bỏ qua các tín hiệu “lỗi” [63] Do đó, Bộ tự mãhóa sâu còn được coi là bước giảm chiều dữ liệu Bộ tự mã hóa sâu được thiết
kế để tìm hiểu các mối quan hệ phi tuyến tính phức tạp giữa các điểm dữ liệu.
Hoc sâu được ứng dung rộng rãi trong tất cả các loại dữ liệu y sinh học như dit
liệu sinh học phân tử, dữ liệu sóng, dữ liệu ảnh y tế [64], một số ứng dụng điển hình gần đây như: sử dụng bộ tự mã hóa sâu để phân loại các tín hiệu điện não sau khi các đặc điểm như vị trí, thời gian và tần số được trích xuất bằng mạng
nơ ron tích chap [65], bộ tự mã hóa sâu được sử dụng để trích xuất các đặc điểm
để chuẩn đoán và phân loại ung thư cùng với việc xác định các gen liên quan từ
đữ liệu biểu hiện gen [66], một mô hình học dựa trên bộ tự mã hóa sâu được sử
26
Trang 40dụng để tái tạo lại cấu trúc protein [67], sử dụng bộ tự mã hóa sâu tích chập để chuẩn đoán bệnh Alzheimer dựa trên ảnh chụp cộng hưởng từ [68|,
1.3.3 Phương pháp lai
Gần đây, các phương pháp lai được đề xuất và sử dụng rộng rãi Huang
và cộng sự đã kết hợp những ưu điểm của cả phương pháp trích chon/loc và phương pháp bao gói [69] Mô hình phương pháp Lai được thể hiện trong Hình
Thuật toán toán tìm R (Biêu diễn
tìm kiếm Tập kid Tap dữ liệu với
om con tap dac trung
con
dac Tap Đánh đặc tìm được)trưng đặc giá dựa trưng - -
chokết trưng | |trên độ cho ket Tập con đặc
chính quả trưng cho kêt xác huấn quả huân luyện
Nội dung quả con
Hình 1.6: Mô hình lựa chon đặc trưng bằng Phương pháp lai
Một phương pháp lai thường gồm hai bước, đầu tiên, một phương pháp
trích chọn/lựa chọn được sử dụng để xác định các đặc trưng phù hợp nhất của tập dữ liệu Sau đó, sử dụng một phương pháp bao gói để xác minh lại tập con
đặc trưng phù hợp nhất đã xác định ở bước trước nhằm tăng độ chính xác của
bộ phân lớp [70| [71] Phương pháp này sử dụng các điều kiện đánh giá trongcác giai đoạn tìm kiếm khác nhau nhằm tăng hiệu quả và độ chính xác của bộphân lớp Hiệu suất tính toán cũng được cải thiện khi các phương pháp bao gói
27