Luận án tiến sĩ Hệ thống thông tin: Nghiên cứu một số phương pháp giảm chiều dữ liệu, ứng dụng trong bài toán phân lớp bệnh nhân

Trong lĩnh vực y sinh học, giảm chiều dữ liệu đã được ứng dụng rộng rãivào trong một số kỹ thuật xử lý dữ liệu như: giảm chiều dữ liệu các tập dữ liệu sinh học phân tử đơn lẻ; sử dụng cá

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

—+——

GIANG THÀNH TRUNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP

GIAM CHIEU DU LIEU, UNG DUNG TRONG

BAI TOAN PHAN LGP BENH NHAN

LUAN AN TIEN SI HE THONG THONG TIN

Trang 2

DAI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———+%_———

GIANG THÀNH TRUNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP

GIẢM CHIEU DU LIEU, GNG DỤNG TRONG

BAI TOAN PHAN LGP BENH NHAN

Chuyên ngành: Hệ thống thông tin

Mã số: 9480104.01

LUẬN ÁN TIỀN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS TS TRAN DANG HUNG

2 TS LE NGUYEN KHOI

Trang 3

1.4 |Một số thách thức đặt ra khi giảm chiều dit liệu y sinh học

1.5./Van đề nghiên cứu của luận án| 301.6 Kiến thức nền tảng chung| - -. 30

1.6.1.|Đánh giá kết quả thực nghiệm| 30

Trang 4

2.1 |Giới thiỆN| c2 2020221221121 n HE ng ng nh nh nha 42 2.2 [Kiến thức nền tảng| c 22221222 hi 43

PHÂN LỚP BỆNH NHÂN DỰA TRÊN PHƯƠNG PHÁP

PHAN TÍCH THÀNH PHAN CHÍNH TANG CƯỜNG 76

3.1 |Giới thiỆNÌ eee reer nn nhe nhe nhe nho 77

ii

Trang 5

3.2.|Phương pháp phân tích thành phần chính| 78

3.2.1 |Giới thiệuÌ 20022220211 n nhà 78

3.2.2.|Phương pháp PCA| Q2 na 80

3.4.2 Phân lớp dựa trên Hoc da ham nhân| 96

3.5 [Thực nghiệm và kết quải| - ce eters 97

Trang 6

Danh sách hình vẽ

điều trị

"Ăn Se

tương ứng vdi giá trị của véc tơ 8 được trả vé của thuật toán)

2.5 So sánh độ chính xác của bộ phân lớp trên từng tập dữ liệu

2.6 Đường cong ROC so sánh các mô hình phân lớp| 67

27 So sánh thời gian thực hiện khi số lần lặp là 20 với kích thước

tập di liệu khác nhau

2.8 Mô hình tiền xử lý dữ liệu ảnh cộng hưởng từ bệnh nhân Alzheimer| 71

3.1 Ví dụ về đo thông tin dựa trên phương sail 79

3.2 Minh họa ý tưởng phương pháp PCA|L 80

3.3 Ý tưởng chính của phương pháp PCA| 81

1V

Trang 7

3.6 Mô hình tiền xử lý tập dữ liệu biểu hiện gen dựa trên RPCA

tập dữ liệu bệnh ung thư

3.7 Biểu đồ đường cong ROC của các mô hình phân lớp trên từng

Trang 8

Danh sách bảng

11 Ưu, nhược điểm của Phương pháp lọc|_ - 17

1.2 Ưu, nhược điểm của Phương pháp bao gói| 21

1.3 Ưu, nhược điểm của Phương pháp nhúng 23

1.4 Ưu, nhược điểm của Phương pháp trích chọn đặc trưng| 26

15 Ưu, nhược điểm của Phương pháp lai - 29

1.6 Bảng minh họa kết quả dự đoán| - 31

3.2 Do chính xác của các bộ phân lớp giữa các tập dữ liệu gốc và các

tập dữ liệu được tiền xử lý dựa trên RPCA

3.3 Độ chính xác của các mô hình phân lớp tích hợp từ 2, 3 bộ phan

lớp thành phần

vì

Trang 9

Giá trị AUC của các mô hình phân lớp

vii

Trang 10

Thuật ngữ và từ viết tắt

Từ viết tắt | Từ gốc Giải nghĩa - Tạm dịch

AD Alzheimer Disease Bệnh Alzheimer

ADNI Alzheimer’s Disease Neroimag- | Sáng kiến chan đoán và điều

ing Initiative trị bệnh Alzheimer dựa trên

fMKL-DR Fast Multiple Kernel Learning | Học đa hàm nhân kết hợp

for Dimensionality Reduction | giảm chiều dữ liệu nhanh

GBM Glioblastoma Multiforme Bệnh ung thư não

KNN K-Nearest Neighbors K láng giềng gần nhất

LUNG Lung Squamous Cell Carci- | Bệnh ung thư phổi

noma

MCMO Matrix Chain Multiplication | Thủ tục tính thứ tự nhân

Ordering Proceduce tích chuỗi ma trận tối ưu

MKL Multiple Kernel Learning Hoc da ham nhan

MKL-DR Multiple Kernel Learning for | Học đa hàm nhân kết hợp

Dimensionality Reduetion giảm chiều dữ liệu

ML Machine Learning Học máy

MMSE Mini Mental State Examina- | Trắc nghiệm trí tuệ

tion

MRI Magnetic Resonance Imaging Anh chụp cộng hưởng từ

OV Ovarian Serous Cytadenocarci- | Bệnh ung thư biểu mô

noma buồng trứngPCA Principal Component Analysis | Phan tích thành phần chính

rMKL-DR Regularized Multiple Kernel

Learning for Dimensionality Reduction

ROC Receiver Operating

Character-istic

ROI Regions of Interest Vùng được quan tâm

RPCA Robust Principal Component | Phân tích thành phần chính

Analysis tăng cường

SDP Semidefinite Programming

SVD Singular Value Decomposition

viii

Trang 11

SVM Support Vector Machine Máy vector hỗ trợ

ix

Trang 12

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự

hướng dẫn của PGS.TS Trần Dăng Hưng và TS Lê Nguyên Khôi tại bộ môn

Hệ thống thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ,Đại học Quốc gia Hà Nội Các số liệu và kết quả trình bày trong luận án làtrung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình

nào khác.

Tác giả

Trang 13

Lời cảm ơn

Trước tiên tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy giáo,PGS.TS Trần Đăng Hưng - người thầy đã hướng dẫn, khuyến khích, truyềncảm hứng, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu làmnghiên cứu sinh đến khi hoàn thành luận án Toi xin cẩm ơn thay giáo, TS Lê

Nguyên Khôi - người thầy hướng dẫn đã luôn khuyến khích, động viên tôi để tôi có thể hoàn thành luận án Toi xin cám ơn Tiến sĩ Nguyễn Thanh Phương,

Trường Đại học Luxemburg - người đã chia sẻ với tôi nhiều kiến thức và kinh

nghiệm trong nghiên cứu khoa học để tôi có thể hoàn thành luận án này

Tôi xin chân thành cảm ơn các thầy cô giáo khoa Công nghệ thông tin,Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy

Cô trong Bộ môn Các Hệ thống thông tin đã tận tình đào tạo, cung cấp chotôi những kiến thức vô cùng quý giá, đã tạo điều kiện tốt nhất cho tôi về môitrường làm việc trong suốt quá trình học tập, nghiên cứu tại Trường

Tôi xin chân thành cảm ơn Khoa Công nghệ Thông tin, Trung tâm Tính

toán khoa học, Trường Dại học Sư phạm Hà Nội đã tạo điều kiện về môi trường

làm việc và hỗ trợ hệ thống tính toán để giúp tôi hoàn thành nghiên cứu này.

Đồng thời tôi xin chân thành cảm ơn các đồng nghiệp trong Phòng Bảođảm chất lượng và Thanh tra Pháp chế, Khoa Khoa học Tự nhiên - Công nghệ

thuộc Trường Đại học Tây Bắc, Công ty cổ phần Đầu tư GCL đã tạo mọi điều

kiện, bố trí thời gian tốt nhất dành cho tôi trong suốt quá trình làm nghiên cứu

sinh.

Tôi xin cảm ơn Công ty TNHH Đầu tư và Phát triển đô thị Gia Lâm thuộcTập đoàn Vingroup và hỗ trợ bởi Quỹ Đổi mới sáng tạo Vingroup (VINIF) trong

Dự án mã số VINIF.2019.DA18 đã tài trợ cho tôi thực hiện nghiên cứu này.

Cuối cùng, tôi xin chân thành cảm ơn những người thân trong gia đình

cùng toàn thể bạn bè đã luôn giúp đỡ, động viên tôi những lúc gặp phải khó

khăn trong suốt quá trình học tập và nghiên cứu.

xi

Trang 14

MỞ ĐẦU

Đặt vấn đề

Trong thập kỷ vừa qua, ngành khoa học sự sống và thực nghiệm đã trải qua

một cuộc cách mạng với sự phát triển nhanh chóng của các thiết bị thí nghiệm

và thiết bị đo công nghệ cao Cùng với sự phát triển đó, lượng dit liệu được do

đạc, lưu trữ và xử lý ngày càng lớn trên tất cả các lĩnh vực của đời sống xã hội,

đặc biệt trong lĩnh vực y sinh học đã có sự phát triển vượt bậc về dữ liệu khitạo ra một lượng lớn dữ liệu, như dữ liệu gen, protein, dữ liệu chuyển hóa, dữ

liệu dược lý, dữ liệu lâm sàng [I] Nhiều bộ dữ liệu y sinh học có sự gia tăng

nhanh chóng về kích thước, độ phức tạp cũng như cách biểu diễn (ảnh, vector

số, video, văn ban) [2] Nguồn dữ liệu này là cơ sở cho việc phân tích và đề xuất

trong các hệ thống trợ giúp ra quyết định hỗ trợ cho các hoạt động chẩn đoán

và chữa trị các bệnh do chúng là thông tin phản ánh khách quan các hoạt động

đã xảy ra trong chính các cơ quan của cơ thể.

Dữ liệu ở dạng thô được xử lý, biến đổi, tính toán và chuyển hóa thành tri thức để trở nên hữu ích nhằm hỗ trợ ra quyết định Tuy nhiên, một trong các

thách thức đối với các phương pháp xử lý dữ liệu đó là các tập dữ liệu hiện nay

có số chiều (hay còn gọi là đặc trưng, thuộc tính hoặc biến) rất lớn Trong nhiềutrường hợp, các bộ dữ liệu có số chiều lên tới hàng nghìn, hàng triệu chiều Cụ

thể, một tập dữ liệu microarray của một loại sinh vật có số lượng gen thường

từ vài nghìn đến vài chục nghìn gen, mỗi gen được coi như một chiều (biến) khi

biểu diễn dữ liệu trong các bài toán Số lượng chiều lớn kéo theo đòi hỏi chi phí tính toán lớn, dẫn đến các phương pháp phân tích gặp nhiều khó khăn để đáp

ứng yêu cầu về thời gian phản hồi khi đưa vào trong các bài toán thực tế Khi

đó, một bước tiền xử lý được đề xuất là giảm chiều dữ liệu nhằm giảm số lượng

biến để phù hợp với các hệ thống máy tính và giảm thời gian thực hiện thuật

toán [3].

Trang 15

Giảm chiều dữ liệu được hiểu là từ một tập dữ liệu gốc ban đầu, áp dụng các phương pháp phân tích để giảm rất nhiều đặc trưng của dữ liệu sao cho vẫn

giữ lại được bản chất thông tin của tập dữ liệu đó Hiện nay, giảm chiều dữ liệu

đã trỏ thành một bước kỹ thuật cần thiết nhằm biến đổi dữ liệu gốc ban đầu bằng cách giảm đặc trưng để phù hợp với số mẫu và các mô hình tính toán ở

bước tiếp theo Trong nhiều năm qua, hướng nghiên cứu về giảm chiều dit liệuluôn thu hút được sự quan tâm của các nhà nghiên cứu và thực tế đã có nhiềuphương pháp giảm chiều dữ liệu đã được đưa ra nhằm giải quyết thách thức nêu

trên ñð| Có hai hướng tiếp cận chính để giảm chiều dữ liệu là lựa chọn đặc

trưng và trích chọn đặc trưng Lựa chọn đặc trưng giảm chiều bằng cách lựachon một tập con đặc trưng từ tập đặc trưng gốc sao cho tập dữ liệu từ tập con

đặc trưng vẫn phản ánh được bản chất thông tin nhiều nhất có thể so với tập

dữ liệu ban đầu Trích chọn đặc trưng giảm chiều dựa trên việc biến đổi tập đặc

trưng gốc thành một tập đặc trưng mới trong không gian thấp chiều sao cho tối

thiểu hóa mất mát thông tin so với tập dữ liệu ban đầu.

Trong lĩnh vực y sinh học, giảm chiều dữ liệu đã được ứng dụng rộng rãivào trong một số kỹ thuật xử lý dữ liệu như: giảm chiều dữ liệu các tập dữ liệu

sinh học phân tử đơn lẻ; sử dụng các phương pháp giảm chiều dữ liệu để trích

rút các thông tin hữu ích trong các tập dữ liệu sinh học phân tử, dữ liệu ảnh

y tế; kết hợp đồng thời giảm chiều dữ liệu và tích hợp các tập dữ liệu sinh họcphân tử, Từ tiền xử lý dữ liệu, các phương pháp giảm chiều dữ liệu đã gián

tiếp góp phần đáng kể trong việc nâng cao hiệu quả giải quyết các bài toán y

sinh học, trong đó có bài toán phân lớp bệnh nhân Phân lớp bệnh nhân đóng

vai trò quan trọng, góp phần nâng cao hiệu quả trong chẩn đoán và điều trị

bệnh nhân tại các cơ sở y tế [ổ [7] [8] Thông qua việc chia bệnh nhân thành các

lớp bệnh nhân khác nhau dựa trên đặc điểm sinh học và tình trạng bệnh, các

cơ sở y tế sẽ kịp thời chan đoán phát hiện và xác định tinh trạng bệnh để có

các phác đồ điều trị phù hợp với từng nhóm bệnh nhân khác nhau nhằm nângcao hiệu quả của việc điều trị

Tuy nhiên, cùng với sự phát triển của ngành khoa học dữ liệu, các tap dữ

liệu hiện nay trở nên rất đa dạng, có cấu trúc và mối quan hệ phức tạp, đặc biệt

là có kích thước ngày càng lớn và được biểu diễn bởi nhiều độ đo khác nhau,

đặc biệt là dữ liệu y sinh học Do đó, các nghiên cứu giảm chiều dữ liệu cũngphải đối mặt với các thách thức mới xuất hiện, bao gồm: Một là, các tập dữliệu gồm nhiều dữ liệu nhiễu, thưa và ngoại lai, nếu phân tích chung với dữ liệuthông thường sẽ cho ra kết quả không chính xác Thách thức này thường xảy

Trang 16

ra với các tập dữ liệu sinh học phân tử Hai là, các loại dữ liệu sinh học phân

tử khác nhau đều chứa những thông tin hữu ích về vai trò của các phân tử đốivới bệnh tật, do đó một nhu cầu bức thiết là tích hợp các nguồn dữ liệu có ý

nghĩa đồng thời với giảm chiều dữ liệu để tạo ra tập dữ liệu tích hợp mang đầy

đủ thông tin nhưng vẫn phù hợp với các mô hình, công cụ tính toán hiện tại |9|.

Tuy nhiên, bản thân mỗi loại dữ liệu đã có kích thước lớn, ngoài ra, mỗi loại dữ

liệu sử dụng những độ đo khác nhau, do đó, việc tích hợp dữ liệu cũng còn tồntại nhiều thách thức [10] Những thách thức trên đây đòi hỏi cần sớm được giải

quyết nhằm xây dựng được các phương pháp kịp thời đáp ứng với sự thay đổi

phức tạp ngày càng tăng của dữ liệu.

Từ những phân tích nêu trên, tác giả chọn thực hiện luận án Nghiên cứu

một số phương pháp giảm chiều dữ liệu, ứng dụng trong bài toán phân

lớp bệnh nhân làm đề tài nghiên cứu tiến sĩ của mình Thông qua nghiên cứunày, luận án tập trung vào giải quyết một số vấn đề lớn sau:

Thứ nhất, nghiên cứu về các phương pháp giảm chiều dit liệu đã được đề

xuất, xác định ưu, nhược điểm của các phương pháp đã được đề xuất trong lĩnh vực y sinh, từ đó làm tiền đề để đề xuất những cải tiến nhằm nâng cao hiệu quả

của các phương pháp giảm chiều dữ liệu

Thứ hai, nghiên cứu cụ thể về hai phương pháp giảm chiều hiệu quả dựa

trên học đa hàm nhân và phân tích thành phần chính tăng cường Trong đó,học đa hàm nhân là việc học một nhân từ nhiều hàm nhân hoặc ma trận nhân

cơ sở, học đa hàm nhân được ứng dụng hiệu quả trong việc tích hợp dữ liệu.

Ngoài ra, phương pháp phân tích thành phần chính tăng cường là phương phápgiảm chiều dit liệu được mở rộng từ phương pháp phân tích thành phần chínhnhằm thích ứng với dữ liệu ngoại lai, nhiễu, và thưa Từ phân tích ưu, nhược

điểm của các phương pháp trên, luận án đề xuất cải tiến nhằm nâng cao hiệu

quả của phương pháp.

Thứ ba, áp dung các phương pháp đã nghiên cứu vào xây dựng các mô

hình phân lớp bệnh nhân để khẳng định tính ứng dụng cũng như hiệu quả của

phương pháp Đặc biệt chú ý đến việc tích hợp dữ liệu từ nhiều nguồn khácnhau nhằm tận dụng sự phong phú của các nguồn dữ liệu cũng như thông tin

hữu ích trong đó.

Trang 17

Câu hỏi nghiên cứu

Từ những hạn chế và thách thức cần đối mặt của các phương pháp giảm chiều dữ liệu hiện nay, luận án đặt ra một số câu hỏi nghiên cứu sau:

1 Làm sao để để khắc phục những tồn tại của phương pháp tích hợp dữ liệu

kết hợp giảm chiều dữ liệu?

2 Làm sao để ứng dụng phương pháp phân tích thành phần chính tăng cường

trong giảm chiều dữ liệu y sinh học?

3 Làm sao để ứng dụng các phương pháp giảm chiều dữ liệu vào giải quyết

bài toán phân lớp bệnh nhân?

Mục tiêu của luận án

Luận án tập trung nghiên cứu về các phương pháp giảm chiều dữ liệu nói

chung và cụ thể về các phương pháp giảm chiều dữ liệu được ứng dụng trong

lĩnh vực y sinh học nói riêng Trong đó, tập trung vào hai hướng nghiên cứu vềphương pháp giảm chiều dit liệu kết hợp tích hợp dữ liệu và phương pháp giảmchiều dữ liệu đối với các tập dữ liệu ngoại lai Từ đó, luận án đặt ra ba mục tiêulớn cần đạt được như sau:

1 Đề xuất cải tiến phương pháp tích hợp dữ liệu kết hợp giảm chiều dữ liệu

2 Nghiên cứu vận dụng phương pháp phân tích thành phần chính tăng cường

trong giảm chiều đữ liệu y sinh học

3 Dé xuất mô hình phân lớp bệnh nhân ứng dụng các phương pháp giảm

chiều đã nghiên cứu nhằm tạo ra một công cụ hỗ trợ quá trình chan đoán

và điều trị bệnh

Nội dung, đối tượng và phạm vi nghiên cứu

Để đạt được các mục tiêu nghiên cứu trên, luận án thực hiện nghiên cứu

các nội dung trên các đối tượng và phạm vi sau:

Trang 18

e Nghiên cứu về phương pháp giảm chiều dữ liệu kết hợp tích hợp dit liệu, cụ

thể là Phương pháp học đa hàm nhân kết hợp giảm chiều dữ liệu.

e Nghiên cứu phương pháp Phân tích thành phần chính tăng cường và ứng

dung trong giảm chiều dữ liệu với tap dữ liệu ngoại lai

e Phát triển các thuật toán mới nhằm nâng cao hiệu quả của các phương

pháp đã nghiên cứu, góp phần tăng tính ứng dụng của các phương pháp

đó.

e Nghiên cứu các bài toán phân lớp bệnh nhân, đề xuất các mô hình phân

lớp bệnh nhân dựa trên các phương pháp đã nghiên cứu và đề xuất nhằm

nâng cao hiệu quả phân lớp bệnh nhân.

Phương pháp nghiên cứu

* Nghiên cứu ly thuyết

e Cơ sở lý thuyết về giảm chiều dữ liệu, tích hợp dit liệu và kết hợp giữa giảm

chiều dữ liệu và tích hợp dữ liệu

e Cơ sở lý thuyết về giảm chiều dữ liệu dựa trên phương pháp Phân tích

thành phần chính, Phân tích thành phần chính tăng cường

e Cơ sở lý thuyết về bài toán phân lớp bệnh nhân, các đóng góp của giảm

chiều dit liệu vào bài toán phân lớp bệnh nhân

e Cơ sở lý thuyết về một số độ do được sử dung để đánh giá hiệu quả của các

phương pháp phân lớp.

e Cơ sở lý thuyết về xây dựng mô hình phân lớp bệnh nhân

* Nghiên cứu giả thuyết đưa ra các giả thuyết mới dựa trên các kết quả

phân tích, từ đó xây dựng các phương pháp cải tiến và chứng minh giả thuyết

làm cơ sở kiểm định tính hiệu quả của phương pháp cải tiến.

* Nghiên cứu thực nghiệm

e Cài đặt các công cụ tiền xử lý dữ liệu bằng ngôn ngữ lập trình C#.

e Cài đặt các thuật toán huấn luyện giảm chiều dữ liệu bằng ngôn ngữ lập

trình Matlab.

Trang 19

* Nghiên cứu định lượng

* Dánh giá định lượng hiệu quả của các phương pháp dựa trên số liệu thu

được sau khi thực nghiệm.

Các đóng góp chính của luận án

Luận án sau khi được thực hiện đã có ba đóng góp chính sau:

1 Xuất phát từ những tồn tại của phương pháp học đa hàm nhân kết hợp

giảm chiều dữ liệu (MKL-DR - Một phương pháp phù hợp và hiệu quảtrong tiền xử lý dữ liệu y sinh học) là đòi hỏi chi phí về mặt thời gian lớn

do trong thuật toán lặp đi lặp lại việc tính tích chuỗi ma trận Luận án

đã đề xuất một phương pháp cải tiến của phương pháp MKL-DR gọi là

fMKL-DR nhằm giảm đáng kể chi phí về thời gian tính toán mà vẫn giữ

được hiệu quả của phương pháp Kết quả này được công bố trong bài báo

[(GTTrung-1]] và |[G T Trung-2|

2 Dựa trên phương pháp fMKL-DR đã đề xuất ở trên, luận án đề xuất mô

hình phân lớp bệnh nhân gồm:

e Mô hình tích hợp dữ liệu bệnh nhân ung thư từ các nguồn dữ liệu khác

nhau và thực hiện phân lớp bệnh nhân ung thư hiệu quả Kết quả phânlớp khi thực nghiệm trên mô hình đề xuất nằm trong ngưỡng tốt, kết

quả này đóng góp vào việc hỗ trợ, chan đoán trong điều trị bệnh ung

thư.

e Mô hình phân lớp bệnh nhân Alzheimer dựa trên dữ liệu anh cộng

hưởng từ Kết quả phân lớp khi thực nghiệm trên mô hình đề xuất nằmtrong ngưỡng tốt, trợ giúp cho quá trình phát hiện sớm và đúng trạng

thái bệnh của người bệnh để có phác đồ điều trị bệnh phù hợp.

Kết quả này đã được công bố trong bài báo |[GT Trung-3]

3 Dé xuất mô hình phân lớp bệnh nhân ung thư dựa trên phương pháp Phân

tích thành phần chính tăng cường (RPCA) Trong đó đề xuất một hướnggiảm chiều dữ liệu bằng cách lựa chọn các đặc trưng dựa trên RPCA phù

hợp với tập dữ liệu y sinh học Từ đó làm căn cứ xây dựng mô hình phân

lớp bệnh nhân dựa trên phương pháp học đa hàm nhân.

Kết quả này được công bố trên bài báo |[GTTrung-4]

6

Trang 20

Đóng góp 1, 2 được trình bay trong nội dung của Chương 2, đóng góp 3 được trình bày trong nội dung của Chương 3 Ngoài các đóng góp trên, luận ấn

còn trình bày các nội dung kiến thức khác phụ trợ cho các phương pháp chính

được trình bày trong mỗi chương.

Bo cục của luận án

Bồ cục của luận án gồm 5 phần chính:

e Mở đầu trình bày khái quát về giảm chiều dữ liệu và ứng dụng trong lĩnh

vực y sinh học Nội dung này sẽ bắt đầu với những khó khăn khi xử lý dit

liệu nói chung và trong các bài toán y sinh học nói riêng, từ đó thôi thúc

các phương pháp giảm chiều dữ liệu được ra đời; khái quát về các kết quảchính đã đạt được, những tồn tại và các hướng nghiên cứu khả thi về cácphương pháp giảm chiều dit liệu Ngoài ra, phần này cũng trình bày về cácđóng góp chính của luận án và bố cục của luận án

e Chương 1, 2, 3 là phần nội dung của luận án tương ứng với 3 nội dung

cụ thể sau:

Chương 1 trình bày Tổng quan vé giảm chiều dữ liệu va ứng

dựng trong xử ly dữ liệu y sinh học Chương nay bao gồm phần giới

thiệu tổng quan về giảm chiều dữ liệu, các thách thức mà các phương pháp

giảm chiều dữ liệu phải đối mặt và các lĩnh vực được ứng dụng các phươngpháp giảm chiều dữ liệu Tiếp theo, bài toán giảm chiều dữ liệu được phát

biểu với một số ví dụ cụ thể Nội dung quan trọng của Chương là phân tích

các hướng nghiên cứu và các phương pháp giảm chiều dữ liệu áp dụng trong

bài toán y sinh học đã được đề xuất để có một bức tranh tổng quan về hệ

thống các phương pháp giảm chiều dữ liệu

Chương 2 trình bày một phương pháp giảm chiều dữ liệu được ứng

dụng hiệu quả trong bài toán y sinh học là phương pháp Phân lớp bệnh

nhân hiệu quả dựa trên hoc đa hàm nhân kết hợp giảm chiêu

dt liệu Chương này sẽ trình bày một Framework hiệu quả trong phân lớp

bệnh nhân ung thư Điểm mạnh của Framework này là kết hợp đồng thời

vừa tích hợp dữ liệu từ nhiều nguồn khác nhau vừa giảm số chiều của dữ

liệu, do đó, phương pháp này phù hợp với tình hình dữ liệu hiện nay trong

các bài toán y sinh học Chương này sẽ trình bay chi tiết về Framework

Trang 21

gốc và những đề xuất cải tiến của nhằm nâng cao hiệu suất của phươngpháp, từ đó đề xuất mô hình phân lớp bệnh nhân ung thư và bệnh nhân

Alzheimer Tiếp theo, thiết kế các thực nghiệm để đánh giá hiệu quả của

các đề xuất và cuối cùng là phần kết quả và thảo luận

Chương ở trình bày phương pháp Phân lớp bệnh nhén dựa trên,

phương pháp phân tích thành phan chính tăng cường nhằm giải

quyết những khó khăn trong xử lý dữ liệu y sinh học bị nhiễu, hỏng hayngoại lai Chương này trình bày một đề xuất nhằm trích rút các đặc trưng

có ý nghĩa dựa trên phương pháp Phân tích thành phần chính tăng cường.

Từ đó, luận án đề xuất một mô hình phân lớp bệnh nhân dựa trên phương

pháp đã trình bày Tiếp theo, thực nghiệm được thiết kế để đánh giá hiệu

quả của phương pháp và thảo luận về các kết quả đã đạt được cũng như

những tồn tại, hạn chế và hướng phát triển của phương pháp.

Kết luận tóm lược lại các kết quả đã đạt được của luận án, từ đó phân

tích những hạn chế và các hướng nghiên cứu tiếp theo phù hợp với nội dung

của luận án trong tương lai.

Trang 22

Chương |

TONG QUAN VỀ GIẢM CHIEU DU LIỆU VA UNG DUNG TRONG XU LY DU LIEU Y SINH

HOC

Giảm chiều dữ liệu đã trở thành một bước tiền xử lý không thể thiếu khi

phân tích dữ liệu Các phương pháp giảm chiều dữ liệu hiện nay không chỉ giảm

cơ học số đặc trưng của dữ liệu để phù hợp với các phương pháp tính toán hiện

nay mà còn góp phan gia tăng độ chính xác cho các phương pháp phân tích dit

liệu ở các bước tiếp theo khi có thể loại bỏ những dữ liệu gây nhiễu Trong lĩnh

vực y sinh học, các phương pháp giảm chiều dữ liệu được được sử dụng nhiều

do đặc điểm của dữ liệu sinh học phân tử, hoặc dữ liệu ảnh y tế với số lượng đặc

trưng lên đến hàng nghìn, thậm chí hàng triệu Trong Chương này, luận án tập

trung trình bày tổng quan về giảm chiều dữ liệu, tầm quan trọng cũng như ứng

dụng của các phương pháp giảm chiều trong xử lý dữ liệu y sinh học (bao gồm

phương pháp hiệu quả được ứng dụng phổ biến hiện nay như học sâu) nhằm đưa ra bức tranh tổng quan về các phương pháp giảm chiều dữ liệu và ứng dụng

chúng trong lĩnh vực y sinh học.

1.1 Bài toán giảm chiều dữ liệu

Giảm chiều dữ liệu là hoạt động tiền xử lý không thể thiếu đối với các bài

toán khai phá tri thức từ các tập dữ liệu lớn Bài toán giảm chiều dữ liệu được

phát biểu như sau:

Dau vào: Tập dữ liệu X có số chiều 5 lớn

Trang 23

Không gian gốc Không gian mới

Chiếu

Hình 1.1: Minh họa Giảm chiều dữ liệu

Đầu ra: Tập dữ liệu X’ (là biểu diễn của tập dữ liệu X trong không gian

mới) có số chiều D nhỏ hơn rất nhiều so với Š mà vẫn giữ được ban chất thông

tin của dữ liệu tương đương X.

Bài toán giảm chiều dit liệu là bài toán đi tim một hàm số:

là số chiều của không gian, số cột là số điểm dữ liệu của ma trận (tương ứng với số mẫu được quan sát) Trong mô hình minh họa này, phép biến đổi chỉ làm thay đổi số chiều của tập dữ liệu mà vẫn giữ nguyên số mẫu quan sát của tập

đữ liệu.

Hình [1.1] minh hoa cho bài toán Giảm chiều dữ liệu Dữ liệu ở không gian

gốc được chiếu sang không gian mới có số chiều thấp hơn không gian cũ giúp

tăng hiệu năng tính toán Ngoài ra, dữ liệu ở không gian mới có thể được phân

tách tốt hơn giúp tăng độ chính xác của các mô hình phân lớp

Việc giảm chiều dit liệu có thể được thực hiện nhằm vào một số mục đích khác nhau như dùng để nén thông tin sao cho z có thể được suy ngược lại (xấp

xỉ) từ z hoặc phục vụ cho các bài toán phân lớp bằng cách chọn ra những đặc

10

Trang 24

trưng quan trọng (lựa chọn đặc trưng) hay tạo ra những đặc trưng mới từ tập đặc trưng cũ (trích chọn đặc trưng) Với phương phấp lựa chọn đặc trưng, z có

thể là một phiên bản thu gọn của z khi các đặc trưng của z là tập con của các

đặc trưng trên z Còn với trích chọn đặc trưng, các đặc trưng của z khác hoàn toàn và được sinh ra từ các đặc trưng của z.

Đối với các tập dữ liệu biểu hiện gen thường có số chiều rất lớn, lên đến

hàng nghìn, chục nghìn gen Khi đó bài toán giảm chiều dữ liệu áp dụng trên

tập biểu hiện gen sẽ tìm kiếm một tập con các gen hoặc tạo ra các biến mới là tổ

hợp tuyến tính từ hàng nghìn gen ban đầu sao cho vẫn giữ được bản chất thông

tin của dữ liệu Thêm nữa, giảm chiều dữ liệu là bài toán tiền đề trước khi triển khai các bài toán khai phá dữ liệu khác Do đó, tiêu chí để lựa chọn các phương pháp giảm chiều dữ liệu trên tập dữ liệu biểu hiện gen là phải lựa chọn tập con

(hoặc sinh mới) các gen có ý nghĩa, loại bỏ các gen không liên quan góp phầngia tăng độ chính xác cho các bài toán khai phá dit liệu ở bước tiếp theo

Đối với các tập dữ liệu hình ảnh có kích thước lớn Giả sử một bức ảnh

có kích thước 1.000x1.000 pixel thì số lượng điểm ảnh (đặc trưng) đã lên tới

1.000.000 pixel (đặc trưng) Do đó, bức ảnh cần được giảm chiều trước khi được

xử lý ở các bước tiếp theo Giảm chiều ảnh có hai phương pháp chính Một là,giảm kích thước của bức ảnh theo cách cơ học từ 1.000x1.000 pixel xuống độ

phân giải thấp hơn có thể là 200x200 pixel Khi đó số đặc trưng chỉ còn ở mức

40.000 đặc trưng Tuy nhiên, phương pháp này sẽ gây mất dữ liệu do phải loại

bớt phần lớn đặc trưng để giảm kích thước bức ảnh nên có thể mất bản chất

của dữ liệu Ngoài ra 40.000 cũng vẫn là một số lượng đặc trưng lớn, không phù

hợp với các mô hình tính toán Phương pháp thứ hai là sử dụng các phương

pháp học máy để tìm ra các đặc trưng có ý nghĩa trên bức ảnh Phương pháp này có lợi điểm là tìm ra được đặc trưng có ý nghĩa của bức ảnh mà không phải

dùng toàn bộ số đặc trưng ban đầu, kết quả này có ý nghĩa lớn khi cần phân

lớp, phân cụm bức ảnh trong các bài toán nhận dạng Tuy nhiên, các phương

pháp này đỏi hỏi cần phải có thuật toán trích chọn đặc trưng phù hợp Phương

pháp thứ hai thường được áp dụng trong các bài toán thực tế do có thể đem lại

độ chính xác cao cho các bài toán nhận dạng.

11

Trang 25

1.2 Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học

va bài toán phân lớp bệnh nhần

Nghiên cứu dữ liệu y sinh để xác định các nguyên nhân, đối tượng gây bệnh

cũng như tìm ra các phương thuốc điều trị là hướng nghiên cứu quan trọng và

có nhiều đóng góp vào nghiên cứu y học chính xác trong điều trị các bệnh vàlĩnh vực chăm sóc sức khỏe [LII {12} [13] Có bốn ngành y sinh lớn được tập trungnghiên cứu bao gồm: tin-sinh học, tin học lâm sàng, tin học hình ảnh và tin học

y tế công cộng Cu thể, trong tin-sinh học, các thí nghiệm thông lượng cao tạo

điều kiện thuận lợi cho việc nghiên cứu toàn bộ gen, mối liên hệ giữa các gen về

bệnh tat; tin học lam sàng, lĩnh vực lâm sàng được hưởng lợi từ lượng lớn dữ

liệu bệnh nhân được thu thập, được phối hợp phân tích với các lĩnh vực khác

để đưa ra quyết định; tin học hình ảnh phân tích và đưa ra dự đoán từ dữ liệu hình ảnh y tế, trợ giúp trong hoạt động chẩn đoán và điều trị bệnh; tin học

y tế công cộng được nghiên cứu dự đoán và giám sát các đợt bùng phát bệnhtruyền nhiễm trên phạm vi địa lý lớn Trong đó, hai ngành tin-sinh học và tinhọc hình ảnh là hai ngành chủ chốt trong nghiên cứu về dữ liệu y sinh nhằm tìm

ra nguyên nhân gây bệnh va đề xuất giải pháp điều trị phù hợp [12] Một trong

những đặc điểm nổi bật của dữ liệu y sinh là có số đặc trưng rất lớn Cụ thể,trong tập dữ liệu sinh học phân tử, mỗi tập dữ liệu biểu hiện gen cũng có thể

có tới hàng chục nghìn gen [14]; đối với tập dữ liệu biểu diễn sự tương tác giữa các gen có tới hàng triệu đặc trưng biểu hiện mối quan hệ giữa các gen [15] Tập

dữ liệu anh y tế (ảnh cộng hưởng từ - MRI, ảnh chụp cắt lớp - CT) cũng có sốchiều lên tới hàng nghìn, thậm chí hàng triệu [16] Ví dụ như một bức ảnh chụp

mặt cắt của vỏ não có kích thước 500x500 điểm ảnh, khi đó số điểm ảnh lên tới

250.000, trong môi trường không gian 3 chiều của ảnh cộng hưởng từ hay ảnh

chụp cắt lớp thì số điểm ảnh gia tăng theo cấp số nhãn.

Số lượng đặc trưng lớn gây nhiều khó khăn trong việc phân tích dữ liệu y

sinh như:

e Số đặc trưng lớn dẫn đến độ phức tạp tính toán tăng mà các hệ thống máy

tính hiện nay không đáp ứng được Để phân tích trên tất cả các đặc trưng

sẽ đòi hỏi cao về nguồn tài nguyên (bộ vi xử lý, bộ nhớ), kỹ thuật tínhtoán và thời gian tính toán Đây là thách thức khó giải quyết mặc dù tốc

độ tính toán cũng như công nghệ hỗ trợ tính toán hiện nay như tính toán

song song, điện toán đám mây cũng đang phát triển không ngừng Đặc biệt

12

Trang 26

trong giảm chiều dữ liệu y sinh, khi số lượng đặc trưng biểu diễn các đặc điểm sinh học của đối tượng cũng như mối quan hệ giữa chúng lên tới hàng

nghìn, hàng triệu đặc trưng.

e Khi số đặc trưng lớn, dẫn đến không gian tìm kiếm lớn trong khi bài toán

đặt ra chỉ cần tìm kiếm trong không gian nhỏ, cục bộ Khi đó, việc tìmkiếm lời giải tối u toàn cục trên toàn bộ không gian gặp nhiều khó khăn

e Mặc dù có nhiều đặc trưng, nhưng không phải tat cả các đặc trưng đều

đóng góp thông tin vào từng bài toán cụ thể Ví dụ như đối với bệnh Ung thư phổi, chỉ có một số gen là nguyên nhân gây bệnh, khi đó nếu phân tích trên toàn bộ các gen thì các gen không liên quan có thể sẽ gây nhiễu và làm

ảnh hưởng đến kết quả phân tích

Từ đó, giảm chiều dữ liệu trở thành bước tiền xử lý dữ liệu không thể thiếu

trong xử lý dữ liệu y sinh Giảm chiều dữ liệu góp phần nâng cao chất lượng dự

đoán, giảm thời gian tính toán mà góp phần xây dựng các mô hình ổn định hơn[I7] Cụ thể như sau:

e Đối với tập dữ liệu sinh hoc phân tử: như biểu hiện gen, phương pháp

giảm chiều lựa chọn đặc trưng có thể đo lường và xác định mức độ ảnh hưởng của các gen liên quan đến một bệnh cụ thể, từ đó chọn một tập các gen có liên quan đến bệnh để phân tích Khi đó, tập dữ liệu sau khi đã được

giảm chiều sẽ có số chiều thấp và các gen này đều liên quan đến bệnh do

đó loại bỏ được nhiễu, góp phần giảm thời gian tính toán và gia tăng chấtlượng dự đoán [18] Ngoài ra, phương pháp giảm chiều trích chọn đặc trưng

xây dựng một tập các biến mới được tổ hợp từ các gen ban đầu với giả định

dữ liệu gốc sẽ được chiếu sang không gian mới với số chiều thấp nhưng vẫngitt được ban chất của dữ liệu và có tính phan tách tốt hon [I0]

* Đối với tập dữ liệu ảnh y tế: khi phân tích ảnh y tế 2 chiều, thay vi

phân tích trên tất cả các điểm ảnh với số chiều rất lén, các phương pháp

trích chọn đặc trưng được áp dụng để chọn ra những đặc trưng có ý nghĩa đối với từng bài toán cụ thể 20] Ngoài ra, một hướng giảm chiều khác dựa trên dữ liệu ảnh 3 chiều là sử dụng các độ đo thể tích, diện tích các vùng trên ảnh (như đo thể tích các vùng trên vỏ não), từ đó trích xuất một tập các đặc trưng mới là giá trị các độ đo các vùng của ảnh làm dit liệu biểu

diễn thay cho dữ liệu ảnh ban đầu Tap dữ liệu mới thay thế cho tập dit

13

Trang 27

liệu cũ với số chiều thấp và các đặc trưng là các độ đo liên quan đến bài

toán phân tích 21].

Từ trực tiếp giảm số chiều của các tập dữ liệu y sinh, giảm số chiều ditliệu đã đóng góp gián tiếp vào việc tăng cường hiệu quả phương pháp đối với

các bài toán trong lĩnh vực y sinh, trong đó có bài toán phân lóp bệnh nhân.

Phân lớp bệnh nhân dựa trên dữ liệu lâm sàng cũng như dữ liệu sinh học phân

tử sẽ phân loại bệnh nhân vào các nhóm khác nhau (các bệnh nhân trong cùng

một nhóm sẽ có các kết quả lâm sàng, đặc điểm sinh học, tình trạng bệnh tương

tự nhau) Khi đó, các liệu pháp chăm sóc, điều trị sẽ phù hợp cho từng nhómbệnh nhân, từ đó góp phần gia tăng hiệu quả điều trị bệnh [10] Phân lớp bệnhnhân không chỉ có ý nghĩa trong việc điều trị bệnh mà còn được sử dụng trong

việc chan đoán tinh trạng bệnh, kết quả chẩn đoán sớm tinh trạng mắc bệnh

và mức độ tiến triển bệnh của bệnh nhân sẽ góp phần kịp thời điều trị bệnh

[Z1I (22) (23) Các phương pháp phân lớp bệnh nhân hiện nay nghiên cứu và phân

tích dựa trên dit liệu sinh học phân tử, dit liệu ảnh y tế, do đó, giảm chiều dit

liệu là bước tiền xử lý không thể thiếu nhằm nâng cao hiệu quả của các phương

pháp phân tích [24 i25] [26].

1.3 Các hướng tiếp cận trong nghiên cứu giảm chiều dữ liệu

trong y sinh học

Có hai hướng tiếp cận chính để giải quyết bài toán Giảm chiều dữ liệu bao

gồm: Lựa chon đặc trưng và Trích chọn đặc trưng Ngoài ra một hướng tiếp cận

khác dựa tích hợp các phương pháp thuộc hai hướng tiếp cận chính để tận dụng

ưu điểm và giảm bớt nhược điểm của từng phương pháp đó là hướng tiếp cậnxây dựng các phương phap Lai Hình thể hiện danh sách các phương pháp

giảm chiều dữ liệu theo từng nhánh Trong phần này, luận án trình bày một số

phương pháp nổi bật trong các nhóm cũng như đánh giá về các phương pháp

Trang 28

Hình 1.2: Các phương pháp giảm chiều dữ liệu trong lĩnh vực y sinh học

biến được lựa chọn vẫn phản ánh được bản chất thông tin nhiều nhất có thể

so với tập dữ liệu ban đầu Lựa chọn đặc trưng nhằm cải thiện hiệu năng của

thuật toán phân lớp về độ chính xác và thời gian xây dựng mô hình [27] Các

phương pháp giảm chiều dựa trên lựa chọn đặc trưng có thể được phân thành

ba nhóm sau:

1.3.1.1 Các phương pháp lọc (Filter Methods)

Các phương pháp lọc sử dụng tiêu chuẩn lựa chọn các biến dựa trên xếp

hạng các biến sau đó lựa chọn các biến liên quan theo thứ tự đã sắp xếp Cácphương pháp xếp hạng bằng thống kê đơn giản đã được sử dụng và đã cho các

kết quả thực nghiệm tốt Một trong số đó là xếp hạng các biến dựa trên việc chođiểm các biến, sau đó lựa chọn một ngưỡng và loại bỏ các biến có điểm thấp hơn

ngưỡng đã chon [28] Các phương pháp lọc lựa chọn các đặc trưng mà không

15

Trang 29

cần quan quan tâm tới các mô hình phân lớp dựa trên đơn biến hay đa biến.

DL kiểm thử

Giảm chiêu DL

DL huấn (Biéu diễn dit

luyén At toán tì R liệu với tập đặcye Thuat toán tìm Tập con trung tim được)

kiêm đặc trưng ‘

cho két Tap con cho

qua huan két qua huan luyện tot luyện tốt

nhất nhất/tập kiếm

thử mới Thuật toán ML

Tập đặc Nội dung trưng con thông tin

Hình 1.3: Mô hình lựa chọn đặc trưng bằng Phương pháp lọc

Các nhà nghiên cứu đã sử dụng nhiều phương pháp lọc khác nhau trong

các nghiên cứu của họ để lựa chọn gen từ dữ liệu microarray Lin và Chen đã sử

dụng phân cụm thống kê dựa trên mối quan hệ tuyến tính và hệ số tương quan

cho tập dữ liệu microarray cDNA của bệnh ung thư vú [29] Sun va các cộng

sự đã sử dụng các phương pháp lựa chọn đặc trưng dựa trên học tập cục bộ, ý

tưởng chính là phân tích bài toán phi tuyến phức tạp thành một tập các thànhphần tuyến tính thông qua học cục bộ, sau đó tìm các đặc trưng liên quan trên

toàn bộ tập đó |ö0| Zhu và các cộng sự sử dung entropy dựa trên mô hình để lựa

chọn đặc trưng [31] Một phương pháp lựa chọn đặc trưng dựa trên lý thuyết trò chơi cộng tác đa pha đã được đề xuất cho bài toán phân lớp dữ liệu microarraybởi Mortazavi và các cộng sự năm 2016 Kết quả dựa trên độ chính xác phânlớp trung bình trên 11 tập dit liệu microarray cho thấy phương pháp được đề

xuất đã cải thiện trên cả độ chính xác và độ ổn định của mô hình phân lớp [32].

Nam 2017, Dashtban và cộng sự đã đề xuất một phương pháp xác định các gen

dự đoán cho phân lớp bệnh ung thư dựa trên việc phát triển một phương pháp

16

Trang 30

tiến hóa từ thuật toán di truyền [33].

Bảng 1.1: Ưu, nhược điểm của Phương pháp lọc

Phương pháp Ưu điểm Nhược điểm

Lọc

Đơn biến

Nhanh, có thể mở rộng.

Phụ thuộc vào bộ phân lớp.

Bỏ qua các đặc trưng phụ thuộc.

Các đặc trưng bị xem xét độc lập.

Một số đặc trưng có phân tách

mạnh khi được nhóm thành nhóm, nhưng khi đứng độc lập

sẽ phân tách yêu và sẽ bị bỏ qua

Chậm hơn kỹ thuật đơn biến.

Kho mở rộng hơn kỹ thuật đơn

biến.

Bỏ qua tương tác với bộ phân

lớp.

Có thể tồn tại đặc trưng dư thừa.

Lợi ích của các phương pháp xếp hạng biến là tính toán dễ dàng, tránh

được hiện tượng “quá khớp dữ liệu" và được chứng minh là hiệu quả với một

số tập dữ liệu nhất định Một trong những hạn chế của các phương pháp xếp

hạng là tập con các biến có thể không tối ưu bởi vì trong đó có thể vẫn tồn

tại những biến dư thừa Việc tìm một thuật toán học phù hợp tương đối khókhăn vì không có thuật toán học nền tảng nào cho việc lựa chọn đặc trưng [34]

Ngoài ra, không có phương pháp lý tưởng để lựa chon số chiều của không gian

đặc trưng [35].

1.3.1.2 Các phương pháp bao gói (Wrapper Methods)

Không giống như các phương pháp lọc dựa trên sự phù hợp của đặc trưng,

các phương pháp bao gói phụ thuộc vào hiệu năng của bộ phân lớp để lấy ra tập

con các đặc trưng Các phương pháp bao gói lựa chọn tập con đặc trưng bằngcách sử dụng thuật toán quy nạp như là một hộp đen (tức là không cần kiếnthức về thuật toán mà chỉ cần chỉ ra giao diện) Độ chính xác của bộ phân lớp

17

Trang 31

quy nạp được ước lượng xấp xỉ bằng các kỹ thuật ước lượng độ chính xác Bàitoán chính của phương pháp bao gói là tìm kiếm không gian trạng thái và cáccông cụ tìm kiếm khác nhau cho các phương pháp khác nhau [35].

DL kiểm thử

Giảm chiêu DL

DL huấn (Biểu diễn dữ

luyện liệu với tập đặcy¢ as toán tim Tap con trưng tim được)

^⁄

Hình 1.4: Mô hình lựa chọn đặc trưng bằng Phương pháp bao gói

Có nhiều kỹ thuật tìm kiếm khác nhau được sử dụng để tìm tập con các

đặc trưng sao cho hiệu suất phân lớp đạt tối đa, ví dụ như phương pháp nhánh

và cận, thuật toán di truyền, tối ưu bầy đàn Có hai nhánh nghiên cứu thuộchướng này đó là các phương pháp lựa chọn tuần tự và các phương pháp lựa chọntiến hóa

a, Các phương pháp lựa chọn tuần tự

Các phương pháp lựa chọn tuần tự tìm tối thiểu (hoặc tối đa) các đặc trưng

bằng việc lặp lại tiến trình Phương pháp lựa chọn đặc trưng tuần tự (SequentialFeature Selection - SFS) bắt đầu với một tap rỗng và thêm một đặc trưng chobước đầu tiên mà làm tăng hiệu năng của hàm mục tiêu Từ bước thứ hai trở

đi, các đặc trưng còn lại được thêm riêng lẻ vào tập con hiện tại sao cho hiệu

năng của bộ phân lớp là cao nhất Tiến trình này lặp cho đến khi đạt được số

18

Trang 32

lượng đặc trưng phù hợp Bằng cách này, tập đặc trưng con tốt nhất sẽ đượcchọn ra va sẽ cho độ chính xác của bộ phân lớp là cao nhất [35] Phương pháplựa chọn tiến-động tuần tự (Sequential Floating Forward Selection - SFFS) linhhoạt hơn so với phương pháp lựa chọn đặc trưng tuần tự khi nó thêm vào một

bước quay lui để có thể quay trở lại tìm các bộ tối ưu phù hợp hơn.

Cả hai phương pháp SFS và SFFS đều phải tạo ra các tập hợp con lồng

nhau gây dư thừa vì theo ý tưởng của phương pháp, hai đặc trưng có độ tương

quan cao sẽ được chèn vào nếu chúng cho độ chính xác cao nhất trong xấp xỉSFS Phương pháp Lựa chọn tiến động tuần tự thích nghi (Adaptive Sequential

Floating Forward Selection - ASFFS) đã được phát triển nhằm tránh được hiệu

ứng lồng nhau [36] Phương thức ASFFS cố gắng tạo ra một tập con có dư thừa

ít hon so với phương pháp SFFS Về mặt lý thuyết, ASFFS sẽ tạo ra một tậphợp con các đặc trưng tốt hơn SFFS, tuy nhiên, trong thực tế ASFFS phụ thuộc

vào hàm mục tiêu và đặc tính của dữ liệu.

b, Các phương pháp lựa chọn tiến hóa

Một phương pháp lựa chọn tiến hóa là một phương pháp mà không phảilúc nào nó cũng đi tìm phương án tốt nhất nhưng chắc chắn tìm ra một giảipháp tốt trong thời gian hợp lý bằng cách chấp nhận hi sinh một số mục tiêu

để gia tăng hiệu quả Mục tiêu của tiễn hóa là tìm ra một phương án trong một khoảng thời gian hợp lý mà nó đủ tốt để giải quyết bài toán Các phương pháp lựa chọn tiến hóa đánh giá các tập con đặc trưng khác nhau để tối ưu hóa hiệu

suất của hàm mục tiêu Các tập con đặc trưng khác nhau được tạo ra bằng cáchtìm kiếm trên không gian tìm kiếm hoặc dựa trên các hàm mục tiêu tối ưu Cácphương pháp tiến hóa dựa trên những ý tưởng của sự tiến hóa sinh học như sinh

sản, đột biến, tái tổ hợp để tìm kiếm giải pháp của bài toán tối ưu Một phương

pháp lựa chọn tiến hóa bao gồm năm bước sau:

Bước 1 Khởi tao và ước tính quần thể (số tập con) ban đầu.

Bước 2 Thực hiện lựa chọn cạnh tranh.

Bước 2 Ấp dụng các phương pháp tiến hóa khác nhau để tạo ra tập ứngviên mdi.

Buéc 4 Uóc lượng các ứng viên đủ tiêu chuẩn.

Bước 5 Lap lại từ Bước 2 cho đến khi một số tiêu chí hội tụ được đáp ứng

Một số phương pháp lựa chọn đặc trưng tiến hóa đã được đề xuất và áp

dụng thành công trong bài toán lựa chon gen Năm 2009, Maugis và cộng sự đã

19

Trang 33

thực hiện việc lựa chọn các biến cho bài toán phân cụm với mô hình Gaussianhỗn hợp Trong mô hình của Maugis, không có bất cứ giả định trước nào về liênkết giữa các biến được lựa chọn và các biến bị loại bỏ [37] Ai-Jun và Xin-Yan

giới thiệu phương pháp lựa chọn đặc trưng ngẫu nhiên Bayesian cho bài toán lựa

chọn gen Ai-Jun đã dựa trên các hệ số hồi quy bằng cách sử dụng phương phápchuỗi Markov Monte Carlo trên tập dữ liệu bệnh bạch cầu và đại trang [8] Ji

và cộng sự giới thiệu một phương pháp lựa chọn gen mới dựa trên bình phương

tối thiểu từng phan (Partial Least Squares - PLS) [39] Sharma và cộng sự giới

thiệu một phương pháp hiệu quả trong bài toán lựa chon gen |40| Sharma trướchết chia các gen vào một tap con nhỏ có kích thước h, chọn tập con nhỏ hơn

có kích thước r(r < h) từ các tập con đã chia ban dau Sau đó gdp các gen đã

được chọn với các tập con khác để gia tăng dần kích thước của tập con, lặp

lại tiến trình này cho đến khi tất cả các tập con đã được gộp vào một tập con

bao hàm nhiều thông tin Hiệu quả của phương pháp này đã được thể hiện khi phân tích ba tập dữ liệu biểu hiện gen khác nhau và kết quả thể hiện qua mức

độ liên quan giữa các gen được lựa chọn tốt về chức năng sinh học của chúng

Cadenas và cộng sự đã giới thiệu một phương pháp dựa trên rừng ngẫu nhiên

mờ (Fuzzy Random Forest - FRF) Phương pháp này tích hợp các phương pháp

lọc và phương pháp bao gói thành một thủ tục tìm kiếm tuần tự giúp tăng độ

chính xác của mô hình phân lớp [đI| Năm 2014, Srivastava đã đánh giá hiệu

suất của phương pháp lựa chọn lọc và phương pháp lựa chọn bao gói thông quaviệc xây dựng mô hình phân lớp dựa trên các tập dit liệu ung thư buồng trứng

và ung thư máu [42] Gan đây, Kar va cộng sự đã phát triển một phương pháp

tính toán hiệu quả và nhận diện gen một cách chính xác gọi là "Kỹ thuật xác

định gen dựa trên tối ưu hóa bay dan (Particle Swarm Optimization - PSO)"

[43] Trong nghiên cứu này, Kar đã sử dụng phương pháp kiểm-định-t để giảm

chiều tập dữ liệu và giới thiệu phương pháp tối ưu hóa bầy đàn để tìm ra các

gen hữu ích Ngoài ra PSO còn được sử dụng trong các bài toán khác như phân

Trang 34

còn tồn tại khi sử dụng hiệu suất của bộ phân lớp như là hàm mục tiêu dẫn đếncác bộ phân lớp bị "quá khớp dữ liệu" "Quá khớp dữ liệu" sẽ xuất hiện khi bộphân lớp được huấn luyện từ bộ dữ liệu không có sự khái quát hóa Bộ phân lớp

có thể làm sai lệch và làm tăng lỗi khi phân lớp, điều này sẽ dẫn đến một tập con có độ chính xác cao nhưng khả năng tổng quát kém và không phù hợp với tập dữ liệu thực tế Tóm lược các ưu, nhược điểm của các phương pháp bao gói

được mô tả trong Bảng [1.2]

Bảng 1.2: Ưu, nhược điểm của Phương pháp bao gói

Phương pháp | Ưu điểm Nhược điểm

Các phương pháp lựa chọn tuần tự

Dễ dàng mở rộng với bộ phân Dễ bị tối ưu cục bộ.

lớp Phải tạo ngẫu nhiên nhiều.

Ít bị "quá khớp dữ liệu" Bộ phân lớp phụ thuộc vào các

Chi phí tính toán thấp phương pháp.

Xem xét sự phụ thuộc giữa các Phương án không phải là tối ưu

đặc trưng hoàn toàn.

Bao gói Các phương pháp lựa chọn tiến hóa

Ít bị tối ưu cục bộ Chi phí tính toán cao.

Mở rộng được với bộ phân lớp.

Dựa trên các đặc trưng phụ thuộc.

Có độ chính xác cao hơn phương

1.3.1.3 Các phương pháp nhúng (Embedded Methods)

Các phương pháp nhúng khác với hai nhóm phương pháp đã được trình

bày ở trên khi cỗ gắng khắc phục nhược điểm của hai phương pháp trên khi sử dụng các thuật toán học và làm giảm thiểu thời gian tính toán của thuật toán.

Cách tiếp cận chính của phương pháp nhúng là kết hợp việc lựa chọn đặc trưngnhư là một phần của quá trình huấn luyện Phương pháp này không chỉ xemxét mối quan hệ giữa đặc trưng vào và đặc trưng ra mà còn tìm kiếm các đặctrưng cục bộ giúp cho việc phan tách cục bộ tốt hơn [5] Phương pháp nhúng sử

dụng các điều kiện cục bộ để quyết định các tập con tối ưu cho một nhóm đã được xác định Sau đó, thuật toán học sẽ được sử dụng để lựa chọn tập con tối

21

Trang 35

DL kiểm thử

Giảm chiêu DL

DL huấn (Biểu diễn đữ

luyện = liệu với tập đặc

—*[_ Thuật toán ML Tập con trưng tìm được)

7

ôi ưu hóa cục

4

Hình 1.5: Mô hình lựa chọn đặc trưng bằng Phương pháp nhúng

ưu giữa các tập con tối ưu của các nhóm khác nhau [44] Phương pháp nhúngđược chia thành ba nhóm: phương pháp cắt tỉa, bộ dựng sẵn và mô hình chínhtác hóa Với phương pháp cắt tỉa, ban đầu tất cả các đặc trưng được đưa vào

quá trình huấn luyện để xây dựng mô hình phân lớp và các đặc trưng có hệ số

tương quan thấp sẽ được loại bỏ Còn với các phương pháp lựa chọn đặc trưngdựa trên bộ dựng sẵn, một phần của pha huấn luyện của các thuật toán học

có giám sát C4.5 và ID3 được sử dung để lựa chọn các đặc trưng Cuối cùng là nhóm mô hình chính tắc hóa, các lỗi được cực tiểu hóa sử dụng hàm mục tiêu

và các đặc trưng với các hệ số tương quan gần với 0 sẽ được loại bỏ [35]

Có nhiều kỹ thuật lựa chọn đặc trưng nhúng được đề xuất và được ứngdung rộng rãi trong các nghiên cứu về gen và protein Niijima và Okno giới

thiệu một phương pháp lựa chọn đặc trưng không có giám sát gọi là LLDA-RFE

(LLDA based Recursive Feature Elimination) được phát triển từ phương pháp

phân tích phân tách tuyến tinh Laplacian bằng cách loại bỏ đệ quy Phương phápnày đã áp dụng thành công trên một số tập dữ liệu ung thư [45] Maldonado

và cộng sự đã giới thiệu một phương pháp chọn các đặc trưng liên quan đồng

22

Trang 36

thời với việc xây dựng bộ phân lớp bằng cách xử phạt mỗi đặc trưng khi sử

dụng chúng trong công thức kép của máy vector hỗ trợ Phương pháp này được gọi là phat-nhan máy vector hỗ trợ (LLDA based Recursive Feature Elimination

SVM - KP-SVM) khi nó tối ưu hóa hình dạng của nhân cơ sở radian (Radial

Basis Function - RBF) không đẳng hướng và loại bỏ các đặc trưng có mức độ

liên quan thấp với bộ phân lớp [46] Xiang và cộng sự đã giới thiệu một phương

pháp hồi quy bình phương tối thiểu phân tách (Least Squares Regression - LSR)

cho bài toán phan lớp đa nhãn và lựa chọn đặc trưng [47] Một hướng khác cũng

đang được quan tâm nghiên cứu đó là tích hợp nhiều nguồn dữ liệu trong các

bài toán Điển hình như Liang sử dụng thuật toán k-láng giéng gần nhất cho

bài toán dự đoán chức năng Liang tìm k-láng giềng gần nhất của một truy vấn

protein dựa trên các loại khác nhau của độ đo sự tương tự và dự đoán chức năng

của nó bởi trọng số trung bình của những láng giềng của protein đó [48] Cao

và cộng sự giới thiệu một phương pháp lựa chọn đặc trưng nhanh dựa trên đa

mô tả dit liệu vector hỗ trợ (Support Vector Data Description - SVDD) va ap

dụng trên tập dữ liệu microarray đa nhãn [49] Năm 2019, Zhang và các cộng

sự đã đề xuất một phương pháp nhúng kết hợp giữa mạng nơ ron và hình phạtnhóm Lasso, phương pháp đã có kết quả tốt với một số bộ dữ liệu y sinh [50]

Bảng 1.3: Ưu, nhược điểm của Phương pháp nhúng

Phương pháp | Ưu điểm Nhược điểm

Dễ dàng mở rộng với bộ phân lớp Bộ phân lớp phụ thuộc vào việc lựa

Mô hình đặc trưng phụ thuộc có độ | chọn.

phức tạp tính toán tốt hơn so với | Cần xem xét sự phụ thuộc giữa các

phương pháp bao gói đặc trưng.

Lựa chọn đặc trưng là phương pháp giảm chiều dữ liệu phổ biến khi phân

tích dữ liệu microarray bởi vì sự đơn giản của phương pháp Tuy nhiên, lựa chọn

đặc trưng còn tồn tại 2 nhược điểm lớn Một là, nhiều thông tin chứa trong dữ

liệu sẽ bị mất vì hầu hết các gen sẽ bị loại khi thực hiện giảm chiều Hai là, sựtương tác và tương quan giữa các biến thường bị bỏ qua Một số thủ tục phức

23

Trang 37

tạp cố gắng loại bỏ hạn chế này bằng cách lựa chọn các tập con tối ưu dựa trên

một số tiêu chí cụ thể thay vì lọc ra các biến có sự liên quan thấp đến mô hình.

Tuy nhiên, các phương pháp này thường gây ra tác dụng phụ như "quá khớp

dv liệu" khi tap con đặc trưng có thể tối ưu trên tập dữ liệu huấn luyện nhưng không có kết quả tốt trên dữ liệu kiểm thử độc lập Hơn nữa, các phương pháp này dựa trên các thuật toán lặp đi lặp lại các tính toán phức tạp nên khó để

giải thích.

1.3.2 Trích chọn đặc trưng

Phương pháp trích chọn đặc trưng còn có tên gọi khác là "Xây dựng đặc

trưng" hoặc "Chiếu lên không gian có số chiều thấp" Phương pháp này biến đổi

đặc trưng gốc thành các đặc trưng mới trong không gian thấp chiều, theo cách

này bài toán sẽ được biểu diễn lại trong một không gian có phân tách tốt hơn,

điều này giúp cho việc phân tích về sau có hiệu quả hơn Có hai loại phươngpháp trích chọn đặc trưng là tuyến tính và không tuyến tính (phi tuyến tính)

Các phương pháp tuyến tính thường nhanh hơn, chắc chắn hơn và có thể giải

thích được hơn so với các phương pháp không tuyến tính Tuy nhiên, các phương

pháp phi tuyến có thể đôi khi được sử dụng cho các cấu trúc dữ liệu phức tạp khi các phương pháp tuyến tính không thể phân tách được.

1.3.2.1 Phương pháp trích chọn đặc trưng tuyến tính

Trích chọn tuyến tính giả sử dữ liệu được phân tách tuyến tính trong không

gian phụ có số chiều thấp hơn sau đó biến đổi dữ liệu trên không gian phụ bằng phương pháp hệ số số ma trận Phương pháp trích chọn được sử dụng phổ

biến nhất là phương pháp phân tích thành phần chính (Principal Component

Analysis - PCA) [ỗI| PCA sử dụng ma trận hiệp phương sai cùng giá trị riêng

và vector riêng của nó để tìm các "thành phần chính" trong dữ liệu Thành

phần chính là các vector riêng không tương quan với nhau, mỗi thành phầnchính minh họa cho một tỉ lệ phương sai trong dữ liệu PCA và một số phương

pháp mở rộng từ PCA đã được áp dụng để giảm chiều dữ liệu cho tập dữ liệu

microarray của bệnh ung thu và tập dit liệu ảnh Các phương phap trên đã có

những tác dụng đáng kể trong việc xác định các đặc trưng quan trọng của dữliệu Một trong những điểm yếu của PCA là không xác định được mối quan hệ

phi tuyến tính tồn tại trong tập dữ liệu có số chiều cao, đặc biệt là các hệ thống

24

Trang 38

sinh học phức tap [19] Ngoài PCA, một số phương pháp trích chọn tuyến tính

khác như tỉ lệ đa chiều cổ điển (Classical Multidimensional Scaling - MDS) hoặc

phân tích tọa độ chính (Principal Coordinates Analysis) được xây dựng dựa trên

ước lượng ma trận không đồng dạng cho bất cứ ma trận nào Các phương pháp

này đã được sử dụng cho tập dữ liệu biểu hiện gen có số chiều cao bởi vì chúng

hữu ích trong việc kết hợp với lượng tử vector hoặc K-means nhằm gán các mẫu

vào các lớp trong tổng số k lớp [52].

1.3.2.2 Phương pháp trích chọn đặc trưng không tuyến tính

Có nhiều nghiên cứu về các phương pháp trích chọn đặc trưng không tuyến

tính Phổ biến nhất có phương pháp hàm nhân thường được sử dụng hiệu quả trong các tập dữ liệu biểu hiện gen Kernel-PCA là một phương pháp hàm nhân

quan trọng trong nhóm này và được sử dung rộng rãi trên tập dữ liệu sinh hoc

và các bài toán trong lĩnh vực khác Các phương pháp khác sử dụng đa

tạp (manyfolds) cũng được đề xuất Các phương pháp này xây dựng dựa trêngiả thuyết là tồn tại phân tách tuyến tính cho tập dữ liệu (các gen được quantâm) trên không gian có số chiều thấp hơn so với không gian gốc ban đầu Cónhiều phương pháp theo hướng này được đề xuất và áp dụng thành công khigiảm chiều tập dữ liệu microarray như Nhúng tuyến tính cục bộ (Locally Linear

Embedding - LLE), Laplacian Eigenmaps - LE [53] Phương pháp Ánh xạ tự tổ

chức (Self-organizing maps - SOM) cũng được sử dụng để giảm chiều cho tập

dữ liệu biểu hiện gen, phân đoạn/phân lớp ảnh nhưng không thường được sử

dụng trong phân tích thực tế vì phương pháp này cần sử dụng lượng lớn dữ

liệu chính xác để cho kết quả tốt [54] SOM cho phân tách tốt hơn so với LLE, nhưng Kernel-PCA chạy nhanh hơn đáng kể so với hai phương pháp trên Tuy nhiên, Kernel-PCA có nhược điểm lớn là không gian tính toán phức tạp khi lưu

trữ tất cả các tích trong của tập huấn luyện và làm cho kích thước của ma trận

là bậc hai so với số lượng điểm dữ liệu Phương pháp Phân tích thành phần

độc lập (Independent Component Analysis - ICA) được đề xuất bởi Hyvarinen

[55] để giải các bài toán điển hình của các mô hình phi Gaussian và đã được

áp dụng thành công trên nhiều lĩnh vực khác nhau Ý tưởng của ICA tương tự

như ý tưởng của PCA PCA ánh xạ dữ liệu sang một không gian khác với sự

trợ giúp của thành phần chính còn ICA tìm biểu diễn tuyến tính của dữ liệu

phi Gaussian sao cho các thành phần được trích xuất độc lập về mặt thống kê(56) [57] [58] ICA tìm sự tương quan và không tương quan trong dữ liệu bằng

cách tối đa hóa hoặc tối thiểu hóa thông tin tương phản ICA có thể áp dụng

25

Trang 39

kết hợp với PCA và cho kết quả tốt hơn khi hoạt động độc lập Nam 2016, Ha

và các cộng sự đã đề xuất một phương pháp cải tiến nhân cho phương phápKernel PCA và áp dụng vào bài toán phân lớp bệnh ung thu [59] Ngoài ra, hiệnnay một hướng nghiên cứu mới hiện nay là tích hợp đữ liệu từ nhiều nguồn khácnhau kết hợp giảm chiều dữ liệu được đề xuất bởi Lin gọi là MKL-DR (Multiple

Kernel Learning and Dimensionality Reduction) trong |60].

Bảng 1.4: Ưu, nhược điểm của Phương pháp trích chon đặc trưng

Phương pháp Ưu điểm Nhược điểm

Khả năng phân tách dữ liệu tốt | Giảm tính hiểu được của dữ liệu.

Trích chọn đặc trưng | Kiểm soát được vấn đề "quá | Chi phí chuyển đổi tốn kém.

khớp dữ liệu".

Các phương pháp trích chọn đặc trưng kiểm soát được vấn đề "quá khớp

dữ liệu" tốt hơn so với lựa chọn đặc trưng đối với tập dữ liệu không có nhãn.Các đặc trưng được trích xuất cũng có độ phân tách cao hơn và đem lại độ chính

xác cao hơn cho các mô hình phân lớp Nhưng đôi khi, qua quá trình biến đổi

sẽ làm giảm tính hiểu được của dữ liệu, ngoài ra việc biến đổi cũng đòi hỏi chi

phí tính toán cho các loại dữ liệu khác nhau |61].

Trong những năm gần đây, phương pháp phân tích dữ liệu y sinh dựa trênhọc sâu (deep learning) đã có nhiều kết quả rất tích cực đóng góp vào giải quyếtcác bài toán y sinh học, trong đó, giảm chiều dữ liệu được xây dựng là một phankiến trúc quan trọng Trong kiến trúc của phương pháp học sâu, bộ tự mã hóa

sâu (Deep Autoencoder) là một mạng nơ ron nhân tạo được dùng để học cách

mã hóa dữ liệu theo cách học không có giám sát [62] Mục tiêu của một bộ tự

mã hóa là học các đặc trưng (đã được mã hóa) từ một tập dữ liệu ban đầu bằngcách huấn luyện mạng nơ ron bỏ qua các tín hiệu “lỗi” [63] Do đó, Bộ tự mãhóa sâu còn được coi là bước giảm chiều dữ liệu Bộ tự mã hóa sâu được thiết

kế để tìm hiểu các mối quan hệ phi tuyến tính phức tạp giữa các điểm dữ liệu.

Hoc sâu được ứng dung rộng rãi trong tất cả các loại dữ liệu y sinh học như dit

liệu sinh học phân tử, dữ liệu sóng, dữ liệu ảnh y tế [64], một số ứng dụng điển hình gần đây như: sử dụng bộ tự mã hóa sâu để phân loại các tín hiệu điện não sau khi các đặc điểm như vị trí, thời gian và tần số được trích xuất bằng mạng

nơ ron tích chap [65], bộ tự mã hóa sâu được sử dụng để trích xuất các đặc điểm

để chuẩn đoán và phân loại ung thư cùng với việc xác định các gen liên quan từ

đữ liệu biểu hiện gen [66], một mô hình học dựa trên bộ tự mã hóa sâu được sử

26

Trang 40

dụng để tái tạo lại cấu trúc protein [67], sử dụng bộ tự mã hóa sâu tích chập để chuẩn đoán bệnh Alzheimer dựa trên ảnh chụp cộng hưởng từ [68|,

1.3.3 Phương pháp lai

Gần đây, các phương pháp lai được đề xuất và sử dụng rộng rãi Huang

và cộng sự đã kết hợp những ưu điểm của cả phương pháp trích chon/loc và phương pháp bao gói [69] Mô hình phương pháp Lai được thể hiện trong Hình

Thuật toán toán tìm R (Biêu diễn

tìm kiếm Tập kid Tap dữ liệu với

om con tap dac trung

con

dac Tap Đánh đặc tìm được)trưng đặc giá dựa trưng - -

chokết trưng | |trên độ cho ket Tập con đặc

chính quả trưng cho kêt xác huấn quả huân luyện

Nội dung quả con

Hình 1.6: Mô hình lựa chon đặc trưng bằng Phương pháp lai

Một phương pháp lai thường gồm hai bước, đầu tiên, một phương pháp

trích chọn/lựa chọn được sử dụng để xác định các đặc trưng phù hợp nhất của tập dữ liệu Sau đó, sử dụng một phương pháp bao gói để xác minh lại tập con

đặc trưng phù hợp nhất đã xác định ở bước trước nhằm tăng độ chính xác của

bộ phân lớp [70| [71] Phương pháp này sử dụng các điều kiện đánh giá trongcác giai đoạn tìm kiếm khác nhau nhằm tăng hiệu quả và độ chính xác của bộphân lớp Hiệu suất tính toán cũng được cải thiện khi các phương pháp bao gói

27

Định dạng
Số trang	134
Dung lượng	36,05 MB

Tiêu đề	Nghiên cứu một số phương pháp giảm chiều dữ liệu, ứng dụng trong bài toán phân lớp bệnh nhân
Tác giả	Giang Thành Trung
Người hướng dẫn	PGS. TS. Trần Đăng Hưng, TS. Lê Nguyễn Khôi
Trường học	Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành	Hệ thống thông tin
Thể loại	Luận án tiến sĩ
Thành phố	Hà Nội