1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp giảm chiều dữ liệu, Ứng dụng trong bài toán phân lớp bệnh nhân (tt)

27 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu một số phương pháp giảm chiều dữ liệu, Ứng dụng trong bài toán phân lớp bệnh nhân
Tác giả Giang Thành Trung
Người hướng dẫn PGS. TS. Trần Đăng Hưng, TS. Lê Nguyên Khôi
Trường học Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại Luận án Tiến sĩ Hệ thống Thông tin
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 27
Dung lượng 1,2 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ———– GIANG THÀNH TRUNG NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢM CHIỀU DỮ LIỆU, ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP BỆNH NHÂN Chuyên ngành: Hệ thống

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———–

GIANG THÀNH TRUNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP

GIẢM CHIỀU DỮ LIỆU, ỨNG DỤNG TRONG BÀI

TOÁN PHÂN LỚP BỆNH NHÂN

Chuyên ngành: Hệ thống thông tin

Mã số: 9480104.01

TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

Cán bộ hướng dẫn khoa học: - PGS TS Trần Đăng Hưng

- TS Lê Nguyên Khôi Người thực hiện: - NCS Giang Thành Trung

Hà Nội - 2022

Trang 2

Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.

Người hướng dẫn khoa học: - PGS TS Trần Đăng Hưng

- TS Lê Nguyên Khôi

Phản biện: PGS TS Phạm Thọ Hoàn - Trường Đại học Sư phạm Hà Nội

Phản biện: PGS TS Nguyễn Long Giang - Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Phản biện: PGS TS Nguyễn Thị Hồng Minh - Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội

Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Phòng 212, Nhà E3, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội vào hồi 9 giờ 00 ngày

16 tháng 8 năm 2022.

Có thể tìm hiểu luận án tại:

- Thư viện Quốc gia Việt Nam.

- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội.

Trang 3

MỞ ĐẦU

Đặt vấn đề

Trong thập kỷ vừa qua, ngành khoa học sự sống và thực nghiệm đã trải qua một cuộccách mạng với sự phát triển nhanh chóng của các thiết bị thí nghiệm và thiết bị đo côngnghệ cao Cùng với sự phát triển đó, lượng dữ liệu được đo đạc, lưu trữ và xử lý ngàycàng lớn trên tất cả các lĩnh vực của đời sống xã hội, đặc biệt trong lĩnh vực y sinh học

đã có sự phát triển vượt bậc về dữ liệu khi tạo ra một lượng lớn dữ liệu, như dữ liệu gen,protein, dữ liệu chuyển hóa, dữ liệu dược lý, dữ liệu lâm sàng, Nhiều bộ dữ liệu y sinhhọc có sự gia tăng nhanh chóng về kích thước, độ phức tạp cũng như cách biểu diễn (ảnh,vector số, video, văn bản) Nguồn dữ liệu này là cơ sở cho việc phân tích và đề xuất trongcác hệ thống trợ giúp ra quyết định hỗ trợ cho các hoạt động chẩn đoán và chữa trị cácbệnh do chúng là thông tin phản ánh khách quan các hoạt động đã xảy ra trong chính các

cơ quan của cơ thể

Dữ liệu ở dạng thô được xử lý, biến đổi, tính toán và chuyển hóa thành tri thức để trởnên hữu ích nhằm hỗ trợ ra quyết định Tuy nhiên, một trong các thách thức đối với cácphương pháp xử lý dữ liệu đó là các tập dữ liệu hiện nay có số chiều (hay còn gọi là đặctrưng, thuộc tính hoặc biến) rất lớn Trong nhiều trường hợp, các bộ dữ liệu có số chiềulên tới hàng nghìn, hàng triệu chiều Cụ thể, một tập dữ liệu microarray của một loại sinhvật có số lượng gen thường từ vài nghìn đến vài chục nghìn gen, mỗi gen được coi như mộtchiều (biến) khi biểu diễn dữ liệu trong các bài toán Số lượng chiều lớn kéo theo đòi hỏichi phí tính toán lớn, dẫn đến các phương pháp phân tích gặp nhiều khó khăn để đáp ứngyêu cầu về thời gian phản hồi khi đưa vào trong các bài toán thực tế Khi đó, một bướctiền xử lý được đề xuất là giảm chiều dữ liệu nhằm giảm số lượng biến để phù hợp với các

hệ thống máy tính và giảm thời gian thực hiện thuật toán

Giảm chiều dữ liệu được hiểu là từ một tập dữ liệu gốc ban đầu, áp dụng các phươngpháp phân tích để giảm rất nhiều đặc trưng của dữ liệu sao cho vẫn giữ lại được bản chấtthông tin của tập dữ liệu đó Hiện nay, giảm chiều dữ liệu đã trở thành một bước kỹ thuậtcần thiết nhằm biến đổi dữ liệu gốc ban đầu bằng cách giảm đặc trưng để phù hợp với sốmẫu và các mô hình tính toán ở bước tiếp theo Trong nhiều năm qua, hướng nghiên cứu

về giảm chiều dữ liệu luôn thu hút được sự quan tâm của các nhà nghiên cứu và thực tế

đã có nhiều phương pháp giảm chiều dữ liệu đã được đưa ra nhằm giải quyết thách thứcnêu trên Có hai hướng tiếp cận chính để giảm chiều dữ liệu là lựa chọn đặc trưng và tríchchọn đặc trưng Lựa chọn đặc trưng giảm chiều bằng cách lựa chọn một tập con đặc trưng

từ tập đặc trưng gốc sao cho tập dữ liệu từ tập con đặc trưng vẫn phản ánh được bản chấtthông tin nhiều nhất có thể so với tập dữ liệu ban đầu Trích chọn đặc trưng giảm chiềudựa trên việc biến đổi tập đặc trưng gốc thành một tập đặc trưng mới trong không gianthấp chiều sao cho tối thiểu hóa mất mát thông tin so với tập dữ liệu ban đầu

Trong lĩnh vực y sinh học, giảm chiều dữ liệu đã được ứng dụng rộng rãi vào trong một

số kỹ thuật xử lý dữ liệu như: giảm chiều dữ liệu các tập dữ liệu sinh học phân tử đơn lẻ;

sử dụng các phương pháp giảm chiều dữ liệu để trích rút các thông tin hữu ích trong cáctập dữ liệu sinh học phân tử, dữ liệu ảnh y tế; kết hợp đồng thời giảm chiều dữ liệu vàtích hợp các tập dữ liệu sinh học phân tử, Từ tiền xử lý dữ liệu, các phương pháp giảm

Trang 4

chiều dữ liệu đã gián tiếp góp phần đáng kể trong việc nâng cao hiệu quả giải quyết cácbài toán y sinh học, trong đó có bài toán phân lớp bệnh nhân Phân lớp bệnh nhân đóngvai trò quan trọng, góp phần nâng cao hiệu quả trong chẩn đoán và điều trị bệnh nhân tạicác cơ sở y tế Thông qua việc chia bệnh nhân thành các lớp bệnh nhân khác nhau dựatrên đặc điểm sinh học và tình trạng bệnh, các cơ sở y tế sẽ kịp thời chẩn đoán phát hiện

và xác định tình trạng bệnh để có các phác đồ điều trị phù hợp với từng nhóm bệnh nhânkhác nhau nhằm nâng cao hiệu quả của việc điều trị

Tuy nhiên, cùng với sự phát triển của ngành khoa học dữ liệu, các tập dữ liệu hiện naytrở nên rất đa dạng, có cấu trúc và mối quan hệ phức tạp, đặc biệt là có kích thước ngàycàng lớn và được biểu diễn bởi nhiều độ đo khác nhau, đặc biệt là dữ liệu y sinh học Do

đó, các nghiên cứu giảm chiều dữ liệu cũng phải đối mặt với các thách thức mới xuất hiện,bao gồm: Một là, các tập dữ liệu gồm nhiều dữ liệu nhiễu, thưa và ngoại lai, nếu phântích chung với dữ liệu thông thường sẽ cho ra kết quả không chính xác Thách thức nàythường xảy ra với các tập dữ liệu sinh học phân tử Hai là, các loại dữ liệu sinh học phân

tử khác nhau đều chứa những thông tin hữu ích về vai trò của các phân tử đối với bệnhtật, do đó một nhu cầu bức thiết là tích hợp các nguồn dữ liệu có ý nghĩa đồng thời vớigiảm chiều dữ liệu để tạo ra tập dữ liệu tích hợp mang đầy đủ thông tin nhưng vẫn phùhợp với các mô hình, công cụ tính toán hiện tại Tuy nhiên, bản thân mỗi loại dữ liệu đã

có kích thước lớn, ngoài ra, mỗi loại dữ liệu sử dụng những độ đo khác nhau, do đó, việctích hợp dữ liệu cũng còn tồn tại nhiều thách thức Những thách thức trên đây đòi hỏicần sớm được giải quyết nhằm xây dựng được các phương pháp kịp thời đáp ứng với sựthay đổi phức tạp ngày càng tăng của dữ liệu

Từ những phân tích nêu trên, tác giả chọn thực hiện luận án Nghiên cứu một sốphương pháp giảm chiều dữ liệu, ứng dụng trong bài toán phân lớp bệnh nhânlàm đề tài nghiên cứu tiến sĩ của mình Thông qua nghiên cứu này, luận án tập trung vàogiải quyết một số vấn đề lớn sau:

Thứ nhất, nghiên cứu về các phương pháp giảm chiều dữ liệu đã được đề xuất, xác định

ưu, nhược điểm của các phương pháp đã được đề xuất trong lĩnh vực y sinh, từ đó làmtiền đề để đề xuất những cải tiến nhằm nâng cao hiệu quả của các phương pháp giảmchiều dữ liệu

Thứ hai, nghiên cứu cụ thể về hai phương pháp giảm chiều hiệu quả dựa trên học đahàm nhân và phân tích thành phần chính tăng cường Trong đó, học đa hàm nhân là việchọc một nhân từ nhiều hàm nhân hoặc ma trận nhân cơ sở, học đa hàm nhân được ứngdụng hiệu quả trong việc tích hợp dữ liệu Ngoài ra, phương pháp phân tích thành phầnchính tăng cường là phương pháp giảm chiều dữ liệu được mở rộng từ phương pháp phântích thành phần chính nhằm thích ứng với dữ liệu ngoại lai, nhiễu, và thưa Từ phân tích

ưu, nhược điểm của các phương pháp trên, luận án đề xuất cải tiến nhằm nâng cao hiệuquả của phương pháp

Thứ ba, áp dụng các phương pháp đã nghiên cứu vào xây dựng các mô hình phân lớpbệnh nhân để khẳng định tính ứng dụng cũng như hiệu quả của phương pháp Đặc biệtchú ý đến việc tích hợp dữ liệu từ nhiều nguồn khác nhau nhằm tận dụng sự phong phúcủa các nguồn dữ liệu cũng như thông tin hữu ích trong đó

Câu hỏi nghiên cứu

Trình bày các câu hỏi nghiên cứu để thực hiện luận án

Mục tiêu của luận án

Luận án tập trung nghiên cứu về các phương pháp giảm chiều dữ liệu nói chung và cụthể về các phương pháp giảm chiều dữ liệu được ứng dụng trong lĩnh vực y sinh học nói

Trang 5

riêng Trong đó, tập trung vào hai hướng nghiên cứu về phương pháp giảm chiều dữ liệukết hợp tích hợp dữ liệu và phương pháp giảm chiều dữ liệu đối với các tập dữ liệu ngoạilai Từ đó, luận án đặt ra ba mục tiêu lớn cần đạt được như sau:

1 Đề xuất cải tiến phương pháp tích hợp dữ liệu kết hợp giảm chiều dữ liệu

2 Nghiên cứu vận dụng phương pháp phân tích thành phần chính tăng cường tronggiảm chiều dữ liệu y sinh học

3 Đề xuất mô hình phân lớp bệnh nhân ứng dụng các phương pháp giảm chiều đã nghiêncứu nhằm tạo ra một công cụ hỗ trợ quá trình chẩn đoán và điều trị bệnh

Nội dung, đối tượng và phạm vi nghiên cứu

Để đạt được các mục tiêu nghiên cứu trên, luận án thực hiện nghiên cứu các nội dungtrên các đối tượng và phạm vi sau:

Phương pháp học đa hàm nhân kết hợp giảm chiều dữ liệu

giảm chiều dữ liệu với tập dữ liệu ngoại lai

cứu, góp phần tăng tính ứng dụng của các phương pháp đó

nhân dựa trên các phương pháp đã nghiên cứu và đề xuất nhằm nâng cao hiệu quảphân lớp bệnh nhân

Phương pháp nghiên cứu

* Nghiên cứu lý thuyết

* Nghiên cứu giả thuyết

* Nghiên cứu thực nghiệm

* Nghiên cứu định lượng

Các đóng góp chính của luận án

Luận án sau khi được thực hiện đã có ba đóng góp chính sau:

1 Xuất phát từ những tồn tại của phương pháp học đa hàm nhân kết hợp giảm chiều

dữ liệu (MKL-DR - Một phương pháp phù hợp và hiệu quả trong tiền xử lý dữ liệu ysinh học) là đòi hỏi chi phí về mặt thời gian lớn do trong thuật toán lặp đi lặp lại việctính tích chuỗi ma trận Luận án đã đề xuất một phương pháp cải tiến của phươngpháp MKL-DR gọi là fMKL-DR nhằm giảm đáng kể chi phí về thời gian tính toán

mà vẫn giữ được hiệu quả của phương pháp Kết quả này được công bố trong bài báo[GTTrung-1] và [GTTrung-2]

2 Dựa trên phương pháp fMKL-DR đã đề xuất ở trên, luận án đề xuất mô hình phânlớp bệnh nhân gồm:

và thực hiện phân lớp bệnh nhân ung thư hiệu quả Kết quả phân lớp khi thựcnghiệm trên mô hình đề xuất nằm trong ngưỡng tốt, kết quả này đóng góp vàoviệc hỗ trợ, chẩn đoán trong điều trị bệnh ung thư

Trang 6

ˆ Mô hình phân lớp bệnh nhân Alzheimer dựa trên dữ liệu ảnh cộng hưởng từ Kếtquả phân lớp khi thực nghiệm trên mô hình đề xuất nằm trong ngưỡng tốt, trợgiúp cho quá trình phát hiện sớm và đúng trạng thái bệnh của người bệnh để cóphác đồ điều trị bệnh phù hợp.

Kết quả này đã được công bố trong bài báo [GTTrung-3]

3 Đề xuất mô hình phân lớp bệnh nhân ung thư dựa trên phương pháp Phân tích thànhphần chính tăng cường (RPCA) Trong đó đề xuất một hướng giảm chiều dữ liệu bằngcách lựa chọn các đặc trưng dựa trên RPCA phù hợp với tập dữ liệu y sinh học Từ

đó làm căn cứ xây dựng mô hình phân lớp bệnh nhân dựa trên phương pháp học đahàm nhân

Kết quả này được công bố trên bài báo [GTTrung-4]

Đóng góp 1, 2 được trình bày trong nội dung của Chương 2, đóng góp 3 được trình bàytrong nội dung của Chương 3 Ngoài các đóng góp trên, luận án còn trình bày các nội dungkiến thức khác phụ trợ cho các phương pháp chính được trình bày trong mỗi chương

Bố cục của luận án

Bố cục của luận án gồm 5 phần chính:

Chương 1 Tổng quan về giảm chiều dữ liệu và ứng dụng trong xử lý

Trang 7

Chương 1

TỔNG QUAN VỀ GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG XỬ LÝ DỮ LIỆU Y SINH HỌC

1.1 Bài toán giảm chiều dữ liệu

Bài toán giảm chiều dữ liệu được phát biểu như sau:

Bài toán giảm chiều dữ liệu là bài toán đi tìm một hàm số:

f :RS →RD

với D < S, hàm f biến một điểm dữ liệu x trong không gian có số chiều (đặc trưng) lớn

1.2 Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học và bài toán phân lớp bệnh nhân

Trình bày và phân tích vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học vàbài toán phân lớp bệnh nhân

1.3 Các hướng tiếp cận nghiên cứu giảm chiều dữ liệu trong y sinh học

Trang 8

1.4 Một số thách thức đặt ra khi giảm chiều dữ liệu y sinh

Một số thách thức đặt ra khi giảm chiều dữ liệu y sinh trong giai đoạn hiện nay:

1.5 Vấn đề nghiên cứu của luận án

1.6 Kiến thức nền tảng chung

Trình bày các kiến thức nền tảng chung được sử dụng trong luận án như Phương phápĐánh giá kết quả thực nghiệm và Mô hình phân lớp bệnh nhân tổng quát ứng dụng trongđiều trị bệnh nhân

1.6.1 Đánh giá kết quả thực nghiệm

1.6.2 Mô hình phân lớp bệnh nhân tổng quát ứng dụng trong điều trị

bệnh nhân

1.7 Kết luận

Giảm chiều dữ liệu đã trở thành một bước tiền xử lý đóng vai trò quan trọng trong quátrình Khai phá tri thức từ dữ liệu ở nhiều lĩnh vực, trong đó có lĩnh vực y sinh học Dữliệu được biến đổi từ không gian có số chiều cao (với nhiều tồn tại như không phù hợp với

mô hình tính toán, chứa nhiều nhiễu, dữ liệu thưa) sang không gian có số chiều thấp hơn(phù hợp với mô hình tính toán, loại bỏ nhiễu, cô đặc dữ liệu) Đã có nhiều phương phápgiảm chiều dữ liệu được đề xuất thuộc một trong ba nhóm phương pháp (lựa chọn đặctrưng, trích chọn đặc trưng, lai giữa hai phương pháp trên) và đã chứng minh được hiệuquả của chúng trong xử lý dữ liệu y sinh học Tuy nhiên, từ những phân tích, đánh giácác phương pháp ở trên, có thể thấy vẫn còn tồn tại một số thách thức đặt ra khi giảmchiều dữ liệu y sinh học, trong đó có hai thách thức lớn đặt ra đòi hỏi các phương phápgiảm chiều dữ liệu cần phải giải quyết

Ngoài ra, trong lĩnh vực y sinh, bài toán phân lớp bệnh nhân đóng vai trò quan trọngtrong điều trị bệnh Phân lớp bệnh nhân góp phần chẩn đoán sớm tình trạng bệnh để kịpthời điều trị cũng như phân nhóm các bệnh nhân để có giải pháp chăm sóc và điều trị phùhợp với từng nhóm bệnh nhân Tuy nhiên, độ chính xác của các phương pháp phân lớpbệnh nhân ở một số loại bệnh còn chưa cao, do đó, đòi hỏi các nghiên cứu mới nhằm nângcao độ chính xác của các phương pháp phân lớp, góp phần nâng cao hiệu quả điều trị tạicác cơ sở y tế Thêm nữa, các phương pháp phân lớp bệnh nhân hiện nay đều sử dụng dữliệu sinh học phân tử, do đó giảm chiều dữ liệu trở thành bước tiền xử lý không thể thiếutrong các phương pháp phân lớp bệnh nhân

Từ các phân tích nêu trên cho thấy bài toán giảm chiều dữ liệu vẫn là một hướng nghiêncứu hấp dẫn, thu hút được sự quan tâm của các nhà nghiên cứu, đặc biệt là giảm chiều

dữ liệu cho dữ liệu y sinh học Mỗi phương pháp mới được đề xuất, mỗi cải tiến được ứngdụng vào trong các bài toán cụ thể góp phần nâng cao kết quả các hoạt động, trong đó cócác hoạt động trong y học mà điển hình là bài toán phân lớp bệnh nhân

Trang 9

đi lặp lại việc tính tích chuỗi ma trận Vì vậy, luận án đã nghiên cứu để cải tiến phươngpháp MKL-DR Chương này trình bày phương pháp hiệu quả dựa trên giảm chiều dữ liệukết hợp học đa hàm nhân và đề xuất mô hình phân lớp bệnh nhân dựa trên phương pháp

đã đề xuất Cụ thể, luận án đề xuất phương pháp hiệu quả dựa trên học đa hàm nhânkết hợp giảm chiều dữ liệu (fMKL-DR) fMKL-DR dựa trên tối ưu công thức tính toántích chuỗi ma trận thông qua một thuật toán xác định thứ tự nhân tích chuỗi ma trận

từ đó làm giảm đáng kể thời gian tính toán của phương pháp Ngoài ra, dựa trên phươngpháp fMKL-DR, luận án đề xuất một mô hình hiệu quả để phân lớp bệnh nhân ung thư

và phân lớp bệnh nhân Alzheimer Mô hình phân lớp được đề xuất là một công cụ hiệuquả làm tiền đề ứng dụng hỗ trợ trong việc phát hiện và điều trị các bệnh nói trên Cáckết quả của Chương này đã được công bố trong các bài báo [GTTrung-1], [GTTrung-2] và[GTTrung-3]

2.3.1 Ý tưởng thuật toán

Giảm chiều dữ liệu kết hợp học đa hàm nhân (Multiple Kernel Learning and sionality Reduction - MKL-DR) được đề xuất bởi Lin và cộng sự Phương pháp kết hợp

Dimen-cả học đa hàm nhân và giảm chiều dữ liệu dựa trên nhúng đồ thị nhằm vừa tích hợp dữ

Trang 10

liệu đồng thời giảm chiều dữ liệu Bài toán MKL-DR trong không gian nhiều chiều đượcphát biểu như sau:

arg min

A,β

NX

i,j=1

A>K(i)β − A>K(j)β

2

s.t.

NX

i,j=1

A>K(i)β − A>K(j)β

2

wij = const;

βm ≥ 0, m = 1, M.

đồng thời cả 2 biến là rất khó, vì vậy, một giải pháp được sử dụng là tối ưu hóa trên từng

được cố định, sau đó thực hiện ngược lại

buộc bậc 2, bài toán này nằm trong lớp bài toán NP-Khó, để giải được có thể rút gọnthành bài toán semidefinite và giải bằng semidefinite programming trong như sau:

i,j=1

SWA0 =

NX

i,j=1

SWβ α = λSDβαhoặcSWβ α = λSWβ 0 α (2.11)với:

SWβ =

NX

i,j=1

SWβ 0 =

NX

i,j=1

Trang 11

Việc lặp sẽ thực hiện cho đến khi hội tụ hoặc đạt tối đa số lần lặp Có thể khởi tạo giá

Thuật toán 2.1 dưới đây mô tả thủ tục huấn luyện MKL-DR Đầu vào của thuật toán

ma trận nhân cơ sở) và một phương pháp giảm chiều dữ liệu được xác định dựa trên các

Thuật toán 2.1: Thuật toán MKL-DR [?]

input : Các ma trận W và W0 tương ứng với phương pháp giảm chiều cơ sở được sử dụng (theo ??);

M ma trận nhân cơ sở KmMm=1 tương ứng với M tập dữ liệu.

output: Ma trận hệ số mẫu (ma trận chiếu) A = [α 1 , α 2 , , α P ];

5 Giải bài toán tối ưu (2.8) bằng SDP để tìm β;

6 Tính SWβ dựa trên (2.12) và SWβ0 dựa trên (2.13);

7 Giải bài toán giá trị riêng tổng quát (2.11) để tìm A;

8 return A, β;

Thời gian thực hiện thuật toán có thể chia thành hai giai đoạn: tích hợp dữ liệu kếthợp giảm chiều dữ liệu và xây dựng mô hình phân lớp dữ liệu Tích hợp dữ liệu kết hợp

số các ràng buộc tuyến tính với số ma trận nhân đầu vào và số biến sẽ bậc hai với số ma

2.3.2 Nhận xét phương pháp MKL-DR

* Hạn chế

Thuật toán 2.1 đã thể hiện thuật toán MKL-DR Phần lớn thời gian tính toán của thủ

toán 2.1) Các giá trị được tính toán bởi các công thức (2.9), (2.10), (2.12), (2.13) tương

phức tạp của tích chuỗi ma trận phụ thuộc vào kích thước của các ma trận thành phần (số

tăng đáng kể Trong một số thực nghiệm, với 541 mẫu quan sát, MKL-DR cần tới hàngnghìn giây để huấn luyện Hạn chế này đã vi phạm một trong ba nguyên tắc trong đánhgiá một phương pháp phân tích dữ liệu Chính vì vậy, cải thiện hiệu suất về mặt thời giantính toán cho MKL-DR là rất cần thiết để phương pháp này có thể áp dụng trong thực tế

2.4 Đề xuất cải tiến phương pháp MKL-DR

Sau khi phân tích, có ba tham số ảnh hưởng đến hiệu năng của phương pháp MKL-DR

Trang 12

nhỏ (trong thực nghiệm, luận án chọnP = 5) Do đó độ phức tạp của thuật toán làO(N 3 )

với thời gian đa thức Thuật toán huấn luyện MKL-DR tính toán lặp lại nhiều lần cáccông thức (2.9), (2.10), (2.12), (2.13), các công thức này tính dựa trên tổng xích ma cáctích chuỗi ma trận Khi các ma trận thành phần có kích thước càng lớn thì độ phức tạpcủa thuật toán càng lớn Do vậy, thời gian huấn luyện của MKL-DR sẽ gia tăng nhanhchóng khi số lượng các mẫu quan sát tăng

Độ phức tạp của tích chuỗi các ma trận chính là số hoạt động nhân cần thực hiện khinhân từng cặp ma trận Tích chuỗi ma trận có thuộc tính tổ hợp, nghĩa là khi thay đổithứ tự nhân giữa các cặp ma trận thì số lượng phép nhân sẽ thay đổi mà không ảnh hưởngđến kết quả của phép nhân Do đó, tác giả đề xuất một thủ tục dựa trên quy hoạch động

để tìm thứ tự thực hiện các phép nhân sao cho số phép nhân phải thực hiện là nhỏ nhất.Nếu số lượng các phép nhân là nhỏ nhất thì thời gian tính toán công thức sẽ giảm giúptăng hiệu suất về mặt thời gian của thuật toán

2.4.1 Thuật toán tìm thứ tự tính toán tốt nhất cho tích chuỗi ma trận

hiện là nhỏ nhất

Tác giả phát triển một thuật toán để cải tiến hoạt động nhân của tích chuỗi ma trậnsao cho tối thiểu hóa số phép nhân cần thực hiện trong Thuật toán 2.2 dưới đây

Thuật toán 2.2: Thuật toán tìm thứ tự tính tích chuỗi ma trận (MCMO)[?]

input : N ma trận có chuỗi kích thước là d 0 , d 1 , d 2 , , d N

output: Thứ tự nhân O = [o 1 , o 2 , , o q ] sao cho số phép nhân cần thực hiện là nhỏ nhất.

ma trận thành phần trong chuỗi tính tích) có giá trị nhỏ là bằng 4, do đó, thời gian tínhtoán của Thuật toán 2.2 là không đáng kể

Trang 13

Thuật toán 2.3: Thuật toán hiệu quả dựa trên giảm chiều dữ liệu kết hợp học đa hàm nhân (fMKL-DR) input : Các ma trận W và W0 tương ứng với phương pháp giảm chiều cơ sở được sử dụng (theo ??);

M ma trận nhân cơ sở KmMm=1 tương ứng với M tập dữ liệu.

output: Ma trận hệ số mẫu (ma trận chiếu) A = [α 1 , α 2 , , α P ];

Vector trọng số nhân β.

1 begin

2 Khởi tạo giá trị cho A hoặc β;

3 O A = MCMO(size(K (i) − K (j) ), size(β), size(β>), size((K (i) − K (j) )>));

W 0 dựa trên (2.10) theo thứ tự OA;

7 Giải bài toán tối ưu (2.8) bằng SDP để tìm β;

8 Tính SWβ dựa trên (2.12) và SWβ0 dựa trên (2.13) theo thứ tự Oβ;

9 Giải bài toán giá trị riêng tổng quát (2.11) để tìm A;

10 return A, β;

2.4.2 Đề xuất Thuật toán fMKL-DR

Từ Thuật toán 2.2, ta tìm ra được thứ tự tích tích chuỗi ma trận để tối ưu hoạt độngnhân Từ đó luận án đề xuất thuật toán hiệu quả dựa trên giảm chiều dữ liệu kết hợp học

đa hàm nhân như Thuật toán 2.3

Thuật toán 2.3 được xây dựng dựa trên Thuật toán 2.1 với cùng chung bộ Input vàOutput Trong đó, tại dòng số 3, 4 luận án sử dụng thuật toán MCMO đã đề xuất ở mục2.4.1 nhằm xác định thứ tự nhân tối ưu (sao cho số phép nhân vô hướng cần thực hiện là

ít nhất) cho các tích chuỗi ma trận của các công thức (2.9), (2.10), (2.12), (2.13) Tham

số được truyền vào khi sử dụng thuật toán MCMO là kích thước của 4 ma trận trong tíchchuỗi ma trận được nhân tại các công thức trên Kết quả là thứ tự nhân ma trận được lưu

các công thức (2.12), (2.13)

hướng phải thực hiện khi nhân tích chuỗi các ma trận là ít nhất Sau đó, giải bài toán tối

Điểm đóng góp của Thuật toán 2.3 là bổ sung thêm hai dòng 3, 4 để xác định thứ tựnhân tối ưu cho các tích chuỗi ma trận Sau đó, từ thứ tự tính tích chuỗi sau khi thu được

dựa trên hai thứ tự đã xác định Nhờ việc tính các tích chuỗi dựa trên thứ tự tối ưu sốphép nhân vô hướng nên thời gian thực hiện khi tính tích chuỗi ma trận được giảm đáng

của Thuật toán 2.3 sẽ được giảm đi đáng kể so với Thuật toán 2.1

2.5 Đề xuất mô hình phân lớp bệnh nhân dựa trên fMKL-DR

Luận án đề xuất mô hình phân lớp bệnh nhân ung thư được thể hiện trong Hình 2.3

Mô hình tổng quát gồm năm bước sau:

1 Chọn dữ liệu sinh học từ các nguồn khác nhau

Ngày đăng: 02/10/2024, 10:52