ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ———— GIANG THÀNH TRUNG NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢM SỐ CHIỀU DỮ LIỆU Chuyên ngành Hệ thống thông tin Mã số 9480104 01 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ———— GIANG THÀNH TRUNG NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢM SỐ CHIỀU DỮ LIỆU Chuyên ngành: Hệ thống thơng tin Mã số: 9480104.01 TĨM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TIN Hà Nội - 2021 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: - PGS TS Trần Đăng Hưng - TS Lê Nguyên Khôi Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội MỞ ĐẦU Đặt vấn đề Trong thập kỷ vừa qua, ngành khoa học đời sống thực nghiệm trải qua cách mạng với phát triển nhanh chóng thiết bị thí nghiệm thiết bị đo công nghệ cao Cùng với phát triển đó, lượng liệu đo đạc, lưu trữ xử lý ngày lớn tất lĩnh vực đời sống xã hội, đặc biệt lĩnh vực y sinh học có phát triển vượt bậc liệu kể từ trình tự gene hồn chỉnh người giải mã Nhiều liệu y sinh học có gia tăng theo hàm mũ thường tồn nhiều dạng khác như: vector số, ảnh, âm thanh, video, văn bản, Nguồn liệu sở cho việc phân tích đề xuất hệ thống trợ giúp định hỗ trợ cho hoạt động chuẩn đoán chữa trị bệnh chúng thơng tin phản ánh khách quan hoạt động xảy quan thể Dữ liệu dạng thô xử lý, biến đổi, tính tốn chuyển hóa thành tri thức để trở nên hữu ích nhằm hỗ trợ định Tuy nhiên, thách thức phương pháp xử lý liệu cân số lượng thuộc tính (cịn gọi đặc trưng, biến) số lượng mẫu quan sát Trong nhiều trường hợp, liệu có số thuộc tính nhiều nhiều so với số lượng đối tượng quan sát (mẫu) Ví dụ, tập liệu microarray mảng hai chiều, cột gen, dịng mẫu quan sát Đối với loại sinh vật, số lượng gen thường từ vài nghìn đến vài chục nghìn, số mẫu thường vài trăm Nếu nhìn theo khía cạnh hệ phương trình tốn học, tốn có số phương trình nhiều lần so với số biến tốn khơng giải thời gian đa thức Ngoài ra, tập liệu ngày lớn kèm theo số lượng biến lớn địi hỏi chi phí tính tốn lâu, dẫn đến khơng đáp ứng nhu cầu thời gian phản hồi đưa vào tốn thực tế Khi đó, bước tiền xử lý đề xuất giảm chiều liệu nhằm giảm số lượng biến để phù hợp với hệ thống máy tính mơ hình tính tốn bước Giảm chiều liệu hiểu từ tập liệu gốc ban đầu, áp dụng phương pháp phân tích để giảm nhiều đặc trưng liệu cho giữ lại chất thông tin tập liệu Giảm chiều liệu trở thành bước kỹ thuật cần thiết nhằm biến đổi liệu gốc ban đầu cách giảm đặc trưng để phù hợp với số mẫu mô hình tính tốn bước Trong nhiều năm qua, hướng nghiên cứu giảm chiều liệu thu hút quan tâm nhà nghiên cứu thực tế có nhiều phương pháp giảm chiều liệu đưa nhằm giải toán nêu Trong lĩnh vực Tin-sinh học, giảm chiều liệu ứng dụng rộng rãi vào số kỹ thuật xử lý toán như: giảm chiều liệu tập liệu sinh học phân tử đơn lẻ; sử dụng phương pháp giảm chiều liệu để trích rút thơng tin hữu ích tập liệu sinh học phân tử; kết hợp đồng thời giảm chiều liệu tích hợp tập liệu sinh học phân tử, Tuy nhiên, với phát triển ngành khoa học liệu, tập liệu trở nên đa dạng, có cấu trúc mối quan hệ phức tạp, đặc biệt có kích thước lớn biểu diễn nhiều độ đo khác Do đó, nghiên cứu giảm chiều liệu phải đối mặt với thách thức xuất hiện, bao gồm: Một là, tập liệu gồm nhiều liệu nhiễu, thưa ngoại lai, phân tích chung với liệu thơng thường cho kết khơng xác; Hai là, loại liệu sinh học phân tử khác chứa thơng tin hữu ích đường phân tử tế bào vai trò chúng bệnh tật, nhu cầu thiết tích hợp nguồn liệu có ý nghĩa đồng thời với giảm chiều liệu để tạo tập liệu tích hợp mang đầy đủ thơng tin phù hợp với mơ hình, cơng cụ tính tốn Tuy nhiên, thân loại liệu có kích thước lớn, ngồi ra, loại liệu sử dụng độ đo khác nhau, đó, việc tích hợp liệu cịn tồn nhiều thách thức Từ phân tích nêu trên, tác giả chọn thực luận án Nghiên cứu số phương pháp giảm số chiều liệu làm đề tài nghiên cứu tiến sĩ Thơng qua nghiên cứu này, luận án tập trung vào giải số vấn đề lớn sau: Thứ nhất, nghiên cứu phương pháp giảm chiều liệu đề xuất, xác định ưu, nhược điểm phương pháp đề xuất, từ làm tiền đề đề xuất cải tiến nhằm nâng cao hiệu phương pháp giảm chiều liệu Thứ hai, nghiên cứu cụ thể số phương pháp có tính ứng dụng cao, phân tích ưu, nhược điểm phương pháp để từ đề xuất cải tiến nhằm nâng cao hiệu phương pháp Thứ ba, áp dụng phương pháp nghiên cứu vào xây dựng mơ hình phân lớp bệnh nhân để khẳng định tính ứng dụng hiệu phương pháp Đặc biệt ý đến việc tích hợp liệu từ nhiều nguồn khác nhằm tận dụng phong phú nguồn liệu thông tin hữu ích Mục tiêu luận án Tác giả đặt ba mục tiêu lớn cần đạt luận án dựa vấn đề cần giải sau: Nghiên cứu tổng hợp để xây dựng tổng quan phương pháp giảm chiều liệu, tập trung vào phương pháp ứng dụng lĩnh vực Tin-Sinh học Trong đó, tập trung thảo luận ưu, nhược điểm phương pháp đề xuất Phân tích hai phương pháp hiệu xử lý liệu Tin-Sinh học Phương pháp học đa nhân kết hợp giảm chiều liệu Phương pháp phân tích thành phần tăng cường Trên sở đó tìm điểm mạnh hạn chế phương pháp để đề xuất số cải tiến nhằm khắc phục tồn để tăng tính ứng dụng phương pháp thực tế Căn đề xuất cải tiến, xây dựng mô hình phân lớp bệnh nhân nhằm tạo cơng cụ hỗ trợ q trình chuẩn đốn điều trị bệnh Các mơ hình đề xuất ứng dụng thực tiễn kết nghiên cứu lý thuyết đạt mục tiêu thứ hai Các đóng góp luận án Luận án sau thực có ba đóng góp sau: Đề xuất thuật toán hiệu dựa học đa nhân kết hợp giảm chiều liệu (Phương pháp fMKL-DR) Xuất phát từ tồn phương pháp Học đa nhân kết hợp giảm chiều liệu (MKL-DR - Một phương pháp phù hợp hiệu tiền xử lý liệu y sinh) địi hỏi chi phí mặt thời gian lớn thuật toán lặp lặp lại việc tính tích chuỗi ma trận Tác giả đề xuất thuật toán dựa phương pháp quy hoạch động để xác định thứ tự nhân tối ưu cho tích chuỗi ma trận Từ đó, tác giả đề xuất phương pháp cải tiến phương pháp MKL-DR gọi fMKL-DR nhằm giảm đáng kể chi phí thời gian tính tốn mà giữ hiệu phương pháp Kết có ý nghĩa lớn thời đại liệu lớn tập liệu ngày lớn, đa dạng việc giảm đáng kể thời gian thực phương pháp giúp tăng khả ứng dụng phương pháp thực tế Kết công bố báo [GTTrung-1] hội thảo KSE 2017 [GTTrung-2] Hội thảo IUKM 2018 Dựa phương pháp fMKL-DR đề xuất trên, tác giả đề xuất mơ hình phân lớp bệnh nhân gồm: Mơ hình tích hợp liệu bệnh nhân ung thư từ nguồn liệu khác thực phân tầng bệnh nhân ung thư hiệu Mơ hình đề xuất kết hợp liệu dựa fMKL-DR từ ba loại liệu khác gồm: biểu gene, methyl hóa DNA biểu miRNA biểu Protein Mơ hình phân lớp dựa phương pháp Máy vector hỗ trợ (SVM) với đầu vào tập liệu tích hợp fMKL-DR Mơ hình có kết phân tách tốt, kết đóng góp vào việc hỗ trợ, chuẩn đốn điều trị bệnh ung thư Mơ hình phân lớp bệnh nhân Alzheimer dựa liệu ảnh cộng hưởng từ Dữ liệu ảnh cộng hưởng từ dạng ảnh phân tích phần mềm FreeSurfer, sau đó, trích xuất giá trị độ đo đánh giá hiệu việc phân tích liệu bệnh Alzheimer từ ảnh chụp cộng hưởng từ thu tập liệu tương ứng Một mô hình tích hợp liệu từ tập liệu dựa phương pháp fMKL-DR thực xây dựng mơ hình phân lớp dựa SVM Mơ hình xây dựng có kết phân tách tốt, trợ giúp cho trình phát sớm trạng thái bệnh người bệnh để có phác đồ điều trị bệnh phù hợp Các mơ hình phân lớp bệnh nhân đề xuất có kết tích cực công cụ hiệu hỗ trợ điều trị bệnh ung thư bệnh Alzheimer Các mô hình tận dụng mạnh fMKL-DR tích hợp nhiều nguồn liệu khác đồng thời với giảm chiều liệu mà bảo đảm hiệu mặt thời gian tính tốn Mơ hình có tính ứng dụng cao liệu y sinh quan sát, lưu trữ đưa vào xử lý ngày đa dạng loại độ phức tạp kích thước (xét khía cạnh số đặc trưng) Kết cơng bố báo [GTTrung-3] Tạp chí BMC Medical Informatics and Decision Making năm 2020 Đề xuất mơ hình phân lớp bệnh nhân ung thư dựa phương pháp Phân tích thành phần tăng cường (RPCA) Trong đề xuất hướng giảm chiều liệu cách lựa chọn đặc trưng dựa RPCA phù hợp với tập liệu Tin-sinh học Từ làm xây dựng mơ hình phân lớp bệnh nhân Kết công bố báo [GTTrung-4] Hội thảo AICI 2021 Đóng góp 1, trình bày nội dung Chương 2, đóng góp trình bày nội dung Chương Ngồi đóng góp trên, luận án cịn trình bày nội dung kiến thức khác phụ trợ cho phương pháp trình bày chương Bố cục luận án Bố cục luận án gồm phần chính: Mở đầu trình bày khái quát toán giảm chiều liệu ứng dụng lĩnh vực Tin-sinh học Ngoài ra, phần trình bày đóng góp luận án bố cục luận án Chương 1, 2, phần nội dung luận án tương ứng với nội dung cụ thể sau: Chương trình bày Tổng quan giảm chiều liệu ứng dụng xử lý liệu Tin-sinh học Chương trình bày phương pháp giảm chiều liệu ứng dụng hiệu toán Tin-sinh học phương pháp Phân lớp bệnh nhân hiệu dựa học đa nhân kết hợp giảm chiều liệu Chương trình bày phương pháp Phân lớp bệnh nhân dựa phương pháp phân tích thành phần tăng cường Kết luận tóm lược lại kết đạt luận án, từ phân tích hạn chế hướng nghiên cứu phù hợp với nội dung luận án tương lai Chương TỔNG QUAN VỀ GIẢM CHIỀU DỮ LIỆU VÀ ỨNG DỤNG TRONG TIN-SINH HỌC Chương này, tập trung trình bày tổng quan giảm chiều liệu, tầm quan trọng ứng dụng phương pháp giảm chiều xử lý liệu Tin-sinh học nhằm đưa tranh tổng quan phương pháp giảm chiều liệu 1.1 Bài toán giảm chiều liệu Bài toán giảm chiều liệu phát biểu sau: Đầu vào: Tập liệu X có số chiều (đặc trưng, biến) S lớn Đầu ra: Tập liệu X có số chiều D nhỏ nhiều so với S mà giữ chất liệu tương đương X Bài toán giảm chiều liệu tốn tìm hàm số: f :RS → RD x→z (1.1) với S < D, hàm f biến điểm liệu x khơng gian có số chiều (đặc trưng) lớn thành điểm z khơng gian có số chiều nhỏ RD RS 1.2 Các hướng tiếp cận nghiên cứu giảm chiều liệu 1.2.1 Lựa chọn đặc trưng 1.2.1.1 Các phương pháp lọc (Filter Methods) 1.2.1.2 Các phương pháp bao gói (Wrapper Methods) 1.2.1.3 Các phương pháp nhúng (Embedded Methods) 1.2.2 Trích chọn đặc trưng 1.2.2.1 Phương pháp trích chọn đặc trưng tuyến tính 1.2.2.2 Phương pháp trích chọn đặc trưng khơng tuyến tính 1.2.3 Phương pháp lai 1.3 Ý nghĩa ứng dụng giảm chiều liệu Giảm chiều liệu áp dụng thực tế nhiều lĩnh vực như: Xử lý ảnh Xử lý ngôn ngữ tự nhiên Các toán Tin-sinh học Một số lĩnh vực khác 1.4 Kết luận Giảm chiều liệu trở thành bước tiền xử lý đóng vai trị quan trọng trình Khai phá tri thức từ liệu nhiều lĩnh vực Dữ liệu biến đổi từ khơng gian có số chiều cao (với nhiều tồn khơng phù hợp với mơ hình tính tốn, chứa nhiều nhiễu, liệu thưa) sang khơng gian có số chiều thấp (phù hợp với mơ hình tính tốn, loại bỏ nhiễu, đặc liệu) Đã có nhiều phương pháp giảm chiều liệu đề xuất thuộc ba nhóm phương pháp (lựa chọn đặc trưng, trích chọn đặc trưng, lai hai phương pháp trên) chứng minh hiệu chúng Tuy nhiên, từ phân tích, đánh giá phương pháp tác giả nhận thấy tồn số thách thức toán giảm chiều liệu mà phương pháp đề xuất chưa khắc phục triệt để như: Một là, phương pháp thường địi hỏi chi phí tính tốn lớn Một số phương pháp lưu trữ trạng thái để huấn luyện mơ hình địi hỏi chi phí nhớ lớn Ngồi ra, liệu biểu diễn dạng ma trận thực phép tốn tính tích để tổ hợp ma trận thường địi hỏi chi phí lớn mặt thời gian Đây thách thức không nhỏ thực tế lượng liệu ngày tăng để phù hợp áp dụng thực tế tốc độ đáp ứng mặt thời gian cần phải đảm bảo Hai là, phương pháp đề xuất thường sử dụng nhiều tham số mơ hình Việc sử dụng tham số giúp phương pháp có linh động việc sử dụng nhiều toán khác Tuy nhiên, với tốn cụ thể, việc tìm tham số tối ưu nhiều thời gian nhà nghiên cứu làm thực nghiệm tham số phù hợp với đặc trưng liệu định Từ cho thấy, cần có giải pháp nghiên cứu, đề xuất cách lựa chọn tham số phù hợp với toán, loại liệu giúp giảm thời gian làm thực nghiệm không mang nhiều ý nghĩa nhà nghiên cứu Ba là, hầu hết phương pháp đề xuất thường dựa tốn ứng dụng cụ thể nên thường có kết tốt áp dụng vào toán cụ thể Tuy nhiên, áp dụng phương pháp sang tốn khác thường khơng đạt kết tốt, có cần chỉnh sửa bổ sung thêm nhiều thành phần để sử dụng toán Đây điều đáng tiếc, có phương pháp giảm chiều liệu có mức tổng quát cao, bao hàm phạm vi rộng rãi toán, loại liệu có ý nghĩa lớn Bốn là, số tốn có tương đồng liệu cao, áp dụng phương pháp giảm chiều liệu tập liệu sau giảm chiều có phân tách chưa thực tốt Có thể kể đến tốn chuẩn đốn xem bệnh nhân có triệu chứng suy giảm nhận thức nhẹ bị chuyển sang bệnh Alzheimer hay không chưa đạt kết tốt bệnh nhân có đặc trưng tương đồng (xét ảnh chụp cộng hưởng từ não) Từ bốn thách thức nêu cho thấy toán giảm chiều liệu hướng nghiên cứu hấp dẫn, thu hút quan tâm nhà nghiên cứu Mỗi phương pháp đề xuất, cải tiến đề xuất ứng dụng góp phần hỗ trợ cho việc phát tri thức hữu ích từ liệu Chương PHƯƠNG PHÁP HIỆU QUẢ PHÂN LỚP BỆNH NHÂN KẾT HỢP GIẢM CHIỀU DỮ LIỆU Chương trình bày phương pháp hiệu dựa giảm chiều liệu kết hợp học đa nhân đề xuất mơ hình phân lớp bệnh nhân dựa phương pháp đề xuất Cụ thể, tác giả đề xuất phương pháp hiệu dựa học đa nhân kết hợp giảm chiều liệu (fMKL-DR) fMKL-DR dựa tối ưu cơng thức tính tốn tích chuỗi ma trận thơng qua thuật tốn xác định thứ tự nhân tích chuỗi ma trận từ làm giảm đáng kể thời gian tính tốn phương pháp Ngoài ra, dựa phương pháp fMKL-DR, tác giả đề xuất mơ hình hiệu để phân lớp bệnh nhân ung thư phân lớp bệnh nhân Alzheimer Mơ hình phân lớp đề xuất cơng cụ hiệu làm tiền đề ứng dụng hỗ trợ việc phát điều trị bệnh nói Các kết Chương công bố báo [GTTrung-1], [GTTrung-2] [GTTrung-4] 2.1 Giới thiệu 2.2 Kiến thức tảng 2.2.1 Phương pháp nhân 2.2.2 Phương pháp học đa nhân 2.2.3 Phương pháp nhúng đồ thị 2.3 Phương pháp MKL-DR 2.3.1 Ý tưởng thuật toán Giảm chiều liệu kết hợp học đa nhân (Multiple Kernel Learning and Dimensionality Reduction - MKL-DR) đề xuất Lin cộng Phương pháp kết hợp học đa nhân giảm chiều liệu dựa nhúng đồ thị nhằm vừa tích hợp liệu đồng thời giảm chiều liệu Bài toán MKL-DR không gian nhiều chiều phát biểu sau: N X > (i) > (j) A K β − A K β wij A,β i,j=1 N X > (i) > (j) s.t A K β − A K β wij = const; i,j=1 (2.7) βm ≥ 0, m = 1, M Bài toán (2.7) cần tối ưu dựa A β Việc giải toán tối ưu dựa đồng thời biến khó, vậy, giải pháp sử dụng tối ưu hóa biến một, nghĩa là, lần lặp A β tối ưu biến cịn lại cố định, sau thực ngược lại Cố định A để tìm β Bài toán (2.7) trở thành toán tối ưu bậc dựa ràng buộc bậc 2, toán nằm lớp tốn NP-Khó, để giải rút gọn thành tốn semidefinite giải semidefinite programming sau: A B) trace(SW β,B (2.8) A A B) = trace(SW s.t trace(SD B) = 1; e> m β ≥ 0, m = 1, , M ; β> β B với: A SW N X = wij (K(i) − K(j) )> AA> (K(i) − K(j) ) (2.9) w0 ij (K(i) − K(j) )> AA> (K(i) − K(j) ) (2.10) i,j=1 A SW N X = i,j=1 với em vector cột mà tất phần tử ngoại trừ phần tử thứ m B biến thêm vào để rút gọn toán gốc toán semidefinite-relaxation Cố định β để tìm A Bài tốn (2.7) trở thành toán giá trị riêng tổng quát sau: β β β β α SW α = λSW α = λSD SW 0α (2.11) với: β SW = N X wij (K(i) − K(j) )ββ > (K(i) − K(j) )> (2.12) w0 ij (K(i) − K(j) )ββ > (K(i) − K(j) )> (2.13) i,j=1 β SW = N X i,j=1 Việc lặp thực hội tụ đạt tối đa số lần lặp Có thể khởi tạo giá trị ban đầu cho A tối ưu β trước cách gán cho A> A = I , khởi tạo vector trọng số β với phần tử tối ưu A trước Thuật tốn mơ tả thủ tục huấn luyện MKL-DR Đầu vào thuật tốn M tập liệu, tập liệu biểu diễn thành ma trận nhân (gọi ma trận nhân sở) phương pháp giảm chiều liệu xác định dựa ma trận W W Thời gian thực thuật tốn chia thành hai giai đoạn: tích hợp liệu kết hợp giảm chiều liệu xây dựng mơ hình phân lớp liệu Tích hợp liệu kết hợp ... thực luận án Nghiên cứu số phương pháp giảm số chiều liệu làm đề tài nghiên cứu tiến sĩ Thông qua nghiên cứu này, luận án tập trung vào giải số vấn đề lớn sau: Thứ nhất, nghiên cứu phương pháp giảm. .. tổng quan phương pháp giảm chiều liệu 1.1 Bài toán giảm chiều liệu Bài toán giảm chiều liệu phát biểu sau: Đầu vào: Tập liệu X có số chiều (đặc trưng, biến) S lớn Đầu ra: Tập liệu X có số chiều D... vực Tin- sinh học, giảm chiều liệu ứng dụng rộng rãi vào số kỹ thuật xử lý toán như: giảm chiều liệu tập liệu sinh học phân tử đơn lẻ; sử dụng phương pháp giảm chiều liệu để trích rút thơng tin