Nghiên cứu ứng dụng giảm chiều dữ liệu trong mô hình phân lớp bệnh nhân

MỤC LỤC

UNG DUNG TRONG XU LY DU LIEU Y SINH

Bài toán giảm chiều dữ liệu

Việc giảm chiều dit liệu có thể được thực hiện nhằm vào một số mục đích khác nhau như dùng để nén thông tin sao cho z có thể được suy ngược lại (xấp. xỉ) từ z hoặc phục vụ cho các bài toán phân lớp bằng cách chọn ra những đặc. (hoặc sinh mới) các gen có ý nghĩa, loại bỏ các gen không liên quan góp phần gia tăng độ chính xác cho các bài toán khai phá dit liệu ở bước tiếp theo.

Vai trò của giảm chiều dữ liệu trong nghiên cứu y sinh học

Ví dụ như đối với bệnh Ung thư phổi, chỉ có một số gen là nguyên nhân gây bệnh, khi đó nếu phân tích trên toàn bộ các gen thì các gen không liên quan có thể sẽ gây nhiễu và làm. Ngoài ra, một hướng giảm chiều khác dựa trên dữ liệu ảnh 3 chiều là sử dụng các độ đo thể tích, diện tích các vùng trên ảnh (như đo thể tích các vùng trên vỏ não), từ đó trích xuất một tập các đặc trưng mới là giá trị các độ đo các vùng của ảnh làm dit liệu biểu.

Các hướng tiếp cận trong nghiên cứu giảm chiều dữ liệu

Phương pháp lựa chọn đặc trưng tuần tự (Sequential Feature Selection - SFS) bắt đầu với một tap rỗng và thêm một đặc trưng cho bước đầu tiên mà làm tăng hiệu năng của hàm mục tiêu. Một phương pháp lựa chọn tiến hóa là một phương pháp mà không phải lúc nào nó cũng đi tìm phương án tốt nhất nhưng chắc chắn tìm ra một giải pháp tốt trong thời gian hợp lý bằng cách chấp nhận hi sinh một số mục tiêu.

Hình 1.2: Các phương pháp giảm chiều dữ liệu trong lĩnh vực y sinh học

Uóc lượng các ứng viên đủ tiêu chuẩn

Kiến thức nền tảng chung

Phương pháp này được gọi là phat-nhan máy vector hỗ trợ (LLDA based Recursive Feature Elimination. SVM - KP-SVM) khi nó tối ưu hóa hình dạng của nhân cơ sở radian (Radial. Basis Function - RBF) không đẳng hướng và loại bỏ các đặc trưng có mức độ. Trong những năm gần đây, phương pháp phân tích dữ liệu y sinh dựa trên học sâu (deep learning) đã có nhiều kết quả rất tích cực đóng góp vào giải quyết các bài toán y sinh học, trong đó, giảm chiều dữ liệu được xây dựng là một phan kiến trúc quan trọng.

Bảng 1.2: Ưu, nhược điểm của Phương pháp bao gói

TPR = "= TP YEN TP

Mô hình phân lớp bệnh nhân tổng quát ứng dụng trong điều trị bệnh nhân

Do đó, trong các bài toán nghiên cứu y sinh học, dif liệu lâm sàng thường được kết hợp sử dụng với các loại đữ liệu khác nhằm nâng cao kết quả phân tích của các phương pháp. Do đó, tùy thuộc vào tình trạng dữ liệu, các phương pháp hiện nay thường tìm cách kết hợp các loại dữ liệu trên làm đầu vào cho phương pháp phân tích nhằm kết hợp thông tin trong. Chuẩn hóa dữ liệu nhằm biến đổi dữ liệu về dạng phân phối chuẩn khi tập dữ liệu ban đầu không theo phân phối chuẩn nhằm thu được một phân phối dữ liệu tốt hơn trước khi áp.

Giảm chiều dữ liệu đóng vai trò rất quan trọng trong tiền xử lý dữ liệu, trở thành một bước tiền xử lý trong hầu hết các bài toán phân tích dữ liệu, đặc biệt. Sau khi có bộ phân lớp bệnh nhân, tùy vào đặc điểm sinh học, đặc điểm lâm sàng của bệnh nhân mà các bệnh nhân có đặc điểm chung sẽ được phân vào cùng một nhóm.

Hình 1.8: Mô hình phân lớp bệnh nhân tổng quát ứng dung trong điều trị bệnh nhân

NHÂN KET HỢP GIẢM CHIEU DU LIỆU

Kiến thức nền tảng

Tiếp theo, mối quan hệ tuyến tính giữa các cặp dữ liệu trong F sẽ được xác định dựa trên ma trận nhân chứ không phải trên tập dit liệu gốc. Học đa hàm nhân (Multiple Kernel Learning - MKL) là phương pháp học. một nhân từ nhiều hàm nhân hoặc ma trận nhân. Các nghiên cứu như [60) [7], đã chỉ ra rằng việc học SVM với đa nhân không chỉ ra tăng tính chính xác mà còn tăng tính giải thích được của kết quả phân lớp. Nhúng đồ thị trong giảm chiều dữ liệu (Nhúng đồ thị - Graph Embedding) được Yan đề xuất trong [98] nhằm xây dựng một mô hình thống nhất lại các.

Nhúng đồ thị định nghĩa một cách biểu diễn dữ liệu dựa trên đồ thị mà có thể áp dụng chung cho nhiều phương pháp giảm chiều đã được đề xuất trước đây, ngoài ra cũng có thể xây dựng thuật toán giảm chiều mới dựa trên nó. Dit liệu ban đầu được biểu diễn dưới dạng một đồ thị, sau đó tìm vector chiếu biểu diễn mối quan hệ giữa các đỉnh của đồ thị trong.

Hình 2.1: Ý tưởng của phương pháp ham nhãn

TĂNG CƯỜNG

Phương pháp phân tích thành phần chính

Các biến mới hay còn gọi là các thành phần chính được tìm ra bằng cách giải bài toán giá trị riêng/vector riêng dựa trên tập dữ liệu, do đó, PCA có sự thích nghi tốt. Một trong các kỹ thuật giảm chiều dữ liệu là loại bỏ đi các đặc trưng không mang nhiều thông tin, giữ lại các đặc trưng mang nhiều thông tin. Phan tích dựa trên ma trận dữ liệu, giả sử ta có tập dữ liệu ban đầu là ma trận O (kích thước N x D, với N là số mẫu, D là số chiều (đặc trưng)).

Thực hiện chuẩn hóa dữ liệu bằng cách dịch hệ trục tọa độ về trung tam của dữ liệu bằng cách trừ đi giá trị mỗi điểm dữ liệu cho trung bình của cột đó. Như vậy có thể thấy giá trị của L không phụ thuộc vào ma trận trực giao và bằng tổng các phan tử trên đường chéo của S (ma trận hiệp phương sai của tập dữ liệu được chuẩn hóa).

Hình 3.2: Minh họa ý tưởng phương pháp PCA

Phương pháp phân tích thành phan chính tăng cường

Phương pháp RPCA-PCP được biểu diễn qua bài toán được đề xuất đầu tiên nhằm giải bài toán phân tách vật thể chuyển động khỏi các video. Việc tối thiểu hóa L và 9 ngụ ý rằng phần nền video được xấp xỉ bởi một không gian con cấp thấp có thể thay đổi dần theo thời gian, trong khi các đối tượng tiền cảnh chuyển động tạo thành các giá trị ngoại lai thưa thớt. Trong phạm vi luận án, Phương pháp RPCA-PCP được ứng dung trong bài toán phân rã tập dữ liệu sinh hoc phân tử, trong đó L được xem như.

Trên các tập dit liệu lớn, 9 được khuyến nghị tối ưu trước sẽ làm cho hạng của ma trận 7 cũng tăng đơn điệu giúp tăng hiệu năng của SVD và góp phần cải thiện tốc độ tính. RPCA được phát triển và đã được ứng dụng hiệu quả vào các bài toán xử lý ảnh hay xử lý video do đặc điểm của các bức ảnh hay các khung anh (frame).

Dé xuất mô hình phân lớp bệnh nhân dựa trên phương pháp phân tích thành phần chính tăng cường

Mô hình đề xuất gồm 2 bước: Bước 1 thực hiện giảm chiều dữ liệu và trích chọn các đặc trưng có ý nghĩa dựa trên RPCA từ các tập dữ liệu gốc (chi tiết được. Bước 2 xây dựng các bộ phân lớp dựa trên MKBoost-S2 (do. bộ nhân lai được tạo bởi MKBoost-S2 được chỉ ra góp phan làm tăng độ chính. xác của các bộ phân lớp [[21|) để tích hợp và tích hợp các bộ phân lớp bằng wMKL (wMKL là một phương pháp đơn giản để tích hợp các bộ phân lớp dựa trên tổ hợp độ chính xác của từng bộ phân lớp thành phần) để tạo thành bộ. Trong đó, O là ma trận dữ liệu quan sát gốc hay chính là tập dữ liệu biểu hiện gen, L là ma trận hạng thấp biểu diễn cho phan dữ liệu không khác biệt và S là ma trận thưa biểu diễn cho các gen khác biệt.

Mỗi dòng của ma trận Š9 biểu diễn các phiên mã đáp ứng của một gen của các mẫu quan sát, mỗi cột của biểu diễn các mức biểu hiện của m gen trong một mẫu. Cụ thể, bộ phân lớp tổ hợp được xây dựng dựa trên tổng xích ma của các 3 bộ phân lớp với trọng số tương ứng, nghĩa là mỗi tham số để hình thành nên Ce được tính bằng tổng xích ma của tham số.

Hình 3.5: Mô hình phân lớp bệnh nhân ung thu dựa trên RPCA

Thực nghiệm và kết quả

Các thiết kế thử nghiệm phân lớp được thiết kế nhằm đánh giá hiệu quả của việc tích hợp các loại đữ liệu một cách gián tiếp dựa trên tích hợp các bộ phân lớp. Nếu các bộ phân lớp có tích hợp tất cả các loại dữ liệu cho kết quả tốt hơn các bộ phân lớp trên các loại dữ liệu riêng lẻ (hoặc chỉ tích hợp một phần) sẽ chứng minh giả thuyết trên là đúng và ngược lại. Khi giả thuyết này được chấp nhận, giỏ trị trung bỡnh độ chớnh xác (và giá trị AUC) cao hơn các giá trị cần so sánh của thực nghiệm thì chứng minh các kết quả phân lớp của thực nghiệm có ý nghĩa.

Mặc dù khi kết hợp 2 bộ phân lớp đều cho kết quả tốt hơn so với từng bộ phân lớp đơn lẻ, tuy nhiên kết quả tốt nhất có được khi kết hợp 3 bộ phân lớp. Trên tất cả các bệnh ung thư, khi tích hợp 3 bộ phân lớp dựa trên wMKL để tạo thành một bộ phân lớp duy nhất có độ chính xác cao hơn đáng kể so với khi tích hợp 2 hay từng bộ phân.