CHƯƠNG 1. TỔNG QUAN VỀ MẠNG PHỨC HỢP VÀ KHAI PHÁ DỮ LIỆU BỆNH UNG THƢ
1.2. Phân loại các phương pháp giải bài toán xác định gene gây bệnh
1.2.2. Phương pháp dựa trên kỹ thuật học máy
Quá trình xác định gene chỉ thị ung thư thông qua học máy thường bắt đầu bằng việc thu thập dữ liệu gene từ bệnh nhân ung thƣ, bao gồm các mẫu tế bào hoặc mẫu máu. Các kỹ thuật tiếp theo sẽ đƣợc sử dụng để trích xuất thông tin gene từ dữ liệu này.
Sau khi dữ liệu gene được thu thập và tiền xử lý, các phương pháp học máy đƣợc áp dụng để phân tích và xác định gene chỉ thị ung thƣ. Các thuật toán học máy như học không giám sát, học có giám sát và học tăng cường được sử dụng để tạo ra mô hình dự đoán.
Trong quá trình xây dựng mô hình, dữ liệu gene đƣợc chia thành hai phần: tập huấn luyện và tập kiểm tra. Tập huấn luyện đƣợc sử dụng để huấn luyện mô hình máy học với mục tiêu là tìm ra các mẫu, mẫu gene hoặc biểu hiện gene liên quan đến ung thƣ. Sau đó, mô hình này đƣợc sử dụng để dự đoán và xác định gene chỉ thị ung thƣ trên tập kiểm tra.
Một số phương pháp cụ thể đã được đề xuất theo tiếp cận học máy, cụ thể nhƣ:
- Decision Tree Learning [6] sử dụng thuật toán cây quyết định xen kẽ để xếp hạng các gene theo thứ tự khả năng liên quan đến bệnh. Nghiên cứu đã chỉ
ra các gene bệnh chia sẻ các mẫu tính năng dựa trên trình tự, có thể cung cấp cơ
sở tốt cho việc tự động ưu tiên các ứng cử viên bằng phương pháp học máy. Nhiều đặc điểm dựa trên trình tự đƣợc nhận diện và một vài trong số chúng có
21
sự khác biệt đáng kể giữa các bộ gene đƣợc biết là có liên quan đến bệnh di truyền ở người và những gene chưa được biết là có liên quan đến bệnh.
- Thuật toán k-Nearest Neighbor (k- NN) [7], một giải thuật di truyền đã đƣợc sử dụng để chọn một bộ tham chiếu cho quy tắc k - láng giềng gần nhất. Hiệu suất của thuật toán đã đƣợc đánh giá trên một bộ dữ liệu y tế bằng phương pháp xoay vòng. Các kết quả được nhận xét cùng với những kết quả thu đƣợc với k - NN tiêu chuẩn, lựa chọn ngẫu nhiên, thuật toán của k - NN của
Wilson [8] và thuật toán MULTIEDIT [9] trong dự đoán gene bệnh.
- Naive Bayesian [10], phát triển phương pháp tính toán linh hoạt giảm kích thước đa yếu tố để thu gọn dữ liệu di truyền nhiều chiều thành một chiều duy nhất, do đó cho phép phát hiện, mô tả đặc điểm và giải thích các tương tác giữa các gene hoặc hiện tượng ký sinh trong các nghiên cứu về bệnh ở người trên các cỡ mẫu tương đối nhỏ. Nghiên cứu cho thấy độ chính xác, độ nhạy, độ đặc hiệu của bộ phân loại Naive Bayes đƣợc cải thiện đáng kể khi đa hình đơn nucleotide đƣợc chọn dựa trên mức tăng thông tin của chúng (tức là loại bỏ entropy của lớp) và giảm thành một thuộc tính duy nhất.
- Artificial Neural Networks [11], đề xuất một phương pháp phân loại các gene gây ung thƣ thành các loại chẩn đoán cụ thể dựa trên chữ ký biểu hiện gene của chúng bằng mạng thần kinh nhân tạo (ANN). ANN đã phân loại chính xác tất cả các mẫu và xác định các gene phù hợp nhất với phân loại. Để kiểm tra khả năng nhận dạng của các mô hình ANN đã đƣợc đào tạo, nghiên cứu đã phân tích thêm các mẫu mà trước đây không được sử dụng cho quy trình huấn luyện và phân loại chính xác chúng trong mọi trường hợp.
- Support Vector Machines [12], một phương pháp chọn lọc gene sử dụng các phương pháp máy vectơ hỗ trợ dựa trên loại bỏ tính năng đệ quy
(RFE). Nghiên cứu xây dựng một bộ phân loại phù hợp cho chẩn đoán di truyền cũng nhƣ khám phá thuốc, chứng minh bằng thực nghiệm trên các bộ dữ liệu sinh học phân tử ung thƣ cho thấy các gene đƣợc lựa chọn bằng kỹ thuật đề xuất
22
mang lại hiệu suất phân loại tốt hơn so với phương pháp máy vectơ hỗ trợ cơ bản và có liên quan về mặt sinh học đối với bệnh ung thƣ.
- Random Forest [13], kết hợp các phương pháp học máy vào các nghiên cứu kiểm soát trường hợp trên toàn bộ bộ gene. Nghiên cứu đề xuất một thuật toán dựa trên phương pháp rừng ngẫu nhiên cơ bản, lựa chọn tính năng chuyển tiếp tuần tự cửa sổ trƣợt, để chọn một nhóm nhỏ các đa hình nucleotide đơn ứng
cử viên có thể giảm thiểu lỗi phân loại và sau đó kiểm tra thống kê trên tương tác ba chiều của các ứng cử viên. Phương pháp được cho là có hiệu quả tương đương, hoặc tốt hơn các phương pháp khác trong một số trường hợp.
Vasighizaker và cộng sự đã giới thiệu một phương pháp Máy vectơ hỗ trợ phân loại một lớp (OCSVM) mới để phân loại các gene gây bệnh ứng viên, tập trung vào các gene gây bệnh đã biết [14]. Một nghiên cứu năm 2020 đã nêu bật những hạn chế của các phương pháp hiện có do kiến thức không đầy đủ về kiểu hình liên quan đến gene và đề xuất một phương pháp học máy dựa trên đồ thị để tận dụng các thuật ngữ y sinh [15]. Lin và cộng sự đã phát triển một phương pháp phân loại dựa trên máy học cực độ (ELM) để dự đoán sự chuyển đổi bệnh Alzheimer từ suy giảm nhận thức nhẹ với độ chính xác là 84,7% [16]. Bằng cách sử dụng máy học để diễn giải các mô phỏng phân tử McCoy và cộng sự đã tập trung vào việc dự đoán mức độ nghiêm trọng của biến thể di truyền [17]. Begum và cộng sự đã áp dụng tập thô dựa trên tập mờ (FPRS) kết hợp với máy vectơ hỗ trợ (SVM) để dự đoán các dấu ấn sinh học ung thƣ bằng cách sử dụng
dữ liệu biểu hiện của gene bệnh [18]. Phương pháp radiomics hướng dẫn kiểu gene (GGR) đã đƣợc đề xuất để dự đoán tái phát ung thƣ phổi không phải tế bào nhỏ [19].
Hạn chế: Mặc dù có nhiều đóng góp khả quan, nhưng các phương pháp
dựa trên kỹ thuật học máy cũng bị hạn chế trong trường hợp khi có các mẫu gene bệnh mới mà không nằm trong tập huấn luyện các gene bệnh đã biết có sẵn [5].
23