Mô hình xử lý hiệu quả dữ liệu biểu hiện gen tt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ TÓM TẮT LUẬN ÁN TIẾN SĨ Chuyên ngành: Hệ thống thông tin Mã ngành: 62 48 01 04 HUỲNH PHƯỚC HẢI MƠ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN Cần Thơ, 2019 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CẦN THƠ Người hướng dẫn chính: PGS.TS Đỗ Thanh Nghị Người hướng dẫn phụ: TS Nguyễn Văn Hòa Luận án bảo vệ trước hội đồng chấm luận án tiến sĩ cấp trường Họp tại: Phòng họp 3, lầu 2, Nhà Điều hành, Khu II, Trường Đại học Cần Thơ Vào lúc 14 ngày 17 tháng 11 năm 2020 Phản biện 1: Phản biện 2: Có thể tìm hiểu luận án thư viện: Trung tâm Học liệu, Trường Đại học Cần Thơ Thư viện Quốc gia Việt Nam CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ [CT1] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do, "Novel hybrid DCNN-SVM model for classifying RNA-Sequencing gene expression data", Journal of Information and Telecommunication (JIT), Taylor & Francis, 3:4, pp 533-547, 2019 [CT2] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do, "Enhancing gene expression classification of support vector machines with generative adversarial networks", Journal of Information and Communication Convergence Engineering (JICCE), Vol 17, pp 1420, 2019 (SCOPUS) [CT3] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do, "So sánh mơ hình học sâu kỹ thuật học tự động khác phân lớp liệu biểu gene microarray", in proc of the 10th National Conference on Fundamental and Applied Information Technology Research (FAIR’10), pp 841- 850, 2017 [CT4] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do, "A Coupling Support Vector Machines with the Feature Learning of Deep Convolutional Neural Networks for Classifying Microarray Gene Expression Data", in proc of the 10th Asian Conference on Intelligent Information and Database Systems (ACIIDS), Springer, pp 233-243, 2018 [CT5] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do, "Random ensemble oblique decision stumps for classifying gene expression data",in proc of International Symposium on Information and Communication Technology 2018, Association for Computing Machinery (SoICT), pp 137-144, 2018 [CT6] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do,"A combined enhancing and feature extraction algorithm to improve learning accuracy for gene expression classification", in proc of 6th International Conference on Future Data and Security Engineering 2019 (FDSE), Springer, pp 255-273, 2019 [CT7] Phuoc-Hai Huynh, Van Hoa Nguyen, Thanh-Nghi Do, "Improvements in the Large p, Small n Classification Issue", in Journal of SN Computer Science, Springer, 1, 207, 2020 CHƯƠNG GIỚI THIỆU 1.1 Tính cấp thiết luận án Trong năm gần đây, ung thư nguyên nhân gây tử vong hàng đầu giới Vì vậy, ngày có nhiều nghiên cứu tiến hành nhằm tìm giải pháp hiệu để điều trị chẩn đốn bệnh ung thư Tuy nhiên, cịn nhiều thách thức cho nghiên cứu nguyên nhân gây bệnh ung thư liên quan đến thay đổi gen kết hợp đột biến gen xảy trình di truyền Biểu gen (gene expression) q trình thơng tin mã hóa gen truyền vào cấu trúc có tế bào điều khiển tế bào Dữ liệu biểu gen mơ hình học máy xử lý nhằm cung cấp thơng tin hữu ích chẩn đoán điều trị ung thư Tuy nhiên, đặc điểm liệu biểu gen có số chiều lớn số mẫu nên phân lớp liệu biểu gen toán phức tạp Phân lớp liệu có số chiều lớn biết mười vấn đề khó cộng đồng khai mỏ liệu Các mơ hình phân lớp liệu có số chiều lớn thường cho kết tốt tập huấn luyện lại có kết thấp tập kiểm tra Thách thức phân lớp biểu gen liệu phân tích có số chiều lớn lên đến hàng chục nghìn chiều tách rời khơng gian có số chiều cao nên tìm mơ hình phân lớp tốt khó khăn có nhiều khả lựa chọn mơ hình tốt Vì tìm kiếm mơ hình phân lớp hiệu (phân lớp liệu tốt tập kiểm thử) không gian giả thuyết lớn vấn đề phức tạp Xây dựng mô hình phân lớp tốt tập liệu có số chiều lớn số mẫu nhỏ tốn khó lĩnh vực học máy 1.2 Mục tiêu, đối tượng, phạm vi phương pháp nghiên cứu Mục tiêu luận án đề xuất phương pháp tiếp cận cho "bài toán phân lớp liệu biểu gen" để nâng cao độ xác mơ hình phân lớp liệu biểu gen với mục tiêu cụ thể sau: • Nghiên cứu xây dựng mơ hình rút trích đặc trưng cho liệu biểu gen nhằm tăng độ xác phân lớp • Nghiên cứu xây dựng mơ hình tăng cường liệu biểu gen nhằm nâng cao độ xác mơ hình phân lớp • Nghiên cứu xây dựng giải thuật phân lớp hiệu cho liệu biểu gen Đối tượng nghiên cứu mơ hình phân lớp liệu biểu gen bệnh ung thư người Phạm vi nghiên cứu tập trung vào tốn xây dựng mơ hình phân lớp liệu biểu gen 1.3 Các đóng góp luận án Thứ nhất, luận án đề xuất mơ hình rút trích đặc trưng mạng nơ-ron tích chập sâu (DCNN) cho liệu biểu gen Mơ hình dùng để rút trích đặc trưng có số chiều nhỏ có tính chất phân loại tốt so với đặc trưng gốc Kết thực nghiệm liệu biểu hiệu gen DNA Microarray RNA-Seq cho thấy DCNN cải thiện độ xác phân loại máy học véc-tơ hỗ trợ k láng giềng Ngồi ra, luận án cịn đề xuất cách giải hai thách thức liệu biểu gen kỹ thuật tăng cường liệu SMOTE từ đặc trưng rút trích mạng DCNN Trong mơ hình đề xuất, giải thuật SMOTE dùng để sinh liệu tổng hợp từ đặc trưng rút trích mạng DCNN Dữ liệu tổng hợp sinh tăng cường cho liệu học sử dụng giải thuật phân lớp để phân loại Kết thực nghiệm cho thấy mơ hình cải thiện độ xác kết hợp DCNN SMOTE Các kết đóng góp thể qua công bố CT1, CT3, CT4, CT6, CT7 Thứ hai, luận án đề xuất mơ hình tăng cường liệu biểu gen mạng đối kháng sinh mẫu GAN để giải vấn đề số mẫu Mạng GAN dùng để sinh liệu tổng hợp từ liệu biểu gen gán nhãn máy học véc-tơ hỗ trợ Dữ liệu tăng cường vào liệu gốc phân loại SVM, k láng giềng,rừng ngẫu nhiên định Thực nghiệm cho thấy GAN cải thiện độ xác phân loại phân lớp Trong đó, SVM phân lớp tốt liệu tăng cường GAN so với giải thuật khác Ngồi ra, GAN cịn cải thiện độ xác kNN, RF C4.5 Kết nghiên cứu đóng góp thể qua cơng bố CT2, CT7 Thứ ba, luận án đề xuất mô hình tập hợp xiên phân ngẫu nhiên đơn giản (Random Ensemble Oblique Decision Stump RODS) phân lớp hiệu liệu biểu gen Ý tưởng kết hợp xiên phân ngẫu nhiên đơn giản dựa siêu phẳng tối ưu thu từ huấn luyện SVM tăng cường độ xác cao so với sử dụng mơ hình đơn Trong mơ hình đề xuất thay sử dụng tồn đặc trưng để huấn luyện mơ hình phân lớp xiên phân ngẫu nhiên đơn giản sử dụng tập đặc trưng lấy từ đặc trưng gốc Theo tiếp cận Bagging Boosting, xây dựng Bag-RODS (Bagging Random Oblique Decision Stumps) Boost-RODS (Boosting Random Oblique Decision Stumps) phân lớp hiệu liệu biểu gen Hai mơ hình đề xuất có kết phân loại hiệu so với SVM, RF, kNN, C4.5, Bagging Adaboost Ngồi ra, mơ hình cải thiện phân lớp kết hợp với mơ hình rút trích đặc trưng DCNN mơ hình tăng cường liệu GAN Kết nghiên cứu đóng góp thể qua cơng bố CT5 1.4 Tóm tắt bố cục luận án Phần cịn lại luận án cấu trúc sau Trong Chương trình bày vấn đề tổng quan phân lớp biểu gen, liệu thực nghiệm nghiên cứu liên quan Chương đề xuất mơ hình rút trích đặc trưng cho biểu gen mạng nơ-ron tích chập sâu DCNN Chương đề xuất mơ hình tăng cường liệu giải thuật SMOTE từ đặc trưng rút trích mạng DCNN Mơ hình giải hai vấn đề khó biểu gen số chiều cao số mẫu Chương trình bày mơ hình tăng cường liệu biểu gen mạng đối kháng sinh mẫu GAN Chương đề xuất hai giải thuật tập hợp xiên phân ngẫu nhiên đơn giản theo tiếp cận Bagging Boosting phân lớp hiệu biểu gen số chiều gốc cải thiện độ xác kết hợp với DCNN GAN Chương trình bày kết luận đưa số hướng nghiên cứu CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Dữ liệu biểu gen Biểu gen trình thông tin gen truyền vào cấu trúc tế bào điều khiển tế bào Một vấn đề quan trọng sinh học phân tích biểu gen để tìm hiểu gen điều chỉnh q trình mã hóa Mặc dù hầu hết tế bào thể sống chứa chép xác DNA Tuy nhiên, điều kiện môi trường khác thay đổi hay nhiều base phân tử DNA gây đột biến gen (mutation) Các loại bệnh đột biến gen thể thay đổi mức độ biểu gen định Sự khác biệt mức độ biểu gen tạo thông tin cụ thể cho gen Các cơng nghệ DNA Microarray RNA Sequencing phân tích biểu gen để khám phá vai trò gen q trình phát triển bệnh Các mơ hình học máy xử lý liệu biểu gen cung cấp thơng tin hữu ích cho y học q trình điều trị chẩn đốn bệnh ung thư 2.2 Mơ hình phân lớp liệu biểu gen Mơ hình phân lớp liệu biểu gen nhằm dự đoán nhãn phần tử liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (data, label), tức (dữ liệu, nhãn) Bài toán phát biểu sau: Chúng ta có tập hợp biến đầu vào X = {x1 , x2 , xn } tập hợp nhãn tương ứng Y = {y1 , y2 , yn } xi véc-tơ Các cặp liệu biết trước (xi , yi ) ∈ (X × Y ) gọi tập liệu huấn luyện Từ tập liệu huấn luyện này, cần tìm hàm số ánh xạ phần tử từ tập X sang phần tử (xấp xỉ) tương ứng tập Y yi ≈ f (xi ), ∀i = 1, 2, n (2.1) Mục đích xấp xỉ hàm số f thật tốt để có liệu x mới, tính nhãn tương ứng y = f (x) Phân lớp liệu biểu gen toán quan trọng tin sinh học Nhiều nghiên cứu phân lớp biểu gen cho thấy mơ hình máy học mang lại kiến thức hữu dụng phục vụ cho nghiên cứu điều trị bệnh ung thư người 2.3 Phương pháp đánh giá mơ hình Để đánh giá so sánh kết phân lớp mơ hình đề xuất với mơ hình khác Các mơ hình phải huấn luyện tập liệu, giao thức đánh giá Trong luận án, ba giao thức đánh giá sử dụng Nếu tập liệu có tập huấn luyện tập kiểm tra sẵn dùng Chúng sử dụng tập liệu huấn luyện để xây dựng mô hình sử dụng tập kiểm tra để đánh giá hiệu mơ hình phân lớp Nếu liệu khơng có tồn tập kiểm tra sẵn có số mẫu lớn 300 sử dụng nghi thức k-fold với k=10 Các tập liệu có số mẫu nhỏ 300 chúng tơi sử dụng nghi thức Leave-One-Out (loo) Độ xác tổng thể dùng để đánh giá mơ hình Cách đánh giá tính tỉ lệ số điểm dự đốn tổng số điểm tập liệu kiểm thử Để đánh giá mơ hình, chúng tơi tiến hành nhiều thực nghiệm đa dạng tập liệu để so sánh độ xác phân lớp mơ hình phân tích thống kê kết Chúng tơi sử dụng mức ý nghĩa (p-value) dùng để xác định độ tin cậy cần tường trình bảng kết phân lớp Trong luận án, độ tin cậy chấp nhận mức p-value nhỏ 0,05 Tất thực nghiệm chạy máy tính cá nhân, cài hệ điều hành Linux Mint, xử lý Intel(R) Xeon(R) 3.07 GHz nhớ RAM GB RAM 2.4 Dữ liệu thực nghiệm Chúng thu thập tập liệu biểu gen thực từ kho liệu gồm Kent Ridge, Array Expression TCGA Đây kho liệu lớn lưu trữ biểu gen cơng bố miễn phí Các tập liệu lấy mẫu đa dạng mục đích phân lớp phân lớp mơ bệnh (tissue), phân lớp bệnh (disease), phân lớp nhóm bệnh (subtype disease), phân lớp cấp độ bệnh (stage disease), phân lớp phản hồi tác nhân liên quan đến bệnh thí nghiệm người Các thực nghiệm luận án tiến hành liệu.Bộ liệu gồm 50 tập liệu DNA Microarray Bộ liệu gồm 20 tập liệu DNA Microarray có số mẫu ( nhỏ 130 mẫu) Bộ liệu gồm 25 tập liệu RNA-Seq tập liệu RNA-Seq lớn có 37 lớp bệnh ung thư có số mẫu 12181 2.5 Các nghiên cứu liên quan Trong thời gian qua có nhiều nghiên cứu thực phân loại liệu biểu gen Trong phần chúng tơi trình bày giải thuật phân lớp cơng trình nghiên cứu liên quan liệu biểu gen Các giải thuật thường sử dụng gồm máy học véc-tơ hỗ trợ SVM, k láng giềng kNN, định C4.5, phương pháp kết hợp mơ hình gồm rừng ngẫu nhiên, bagging Adaboost Ngoài ra, luận án cịn trình bày mơ hình học sâu gồm mạng nơ-ron tích chập DCNN mạng đối kháng sinh mẫu GAN 2.6 Kết chương Tóm lại, chương trình bày liệu biểu gen, tổng quan mơ hình phân lớp liệu biểu gen, nghiên cứu liên quan, liệu thực nghiệm phương pháp đánh giá mơ hình Đóng góp chương việc xây dựng liệu thực nghiệm, đánh giá nghiên cứu liên quan mơ hình phân lớp liệu biểu gen nhiều nghiên cứu sử dụng CHƯƠNG MƠ HÌNH RÚT TRÍCH ĐẶC TRƯNG CHO DỮ LIỆU BIỂU HIỆN GEN 3.1 Giới thiệu Trong chương này, chúng tơi đề xuất mơ hình DCNN rút trích đặc trưng từ liệu biểu gen gốc sử dụng giải thuật phân lớp để phân loại đặc trưng Đề xuất giải nhiệm vụ xây dựng mơ hình rút trích đặc trưng cho liệu biểu gen để xử lý vấn đề số chiều cao liệu biểu gen Kết thực nghiệm cho thấy DCNN có hiệu rút trích đặc trưng liệu biểu gen DNA Microarray RNA-Seq Nội dung trình bày chương công bố cơng trình khoa học CT1, CT3, CT4, CT7 3.2 Mơ hình mạng nơ-ron tích chập sâu rút trích đặc trưng liệu biểu gen Mơ hình mạng nơ-ron tích chập sâu (DCNN) dùng để rút trích đặc trưng liệu biểu gen có kiến trúc gồm tầng Hình 3.1 Tầng nhập nhận liệu (input) ma trận vng có kích thước x x x véc-tơ biểu gen bệnh nhân Khi tập liệu D có n mẫu liệu chuyển đổi thành n ma trận vuông Bốn tầng ẩn đặt tên CONV1, POOLING1, CONV2 POOLING2 hai tầng tích chập hai tầng lọc Các đặc trưng rút trích từ tầng kết nối đầy đủ phân lớp máy học véc-tơ hỗ trợ tuyến tính (LSVM), phi tuyến (SVM), rừng ngẫu nhiên (RF), định (C4.5) k láng giềng (kNN) Tầng tích chập CONV1 sử dụng mặt nạ chập có kích thước 3x3 (kernel size) Mỗi phần tử mặt nạ chập có trọng số độc lập với phần tử khác Trọng số mặt nạ chập khởi tạo ngẫu nhiên Mặt nạ chập dùng chung cho tất phần tử tầng trước tích chập gọi trọng số dùng chung Kỹ thuật trọng số dùng chung làm giảm đáng kể trọng số q trình huấn luyện mạng làm tăng tốc độ hội tụ trình Dữ liệu gốc DCNN Đặc trưng Dữ liệu huấn luyện Phân lớp SMOTE Dữ liệu sinh Gán nhãn LSVM Hình 4.1: Mơ hình kết hợp DCNN SMOTE phân lớp liệu biểu gen Trong phương pháp đề xuất, thiết kế giải thuật SMOTE để sinh liệu tổng hợp từ liệu đặc trưng rút trích DCNN Ý tưởng giải thuật đề xuất dựa giải thuật SMOTE Chawa Quá trình thực sinh mẫu phần tử x thực sau Đầu tiên lấy ngẫu nhiên phần tử tập liệu biểu gen Với phần tử ta tính k láng giềng gần Tiếp theo, lấy ngẫu nhiên số dãy từ đến thêm vào véc-tơ đặc trưng Mỗi mẫu liệu tổng hợp giải thuật SVM gán nhãn Sau dùng giải thuật SMOTE để sinh mẫu liệu tổng hợp, mẫu liệu tăng cường vào tập huấn luyện cho phân lớp Như vậy, giai đoạn liệu huấn luyện vừa giảm chiều vừa tăng cường mẫu Cuối xây dựng phân lớp SVM, LSVM, RF, kNN C4.5 4.3 Kết thực nghiệm Chúng thực nghiệm trên liệu gồm 50 tập liệu biểu gen DNA Microarray Kết chi tiết trình bày tồn văn luận án Thống kê so sánh đánh giá kết trình bày Bảng 4.1 Từ Bảng 4.1 cho thấy mơ hình kết hợp DCNN SMOTE cải thiện trung bình độ xác 4,83%, 3,37%, 2,9%, 2,08% so với SVM, LSVM, kNN RF Như thấy DCNN SMOTE cải thiện độ xác tất giải thuật (tất giá trị p-value nhỏ 0,05) ngoại trừ C4.5 Trong đó, DCNN-SMOTE-SVM có kết phân lớp tốt so với mơ hình khác.khi xác cao 4,82%, 3,53%, 9,40%, 5,55%, 12,48% so với SVM, LSVM, kNN, RF C4.5 Tất giá trị p-value nhỏ 0,05 13 Bảng 4.1: So sánh hiệu phân loại mơ hình 50 tập liệu Mơ hình Trung bình (%) Thắng Hịa Thua p-value DCNN-SMOTE-SVM & SVM DCNN-SMOTE-LSVM & LSVM DCNN-SMOTE-kNN & kNN DCNN-SMOTE-RF & RF DCNN-SMOTE-C4.5 & C4.5 29 34 29 29 27 11 12 10 17 21 1.33E-03 8.72E-03 2.26E-03 2.78E-02 0.11 DCNN-SMOTE-SVM & DCNN-SVM DCNN-SMOTE-LSVM & DCNN-LSVM DCNN-SMOTE-kNN & DCNN-kNN DCNN-SMOTE-RF & DCNN-RF DCNN-SMOTE-C4.5 & DCNN-C4.5 23 25 31 28 27 17 11 12 10 14 11 10 18 18.20E-0.2 1.59E-01 8.45E-02 7.06E-02 1.47E-01 DCNN-SMOTE-SVM DCNN-SMOTE-SVM DCNN-SMOTE-SVM DCNN-SMOTE-SVM 29 40 35 46 17 8 2.09E-01 2.27E-08 6.99E-05 6.17E-11 SVM LSVM kNN RF C 4.5 83.34 84.64 78.77 82.62 75.70 DCNN-SMOTE-SVM DCNN-SMOTE-LSVM DCNN-SMOTE-kNN DCNN-SMOTE-RF DCNN-SMOTE-C4.5 88.17 87.54 82.51 84.70 78.47 & & & & DCNN-SMOTE-LSVM DCNN-SMOTE-kNN DCNN-SMOTE-RF DCNN-SMOTE-C4.5 4.4 Kết chương Trong chương này, chúng tơi đề xuất mơ hình tăng cường liệu SMOTE đặc trưng rút trích DCNN để phân lớp liệu biểu gen Mơ hình giải đồng thời hai khó khăn liệu biểu gen mà giải thuật phân lớp thường đối mặt số chiều cao số mẫu Kết thực nghiệm cho thấy mơ hình đề xuất cải thiện hiệu phân lớp SVM, LSVM, kNN RF 14 CHƯƠNG MƠ HÌNH TĂNG CƯỜNG DỮ LIỆU CHO DỮ LIỆU BIỂU HIỆN GEN 5.1 Giới thiệu Trong chương này, đề xuất để nâng cao độ xác phân lớp liệu biểu gen mạng đối kháng sinh mẫu GAN Khác với cách tiếp cận chương 4, mơ hình sinh mẫu cách học từ liệu biểu gen gốc để tạo mẫu tổng hợp có phân phối liệu tương đồng với liệu gốc Nội dung trình bày chương công bố cơng trình khoa học CT2, CT7 5.2 Mơ hình tăng cường mẫu liệu biểu gen Để sinh mẫu liệu tổng hợp từ liệu biểu gen đề nghị xây dựng kiến trúc mạng GAN gồm hai mạng nơ-ron có kiến trúc đối xứng Hình 5.1 Mạng sinh G khởi tạo véc-tơ ngẫu nhiên gồm 100 phần tử ngẫu nhiên từ dãy [−1, 1] để làm liệu đầu vào cho lớp mạng Dữ liệu đầu từ lớp cuối mạng G có giá trị tương ứng với véc-tơ biểu gen Mạng sinh G có kiến trúc gồm lớp chồng lên Số lượng nơ-ron lớp tương ứng 32, 64, 128, 256 512 nơ-ron Chúng tơi sử dụng hàm kích hoạt Tanh lớp đầu mạng G Mạng phân biệt D nhận liệu đầu vào véc-tơ tạo từ lớp cuối mạng G Cấu trúc mạng D đối xứng với mạng G gồm lớp ẩn với số lượng nơ-ron lớp 512, 256, 128, 64 32 nơ-ron Hàm kích hoạt Sigmoid sử dụng lớp đầu D 15 Hình 5.1: Kiến trúc mạng đối kháng sinh mẫu GAN cho liệu biểu gen Trước tiên, mạng G lấy véc-tơ đầu vào z từ pθ (z) để sinh mẫu liệu tổng hợp Với z mẫu liệu thuộc phân phối pθ sinh ngẫu nhiên, sau gán thêm nhiễu (noise) Véc-tơ gọi xf ake liệu giả Mẫu liệu tổng hợp sinh từ G(z) nạp vào mạng D(x) Nhiệm vụ mạng D(x) lấy mẫu liệu thật từ tập huấn luyện xreal xf ake sinh từ mạng G xác định xem mẫu thật xreal lấy từ phân phối xác suất pdata Mạng D(x) phân lớp cách sử dụng hàm sigmoid, trả kết từ đến 1, với xác suất đầu cao khả mẫu liệu tạo thật lớn, ngược lại Như qua nhiều lần huấn luyện D huấn luyện để tiệm cận tối đa xác suất gán nhãn cho mẫu liệu sinh, đồng thời mạng G lại huấn luyện để tối thiểu khả phát D Như tổng qt hóa tốn, mạng D cố gắng tối đa V (D, G) G ngược lại Quá trình huấn luyện mạng hội tụ 16 D phân biệt mẫu liệu sinh thật hay giả Phương pháp đề xuất chúng tơi gồm có hai giai đoạn Đầu tiên, chúng tơi thiết kế mạng GAN theo kiến trúc trình bày Hình 5.1 Mơ hình huấn luyện sinh mẫu liệu tổng hợp từ liệu gốc Số lượng mẫu p sinh tham số mô hình Dữ liệu tổng hợp sinh mạng GAN khơng có nhãn Chúng tơi huấn luyện mơ hình SVM tuyến tính với tham số C = 103 liệu gốc sau gán nhãn cho liệu tổng hợp Sau gán nhãn, mẫu liệu tổng hợp tăng cường để huấn luyện mơ hình để phân lớp gồm LSVM, SVM, RF, kNN C4.5 5.3 Kết thực nghiệm Thực nghiệm xây dựng liệu gồm 20 tập liệu có số mẫu nhỏ 130 Các mơ hình cài đặt Python sử dụng TensorFlow, Scikit LibSVM Mạng GAN huấn luyện 100 lần SVM tuyến tính với C=103 sử dụng để gán nhãn cho liệu sinh Kết điều chỉnh tham số chúng tơi trình bày tồn văn luận án Đối với giải thuật khác RF sử dụng 200 định.kNN điều chỉnh k dãy 1, 3, 5, 7, Độ xác phân lớp 10 mơ hình 20 tập liệu trình bày tồn văn luận án Kết thống kê đánh giá so sánh mơ hình trình bày Bảng 5.1 Kết thực nghiệm cho thấy hiệu sinh mẫu tổng hợp mơ hình mạng GAN Cụ thể, so sánh GAN-SVM SVM thấy GAN-SVM cải thiện 19/20 tập, khơng cải thiện tập, p-value=1,95E-02 Ngồi ra, GAN-LSVM LSVM, thắng 17/20, thua 3/20 , p-value=1,31E-02 Bên cạnh đó, so sánh GAN-kNN kNN (thắng 17/20, thua 2/20 hòa 1/20, p-value=4,80E-04 Trong trường hợp GAN-RF RF vậy, GAN cải thiện 11/20 tập, thua hòa tập (p-value=0,04) Cuối cùng, đánh giá GAN-C4.5 C4.5, giải thuật đề xuất cải thiện 16/20 tập, thua tập (p-value=9,71E-04) Từ Bảng 5.1 thấy rõ ràng GAN-SVM có kết phân loại tốt so với giải thuật lại Tất giá trị p-value nhỏ 0,05 17 Bảng 5.1: So sánh kết phân lớp mơ hình 20 tập liệu biểu gen Mơ hình Trung bình (%) Thắng Hịa Thua p-value GAN-SVM & SVM GAN-LSVM & LSVM GAN-RF & RF GAN-kNN & kNN GAN-C4.5 & C4.5 19 17 11 17 16 0 1 1.95E-02 1.31E-02 0.04 4.80E-04 9.71E-04 GAN-SVM GAN-SVM GAN-SVM GAN-SVM & & & & GAN-LSVM GAN-RF GAN-kNN GAN-C4.5 13 12 18 15 0 1.15E-02 1.10E-02 2.59E-08 5.07E-07 GAN-SVM GAN-SVM GAN-SVM GAN-SVM & & & & LSVM RF kNN C4.5 19 13 19 19 0 0 1 9.18E-06 1.10E-02 2.59E-08 5.07E-07 SVM GAN-SVM LSVM GAN-LSVM kNN GAN-kNN RF GAN-RF C4.5 GAN-C4.5 73.68 78.63 75.25 77.16 66.85 71.58 75.45 76.75 68.19 74.72 5.4 Kết chương Trong chương này, đề xuất mơ hình tăng cường liệu cho liệu biểu gen Mơ hình GAN huấn luyện từ liệu gốc sinh mẫu liệu tổng hợp để tăng cường liệu cho giải thuật SVM, kNN, C4.5 RF Kết thực nghiệm 20 tập liệu DNA Microarray cho thấy mơ hình GAN cải thiện độ xác phân lớp giải thuật gồm SVM, kNN, C4.5 RF Trong đó, mơ hình GAN-SVM sử dụng giải thuật SVM với hàm nhân phi tuyến đề nghị sử dụng có độ xác cao so với mơ hình khác 18 CHƯƠNG MƠ HÌNH TẬP HỢP CÂY XIÊN PHÂN NGẪU NHIÊN ĐƠN GIẢN 6.1 Giới thiệu Trong chương này, chúng tơi đề xuất mơ hình tập hợp xiên phân ngẫu nhiên đơn giản (random ensemble oblique decision stumps - RODS) phân lớp liệu biểu gen Trong đó, chúng tơi xây dựng hai mơ hình theo hai hướng tiếp cận Bagging (Bag-RODS) Boosting (Boost-RODS) xiên phân ngẫu nhiên đơn giản (random oblique decision stumps - RODS) phân lớp hiệu liệu biểu gen Kết thực nghiệm cho thấy mơ hình đề xuất hiệu so với mơ hình SVM, kNN, C4.5, RF, Bagging định C4.5 Adaboost Bên cạnh đó, kết thực nghiệm cho thấy Bag-RODS Boost-RODS cải thiện độ xác phân lớp kết hợp với kỹ thuật tăng cường mẫu GAN rút trích đặc trưng DCNN Nội dung trình bày chương công bố cơng trình CT5 6.2 Mơ hình tập hợp xiên phân ngẫu nhiên đơn giản Cây định đơn giản (decision stump) định có cấp gồm nút gốc kết nối trực tiếp với nút Quá trình xây dựng định chọn thuộc tính cho việc phân hoạch liệu nút Vì đặc điểm liệu biểu gen có số chiều lớn đặc trưng có phụ thuộc với định đơn giản không hiệu Nhằm giải hai vấn đề phân lớp yếu mơ hình tập hợp xiên phân ngẫu nhiên đơn giản Cây xiên phân ba nút xây dựng bắt đầu với toàn liệu nằm nút gốc, chọn ngẫu nhiên n thuộc tính từ tập n thuộc tính ban đầu liệu Với cách chọn tập thuộc tính mơ hình xây dựng tập hợp xiên phân ngẫu nhiên đơn giản dựa siêu phẳng tối ưu (phân hoạch hiệu cao, khả chịu đựng nhiễu tốt) thu từ huấn luyện SVM 19 Chúng đề xuất mơ hình Bagging xiên phân đơn ngẫu nhiên đơn giản (Bag-RODS) theo tiếp cận Breiman Mơ hình Bagging xiên phân ngẫu nhiên đơn giản minh họa Hình 6.1 Giải thuật Bag-RODS xây dựng tập hợp RODS theo tiếp cận Bagging Mỗi RODS xây dựng tập mẫu bootstrap (lấy mẫu ngẫu nhiên có hồn lại), nút phân hoạch tốt thực từ việc lựa chọn ngẫu nhiên tập thuộc tính dựa siêu phẳng tối ưu (phân hoạch hiệu cao, khả chịu đựng nhiễu tốt) thu từ huấn luyện SVM A bootstrap sample of m individuals from the training set Training set (m individuals, n dimensions) Bootstrap ··· Bootstrap Bootstrap t Root: Linear SVM ODS using n’ random ODS ODS t dimensions to perform an oblique split x x yˆ1 (x) x yˆ2 (x) yˆt (x) Prediction for a new individual x Classification: the majority class in {ˆ y1 (x), yˆ2 (x), , yˆt (x)} Hình 6.1: Mơ hình Bagging xiên phân ngẫu nhiên đơn giản Ngồi chúng tơi cịn đề xuất giải thuật Boosting xiên phân ngẫu nhiên đơn giản (Boost-RODS) lặp lại q trình học mơ hình xiên phân ngẫu nhiên dựa siêu phẳng tối ưu thu từ huấn luyện SVM nhiều lần mô tả Hình 6.2 Sau bước lặp, mơ hình RODS tập trung học phần tử bị phân lớp sai lần trước Để thực điều này, ta gán cho phần tử trọng số Khởi tạo, trọng số phần tử lần lặp Sau bước học, trọng số 20 cập nhật lại (tăng trọng số cho phần tử bị phân lớp sai) Ở bước thứ i, ta lấy tập mẫu Si tập liệu xây dựng mơ hình hi từ tập mẫu Si Lặp lại trình sau T bước, ta T mơ hình RODS, kết hợp RODS lại ta có phân lớp mạnh Để phân lớp liệu đến, người ta sử dụng luật bình chọn số đơng từ kết phân lớp mơ hình RODS Ý tưởng quan trọng giải thuật Boost-RODS sử dụng giải pháp lề rộng SVM cải thiện khả tổng quát hóa Boost-RODS để giúp cho mơ hình chống lại khả bị overfiting Chìa khóa ý tưởng sử dụng số C có giá trị nhỏ (tức lề rộng nhất) để mơ hình có khả chống lại liệu nhiễu A weighted sample of m individuals from the training set Training set (m individuals, n dimensions) Learning sample ODS Learning sample Predict for updating weights ODS x ODS t Root: Linear SVM using n’ random dimensions to perform an oblique split x Learning sample t ··· yˆ1 (x) yˆ2 (x) x yˆt (x) Prediction for a new individual x Classification: the majority class in {β1 yˆ1 (x), β2 yˆ2 (x), , βt yˆt (x)} Hình 6.2: Mơ hình Boosting xiên phân ngẫu nhiên đơn giản 6.3 Kết thực nghiệm Chúng cài đặt Bag-RODS Boost-RODS ngơn ngữ lập trình Python Các mơ hình LSVM, SVM cài đặt thư viện LibSVM kNN, RF, C4.5, Bagging-C4.5 Adaboost cài đặt 21 thư viện máy học Scikit Mạng GAN DCNN cài đặt thư viện TensorFlow 6.3.1 Kết phân lớp số chiều gốc liệu Để đánh giá kết phân lớp mơ hình Bag-RODS, BoostRODS chúng tơi tiến hành thực nghiệm 50 tập liệu gen DNA Microarray Số RODS điều chỉnh từ 25 đến 500 Số lượng đặc trưng chọn từ 5% đến 30% so với số chiều gốc Ngồi ra, chúng tơi điều chỉnh tham số C SVM cho phân hoạch xiên phân đa chiều với C = 103 tốt cho Bag-RODS C = 10 tốt cho Boost-RODS Tất tham số tốt Bag-RODS Boost-RODS 50 tập liệu trình bày toàn văn luận án Bảng 6.1: So sánh kết Bag-RODS, Boost-RODS mơ hình khác 50 tập biểu gen DNA Microarray Mơ hình Trung bình (%) Bag-RODS Boost-RODS SVM LSVM RF kNN C 4.5 Bag-C4.5 Adaboost Bag-RODS Bag-RODS Bag-RODS Bag-RODS Bag-RODS Bag-RODS Bag-RODS & & & & & & & Boost-RODS Boost-RODS Boost-RODS Boost-RODS Boost-RODS Boost-RODS Boost-RODS Thắng Hòa Thua p-value 28 32 39 44 46 41 43 12 10 3 2 10 8 3 3,25E-03 3.05E-03 6.22E-07 3.06E-08 3.21E-12 6.29E-07 1.19E-08 22 41 42 43 47 41 44 5 5 23 4 1,64E-01 8.63E-07 3.06E-08 3.03E-8 1.26E-12 6.19E-06 2.46E-08 27 16 0.16 86.84 86.27 83.34 84.64 82.62 78.77 75.70 81.04 77.50 SVM LSVM RF kNN C4.5 Bag-C4.5 Adaboost & & & & & & & SVM LSVM RF kNN C4.5 Bag-C4.5 Adaboost Bag-RODS Boost-RODS 22 Từ Bảng 6.1 cho thấy Bag-RODS, Boost-RODS có độ xác phân lớp cao so với SVM, LSVM, RF, C4.5, kNN, Bag-C4.5 Adaboost Tất giá trị p-value nhỏ 0,05 cho thấy kết đánh giá có ý nghĩa thống kê So sánh Bag-RODS Boost-RODS, BagRODS có phân lớp tốt Boost-RODS thắng 27, hòa thua 16 Giá trị p-value 0,16 (kết không khác biệt nhiều) 6.3.2 Kết phân lớp sau tăng cường liệu GAN Chúng thực phân lớp liệu sau tăng cường liệu mơ hình GAN (chương 5) 20 tập liệu biểu gen DNA Microarray có số mẫu (số mẫu nhỏ 130 mẫu) Bảng 6.2: So sánh kết Bag-RODS, Boost-RODS kết hợp với GAN 20 tập biểu gen Mơ hình Thắng Hịa Thua GAN-Bag-RODS & Bag-RODS GAN-Boost-RODS & Boost-RODS GAN-Bag-RODS & GAN-Boost-RODS 14 12 4 2 11 0.009 0.045 0.5 GAN-Bag-RODS GAN-Bag-RODS GAN-Bag-RODS GAN-Bag-RODS GAN-Bag-RODS 18 11 15 12 0.39 0.09 0.00013 0.16 0.032 12 15 19 13 16 0 4 0.083 0.07 0.00014 0.043 0.026 Trung bình Bag-RODS Boost-RODS 76.35 77.42 GAN-Bag-RODS GAN-Boost-RODS 78.25 78.81 GAN-SVM GAN-LSVM GAN-kNN GAN-RF GAN-C4.5 78.63 77.16 71.58 76.75 74.72 & & & & & GAN-Boost-RODS GAN-Boost-RODS GAN-Boost-RODS GAN-Boost-RODS GAN-Boost-RODS GAN-SVM GAN-LSVM GAN-kNN GAN-RF GAN-C4.5 & & & & & GAN-SVM GAN-LSVM GAN-kNN GAN-RF GAN-C4.5 p-value Bảng 6.2 thấy mơ hình GAN-Bag-RODS cải thiện 1,9% so với Bag-RODS ( p-value = 0,009) GAN-Boost-RODS tốt 23 1,39% so với Boost-RODS ( p-value 0,045) Khi so sánh với mơ hình khác, GAN-Bag-RODS (78,25%), GAN-Boost-RODS (78,81%) có kết cạnh tranh với GAN-SVM (78,63%), GANLSVM (77,16%) tốt GAN-kNN, GAN-RF GAN-C4.5 6.3.3 Kết phân lớp đặc trưng rút trích DCNN Thực nghiệm nhằm đánh giá mơ hình tập hợp xiên phân ngẫu nhiên phân lớp liệu biểu gen giảm chiều DCNN 50 tập liệu biểu gen DNA Microarray Chúng tơi sử dụng mạng DCNN có kiến trúc thiết kế theo Hình 3.1 để rút trích đặc trưng sau dùng Bag-RODS BoostRODS để phân lớp Kết phân lớp Bảng 6.3 cho thấy rút trích đặc trưng DCNN, Bag-RODS Boost-RODS cải thiện độ xác phân lớp so với phân lớp số chiều gốc Cụ thể, mơ hình DCNN-Bag-RODS tốt 1,61% so với Bag-RODS DCNNBoost-RODS tốt 1,62% so với Boost-RODS Bảng 6.3: So sánh kết phân loại Bag-RODS, Boost-RODS phân loại đặc trưng rút trích DCNN 50 tập liệu biểu gen Mơ hình Trung bình Thắng Hịa Thua DCNN-Bag-RODS & Bag-RODS DCNN-Boost-RODS & Boost-RODS DCNN-Bag-RODS & DCNN-Boost-RODS 23 27 21 13 17 14 14 12 0.017 0.046 0.133 DCNN-Bag-RODS & DCNN-SVM DCNN-Bag-RODS & DCNN-LSVM DCNN-Bag-RODS & DCNN-kNN 20 32 42 14 16 10 6.95E-02 7.46E-03 7.31E-08 DCNN-Boost-RODS & DCNN-SVM DCNN-Boost-RODS & DCNN-LSVM DCNN-Boost-RODS & DCNN-kNN 15 27 41 15 11 20 12 3.70E-01 8.09E-02 5.10E-08 Bag-RODS Boost-RODS 86.84 86.27 DCNN-Bag-RODS DCNN-Boost-RODS DCNN-SVM DCNN-LSVM DCNN-kNN 88.44 87.89 87.19 86.45 81.45 24 p-value So sánh với mơ hình khác, DCNN-Bag-RODS DCNNBoost-RODS có kết cạnh tranh với DCNN-SVM (p-value=6,95E02 3,70E-01) So với mơ hình DCNN-LSVM DCNN-kNN, DCNN-Bag-RODS DCNN-Boost-RODS có kết tốt với tất giá trị p-value nhỏ 0,05 So sánh Bag-RODS Boost-RODS phân lớp đặc trưng rút trích DCNN, BagRODS có phân lớp tốt so với BoostRODS thắng 21, hòa 17 thua 21 50 tập liệu biểu gen DNA Microarray Giá trị p-value 0,133 (kết không khác biệt nhiều) 6.4 Kết chương Trong chương chúng tơi trình bày mơ hình kết hợp xiên phân ngẫu nhiên đơn giản để phân lớp hiệu liệu biểu gen Ý tưởng chúng tơi kết hợp nhiều xiên phân ngẫu nhiên đơn giản theo hướng tiếp cận Bagging Boosting Chúng xây dựng tập hợp xiên phân ngẫu nhiên đơn giản dựa siêu phẳng tối ưu thu từ huấn luyện SVM Kết thực nghiệm liệu biểu gen DNA Microarray thu thập từ kho liệu Kent Ridge Array Expression cho thấy mô hình chúng tơi đề xuất có độ xác phân lớp mơ hình học tự động khác gồm k láng giềng, định C4.5, SVM, rừng ngẫu nhiên, bagging Adaboost phân lớp trực tiếp số chiều gốc liệu Ngồi ra, mơ hình đề xuất cịn cải thiện độ xác phân lớp kết hợp với kỹ thuật tăng cường liệu mạng GAN rút trích đặc trưng mạng DCNN 25 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 7.1 Kết luận Luận án đề xuất mơ hình DCNN rút trích đặc trưng hiệu cho liệu biểu gen Mơ hình xây dựng mạng DCNN rút trích đặc trưng có số chiều tính chất phân lớp tốt so với đặc trưng gốc Các đặc trưng phân lớp SVM, LSVM, RF, kNN C4.5 Kết thực nghiệm cho thấy DCNN cải thiện độ xác phân lớp SVM, LSVM kNN Trong đó, phân lớp SVM dùng hàm nhân RBF có độ xác phân lớp tốt đề nghị sử dụng Bên cạnh đó, luận án đề xuất phương pháp giải đồng thời hai thách thức phân lớp liệu biểu gen số chiều cao số mẫu mơ hình tăng cường mẫu dựa đặc trưng rút trích mạng DCNN giải thuật SMOTE Mơ hình thiết kế giải thuật SMOTE để tăng cường liệu từ đặc trưng DCNN rút trích từ liệu biểu gen Dữ liệu sau tăng cường phân lớp SVM, LSVM, RF, kNN C4.5 Kết thực nghiệm cho thấy DCNN SMOTE cải thiện độ xác giải thuật gồm SVM, RF kNN Trong đó, phân lớp SVM dùng hàm nhân RBF có độ xác phân lớp tốt đề nghị sử dụng Luận án đề xuất mơ hình mạng đối kháng sinh mẫu (GAN) để tăng cường liệu biểu gen Mạng GAN đề xuất phù hợp với liệu biểu gen sinh mẫu liệu tổng hợp từ liệu gốc gán nhãn xác dựa khả phân hoạch hiệu cao SVM Dữ liệu huấn luyện sau tăng cường phân lớp SVM, LSVM, RF kNN Kết thực nghiệm tập liệu biểu có số mẫu (nhỏ 130 mẫu) cho thấy mơ hình GAN cải thiện độ xác SVM, LSVM, RF, kNN C4.5 Trong đó, GAN-SVM có độ xác phân lớp tốt so với giải thuật khác Luận án đề xuất mơ hình kết hợp xiên phân ngẫu nhiên đơn giản (RODS) theo hai tiếp cận Bagging Boosting phân lớp 26 hiệu liệu biểu gen Mơ hình xây dựng tập hợp RODS dựa siêu phẳng tối ưu thu từ huấn luyện SVM Kết thực nghiệm cho thấy mơ hình đề xuất có hiệu phân lớp tốt so với giải thuật phân loại khác liệu biểu gen DNA Microarray Bên cạnh đó, mơ hình Bag-RODS Boost-RODS cải thiện độ xác phân lớp kết hợp với mơ hình rút trích đặc trưng DCNN tăng cường mẫu GAN 7.2 Hướng phát triển Nghiên cứu kết hợp GAN để tăng cường mẫu huấn luyện cho mơ hình rút trích đặc trưng DCNN nhằm tăng hiệu rút trích tận dụng ưu huấn luyện số mẫu lớn DCNN Thử nghiệm thêm nhiều kiến trúc mơ hình DCNN tốt có khả học nhiều loại đặc trưng cho loại bệnh ung thư khác liệu biểu gen Nghiên cứu xây dựng mơ hình phân lớp bệnh ung thư cách kết hợp với thông tin liên quan khác bệnh nhân SNP, thông tin cận lâm sàn, liệu hình ảnh y khoa Từ xây dựng thành hệ thống phân lớp loại bệnh ung thư người Bên cạnh hướng nghiên cứu trên, đóng góp luận án cải thiện hiệu tính xác mơ hình phân loại liệu biểu gen với thời gian xây dựng mơ hình chấp nhận Tuy nhiên, cải thiện thêm thời gian huấn luyện mơ hình để tăng thêm hiệu nghiên cứu Bên cạnh đó, mơ hình rút trích đặc trưng, tăng cường liệu tiếp cận theo phương pháp học sâu tăng cường độ xác phân lớp nhiên cần nghiên cứu để cải tiến kiến trúc mạng, phương pháp tinh chỉnh tham số tự động, giải thích kết mơ hình 27 ... đổi gen kết hợp đột biến gen xảy trình di truyền Biểu gen (gene expression) q trình thơng tin mã hóa gen truyền vào cấu trúc có tế bào điều khiển tế bào Dữ liệu biểu gen mơ hình học máy xử lý. .. dựng mơ hình tăng cường liệu biểu gen nhằm nâng cao độ xác mơ hình phân lớp • Nghiên cứu xây dựng giải thuật phân lớp hiệu cho liệu biểu gen Đối tượng nghiên cứu mơ hình phân lớp liệu biểu gen bệnh... 2.2 Mơ hình phân lớp liệu biểu gen Mơ hình phân lớp liệu biểu gen nhằm dự đoán nhãn phần tử liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (data, label), tức (dữ liệu, nhãn)

Định dạng
Số trang	30
Dung lượng	392,22 KB