Mô hình xử lý hiệu quả dữ liệu biểu hiện gen

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ HUỲNH PHƯỚC HẢI MƠ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH 62480104 CẦN THƠ, 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ HUỲNH PHƯỚC HẢI MƠ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH 62480104 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ THANH NGHỊ TS NGUYỄN VĂN HÒA CẦN THƠ, 2020 LỜI CẢM TẠ Để hồn thành luận án tơi nhận hướng dẫn, quan tâm, giúp đỡ nhiệt tình từ quý Thầy Cô, bạn bè người thân Tôi xin gửi lời cảm ơn chân thành đến: Thầy PGS.TS Đỗ Thanh Nghị Thầy TS Nguyễn Văn Hịa tận tình bảo, hướng dẫn, động viên tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Thầy, Cô anh, chị khoa Công nghệ thông tin Truyền thông, trường Đại học Cần Thơ cung cấp thêm kiến thức, tạo điều kiện cho quan tâm, hỗ trợ tơi q trình học tập Ban giám hiệu trường Đại học An Giang, Ban chủ nhiệm Khoa Công nghệ thông tin tạo điều kiện để tham gia học tập nâng cao trình độ chun mơn, bạn đồng nghiệp không ngừng động viên giúp đỡ suốt thời gian học tập Sau xin chân thành cảm ơn sâu sắc đến gia đình người thân giúp đỡ, động viên tơi suốt trình học tập tạo điều kiện tốt để tơi hồn thành luận án NCS Huỳnh Phước Hải i ABSTRACT Cancer is leading cause of death worldwide Therefore, more and more studies have been conducted which aim to improve the ability to discover cancers earlier and to diagnose them more accurately than was the case only a few years ago However, there are still many challenges in cancer treatment because the most common causes of cancer are genetic disorders and epigenetic alterations in the cells Gene expression is an exceptionally powerful tool for identifying changes in cells between different environmental conditions or developmental stages It is able to provide benefit information that is used to explore and diagnose disease Gene expression data classification models play a key role to address the fundamental problems relating to cancer Nevertheless, these models can easy overfiting because of the very-high-dimensional and small-sample-size problems Gene expression data classification is a challenge in the field of machine learning In this dissertation we are interested in tackling these issues with the following contributions Firstly, a new feature extraction model is proposed to learn latent features from gene expression data using deep convolutional neural network (DCNN) DCNN improves classification accuracy of gene expression analysis of both RNA-Seq and DNA-Microarray platforms Experiment results show that DCNN is effective to extract features from gene expression data On the other hand, we also propose a combined enhancing and extraction method to address both challenges of gene expression data classification models In this approach, SMOTE algorithm generates new data from features extracted by DCNN These models are used in conjunction with various classifiers that efficiently classify gene expression data Secondly, a new enhancing gene expression data model is suggested using generative adversarial network (GAN) GAN is implemented to generate synthetic data from original training datasets, which is used in conjunction with various classifiers to predict gene expression data Numerical test results show that GAN improve the classification accuracy of algorithms including support vector machines, k nearest neighbors, decision tree and random forests ii Finally, random ensemble oblique decision stumps (RODS) based on linear support vector machine is investigated that is suitable for classifying veryhigh-dimensional microarray gene expression data Our classification algorithms (called Bag-RODS and Boost-RODS) learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of classifiers more accurate than single model Numerical test results show that our proposed algorithms are more accurate than the-state-of-the-art classification models, including k nearest neighbors, support vector machines, decision trees, random forests, bagging and Adaboost In addition, these models also improve the classification accuracy by combined with enhancing data model using the GAN and DCNN Key words: gene expression data, classification, deep convolutional neural network, generative adversarial network, random ensemble oblique decision stumps, support vector machines iii TÓM TẮT Ung thư nguyên nhân hàng đầu gây tử vong cao toàn giới tỉ lệ bệnh tử vong cao Vì vậy, ngày có nhiều nghiên cứu thực để tìm giải pháp hiệu để chẩn đốn điều trị ung thư Tuy nhiên nhiều thách thức nguyên nhân gây bệnh liên quan đến rối loạn di truyền thay đổi trình phát triển tự nhiên tế bào Xử lý liệu biểu gen nhằm phân lớp bệnh ung thư cung cấp thơng tin hữu ích để nâng cao độ xác chẩn đốn điều trị Tuy nhiên, mơ hình xử lý liệu liệu biểu gen dễ bị khớp thách thức số chiều lớn số lượng mẫu nhỏ Xử lý liệu biểu gen để phân lớp hiệu có liệu chiều cao 10 thách thức học máy đại Trong luận án, thách thức giải đóng góp sau Thứ nhất, mơ hình rút trích đặc trưng đề xuất để học tính tiềm ẩn liệu biểu gen mạng nơ-ron tích chập sâu (DCNN) Các đặc trưng rút trích DCNN cải thiện độ xác phân lớp liệu biểu gen công nghệ DNA Microarray RNA-Seq Thực nghiệm cho thấy độ xác mơ hình tốt dùng DCNN rút trích đặc trưng Bên cạnh đó, giải thuật SMOTE DCNN đề xuất nhằm giải hai thách thức phân lớp liệu biểu gen Trong mơ hình SMOTE dùng để sinh liệu tổng hợp từ đặc trưng rút trích mạng DCNN Dữ liệu tổng hợp sinh tăng cường cho liệu học sau phân lớp Thứ hai, mơ hình tăng cường liệu mạng đối kháng sinh mẫu (GAN) xây dựng để cải thiện độ xác phân lớp liệu biểu gen Mạng GAN xây dựng phù hợp với liệu biểu gen để sinh liệu tổng hợp từ liệu gốc Mô hình kết hợp với giải thuật phân lớp để phân loại liệu biểu gen Thực nghiệm cho thấy GAN tăng độ xác phân lớp giải thuật gồm k láng giềng, định, máy học véc-tơ hỗ trợ rừng ngẫu nhiên Thứ ba, mơ hình tập hợp xiên phân ngẫu nhiên đơn giản (RODS) iv dựa máy học véc-tơ hỗ trợ (SVM) đề xuất để phân lớp hiệu liệu biểu gen Ý tưởng kết hợp nhiều xiên phân ngẫu nhiên đơn giản theo hướng tiếp cận Bagging Boosting Tập hợp xiên phân ngẫu nhiên đơn giản xây dựng dựa siêu phẳng tối ưu thu từ huấn luyện SVM Kết thực nghiệm cho thấy mơ hình đề xuất hiệu giải thuật khác gồm k láng giềng, định, máy học véc-tơ hỗ trợ, rừng ngẫu nhiên, bagging adaboost phân lớp trực tiếp số chiều gốc Ngồi ra, mơ hình đề xuất cải thiện độ xác mơ hình phân lớp kết hợp với kỹ thuật tăng cường liệu mạng GAN rút trích đặc trưng mạng DCNN Từ khóa: xử lý liệu biểu gen, mơ hình phân lớp, mạng nơ-ron tích chập sâu, mạng đối kháng sinh mẫu, mơ hình tập hợp xiên phân ngẫu nhiên đơn giản, máy học véc-tơ hỗ trợ, liệu biểu gen v MỤC LỤC LỜI CẢM ƠN i ABSTRACT ii TÓM TẮT iv MỤC LỤC vii DANH MỤC CÁC BẢNG BIỂU ix DANH MỤC CÁC HÌNH VẼ xi CHƯƠNG GIỚI THIỆU 1.1 Tính cấp thiết luận án 1.2 Mục tiêu, đối tượng, phạm vi, phương pháp nghiên cứu 1.3 Nhiệm vụ hướng tiếp cận luận án 1.3.1 Nghiên cứu xây dựng mơ hình rút trích đặc trưng cho liệu biểu gen 1.3.2 Nghiên cứu xây dựng mơ hình tăng cường liệu cho liệu biểu gen 1.3.3 Nghiên cứu xây dựng mơ hình phân lớp hiệu liệu biểu gen 1.4 Các đóng góp luận án 1.5 Bố cục luận án CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 11 2.1 Dữ liệu biểu gen 11 2.2 Phân lớp liệu biểu gen 14 2.2.1 Phát biểu toán 14 2.2.2 Giao thức đánh giá mơ hình 15 2.2.3 Dữ liệu thực nghiệm 17 Các nghiên cứu liên quan 23 2.3.1 Mơ hình k láng giềng 23 2.3.2 Mơ hình định 24 2.3.3 Máy học véc-tơ hỗ trợ SVM 25 2.3 vii [199] W Iba and P Langley, “Induction of One-Level Decision Trees,” in Proceedings of the Ninth International Workshop on Machine Learning, ser ML ’92, San Francisco, CA, USA, 1992, pp 233–240 [200] P A Futreal and et al., “A census of human cancer genes,” Nature reviews cancer, vol 4, no 3, p 177, 2004 [201] S K Murthy, S Kasif, S Salzberg, and R Beigel, “OC1: A randomized algorithm for building oblique decision trees,” in Proceedings of AAAI, vol 93 Citeseer, 1993, pp 322–327 [202] R Maclin and D Opitz, “An empirical evaluation of bagging and boosting,” AAAI/IAAI, vol 1997, pp 546–551, 1997 [203] M Skurichina and R P Duin, “Bagging, boosting and the random subspace method for linear classifiers,” Pattern Analysis & Applications, vol 5, no 2, pp 121–135, 2002 [204] S Yang and D Q Naiman, “Multiclass cancer classification based on gene expression comparison,” Statistical applications in genetics and molecular biology, vol 13, no 4, pp 477–496, 2014 [205] H Hijazi and C Chan, “A classification framework applied to cancer gene expression profiles,” Journal of healthcare engineering, vol 4, 2013 [206] I.-J Kim, H C Kang, and J.-G Park, “Microarray Applications in Cancer Research,” Cancer Research and Treatment, vol 36, no 4, p 207, 2004 145

Định dạng
Số trang	205
Dung lượng	19,33 MB