1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Mô hình xử lý hiệu quả dữ liệu biểu hiện gen

170 78 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 170
Dung lượng 2,66 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ HUỲNH PHƯỚC HẢI MƠ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH 62480104 CẦN THƠ, 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ HUỲNH PHƯỚC HẢI MƠ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH 62480104 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ THANH NGHỊ TS NGUYỄN VĂN HÒA CẦN THƠ, 2019 LỜI CẢM ƠN Để hồn thành luận án tơi nhận hướng dẫn, quan tâm, giúp đỡ nhiệt tình từ quý Thầy Cô, bạn bè người thân Tôi xin gửi lời cảm ơn chân thành đến: Thầy PGS.TS Đỗ Thanh Nghị Thầy TS Nguyễn Văn Hịa tận tình bảo, hướng dẫn, động viên tạo điều kiện tốt cho tơi q trình học tập nghiên cứu Thầy, Cô anh, chị khoa Công nghệ thông tin Truyền thông, trường Đại học Cần Thơ cung cấp thêm kiến thức, tạo điều kiện cho quan tâm, hỗ trợ tơi q trình học tập Ban giám hiệu trường Đại học An Giang, Ban chủ nhiệm Khoa Công nghệ thông tin tạo điều kiện để tham gia học tập nâng cao trình độ chun mơn, bạn đồng nghiệp không ngừng động viên giúp đỡ suốt thời gian học tập Sau xin chân thành cảm ơn sâu sắc đến gia đình người thân giúp đỡ, động viên tơi suốt trình học tập tạo điều kiện tốt để tơi hồn thành luận án NCS Huỳnh Phước Hải ii TÓM TẮT Trong năm gần đây, ung thư nguyên nhân hàng đầu gây tử vong tồn giới Do đó, ngày có nhiều nghiên cứu thực để tìm giải pháp hiệu chẩn đoán điều trị ung thư Tuy nhiên, nhiều thách thức nguyên nhân gây ung thư liên quan đến rối loạn di truyền thay đổi trình phát triển tự nhiên tế bào Phân tích biểu gen mơ hình học máy cơng cụ mạnh mẽ để xác định thay đổi tế bào điều kiện môi trường khác Các mơ hình học máy cung cấp thơng tin hữu ích để chẩn đốn điều trị ung thư Tuy nhiên, mơ hình học máy để phân lớp liệu biểu gen dễ bị khớp liệu biểu gen có số chiều lớn số lượng mẫu nhỏ Phân lớp liệu có số chiều lớn 10 thách thức học máy đại Trong luận án, giải vấn đề đóng góp sau Thứ nhất, chúng tơi đề xuất mơ hình rút trích đặc trưng để học tính tiềm ẩn liệu biểu gen mạng nơ-ron tích chập sâu (DCNN) Các đặc trưng rút trích DCNN cải thiện độ xác phân lớp liệu biểu gen công nghệ DNA Microarray RNA-Seq Kết thực nghiệm cho thấy độ xác phân loại cải thiện dùng DCNN rút trích đặc trưng từ liệu biểu gen Bên cạnh đó, chúng tơi cịn đề xuất phương pháp giải hai thách thức phân lớp liệu biểu gen giải thuật tăng cường liệu SMOTE từ đặc trưng rút trích mạng DCNN Giải thuật SMOTE dùng để sinh liệu tổng hợp từ đặc trưng rút trích mạng DCNN Dữ liệu tổng hợp sinh tăng cường cho liệu học sử dụng giải thuật phân lớp phân loại Thứ hai, đề xuất mơ hình tăng cường liệu cho phân lớp biểu gen mạng đối kháng sinh mẫu (GAN) Mạng GAN xây dựng phù hợp với liệu biểu gen để sinh liệu tổng hợp từ liệu gốc Mơ hình kết hợp với giải thuật phân lớp để phân loại liệu biểu gen Kết thực nghiệm cho thấy mơ hình đề xuất cải thiện độ iii xác giải thuật gồm k láng giềng, định, máy học véc-tơ hỗ trợ rừng ngẫu nhiên Thứ ba, chúng tơi đề xuất mơ hình tập hợp xiên phân ngẫu nhiên đơn giản (RODS) dựa máy học véc-tơ hỗ trợ (SVM) để phân lớp hiệu liệu biểu gen Ý tưởng kết hợp nhiều xiên phân ngẫu nhiên đơn giản theo hướng tiếp cận Bagging Boosting Chúng xây dựng tập hợp xiên phân ngẫu nhiên đơn giản dựa siêu phẳng tối ưu thu từ huấn luyện SVM Kết thực nghiệm cho thấy mô hình đề xuất hiệu giải thuật khác gồm k láng giềng, định, máy học véc-tơ hỗ trợ, rừng ngẫu nhiên, bagging adaboost phân lớp trực tiếp số chiều gốc Ngồi ra, mơ hình đề xuất cải thiện độ xác mơ hình phân lớp kết hợp với kỹ thuật tăng cường liệu mạng GAN rút trích đặc trưng mạng DCNN Từ khóa: liệu biểu gen, mơ hình phân lớp, mạng nơ-ron tích chập sâu, mạng đối kháng sinh mẫu, mơ hình tập hợp xiên phân ngẫu nhiên đơn giản, máy học véc-tơ hỗ trợ iv ABSTRACT In recent years, cancer is leading cause of death worldwide Therefore, more and more studies have been conducted which aim to improve the ability to discover cancers earlier and to diagnose them more accurately than was the case only a few years ago However, there are still many challenges in cancer treatment because the most common causes of cancer are genetic disorders and epigenetic alterations in the cells Gene expression is an exceptionally powerful tool for identifying changes in cells between different environmental conditions or developmental stages It is able to provide benefit information that is used to explore and diagnose disease Gene expression data classification models play a key role to address the fundamental problems relating to cancer Nevertheless, these models can easy overfiting because of the very-high-dimensional and small-sample-size issues Classifying gene expression data is a challenge in the field of machine learning In this dissertation we are interested in tackling these issues with the following contributions Firstly, we propose a new feature extraction model to learn latent features from gene expression data using deep convolutional neural network (DCNN) This model improves the classification accuracy of gene expression on both RNA-Seq and DNA-Microarray platforms Experiment results show that DCNN is effective to extract features from gene expression data On the other hand, we also propose a combined enhancing and extraction method to address both challenges of classification models using gene expression data In this approach, SMOTE algorithm generates new data from features extracted by DCNN These models are used in conjunction with various classifiers that efficiently classify gene expression data Secondly, we propose a new enhancing gene expression data model with generative adversarial network (GAN).GAN is implemented to generate synthetic data from original training datasets, which is used in conjunction with various classifiers to predict gene expression data Numerical test results show that our proposed model improve the classification accuracy of algorithms including support vector machines, k nearest neighbors and random forests v Finally, we investigate random ensemble oblique decision stumps (RODS) based on linear support vector machine (SVM) that is suitable for classifying very-high-dimensional microarray gene expression data Our classification algorithms (called Bag-RODS and Boost-RODS) learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of classifiers more accurate than single model Numerical test results show that our proposed algorithms are more accurate than the-state-of-the-art classification models, including k nearest neighbors, support vector machines, decision trees and ensembles of decision trees like random forests, bagging and adaboost In addition, these models also improve the classification accuracy by combined with enhancing data model using the GAN and feature extraction model using DCNN Key words: gene expression data, classification, deep convolutional neural network, generative adversarial network, random ensemble oblique decision stumps, support vector machines vi MỤC LỤC LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT v MỤC LỤC vii DANH MỤC CÁC HÌNH VẼ xii DANH MỤC CÁC BẢNG BIỂU xiv CHƯƠNG GIỚI THIỆU 1.1 Tính cấp thiết luận án 1.2 Mục tiêu, đối tượng, phạm vi phương pháp nghiên cứu 1.3 Nhiệm vụ hướng tiếp cận luận án 1.3.1 Nghiên cứu xây dựng mơ hình rút trích đặc trưng cho liệu biểu gen 1.3.2 Nghiên cứu xây dựng mơ hình tăng cường liệu cho liệu biểu gen 1.3.3 Nghiên cứu xây dựng mơ hình phân lớp hiệu liệu biểu gen 1.4 Các đóng góp luận án 1.5 Bố cục luận án CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 11 2.1 Dữ liệu biểu gen 11 2.2 Mơ hình phân lớp liệu biểu gen 15 2.2.1 Phát biểu toán 15 2.2.2 Đánh giá mơ hình 16 2.2.3 Dữ liệu thực nghiệm 18 Các nghiên cứu liên quan 24 2.3.1 Mơ hình k láng giềng 24 2.3.2 Mơ hình định 25 2.3.3 Máy học véc-tơ hỗ trợ 26 2.3 vii 2.3.4 Phương pháp tập hợp mơ hình 30 2.3.5 Mơ hình mạng nơ-ron nhân tạo 32 2.3.6 Các mô hình học sâu 33 2.4 Thảo luận nghiên cứu liên quan 36 2.5 Kết chương 38 CHƯƠNG MƠ HÌNH RÚT TRÍCH ĐẶC TRƯNG CHO DỮ LIỆU BIỂU HIỆN GEN 3.1 Giới thiệu 3.2 Mơ hình mạng nơ-ron tích chập sâu rút trích đặc trưng liệu biểu gen 3.2.1 3.3 3.4 39 39 41 Kiến trúc mơ hình mạng nơ-ron tích chập sâu rút trích đặc trưng cho liệu biểu gen 41 3.2.2 Q trình rút trích đặc trưng 44 3.2.3 Các giải thuật phân lớp đặc trưng rút trích 49 Kết thực nghiệm 50 3.3.1 Kết phân lớp liệu biểu gen DNA Microarray 51 3.3.2 Kết phân lớp liệu biểu gen RNA-Seq 3.3.3 Kết phân lớp tập liệu biểu gen RNA-Seq lớn 68 Kết chương 62 70 CHƯƠNG MƠ HÌNH TĂNG CƯỜNG MẪU ĐẶC TRƯNG RÚT TRÍCH BẰNG SMOTE 4.1 Giới thiệu 4.2 Tăng cường mẫu SMOTE dựa vào đặc trưng rút trích 4.3 4.4 71 71 liệu biểu gen 73 Kết thực nghiệm 76 4.3.1 Dữ liệu thực nghiệm 76 4.3.2 Thiết lập tham số mơ hình 76 4.3.3 Kết phân lớp 78 Kết chương 89 CHƯƠNG MƠ HÌNH TĂNG CƯỜNG DỮ LIỆU CHO DỮ LIỆU BIỂU HIỆN GEN 90 5.1 Giới thiệu 90 5.2 Mô hình tăng cường mẫu cho liệu biểu gen 92 viii ... CƯỜNG DỮ LIỆU CHO DỮ LIỆU BIỂU HIỆN GEN 90 5.1 Giới thiệu 90 5.2 Mơ hình tăng cường mẫu cho liệu biểu gen 92 viii 5.3 Phân lớp biểu gen sau tăng cường liệu. .. đặc trưng cho liệu biểu gen để giảm chiều liệu cải thiện độ xác mơ hình phân loại 1.3.2 Nghiên cứu xây dựng mơ hình tăng cường liệu cho liệu biểu gen Do thí nghiệm tạo liệu biểu gen có chi phí... phân lớp 14 Hình 2.3: Cấu trúc liệu ma trận biểu gen sau chuẩn hóa 2.2 Mơ hình phân lớp liệu biểu gen 2.2.1 Phát biểu tốn Mơ hình phân lớp liệu biểu gen nhằm dự đoán nhãn phần tử liệu (new input)

Ngày đăng: 30/07/2020, 06:30

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w