HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

53 5 0
HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI HOÀNG MINH HUYỀN 1601365 XÂY DỰNG MẠNG NEURON MÁY TÍNH CĨ KHẢ NĂNG NHẬN DIỆN TRÌNH TỰ sARN TRÊN HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ Người hướng dẫn: TS Đỗ Ngọc Quang Nơi thực hiện: Bộ môn Vi sinh & Sinh học – Trường Đại học Dược Hà Nội HÀ NỘI – 2021 LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn TS Đỗ Ngọc Quang – Bộ môn Vi sinh & Sinh học – Trường Đại học Dược Hà Nội tận tình, kiên nhẫn hướng dẫn, bảo, tạo điều kiện học tập nghiên cứu để hồn thành khóa luận Tôi xin gửi lời cảm ơn tới giảng viên Bộ môn Vi sinh & Sinh học tạo điều kiện quan tâm giúp đỡ suốt q trình thực khố luận Cuối cùng, tơi xin cảm ơn gia đình bạn bè ln ủng hộ động viên tơi q trình học tập, nghiên cứu Hà Nội, ngày tháng năm 2021 Sinh viên Hồng Minh Huyền MỤC LỤC TRANG BÌA CHÍNH TRANG BÌA PHỤ LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ ĐẶT VẤN ĐỀ CHƯƠNG TỔNG QUAN 1.1 GIỚI THIỆU VỀ SARN Ở VI KHUẨN 1.1.1 Kích thước 1.1.2 Vị trí 1.1.3 Vai trò sinh học 1.1.3.1 Điều hồ q trình trao đổi chất 1.1.3.2 Điều hoà hình thành màng sinh học khả vận động 1.1.3.3 Phản ứng stress thích nghi với điều kiện phát triển 1.1.3.4 Vai trị sARN q trình sinh bệnh vi khuẩn 1.1.3.5 Mã hoá cho protein 1.1.4 Các họ sARN 1.1.5 Các phương pháp tin sinh học nghiên cứu sARN 1.1.5.1 BLAST 1.1.5.2 Phương pháp học máy dự đoán sARN 1.2 MẠNG NEURON MÁY TÍNH 10 1.2.1 Perceptron 10 1.2.2 Mơ hình tổng qt mạng neuron 13 1.2.3 Mạng neuron tích chập 14 1.2.4 Luyện tập mang mạng neuron 15 1.2.4.1 Hàm mát 15 1.2.4.2 Thuật toán tối ưu hoá 15 CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 17 2.1 NGUYÊN VẬT LIỆU, THIẾT BỊ 17 2.1.1 Dữ liệu 17 2.1.2 Thiết bị, công cụ, thư viện 17 2.2 NỘI DUNG NGHIÊN CỨU 17 2.2.1 Khảo sát đặc điểm, sàng lọc xử lý liệu 17 2.2.2 Xây dựng đánh giá mạng neuron 17 2.2.3 Luyện tập mạng neuron phương pháp thẩm định chéo 17 2.2.4 So sánh mạng neuron với BLAST tìm kiếm trình tự sARN 18 2.2.5 Đánh giá hoạt động mạng neuron nhận diện sARN genom vi khuẩn 18 2.3 PHƯƠNG PHÁP NGHIÊN CỨU 18 2.3.1 Khảo sát đặc điểm, sàng lọc xử lý liệu 18 2.3.2 Xây dựng, luyện tập đánh giá mạng neuron 19 2.3.2.1 Xây dựng mạng neuron 19 2.3.2.2 Luyện tập mạng neuron 21 2.3.2.3 Đánh giá 21 2.3.3 Luyện tập mạng neuron phương pháp thẩm định chéo 21 2.3.3.1 Phương pháp thẩm định chéo 21 2.3.3.2 Đánh giá 22 2.3.4 So sánh mạng neuron với BLAST tìm kiếm trình tự sARN 23 2.3.5 Đánh giá hoạt động mạng neuron nhận diện sARN genom vi khuẩn 24 CHƯƠNG KẾT QUẢ VÀ BÀN LUẬN 25 3.1 KẾT QUẢ KHẢO SÁT ĐẶC ĐIỂM VÀ SÀNG LỌC, XỬ LÝ DỮ LIỆU 25 3.1.1 Khảo sát đặc điểm phân bố, chiều dài liệu 25 3.1.2 Sàng lọc xử lý liệu 26 3.2 ĐÁNH GIÁ HOẠT ĐỘNG CỦA CÁC MẠNG NEURON TRONG PHÂN LOẠI SARN 27 3.3 LUYỆN TẬP CÁC MẠNG NEURON BẰNG PHƯƠNG PHÁP THẨM ĐỊNH CHÉO 32 3.4 SO SÁNH MẠNG NEURON VỚI BLAST TRONG TÌM KIẾM TRÌNH TỰ SARN 33 3.5 ĐÁNH GIÁ HOẠT ĐỘNG CỦA MẠNG NEURON TRONG NHẬN DIỆN SARN TRÊN GENOM CỦA VI KHUẨN 34 3.6 BÀN LUẬN 35 3.6.1 Số lượng chất lượng liệu 35 3.6.2 Giảm thiểu tài nguyên để vận hành mạng neuron 36 CHƯƠNG KẾT LUẬN VÀ ĐỀ XUẤT 37 4.1 KẾT LUẬN 37 4.2 ĐỀ XUẤT 37 PHỤ LỤC TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CNN Convolutional neural network (Mạng neuron tích chập) E coli Escherichia coli IGR Intergenic region (Vùng liên kết gen) NN Neural network (Mạng neuron) NNEM Neural network ensemble method (Phương pháp tổng hợp mạng neuron) ORF Open reading frame (Khung đọc mở) SD Standard deviation (Độ lệch chuẩn) UTR Untranslated region (Vùng không dịch mã) WAEM Weighted average ensemble method (Phương pháp tổng hợp trọng số trung bình) DANH MỤC CÁC BẢNG Bảng 3.1 Phân tích thống kê khác biệt mạng neuron: 30-31 (a) dạng Dense; (b) dạng Conv1D; (c) dạng Dense với Conv1D Bảng 3.2 Số lượng chu kỳ để đạt đến bão hoà mạng neuron 31 Bảng 3.3 Đánh giá độ đặc hiệu, độ nhạy, điểm F1 mạng 32 neuron không có sử dụng thẩm định chéo DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ Hình 1.1 Mơ hình cấu tạo hoạt động perceptron 11 Hình 1.2 Đồ thị hàm Sigmoid 11 Hình 1.3 Đồ thị hàm Tanh 12 Hình 1.4 Đồ thị hàm ReLU 12 Hình 1.5 Mơ hình ví dụ mạng neuron 13 Hình 1.6 Ký hiệu mơ hình mạng neuron 14 Hình 1.7 Nguyên tắc hoạt động mạng tích chập chiều 15 Hình 1.8 Ngun tắc hoạt động phương pháp Gradient descent 16 Hình 2.1 Minh hoạ cho phương pháp xử lý liệu 19 Hình 2.2 Các bước chia liệu phương pháp định chéo 22 Hình 3.1 Đồ thị số lượng trình tự họ sARN 25 liệu gốc Hình 3.2 Đồ thị phân bố chiều dài sARN liệu gốc 26 Hình 3.3 Đồ thị số lượng trình tự họ sARN 27 liệu cuối Hình 3.4 Sơ đồ mạng neuron khảo sát 28-29 Hình 3.5 Đồ thị độ xác mạng neuron: 30 (a) cấu trúc Dense (b) cấu trúc Conv1D Hình 3.6 Đồ thị số lượng tỷ lệ kết mạng neuron dự đốn 34 trùng khớp với BLAST Hình 3.7 Minh họa kết tìm kiếm trình tự sARN mạng neuron 35 ĐẶT VẤN ĐỀ ARN nhỏ vi khuẩn (sARN) đóng vai trị quan trọng việc điều tiết trình sinh học gây bệnh vi khuẩn, việc phát xác định vai trò sARN ngày quan tâm Theo truyền thống, sARN xác định kỹ thuật phịng thí nghiệm [42, 23] Tuy nhiên, phương pháp cho tốn xác định số lượng sARN Thay vào đó, đời phương pháp tin sinh học thực hiệu việc Kể từ năm 2001, phương pháp so sánh gen đề xuất [36], có nhiều phương pháp tin sinh học khác đời áp dụng việc phát sARN, khơng thể không kể đến phương pháp ứng dụng mạng neuron máy tính Mạng neuron mơ hình tốn học phức tạp có nguyên tắc hoạt động lấy cảm hứng từ cách hoạt động tế bào thần kinh sinh vật Ưu điểm bật mạng neuron khả tự học hỏi điều chỉnh tham số mơ hình dựa liệu cung cấp để giải toán đề Trong lĩnh vực Y Dược, có nhiều ứng dụng mạng neuron chẩn đoán bệnh phát sớm ung thư, xác định tương tác thuốc – mục tiêu, dự đoán cấu trúc bậc hai ARN, [40, 43, 44, 39] Các nghiên cứu sử dụng mạng neuron để phát sARN thường khai thác nhiều đặc điểm khác sARN kết hợp với nhiều phương pháp học máy khác Rừng ngẫu nhiên (Ramdom forest), Máy vector hỗ trợ (Support vector machine) [3, 41, 10] Nhận thấy quan trọng việc nghiên cứu sARN ưu điểm vượt trội mạng neuron, thực đề tài “Xây dựng mạng neuron máy tính có khả nhận diện trình tự sARN hệ gen vi khuẩn” với mục tiêu xây dựng, luyện tập lựa chọn mạng neuron máy tính có khả nhận diện trình tự sARN có độ tin cậy cao CHƯƠNG TỔNG QUAN 1.1 Giới thiệu sARN vi khuẩn sARN biết đến ARN vi khuẩn tạo ra, thường có chiều dài 50 – 500 nucleotid, đóng vai trị quan trọng việc điều tiết nhiều q trình sinh học 1.1.1 Kích thước sARN có kích thước khơng đồng nhất, nằm khoảng 50 – 500 nucleotid Hầu hết sARN hoạt động chế cặp với mARN mục tiêu trình tự tương đối ngắn bảo thủ gọi vùng hạt nhân (vùng seed) [7] Các vùng seed thường 20 nucleotid, ngắn nhiều so với trình tự sARN hồn chỉnh Ví dụ, sARN RybB (81 nucleotid) sử dụng vùng R16 (16 nucleotid) đầu 5’ để bắt cặp base với mARN OmpN ức chế [31] Gần phát sARN có kích thước nhỏ 50 nucleotid Kang cộng xác định sARN có kích thước khoảng 21 – 23 nucleotid Escherichia coli (E coli), chúng gọi microARN-size (msARN) [21] 1.1.2 Vị trí mã hố sARN Hầu hết sARN mã hóa đoạn gen nằm vùng liên gen (IGR) Các sARN phát nằm vùng IGR E coli Sau hàng chục sARN khác phát E coli phương pháp tìm kiếm trình tự bảo thủ vùng IGR [11] Ngoài ra, năm gần người ta phát sARN mã hố từ vị trí nằm vùng 3’-UTR 5’-UTR Ví dụ, sARN SreA SreB Listeria monocytogenes nằm 5’-UTR mARN PrfA [25], sARN DapZ Salmonella enterica Typhimurium mã hoá từ promoter nằm 3’-UTR mARN DapB [8] 1.1.3 Vai trò sinh học Các vai trò sinh học sARN gồm điều hồ q trình trao đổi chất, thích ứng với stress Ngồi ra, sARN cịn đóng vai trị quan trọng q trình sinh bệnh vi khuẩn 120 1000 100 800 80 600 60 400 40 200 20 >=0,00 >=0,05 >=0,10 >=0,15 >=0,20 >=0,25 >=0,30 >=0,35 >=0,40 >=0,45 >=0,50 >=0,55 >=0,60 >=0,65 >=0,70 >=0,75 >=0,80 >=0,85 >=0,90 >=0,95 Tỷ lệ trùng khớp (%) Số lượng trùng khớp 1200 Ngưỡng Số lượng trùng khớp Tỷ lệ trùng khớp Hình 3.6 Đồ thị số lượng tỷ lệ kết mạng neuron dự đoán trùng khớp với BLAST 3.5 Đánh giá hoạt động mạng neuron nhận diện sARN genom vi khuẩn Chúng thử nghiệm sử dụng mạng C_5 để tìm trình tự sARN đoạn ADN dài 10000 nucleotid (từ vị trí đến 10000) lấy từ genom vi khuẩn Salmonella enterica subsp enterica serovar Typhimurium str LT2 Khác với thí nghiệm trước tìm lại trình tự kết BLAST Trong thí nghiệm này, chúng tơi muốn tìm tồn đoạn trình tự sARN có genom, qua đánh giá hiệu hoạt động mạng neuron Kết tìm kiếm minh họa hình 3.7 Quan sát kết thấy trình tự tìm mà có vị trí gần có chung họ, điều chứng tỏ vùng có kết xác, tổng cộng thu 26460 trình tự, thời gian tìm kiếm khoảng 20 phút máy tính cá nhân Đây thời gian tương đối ngắn so với khoảng thời gian vài để tìm kiếm BLAST 34 Hình 3.7 Minh họa kết tìm kiếm trình tự sARN mạng neuron 3.6 Bàn luận 3.6.1 Số lượng chất lượng liệu Do có q sARN, nhiều họ sARN (chiếm tới 74,83% tổng số họ sARN Rfam) bị loại khỏi tập liệu Có thể khắc phục hạn chế kỹ thuật Data Augmentation Đây kỹ thuật tạo thêm liệu cách đổi liệu có sẵn Đối với liệu dạng ảnh, phương pháp thực đơn giản cách xoay, lật, cắt ngẫu nhiên phần, đổi màu, ảnh gốc Đối với liệu dạng chuỗi, đặc biệt chuỗi sinh học, việc thay đổi liệu gốc cần cân nhắc cẩn thận để không làm đặc tính liệu gốc Một số cách áp dụng thêm, xoá đổi ngẫu nhiên vị trí nucleotid Trong tập liệu dùng để luyện tập NN, số lượng chiều dài trình tự khơng đồng họ sARN Đây tượng cân liệu Một số kỹ thuật hiệu áp dụng cho tình là: 35 - Under sampling: Giảm số lượng liệu class nhiều liệu cho số liệu class tương đối cân - Over sampling: Lặp lại liệu class có liệu tạo liệu với đặc tính tương tự liệu gốc (phương pháp SMOTE, ADASYN) 3.6.2 Giảm thiểu tài nguyên để vận hành mạng neuron Một hạn chế sử dụng mạng neuron nghiên cứu đòi hỏi tài nguyên máy tính lớn xử lý genom với chiều dài hàng triệu nucleotid Chính với phương tiện sẵn có, nghiên cứu chúng tơi khơng thể tìm kiếm sARN đồng thời tồn genom vi khuẩn Để giải vấn đề này, sử dụng cơng cụ Data generator sẵn có thư viện Tensorflow, theo liệu chia nhỏ tự động đưa dần vào NN để dự đoán 36 CHƯƠNG KẾT LUẬN VÀ ĐỀ XUẤT 4.1 Kết luận Sau thực đề tài, thu kết sau: - Đã tạo liệu trình tự 206 họ sARN dùng cho phương pháp học máy - Đã khảo sát, lựa chọn, luyện tập mạng neuron có khả tìm kiếm trình tự sARN với độ đặc hiệu 0,99 độ nhạy 0,98 - Đã tiến hành đánh giá độ tương đồng khả tìm kiếm mạng neuron với công cụ BLAST - Đã bước đầu đánh giá hiệu tìm kiếm trình tự sARN mạng neuron đoạn genom vi khuẩn 4.2 Đề xuất Do thời gian kiến thức có hạn, đề tài cịn nhiều hạn chế Bởi chúng tơi đề xuất số nội dung để hoàn thiện sau: - Tăng cường số họ sARN tập liệu để luyện tập - Xây dựng thuật toán xử lý liệu hiệu để vận hành mạng neuron - Kiểm tra kết tìm kiếm thực nghiệm 37 TÀI LIỆU THAM KHẢO Altuvia S., Weinstein-Fischer D., Zhang A., Postow L., Storz G (1997), “A Small, Stable RNA Induced by Oxidative Stress: Role as a Pleiotropic Regulator and Antimutator”, Cell, 90 (1), pp 43–53 Babitzke P., Romeo T (2007), “CsrB sRNA family: sequestration of RNAbinding regulatory proteins”, Current Opinion Microbiol, 10(2), pp 156–163 Barman R., Mukhopadhyay A., Das S (2017), “An improved method for identification of small non-coding RNAs in bacteria using support vector machine”, Sci Rep, 7, p 46070 Beisel C.L., Storz G (2011), “The base-pairing RNA spot 42 participates in a multioutput feedforward loop to help enact catabolite repression in Escherichia coli”, Molecular Cell, 41(3), pp 286–297 Bishop C.M (2006), “Pattern recognition and machine learning”, Springer, New York Boisset S., Geissmann T., Huntzinger E., Fechter P., Bendridi N., Possedko M., Chevalier C., Helfer A.C., Benito Y., Jacquier A., Gaspin C., Vandenesch F., Romby P (2007), “Staphylococcus aureus RNAIII coordinately represses the synthesis of virulence factors and the transcription regulator Rot by an antisense mechanism”, Genes & Development, 21(11), pp 1353–1366 Carrier M.C., Lalaouna D., Massé E (2018), “Broadening the Definition of Bacterial Small RNAs: Characteristics and Mechanisms of Action”, Annual Review of Microbiology, 72(1), pp 141–161 Chao Y., Papenfort K., Reinhardt R., Sharma C.M., Vogel J (2012), “An atlas of Hfq-bound transcripts reveals 3’-UTRs as a genomic reservoir of regulatory small RNAs”, The EMBO Journal, 31(20), pp 4005–4019 Durand S., Storz G (2010), “Reprogramming of anaerobic metabolism by the FnrS small RNA”, Molecular Microbiology, 75(5), pp 1215–1231 10 Elsisy M (2019), “Utilizing RNNs and Ensemble Learning for Enhanced Bacterial sRNA Classification”, Memorial University of Newfoundland, pp 10–24 11 Gerrick E.R (2018), “Discovery of Small RNAs and Characterization of Their Regulatory Roles in Mycobacterium Tuberculosis”, Harvard University, p 12 Goodfellow I., Bengio Y., Courville A (2016), “Deep Learning”, The MIT Press, Cambridge 13 Griffiths-Jones S., Bateman A., Marshall M., Khanna A., Eddy S.R (2003) “Rfam: an RNA family database”, Nucleic Acids Research, 31(1), pp 439– 441 14 Hagan M.T., Demuth H.B., Beale M.H., Jesús O.D (2014), “Neural Network Design”, Martin Hagan 15 Heidrich N., Chinali A., Gerth U., Brantl S (2006), “The small untranslated RNA SR1 from the Bacillus subtilis genome is involved in the regulation of arginine catabolism”, Molecular Microbiology, 62, pp 520–536 16 Heurlier K., Williams F., Heeb S., Dormond C., Pessi G., Singer D., Cámara M., Williams P., Haas D (2004), “Positive control of swarming, rhamnolipid synthesis, and lipase production by the posttranscriptional RsmA/RsmZ system in Pseudomonas aeruginosa PAO1”, Journal of Bacteriology, 186(10), pp 2936–2945 17 Hinton G., Srivastava N., Krizhevsky A., Sutskever I., Salakhutdinov R (2012), “Improving neural networks by preventing co-adaptation of feature detectors”, University of Toronto 18 Hinton G., Srivastava N., Krizhevsky A., Sutskever I., Salakhutdinov R (2014), “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”, Journal of Machine Learning Research, 15(56), pp 1929−1958 19 Ioffe S., Szegedy C (2015), “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, Proceedings of Machine Learning Research, 37, pp 448-456 20 Kalvari I., Nawrocki E.P., Argasinska J., Quinones-Olvera N., Finn R.D., Bateman, A., Petrov A.I (2018), “Non-Coding RNA Analysis Using the Rfam Database”, Current Protocols in Bioinformatics, 62(1), p 51 21 Kang S.M., Choi J.W, Lee Y., Hong S.H., Lee H.J (2013), “Identification of microRNA-Size, Small RNAs in Escherichia coli”, Current Microbiology, 67(5), pp 609–613 22 Kohavi R (1995), “A study of cross-validation and bootstrap for accuracy estimation and model selection”, Morgan Kaufmann Publishers Inc., San Francisco, 1137–1143 23 Liu J.M., Livny J., Lawrence M.S., Kimball M.D., Waldor M.K., Camilli A (2009), “Experimental discovery of sRNAs in Vibrio cholerae by direct cloning, 5s/tRNA depletion and parallel sequencing”, Nucleic Acids Research, 37 (6), p 46 24 Lloyd C.R., Park S., Fei J., Vanderpool C.K (2017), “The Small Protein SgrT Controls Transport Activity of the Glucose-Specific Phosphotransferase System”, Journal of Bacteriology, 199(11) 25 Loh E., Dussurget O., Gripenland J., Vaitkevicius K., Tiensuu T., Mandin P., Repoila F., Buchrieser C., Cossart P., Johansson J (2009), “A trans-Acting Riboswitch Controls Expression of the Virulence Regulator PrfA in Listeria monocytogenes”, Cell, 139 (4), pp 770–779 26 Majdalani N., Chen S., Murrow J., Kristin S.J., Gottesman S (2001), “Regulation of RpoS by a novel small RNA: the characterization of RprA”, Molecular Microbiology, 39 (5), pp 1382–1394 27 Mandin P., Gottesman S (2010), “Integrating anaerobic/aerobic sensing and the general stress response through the ArcZ small RNA”, The EMBO journal, 29 (18), pp 3094–3107 28 Massé E., Gottesman S (2002), “A small RNA regulates the expression of genes involved in iron metabolism in Escherichia coli”, Proceedings of the National Academy of Sciences, 99 (7), pp 4620–4625 29 Mika F., Hengge R (2013), “Small Regulatory RNAs in the Control of Motility and Biofilm Formation in E coli and Salmonella”, International Journal of Molecular Sciences, 14(3), pp 4560–4579 30 Nielsen M (2015), “Neural Networks and Deep Learning”, Determination press 31 Papenfort K., Bouvier M., Mika F., Sharma C.M., Vogel J (2010), “Evidence for an autonomous 5’ target recognition domain in an Hfq-associated small RNA”, Proceedings of the National Academy of Sciences, 107 (47), pp 20435–20440 32 Pertsemlidis A., Fondon J.W (2001), “Having a BLAST with bioinformatics (and avoiding BLASTphemy)”, Genome Biology, 2(10) 33 Powers D (2011), “EVALUATION: FROM PRECISION, RECALL AND FMEASURE TO ROC, INFORMEDNESS, MARKEDNESS & CORRELATION”, Journal of Machine Learning Technologies, (1), pp 37– 63 34 Opdyke J.A., Kang J.G., Storz G (2004), “GadY, a Small-RNA Regulator of Acid Response Genes in Escherichia coli”, Journal of Bacteriology, 186(20), pp 6698–6705 35 Raina M., King A., Bianco C., Vanderpool C.K (2018), “Dual-Function RNAs”, Microbiology Spectrum, 6(5) 36 Rivas E., Eddy S.R (2001), “Noncoding RNA gene detection using comparative sequence analysis,” BMC Bioinformatics, (1), p 37 Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A (2004), "Are Loss Functions All the Same?", Neural Computation, 16(5), pp 1063-1076 38 Rosenblatt F (1957), “The Perceptron: A Perceiving and Recognizing Automaton”, Cornell Aeronautical Laboratory 39 Sato K., Akiyama M., Sakakibara Y (2021), “RNA secondary structure prediction using deep learning with thermodynamic integration”, Nat Commun, 12, p 941 40 Sreeram M (2021), “Cervical Cancer Detection using Convolutional Neural Network (CNN) and Long-Short Term Memory (LSTM) based on Histopathological Images”, Annals of the Romanian Society for Cell Biology, 25 (6), pp 5875–5883 41 Tang G., Shi J., Wu W et al (2018), “Sequence-based bacterial small RNAs prediction using ensemble learning strategies”, BMC Bioinformatics, 19, p 503 42 Vockenhuber P.M., Sharma C.M., Statt M.G., Schmidt D., Xu Z., Dietrich S., Liesegang H., Mathews D.H., Suess B (2011), “Deep sequencing-based identification of small non-coding RNAs in Streptomyces coelicolor”, RNA Biology, (3), pp 468–477 43 Wang L., Lin Z.Q., Wong A (2020), “COVID-Net: a tailored deep convolutional neural network design for detection of COVID-19 cases from chest X-ray images”, Sci Rep, 10, p 19549 44 Zhao T., Hu Y., Valsdottir L.R., Zang T., Peng J (2021), “Identifying drug– target interactions based on graph convolutional network and deep neural network”, Briefings in Bioinformatics, 22 (2), pp 2141–2150 PHỤ LỤC Phụ lục 1: Các lệnh xây dựng NN Model D_1: def Model D_1(): Inputs = L.Input(shape=(200,4)) x = L.Dense(8)(Inputs) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(4)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_2: def Model D_2(): Inputs = L.Input(shape=(200,4)) x = L.Dense(16)(Inputs) x = L.Dense(16)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(8)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_3: def Model D_3(): Inputs = L.Input(shape=(200,4)) x = L.Dense(32)(Inputs) x = L.Dense(32)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(16)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_4: def Model D_4(): Inputs = L.Input(shape=(200,4)) x = L.Dense(64)(Inputs) x = L.Dense(64)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.25)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_5: def Model D_5(): Inputs = L.Input(shape=(200,4)) x = L.Dense(128)(Inputs) x = L.Dense(128)(x) x = L.Dense(64)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.3)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.3)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_1: def Model C_1(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(8, 3, 1, 'same')(Inputs) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(4)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_2: def Model C_2(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(16, 3, 1, 'same')(Inputs) x = L.Conv1D(16, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(8)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_3: def Model C_3(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(32, 3, 1, 'same')(Inputs) x = L.Conv1D(32, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(16)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_4: def Model C_4(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(64, 3, 1, 'same')(Inputs) x = L.Conv1D(64, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.25)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_5: def Model C_5(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(128, 3, 1, 'same')(Inputs) x = L.Conv1D(128, 2, 1, 'same')(x) x = L.Conv1D(64, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.3)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.3)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI HOÀNG MINH HUYỀN XÂY DỰNG MẠNG NEURON MÁY TÍNH CĨ KHẢ NĂNG NHẬN DIỆN TRÌNH TỰ sARN TRÊN HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ HÀ NỘI – 2021 ... vi? ??c nghiên cứu sARN ưu điểm vượt trội mạng neuron, thực đề tài ? ?Xây dựng mạng neuron máy tính có khả nhận diện trình tự sARN hệ gen vi khuẩn? ?? với mục tiêu xây dựng, luyện tập lựa chọn mạng neuron. .. 32 3.4 SO SÁNH MẠNG NEURON VỚI BLAST TRONG TÌM KIẾM TRÌNH TỰ SARN 33 3.5 ĐÁNH GIÁ HOẠT ĐỘNG CỦA MẠNG NEURON TRONG NHẬN DIỆN SARN TRÊN GENOM CỦA VI KHUẨN 34 3.6 BÀN LUẬN ... tập lựa chọn mạng neuron máy tính có khả nhận diện trình tự sARN có độ tin cậy cao CHƯƠNG TỔNG QUAN 1.1 Giới thiệu sARN vi khuẩn sARN biết đến ARN vi khuẩn tạo ra, thường có chiều dài 50 – 500 nucleotid,

Ngày đăng: 11/12/2021, 18:36

Hình ảnh liên quan

Hình 1.2. Đồ thị của hàm Sigmoid - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.2..

Đồ thị của hàm Sigmoid Xem tại trang 16 của tài liệu.
Hình 1.1. Mô hình cấu tạo và hoạt động của perceptron - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.1..

Mô hình cấu tạo và hoạt động của perceptron Xem tại trang 16 của tài liệu.
Hình 1.4. Đồ thị của hàm ReLU - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.4..

Đồ thị của hàm ReLU Xem tại trang 17 của tài liệu.
Hình 1.3. Đồ thị của hàm Tanh - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.3..

Đồ thị của hàm Tanh Xem tại trang 17 của tài liệu.
1.2.2. Mô hình tổng quát của mạng neuron - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

1.2.2..

Mô hình tổng quát của mạng neuron Xem tại trang 18 của tài liệu.
Hình 1.6. Ký hiệu trong mô hình mạng neuron 1.2.3. Mạng neuron tích chập  - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.6..

Ký hiệu trong mô hình mạng neuron 1.2.3. Mạng neuron tích chập Xem tại trang 19 của tài liệu.
Hình 1.7. Nguyên tắc hoạt động của mạng tích chập 1 chiều 1.2.4. Luyện tập mang mạng neuron  - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.7..

Nguyên tắc hoạt động của mạng tích chập 1 chiều 1.2.4. Luyện tập mang mạng neuron Xem tại trang 20 của tài liệu.
Hình 1.8. Nguyên tắc hoạt động của phương pháp Gradient descent - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 1.8..

Nguyên tắc hoạt động của phương pháp Gradient descent Xem tại trang 21 của tài liệu.
Hình 2.1. Minh hoạ cho phương pháp xử lý dữ liệu 2.3.2. Xây dựng, luyện tập và đánh giá mạng neuron  - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 2.1..

Minh hoạ cho phương pháp xử lý dữ liệu 2.3.2. Xây dựng, luyện tập và đánh giá mạng neuron Xem tại trang 24 của tài liệu.
Hình 2.2. Các bước chia dữ liệu trong phương pháp định chéo 2.3.3.2. Đánh giá  - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 2.2..

Các bước chia dữ liệu trong phương pháp định chéo 2.3.3.2. Đánh giá Xem tại trang 27 của tài liệu.
Hình 3.1. Đồ thị số lượng các trình tự trong mỗi họ sARN ở dữ liệu gốc - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.1..

Đồ thị số lượng các trình tự trong mỗi họ sARN ở dữ liệu gốc Xem tại trang 30 của tài liệu.
Hình 3.2. Đồ thị phân bố về chiều dài của các sARN trong dữ liệu gốc - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.2..

Đồ thị phân bố về chiều dài của các sARN trong dữ liệu gốc Xem tại trang 31 của tài liệu.
3.1.2. Sàng lọc và xử lý dữ liệu - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

3.1.2..

Sàng lọc và xử lý dữ liệu Xem tại trang 31 của tài liệu.
Hình 3.3. Đồ thị số lượng các trình tự trong mỗi họ sARN ở dữ liệu cuối - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.3..

Đồ thị số lượng các trình tự trong mỗi họ sARN ở dữ liệu cuối Xem tại trang 32 của tài liệu.
Hình 3.4. Sơ đồ các mạng neuron được khảo sát - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.4..

Sơ đồ các mạng neuron được khảo sát Xem tại trang 34 của tài liệu.
Hình 3.5. Đồ thị độ chính xác của các mạng neuron: (a) cấu trúc Dense và (b) cấu trúc Conv1D - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.5..

Đồ thị độ chính xác của các mạng neuron: (a) cấu trúc Dense và (b) cấu trúc Conv1D Xem tại trang 35 của tài liệu.
Bảng 3.2. Số lượng chu kỳ để đạt đến bão hoà của các mạng neuron - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Bảng 3.2..

Số lượng chu kỳ để đạt đến bão hoà của các mạng neuron Xem tại trang 36 của tài liệu.
Hình 3.6. Đồ thị số lượng và tỷ lệ kết quả do mạng neuron dự đoán trùng khớp với BLAST - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.6..

Đồ thị số lượng và tỷ lệ kết quả do mạng neuron dự đoán trùng khớp với BLAST Xem tại trang 39 của tài liệu.
Hình 3.7. Minh họa kết quả tìm kiếm trình tự sARN của mạng neuron - HOÀNG MINH HUYỀN xây DỰNG MẠNG NEURON máy TÍNH có KHẢ NĂNG NHẬN DIỆN TRÌNH tự sARN TRÊN hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

Hình 3.7..

Minh họa kết quả tìm kiếm trình tự sARN của mạng neuron Xem tại trang 40 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan