Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
2,11 MB
Nội dung
BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI HOÀNG MINH HUYỀN XÂY DỰNG MẠNG NEURON MÁY TÍNH CĨ KHẢ NĂNG NHẬN DIỆN TRÌNH TỰ sARN TRÊN HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ HÀ NỘI – 2021 TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI HOÀNG MINH HUYỀN 1601365 XÂY DỰNG MẠNG NEURON MÁY TÍNH CĨ KHẢ NĂNG NHẬN DIỆN TRÌNH TỰ sARN TRÊN HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ Người hướng dẫn: TS Đỗ Ngọc Quang Nơi thực hiện: Bộ môn Vi sinh & Sinh học – Trường Đại học Dược Hà Nội HÀ NỘI – 2021 LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn TS Đỗ Ngọc Quang – Bộ môn Vi sinh & Sinh học – Trường Đại học Dược Hà Nội tận tình, kiên nhẫn hướng dẫn, bảo, tạo điều kiện học tập nghiên cứu để hồn thành khóa luận Tôi xin gửi lời cảm ơn tới giảng viên Bộ môn Vi sinh & Sinh học tạo điều kiện quan tâm giúp đỡ suốt q trình thực khố luận Cuối cùng, tơi xin cảm ơn gia đình bạn bè ủng hộ động viên trình học tập, nghiên cứu Hà Nội, ngày tháng năm 2021 Sinh viên Hoàng Minh Huyền MỤC LỤC TRANG BÌA CHÍNH TRANG BÌA PHỤ LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ ĐẶT VẤN ĐỀ CHƯƠNG TỔNG QUAN 1.1 GIỚI THIỆU VỀ SARN Ở VI KHUẨN 1.1.1 Kích thước 1.1.2 Vị trí 1.1.3 Vai trò sinh học 1.1.3.1 Điều hồ q trình trao đổi chất 1.1.3.2 Điều hồ hình thành màng sinh học khả vận động 1.1.3.3 Phản ứng stress thích nghi với điều kiện phát triển 1.1.3.4 Vai trị sARN q trình sinh bệnh vi khuẩn 1.1.3.5 Mã hoá cho protein 1.1.4 Các họ sARN 1.1.5 Các phương pháp tin sinh học nghiên cứu sARN 1.1.5.1 BLAST 1.1.5.2 Phương pháp học máy dự đoán sARN 1.2 MẠNG NEURON MÁY TÍNH 10 1.2.1 Perceptron 10 1.2.2 Mơ hình tổng qt mạng neuron 13 1.2.3 Mạng neuron tích chập 14 1.2.4 Luyện tập mang mạng neuron 15 1.2.4.1 Hàm mát 15 1.2.4.2 Thuật toán tối ưu hoá 15 CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 17 2.1 NGUYÊN VẬT LIỆU, THIẾT BỊ 17 2.1.1 Dữ liệu 17 2.1.2 Thiết bị, công cụ, thư viện 17 2.2 NỘI DUNG NGHIÊN CỨU 17 2.2.1 Khảo sát đặc điểm, sàng lọc xử lý liệu 17 2.2.2 Xây dựng đánh giá mạng neuron 17 2.2.3 Luyện tập mạng neuron phương pháp thẩm định chéo 17 2.2.4 So sánh mạng neuron với BLAST tìm kiếm trình tự sARN 18 2.2.5 Đánh giá hoạt động mạng neuron nhận diện sARN genom vi khuẩn 18 2.3 PHƯƠNG PHÁP NGHIÊN CỨU 18 2.3.1 Khảo sát đặc điểm, sàng lọc xử lý liệu 18 2.3.2 Xây dựng, luyện tập đánh giá mạng neuron 19 2.3.2.1 Xây dựng mạng neuron 19 2.3.2.2 Luyện tập mạng neuron 21 2.3.2.3 Đánh giá 21 2.3.3 Luyện tập mạng neuron phương pháp thẩm định chéo 21 2.3.3.1 Phương pháp thẩm định chéo 21 2.3.3.2 Đánh giá 22 2.3.4 So sánh mạng neuron với BLAST tìm kiếm trình tự sARN 23 2.3.5 Đánh giá hoạt động mạng neuron nhận diện sARN genom vi khuẩn 24 CHƯƠNG KẾT QUẢ VÀ BÀN LUẬN 25 3.1 KẾT QUẢ KHẢO SÁT ĐẶC ĐIỂM VÀ SÀNG LỌC, XỬ LÝ DỮ LIỆU 25 3.1.1 Khảo sát đặc điểm phân bố, chiều dài liệu 25 3.1.2 Sàng lọc xử lý liệu 26 3.2 ĐÁNH GIÁ HOẠT ĐỘNG CỦA CÁC MẠNG NEURON TRONG PHÂN LOẠI SARN 27 3.3 LUYỆN TẬP CÁC MẠNG NEURON BẰNG PHƯƠNG PHÁP THẨM ĐỊNH CHÉO 32 3.4 SO SÁNH MẠNG NEURON VỚI BLAST TRONG TÌM KIẾM TRÌNH TỰ SARN 33 3.5 ĐÁNH GIÁ HOẠT ĐỘNG CỦA MẠNG NEURON TRONG NHẬN DIỆN SARN TRÊN GENOM CỦA VI KHUẨN 34 3.6 BÀN LUẬN 35 3.6.1 Số lượng chất lượng liệu 35 3.6.2 Giảm thiểu tài nguyên để vận hành mạng neuron 36 CHƯƠNG KẾT LUẬN VÀ ĐỀ XUẤT 37 4.1 KẾT LUẬN 37 4.2 ĐỀ XUẤT 37 PHỤ LỤC TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT CNN Convolutional neural network (Mạng neuron tích chập) E coli Escherichia coli IGR Intergenic region (Vùng liên kết gen) NN Neural network (Mạng neuron) NNEM Neural network ensemble method (Phương pháp tổng hợp mạng neuron) ORF Open reading frame (Khung đọc mở) SD Standard deviation (Độ lệch chuẩn) UTR Untranslated region (Vùng không dịch mã) WAEM Weighted average ensemble method (Phương pháp tổng hợp trọng số trung bình) DANH MỤC CÁC BẢNG Bảng 3.1 Phân tích thống kê khác biệt mạng neuron: 30-31 (a) dạng Dense; (b) dạng Conv1D; (c) dạng Dense với Conv1D Bảng 3.2 Số lượng chu kỳ để đạt đến bão hoà mạng neuron 31 Bảng 3.3 Đánh giá độ đặc hiệu, độ nhạy, điểm F1 mạng 32 neuron khơng có sử dụng thẩm định chéo DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ Hình 1.1 Mơ hình cấu tạo hoạt động perceptron 11 Hình 1.2 Đồ thị hàm Sigmoid 11 Hình 1.3 Đồ thị hàm Tanh 12 Hình 1.4 Đồ thị hàm ReLU 12 Hình 1.5 Mơ hình ví dụ mạng neuron 13 Hình 1.6 Ký hiệu mơ hình mạng neuron 14 Hình 1.7 Nguyên tắc hoạt động mạng tích chập chiều 15 Hình 1.8 Ngun tắc hoạt động phương pháp Gradient descent 16 Hình 2.1 Minh hoạ cho phương pháp xử lý liệu 19 Hình 2.2 Các bước chia liệu phương pháp định chéo 22 Hình 3.1 Đồ thị số lượng trình tự họ sARN 25 liệu gốc Hình 3.2 Đồ thị phân bố chiều dài sARN liệu gốc 26 Hình 3.3 Đồ thị số lượng trình tự họ sARN 27 liệu cuối Hình 3.4 Sơ đồ mạng neuron khảo sát 28-29 Hình 3.5 Đồ thị độ xác mạng neuron: 30 (a) cấu trúc Dense (b) cấu trúc Conv1D Hình 3.6 Đồ thị số lượng tỷ lệ kết mạng neuron dự đoán 34 trùng khớp với BLAST Hình 3.7 Minh họa kết tìm kiếm trình tự sARN mạng neuron 35 ĐẶT VẤN ĐỀ ARN nhỏ vi khuẩn (sARN) đóng vai trị quan trọng việc điều tiết trình sinh học gây bệnh vi khuẩn, việc phát xác định vai trò sARN ngày quan tâm Theo truyền thống, sARN xác định kỹ thuật phịng thí nghiệm [42, 23] Tuy nhiên, phương pháp cho tốn xác định số lượng sARN Thay vào đó, đời phương pháp tin sinh học thực hiệu việc Kể từ năm 2001, phương pháp so sánh gen đề xuất [36], có nhiều phương pháp tin sinh học khác đời áp dụng việc phát sARN, không kể đến phương pháp ứng dụng mạng neuron máy tính Mạng neuron mơ hình tốn học phức tạp có ngun tắc hoạt động lấy cảm hứng từ cách hoạt động tế bào thần kinh sinh vật Ưu điểm bật mạng neuron khả tự học hỏi điều chỉnh tham số mơ hình dựa liệu cung cấp để giải toán đề Trong lĩnh vực Y Dược, có nhiều ứng dụng mạng neuron chẩn đoán bệnh phát sớm ung thư, xác định tương tác thuốc – mục tiêu, dự đoán cấu trúc bậc hai ARN, [40, 43, 44, 39] Các nghiên cứu sử dụng mạng neuron để phát sARN thường khai thác nhiều đặc điểm khác sARN kết hợp với nhiều phương pháp học máy khác Rừng ngẫu nhiên (Ramdom forest), Máy vector hỗ trợ (Support vector machine) [3, 41, 10] Nhận thấy quan trọng việc nghiên cứu sARN ưu điểm vượt trội mạng neuron, thực đề tài “Xây dựng mạng neuron máy tính có khả nhận diện trình tự sARN hệ gen vi khuẩn” với mục tiêu xây dựng, luyện tập lựa chọn mạng neuron máy tính có khả nhận diện trình tự sARN có độ tin cậy cao 3.4 So sánh mạng neuron với BLAST tìm kiếm trình tự sARN BLAST coi công cụ tin sinh học sử dụng phổ biến để tìm trình tự nucleotid hay acid amin BLAST tích hợp làm cơng cụ mặc định sở liệu NCBI Chúng dùng BLAST để tìm trình tự thuộc 206 họ sARN genom vi khuẩn Salmonella enterica subsp enterica serovar Typhimurium str LT2 Kết BLAST tìm 3007 trình tự nucleotid với mức độ tương đồng từ 66,15% đến 100,00% Chúng tơi dùng 3007 trình tự làm liệu kiểm tra cho mạng C_5 Mục đích thí nghiệm nhằm xác định độ tương đồng kết tìm kiếm NN so với BLAST Đối chiếu hai phương pháp, chúng tơi nhận thấy kết có trùng khớp phần vị trí trình tự nucleotid họ sARN mà chúng thuộc Số lượng tỷ lệ trùng khớp tùy thuộc vào ngưỡng tin cậy thiết lập mạng C_5 (hình 3.6) Ngưỡng lớn kết dự đốn có độ tin cậy cao, số lượng kết tìm lại Khi ngưỡng tăng từ đến 0,23, số lượng tỷ lệ trùng khớp không đổi: số lượng 1007 tỷ lệ 38,59% Nếu đặt ngưỡng tin cậy 0,99, số lượng kết NN 503 tỷ lệ trùng khớp lên đến 99,6% Trong thí nghiệm sau, chúng tơi sử dụng ngưỡng tin cậy 0,99 cho mạng neuron C_5 33 120 1000 100 800 80 600 60 400 40 200 20 >=0,00 >=0,05 >=0,10 >=0,15 >=0,20 >=0,25 >=0,30 >=0,35 >=0,40 >=0,45 >=0,50 >=0,55 >=0,60 >=0,65 >=0,70 >=0,75 >=0,80 >=0,85 >=0,90 >=0,95 Tỷ lệ trùng khớp (%) Số lượng trùng khớp 1200 Ngưỡng Số lượng trùng khớp Tỷ lệ trùng khớp Hình 3.6 Đồ thị số lượng tỷ lệ kết mạng neuron dự đoán trùng khớp với BLAST 3.5 Đánh giá hoạt động mạng neuron nhận diện sARN genom vi khuẩn Chúng tơi thử nghiệm sử dụng mạng C_5 để tìm trình tự sARN đoạn ADN dài 10000 nucleotid (từ vị trí đến 10000) lấy từ genom vi khuẩn Salmonella enterica subsp enterica serovar Typhimurium str LT2 Khác với thí nghiệm trước tìm lại trình tự kết BLAST Trong thí nghiệm này, chúng tơi muốn tìm tồn đoạn trình tự sARN có genom, qua đánh giá hiệu hoạt động mạng neuron Kết tìm kiếm minh họa hình 3.7 Quan sát kết thấy trình tự tìm mà có vị trí gần có chung họ, điều chứng tỏ vùng có kết xác, tổng cộng thu 26460 trình tự, thời gian tìm kiếm khoảng 20 phút máy tính cá nhân Đây thời gian tương đối ngắn so với khoảng thời gian vài để tìm kiếm BLAST 34 Hình 3.7 Minh họa kết tìm kiếm trình tự sARN mạng neuron 3.6 Bàn luận 3.6.1 Số lượng chất lượng liệu Do có sARN, nhiều họ sARN (chiếm tới 74,83% tổng số họ sARN Rfam) bị loại khỏi tập liệu Có thể khắc phục hạn chế kỹ thuật Data Augmentation Đây kỹ thuật tạo thêm liệu cách đổi liệu có sẵn Đối với liệu dạng ảnh, phương pháp thực đơn giản cách xoay, lật, cắt ngẫu nhiên phần, đổi màu, ảnh gốc Đối với liệu dạng chuỗi, đặc biệt chuỗi sinh học, việc thay đổi liệu gốc cần cân nhắc cẩn thận để khơng làm đặc tính liệu gốc Một số cách áp dụng thêm, xố đổi ngẫu nhiên vị trí nucleotid Trong tập liệu dùng để luyện tập NN, số lượng chiều dài trình tự không đồng họ sARN Đây tượng cân liệu Một số kỹ thuật hiệu áp dụng cho tình là: 35 - Under sampling: Giảm số lượng liệu class nhiều liệu cho số liệu class tương đối cân - Over sampling: Lặp lại liệu class có liệu tạo liệu với đặc tính tương tự liệu gốc (phương pháp SMOTE, ADASYN) 3.6.2 Giảm thiểu tài nguyên để vận hành mạng neuron Một hạn chế sử dụng mạng neuron nghiên cứu đòi hỏi tài nguyên máy tính lớn xử lý genom với chiều dài hàng triệu nucleotid Chính với phương tiện sẵn có, nghiên cứu chúng tơi khơng thể tìm kiếm sARN đồng thời toàn genom vi khuẩn Để giải vấn đề này, sử dụng cơng cụ Data generator sẵn có thư viện Tensorflow, theo liệu chia nhỏ tự động đưa dần vào NN để dự đoán 36 CHƯƠNG KẾT LUẬN VÀ ĐỀ XUẤT 4.1 Kết luận Sau thực đề tài, thu kết sau: - Đã tạo liệu trình tự 206 họ sARN dùng cho phương pháp học máy - Đã khảo sát, lựa chọn, luyện tập mạng neuron có khả tìm kiếm trình tự sARN với độ đặc hiệu 0,99 độ nhạy 0,98 - Đã tiến hành đánh giá độ tương đồng khả tìm kiếm mạng neuron với công cụ BLAST - Đã bước đầu đánh giá hiệu tìm kiếm trình tự sARN mạng neuron đoạn genom vi khuẩn 4.2 Đề xuất Do thời gian kiến thức có hạn, đề tài cịn nhiều hạn chế Bởi chúng tơi đề xuất số nội dung để hoàn thiện sau: - Tăng cường số họ sARN tập liệu để luyện tập - Xây dựng thuật toán xử lý liệu hiệu để vận hành mạng neuron - Kiểm tra kết tìm kiếm thực nghiệm 37 TÀI LIỆU THAM KHẢO Altuvia S., Weinstein-Fischer D., Zhang A., Postow L., Storz G (1997), “A Small, Stable RNA Induced by Oxidative Stress: Role as a Pleiotropic Regulator and Antimutator”, Cell, 90 (1), pp 43–53 Babitzke P., Romeo T (2007), “CsrB sRNA family: sequestration of RNAbinding regulatory proteins”, Current Opinion Microbiol, 10(2), pp 156–163 Barman R., Mukhopadhyay A., Das S (2017), “An improved method for identification of small non-coding RNAs in bacteria using support vector machine”, Sci Rep, 7, p 46070 Beisel C.L., Storz G (2011), “The base-pairing RNA spot 42 participates in a multioutput feedforward loop to help enact catabolite repression in Escherichia coli”, Molecular Cell, 41(3), pp 286–297 Bishop C.M (2006), “Pattern recognition and machine learning”, Springer, New York Boisset S., Geissmann T., Huntzinger E., Fechter P., Bendridi N., Possedko M., Chevalier C., Helfer A.C., Benito Y., Jacquier A., Gaspin C., Vandenesch F., Romby P (2007), “Staphylococcus aureus RNAIII coordinately represses the synthesis of virulence factors and the transcription regulator Rot by an antisense mechanism”, Genes & Development, 21(11), pp 1353–1366 Carrier M.C., Lalaouna D., Massé E (2018), “Broadening the Definition of Bacterial Small RNAs: Characteristics and Mechanisms of Action”, Annual Review of Microbiology, 72(1), pp 141–161 Chao Y., Papenfort K., Reinhardt R., Sharma C.M., Vogel J (2012), “An atlas of Hfq-bound transcripts reveals 3’-UTRs as a genomic reservoir of regulatory small RNAs”, The EMBO Journal, 31(20), pp 4005–4019 Durand S., Storz G (2010), “Reprogramming of anaerobic metabolism by the FnrS small RNA”, Molecular Microbiology, 75(5), pp 1215–1231 10 Elsisy M (2019), “Utilizing RNNs and Ensemble Learning for Enhanced Bacterial sRNA Classification”, Memorial University of Newfoundland, pp 10–24 11 Gerrick E.R (2018), “Discovery of Small RNAs and Characterization of Their Regulatory Roles in Mycobacterium Tuberculosis”, Harvard University, p 12 Goodfellow I., Bengio Y., Courville A (2016), “Deep Learning”, The MIT Press, Cambridge 13 Griffiths-Jones S., Bateman A., Marshall M., Khanna A., Eddy S.R (2003) “Rfam: an RNA family database”, Nucleic Acids Research, 31(1), pp 439– 441 14 Hagan M.T., Demuth H.B., Beale M.H., Jesús O.D (2014), “Neural Network Design”, Martin Hagan 15 Heidrich N., Chinali A., Gerth U., Brantl S (2006), “The small untranslated RNA SR1 from the Bacillus subtilis genome is involved in the regulation of arginine catabolism”, Molecular Microbiology, 62, pp 520–536 16 Heurlier K., Williams F., Heeb S., Dormond C., Pessi G., Singer D., Cámara M., Williams P., Haas D (2004), “Positive control of swarming, rhamnolipid synthesis, and lipase production by the posttranscriptional RsmA/RsmZ system in Pseudomonas aeruginosa PAO1”, Journal of Bacteriology, 186(10), pp 2936–2945 17 Hinton G., Srivastava N., Krizhevsky A., Sutskever I., Salakhutdinov R (2012), “Improving neural networks by preventing co-adaptation of feature detectors”, University of Toronto 18 Hinton G., Srivastava N., Krizhevsky A., Sutskever I., Salakhutdinov R (2014), “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”, Journal of Machine Learning Research, 15(56), pp 1929−1958 19 Ioffe S., Szegedy C (2015), “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, Proceedings of Machine Learning Research, 37, pp 448-456 20 Kalvari I., Nawrocki E.P., Argasinska J., Quinones-Olvera N., Finn R.D., Bateman, A., Petrov A.I (2018), “Non-Coding RNA Analysis Using the Rfam Database”, Current Protocols in Bioinformatics, 62(1), p 51 21 Kang S.M., Choi J.W, Lee Y., Hong S.H., Lee H.J (2013), “Identification of microRNA-Size, Small RNAs in Escherichia coli”, Current Microbiology, 67(5), pp 609–613 22 Kohavi R (1995), “A study of cross-validation and bootstrap for accuracy estimation and model selection”, Morgan Kaufmann Publishers Inc., San Francisco, 1137–1143 23 Liu J.M., Livny J., Lawrence M.S., Kimball M.D., Waldor M.K., Camilli A (2009), “Experimental discovery of sRNAs in Vibrio cholerae by direct cloning, 5s/tRNA depletion and parallel sequencing”, Nucleic Acids Research, 37 (6), p 46 24 Lloyd C.R., Park S., Fei J., Vanderpool C.K (2017), “The Small Protein SgrT Controls Transport Activity of the Glucose-Specific Phosphotransferase System”, Journal of Bacteriology, 199(11) 25 Loh E., Dussurget O., Gripenland J., Vaitkevicius K., Tiensuu T., Mandin P., Repoila F., Buchrieser C., Cossart P., Johansson J (2009), “A trans-Acting Riboswitch Controls Expression of the Virulence Regulator PrfA in Listeria monocytogenes”, Cell, 139 (4), pp 770–779 26 Majdalani N., Chen S., Murrow J., Kristin S.J., Gottesman S (2001), “Regulation of RpoS by a novel small RNA: the characterization of RprA”, Molecular Microbiology, 39 (5), pp 1382–1394 27 Mandin P., Gottesman S (2010), “Integrating anaerobic/aerobic sensing and the general stress response through the ArcZ small RNA”, The EMBO journal, 29 (18), pp 3094–3107 28 Massé E., Gottesman S (2002), “A small RNA regulates the expression of genes involved in iron metabolism in Escherichia coli”, Proceedings of the National Academy of Sciences, 99 (7), pp 4620–4625 29 Mika F., Hengge R (2013), “Small Regulatory RNAs in the Control of Motility and Biofilm Formation in E coli and Salmonella”, International Journal of Molecular Sciences, 14(3), pp 4560–4579 30 Nielsen M (2015), “Neural Networks and Deep Learning”, Determination press 31 Papenfort K., Bouvier M., Mika F., Sharma C.M., Vogel J (2010), “Evidence for an autonomous 5’ target recognition domain in an Hfq-associated small RNA”, Proceedings of the National Academy of Sciences, 107 (47), pp 20435–20440 32 Pertsemlidis A., Fondon J.W (2001), “Having a BLAST with bioinformatics (and avoiding BLASTphemy)”, Genome Biology, 2(10) 33 Powers D (2011), “EVALUATION: FROM PRECISION, RECALL AND FMEASURE TO ROC, INFORMEDNESS, MARKEDNESS & CORRELATION”, Journal of Machine Learning Technologies, (1), pp 37– 63 34 Opdyke J.A., Kang J.G., Storz G (2004), “GadY, a Small-RNA Regulator of Acid Response Genes in Escherichia coli”, Journal of Bacteriology, 186(20), pp 6698–6705 35 Raina M., King A., Bianco C., Vanderpool C.K (2018), “Dual-Function RNAs”, Microbiology Spectrum, 6(5) 36 Rivas E., Eddy S.R (2001), “Noncoding RNA gene detection using comparative sequence analysis,” BMC Bioinformatics, (1), p 37 Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A (2004), "Are Loss Functions All the Same?", Neural Computation, 16(5), pp 1063-1076 38 Rosenblatt F (1957), “The Perceptron: A Perceiving and Recognizing Automaton”, Cornell Aeronautical Laboratory 39 Sato K., Akiyama M., Sakakibara Y (2021), “RNA secondary structure prediction using deep learning with thermodynamic integration”, Nat Commun, 12, p 941 40 Sreeram M (2021), “Cervical Cancer Detection using Convolutional Neural Network (CNN) and Long-Short Term Memory (LSTM) based on Histopathological Images”, Annals of the Romanian Society for Cell Biology, 25 (6), pp 5875–5883 41 Tang G., Shi J., Wu W et al (2018), “Sequence-based bacterial small RNAs prediction using ensemble learning strategies”, BMC Bioinformatics, 19, p 503 42 Vockenhuber P.M., Sharma C.M., Statt M.G., Schmidt D., Xu Z., Dietrich S., Liesegang H., Mathews D.H., Suess B (2011), “Deep sequencing-based identification of small non-coding RNAs in Streptomyces coelicolor”, RNA Biology, (3), pp 468–477 43 Wang L., Lin Z.Q., Wong A (2020), “COVID-Net: a tailored deep convolutional neural network design for detection of COVID-19 cases from chest X-ray images”, Sci Rep, 10, p 19549 44 Zhao T., Hu Y., Valsdottir L.R., Zang T., Peng J (2021), “Identifying drug– target interactions based on graph convolutional network and deep neural network”, Briefings in Bioinformatics, 22 (2), pp 2141–2150 PHỤ LỤC Phụ lục 1: Các lệnh xây dựng NN Model D_1: def Model D_1(): Inputs = L.Input(shape=(200,4)) x = L.Dense(8)(Inputs) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(4)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_2: def Model D_2(): Inputs = L.Input(shape=(200,4)) x = L.Dense(16)(Inputs) x = L.Dense(16)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(8)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_3: def Model D_3(): Inputs = L.Input(shape=(200,4)) x = L.Dense(32)(Inputs) x = L.Dense(32)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(16)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_4: def Model D_4(): Inputs = L.Input(shape=(200,4)) x = L.Dense(64)(Inputs) x = L.Dense(64)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.25)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model D_5: def Model D_5(): Inputs = L.Input(shape=(200,4)) x = L.Dense(128)(Inputs) x = L.Dense(128)(x) x = L.Dense(64)(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.3)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.3)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_1: def Model C_1(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(8, 3, 1, 'same')(Inputs) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(4)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_2: def Model C_2(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(16, 3, 1, 'same')(Inputs) x = L.Conv1D(16, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(8)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_3: def Model C_3(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(32, 3, 1, 'same')(Inputs) x = L.Conv1D(32, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(16)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_4: def Model C_4(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(64, 3, 1, 'same')(Inputs) x = L.Conv1D(64, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.25)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.25)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model Model C_5: def Model C_5(): Inputs = L.Input(shape=(200,4)) x = L.Conv1D(128, 3, 1, 'same')(Inputs) x = L.Conv1D(128, 2, 1, 'same')(x) x = L.Conv1D(64, 2, 1, 'same')(x) x = L.BatchNormalization()(x) x = L.ReLU()(x) x = L.Dropout(0.3)(x) x = L.Dense(32)(x) x = L.Dense(32)(x) x = L.Dropout(0.3)(x) x = L.Flatten()(x) Outputs = L.Dense(206, activation='softmax')(x) model = M.Model(Inputs, Outputs) return model ...TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI HOÀNG MINH HUYỀN 1601365 XÂY DỰNG MẠNG NEURON MÁY TÍNH CĨ KHẢ NĂNG NHẬN DIỆN TRÌNH TỰ sARN TRÊN HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ Người hướng dẫn:... vi? ??c nghiên cứu sARN ưu điểm vượt trội mạng neuron, thực đề tài ? ?Xây dựng mạng neuron máy tính có khả nhận diện trình tự sARN hệ gen vi khuẩn? ?? với mục tiêu xây dựng, luyện tập lựa chọn mạng neuron. .. 32 3.4 SO SÁNH MẠNG NEURON VỚI BLAST TRONG TÌM KIẾM TRÌNH TỰ SARN 33 3.5 ĐÁNH GIÁ HOẠT ĐỘNG CỦA MẠNG NEURON TRONG NHẬN DIỆN SARN TRÊN GENOM CỦA VI KHUẨN 34 3.6 BÀN LUẬN