Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
2,53 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ MAI HOA CÁC PHƯƠNG PHÁP DỰ ĐOÁN KHẢ NĂNG ỨC CHẾ BỆNH DỰA TRÊN CÁC BIỂU DIỄN KHÁC NHAU CỦA RNA VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ MAI HOA CÁC PHƯƠNG PHÁP DỰ ĐOÁN KHẢ NĂNG ỨC CHẾ BỆNH DỰA TRÊN CÁC BIỂU DIỄN KHÁC NHAU CỦA RNA VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Bùi Ngọc Thăng HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi Phạm Thị Mai Hoa, học viên khóa K21, ngành Cơng nghệ thông tin, chuyên ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn “Các phương pháp dự đoán khả ức chế bệnh dựa biểu diễn khác RNA ứng dụng” nghiên cứu, tìm hiểu phát triển hướng dẫn TS Bùi Ngọc Thăng Luận văn chép từ tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2017 LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn tới thầy cô Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội tận tình giảng dạy truyền đạt kiến thức suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn đến thầy cô Bộ môn Hệ thống thông tin Khoa công nghệ thông tin mang lại cho kiến thức vơ q giá bổ ích q trình học tập trường Đặc biệt xin chân thành cảm ơn thầy giáo, TS Bùi Ngọc Thăng, người định hướng, giúp đỡ, trực tiếp hướng dẫn tận tình bảo tơi suốt q trình nghiên cứu, xây dựng hồn thiện luận văn Tơi xin cảm ơn tới gia đình, người thân, đồng nghiệp bạn bè thường xuyên quan tâm, động viên, chia sẻ kinh nghiệm, cung cấp tài liệu hữu ích thời gian học tập, nghiên cứu suốt trình thực luận văn tốt nghiệp Hà Nội, ngày tháng năm 2017 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT DANH MỤC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG GIỚI THIỆU VỀ KHẢ NĂNG ỨC CHẾ BỆNH CỦA RNA 12 TỔNG QUAN RNA CAN THIỆP (RNAI) 12 1.1 Tổng quan RNAi 1.2.Lịch sử nghiên cứu RNAi 1.3.Ý nghĩa việc phát RNAi CƠ CHẾ CAN THIỆP RNAI 2.1 Các loại RNAi 2.2.Cơ chế can thiệp RNA 2.3.Ứng dụng RNAi thách thức 12 13 15 15 15 16 18 2.3.1.Ứng dụng siRNA 19 2.3.2.Thách thức tránh hiệu ứng không mong muốn 19 PHÁT BIỂU BÀI TOÁN 19 CHƯƠNG CÁC HƯỚNG NGHIÊN CỨU KHẢ NĂNG ỨC CHẾ BỆNH CỦA RNA 21 HƯỚNG NGHIÊN CỨU SINH HỌC 21 HƯỚNG NGHIÊN CỨU TIN SINH HỌC 27 CHƯƠNG CÁC CÁCH THỨC BIỂU DIỄN RNA 38 BIỂU DIỄN THEO TẦN SỐ XUẤT HIỆN CỦA CÁC BỘ 1-MERGE, 2-MERGE, 3-MERGE 38 10 11 12 BIỂU DIỄN THEO TẦN SỐ CỦA MỘT BỘ CÁC NUCLEOTIDE CĨ TÍNH THỨ TỰ BIỂU DIỄN THÀNH SỐ TƯƠNG ỨNG VỚI LOẠI NUCLEOTIDE VÀ VỊ TRÍ PHƯƠNG PHÁP BIỂU DIỄN CHUỖI DNA KHƠNG SUY THỐI VOSS TETRAHEDRON INTEGER REAL COMPLEX QUATERNION EIIP ATOMIC NUMBER 39 40 40 44 44 44 45 45 46 46 47 13 PAIRED NUMERIC 47 14 15 DNA WALK 47 Z-CURVE 48 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM CÁC MƠ HÌNH DỰ ĐỐN KHẢ NĂNG ỨC CHẾ BỆNH CỦA SIRNA THEO CÁC BIỂU DIỄN DỮ LIỆU KHÁC NHAU 49 THỰC NGHIỆM THUẬT TOÁN KẾT HỢP APRIORI 50 THỰC NGHIỆM THUẬT TOÁN PHÂN LỚP NAÏVE BAYES 2.1 Biểu diễn VOSS 2.2 Biểu diễn DNA khơng suy thối THỰC NGHIỆM THUẬT TỐN PHÂN LỚP HỒI QUY TUYẾN TÍNH 3.1 Biểu diễn theo tần số xuất 1-merge, 2-merge, 3-merge 3.2 Biểu diễn theo tần số nucleotide có tính thứ tự 3.3 Phương pháp biểu diễn DNA không suy thoái 3.4 VOSS 3.5 TETRAHEDRON 3.6 INTEGER 3.7 REAL 3.8 EIIP 3.9 ATOMIC 3.10 DNA WALKER 3.11 Kết hợp phương pháp biểu diễn khác ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM 4.1 Tóm tắt kết thực nghiệm 4.2 Đánh giá 51 51 52 53 53 54 56 57 58 58 59 60 61 62 63 64 64 65 KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 67 PHỤ LỤC 71 80 LUẬT KẾT HỢP ĐẦY ĐỦ 71 38 LUẬT KẾT HỢP SAU KHI FILTER VỚI TẦN SỐ LỚN HƠN HOẶC BẰNG 30% 73 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải ANN Artificial Neural Network Antisense ODNs ATP Antisense oligonucleotides Adenosine triphosphate Phân tử lượng CHS Chalcone synthase Gen quy định màu tím DNA Axit deoxyribonucleic Bộ ba ribo-nucleotide có gốc nucleobase đối ứng với nucleobase nucleotide triplet đối ứng gốc Axít deoxyribonucleic dsRNA Double-strand RNA RNA xoắn kép EIIP Electron-ion interaction exon prediction Dự đoán exon tương tác điện tử-ion Codon Endonuclease Helicase Heuristic Interferon Lentivirus Ligase Mạng nơ ron nhân tạo enzyme phân cắt liên kết bên mạch nucleic acid; chúng mang tính đặc hiệu phân tử RNA, phân tử DNA mạch đơn hay mạch kép Enzyme helicase (cịn có tên enzyme deroulase) có nhiệm vụ giúp chuỗi DNA từ dạng siêu xoắn sang dạng dãn thành hai sợi đơn Các kỹ thuật dựa kinh nghiệm để giải vấn đề, học hỏi hay khám phá nhằm đưa giải pháp mà không đảm bảo tối ưu Loại prôtêin tế bào thể sinh bị virut công, nhằm ngăn không cho virut phát triển Một phân họ Retrovirus, đặc trưng chúng hướng tới tế bào bạch cầu đơn nhân đại thực bào Enzyme nối quan trọng tế bào Luciferase Enzyme phát sáng tế bào MiRNA Micro RNA Micro RNA mRNA Messenger RNA RNA thông tin Nuclease enzyme thủy phân liên kết phân tử nucleic acid (phân tử DNA RNA) In ovo có nghĩa trứng Ovo PCR Polymerase Chain Reaction PTGS Post transcriptional gene silencing Renilla luciferase Renilla luc Reporter gene Retrovirus Phản ứng chuỗi polymerase, có sách gọi "phản ứng khuếch đại gen" Im lặng gen sau phiên mã Protein ngải biển (Renilla reniformis) Gen thị Cách gọi loại virus mà vật chất di truyền chúng phân tử RNA Rừng ngẫu nhiên RF Random forest RISC RNA – incluced silencing complex Axit ribonucleic Phức hệ gây im lặng Đường cong đặc trưng hoạt động thu nhận shRNA Receiver operating characteristic Short hairpin RNA siRNA Short interfering RNA RNA can thiệp ngắn SVM Support vector machine Máy vecto hỗ trợ Untranslated region Các ba nucleotide mạch đơn chuỗi xoắn kép ADN giản phân, tổ hợp bốn loại nucleotide Vùng không dịch mã RNA ROC Triplet UTR Axit ribonucleic vivo Cơ thể sống vitro Trong ống nghiệm DANH MỤC BẢNG Bảng 1: Bộ quy tắc DRM RS 0.951 [16] 26 Bảng 2: Các đặc điểm có tác động dương tính lên hiệu siRNA [16] 26 Bảng 3: Tóm tắt phương pháp biểu diễn số học cho chuỗi DNA 43 Bảng 4: Tổng hợp kết thực nghiệm phương pháp Hồi quy tuyến tính với cách biểu diễn siRNA khác 64 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Lịch sử nghiên cứu RNAi [2] 13 Hình 2: Biểu giun tiêm RNA liên quan đến mã hóa protein [3] 14 Hình 3: Bước 1, dsRNA bị cắt enzyme Dicer để tạo siRNA [4] 17 Hình 4: Bước 2, kết phân tách endonucleolytic mRNA [4] 18 Hình 5: Chạy thuật toán Apriori (Association) weka 8.0 50 MỞ ĐẦU Bộ máy di truyền cá thể sống chế kỳ diệu mà người ln mong muốn khám phá, tìm chế hoạt động mà tự nhiên ban tặng cho loài Việc nghiên cứu liên quan tới thông tin di truyền không mang lại hiểu biết cho người mà để ứng dụng vào nhiều lĩnh vực quan trọng, đặc biệt lĩnh vực y học, sinh học Mã di truyền DNA quy định protein hình thành Thông tin di truyền lưu trữ DNA chép sang RNA sau dùng để tổng hợp protein Dịng thơng tin truyền từ DNA qua mRNA đến protein gọi "Học thuyết trung tâm" lĩnh vực sinh học phân tử Cơ chế kiểm soát máy chép DNA sang mRNA trình phiên mã định gen biểu Quá trình phiên mã bị điều khiển nhiều nhân tố khác người nghiên cứu, tìm hiểu ngày rõ Như biết, tế bào có nhiều loại RNA khác nhau, loại đảm nhận chức sinh học riêng biệt Một số chức quan trọng RNA: Chức vận chuyển thông tin (mRNA); Chức tham gia tổng hợp vận chuyển protein (tRNA rRNA); Chức hoàn thiện phân tử RNA Hơn nữa, quan sát ức chế phiên mã nhờ biểu RNA đối khuôn thực vật chuyển gen thực nhà thực vật học Mỹ Hà Lan năm đầu thập kỷ 1990, người phát chức điều hòa biểu gen RNA hay gọi can thiệp RNA (RNAi) Andrew Fire Craig Mello tiến hành nghiên cứu chế điều khiển biểu gen giun tròn Caenorhabditis elegans (C.elegans) Hai ông thực hàng loạt thí nghiệm ngoạn mục nhằm kiểm tra kiểu hình ảnh hưởng việc tiêm RNA vào phận sinh dục C.elegans Kết trình nghiên cứu đưa suy luận RNA chuỗi đơi làm gen ngừng hoạt động (bất hoạt gen) Cơ chế can thiệp RNA mang tính đặc trưng gen mang mã di truyền giống với mã di truyền phân tử RNA tiêm vào Ngoài ra, chế can thiệp RNA lan tế bào chí di truyền sang đời sau Chỉ cần tiêm lượng nhỏ phân tử RNAi đạt kết mong muốn RNAi sử dụng khoa học nghiên cứu chức gen Ngồi ra, chế có ý nghĩa quan trọng việc điều khiển biểu gen, tham gia bảo vệ thể chống nhiễm virus kiểm soát gen thay đổi đột ngột Với nghiên cứu này, giới khoa học tìm ứng dụng 66 KẾT LUẬN Các công việc thực luận văn tơi có đóng góp quan trọng kiểm chứng hiệu phương pháp biểu diễn RNA việc dự đoán khả ức chế bệnh siRNA cung cấp số thông tin khác liên quan đến khả ức chế bệnh RNA Thứ nhất, luận cung cấp kiến thức khả ức chế bệnh RNA Thứ hai, tổng hợp số phương pháp nghiên cứu theo hai hướng tiếp cận sinh học tin sinh học để giải toán đặt Thứ ba, trình bày phương pháp biểu diễn giới thiệu nhà nghiên cứu khác ba phương pháp biểu diễn Thứ tư, thực nghiệm mô hình dự đốn khả ức chế bệnh siRNA theo phương pháp biểu diễn khác Trong công việc này, giảng viên hướng dẫn đề xuất phương pháp biểu diễn dựa vào thống kê tần số vào đặc tính trình tự số lần xuất thứ tự nucleotide chuỗi siRNA Kết từ trình thực nghiệm phương pháp biểu diễn phương pháp biểu diễn khác kết hợp với phương pháp xây dựng mơ hình dự đốn chưa đem lại kết mong đợi Có nhiều nguyên nhân để dẫn tới kết liệu để thực nghiệm chưa đủ lớn để đem lại kết xác Dữ liệu để thực nghiệm lấy từ kết cơng trình nghiên cứu số nhà khoa học có số ý kiến trái chiều với nên kết test với mơ hình xây dựng từ liệu training không thực cao Ngoài kết thực nghiệm ngang với thử nghiệm trước thấp so với cơng bố năm 2017 nhóm nghiên cứu Fei He Ye Han phần chưa có tối ưu mơ hình dự đốn q trình thực nghiệm Và nguyên nhân phương pháp biểu diễn trình bày thực nghiệm cịn bộc lộ nhiều thiếu xót số chiều chưa đủ lớn, thiếu cấu trúc liệu bậc 1, 2, chưa đủ tính đai diện cho số lượng siRNA vơ lớn 419 Từ vấn đề cịn tồn trình làm luận văn, kết thực nghiệm, nghiên cứu tiếp tục để giải khía cạnh gặp phải tối ưu mơ hình dự đốn Phương pháp đề xuất để tối ưu mơ hình dự đốn phải tối ưu ma trận F (ma trận chuyển đổi) phương pháp Lagrange cho sai số bình phương tối thiếu đạt mức nhỏ Việc tối ưu ma trận F trơng đợi đem lại mơ hình dự đốn có độ tương quan tốt việc dự đoán khả ức chế bệnh siRNA 67 TÀI LIỆU THAM KHẢO Montgomery, Mary K: "RNA Interference - RNA Interference, Editing, and Modification: Methods and Protocols", Methods in Molecular Biology,3-21, 2010 slideshare.net, https://www.slideshare.net/mariyazaman58/role-ofantisense-and-rnaibased-gene-silencing-in-crop-improvement Nobelprize.org, "The Nobel Prize in Physiology or Medicine 2006" Neema Agrawal, P V N Dasaradhi, Asif Mohmmed, Pawan Malhotra, Raj K Bhatnagar, and Sunil K Mukherjee*: "RNA Interference: Biology, Mechanism, and Applications", Microbiol Mol Biol Rev, 67(4):657-85, 2003 Sayda M Elbashir, Winfried Lendeckel and Thomas Tuschl: "RNA interference is mediated by 21- and 22-nucleotide RNAs", Genes Dev, 15:188–200, 2001 Angela Reynolds, Devin Leake, Queta Boese, Stephen Scaringe, William S Marshall, Anastasia Khvorova: "Rational siRNA design for RNA interference", Nat Biotechnol, 22:326–30, 2004 Chalk AM, Wahlestedt C, Sonnhammer EL: "Improved and automated prediction of effective siRNA", Biochem Biophys Res Commun, 319(1):264–74, 2004 Amarzguioui M, Prydz H: "An algorithm for selection of functional siRNA sequences", Biochem Biophys Res Commun, 316:1050–8, 2004 Ui-Tei K, Naito Y, Takahashi F, Haraguchi T, Ohki–Hamazaki H, Juni A, et al: "Guidelines for the selection of highly effective siRNA sequences for mammalian and chick RNA interference", Nucleic Acids Res, 32:936–48, 2004 68 10 Hsieh AC, Bo R, Manola J, et al: "A library of siRNA duplexes targeting the phosphoinositide 3-kinase pathway: determinants of gene silencing for use in cell-based screens", Nucleic Acids Res, 32:893– 901, 2004 11 Jagla B, Aulner N, Kelly PD, Song D, Volchuk A, Zatorski A, et al: "Sequence characteristics of functional siRNAs", RNA, 11:864–72, 2005 12 Lisa J Scherer, John J Rossi: "Approaches for the sequence-specific knockdown of mRNA", Nat Biotechnol, 21:1457–65, 2003 13 Schwarz DS, Hutvagner G, Du T, Xu Z, Aronin N, Zamore PD: "Asymmetry in the Assembly of the RNAi Enzyme Complex", Cell, 115(2):199–208, 2003 14 Khvorova A, Reynolds A, Jayasena SD: "Functional siRNAs and miRNAs Exhibit Strand Bias", Cell, 115:209–16, 2003 15 Ren Y, Gong W, Xu Q, Zheng X, Lin D, Wang Y, et al: "siRecords: an extensive database of mammalian siRNAs with efficacy ratings", Bioinformatics, 22:1027–8, 2006 16 Gong W, Ren Y, Xu Q, Wang Y, Lin D, Zhou H, et al: "Integrated siRNA design based on surveying of features associated with high RNAi effectiveness", BMC Bioinf, 7:516, 2006 17 Bui Ngoc Thang, Tu Bao Ho and Tatsuo Kanda: "A semi– supervised tensor regression model for siRNA efficacy prediction", BMC Bioinformatics, 2015 18 Huesken D, Lange J, Mickanin C, Weiler J, Asselbergs F, Warner J, et al: "Design of a genome-wide siRNA library using an artificial neural network", Nat Biotechnol, 23:955–1001, 2005 19 Shabalina SA, Spiridonov AN, Ogurtsov AY: "Computational models with thermodynamic and composition features improve siRNA design", BMC Bioinf, 7:65, 2006 69 20 Vert JP, Foveau N, Lajaunie C, Vandenbrouck Y: "An accurate and interpretable model for siRNA efficacy prediction", BMC Bioinf, 7:520, 2006 21 Ichihara M, Murakumo Y, Masuda A, Matsuura T, Asai N, Jijiwa M, et al: "Thermodynamic instability of siRNA duplex is a prerequisite for dependable prediction of siRNA activities", Nucleic Acids Res, e123:35, 2007 22 Matveeva O, Nechipurenko Y, Rossi L, Moore B, Ogurtsov AY, Atkins JF, et al: "Comparison of approaches for rational siRNA design leading to a new efficient and transparent method", Access, 35:1–10, 2007 23 Qiu S, Lane T: "A Framework for Multiple Kernel Support Vector Regression and Its Applications to siRNA Efficacy Prediction", IEEE/ACM Trans Comput Biol Bioinform, 6:190–9, 2009 24 Klingelhoefer JW, Moutsianas L, Holmes CC: "Approximate Bayesian feature selection on a large meta-dataset offers novel insights on factors that effect siRNA potency", Bioinformatics, 25:1594–601, 2009 25 Sciabola S, Cao Q, Orozco M, Faustino I, Stanton RV: "Improved nucleic acid descriptors for siRNA efficacy prediction", Nucl Acids Res, 41:1383–94, 2012 26 Qi L, Han Z, Ruixin Z, Ying X, Zhiwei C: "Reconsideration of in silico siRNA design from a perspective of heterogeneous data integration: problems and solutions", Brief Bioinform, 15:292–305, 2012 27 Mysara M, Elhefnawi M, Garibaldi JM: "MysiRNA: Improving siRNA efficacy prediction using a machine-learning model combining multi-tools and whole stacking energy", J Biomed Inform, 45:528–34, 2012 70 28 Chang PC, Pan WJ, Chen CW, Chen YT, Chu YW: "A design engine of siRNA that integrates SVMs prediction and feature filters", Biocatal Agric Biotechnol, 1:128–34, 2012 29 Fei He, Ye Han, Jianting Gong, Jiazhi Song, Han Wang and Yanwen Li: "Predicting siRNA efficacy based on multiple selective siRNA representations and their combination at score level", Scientific Reports 7, Article number 44836, 2017 30 Ye Han, Yuanning Liu, Hao Zhang, Fei He, et al: "Utilizing Selected Di- and Trinucleotides of siRNA to Predict RNAi Activity", Computational and Mathematical Methods in Medicine, Volume 2017 (2017), Article ID 5043984, 2017 31 Stephen S -T Yau*, Jiasong Wang1, Amir Niknejad, Chaoxiao Lu, Ning Jin1: "DNA sequence representation without degeneracy", Nucleic Acids Research, 31:3078–3080, 2003 32 Hon Keung Kwan, Swarna Bai Arniker: "Numerical Representation of DNA Sequences", IEEE International Conference on Electro/Information Technology, 307-310, 2009 71 PHỤ LỤC 80 luật kết hợp đầy đủ STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Rule (A,0) (A,2) (C,4) (A,0) (A,2) (A,5) (A,0) (A,7) (A,8) (A,0) (A,7) (C,14) (A,0) (G,9) (C,18) (A,0) (A,12) (C,18) (A,0) (C,13) (U,14) (A,0) (C,13) (U,15) (A,0) (C,15) (C,18 (C,0) (A,1) (A,2) (A,0) (A,1) (C,5) (A,0) (A,1) (C,6) (A,0) (A,1) (C,10) (A,0) (A,1) (U,12) (A,0) (A,1) (C,14) (A,0) (A,1) (A,18) (A,0) (C,1) (C,2) (A,0) (C,1) (C,5) (A,0) (C,1) (A,11) (A,0) (C,1) (G,13) (U,0) (U,8) (A,0) (G,1) (U,12) (A,0) (A,2) (U,9) (A,0) (A,2) (U,18) (A,0) (A,3) (A,7) (A,0) (C,7) (U,9) (A,0) (U,9) (U,12) (A,0) (U,12) (U,18) (A,0) (A,17) (U,18) (C,0) (A,1) (A,5) (A,0) (A,1) (G,3) (A,0) (A,1) (C,5) (A,0) (A,1) (A,9) (A,0) (A,1) (C,9) (A,0) (A,1) (U,9) (A,0) (A,1) (G,10) (A,0) (A,1) (A,11) (A,0) (A,1) (U,11) (A,0) (A,1) (G,12) (A,0) (A,1) (A,13) S-one 25 25 25 25 25 25 25 25 25 25 13 13 13 13 13 13 13 13 13 13 54 21 20 18 21 21 17 14 17 26 19 13 18 12 12 17 18 20 10 23 S-two 18 20 16 13 12 12 14 14 18 13 17 11 14 15 12 14 13 15 25 25 25 25 25 25 25 25 25 25 13 13 13 13 13 13 13 13 13 13 S-three 31 45 22 23 18 31 27 18 52 25 19 22 18 18 36 18 15 34 26 55 42 40 29 16 31 28 22 28 54 26 25 12 15 23 17 15 21 16 15 S-four 41 42 20 20 10 27 36 30 20 47 20 32 29 14 15 36 19 25 20 64 32 41 29 21 18 24 21 24 47 30 20 30 22 22 19 29 28 26 30 72 41 (A,0) (G,1) (A,18) 17 17 49 56 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 11 18 13 14 17 23 17 25 30 13 24 24 12 14 12 17 15 23 10 17 28 21 20 21 14 17 15 21 19 15 22 13 17 22 18 18 12 13 17 12 19 17 28 16 19 28 25 13 12 14 15 20 14 14 10 12 18 16 31 28 19 24 26 27 19 27 12 12 10 13 16 17 14 26 11 14 49 49 49 49 49 49 49 49 49 25 25 25 25 25 25 25 25 25 25 31 38 43 44 38 57 45 48 47 30 19 27 34 26 36 39 20 15 13 19 34 26 37 48 57 45 29 46 32 20 26 27 27 34 16 22 24 22 24 49 49 49 49 49 49 49 49 49 49 25 25 25 25 25 25 25 25 25 25 (A,0) (A,11) (A,18) (A,0) (A,12) (A,17) (A,0) (A,14) (A,18) (A,0) (A,17) (A,18) (C,0) (A,1) (U,9) (C,0) (A,1) (G,13) (C,0) (C,1) (G,5) (C,0) (C,1) (A,6) (C,0) (C,1) (C,7) (A,0) (A,1) (C,5) (A,0) (A,1) (G,6) (A,0) (A,1) (A,12) (A,0) (A,1) (G,13) (A,0) (C,1) (U,9) (A,0) (C,1) (A,17) (A,0) (A,2) (A,4) (A,0) (A,2) (U,7) (A,0) (A,2) (G,9) (A,0) (A,2) (C,11) (C,0) (A,1) (G,5) (C,0) (C,1) (A,11) (C,0) (U,1) (A,18) (C,0) (A,2) (U,14) (C,0) (C,3) (U,4) (C,0) (C,3) (A,7) (C,0) (C,3) (U,9) (C,0) (A,4) (G,5) (C,0) (A,5) (C,6) (C,0) (A,5) (C,8) (A,0) (A,1) (A,6) (A,0) (A,1) (G,9) (A,0) (C,1) (A,11) (A,0) (G,1) (A,4) (A,0) (G,1) (C,13) (A,0) (G,1) (G,14) (A,0) (A,2) (G,15) (A,0) (A,2) (G,17) (A,0) (C,2) (G,9) (A,0) (C,2) (A,13) 73 STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 38 luật kết hợp sau filter với tần số lớn 30% Rule (A,0) (A,7) (A,8) (A,0) (A,7) (C,14) (A,0) (G,9) (C,18) (A,0) (A,12) (C,18) (A,0) (C,15) (C,18) (A,0) (A,3) (A,7) (A,0) (U,12) (U,18) (A,0) (G,1) (A,18) (A,0) (A,11) (A,18) (A,0) (A,12) (A,17) (A,0) (A,14) (A,18) (A,0) (A,17) (A,18) (C,0) (A,1) (U,9) (C,0) (A,1) (G,13) (C,0) (C,1) (G,5) (C,0) (C,1) (A,6) (C,0) (C,1) (C,7) (A,0) (A,1) (C,5) (A,0) (A,1) (G,13) (A,0) (C,1) (A,17) (A,0) (A,2) (A,4) (A,0) (A,2) (U,7) (A,0) (A,2) (G,9) (A,0) (A,2) (C,11) (C,0) (A,1) (G,5) (C,0) (C,1) (A,11) (C,0) (U,1) (A,18) (C,0) (A,2) (U,14) (C,0) (C,3) (U,4) (C,0) (C,3) (A,7) (C,0) (C,3) (U,9) (C,0) (A,4) (G,5) (C,0) (A,5) (C,6) (C,0) (A,5) (C,8) (A,0) (A,1) (A,6) (A,0) (A,2) (G,17) (A,0) (C,2) (G,9) (A,0) (C,2) (A,13) S-one 25 25 25 25 25 21 14 17 11 18 13 14 17 23 17 25 30 13 12 12 17 15 23 10 17 28 21 20 21 14 17 15 21 19 15 12 13 S-two 16 13 12 14 25 25 17 17 12 19 17 28 16 19 28 25 13 15 14 14 10 12 18 16 31 28 19 24 26 27 19 27 12 12 11 14 S-three 22 23 18 18 16 22 49 49 49 49 49 49 49 49 49 49 25 25 25 25 25 25 25 31 38 43 44 38 57 45 48 47 30 19 15 13 19 S-four 20 20 10 27 20 21 21 56 34 26 37 48 57 45 29 46 32 20 27 16 22 24 22 24 49 49 49 49 49 49 49 49 49 49 25 25 25 25 DAI HQC QUOC GIA HA NQI TRU'ONG D~I HQC CONG NGH~ CI DONG Tg N n (~ "bw·1i&u _ , XAC NH~N CUA CO SO DAO T ~0 eG-1 T v .u:zn D~I HQC QUOC GIA HA Ni Lu~n van dai 77 trang v&i b6n chuang n(>i dung la Chuang "Giai thi?u vJ kha nang uc ch~ b¢nh cua RNA" (trang 12-22), Chuang "Cac huang nghien CUu kha nang uc chi cua RNA" (trang 23-40), Chuang "Cac each thuc bidu diln RNA" (trang 41-51 ), Chuang "Danh gia thl!c nghi¢m cac mo hinh dl! doan kha nang uc ch~ cua siRNA thea cac bidu diln du li¢u khach nhau" (trang 52-68) Lu~n van lTIQt phu ll)C gbm hai danh sach 80 lu~t kSt hqp d~y du (trang 75-76), 38 lu~t kSt hqp sau lt b6n l&p nang Ivc uc chS b~nh la c6 y nghia li dung lu~n van phu hqp v&i ten dS tai lu~n van v~ d(} tin c~y N(>i dung hai chuang 3, va cac tai li~u tham khao (TLTK) lien quan hai chuang c6 diSm khac bi~t so v&i cac lu~n van Th~c sy nu&c va thS hi~n m(>t d(> tin c~y nhcit djnh Hai chuang 1,2 dS c~p t&i vein dS qua r(>ng so v&i n(>i dung nghien cuu thvc chfrt cua lu~n van, d6, chung chua cac ySu t6 chua tin c~y Tai li~u tham khao duqc mo ta tuang dfJi phu hqp, nhien, khong c~n su dl,lng qua nhiSu TLTK dS c~p rcit it t&i cac n(>i dung chinh cua lu~n van Tham chiSu TL TK tuang d6i phu hqp v~ k~t qua va h~n ch~ 3.1 Kit qua - Trinh bay duqc b6n phuang phap biSu diSn RNA lien quan t&i doan nh~n kha nang uc chS b~nh cua RNA, d6ng thai, gi6i thi~u 11 phuang phap biSu diSn RNA it ph6 biSn han ( d? c diSm cua 11 phuang duqc trinh bay t~i Bang ), - Trinh bay duqc giai phap biSu diSn du li~u RNA phu hqp v&i cac phuang phap biSu diSn RNA tung ung va su dl,lng ba ph~n cong C\1 WEKA tiSn hanh thvc nghi~m tren b(> du li~u Labeled Datasets nhu sau: • • Su d\lng phAn A priori v6i rang bu()c 20 lu~t k€t hqp cho m6i muc uc ch€, thu duqc 80 lu~t k€t hqp cho toan b() muc uc ch€ B6 sung muc lQc d9 h6 trq 30%, lu~n van thu duqc 38 lu~t k€t hqp Su d\}ng phAn phan 16p Naive Bayes tren t~p mfiu c6 nhan Low ho~c Very High thea hai biSu di€n va hiSn thj k€t qua danh gia phan 16p, • 3.2 - - Su d\}ng phAn phan 16p H6i quy tuy€n tinh thea 11 biSu di~n va hi~n thi k€t qua danh gia phan lap Ht;zn chi Phat biSu chua tuang minh ( dau vao, dAu va huang giai phap) bai toan can giai quy€t lu~n van la khao sat cac giai phap biSu di~n dfr li~u RNA va hi~u nang cua cac giai phap dfr li~u nay bai toan phan 16'p kha nang uc ch€ b~nh cua RNA Day la nguyen nhan chinh lam cho chuang 1,2 d~ c~p t6i cac n()i dung vuqt qua tAm cua m()t lu~n van Th(;lc sy, Da n~m b~t duqc cac giai phap biSu di~n dfr li~u RNA va bi€t su dvng cong C\1 WEKA, nhien, muc d() n~m b~t cua hQc vien m6i a muc triSn khai ky thu~t rna chua d(;lt muc d9 giai thich duqc ly su d\lng cac giai phap bi€u di~n cung nhu phan tich duqc cac k€t qua phan 16p Lu~n van cac 16i trinh bay, ch~ng h(;ln, chi s6 ffi\}C khong thea quy djnh ho~c ffiQt s6 tieu d~ ffi\}C CO "uc chi" rna khong la "uc chi b¢nh", V.V Cau hoi cho hQc vien - Phat biSu chinh xac bai toan duqc giai quy€t lu~n van Hai b9 lu~t k€t hqp k€t qua th\fc nghi~m dung dS lam gi? KET LU~N - Tuy cAn phai chinh sua v~ b6 C\}C va lo(;li bo 16i, lu~n van "Cdc phuang phdp - dl! tlodn kha nang uc chi b?nh dva tren cdc biiu diln khdc cua RNA va ung dZ:tng" cua HQc vien Ph(;lm Thj Mai Hoa dap ung yeu cAu cua m()t lu~n van Th(;lc sy chuyen nganh HTTT rna s6 8480104 Lu~n van du di~u ki~n duqc dua bao v~ t(;li H()i d6ng chfim lu~n van Th(;lc sy chuyen nganh HTTT Ha n()i, 01 thang 12 nam 2017 Nguai nh4n xet PGS.TS Ha Quang Th\lY C