Nghiên cứu này khảo sát một số phương pháp xây dựng mô hình dự đoán khả năng ức chế bệnh của siRNA và tập trung vào việc biểu diễn dữ liệu siRNA theo nhiều cách khác nhau và đánh giá mô hình dự đoán được xây dựng bằng một số phương pháp như hồi quy tuyến tính, luật kết hợp. Kết quả thực nghiệm cho đánh giá và kết luận được phương pháp biểu diễn dữ liệu siRNA cho hiệu quả tốt nhất đã được nghiên cứu và mở ra hướng nghiên cứu tiếp là tìm cách tối ưu phương pháp học máy đã áp dụng trên biểu diễn đó để thu được hệ số tương quan tốt hơn.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ MAI HOA CÁC PHƯƠNG PHÁP DỰ ĐOÁN KHẢ NĂNG ỨC CHẾ BỆNH DỰA TRÊN CÁC BIỂU DIỄN KHÁC NHAU CỦA RNA VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 14025126 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Bùi Ngọc Thăng HÀ NỘI – 2017 MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ DANH MỤC BẢNG MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU VỀ KHẢ NĂNG ỨC CHẾ BỆNH CỦA RNA TỔNG QUAN RNA CAN THIỆP (RNAI) 1.1 Khái niệm RNAi 1.2 Lịch sử nghiên cứu RNAi 1.3 Ý nghĩa việc phát RNAi CƠ CHẾ CAN THIỆP RNAI 2.1 Các loại RNAi 2.2 Cơ chế can thiệp RNA 10 2.3 Ứng dụng RNAi thách thức 11 2.3.1 2.3.2 Ứng dụng siRNA 11 Thách thức tránh hiệu ứng không mong muốn 11 CHƯƠNG 2: CÁC HƯỚNG NGHIÊN CỨU KHẢ NĂNG ỨC CHẾ CỦA RNA 12 HƯỚNG NGHIÊN CỨU SINH HỌC 12 HƯỚNG NGHIÊN CỨU SINH HỌC KẾT HỢP TIN SINH HỌC 12 HƯỚNG NGHIÊN CỨU TIN SINH HỌC 13 CHƯƠNG 3: CÁC CÁCH THỨC BIỂU DIỄN RNA 13 BIỂU DIỄN THEO TẦN SỐ XUẤT HIỆN CỦA CÁC BỘ 1-MERGE, 2-MERGE, 3-MERGE 13 BIỂU DIỄN THEO TẦN SỐ CỦA MỘT BỘ CÁC NUCLEOTIDE CĨ TÍNH THỨ TỰ 15 BIỂU DIỄN THÀNH SỐ TƯƠNG ỨNG VỚI LOẠI NUCLEOTIDE VÀ VỊ TRÍ 15 PHƯƠNG PHÁP BIỂU DIỄN CHUỖI DNA KHƠNG SUY THỐI 15 CHƯƠNG 4: ĐÁNH GIÁ THỰC NGHIỆM CÁC MƠ HÌNH DỰ ĐỐN KHẢ NĂNG ỨC CHẾ CỦA SIRNA THEO CÁC BIỂU DIỄN DỮ LIỆU KHÁC NHAU 18 THỰC NGHIỆM THUẬT TOÁN KẾT HỢP APRIORI 18 THỰC NGHIỆM THUẬT TOÁN PHÂN LỚP NAÏVE BAYES 19 THỰC NGHIỆM THUẬT TOÁN PHÂN LỚP HỒI QUY TUYẾN TÍNH 20 ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM 22 KẾT LUẬN 23 DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải ANN Artificial Neural Network Mạng nơ ron nhân tạo CHS Chalcone synthase Gen quy định màu tím DNA Axit deoxyribonucleic Axít deoxyribonucleic dsRNA Double-strand RNA RNA xoắn kép EIIP Electron-ion interaction exon prediction Dự đoán exon tương tác điện tử-ion Endonuclease enzyme phân cắt liên kết bên mạch nucleic acid; chúng mang tính đặc hiệu phân tử RNA, phân tử DNA mạch đơn hay mạch kép vivo Cơ thể sống vitro Trong ống nghiệm Interferon Loại prôtêin tế bào thể sinh bị vírut cơng, nhằm ngăn khơng cho virut phát triển Lentivirus Một phân họ Retrovirus, đặc trưng chúng hướng tới tế bào bạch cầu đơn nhân đại thực bào Ligase Enzyme nối quan trọng tế bào MiRNA Micro RNA Micro RNA mRNA Messenger RNA RNA thông tin Nuclease PTGS enzyme thủy phân liên kết phân tử nucleic acid (phân tử DNA RNA) Post transcriptional gene silencing Retrovirus Im lặng gen sau phiên mã Cách gọi loại virus mà vật chất di truyền chúng phân tử RNA RF Random forest Rừng ngẫu nhiên RISC RNA – incluced silencing complex Phức hệ gây im lặng RNA Axit ribonucleic Axit ribonucleic ROC Receiver operating characteristic Đường cong đặc trưng hoạt động thu nhận shRNA Short hairpin RNA SiRNA Short interfering RNA RNA ngắn can thiệp SVM Support vector machine Máy vecto hỗ trợ DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1: Lịch sử nghiên cứu RNAi [1] DANH MỤC BẢNG Bảng 1: Tóm tắt phương pháp biểu diễn số học cho chuỗi DNA 17 Bảng 2: Tổng hợp kết thực nghiệm phương pháp Hồi quy tuyến tính với cách biểu diễn siRNA khác 22 MỞ ĐẦU Như biết, tế báo có nhiều loại RNA khác nhau, loại đảm nhận chức sinh học riêng biệt Kể từ khám phá RNAi việc nghiên cứu chế ứng dụng ngày trở thành vấn đề lý thú thu hút quan tâm nhà sinh học góp phần tạo nên sốt “Thế giới RNA-RNA world” Andrew Fire Craig Mello tiến hành nghiên cứu chế điều khiển biểu gene giun trịn Caenorhabditis elegans (C.elegans) Hai ơng thực hàng loạt thí nghiệm ngoạn mục nhằm kiểm tra kiểu hình ảnh hưởng việc tiêm RNA vào phận sinh dục C.elegans Kết trình nghiên cứu đưa suy luận RNA chuỗi đơi làm gene ngừng hoạt động (bất hoạt gene) Cơ chế can thiệp RNA mang tính đặc trưng gene mang mã di truyền giống với mã di truyền phân tử RNA tiêm vào Ngồi ra, chế can thiệp RNA lan tế bào chí di truyền sang đời sau Chỉ cần tiêm lượng nhỏ phân tử RNAi đạt kết mong muốn RNAi sử dụng khoa học nghiên cứu chức gene Ngoài ra, chế có ý nghĩa quan trọng việc điều khiển biểu gene, tham gia bảo vệ thể chống nhiễm virus kiểm soát gene thay đổi đột ngột Với nghiên cứu này, giới khoa học tìm ứng dụng RNAi nghiên cứu y học chữa bệnh liệu pháp gene, ứng dụng trồng, vật nuôi nông nghiệp nhằm tạo sản phẩm với chất lượng tốt hơn; điều trị bệnh nhiễm khuẩn, bệnh virut, bệnh tim, ung thư, rối loạn nội tiết nhiều chứng bệnh khác Bộ máy can thiệp RNAi bao gồm thành phần siRNA miRNA, chế tắt gene siRNA có hiệu cao, cần lượng nhỏ siRNA đưa vào tế bào cố thể đủ để làm tắt hoàn toàn biểu gene (vốn có nhiều thể đa bào) Trong ngữ cảnh đó, có nhiều nghiên cứu ứng dụng học máy vào việc dự đoán khả ức chế bệnh siRNA Các nghiên cứu tập trung vào việc tìm kiếm cách thiết kế siRNA có khả ức chế cao, đồng thời xây dựng mơ hình dự đốn khả ức chế bệnh siRNA Các mơ hình xây dựng nhiều phương pháp tiếp cận hầu hết bị hạn chế hệ số tương quan mơ hình thấp Một ảnh hưởng lớn tới kết biểu diễn liệu siRNA, hướng tiếp cận việc xây dựng mơ hình dự đốn tìm biểu diễn siRNA nhằm đại diện đặc tính quan trọng siRNA mà đạt hiệu tính tốn tốt Với hướng tiếp cận biểu diễn liệu siRNA, nghiên cứu khảo sát số phương pháp xây dựng mơ hình dự đốn khả ức chế bệnh siRNA tập trung vào việc biểu diễn liệu siRNA theo nhiều cách khác đánh giá mô hình dự đốn xây dựng số phương pháp Hồi quy tuyến tính, Luật kết hợp Kết thực nghiệm cho đánh giá kết luận phương pháp biểu diễn liệu siRNA cho hiệu tốt nghiên cứu mở hướng nghiên cứu tiếp tìm cách tối ưu phương pháp học máy áp dụng biểu diễn để thu hệ số tương quan tốt Luận văn trình bày chương: Chương 1: Giới thiệu khả ức chế bệnh RNA Chương giới thiệu tổng quan RNA, RNAi sâu vào siRNA, ý nghĩa chúng nghiên cứu thực tiễn Chương 2: Các hướng nghiên cứu khả ức chế RNA Chương trình bày số nghiên cứu tiếp cận theo hướng sinh học tin sinh học Chương 3: Các cách thức biểu diễn RNA Trình bày cách thức biểu diễn chuỗi RNA Chương 4: Đánh giá thực nghiệm mơ hình dự đoán khả ức chế siRNA theo biểu diễn liệu khác Chương trình bày áp dụng cụ thể số phương pháp dự đoán Hồi quy tuyến tính Luật kết hợp biểu diễn khác chuỗi siRNA đánh giá kết Chương 5: Kết luận Tổng kết lại nội dung nghiên cứu, đưa khả áp dụng thực tế hướng Phần lại nội dung bổ sung cho luận văn tài liệu tham khảo sử dụng cho nghiên cứu 7 CHƯƠNG 1: GIỚI THIỆU VỀ KHẢ NĂNG ỨC CHẾ BỆNH CỦA RNA 1.1 Tổng quan RNA can thiệp (RNAi) Khái niệm RNAi RNA can thiệp (RNA interference, RNAi) hệ thống bên tế bào sống, giúp kiểm soát gene hoạt động RNAi chế để bất hoạt gene gây nên RNA mạch kép (dsRNA) Đó trình tự đặc biệt liên quan đến suy thoái hai loại phân tử RNA: RNA sợi kép (dsRNA) RNA sợi đơn thường mRNA sợi tương đồng trình tự dsRNA làm kích hoạt phản ứng trả lời Các phân tử RNAi gây nên hiệu ứng: Ức chế dịch mã đơn vị mRNA, ức chế phiên mã gene nhân, phân giải mRNA 1.2 Lịch sử nghiên cứu RNAi Hình 1: Lịch sử nghiên cứu RNAi [1] Trong lịch sử, can thiệp RNA biết đến với tên gọi khác như: RNA silening, quelling, cosuppresion, RNA inteference - Năm 1984, Pesthea cộng nghiên cứu kỹ thuật Antiense-RNA vi khuẩn Escherichia Coli đăng tạp chí PNAS số 81 Tuy nhiên giai đoạn chưa hình dung chế gây ức chế gen - Đến năm đầu thập niên 1990, số kết nghiên cứu cơng bố tạp chí quốc tế (Napoli cộng sự, Vander Krol cộng vào năm 1990) dựa quan sát tượng hoa yến thảo (pentunia) cố gắng tạo cánh hoa màu tím cách chuyển gen quy định màu tím Chalcone synthase (CHS) tác động promoter 35S Tuy nhiên cánh hoa lại bị đốm màu, có chỗ cịn màu trắng, tượng gọi “đồng ức chế” - Năm 1992, phát “quelling” Neurospora (Neurospora crassa - vi khuẩn mốc bánh mì màu đỏ (red bread mold)) Năm 1994, Cogoni cộng tiến hành thí nghiệm tăng màu cam nấm Neurospora crassa, kết nấm tượng gọi “quelling” - Năm 1995, tạp chí Cell số 81, nhóm nghiên cứu Guo Kemphues đưa chứng tuyến trùng Caenorhabditis elegans rằng: Phân tử RNA chiều thuận (sense RNA) gây ức chế gene tương đương với với phân tử RNA chiều ngược Điều gây lúng túng kết khác với điều nhà khoa học mong đợi - Phải đến ba năm sau 1998, nhóm nghiên cứu Fire giải thích điều nghịch lý thí nghiệm tuyến trùng C elegans Mục đích thí nghiệm nhằm kiểm tra hỗ trợ lẫn phân tử RNA theo hai chiều trình ức chế biểu gen - Năm 2000, tạp chí Nature công bố việc phát hiện tượng RNAi lồi ruồi giấm ProSophila nhóm nghiên cứu Richard Cathew tiến hành - Năm 2001, lần RNAi mô tả tế bào động vật có vú (Tuschl cộng sự) - 2002, Tạo tái tổ hợp dicer để tạo siRNA, công nghệ iRNA trở thành công nghệ năm - 2003-2005, khoảng thời gian cải tiến tìm hiểu rõ cơng nghệ iRNA - Năm 2006, giải thưởng Nobel sinh lý y học cho phát chế RNAi hai nhà bác học Mỹ Andrew Fire (ĐH Stanford) Craig C Mello (ĐH Massachusetts) Đóng góp quan trọng việc phát chế RNAi từ việc nghiên cứu thí nghiệm Andrew Fire C Mello Ý nghĩa khoa học cơng trình nghiên cứu: Cung cấp lời giải thích cho tượng nghiên cứu thực vật: Phiên mã bổ nhiệm gen im lặng (PTGS – post transcriptional gene silencing) từ làm sáng tỏ nhiều quan sát thí nghiệm mâu thuẫn khó hiểu nhiều năm trước Đồng thời tiết lộ chế tự nhiên để kiểm sốt dịng thơng tin di truyền tế bào Với nghiên cứu này, giới khoa học tìm ứng dụng RNAi nghiên cứu y học chữa bệnh liệu pháp gen, ứng dụng trồng, vật nuôi nông nghiệp nhằm tạo sản phẩm với chất lượng tốt Từ kết nghiên cứu mở nhiều hướng nghiên cứu tạp chí Science bình chọn “Break Through in 1998” tức “Bước đột phá năm 1998” dựa theo số lượng tăng cấp số nhân báo khoa học đăng tạp chí khoa học quốc tế hàng đầu 1.3 Ý nghĩa việc phát RNAi - Can thiệp RNA chống lại nhiễm virus - Can thiệp RNA bảo đảm ổn định hệ gen - Can thiệp RNA chế kiểm sốt q trình tổng hợp protein điều khiển phát triển - Can thiệp RNA chế bảo vệ nhiễm sắc tử cô đặc tăng cường phiên mã - Can thiệp RNA cống hiến phương pháp để kiềm chế gen chuyên biệt - Can thiệp RNA đề xuất giải pháp hiệu điều trij bệnh di truyền tương lai 2.1 Cơ chế can thiệp RNAi Các loại RNAi Có loại RNAi bao gồm: shRNA, siRNA miRNA 10 shRNA dược đưa vào DNA plasmid, mẫu tuyến tính vector virus vi khuẩn Trung tâm trình can thiệp RNAi gồm thành phần siRNA miRNA ARN liên kết với mRNA khác, tăng giảm hoạt động chúng ngăn không cho mRNA tổng hợp protein Con đường RNAi xuất nhiều sinh vật nhân chuẩn, bắt nguồn từ enzyme Dicer, chúng cắt sợi dài dsRNA thành đoạn ngắn khoảng 20 nucleotide (siRNA) Mỗi siRNA tách thành sợi đơn ssRNA, sợi hành khách sợi hướng dẫn Sợi hành khách bị suy thối cịn sợi hướng dẫn kết hợp vào RNA gây im lặng phức tạp (RISC) Kết nghiên cứu tốt im lặng gen sau phiên mã, xảy sợi hướng dẫn ghép cặp theo trình tự bổ sung với mRNA gây phân cắt Argonaute (Ago2), thành phần xúc tác phức hợp RISC siRNA (small interfeing RNA, short interfering RNA) RNA ngắn có kích thước khoảng 19 đến 25 nucleotit, hình thành từ RNA sợi đơi, tham gia vào q trình tổng hợp protein, siRNA có khả điều khiển protein họ Argomaute tới đích điều hòa miRNA (micro RNA) đoạn RNA ngắn khoảng từ 19 đến 25 nucleotit, không tham gia vào trình tổng hợp protein Tiền thân miRNA (PremiRNA) có cấu trúc dạng thân vịng (steen-loop) hay dạng kẹp tóc (hairpin) 2.2 Cơ chế can thiệp RNA Khi phần khác chế RNAi phát hiện, chế RNAi trở nên ngày rõ ràng Trong vài năm gần đây, nhà khoa học thu hiểu biết quan trọng việc làm sáng tỏ chế RNAi Sự kết hợp kết thu từ số thí nghiệm thể sống (vivo) ống nghiệm (vitro) tạo thành mơ hình học hai bước cho RNAi/PTGS Bước đầu tiên, gọi bước khởi đầu RNAi, liên quan đến việc gắn phân tử RNA vào sợi kép dsRNA lớn phân tách thành đoạn RNA rời rạc có kích thước xấp xỉ 21 đến 25 nucleotide (siRNA) Trong bước thứ hai, siRNA tham gia phức hợp đa nuclease (enzyme thủy phân), làm giảm mRNA đơn mạch tương đồng Khi phân tử mRNA biến gen tương ứng bị bất hoạt, khơng có protein gen mã hóa tạo thành Cơ chế can thiệp gồm bước: (1) Quá trình dsRNA trở thành siRNA, (2) Khuếch đại siRNA, (3) Sự thoái hóa mRNA 11 2.3 Ứng dụng RNAi thách thức Việc phát RNAi chế làm im lăng gen khiến nhà khoa học không ngừng nghiên cứu tìm cách ứng dụng RNAi vào nhiều lĩnh vực đặc biệt khám chữa bệnh [5] - Ứng dụng RNAi bệnh liên quan đến đường uống cá thể sống o Ung thư biểu mơ vịm họng o Ung thư đầu cổ o Ung thư tế bào vảy miệng o Phát triển rang - Ứng dụng RNAi ống nghiệm bệnh liên quan đến đường uống ống nghiệm - Ứng dụng cá thể sống RNAi biến thể quy luật ghép - Ứng dụng RNAi cá thể sống bệnh chứng rối loạn thần kinh trung ương - Ứng dụng RNAi cá thể sống bệnh viêm mãn tính cấp tính 2.3.1 Ứng dụng siRNA - Sử dụng nghiên cứu thử nghiệm lâm sàng - Sử dụng để điều trị ung thư bệnh liên quan đến virus, bệnh mắt 2.3.2 Thách thức tránh hiệu ứng không mong muốn - Miễn dịch thể: nhiều siRNA dẫn đến kiện khơng mong muốn kích hoạt phản ứng miễn dịch bẩm sinh - Ức chế sai mục tiêu: sai mục tiêu thách thức việc sử dụng siRNAs công cụ bất hoạt gen - Đáp ứng miễn dịch thích nghi: Các chuỗi RNA gen miễn dịch kém, kháng thể dễ dàng tạo phức hợp RNAprotein Nhiều bệnh tự miễn dịch xem loại kháng thể 12 CHƯƠNG 2: CÁC HƯỚNG NGHIÊN CỨU KHẢ NĂNG ỨC CHẾ CỦA RNA Việc phát RNA can thiệp tạo trào lưu rộng lớn việc nghiên cứu, thử nghiệm ứng dụng RNAi không để tạo hiểu biết sâu mà mở bước tiến việc điều trị bệnh ngành ni trồng Việc nghiên cứu RNA cịn gặp nhiều thách thức, số tìm RNAi có khả ức chế cao mà khơng gây phản ứng phụ ức chế sai mục tiêu hay miễn dịch Các nhà khoa học giới không ngừng nghiên cứu khả ức chế RNA, chủ yếu theo hai hướng tiếp cân: (1) Hướng tiếp cận sinh học (2) Hướng tiếp cận tin sinh học Cũng có khoa học nghiên cứu theo hai hướng tiếp cận đưa kết vô gia trị cho ngành nghiên cứu Hướng nghiên cứu sinh học Nghiên cứu Angela Reynolds công nhằm đưa thiết kế hợp lý để lựa chọn siRNA tiềm [6] Để xác định tính siRNA đặc hiệu, nhóm nghiên cứu thực phân tích có hệ thống 180 siRNA nhằm mục tiêu mRNA hai gen Tám đặc điểm liên quan đến chức siRNA xác định: hàm lượng G/C thấp, thiên vị với nội bên bền vững sợi ý nghĩa đầu 3’, thiếu lặp đảo ngược Một số nhà nghiên cứu sinh học khác thực băng phương pháp thí nghiệm quan sát Tuschl, Amarzguioui, Stockholm, Ui-Tei, Hseih mục đích nhằm tìm mẫu siRNA có hiệu ức chế cao tránh tác dụng không mong muốn ức chế sai mục tiêu Hướng nghiên cứu sinh học kết hợp tin sinh học Huesken nghiên cứu theo hướng lai sinh học tin học, ông sử dụng phương pháp mạng neuron để xây dựng mơ hình dự báo từ liệu thực tế, sinh liệu nhân tạo sử dụng liệu sinh học để kiểm thử Bộ liệu Huesken ông bào gồm 2431 chuỗi siRNA sử dụng rộng rãi tốn xây dựng mơ hình dự đốn 13 Hướng nghiên cứu tin sinh học Sử dụng phương pháp học máy để xây dựng mơ hình dự đốn, đa số sử dụng dataset tập liệu Huesken công bố Một số nhà nghiên cứu danh sách như: Shibalina với phương pháp hồi quy tuyến tính, Vert cộng với phương pháp hồi quy Laso, Ichihara cộng với phương pháp MKSVR, Qui công jswj sử dụng phương pháp Assembel learning, Sciablola cộng sử sử dụng SVR Bùi Ngọc Thăng sử dụng dụng Tensor regression CHƯƠNG 3: CÁC CÁCH THỨC BIỂU DIỄN RNA Như trình bày chương trước, việc biểu diễn liệu ảnh hưởng lớn tới kết xây dựng mơ hình RNA chuỗi nucleotide gồm loại: Adenin (A), Guanin (G), Uraxin (U), Cytozin (C) Các cách thức biểu diễn RNA trình bày chương xuất phát từ trình tự nucleotide A, C, G, U (nguyên tắc bổ sung A-U, G-C) Biểu diễn theo tần số xuất 1-merge, 2-merge, 3-merge - Các định nghĩa: o 1-merge: gồm nucleotide o 2-merge: gồm nucleotide đứng cạnh có phân biệt thứ thự o 3-merge: gồm nucleotide đứng cạnh có phân biệt thứ tự - Như theo định nghĩa với loại nucleotide ta có: o 1-merge phân biệt với o 16 (tương đương với 42) 2-merge phân biệt với o 64 (tương đương với 43) 3-merge phân biệt với - Bộ liệu ban đầu để xây dựng biểu diễn gồm tập RNA có độ dài (n nucleotide) chia thành tập con: o Low: tập chuỗi siRNA có khả ức chế thấp ký hiệu S1 o Medium: tập chuỗi siRNA có khả ức chế trung bình ký hiệu S2 o High: tập chuỗi siRNA có khả ức chế cao ký hiệu S3 o tập chuỗi siRNA có khả ức chế cao ký hiệu S4 Việc biểu diễn liệu RNA thực sau: - Thống kê số lần xuất 1-merge, 2-merge, 3-merge: o Thống kê số lần xuất 1-merge tập S1, S2, S3, S4 x, y, z, t 14 o Thống kê số lần xuất 2-merge tập S1, S2, S3, S4 x’, y’, z’, t’ o Thống kê số lần xuất 3-merge tập S1, S2, S3, S4 x’’, y’’, z’’, t’’ - Với chuỗi RNA, ta biểu diễn tần số 1-merge, 2-merge, 3merge có mặt chuỗi RNA sau: o Với chuỗi RNA có chiều dài n, có n 1-merge xuất vị trí từ n (có thể có giá trị trùng nhau) Tại vị trí chuỗi RNA có 1-merge có số lần xuất tập S1, S2, S3, S4 x, y, z, t Khi vị trí, biểu diễn liệu giá trị tần số xuất 1-merge tập S1, S2, S3, S4 tức 𝑥 𝑦 , 𝑧 , 𝑡 , 𝑥+𝑦+𝑧+𝑡 𝑥+𝑦+𝑥+𝑡 𝑥+𝑦+𝑧+𝑡 𝑥+𝑦+𝑧+𝑡 Như n vị trí biểu diễn thành 4n giá trị tần số 1-merge o Với chuỗi RNA có chiều dài n, có n-1 2-merge xuất vị trí từ n-1 Tương tự cách biểu diễn 1-merge, vị trí chuỗi RNA (trừ vị trí cuối cùng) tồn 2-merge có số lần xuất tập S1, S2, S3, S4 x’, y’, z’, t’ Tại vị trí biểu diễn liệu giá trị tần số 𝑥′ 𝑥 ′ +𝑦 ′ +𝑧 ′ +𝑡 , ′ 𝑦′ 𝑥 ′ +𝑦 ′ +𝑥 ′ +𝑡 , ′ 𝑧′ 𝑥 ′ +𝑦 ′ +𝑧 ′ +𝑡 , ′ 𝑡′ 𝑥 ′ +𝑦 ′ +𝑧 ′ +𝑡 ′ Như n vị trí biểu diễn 4(n-1) giá trị tần số 2-merge o Với chuỗi RNA có chiều dài n, có n-2 3-merge xuất vị trí từ n-2 Tương tự vị trí chuỗi RNA (trừ vị trí cuối cùng) tồn 3-merge có số lần xuất tập S1, S2, S3, S4 x’’, y’’, z’’, t’’ Tại vị trí biểu diễn liệu giá trị tần số 𝑥 ′′ 𝑥 ′′ +𝑦 ′′ +𝑧 ′′+𝑡 , ′′ 𝑦 ′′ 𝑥 ′′ +𝑦 ′′ +𝑥 ′′ +𝑡 , ′′ 𝑧 ′′ 𝑥 ′′ +𝑦 ′′ +𝑧 ′′ +𝑡 , ′′ 𝑡 ′′ 𝑥 ′′ +𝑦 ′′ +𝑧 ′′+𝑡 ′′ Như n vị trí biểu diễn 4(n-2) giá trị tần số 3-merge - Tổng kết, chuỗi RNA có chiều dài n biểu diễn thành vecto có số chiều 4n + 4(n-1) + 4(n-2) Trong 4n chiều biểu diễn tần số 1-merge, 4(n-1) chiều biểu diễn tần số 2-merge, 4(n-2) chiều cuối biểu diễn tần số 3-merge 15 Biểu diễn theo tần số nucleotide có tính thứ tự - Cách biểu diễn giống với biểu diễn tần số trình bày mục trước Biểu diễn theo tần số xuất 1-merge, 2-merge, 3-merge - Nếu nucleotide thứ tự không xuất chuỗi siRNA biểu diễn giá trị (0,0,0,0) - Điểm khác, biểu diễn không giới hạn 1-merge, 2-merge, 3-merge mà gồm k nucleotide chọn có phân biệt thứ tự - Số lượng k-nucleotide tùy thuộc vào thuật toán lựa chọn Biểu diễn thành số tương ứng với loại nucleotide vị trí - Quy đổi loại nucleotide thành giá trị: A = 0, C = 1, G = 2, U = - Với chuỗi RNA có độ dài n biểu diễn vector n chiều tương ứng với vị trí nucleotide chuỗi RNA Tại vị trí i (1, 2, …, n) vector n chiều: o Nếu A xuất vị trí i chuỗi RNA giá trị chiều thứ i 4i o Nếu C xuất vị trí i chuỗi RNA giá trị chiều thứ i (4i+1) o Nếu G xuất vị trí i chuỗi RNA giá trị chiều thứ i (4i+2) o Nếu U xuất vị trí i chuỗi RNA giá trị chiều thứ i (4i+3) Phương pháp biểu diễn chuỗi DNA khơng suy thối Phương pháp biểu diễn này, có chuỗi DNA có độ dài n Tại vị trí i chuỗi (i=1, 2, , n) ta dễ dàng tính a, g, c, t Mỗi vị trí chuỗi DNA ánh xạ thành điểm tương ứng với cặp giá trị (x, y) theo cơng thức: √3 √3 √3 √3 𝑎 ( , − ) + 𝑔 ( , − ) + 𝑐 ( , ) + 𝑡 ( , ) = (𝑥, 𝑦) 2 2 2 2 Như chuỗi DNA có độ dài n biểu diễn n điểm với tọa độ (x, y) không tạo thành mạch (biểu diễn đồ họa) Ta biểu thị số cho đồ họa vector 2n chiều chứa biểu diễn liên tiếp tọa độ (x,y) n điểm chuỗi DNA để thu biểu diễn số học cuối 16 Ngoài cách biểu diễn trên, loạt biểu diễn số học chuỗi DNA tổng kết lại tài liệu [7] phần bao gồm 11 cách biểu diễn: VOSS, TETRAHEDRON, INTEGER, REAL, COMPLEX, QUATERNION, EIIP, ATOMIC NUMBER, PAIRED NUMERIC, DNA WALK, Z-CURVE Cách biểu diễn áp dụng RNA thay uraxin (U) cho Thymine (T) Các cách biểu diễn chia thành hai nhóm Nhóm Fixed mapping (Ánh xạ cố định) ribonucletide liệu DNA chuyển đổi thành loạt chuỗi số tùy ý Ánh xạ cố định bao gồm phương pháp VOSS, TETRAHEDRON, INTEGER, REAL, COMPLEX Nhóm Physico Chemical Property Based Mapping (Ánh xạ dựa sở thuộc tính vật lý hóa học), thuộc tính sinh lý sinh hóa phân tử sinh học DNA sử dụng cho việc ánh xạ chuỗi DNA, mạnh thường sử dụng để tìm kiếm nguyên lý sinh học cấu trúc phân tử sinh học Các phương pháp ánh xạ thuộc nhóm bao gồm phương pháp biểu diễn EIIP, ATOMIC NUMBER, PAIRED NUMERIC, DNA WALK, Z-CURVE Phương pháp VOSS Biểu diễn S(n) = [CGAT] Xn = với S(n) = X Cn = [1,0,0,0] Xn = với S(n) ≠ X Gn = [0,1,0,0] Xn áp dụng cho Cn, Gn, An, Tn An = [0,0,1,0] 𝑋𝑟 (𝑛) = TETRA HEDRO N √2 [2𝑇𝑛 − 𝐶𝑛 − 𝐺𝑛 ] √6 [𝐶 − 𝐺𝑛 ] 𝑛 𝑋𝑏 (𝑛) = [3𝐴𝑛 − 𝑇𝑛 − 𝐶𝑛 − 𝐺𝑛 ] 𝑋𝑔 (𝑛) = INTEGE A = 2, C = 1, G = 3, T = R REAL A = -1.5, C = 0.5, G = -0.5, T= 1.5 Số chuỗi thị Tn = [0,0,0,1] 𝑋𝑟 (𝑛) = √2 [−1, −1,0,2] 𝑋𝑔 (𝑛) = √6 [1, −1,0,0] 𝑋𝑏 (𝑛) = [−1, −1,3, −1] 3 [ 1, 3, 2, 0] [0.5, -0.5, -1.5, 1.5] 17 COMPL EX A = 1+j, C = -1+j, G = -1-j, T = 1-j QUATE RNION A = i+j+k, C = i-j-k, EIIP G = -i-j+k, T = -i+j-k A = 0.1260, C = 0.1340, G = 0.0806, T = 0.1335 ATOMI A = 70, C = 58, C NUMBE G = 78, T = 66 R PAIRED NUMER A T = 1, C G = -1 IC DNA WALK C T = 1, A G = -1 xn = (An + Gn ) - (Cn + Tn ) ≡ Rn –Yn ZCURVE yn = (An + Cn ) - (Gn + Tn) ≡ Mn – Kn zn = (An + Tn) - (Cn + Gn) ≡ Wn – Sn [-1+j, -1-j, 1+j, 1-j] 1,4 [ i-j-k, -i-j+k, i+j+k, -i+j-k] 1,4 [0.1340, 0.0806, 0.1260, 0.1335] 1,4 [58, 78, 70, 66] 1,4 P1n = [-1, -1, 1, 1] P2n = [-1, -1, 0, 0] & [ 0, 0, 1, 1] [ 1, 0, -1, 0] x = [-1, 0, 1, 0] y = [1, 0, 1, 0] z = [-1,-2,-1, 0] Bảng 1: Tóm tắt phương pháp biểu diễn số học cho chuỗi DNA 18 CHƯƠNG 4: ĐÁNH GIÁ THỰC NGHIỆM CÁC MƠ HÌNH DỰ ĐOÁN KHẢ NĂNG ỨC CHẾ CỦA SIRNA THEO CÁC BIỂU DIỄN DỮ LIỆU KHÁC NHAU Sau khảo sát số phương pháp xây dựng mơ hình dự đốn khả ức chế RNA phương pháp biểu diễn chuỗi DNA RNA Chương báo cáo lại trình thực nghiệm đánh giá số mơ hình dự đốn khả ức chế siRNA theo số cách biểu diễn liệu trình bày chương Các phương pháp xây dựng mô hình dự đốn bao gồm: Quy hồi tuyến tính, Phân lớp (Nạve Bayes) Kết hợp (thuật tốn Apriori) Phần thực nghiệm sử dụng liệu dataset bao gồm loại: Scored Dataset Label Dataset Scored Dataset bao gồm: Huesken19_train (2182 siRNA), Huesken19_test (249 siRNA), Vicker (76 siRNA), Isis (67 siRNA), Uitei (81 siRNA), Sloan (601 siRNA), Reynolds (244 siRNA), Ncbi (653 siRNA) Labeled Dataset gồm file liệu siRecords (1261 siRNA nhãn “Low”, 1253 siRNA nhãn “Medium”, 2459 siRNA nhãn “High”, 2470 siRNA nhãn “Very High” tổng 7443 siRNA gán nhãn khả ức chế bệnh) Để xây dựng mơ hình dự đốn, Weka 3.8 sử dụng để thực giải thuật học máy cần thiết nạp liệu đầu vào biểu diễn liệu tính tốn thể lại file arff Các file arff kết thực chạy thuật toán biểu diễn liệu trình bày chương ghi lại file theo định dạng arff – định dạng phần mềm Weka hỗ trợ Phương pháp đánh giá mô hình: sử dụng Cross-Validation 10-Folds Mơi trường thử nghiệm: Máy tính cá nhân Dell 64 bit, 8G Ram, Core i56200U, tốc độ 2.3 GHz Thực nghiệm thuật toán kết hợp Apriori Trong phần thực nghiệm này, liệu để xây dựng mơ hình lấy từ liệu Labeled Datasets bao gồm chuỗi siRNA có độ dài 19 nucleotide gán nhãn Low Very High khả ức chế bệnh Các chuỗi siRNA từ tập liệu trình tự xếp 19 nucleotide (A, C, G, U) Nguyên tắc bổ sung RNA A-U G-C 19 Sử dụng phương pháp biểu diễn liệu số (Biểu diễn thành số tương ứng với loại nucleotide vị trí) Khi chuỗi siRNA biểu diễn thành vector 20 chiều Chiều thứ thuộc tính nhãn lấy từ file siRecords chuỗi siRNA bốn giá trị trị {“Low”, “Medium”, “High”, “Very High”} 19 chiều biểu diễn số ngun khơng âm vector biểu diễn RNA theo phương pháp số Thực phương pháp biểu diễn liệu với tập riêng biệt {“Low”, “Medium”, “High”, “Very High”} để thu file arff cho tập chạy thuật toán Apriori (Kết hợp) weka 3.8 với cấu hình Apriori -N 20 -T -C 0.9 -D 0.05 -U 0.01 -M 0.01 -S -1.0 -c -1 Kết tập “Low”, “High”, “Medium”, “Very High” ta thu 20 luật kết hợp, tổng ta có 80 luật kết hợp tập Chi tiết 80 rules kết hợp xin tham chiếu phần Danh mục bổ sung, luật thể luật kết hợp vài nucleotide vị trí xuất vị trí với khả ức chế bệnh Ngồi ra, để nâng cao độ tin cậy, thực lọc luật có tần số lớn 30%, tức luật tìm thấy tập ví dụ “Low” phải có tần số xuất >= 30% tổng số lần xuất luật bốn tập “Low”, “Medium”, “High”, “Very High” Sau thực lọc với tỉ lệ 30%, số lượng luật kết hợp giảm từ 80 xuống 30 luật kết hợp Chi tiết xem Danh mục bổ sung Đánh giá chung: Sau lọc với tỉ lệ 30% số luật giảm đáng kể, thể độ xác thuật toán chưa cao Cách biểu diễn số chưa thể mức độ liên kết nucleotide với khả ức chế bệnh chuỗi siRNA Thực nghiệm thuật tốn Phân lớp Nạve Bayes Trong phần thực nghiệm này, liệu để xây dựng mô hình lấy từ liệu Labeled Datasets bao gồm chuỗi siRNA có độ dài 19 nucleotide gán nhãn Low Very High khả ức chế bệnh Biểu diễn VOSS Thực biểu diễn liệu theo phương pháp VOSS kết hợp với thuộc tính nhãn Khi chuỗi siRNA biểu diễn vector có số chiều 77 Chiều thứ nhãn siRNA (“Low”, “Very High”) 76 thuộc tính tiếp 20 theo biểu diễn dạng binary số 0,1 theo biểu diễn VOSS Dữ liệu sinh ghi vào file arff để chạy thuật tốn Chạy thuật tốn Phân lớp Nạve Bayes Weka 3.8 với tập liệu biểu diễn để xây dựng mơ hình phân lớp với thuộc tính nhãn (thuộc tính thứ nhất) mục tiêu cho kết sau: tỉ lệ phân lớp đạt 65.4784% tỉ lệ phân lớp sai 34.5214% Biểu diễn DNA khơng suy thối Thực biểu diễn liệu theo phương pháp biểu diễn DNA khơng suy thối kết hợp với thuộc tính nhãn Khi chuỗi siRNA biểu diễn vector có số chiều 39 Chiều thứ nhãn siRNA (“Low”, “Very High”) 38 thuộc tính biểu diễn dạng tọa độ (x,y) tương ứng với vị trí từ đến vị trí 19 chuỗi RNA Dữ liệu sinh ghi vào file arff để chạy thuật tốn Chạy thuật tốn Phân lớp Nạve Bayes Weka 3.8 với tập liệu biểu diễn để xây dựng mơ hình phân lớp với thuộc tính nhãn (thuộc tính thứ nhất) mục tiêu cho kết sau: tỉ lệ phân lớp đạt 56.2252 % tỉ lệ phân lớp sai 43.7748 % Thực nghiệm thuật toán Phân lớp Hồi quy tuyến tính Trong q trình thực nghiệm kết hợp số phương pháp biểu diễn với so sánh kết hệ số tương quan thể tổng hợp bảng đầy đủ sau: Data Huesken19_train Huesken19_test Reynolds Utei Vicker 1-merge 0.5991 N/A N/A N/A N/A 2-merge 0.4767 N/A N/A N/A N/A 3-merge 0.3191 N/A N/A N/A N/A 21 rules80 0.2482 0.214 0.0695 0.2548 0.1529 rules38 0.1626 0.115 0.1043 0.1219 0.1103 1-merge + 2merge 0.5985 N/A N/A N/A N/A 1-merge + 3merge 0.5903 N/A N/A N/A N/A 1-merge + rules80 0.5872 N/A N/A N/A N/A 1-merge + rules38 0.5928 N/A N/A N/A N/A 2-merge + 3merge 0.4684 N/A N/A N/A N/A 0.588 0.6137 0.5225 0.6641 0.5147 0.5772 0.6097 0.5262 0.6455 0.4843 0.5792 0.5986 0.5091 0.6603 0.4573 0.4583 0.4876 0.3694 0.5052 0.3665 0.4645 0.5133 0.3252 0.5208 0.329 0.5874 0.6145 0.5329 0.666 0.5063 0.6032 0.6238 0.5397 0.6428 0.5757 0.5968 0.6244 0.5224 0.665 0.547 1-merge + 2merge + 3merge 1-merge + 2merge + 3merge + rules38 1-merge + 2merge + 3merge + rules80 2-merge + 3merge + rules38 2-merge + 3merge + rules80 VOSS + 1merge + 2merge + 3merge VOSS + 1merge VOSS + 2merge 22 VOSS + 3merge VOSS + 2merge + 3merge Biểu diễn số học - VOSS Biểu diễn khơng suy thối Yau Biểu diễn số học TetraHedron Biểu diễn số học - Integer 0.5935 0.6069 0.5337 0.6433 0.5807 0.5838 0.6168 0.5486 0.6772 0.515 0.6024 0.6187 0.5394 0.6326 0.5668 0.6031 N/A 0.5377 0.6205 0.588 0.6047 0.6218 0.5471 0.6355 0.5681 0.3663 0.451 0.2993 0.2101 0.381 Biểu diễn số học - Real 0.218 0.2514 0.2036 0.0219 0.0846 Biểu diễn số học - EIIP 0.3277 0.405 0.2414 0.2569 0.2958 0.1427 0.1125 0.127 0.1659 0.1081 0.341 0.3003 0.3448 0.4688 0.2594 Biểu diễn số học - Atomic Biểu diễn số học - DNA Walker Bảng 2: Tổng hợp kết thực nghiệm phương pháp Hồi quy tuyến tính với cách biểu diễn siRNA khác Đánh giá kết thực nghiệm Nhìn chung kết mơ hình cịn thấp với hệ số tương quan < 0.65 Kết so với mơ hình tại, chưa có cải tiến mặt phương pháp xây dựng mơ hình, mà trọng việc biểu diễn liệu Tuy nhiên biểu diễn liệu dạng số học với số chiều thấp (39 chiều 77 chiều) nên chưa thể tương quan chuỗi siRNA với score mục tiêu gây kết thấp Một số biểu diễn có kết gần ngang với mơ hình biểu diễn theo tần số 1-merge, 2-merge, 3merge biểu diễn VOSS, TETRAHEDRON, biểu diễn DNA khơng suy thối có số chiều tương đối lớn cách biểu diễn có đề cập đến vị trí tương quan nucleotide chuỗi Tuy nhiên tương quan biểu diễn chưa đủ tốt để đạt kết xây dựng mơ mong đợi chưa tối ưu mơ hình dự đốn 23 KẾT LUẬN Kết từ trình thực nghiệm cho thấy việc kết hợp phương pháp xây dựng mơ hình dự đốn phương pháp biểu diễn có chưa đem lại kết mong đợi Có nhiều nguyên nhân để dẫn tới kết liệu để thực nghiệm chưa đủ lớn để đem lại kết xác Dữ liệu để thực nghiệm lấy từ kết cơng trình nghiên cứu số nhà khoa học có số ý kiến trái chiều với nên kết test với mơ hình xây dựng từ liệu training khơng thực cao Ngồi kết thực nghiệm ngang với chưa có tối ưu mơ hình dự đốn q trình thực nghiệm Và nguyên nhân phương pháp biểu diễn trình bày thực nghiệm cịn bộc lộ nhiều thiếu xót số chiều chưa đủ lớn, thiếu cấu trúc liệu bậc 1, 2, chưa đủ tính đai diễn cho số lượng siRNA vơ lớn 419 Từ vấn đề cịn tồn trình làm luận văn, kết thực nghiệm, nghiên cứu tiếp tục để giải khía canh gặp phải tối ưu mơ hình dự đốn Phương pháp đề xuất để tối ưu mơ hình dự đốn phải tối ưu ma trận F (ma trận chuyển đổi) phương pháp Lagrange cho sai số bình phương tối thiếu đạt mức nhỏ Việc tối ưu ma trận F trông đợi đem lại mô hình dự đốn có độ tương quan đủ tốt khả ức chế bệnh siRNA ... Tóm tắt phương pháp biểu diễn số học cho chuỗi DNA 18 CHƯƠNG 4: ĐÁNH GIÁ THỰC NGHIỆM CÁC MƠ HÌNH DỰ ĐỐN KHẢ NĂNG ỨC CHẾ CỦA SIRNA THEO CÁC BIỂU DIỄN DỮ LIỆU KHÁC NHAU Sau khảo sát số phương pháp. .. nghiên cứu khảo sát số phương pháp xây dựng mơ hình dự đoán khả ức chế bệnh siRNA tập trung vào việc biểu diễn liệu siRNA theo nhiều cách khác đánh giá mơ hình dự đốn xây dựng số phương pháp Hồi... Chương 3: Các cách thức biểu diễn RNA Trình bày cách thức biểu diễn chuỗi RNA Chương 4: Đánh giá thực nghiệm mơ hình dự đốn khả ức chế siRNA theo biểu diễn liệu khác Chương trình bày áp dụng cụ