1. Trang chủ
  2. » Thể loại khác

Các phương pháp dự đoán và ứng dụng vào bài toán đoán nhận khả năng ức chế gen của siRNA

61 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN BÁ QUÂN CÁC PHƢƠNG PHÁP DỰ ĐOÁN VÀ ỨNG DỤNG VÀO BÀI TOÁN ĐOÁN NHẬN KHẢ NĂNG ỨC CHẾ GEN CỦA siRNA LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN BÁ QUÂN CÁC PHƢƠNG PHÁP DỰ ĐOÁN VÀ ỨNG DỤNG VÀO BÀI TOÁN ĐOÁN NHẬN KHẢ NĂNG ỨC CHẾ GEN CỦA siRNA Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS BÙI NGỌC THĂNG HÀ NỘI - 2016 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng tơi hướng dẫn cán hướng dẫn khoa học, thầy giáo, TS Bùi Ngọc Thăng, kết đạt luận văn trình tìm hiểu, nghiên cứu riêng tơi Trong tồn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày …… tháng … năm 2016 Học viên thực luận văn Nguyễn Bá Quân LỜI CẢM ƠN Đầu tiên, muốn gửi lời cảm ơn sâu sắc đến cán hướng dẫn khoa học, thầy giáo, TS Bùi Ngọc Thăng, người đưa đến lĩnh vực nghiên cứu trực tiếp giảng dạy suốt q trình tơi học tập, nghiên cứu trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội, thầy truyền cho nguồn cảm hứng, nhiệt huyết nghiên cứu khoa học tận tình hướng dẫn tơi, cho tơi lời khuyên quý báu Mặc dù thầy bận với công việc giảng dạy nghiên cứu thầy dành cho nhiều thời gian thảo luận ý tưởng nghiên cứu, dẫn cách nghiên cứu, giải đáp thắc mắc động viên vượt qua vấn đề khó khăn hướng tơi tới nhiều vấn đề có giá trị khác khiến tơi muốn tìm hiểu nghiên cứu tương lai Tôi xin bày tỏ lịng biết ơn chân thành tới Thầy, Cơ giáo anh chị bạn môn Hệ thống thông tin, Khoa Công nghệ thông tin, người nhiệt tình giúp tơi mở rộng kiến thức Cơng nghệ thơng tin nói chung Hệ thống thơng tin nói riêng, kiến thức quý báu có ích với tơi giai đoạn tương lai Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng Đào tạo sau đại học, Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt giúp tơi suốt q trình học tập Qua tất tơi gửi đến gia đình thân u tình cảm mình, cảm ơn bố mẹ ln tin tưởng, luôn chỗ dựa vững chắc, cảm ơn anh chị em dành điều kiện để giúp tập trung vào nghiên cứu Học viên thực luận văn Nguyễn Bá Quân MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH SÁCH HÌNH VẼ .5 DANH SÁCH B ẢNG BIỂU DANH MỤC CHỮ VIẾT TẮT MỞ ĐẦU CHƢƠNG GIỚI THIỆU TỔNG QUAN VỀ ĐOẠN NGẮN RNA CÓ KHẢ NĂNG ỨC CHẾ (siRNA) 10 1.1 Can thiệp RNA 10 1.1.1 Các chế, thành phần RNAi 10 1.1.2 Vai trò RNAi 12 1.1.3 Thành phần RNAi 12 1.1.4 Nghiên cứu can thiệp RNA 12 1.2 Nghiên cứu siRNA 14 1.2.1 Lịch sử nghiên cứu siRNA 14 1.2.2 Chức siRNA 15 1.2.3 Ứng dụng siRNA 15 1.2.4 Những thách thức nghiên cứu siRNA 17 1.3 Kết luận 19 CHƢƠNG CÁC QUY TẮC THIẾT KẾ siRNA HIỆU QUẢ 20 2.1 Quy tắc thiết kế siRNA 20 2.2 Quy tắc thiết kế siRNA hiệu phương pháp sinh học 20 2.3 Quy tắc thiết kế siRNA hiệu phương pháp sinh học tính tốn 24 2.4 Kết luận 26 CHƢƠNG PHƢƠNG PHÁP DỰ ĐOÁN KHẢ NĂNG ỨC CHẾ CỦA siRNA 27 3.1 Tổng quan số phương pháp xây dựng mơ hình dự đoán ức chế siRNA 27 3.2 Phương pháp máy véc-tơ hỗ trợ (Support vector machine) 29 3.3 Phương pháp rừng ngẫu nhiên (Random Forest) 38 3.4 Sử dụng phương pháp học biểu diễn để nâng cao độ xác mơ hình dự đốn 45 3.5 Kết luận 46 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 47 4.1 Quy trình giải tốn 47 4.2 Thực nghiệm phương pháp học máy dự đoán khả ức chế siRNA 49 4.3 Đánh giá thực nghiệm 52 4.4 Kết luận 54 CHƢn khác ta thấy kết SVR với liệu sử dụng [2] đạt cao so với mơ hình nhiều nhân Qui số cho thấy hầu hết siRNA liệu Huesken có khả ức chế cao So sánh R ba phương pháp thực nghiệm với 18 phương pháp bao gồm BIOPREDsi, DSIR, Thermocomposition21, SVM … Khi huấn luyện tập dataset Huesken thử nghiệm ba tập liệu độc lập Reynolds, Vicker Harborth báo cáo gần Sciabola et a [41] phương pháp TRM Bui Thang [2] (Bảng 4.5) Bảng 4.5: Giá trị R 18 mơ hình mơ hình thực nghiệm đề xuất Phương pháp Năm RReynolds RVicker RHarborth GPboot 2004 0.55 0.35 0.43 Uitei 2004 0.47 0.58 0.31 Amarzguioui 2004 0.45 0.47 0.34 Hsieh 2004 0.03 0.15 0.17 Takasaki 2010 0.03 0.25 0.01 Reynolds 2004 0.35 0.47 0.23 Reynolds 2004 0.37 0.44 0.23 Schawarz 2003 0.29 0.35 0.01 Khvorova 2003 0.15 0.19 0.11 Stockholm 2004 0.05 0.18 0.28 Stockholm 2004 0.00 0.15 0.41 Tree 2004 0.11 0.43 0.06 Luo 2004 0.33 0.27 0.40 i-score 2007 0.54 0.58 0.43 BIOPREDsi 2006 0.53 0.57 0.51 DSIR 2006 0.54 0.49 0.51 Katoh 2007 0.40 0.43 0.44 SVM 2013 0.54 0.52 0.54 TRM 2014 0.60 0.58 0.55 SVR 0.54 0.5644 0.5412 Linear Regression 0.55 0.5508 0.4708 0.5004 0.5258 0.4502 RF 54 So sánh kết thực nghiệm thực nghiệm ba liệu độc lập với kết 18 phương pháp báo cáo (Bảng 4.5) Với kết đạt ta thấy phương pháp thử nghiệm với liệu biểu diễn cách chuyển sang ma trận làm giầu siRNA với quy tắc thiết kế công bố với phương pháp SVR, Linear Regression, Random Forest có kết cao hầu hết phương pháp khác để dự đoán khả ức chế gen siRNA Chẳng hạn phương pháp SVR ta thầy kết ổn định ba liệu độc lập so sánh với SVM đưa 2013 sử dụng cấu trúc chiều ta thấy kết cao hơn.Lý phương pháp biểu diễn liệu kết hợp quy tắc tìm thấy từ tập liệu khác thực nghiệm Chúng ta thấy mơ hình học phương pháp RVR, Linear Regression Random Forest có độ xác thấp so với mơ hình TRM Điều giải thích sau: biểu diễn TRM được bảo toàn cấu trúc (tensor) kết hợp luật, đó, biểu diễn liệu sử dụng phương pháp nêu vector hố ma trận Ngồi ra, tác giả sử dụng sử dụng chuẩn L2 hàm mục tiêu xây dựng mơ hình bilinear điều làm tăng độ xác mơ hình dự đốn Tuy nhiên, thấy việc học mơ hình bilinear tensor phức tạp phải học nhiều tham số mơ hình thơng số diều chỉnh (tuning parameters), có phải lưu trữ liệu dạng tensor Điều dẫn tới độ phức tạp thời gian không gian lớn nhiều so với phương pháp áp dụng luận văn Tuy phương pháp biểu diễn có kết cao có nhược điểm ma trận biến đổi học dựa tính vị trí Do thiếu số đặc điểm ảnh hưởng hiệu ức chế siRNA tính chất nhiệt, tương quan cặp bazơ, chiều dài … Điều chứng tỏ kết phụ thuộc nhiều vào việc lựa chọn phương pháp dự đoán phương pháp biểu diễn, với phương pháp biểu diễn liệu tập liệu thấy có kết khác 4.4 Kết luận Trong chương tiến hành thực nghiệm phương pháp SVR, RF, Linear Regression để đánh giá phù hợp mơ hình tốn dự đoán khả ức chế gen siRNA Đồng thời so sánh với phương pháp báo cáo thấy phương pháp đề xuất thực nghiệm đạt kết cao Tuy kết q trình thực nghiệm khơng phải tối ưu đóng góp thêm cách tìm hiểu việc chọn lựa mơ hình dự đốn phương pháp học biểu diễn cho nhà khoa học nghiên cứu nghiên cứu việc xây dựng mơ hình dự đốn khả ức chế siRNA 55 CHƢƠNG KẾT LUẬN 5.1 Những vấn đề đƣợc giải luận văn Trong trình tìm hiểu để đưa cách giải cho toán siRNA luận văn trình bày nghiên cứu vấn đề sinh học làm để tổng hợp siRNA hiệu để thiết kế loại thuốc để điều trị nhiều loại bệnh HIV, ung thư, virus cúm A, virus viêm gan B Để giải vấn đề này, nhà sinh học thực phân tích q trình thực nghiệm họ phát đặc điểm quan trọng ảnh hưởng hiệu ức chế siRNA, kết là, họ báo cáo quy tắc thiết kế cho siRNA hiệu Trong nghiên cứu sinh học tính tốn, nhóm nghiên cứu áp dụng kỹ thuật máy học thay để phát quy tắc thiết kế siRNA dự đoán hiệu ức siRNA Luận văn tổng hợp nghiên cứu toán siRNA để giúp có cách nhìn tổng quan áp dụng cách phù hợp vào giải toán nhằm xây dựng số mơ hình dự đốn khả thi, để đoán nhận khả ức chế siRNA hỗ trợ cho việc điều chế thuốc Liên quan đến việc phát quy tắc thiết kế cho vấn đề siRNA hiệu quả, có nhiều phương pháp hai hướng tiếp cận sinh học sinh học tính tốn đưa Một số đặc điểm siRNA ảnh hưởng đến hiệu ức chế siRNA phát hiện, phương pháp trình bày chương Việc giải tốn siRNA khơng nhằm tìm kiếm quy tắc thiết kế tạo siRNA hiệu nhà khoa học tập trung vào việc xây dựng mơ hình học máy để dự đốn khả ức chế siRNA Đã có nhiều phương pháp học máy đưa ra, với nhiều kết thử nghiệm khác trình bày chương Trong chương trình bày phương pháp biểu diễn để áp dụng cho phần thực nghiệm Kết chạy thực nghiệm chứng minh lựa chọn phương pháp thực nghiệm phương pháp biểu diễn liệu đề xuất có hiệu số phương pháp khác Tuy luận văn dừng lại bước thực thực nghiệm phương pháp đưa ra, kết mang lại có ý nghĩa định giúp nhóm nghiên cứu khác có nhìn tổng quan việc sử dụng mơ hình học máy để đốn nhận khả ức chế siRNA Trong trình thực luận văn cố gắng tập trung nghiên cứu toán dự đoán khả ức chế siRNA tham khảo nhiều tài liệu liên quan Luận văn chủ yếu tập trung vào việc tổng hợp nghiên cứu nhà khoa học để giải toán Tuy đưa chưa đạt tối ưu, luận văn tơi có số thực nghiệm đạt kết tốt để nhà nghiên cứu tham khảo thêm trình thực nghiệm siRNA Tuy nhiên thời gian trình độ có hạn nên khơng tránh 56 khỏi hạn chế thiếu sót định, tơi thật mong muốn nhận góp ý kiến thức chun mơn lẫn cách trình bày 5.2 Công việc nghiên cứu tƣơng lai Như trình bày nghiên cứu luận văn tập trung vào vấn đề thú vị đầy thử thách sinh học, kết đạt thử nghiệm luận văn nghiên cứu trước cịn số hạn chế Trong vấn đề phát quy tắc thiết kế siRNA, quy tắc thiết kế siRNA hợp lý đặc điểm tìm thấy nhiên, quy tắc thiết kế hợp lý đặc điểm cần phải đánh giá trình thực nghiệm chuyên gia nghiên cứu sinh học Vì vậy, nghiên cứu chung nhà sinh học tin sinh học hợp tác mạnh mẽ để giải vấn đề sinh học mang lại kết nghiên cứu để ứng dụng thực tế Trong dự đốn ức chế siRNA, tơi đề nghị trình học dự báo phương pháp đại diện siRNA cách kết hợp kiến thức tảng quy tắc thiết kế siRNA, thời điểm mơ hình dự báo khơng đạt hiệu suất cao Dựa hạn chế nghiên cứu hai cách tiếp cận sinh học sinh học tính tốn, mục đích tơi nghiên cứu vấn đề sau tương lai  Tìm siRNA hiệu cao dựa quy tắc thiết kế siRNA mơ hình dự báo: Trong báo cáo trước đó, mơ hình hồi quy dự đoán hiệu ức chế siRNA quy tắc thiết kế phát tạo siRNA hiệu quả, quy tắc thiết kế siRNA tạo hiệu với số lượng 19 siRNA Do đó, nên có chiến lược để tìm siRNA có hiệu cao, tổng hợp để làm thuốc Để có kết tốt cần hợp tác nhóm nhà sinh học Kết cơng trình nghiên cứu nên đánh giá trình thực nghiệm  Thiết kế siRNA hiệu nên nghiên cứu với gen gây bệnh cụ thể Có mơ tả cụ thể đặc điểm nhiễm trùng, biến dị di truyền, cấu trúc protein … Do đó, tạo siRNA cho việc điều trị ngăn ngừa bệnh vấn đề quan trọng  Xây dựng mơ hình dự báo để giảm thiểu ức chế sai mục tiêu, ảnh hưởng ức chế sai mục tiêu siRNA định nghĩa tượng mà siRNA mục tiêu mRNA ý muốn chúng ức chế mRNA Nó dẫn đến tác dụng phụ siRNA sử dụng thuốc.Vấn đề xem xét vấn đề thách thức thiết kế siRNA hiệu Do đó, tơi dự định xây dựng mơ hình dự đốn khả ức chế sai mục tiêu siRNA Mơ hình giúp đỡ để tìm siRNA khơng có hiệu ức chế cao mà cịn giảm khả ức chế sai mục tiêu 57 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Đỗ Năng Vịnh (2007),” Công nghệ can thiệp RNA gây bất hoạt gene tiềm ứng dụng to lớn” Tạp chí C ng nghệ sinh học 5(3): 265-275 Tài liệu tiếng Anh Amarzguioui, M., Prydz, H (2004), “An algorithm for selection of functional siRNA sequences”, Biochem Biophys Res Commun, 316(4), pp.1050–8 Bui Thang (2014), “A Novel Framework to Improve siRNA Efficacy Prediction”, PAKDD (2), pp.400-412 Chalk, A.M., Wahlestedt, C., Sonnhammer, E.L.L (2004), “Improved and automated prediction of effective siRNA”, Biochem Biophys Res Commun, (319), pp.264–274 Elbashir, S.M., Lendeckel, W., Tuschl, T (2001), “RNA interference is mediated by 21– and 22–nucleotide RNAs”, Genes Dev., (15), pp.188–200 Fire A, Xu S, Montgomery MK, Kostas SA, Driver SE, and Mello CC (1998) “Potent and specific genetic interference by doublestranded RNA in Caenorhabditis elegans” Nature 391: 806-811 Harborth, J., Elbashir, S M., Vandenburgh, K., Manninga, H., Scaringe, S A., Weber, K., Tuschl, T.: Sequence, Chemical, and Structural Variation of Small Interfering RNAs and Short Hairpin RNAs and the Effect on Mammalian Gene Silencing Antisense Nucleic Acid Drug Dev., 13, 83–105 (2003) Huesken, D., Lange, J., Mickanin, C., Weiler, J., Asselbergs, F., Warner, J., Mellon, B., Engel, S., Rosenberg, A., Cohen, D., Labow, M., Reinhardt,M., Natt, F., Hall, J (2005), “Design of a Genome–Wide siRNA Library Using an Artificial Neural Network” Nature,, Biotechnology, 23(8), pp 955–1001 Hsieh, A.C., Bo, R., Manola, J., Vazquez, F., Bare, O., Khvorova, A.,Scaringe, S., Sellers, W.R (2004), “A library of siRNA duplexes targeting the phosphoinositide 3-kinase pathway: determinants of gene silencing for use in cell-based screens”, Nucleic Acids Res., 32(3), pp.893–901 Ichihara, M., Murakumo, Y., Masuda, A., Matsuura, T., Asai, N., Jijiwa, M., Ishida, M., Shinmi, J., Yatsuya, H., Qiao, S et al (2007), “Thermodynamic instability of siRNA duplex is a prerequisite for dependable prediction of siRNA activities”, Nucleic Acids Res., 35, e123 10 Kurreck, J (2009), ”RNA interference: from basic research to therapeutic applications”, Angew, Chem., (121), pp.1404– 1426 11 Liangjiang Wang, Caiyan Huang, and Jack Y Yang (2009), “Predicting siRNA potency with random forests”

Ngày đăng: 23/09/2020, 21:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w