Các yêu cầu cho việc sử dụng chương trình: Tài liệu tham khảo So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG... Luận văn này trình bày mộ
Trang 1NGUYEN CONG HUNG
LUẬN VĂN THAC SĨ NGANH KHOA HỌC MAY TÍNH
Mã Số: 60 48 01 01
"TP.Hồ Chí Minh - năm 2014
Trang 2LOI TRI ÂN
Luận văn đã được thực hiện trong một thời gian dài va đây là thành quả lớn
nhất mà tôi đạt được trong quá trình học tập tại trường Ngoài sự cố gắng, nỗ lực
của bản thân, còn nhận sự giúp đỡ của nhiều người để tôi thể hoàn thiện được
luận văn này.
Đầu tiên, con xin vô cùng biết ơn Ba Mẹ, những người đã có công sinh thành,dưỡng dục, thương yêu và chăm sóc để cho con có được ngày hôm nay
Tôi xin cảm ơn các Thay Cô trong TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN - TP.HCM đã truyền đạt những kiến thức, kinh nghiệm quý báu
trong quá trình học tập và nghiên cứu tại trường.
Em xin chân thành cảm ơn thầy PGS.TS Trần Văn Lăng, Viện Cơ học và Tinhọc ứng dụng, người đã tận tình định hướng, hướng dẫn và góp ¥ trong quá trình
thực hiện luận văn.
Tôi xin cảm ơn tất cả anh, chị và các bạn đồng nghiệp trong Công ty Tin họcThảo Chương đã động viên, giúp đỡ và tạo điều kiện cho tôi trong quá trình thực
hiện luận văn này.
Mặc dù, tôi đã rất nỗ lực để hoàn thành bài báo cáo này và đã đạt một kết
quả nhất định, tuy nhiên, những sai sót thì không tránh khỏi, kính mong nhận được
sự thông cắm và đóng góp ý kiến của quý Thay Cô và các bạn
Xin chân thành cảm ơn!
Trang 3LỜI TRI ÂN
TONG QUAN VE VIỆC NGHIÊN CỨU RNA
1.1 Những nghiên cứu về RNA trong những năm gần đây.
1.2 Học thuyết trung tâm.
1.3 Cấu trúc bậc hai của RNA.
1.3.1 Base pair hoặc Stack 3 1.3.2 Hairpin Loo
Chương 2 9
THUẬT TOÁN DỰ ĐOÁN CẤU TRÚC 9
BẬC HAI CỦA RNA 9
2.1 Dat bai toán 9 2.1.1 9 2.1.2.
2.2 Giải quyết bài toán
2.2.1 Cac định nghĩa
2.2.2 _ Thuật toán ProbKnot
2.2.2.1 Sơ lược về thuật toán ProbKnoi “
2.2.2.2 Mô tả thuật toán ProbKnot -. - ¿5 5++s+s++ss+x 36
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 42.3 Giải thuật ProbKnOt: -ccccccscscccsccserscer 37
.2.4 Thực thi thuật toán.
2.
2.
3 _ Thuật toán tối đa hóa độ chính 2.3.1 Sơ lượt về thuật toán
2.3.2 Mô tả thuật toán
2.3.3 Diễn giải thuật toa2.3.4 Thực thi thuật toán
4 _ Thuật toán DotKnot.
2.4.1 Sơ lượt về thuật toán DotKnoi
2.4.2 Giải thuật DotKnot.
2.4.3 Thực thi thu:
Chương 3.
SO SANH CÁC THUAT TOÁN DỰ DOAN
CÂU TRÚC BAC HAI RNA
3.1 Các chỉ tiêu so sánh
3.1.1 Dựa vào việc phân tích cấu trúc của trình tự RNA ban đầu.
66 3.1.2 Dựa vào độ phức tạp của thuật toán . - 69
3.2 "Độ chính xác của các thuật toán dự đoán cấ hai RNA.70
NDNNNYYYNNNDND
3.2.1 Độ nhạy - Sensitivity:
3.2.1.1 Định nghĩ 3.2.1.2 Công thức 3.2.2 _ Giá tri dự đoán tích cực - Positive Predictive Valu
3.2.2.1 Định nghĩ 3.2.2.2 Công thức
3.3 Kết quả so sánh và dé xuấ
3.3.1 Xét về mặt các thành phần cấu trúc
3.3.2 Xét về mặt thời gian:
3.3.3 Xét về độ chính xác của việc dự đoán:
Do vậy, thuật toán DotKnot để xuất để giải quyết vấn để cho bài toán dự
đoán cấu trúc bậc hai của một trình tự RNA . -:-«-=se 77
Chương 4
CÀI ĐẶT THỬ NGHIỆM
4.1 Một số chương trình dùng để dự đoán cấu trúc
4.1.1 Chương trình RNAstructure "
4.1.2 | Chương trình DotKnot chạy trên môi trường web _
4.1.3 _ Chương trình CLC Main Workbench -+
Trang 54.2 Chương trình so sánh các thuật toán dự đoán cấu trúc bậc hai của
RNA 81
4.2.1 _ Giới thiệu chương trình
4.2.2 Các yêu cầu cho việc sử dụng chương trình:
Tài liệu tham khảo
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 6DANH MỤC CÁC TỪ VIẾT TẮT
A: Adenine C: Cystidine DNA: Desoxyribonucleic Acid EMBL: European Molecular Bioinformatic Laboratory G: Guanine
mRNA: messenger RNA
MWM: Maximum Weight Matching MWIS: Maximum Weight Independent Set
MEA: Maximum Expected Accuracy
MFE: Minimum Free Energy
ncRNA: Non Coding Ribonucleic acid
NST Nhiễm sắc thé (chromosomes)
nt: Nucleotide
PDB: Protein DataBank PPV: Positive Predictive Value RNA: Ribonucleic acid
tRNA: ribosomal RNA RNAi: RNA interference
S: Sensitivity
T: Thymine
tRNA: transfer RNA U: Uracil
Trang 7Hình 1.5: Cấu trúc bậc hai (trái) và bậc ba của RNA
Hình 1.6: Phân loại các cấu trúc trong cấu trúc bậc hai của RNA
Hình 1.7 a): Sơ đồ các thành phần trong cấu trúc RNA 2Hình 1.7 b): Chi tiết các thành phan trong cấu trúc RNA 3
Hình 1.8 : Một phân tử tRNA
Hình 1.9: RNA - Pseudoknot.
Hình 2.1: Cấu trúc bậc hai của một trình tự RNA
Hình 2.2: Phân loại các phương pháp dự đoán cấu trúc RNA
Hình 2.3: Cấu trúc bậc hai được dự đoán bằng thuật toán ProbKnot 41Hình 2.4: Cấu trúc bậc hai được dự đoán bằng thuật toán MaxExpect
Hình 2.5: Quy trình thực hiện dự đoán của thuật toán DotKnoi
Hình 2.6: Biểu đồ dot plot
Hình 2.7: Cấu trúc một stem bị gián đoạn
Hình 2.8 Xây dựng một pseudoknot H-type bằng đệ quy
Hình 2.9: Mức đầu tiên của việc xây dựng pseudoknot hai stem chéo nhau
Hình 2.10: Câu trúc bậc hai được dự đoán băng thuật toán DotKnot
Hình 4.1: Thử nghiệm với chương trình RNA structure
Hình 4.2: Dự đoán cấu trúc bằng thuật toán DotKnot
Hình 4.3: Thử nghiệm thuật toán DotKnot .
Hình 4.4: Thử nghiệm bằng CLC Main WorkBench
Hình 4.5: So sánh các thuật toán dự đoán cấu trúc bậc hai
Hình 4.6: Minh họa dữ liệu đầu vào
Hình 4.7: Click dé xem rõ cấu trúc bậc hai RNA
Hình 4.8: Kết quả thuật toán MaxExpect
Hình 4.9: Kết quả thuật toán ProbKnot
Hình 4.10: Kết quả thuật toán DotKnot
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 8Hình 4.11: Danh sách cấu trúc bậc hai chuẩn
DANH MỤC CÁC BẢNG
Bảng 2.1 Các loại RNA và các chuỗi được sử dụng để dự đoán pseudoknot.
Bang 3.1: So sánh thời gian chạy của bốn thuật toán
Bang 3.2: So sánh độ nhạy (S) của các phương pháp dự đoán câu trúc 75
Bảng 3.3: So sánh PPV của các phương thức dự đoán cấu trúc
Trang 9LOI MỞ ĐẦUNhững năm gần đây, trong lĩnh vực sinh học phân tử đã chứng minh chỉ cómột phan nhỏ trong bộ gen của sinh vật cấp cao được dich mã thành protein, cònphần lớn các bộ gen đó đã được dịch mã ở dạng các phân tử RNA không mã hóa
(non-coding RNA — ncRNA), nhưng lại mang thông tin di truyén Điển hình là
trong bộ gen người, chỉ có khoảng 30.000 đến 40.000 gen được mã hóa thành
protein - chiếm khoảng 1.5% tổng số bộ gen Người (3x10”base) (Lander và cộng
sự, Nature (2001), Venter và cộng sự, Science (2001)).
Nhiều nghiên cứu đang tiếp tục phát hiện ra thêm nhiều chức năng sinh họcmới cũng như vai trò của ncRNA trong cơ thể sống như: về sự sống, về bệnh tat,đột biến, nhằm xử lý được những căn bệnh lạ xuất hiện ngày càng nhiều trong
một thế giới không ngừng phát triển như hiện nay.
Vai trò sinh học của các ncRNA cũng như của các phân tử RNA nói chung
thường phụ thuộc vào cấu trúc bậc cao dạng 2D và 3D mà chúng tạo ra Do đó,
việc xác định cấu trúc của RNA đã trở thành một hướng nghiên cứu quan trọng
trong sinh học phân tử.
Các phương pháp vật lý xác định cấu trúc RNA hiện nay thì dự đoán chínhxác nhưng lại cực kỳ tốn nhiều thời gian, chi phí và yêu cầu một sự nổ lực rất
lớn mới biết được cấu trúc bậc hai của RNA Chính vì vậy, việc dự đoán cấu trúcbậc hai của RNA bằng phương pháp phân tích và đánh giá cấu trúc bậc một đã
biết là một nhu cầu tất yếu Luận văn này trình bày một số thuật toán Tin Sinh
Học dùng để phân tích và dự đoán cấu trúc của RNA, đặc biệt là cấu trúc bậc
hai của một trình tự RNA.
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 10Kết quả nhận được sau khi thực hiện các thuật toán là một trình tự RNA đãbiết được cấu trúc bậc hai Từ đó, so sánh các kết quả dự đoán được từ các thuật
toán để để xuất một thuật toán dự đoán chính xác hơn và ít tốn chỉ phí hơn nhằm
để có một khuyến cáo trong việc sử dụng.
Trang 11Chương 1.
TONG QUAN VE VIỆC NGHIÊN CỨU RNA
TRONG GIAI DOAN HIEN NAY
1.1 Những nghiên cứu về RNA trong những năm gần đây.
Với sự phát triển của di truyền học hiện đại, những chức năng mới của cácloại RNA trong bộ máy di truyén của tế bào được phát hiện ngày càng nhiễu vàday đủ hơn Đặc biệt, nhiều giải Nobel đã được trao cho các nhà khoa học đãkhám phá và đưa ra những giải thích cụ thể của họ về chức năng của các phân tửRNA và rất nhiều nghiên cứu khác
Năm 1989 hai nhà khoa học Sidney Altman và Thomas Cech đã đạt giải
Nobel hóa học cho phát minh “phân tử RNA trong các tế bào sống không chỉ là
các phân tử đóng vai trò quan trọng trong truyền đạt thông tin di truyền, mà còn
có chức năng như là một chất xúc tác sinh học” Diéu này thật sự là một bất ngờ
rất lớn cho các nhà khoa học và những người quan tâm đến khoa học sự sống Sự
cần thiết của các chất xúc tác:
© Các phan ứng hoá học không thể xảy ra nếu không có các chất xúc tác.
o Cơ thể sống không thể sống nếu không có các chất chất xúc tác cần thiết, các
chất xúc tác sinh học đó có tên là enzyme
Vai trò của Enzyme trong cơ thể sống:
" Quyét định đến tất cả các phan ứng xảy ra trong cơ thể sống, các enzyme có
kha năng tăng tốc độ của phan ứng lên rất nhiều lần
" _ Các phan ứng trong cơ thể sống thực sự rất khó xẩy ra nếu như vắng mặt
của các enzyme.
5S.TS TRAN VĂN LANG
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD:
Trang 12Trước khi công trình nghiên cứu của Altman va Thomas Cech, các nhà sinh
học tin rằng acid nucleic là các phân tử sinh học giữ vai trò trong di truyén, cònprotein là các phân tử chức năng cấu trúc và chức năng xúc tác Tất cả các
enzyme déu được coi là các protein Các tính chất và chức năng cụ thé của
protein được xác định bằng các nhân tố di truyền hay còn gọi là gen Thông tin ditruyén trên DNA quy định cấu trúc và chức năng của protein, tuy nhiên trước khinhững thông tin đó có thể được sử dụng trực tiếp để tổng hợp nên protein, các mã
di truyền cần phải được sao mã thành một dạng phân tử acid nucleotide khác là
RNA Phát minh này không chỉ có ý nghĩa trong nghiên cứu cơ bản, mà còn cung
cấp một công cụ mới trong kĩ thuật di truyền với tiém năng hứa hẹn trong ngăncần sự lây nhiễm vi-rút
Trong nhiều năm, nhiều nhà khoa học quan niệm rằng mRNA được mã hoábởi một trình tự nucleotide liên tục trên DNA Bởi vậy một kết quả hết sức bất
ngờ khi năm 1977, Phillip Sharp và Richard Roberts cho rằng trình tự mRNA có
thể được xây dựng không liên tục trong hệ gen (gen phân mảnh) và có hiện tượngcắt nối mRNA trước khi tạo thành phân tử mRNA hoàn chỉnh Giải Nobel sinh lý
học và y học năm 1993 đã được trao cho hai nhà khoa hoc Phillip Sharp và
Richard Roberts.
Điều đó cho thấy rằng phân tử RNA dài (pre-RNA, RNA dị biệt trong nhân)được cắt nối thành nhiều RNA ngắn trưởng thành, Sharp và Roberts vì thế đểxuất rằng trình tự mRNA - exon - dường như được cắt ra từ các đoạn RNA sơ cấp
được phiên mã; trong khi trình tự ở giữa - intron - lại bị cắt bỏ Sự sắp xếp không
liên tục của trình tự mRNA trên DNA có liên hệ quan trọng với tiến hóa Thêm
vào đó, quá trình cắt nối RNA có thể khác nhau giữa các mRNA thế hệ sau vàtheo nguyên tắc lựa chọn hình thức cắt nối sẽ nhiều hơn một protein bắt nguồn từphiên mã sơ cấp pre-RNA
Trang 13Những nhà nghiên cứu sinh học phân tử đã thu được những khám phá ngoạn
mục Sự khám phá ra tế bào có một cơ chế đặc biệt - cơ chế can thiệp RNA(RNAi), đã vượt quá mong đợi và mở rộng hiểu biết của chúng ta về cơ chế kiểm
soát gen trong cơ thể sinh vật.
RNAi là một công nghệ mới và mạnh mẽ, chỉ cần một vài phân tử RNA sợi
kép (dsRNA) trong một tế bào cũng đủ để phân hủy các MRNA của một gen đặc
thù Kết quả thực nghiệm này cho thấy RNAi có thể cho phép bất hoạt gen mộtcách hiệu quả ở bất kì cơ thể sống nhân thật nào
Việc phát hiện ra công nghệ RNAi được đánh giá cao thông qua việc giải thưởng Nobel trong sinh lý học và y học năm 2006 đã được trao cho Giáo sư
Andrew Z Fire (1959) và Giáo sư Craig C Mello (1960) Hai ông đã xuất ban
công trình nghiên cứu đột phá về cơ chế gây kích hoạt gen Khám phá của họ đãlàm sáng tổ được nhiều thí nghiệm đây mâu thuẫn và khó hiểu trong nhiều nămtrước đây Đồng thời nó tiết lộ một cơ chế tự nhiên để kiểm soát dòng thông tin
di truyền trong tế bào, báo hiệu sự khởi đầu cho một lĩnh vực nghiên cứu mới
Với nghiên cứu mới này, khoa học cũng đang tìm ra các ứng dụng của RNAi
trong những nghiên cứu y học chữa bệnh bằng liệu pháp gen, các ứng dụng trên
cây trồng, vật nuôi trong nông nghiệp nhằm tạo ra các sản phẩm với chất lượngtốt hơn; trong điều trị các bệnh nhiễm khuẩn, các bệnh do vi-rút, bệnh tim, ungthư, rối loạn nội tiết và nhiều chứng bệnh khác
Va cùng với rất nhiều công trình nghiên cứu khác trong vài năm gần đây như:
o Vào năm 2010, các nhà khoa học đã có bước đột phá mới trong việc tạo ra
các phân tử RNA có thể kết nối với các tế bào để truyền cảm nhận trongnhững điều kiện nhất định và hồi đáp bằng cách tác động lên các proteinđặc biệt Các phân tử RNA làm việc như một hệ thống bảo mật ở cấp độ tế
bào Theo Christina Smoke, kỹ sư sinh hóa người lãnh đạo nhóm các nhà
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 14nghiên cứu, làm việc tại Stanford University ở California, Hoa Kỳ, kết quả
nghiên cứu được đăng tải trên tạp chí Science, số ra ngày 26/11/2010.Smoke và đồng nghiệp tạo ra các phân tử RNA có thể kết nối với các tế bào
để truyền cảm nhận trong những điều kiện nhất định và hôi đáp bằng cách
tác động lên các protein đặc biệt Công nghệ này có thể được khai thác đểtạo ra các liệu pháp tế bào cơ sở và các phương pháp điều trị ung thư
o Năm 2011, Sander và cộng sự đã công bố kết quả nghiên cứu phát hiện ra
mRNA thông tin (messenger RNA) trên vi khuẩn có khả năng kích thích hệ
thống miễn dịch, mRNA này chi có ở các vi khuẩn còn sống mà không tìmthấy ở các vi sinh vật đã bị làm bất hoạt, mở ra tiểm năng ứng dụng trongsan xuất vaccine an toàn thế hệ mới
o Gần đây là trong nghiên cứu được công bố trên tạp chi Nature các nhà sinhhọc phân tử ở Đại học Texas ở Austin đã làm sáng tỏ một trong những bí ẩn
về cơ chế mà những RNA mạch đôi được sửa chữa ngay bên trong tế bào.Các bằng chứng từ những thực nghiệm này chỉ ra rằng những protein thuộc họ
DEAD-box protein (đây là một trong những enzyme cổ điển được tìm thấy trongtất cả các dạng sống) Chúng sử dụng hóa năng để kiểm soát chặt chẽ cũng nhưviệc mở các chuỗi RNA Từ khả năng này chúng có kha năng hình thành những
cấu trúc mới mẻ Khám phá này còn mở ra cánh cửa diéu trị nhiều căn bệnhhiểm nghèo như ung thư hay các bệnh gây ra bởi vi-rút
Trong một tương lai xa hơn, khi có phối - kết hợp những cỗ máy nano này lại,
các nhà nghiên cứu sẽ có khả năng kiểm soát, bật hay tắt, kiểm soát toàn bộ các
cơ chế khác bên trong và ngoài tế bào
Các nhà khoa học thuộc Viện Max Planck về phát triển Sinh học ởTuebingen, Đức, đã chỉ ra rằng những phần tử nhỏ nhất định trong số các đơn vị
di truyền được gọi là microRNA đóng vai trò quyết định sự lớn lên va các quá
Trang 15trình lão hóa ở các loài thực vật MicroRNA là những phần có mạch đơn, ngắn cóthể hoạt động như một gen điều hòa các gen khác Chúng thực hiện những điều
này bằng cách gắn với các phân bổ sung của vật liệu di truyén, do đó chúng kiểm soát việc đọc mã và sự hình thành các sản phẩm di truyền Những microRNA.
này, ức chế một số nhân tố điều hòa nhất định, được biết như các nhân tố phiên
mã Các nhân tố phiên mã này ảnh hưởng đến sự sản sinh acid jasmonic, một loạihormone thực vật Sự hiện diện của microRNA càng cao thì số lượng các nhân tốphiên mã hoạt động càng thấp và lượng acid jasmonic thực vật tiết ra càng nhỏ
Các nhà sinh học phân tử ở Đại học Texas ở Austin đã làm sáng tổ một trong
những bí ẩn về cơ chế mà những RNA mạch đôi là những sợi tương đồng trong
trình tự dsRNA làm kích hoạt phản ứng trả lời được sửa chữa ngay bên trong tế
bào Khám phá này còn mở ra cánh cửa điều trị nhiều căn bệnh hiểm nghèo Kếtquả của nghiên cứu này vừa được công bố trên tạp chí Nature
Ngày 31-10-2004, nhà khoa học từ Viện Vật lý của Học viện Khoa học Trung
Quốc lần dau tiên trên thế giới đã ứng dụng kỹ thuật xử lý RNA trên động vat đểđiều trị bệnh ung thư vú và đã được nhiều kết quả đáng chú ý Cuộc thí nghiệmcủa họ trên chuột cho thấy kỹ thuật này có thể có hiệu quả diệt những tế bàobệnh ung thư của động vật Các nhà khoa học Trung Quốc hiện đang hy vọng sẽ
phát triển một loại thuốc lấy từ gene để chữa lành các khối u ác tính Kỹ thuật xử
lý RNA, thường hay ngăn chặn biểu hiện của gene, được các nhà khoa học khámphá từ những năm 1990 Hiện nay, các nhà khoa học từ nhiều quốc gia đang sửdụng kỹ thuật này để phát triển một loại thuốc lấy từ gene và một vài trường hợp
đã được dùng để chữa bệnh ung thư vú [23]
Loài nấm Verticillium longisporum (lây nhiễm chi các cây họ cải) và
Verticillium dahliae (lây nhiễm hơn 200 loài thực vật khác nhau) cư trú bên trong
hệ mạch chủ của các thực vật và có khả năng sống sót khoảng 15 năm trong
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 16đất dưới dang thể nghỉ microsclerotia Do đó, việc tiêu diệt 2 loài nấm này là vô
cùng khó khăn
Vào ngày 10.05.2013, Trần Tuấn, Department of Microbiology, VNU
University of Science (Vietnam) cho rằng: Trong hai nghiên cứu, sự biéu hién của cdc gene Viaro2 và CPC1/CpcA chịu trách nhiệm cho quá trình sinh tổng hợp
các axit amin ở nấm Verticillium bị ức chế đến 80-85% bởi RNAi (RNAsilencing) Việc thiếu hụt các protein mã hóa bởi các gene trên dẫn đến sự suygiảm độc luc của nấm trên cây trồng ở điều kiện phòng thí nghiém[22]
1.2 Học thuyết trung tâm.
DNA ban đâu được phiên mã thành RNA và sau đó được dịch mã thànhProtein Và khái niệm này được coi như là học thuyết trung tâm của sinh học
phân tử xem Hình 1.1.
DNA
lại
protein
Hình 1.1: Học thuyết trung tâm của sinh học phân tử
Thế nhưng trong những nghiên cứu gần đây xem Hình 1.2, người ta đã chứngminh được rằng chỉ có một phan nhỏ của DNA được phiên mã thành protein, còn
Trang 17RNA, nhưng chúng vẫn mang thông tin di truyền va vẫn thé hiện được tinh trạng
và chức năng của cơ thể sống.
Phiên mã (hay sao mã) là quá trình sao chép thông tin di truyền được
mã hoá dưới dạng trình tự các nucleotide trên gen thành dạng trình tự các
ribonucleotide trên RNA thông tin (mRNA) nhờ đó mà tổng hợp những
protein đặc thù cho gen xem Hình 1.3.
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 18mRNA Transcription )
Legere Dot
Nucleus
Transport to cytoplasm for
protein synthesis (translation)
Cell membrane
Hình 1 3: Quá trình phiên mã
1.2.1.2 Quy trình phiên mã
Việc xử lý RNA thông tin rất khác nhau giữa sinh vật nhân
thật và sinh vật nhân sơ RNA thông tin của sinh vật nhân sơ là khá
hoàn chỉnh việc phiên mã và không cần xử lý gì Pre-RNA thông tincủa sinh vật nhân thật lại cần phai được xử lý rất nhiều
Trang 191.2.1.3 Quá trình tao pre-RNA thông tin ở sinh vật nhân thật.
1 Gốc 5' là quá trình ở đó nucleotide guanin (G) thay đổi được cộng vàođầu 5' của pre-RNA thông tin Quá trình sửa chữa này là quan trọng
cho việc phát hiện và đính kèm đúng của RNA thông tin với
ribosome Nó cũng quan trọng với quá trình ghép và vận chuyển
ribosome.
2 Vận chuyển - là quá trình ở đó pre-RNA thông tin được sửa chữa đểkéo giãn các chuỗi không mã hóa gọi là intron; và các chuỗi protein
mã hóa được gọi là exon xem Hình I.4 Pre-RNA thông tin được vận
chuyển bởi nhiều đường khác nhau, cho phép một gen đơn có thể mãhóa cho nhiều protein, quá trình như vậy được gọi là vận chuyển liên
tiếp Quá trình vận chuyển thường được thực hiện bởi một RNA
protein phức, được gọi là spliceosome, nhưng các phân tử RNA cũng
có khả năng làm chất xúc tác cho chính quá trình vận chuyển của
3 Polyadenylation - là liên kết không phân cực (covalent) của một nửa
polyadenylyl với một phân tử RNA Trong các sinh vật nhân thật,
polyadenylation là quá trình mà ở đó phần lớn các phân tử RNAthông tin được kết thúc ở các gốc 3' của chúng Các đầu viện trợ poly(A) trong RNA thông tin ổn định để bảo vệ nó khỏi quá trìnhexonucleases Polyadenylation cũng quan trọng với quá trình kết thúc
phiên mã, đưa RNA thông tin ra ngoài hạt nhân và dịch mã nó.
So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 204 Polyadenylation diễn ra trong và sau quá trình phiên mã DNA vàotrong RNA Sau khi quá trình phiên mã kết thúc, vòng RNA thông tin
được phân ra nhờ sự hoạt động của một endonuclease phức gắn với
RNA polymerase Vị trí phân rã được xác định bởi sự xuất hiện của
các chuỗi AAUAAA gốc gân chỗ phân rã Sau khi RNA thông tinđược tách ra, 80 đến 250 adenosine còn lại được gắn vào các gốc tự
do 3' tại vị trí phân rã.
5 Một chuỗi (khoảng vài trăm) nucleotide loại adenin được cộng vào
các đầu 3' của pre-RNA thông tin nhờ sự hoạt động của một enzyme
có tên là polyadenylate (polyA) polymerase Đuôi PolyA được gắn
với bản sao ở đó chứa những chuỗi đặc biệt, ký hiệu AAUAAA Tam
quan trọng của ký hiệu AAUAAA được chứng minh bởi một sự thay
đổi trong mã hóa chuỗi DNA (AATAAA), dẫn đến sự thiếu hụt củahông cầu Polyadenylation làm tăng quá trình phân đôi trong quátrình sao chép, vì thế các bản sao cuối cùng dài hơn trong tế bào và
dẫn đến việc dịch mã nhiều hơn, tạo ra nhiễu protein hơn
1.2.2 Quá trình dịch mã.
Dịch mã là quá trình các thông tin di truyền chứa trong các trình tựnucleotide của mRNA được sử dụng để tạo ra các chuỗi amino acid trongprotein Sự tổng hợp một protein riêng lẻ đòi hỏi sự tham gia của hơn 100protein và RNA Bộ máy dịch mã bao gồm bốn thành phần quan trọng là
mRNA, tRNA, aminoacyl tRNA synthetase và ribosome Các mRNA là
khuôn mẫu cho quá trình dịch mã Dịch mã là một trong những quá trình
có tính bảo thủ cao và chiếm nhiều năng lượng của tế bào Tuy nhiên, docấu trúc khác nhau giữa mRNA của prokaryote và eukaryote nên quá
trình dịch mã của chúng cũng có những điểm khác biệt quan trọng.
Trang 211.3 Cấu trúc bậc hai của RNA.
Hình 1.5: Cấu trúc bậc hai (trái) và bậc ba của RNA
Chuỗi các nucleotide của phân tử RNA cấu thành cấu trúc bậc một (là trình
tự các base A, G, C và U) của chính nó và mô hình ghép đôi giữa các
nucleotide xác định cấu trúc bậc hai của chúng Tương tự như vậy sự sắp xếp
trong không gian ba chiều của các nguyên tử thể hiện cấu trúc bậc ba của nó
xem Hình 1.7.
Trong một tế bào, RNA không giữ lại hình dạng thẳng mà chúng lại xoắn
cuộn trong không gian Cấu trúc bậc hai của một RNA là tập hợp các hìnhxoắn ốc (là danh sách các base đã ghép cặp với nhau)
Cấu trúc bậc hai là hình dạng co bản của trình tự các nucleotide A, C, U, Gtạo thành sau khi được liên kết trong chuỗi, chẳng hạn gấp hoặc uốn lại chuỗi
axit nucleic.
Các nucleotide trong RNA đều tuân thủ theo nguyên tắc bắt cặp với nhau
để tạo thành một cấu trúc bén vững (các nucleotide không được bắt cặp sẽlàm cho cấu trúc không ổn định); nếu có một base nào đó di chuyển thì cấutrúc cũng sẽ thay đổi sao cho ổn định nhất Hầu hết các cặp base trong cấu
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 22trúc bậc hai của RNA không chồng chéo lên nhau Có nghĩa là nếu có bất kỳhai cặp base (i, j) và (i’, j’) nào thì chúng đều thỏa điều kiện: i < i' <j’ <j hoặcï'<i<j <ÿ Số ít các cặp base còn lại là các cặp base cắt nhau được gọi làcấu trúc pseudoknot (chứa ít nhất hai cấu trúc stem loop).
Có 2 cặp base chính tắc: A-U và G-C và một cặp không chính tắt: G-U.
Tinh bền vững trong khả năng bắt cặp các base: G-C > A-U > G-U.
+» Những thành phần của cấu trúc bậc hai của RNA
Các cấu trúc lặp: Đứng riêng lẻ - Cấu
© Hairpin trúc External base
loop
© Haw * Bulge type © Internal
Trang 23Hình 1 7a): Sơ đồ các thành phan trong cấu trúc RNA.
c
A U
G ie
] \ 5! 13"
stacking pair hairpin loop multi loop
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VAN LANG
Trang 24interior loop bulge exterior loop
Hình 1.7 b): Chỉ tiết các thành phần trong cấu trúc RNA
1.3.1 Base pair hoặc Stack
La các cặp base được lông liên tiếp vào nhau — đây là liên kết mạnh nhất
xem Hình 1.7.
Là thành phần chính yếu của bốn base mà có thể xây dựng mỗi liên kếtlên tới ba hyđrô với base khác [3] Cặp base chuẩn tạo nên cặp base WatsonCreek chính tắt, hoặc là cặp base WC - base rút gọn, giống như cặp base
uracile - adenine (U-A) (trương tự adenine — thymine (A-T) trong DNA) va
cặp base guanine — cystidine (G-C) Cặp WC là isoster, điểu này có nghĩa làbạn có thể xây dựng hình xoắn với chiều dài chuỗi khác nhau Cặp Watson-Crick là đơn vị cơ bản nhất được bắt gặp trong cấu trúc RNA Như vậy, nó là
cực kỳ quan trọng để đạt được quá trình sự hy-drát hoá một cách chính xác.Hơn nữa, tập hợp dữ liệu cho cặp WC là cơ sở để so sánh vững chắc trongđánh giá về sự điều chỉnh của hy-drát hoá liên quan đến đầu bám của WCkhông bắt cặp và diéu chỉnh nucleotide trong cấu trúc RNA
Trong RNA cặp base khác được để nghị Wobble cặp base guanine và
Trang 25cystidine Cặp Wobble là isoster, diéu này có nghĩa là có thể xây dựng hình
xoắn với chiéu dài nhau khác Vì thế, cặp base khác được gọi cặp base khôngchính tắt mà nó không là isoster và cũng không là isoster của chính nó
Việc thêm một cặp base vào hình xoắn là gớp phần tăng động lực cho quátrình xây dựng cấu trúc bậc hai RNA nhanh nhất Cặp base non-WC đóng vaitrò chính làm cấu trúc và chức năng trong kiến trúc RNA và được liên quanđến mẫu hy-drát hoá cụ thể
1.3.2 Hairpin Loop
Hairpin có một vòng xoắn trong vòng lặp, là một vòng lặp của mRNA
được tạo ra khi sợi mRNA gấp lại và bắt cặp với các base khác của cùng một
sợi Cấu trúc trông giống như một vòng lặp hoặc một hình dạng U [3]
Một định nghĩa khác: Hairpin loop (hay còn gọi là stem loop) là một trình
tự base cho phép các base tương ứng ở đuôi của RNA bắt cặp và liên kết vớinhau - có ít nhất bốn base trong mỗi vòng lặp xem Hình 1.7 Những vòng lặp
có 5 base không được bắt cặp thì ổn định hơn và những vòng lặp có 3 hoặc ít
hơn thì ít tạo thành vòng xoắn
Hairpin loop là một loại phổ biến của cấu trúc bậc hai trong các phân tử RNA Loại hairpin mRNA có thể được hình thành khi hai trình tự bổ sung
trong một phân tử mRNA duy nhất gặp và kết hợp với nhau, tạo nên nếp gấpcho phân tử RNA Hairpin loop cũng có thể hình thành trong các phân tử DNAnhưng trong mRNA thì phổ biến hơn
Một trường hợp đặc biệt được gọi là tetra loop-hairpins Có bốn cặp basedai, nhưng base đầu tiên và base cuối cùng tạo một cặp base mà những stacktại cặp base cuối cùng của chuỗi xoắn Vòng lặp tetra dễ làm mất tính ổn
định.
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 26Có biểu hiện của hairpin loop giữa các sợi nucleic acid Một ví dụ về một
hairpin loop là trình tự ngừng sao chép trong một số prokaryote Một khipolymerase gặp vòng lặp này, nó rời ra và kết thúc phiên mã Một ví dụ khác
là RNA vận chuyển, trung tâm trong tổng hợp protein, là một phan được hình thành bởi các hairpin loop Phân tử RNA vận chuyển thực sự có ba hairpin
loop hình thành hình dang cổ ba lá xem Hình 1.8 (A) Một trong những hairpin
loop có chứa một chuỗi gọi là anticodon, nhận dạng và giải mã các phân tử
mRNA ba nucleotide (tương đương với một codon) tại một thời điểm trong
(B, C) Góc nhìn thực khi sử dung phân tích nhiễu xa tia x
(D) Chuỗi nucleotide dang thẳng của phân tử tRNA
Trang 271.3.3 Bulge Loop
Là một trình tự base cho phép các base tương ứng ở đuôi của RNA không
được bắt cặp và liên kết với nhau xem Hình I.7
Bulge loop là trường hợp trong cùng một sợi mà có những base không bắt
cặp, trong khi đó những base khác được bắt cặp [3]
Bulge loop có ít nhất là một base nhưng phần lớn không có giới hạn vềchiều dài của nó
Sự vững chắc của bulge loop phụ thuộc vào những nucleotide không bắt
cặp và những cặp base láng giéng Bulge loop có thể biến thành vòng lặpstem và điều này ảnh hưởng đến cấu trúc bậc ba
1.3.4 Internal loop
Internal loop là vòng lặp xảy ra khi các base trên cả hai mạch của cấu trúc
không bắt cặp với nhau xem Hình 1.7
Có một sự khác biệt giữa internal loop so với bulge loop là chúng có
những base không bắt cặp trong cả hai nhánh của cùng một sợi [3]
Chúng được gọi là cân đối nếu chúng có trong cả hai sợi cùng số lượngbase Internal loop cân đối được gọi là ghép có trật tự (match) và ngược lại
internal loop không đối xứng được gọi không có trật tự (mismatch)
chuỗi xoắn sẽ là stack và chúng ảnh hưởng sự tương thích RNA bậc ba [3]
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 281.3.6 External
Là một base đứng riêng lẻ [3], không tạo liên kết trong cấu trúc xem Hình
17a).
1.3.7 Pseudoknot
Một cấu trúc liên kết quan trọng trong cấu trúc bậc hai RNA là
pseudoknot Đây là một dạng cấu trúc bậc hai mà chứa đựng những base
không lồng vào nhau xem Hình 1.9
Một pseudoknot được định nghĩa bởi ít nhất hai cặp base, (i, j) và (i’, j’) để
mà nucleotide i xuất hiện trước i’, i’ trước j và j trước j’ trong cùng một chuỗi
[3] Những cặp base trong những pseudoknot đại diện cho một phần nhỏ củanhững cặp base trong những cấu trúc bậc hai RNA được biết, pseudoknot có
một số chức năng đặc biệt trong trình tự RNA (Van Batenburg, 2001; Condon
Trang 29những quá trình như là tách intron, ribosomal frameshifting, hoạt động của
enzym cấu tạo lại đoạn cuối nhiễm sắc thể và chức năng ribosome.
Trong nhiều trường hợp, chúng hỗ trợ nhau toàn diện gấp 3D và không
nên được loại trừ từ việc tính toán dự đoán cấu trúc
1.3.8 Pseudoknot - free
Ngoài cấu trúc pseudoknot thì các cấu trúc còn lại được xem là
pseudoknot-free hay pseudoknot tự do Xem chỉ tiết vé pseudoknot free tại
Trang 30Chương 2.
THUẬT TOÁN DỰ ĐOÁN CẤU TRÚC
BẬC HAI CỦA RNA
2.1 Đặt bài toán.
2.1.1 Bài toán.
Cấu trúc bậc hai của RNA rất quan trọng trong nhiều quy trình sinh học,nên việc dự đoán cấu trúc một cách hiệu quả có thể đưa ra những hướngnghiên cứu trong phòng thí nghiệm một cách thành công nhất Một thách thức
quan trọng trong lĩnh vực sinh học phân tử là việc dự đoán cấu trúc bậc hai
của RNA bao gồm pseudoknot RNA với cấu trúc pseudoknot là những phần
tử cấu trúc chức năng giữ vai trò chính trong xử lý vi-rút và xử lý tế bào [4]
Việc dự đoán của một cấu trúc bậc hai bằng tối thiểu hóa năng lượng tự do
với pseudoknot là một vấn để với lý thuyết tính toán rất phức tạp Việc thực thi
các giải thuật dự đoán cấu trúc bậc hai của RNA còn bị hạn chế bởi
pseudoknot diéu này đồng nghĩa với việc chấp nhận sự chính xác thấp và càng
ít 6i hơn đối với các trình tự RNA dài
PseudoKnot được xem là trung tâm của các thuật toán dự đoán cấu trúc
bậc hai Vậy làm sao tim được một cấu trúc bậc hai của một trình tự RNA mà
có sự tổn tại của pseudoknot
Trang 31Hình 2.1 bên dưới:
Hình 2 1: Cấu trúc bậc hai của một trình tự RNA
" Để có được cấu trúc bậc hai của trình tự trên thì ta phải sử dụng thuật
toán nào hay chương trình nào để biết được cấu trúc bậc hai của trình tự
này.
= Nếu tìm được thuật toán dự đoán được cấu trúc bậc hai thì liệu kết quả
của việc dự đoán cấu trúc này có chính xác hay không
= Làm sao để biết được thuật toán này dự đoán chính xác hay không vàmức độ khả thi về mặt thời gian cũng như không gian lưu trữ có théchấp nhận được hay không
Đây là một vài câu hỏi được đặt ra cho việc xác định cấu trúc bậc hai của
một trình tự RNA Và tiếp theo sau đây là hướng giải quyết vấn đề đã đặt ra
2.1.2 Hướng giải quyết
Hiện tại tổn tại rất nhiều thuật toán cũng như chương trình để giải quyết
bài toán này xem Hình 2.2.
e Các phương pháp vật lý xác định cấu trúc RNA hiện nay như:
o Cộng hưởng từ hạt nhân (Nuclear Magnetic Resonance - NMR);
© Tỉnh thể học tia X (X-Ray rystallography);
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 32o Và một số phương pháp khác thì dy đoán một cách chính xác.
> Ưu điểm: Biết được cấu trúc bậc hai của RNA một cách chính xác.
> Khuyết điểm: Các phương pháp này cực kỳ tốn nhiều thời gian, chỉ phí
và yêu cầu một sự nỗ lực rất lớn mới có thể đạt được kết quả mong
RNA Secondary
Structure
Computational Method
Probabilisti and
Crystallography Enzvmatic
Dynamic Programming
Algorithm
Mutational Analysis
e Cac phương pháp dự đoán cấu trúc trước đây:
o Một số công cụ như paRNAss, RNAshapes và RNAbor có thể được dùng để dự đoán những chuyển đổi hình thức; thế nhưng, không có tổn
tại công cụ mà có thể nhận diện tổng quát (thí dụ như sự không tương
đồng) toàn bộ riboswitche (cả aptamer lẫn expression platform) với sựchính xác.
> Một điểm quan trọng nữa là đa số các công cụ này không có khả năng
dự đoán được cấu trúc bậc hai mà có sự tôn tại của pseudoknot
e _ Bên cạnh một số phương pháp dự đoán cấu trúc bậc hai như trước đây, thì
còn có những cách tiếp cận mở ra một tiém năng mới trong việc dự đoáncấu trúc bậc hai Những cách tiếp cận này có thể được tổng kết trong sáu
phạm trù.
Trang 33Một là: Sử dụng giải thuật quy hoạch động để dự đoán những cấu trúcvới một cấu trúc liên kết hạn chế [12] (Rivas và Eddy, 1999; Uemura,
1999; Akutsu, 2000; Dirks và Pierce, 2003; Reeder và Giegerich, 2004).
Việc phân loại cấu trúc liên kết và sự giải thích cấu trúc liên kết được xử
lý bởi những giải thuật quy hoạch động sẵn có (Condon, 2004).
Hai là: Cấu trúc bậc hai mà có sự tổn tại của pseudoknot được xâydựng bằng việc sử dụng lặp đi lặp lại những giải thuật khác nhau không có
kha năng dự đoán pseudoknot [12] (Ruan, 2004; Ren, 2005; Jabbari, 2008).
Một vài giải thuật này có khả năng sử dụng sự sắp xếp nhiều chuỗi tươngđồng để cải thiện độ chính xác của nó bằng việc tìm thấy một cấu trúc hợpnhất (Ruan, 2004)
Ba là: Việc xây dựng nếp gấp và những cấu trúc mẫu với việc thêm
bậc của vòng xoắn [12] (Abrahams, 1990; Gultyaev, 1995; Isambert và
Siggia, 2000; Dawson, 2007; Meyer và Miklos, 2007).
Bốn là: Sử dụng giải thuật với trọng số cực đại phù hợp để xây dựngnhững cấu trúc bao gồm những cặp mà có trọng số cực đại (Tabaska, 1998;
Witwer, 2004).
Năm là: Những giải thuật sử dụng sự sắp xếp của nhiều chuỗi tương
đồng và những hàm tính điểm để mà tổng kết năng lượng tự do liên quanđến những cặp và sự biến thiên đồng thời của những cặp [12]
Sáu là: Sử dụng lập trình số nguyên phải được áp dụng để tìm thấynhững cấu trúc năng lượng giải phóng thấp nhất (Poolsap, 2009) [12]
Nhiéu thuật giải được dé cập ở trên sử dụng những luật để dự đoán
năng lượng tự do thay đổi, cũng như tính bền vững của những pseudoknot
Điều đáng quan tâm ở đây là việc sử dụng nhiều cách cách tiếp cận để
giải quyết bài toán Hay tập những quy tắc thực nghiệm được thiết kế cho
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 34việc sử dụng với những giải thuật quy hoạch động (Rivas và Eddy, 1999; Dirks và Pierce, 2003).
Trong những năm gần đây có rất nhiều thuật toán được sử dụng để giảiquyết bài toán này như: ProbKnot, MaxExpect, DotNot, Pfold, paRNAss,RNAshapes và RNAbor, đứng trên quan điểm vé tính kha thi và tínhđúng đắn của từng thuật giải thì thuật giải nào cũng cho là mình chính xác
hơn các thuật giải còn lại.
Phần còn lại của quyển luận văn này sẽ trình bày một vài thuật gidi dự
đoán cấu trúc bậc hai của một trình tự RNA nhằm so sánh và đánh giá từngthuật giải mới trong những năm gần đây để tìm ra lời giải cho bài toán này
Đồng thời đề xuất việc sử dụng thuật toán nào để giải quyết cho bài toán đặt
ra.
e Ngoài phương pháp vật lý và phương pháp dự đoán còn có một phương
pháp khác để biết được cấu trúc của một trình từ RNA nữa là: so sánh sự
tương đồng giữa một trình tự cân biết cấu trúc bậc hai với một trình tự đãbiết được cấu trúc trên các ngân hàng dữ liệu sinh học như: GenBank,
RNA được ký hiệu là p(i, j)[14] Khả năng bắt cặp của cặp base p(-j)
được tính theo công thức:
up OXPC E(S)/ RT)
PUD= exp E(S)/RT)
Trang 35Trong đó,
o E(S): là năng lượng tự do của cấu trúc S
o R:là hằng số gas
oT: Nhiệt độ (nhiệt độ bình thường là 37°C)
= Kha năng của một nucleotide i không bắt cặp được tính theo công thức
[14]:
q@=1 PGA) PU)
Trong do,
opti, j): khả năng bắt cặp của nucleotide i với nucleotide j
o p(, i): khả năng bắt cặp của nucleotide j với nucleotide i
2.2.2 Thuật toán ProbKnot
2.2.2.1 Sơ lược về thuật toán ProbKnot.
Trong một thế giới đa dạng các chuỗi RNA chức năng, chẳng hạn nhưbiểu hiện điểu chỉnh kiểu gen (Tucker và Breaker, 2005; Storz và
Gottesman, 2006; Wu và Belasco, 2008) xúc tác phan ứng (Nissen, 2000;
Doudna va Cech, 2002), chuyển đổi protein (Walter va Blobel, 1982) Cácchuỗi RNA mà không được chuyển hóa thành protein thì được xem như lànoncoding RNA, hoặc là ncRNA (Eddy, 2001) Nhiều chuỗi ncRNA dạng
này được định nghĩa rất kỹ vé mặt cấu trúc và người ta đã hiểu được rằngcác chuỗi ncRNA này thực hiện những chức năng quan trọng nào khi biết
biết được cấu trúc của chúng
Việc xác định cấu trúc bậc hai của RNA là một thử thách lớn Việc dự
đoán cấu trúc bậc hai bao gồm việc dự đoán những cặp base mà xuất hiệntrong một chuỗi những nucleotide
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 36Nhiều phương pháp dự đoán cấu trúc bậc hai sẵn có Hầu hết nhữngphương pháp chính xác nhất là sự phân tích và so sánh chuỗi (Pace, 1999)
để mà xác định những cặp base được tổn tại trong số những chuỗi tương
đồng Phương pháp chính xác cao nhưng yêu cầu phải có một số lượng lớnchuỗi tương đồng Phương pháp này có ý nghĩa quan trọng cho nhân loại
nhưng giới hạn sử dụng.
Khi một chuỗi đơn sẵn có, cách tiếp cận phổ biến nhất cho việc dựđoán cấu trúc là dự đoán cấu trúc năng lượng tự do thấp nhất với giải thuật
quy hoạch động (Zuker, 2003; Mathews, 2004; Mathews và Turner, 2006;
Gruber, 2008) Hay một cách tiếp cận gần đây nhất để dự đoán RNA cấutrúc bậc hai được gọi là dự đoán cấu trúc dựa trên việc tối ưu hóa độ chính
xác cực đại (Knudsen và Hein, 2003; Do, 2006; Hamada, 2009; Lu, 2009).
Nói nôm na rằng, tối ưu hóa độ chính xác cực đại của những cấu trúc là
những cấu trúc được bao gồm những cặp mà khả năng bắt cặp của chúng
là tối đa nhất Khả năng bắt cặp có thể được dẫn xuất từ phương pháp máy
học hay bởi phương pháp nhiệt động học sử dụng những hàm phân hoạch.
Tối ưu hóa độ chính xác cực đại cấu trúc đã cải thiện độ chính xác so
với tối thiểu hóa năng lượng tự do bởi vì có một nhận định rằng kha năngbắt cặp của base thì cao và khá giống với việc dự đoán chính xác các cặp
(Mathews 2004).
Việc dự đoán những cấu trúc bậc hai bao gồm pseudoknot là mộtnhiệm vụ khó (Lyngso và Pederson, 2000) Chẳng hạn, những giải thuậtquy hoạch động phổ biến nhất để tìm thấy những cấu trúc năng lượng tự dotối thiểu thì không cho phép có mặt của pseudoknot Diéu này cho phép
những giải thuật quy hoạch động đó chạy nhanh và đánh giá tốt O(n’) về
thời gian trong đó n là chiéu dài của chuỗi Việc bao gồm pseudoknot trong
Trang 37dự đoán cấu trúc yêu câu tỉ lệ thứ tự cao, sử dụng phương pháp heuristicmột thỏa thuận trên mô hình năng lượng Mặc dù điều này, một số cách
tiếp cận có tính chất đổi mới và thực hành đã được phát triển để dự đoán
những cấu trúc với pseudoknot
2.2.2.2 Mô tả thuật toán ProbKnot
ProbKnot là một giải thuật mà dự đoán cấu trúc bậc hai RNA bằng việc
tìm kiếm những cấu trúc với kha năng bắt cặp base có thể nhất [12]
ProbKnot tập hợp những cấu trúc được chứa đựng các cặp base i-j, mà
trong đó kha năng bắt cặp của i-j cao hơn bất kỳ cặp i-k hay cặp j-k nào
khác, với k là mọi nucleotide khác còn lại trong chuỗi
Tính toán và lưu trữ khả năng bắt cặp của các cặp trong một ma trận
vuông có kích thước n, với n là số lượng nucleotide có trong trình tự RNAban đầu Kha năng bắt cặp cao nhất của mỗi nucleotide được lưu trữ trong
Pmnax(i)
Sau đó mỗi cặp base được xem xét dé đưa vào trong cấu trúc
= _ Nếu khả năng bắt cặp của i-j bằng cả P„„() và P„„0) Điều này
có nghĩa là khả năng bắt cặp của cặp (i-j) cũng bằng với kha
năng bắt cặp của cặp (j-i)
= Thì cặp đôi này được bao gồm trong cấu trúc
Đồng thời giải thuật cũng có khả năng hỗ trợ sự lặp đi lặp lại nhiều lầnmột trạng thái tương tự để tìm thấy cặp (i-j) có thể nhất trong nhữngnucleotide còn lại mà chưa được bắt cặp sau khi thực hiện các bước lặp
trước đây.
Kế sau đó là một bước hậu xử lý, sau khi cấu trúc đã đang tổn tại, giảithuật loại bỏ các stack bao gồm hai hay ít hơn các base được bắt cặp Với
những sự tính toán này, một nucleotide bulge đơn được xem là stack và bởi
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG
Trang 38vậy loại bỏ hình trôn ốc trong stack Chẳng hạn như, hai cặp được phân chia
bởi nucleotide bulge đơn được xem là stack.
2.2.2.3 Giải thuật ProbKnot:
Đây là kiểu cấu trúc mà chứa tất cả các thông tin của một cấu trúc RNA
class structure {
int numofstructures // số lượng cấu trúc int numofbases // số lượng nucleotide của chuỗi
short int pair[maxforce]([2], npair, nforbid, forbid(maxforce] [2]
//arrays to hold lists of forced pairs or pairs forbidden
// mãng để chứa danh sách các base được bắt cặp hoặc không được bắt cặp
short int *numseq, *hnumber int **basepr
int *energy //[maxstructures+l]
char **ctlabel //[maxstructures+1] [ctheaderlength]
short int ndbl, đbl[maxforce]
int inter[3], allocatedstructures
short int nnopair, *nopair, nmod, mod[maxforce]
int nopairmax // số lượng lớn nhất của nucleotide không cho phép bắt cặp
short int ngu, gu[maxgu]
char *nucs bool intermolecular, allocated, templated, stacking
bool **tem
}
ProbKnot(structure *ct, int iterations, int MinHelixLength)
double **probs, *rowprob
1 int i, j, iter
2 int n // số lượng base trong chuỗi RNA ban dau
3 probs = new double *[n+ 1]
4 //khời tạo rowprob[i], khả năng bắt cặp cao nhất của i
b- rowprob = new double [n+1]
6 for (i=1; i <= n; itt)
7 Probs[i] = new double [i+1]
8 //khởi tạo rowprob = 0
9 rowprob[i] = 0.0
10 //khời tạo tất cả các basepr = 0
11 ct->basepr[1][i] = 0
12 //Đầu tiên xác định xác suất cặp:
13 for (i=l; i < ny i++)
14 for (j=itminlooptl; j <= n; j++)
15 probs[j] [i] = calculateprobability (1,3);
16 // cũng tích lũy probs tốt nhất cho mỗi nucleotide:
17 if (probs[j] [i] >rowprob[i])
18 rowprob[i] = probs[j] [il]
Trang 3925 // lây một cặp nêu nó có vẫn cao nhất cho bat kỳ cặp.
26 liên quan đến i hoặc j
21 if (rowprob[i] == probs[j](i] && rowprob[j] ==
probs[j] [i]
28 &&probs [3] [‡]>0 0)
29 ct->basepr [1] [1] =3
30 ct->basepr [1] [j]=i
31 //Nếu số lần lặp lại được yêu cẩu, tiếp tục làm những:
32 for (iter = 2; iter <= iterations; iter ++)
38 if, (ct->basepr[l][i]==0 && ct->basepr[1][j] == 0)
39 // tích lũy probs tốt nhất cho mỗi
40.nucleotide chưa bắt cặp:
41 if (probs[j][i] > rowprob[il)
42 xowprob[i] = probs[3] [i]
43 if (probs[j] [i] > rowprob[j])
44 xowprob[j] = probs[3] [i]
52 if (rowprob[i] probs{j][i] && rowprob[j] ==
53 probs[j] [i] &&probs[j] [i] > 0.0)
ct->basepr [StructureNumber ] [i+2]
So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VAN LANG
Trang 40ct->basepr [StructureNumber] [1+1]
if (ct->basepr[StructureNumber] [i+1]
itt
pairst+
while (ct->basepr[StructureNumber] [i - 1] j +
if (ct->basepr(StructureNumber] [i-2] == j + 1) ct~>basepr [StructureNumber] [ct-
>basepr [StructureNumber] [i - 2]]
ct->basepr [StructureNumber] [i - 2] = 0
// cerr << rna->GetErrorMessage (error) ;
ie jet else