Luận văn thạc sĩ Khoa học máy tính: So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA

Các yêu cầu cho việc sử dụng chương trình: Tài liệu tham khảo So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG... Luận văn này trình bày mộ

Trang 1

NGUYEN CONG HUNG

LUẬN VĂN THAC SĨ NGANH KHOA HỌC MAY TÍNH

Mã Số: 60 48 01 01

"TP.Hồ Chí Minh - năm 2014

Trang 2

LOI TRI ÂN

Luận văn đã được thực hiện trong một thời gian dài va đây là thành quả lớn

nhất mà tôi đạt được trong quá trình học tập tại trường Ngoài sự cố gắng, nỗ lực

của bản thân, còn nhận sự giúp đỡ của nhiều người để tôi thể hoàn thiện được

luận văn này.

Đầu tiên, con xin vô cùng biết ơn Ba Mẹ, những người đã có công sinh thành,dưỡng dục, thương yêu và chăm sóc để cho con có được ngày hôm nay

Tôi xin cảm ơn các Thay Cô trong TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN - TP.HCM đã truyền đạt những kiến thức, kinh nghiệm quý báu

trong quá trình học tập và nghiên cứu tại trường.

Em xin chân thành cảm ơn thầy PGS.TS Trần Văn Lăng, Viện Cơ học và Tinhọc ứng dụng, người đã tận tình định hướng, hướng dẫn và góp ¥ trong quá trình

thực hiện luận văn.

Tôi xin cảm ơn tất cả anh, chị và các bạn đồng nghiệp trong Công ty Tin họcThảo Chương đã động viên, giúp đỡ và tạo điều kiện cho tôi trong quá trình thực

hiện luận văn này.

Mặc dù, tôi đã rất nỗ lực để hoàn thành bài báo cáo này và đã đạt một kết

quả nhất định, tuy nhiên, những sai sót thì không tránh khỏi, kính mong nhận được

sự thông cắm và đóng góp ý kiến của quý Thay Cô và các bạn

Xin chân thành cảm ơn!

Trang 3

LỜI TRI ÂN

TONG QUAN VE VIỆC NGHIÊN CỨU RNA

1.1 Những nghiên cứu về RNA trong những năm gần đây.

1.2 Học thuyết trung tâm.

1.3 Cấu trúc bậc hai của RNA.

1.3.1 Base pair hoặc Stack 3 1.3.2 Hairpin Loo

Chương 2 9

THUẬT TOÁN DỰ ĐOÁN CẤU TRÚC 9

BẬC HAI CỦA RNA 9

2.1 Dat bai toán 9 2.1.1 9 2.1.2.

2.2 Giải quyết bài toán

2.2.1 Cac định nghĩa

2.2.2 _ Thuật toán ProbKnot

2.2.2.1 Sơ lược về thuật toán ProbKnoi “

2.2.2.2 Mô tả thuật toán ProbKnot -. - ¿5 5++s+s++ss+x 36

So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG

Trang 4

2.3 Giải thuật ProbKnOt: -ccccccscscccsccserscer 37

.2.4 Thực thi thuật toán.

2.

3 _ Thuật toán tối đa hóa độ chính 2.3.1 Sơ lượt về thuật toán

2.3.2 Mô tả thuật toán

2.3.3 Diễn giải thuật toa2.3.4 Thực thi thuật toán

4 _ Thuật toán DotKnot.

2.4.1 Sơ lượt về thuật toán DotKnoi

2.4.2 Giải thuật DotKnot.

2.4.3 Thực thi thu:

Chương 3.

SO SANH CÁC THUAT TOÁN DỰ DOAN

CÂU TRÚC BAC HAI RNA

3.1 Các chỉ tiêu so sánh

3.1.1 Dựa vào việc phân tích cấu trúc của trình tự RNA ban đầu.

66 3.1.2 Dựa vào độ phức tạp của thuật toán . - 69

3.2 "Độ chính xác của các thuật toán dự đoán cấ hai RNA.70

NDNNNYYYNNNDND

3.2.1 Độ nhạy - Sensitivity:

3.2.1.1 Định nghĩ 3.2.1.2 Công thức 3.2.2 _ Giá tri dự đoán tích cực - Positive Predictive Valu

3.2.2.1 Định nghĩ 3.2.2.2 Công thức

3.3 Kết quả so sánh và dé xuấ

3.3.1 Xét về mặt các thành phần cấu trúc

3.3.2 Xét về mặt thời gian:

3.3.3 Xét về độ chính xác của việc dự đoán:

Do vậy, thuật toán DotKnot để xuất để giải quyết vấn để cho bài toán dự

đoán cấu trúc bậc hai của một trình tự RNA . -:-«-=se 77

Chương 4

CÀI ĐẶT THỬ NGHIỆM

4.1 Một số chương trình dùng để dự đoán cấu trúc

4.1.1 Chương trình RNAstructure "

4.1.2 | Chương trình DotKnot chạy trên môi trường web _

4.1.3 _ Chương trình CLC Main Workbench -+

Trang 5

4.2 Chương trình so sánh các thuật toán dự đoán cấu trúc bậc hai của

RNA 81

4.2.1 _ Giới thiệu chương trình

4.2.2 Các yêu cầu cho việc sử dụng chương trình:

Tài liệu tham khảo

Trang 6

DANH MỤC CÁC TỪ VIẾT TẮT

A: Adenine C: Cystidine DNA: Desoxyribonucleic Acid EMBL: European Molecular Bioinformatic Laboratory G: Guanine

mRNA: messenger RNA

MWM: Maximum Weight Matching MWIS: Maximum Weight Independent Set

MEA: Maximum Expected Accuracy

MFE: Minimum Free Energy

ncRNA: Non Coding Ribonucleic acid

NST Nhiễm sắc thé (chromosomes)

nt: Nucleotide

PDB: Protein DataBank PPV: Positive Predictive Value RNA: Ribonucleic acid

tRNA: ribosomal RNA RNAi: RNA interference

S: Sensitivity

T: Thymine

tRNA: transfer RNA U: Uracil

Trang 7

Hình 1.5: Cấu trúc bậc hai (trái) và bậc ba của RNA

Hình 1.6: Phân loại các cấu trúc trong cấu trúc bậc hai của RNA

Hình 1.7 a): Sơ đồ các thành phần trong cấu trúc RNA 2Hình 1.7 b): Chi tiết các thành phan trong cấu trúc RNA 3

Hình 1.8 : Một phân tử tRNA

Hình 1.9: RNA - Pseudoknot.

Hình 2.1: Cấu trúc bậc hai của một trình tự RNA

Hình 2.2: Phân loại các phương pháp dự đoán cấu trúc RNA

Hình 2.3: Cấu trúc bậc hai được dự đoán bằng thuật toán ProbKnot 41Hình 2.4: Cấu trúc bậc hai được dự đoán bằng thuật toán MaxExpect

Hình 2.5: Quy trình thực hiện dự đoán của thuật toán DotKnoi

Hình 2.6: Biểu đồ dot plot

Hình 2.7: Cấu trúc một stem bị gián đoạn

Hình 2.8 Xây dựng một pseudoknot H-type bằng đệ quy

Hình 2.9: Mức đầu tiên của việc xây dựng pseudoknot hai stem chéo nhau

Hình 2.10: Câu trúc bậc hai được dự đoán băng thuật toán DotKnot

Hình 4.1: Thử nghiệm với chương trình RNA structure

Hình 4.2: Dự đoán cấu trúc bằng thuật toán DotKnot

Hình 4.3: Thử nghiệm thuật toán DotKnot .

Hình 4.4: Thử nghiệm bằng CLC Main WorkBench

Hình 4.5: So sánh các thuật toán dự đoán cấu trúc bậc hai

Hình 4.6: Minh họa dữ liệu đầu vào

Hình 4.7: Click dé xem rõ cấu trúc bậc hai RNA

Hình 4.8: Kết quả thuật toán MaxExpect

Hình 4.9: Kết quả thuật toán ProbKnot

Hình 4.10: Kết quả thuật toán DotKnot

Trang 8

Hình 4.11: Danh sách cấu trúc bậc hai chuẩn

DANH MỤC CÁC BẢNG

Bảng 2.1 Các loại RNA và các chuỗi được sử dụng để dự đoán pseudoknot.

Bang 3.1: So sánh thời gian chạy của bốn thuật toán

Bang 3.2: So sánh độ nhạy (S) của các phương pháp dự đoán câu trúc 75

Bảng 3.3: So sánh PPV của các phương thức dự đoán cấu trúc

Trang 9

LOI MỞ ĐẦUNhững năm gần đây, trong lĩnh vực sinh học phân tử đã chứng minh chỉ cómột phan nhỏ trong bộ gen của sinh vật cấp cao được dich mã thành protein, cònphần lớn các bộ gen đó đã được dịch mã ở dạng các phân tử RNA không mã hóa

(non-coding RNA — ncRNA), nhưng lại mang thông tin di truyén Điển hình là

trong bộ gen người, chỉ có khoảng 30.000 đến 40.000 gen được mã hóa thành

protein - chiếm khoảng 1.5% tổng số bộ gen Người (3x10”base) (Lander và cộng

sự, Nature (2001), Venter và cộng sự, Science (2001)).

Nhiều nghiên cứu đang tiếp tục phát hiện ra thêm nhiều chức năng sinh họcmới cũng như vai trò của ncRNA trong cơ thể sống như: về sự sống, về bệnh tat,đột biến, nhằm xử lý được những căn bệnh lạ xuất hiện ngày càng nhiều trong

một thế giới không ngừng phát triển như hiện nay.

Vai trò sinh học của các ncRNA cũng như của các phân tử RNA nói chung

thường phụ thuộc vào cấu trúc bậc cao dạng 2D và 3D mà chúng tạo ra Do đó,

việc xác định cấu trúc của RNA đã trở thành một hướng nghiên cứu quan trọng

trong sinh học phân tử.

Các phương pháp vật lý xác định cấu trúc RNA hiện nay thì dự đoán chínhxác nhưng lại cực kỳ tốn nhiều thời gian, chi phí và yêu cầu một sự nổ lực rất

lớn mới biết được cấu trúc bậc hai của RNA Chính vì vậy, việc dự đoán cấu trúcbậc hai của RNA bằng phương pháp phân tích và đánh giá cấu trúc bậc một đã

biết là một nhu cầu tất yếu Luận văn này trình bày một số thuật toán Tin Sinh

Học dùng để phân tích và dự đoán cấu trúc của RNA, đặc biệt là cấu trúc bậc

hai của một trình tự RNA.

Trang 10

Kết quả nhận được sau khi thực hiện các thuật toán là một trình tự RNA đãbiết được cấu trúc bậc hai Từ đó, so sánh các kết quả dự đoán được từ các thuật

toán để để xuất một thuật toán dự đoán chính xác hơn và ít tốn chỉ phí hơn nhằm

để có một khuyến cáo trong việc sử dụng.

Trang 11

Chương 1.

TONG QUAN VE VIỆC NGHIÊN CỨU RNA

TRONG GIAI DOAN HIEN NAY

1.1 Những nghiên cứu về RNA trong những năm gần đây.

Với sự phát triển của di truyền học hiện đại, những chức năng mới của cácloại RNA trong bộ máy di truyén của tế bào được phát hiện ngày càng nhiễu vàday đủ hơn Đặc biệt, nhiều giải Nobel đã được trao cho các nhà khoa học đãkhám phá và đưa ra những giải thích cụ thể của họ về chức năng của các phân tửRNA và rất nhiều nghiên cứu khác

Năm 1989 hai nhà khoa học Sidney Altman và Thomas Cech đã đạt giải

Nobel hóa học cho phát minh “phân tử RNA trong các tế bào sống không chỉ là

các phân tử đóng vai trò quan trọng trong truyền đạt thông tin di truyền, mà còn

có chức năng như là một chất xúc tác sinh học” Diéu này thật sự là một bất ngờ

rất lớn cho các nhà khoa học và những người quan tâm đến khoa học sự sống Sự

cần thiết của các chất xúc tác:

o Cơ thể sống không thể sống nếu không có các chất chất xúc tác cần thiết, các

chất xúc tác sinh học đó có tên là enzyme

Vai trò của Enzyme trong cơ thể sống:

" Quyét định đến tất cả các phan ứng xảy ra trong cơ thể sống, các enzyme có

kha năng tăng tốc độ của phan ứng lên rất nhiều lần

" _ Các phan ứng trong cơ thể sống thực sự rất khó xẩy ra nếu như vắng mặt

của các enzyme.

5S.TS TRAN VĂN LANG

So sánh và đánh giá một số thuật toán phân tích dự đoán cấu trúc RNA GVHD:

Trang 12

Trước khi công trình nghiên cứu của Altman va Thomas Cech, các nhà sinh

học tin rằng acid nucleic là các phân tử sinh học giữ vai trò trong di truyén, cònprotein là các phân tử chức năng cấu trúc và chức năng xúc tác Tất cả các

enzyme déu được coi là các protein Các tính chất và chức năng cụ thé của

protein được xác định bằng các nhân tố di truyền hay còn gọi là gen Thông tin ditruyén trên DNA quy định cấu trúc và chức năng của protein, tuy nhiên trước khinhững thông tin đó có thể được sử dụng trực tiếp để tổng hợp nên protein, các mã

di truyền cần phải được sao mã thành một dạng phân tử acid nucleotide khác là

RNA Phát minh này không chỉ có ý nghĩa trong nghiên cứu cơ bản, mà còn cung

cấp một công cụ mới trong kĩ thuật di truyền với tiém năng hứa hẹn trong ngăncần sự lây nhiễm vi-rút

Trong nhiều năm, nhiều nhà khoa học quan niệm rằng mRNA được mã hoábởi một trình tự nucleotide liên tục trên DNA Bởi vậy một kết quả hết sức bất

ngờ khi năm 1977, Phillip Sharp và Richard Roberts cho rằng trình tự mRNA có

thể được xây dựng không liên tục trong hệ gen (gen phân mảnh) và có hiện tượngcắt nối mRNA trước khi tạo thành phân tử mRNA hoàn chỉnh Giải Nobel sinh lý

học và y học năm 1993 đã được trao cho hai nhà khoa hoc Phillip Sharp và

Richard Roberts.

Điều đó cho thấy rằng phân tử RNA dài (pre-RNA, RNA dị biệt trong nhân)được cắt nối thành nhiều RNA ngắn trưởng thành, Sharp và Roberts vì thế đểxuất rằng trình tự mRNA - exon - dường như được cắt ra từ các đoạn RNA sơ cấp

được phiên mã; trong khi trình tự ở giữa - intron - lại bị cắt bỏ Sự sắp xếp không

liên tục của trình tự mRNA trên DNA có liên hệ quan trọng với tiến hóa Thêm

vào đó, quá trình cắt nối RNA có thể khác nhau giữa các mRNA thế hệ sau vàtheo nguyên tắc lựa chọn hình thức cắt nối sẽ nhiều hơn một protein bắt nguồn từphiên mã sơ cấp pre-RNA

Trang 13

Những nhà nghiên cứu sinh học phân tử đã thu được những khám phá ngoạn

mục Sự khám phá ra tế bào có một cơ chế đặc biệt - cơ chế can thiệp RNA(RNAi), đã vượt quá mong đợi và mở rộng hiểu biết của chúng ta về cơ chế kiểm

soát gen trong cơ thể sinh vật.

RNAi là một công nghệ mới và mạnh mẽ, chỉ cần một vài phân tử RNA sợi

kép (dsRNA) trong một tế bào cũng đủ để phân hủy các MRNA của một gen đặc

thù Kết quả thực nghiệm này cho thấy RNAi có thể cho phép bất hoạt gen mộtcách hiệu quả ở bất kì cơ thể sống nhân thật nào

Việc phát hiện ra công nghệ RNAi được đánh giá cao thông qua việc giải thưởng Nobel trong sinh lý học và y học năm 2006 đã được trao cho Giáo sư

Andrew Z Fire (1959) và Giáo sư Craig C Mello (1960) Hai ông đã xuất ban

công trình nghiên cứu đột phá về cơ chế gây kích hoạt gen Khám phá của họ đãlàm sáng tổ được nhiều thí nghiệm đây mâu thuẫn và khó hiểu trong nhiều nămtrước đây Đồng thời nó tiết lộ một cơ chế tự nhiên để kiểm soát dòng thông tin

di truyền trong tế bào, báo hiệu sự khởi đầu cho một lĩnh vực nghiên cứu mới

Với nghiên cứu mới này, khoa học cũng đang tìm ra các ứng dụng của RNAi

trong những nghiên cứu y học chữa bệnh bằng liệu pháp gen, các ứng dụng trên

cây trồng, vật nuôi trong nông nghiệp nhằm tạo ra các sản phẩm với chất lượngtốt hơn; trong điều trị các bệnh nhiễm khuẩn, các bệnh do vi-rút, bệnh tim, ungthư, rối loạn nội tiết và nhiều chứng bệnh khác

Va cùng với rất nhiều công trình nghiên cứu khác trong vài năm gần đây như:

o Vào năm 2010, các nhà khoa học đã có bước đột phá mới trong việc tạo ra

các phân tử RNA có thể kết nối với các tế bào để truyền cảm nhận trongnhững điều kiện nhất định và hồi đáp bằng cách tác động lên các proteinđặc biệt Các phân tử RNA làm việc như một hệ thống bảo mật ở cấp độ tế

bào Theo Christina Smoke, kỹ sư sinh hóa người lãnh đạo nhóm các nhà

Trang 14

nghiên cứu, làm việc tại Stanford University ở California, Hoa Kỳ, kết quả

nghiên cứu được đăng tải trên tạp chí Science, số ra ngày 26/11/2010.Smoke và đồng nghiệp tạo ra các phân tử RNA có thể kết nối với các tế bào

để truyền cảm nhận trong những điều kiện nhất định và hôi đáp bằng cách

tác động lên các protein đặc biệt Công nghệ này có thể được khai thác đểtạo ra các liệu pháp tế bào cơ sở và các phương pháp điều trị ung thư

o Năm 2011, Sander và cộng sự đã công bố kết quả nghiên cứu phát hiện ra

mRNA thông tin (messenger RNA) trên vi khuẩn có khả năng kích thích hệ

thống miễn dịch, mRNA này chi có ở các vi khuẩn còn sống mà không tìmthấy ở các vi sinh vật đã bị làm bất hoạt, mở ra tiểm năng ứng dụng trongsan xuất vaccine an toàn thế hệ mới

o Gần đây là trong nghiên cứu được công bố trên tạp chi Nature các nhà sinhhọc phân tử ở Đại học Texas ở Austin đã làm sáng tỏ một trong những bí ẩn

về cơ chế mà những RNA mạch đôi được sửa chữa ngay bên trong tế bào.Các bằng chứng từ những thực nghiệm này chỉ ra rằng những protein thuộc họ

DEAD-box protein (đây là một trong những enzyme cổ điển được tìm thấy trongtất cả các dạng sống) Chúng sử dụng hóa năng để kiểm soát chặt chẽ cũng nhưviệc mở các chuỗi RNA Từ khả năng này chúng có kha năng hình thành những

cấu trúc mới mẻ Khám phá này còn mở ra cánh cửa diéu trị nhiều căn bệnhhiểm nghèo như ung thư hay các bệnh gây ra bởi vi-rút

Trong một tương lai xa hơn, khi có phối - kết hợp những cỗ máy nano này lại,

các nhà nghiên cứu sẽ có khả năng kiểm soát, bật hay tắt, kiểm soát toàn bộ các

cơ chế khác bên trong và ngoài tế bào

Các nhà khoa học thuộc Viện Max Planck về phát triển Sinh học ởTuebingen, Đức, đã chỉ ra rằng những phần tử nhỏ nhất định trong số các đơn vị

di truyền được gọi là microRNA đóng vai trò quyết định sự lớn lên va các quá

Trang 15

trình lão hóa ở các loài thực vật MicroRNA là những phần có mạch đơn, ngắn cóthể hoạt động như một gen điều hòa các gen khác Chúng thực hiện những điều

này bằng cách gắn với các phân bổ sung của vật liệu di truyén, do đó chúng kiểm soát việc đọc mã và sự hình thành các sản phẩm di truyền Những microRNA.

này, ức chế một số nhân tố điều hòa nhất định, được biết như các nhân tố phiên

mã Các nhân tố phiên mã này ảnh hưởng đến sự sản sinh acid jasmonic, một loạihormone thực vật Sự hiện diện của microRNA càng cao thì số lượng các nhân tốphiên mã hoạt động càng thấp và lượng acid jasmonic thực vật tiết ra càng nhỏ

Các nhà sinh học phân tử ở Đại học Texas ở Austin đã làm sáng tổ một trong

những bí ẩn về cơ chế mà những RNA mạch đôi là những sợi tương đồng trong

trình tự dsRNA làm kích hoạt phản ứng trả lời được sửa chữa ngay bên trong tế

bào Khám phá này còn mở ra cánh cửa điều trị nhiều căn bệnh hiểm nghèo Kếtquả của nghiên cứu này vừa được công bố trên tạp chí Nature

Ngày 31-10-2004, nhà khoa học từ Viện Vật lý của Học viện Khoa học Trung

Quốc lần dau tiên trên thế giới đã ứng dụng kỹ thuật xử lý RNA trên động vat đểđiều trị bệnh ung thư vú và đã được nhiều kết quả đáng chú ý Cuộc thí nghiệmcủa họ trên chuột cho thấy kỹ thuật này có thể có hiệu quả diệt những tế bàobệnh ung thư của động vật Các nhà khoa học Trung Quốc hiện đang hy vọng sẽ

phát triển một loại thuốc lấy từ gene để chữa lành các khối u ác tính Kỹ thuật xử

lý RNA, thường hay ngăn chặn biểu hiện của gene, được các nhà khoa học khámphá từ những năm 1990 Hiện nay, các nhà khoa học từ nhiều quốc gia đang sửdụng kỹ thuật này để phát triển một loại thuốc lấy từ gene và một vài trường hợp

đã được dùng để chữa bệnh ung thư vú [23]

Loài nấm Verticillium longisporum (lây nhiễm chi các cây họ cải) và

Verticillium dahliae (lây nhiễm hơn 200 loài thực vật khác nhau) cư trú bên trong

hệ mạch chủ của các thực vật và có khả năng sống sót khoảng 15 năm trong

Trang 16

đất dưới dang thể nghỉ microsclerotia Do đó, việc tiêu diệt 2 loài nấm này là vô

cùng khó khăn

Vào ngày 10.05.2013, Trần Tuấn, Department of Microbiology, VNU

University of Science (Vietnam) cho rằng: Trong hai nghiên cứu, sự biéu hién của cdc gene Viaro2 và CPC1/CpcA chịu trách nhiệm cho quá trình sinh tổng hợp

các axit amin ở nấm Verticillium bị ức chế đến 80-85% bởi RNAi (RNAsilencing) Việc thiếu hụt các protein mã hóa bởi các gene trên dẫn đến sự suygiảm độc luc của nấm trên cây trồng ở điều kiện phòng thí nghiém[22]

1.2 Học thuyết trung tâm.

DNA ban đâu được phiên mã thành RNA và sau đó được dịch mã thànhProtein Và khái niệm này được coi như là học thuyết trung tâm của sinh học

phân tử xem Hình 1.1.

DNA

lại

protein

Hình 1.1: Học thuyết trung tâm của sinh học phân tử

Thế nhưng trong những nghiên cứu gần đây xem Hình 1.2, người ta đã chứngminh được rằng chỉ có một phan nhỏ của DNA được phiên mã thành protein, còn

Trang 17

RNA, nhưng chúng vẫn mang thông tin di truyền va vẫn thé hiện được tinh trạng

và chức năng của cơ thể sống.

Phiên mã (hay sao mã) là quá trình sao chép thông tin di truyền được

mã hoá dưới dạng trình tự các nucleotide trên gen thành dạng trình tự các

ribonucleotide trên RNA thông tin (mRNA) nhờ đó mà tổng hợp những

protein đặc thù cho gen xem Hình 1.3.

Trang 18

mRNA Transcription )

Legere Dot

Nucleus

Transport to cytoplasm for

protein synthesis (translation)

Cell membrane

Hình 1 3: Quá trình phiên mã

1.2.1.2 Quy trình phiên mã

Việc xử lý RNA thông tin rất khác nhau giữa sinh vật nhân

thật và sinh vật nhân sơ RNA thông tin của sinh vật nhân sơ là khá

hoàn chỉnh việc phiên mã và không cần xử lý gì Pre-RNA thông tincủa sinh vật nhân thật lại cần phai được xử lý rất nhiều

Trang 19

1.2.1.3 Quá trình tao pre-RNA thông tin ở sinh vật nhân thật.

1 Gốc 5' là quá trình ở đó nucleotide guanin (G) thay đổi được cộng vàođầu 5' của pre-RNA thông tin Quá trình sửa chữa này là quan trọng

cho việc phát hiện và đính kèm đúng của RNA thông tin với

ribosome Nó cũng quan trọng với quá trình ghép và vận chuyển

ribosome.

2 Vận chuyển - là quá trình ở đó pre-RNA thông tin được sửa chữa đểkéo giãn các chuỗi không mã hóa gọi là intron; và các chuỗi protein

mã hóa được gọi là exon xem Hình I.4 Pre-RNA thông tin được vận

chuyển bởi nhiều đường khác nhau, cho phép một gen đơn có thể mãhóa cho nhiều protein, quá trình như vậy được gọi là vận chuyển liên

tiếp Quá trình vận chuyển thường được thực hiện bởi một RNA

protein phức, được gọi là spliceosome, nhưng các phân tử RNA cũng

có khả năng làm chất xúc tác cho chính quá trình vận chuyển của

3 Polyadenylation - là liên kết không phân cực (covalent) của một nửa

polyadenylyl với một phân tử RNA Trong các sinh vật nhân thật,

polyadenylation là quá trình mà ở đó phần lớn các phân tử RNAthông tin được kết thúc ở các gốc 3' của chúng Các đầu viện trợ poly(A) trong RNA thông tin ổn định để bảo vệ nó khỏi quá trìnhexonucleases Polyadenylation cũng quan trọng với quá trình kết thúc

phiên mã, đưa RNA thông tin ra ngoài hạt nhân và dịch mã nó.

Trang 20

4 Polyadenylation diễn ra trong và sau quá trình phiên mã DNA vàotrong RNA Sau khi quá trình phiên mã kết thúc, vòng RNA thông tin

được phân ra nhờ sự hoạt động của một endonuclease phức gắn với

RNA polymerase Vị trí phân rã được xác định bởi sự xuất hiện của

các chuỗi AAUAAA gốc gân chỗ phân rã Sau khi RNA thông tinđược tách ra, 80 đến 250 adenosine còn lại được gắn vào các gốc tự

do 3' tại vị trí phân rã.

5 Một chuỗi (khoảng vài trăm) nucleotide loại adenin được cộng vào

các đầu 3' của pre-RNA thông tin nhờ sự hoạt động của một enzyme

có tên là polyadenylate (polyA) polymerase Đuôi PolyA được gắn

với bản sao ở đó chứa những chuỗi đặc biệt, ký hiệu AAUAAA Tam

quan trọng của ký hiệu AAUAAA được chứng minh bởi một sự thay

đổi trong mã hóa chuỗi DNA (AATAAA), dẫn đến sự thiếu hụt củahông cầu Polyadenylation làm tăng quá trình phân đôi trong quátrình sao chép, vì thế các bản sao cuối cùng dài hơn trong tế bào và

dẫn đến việc dịch mã nhiều hơn, tạo ra nhiễu protein hơn

1.2.2 Quá trình dịch mã.

Dịch mã là quá trình các thông tin di truyền chứa trong các trình tựnucleotide của mRNA được sử dụng để tạo ra các chuỗi amino acid trongprotein Sự tổng hợp một protein riêng lẻ đòi hỏi sự tham gia của hơn 100protein và RNA Bộ máy dịch mã bao gồm bốn thành phần quan trọng là

mRNA, tRNA, aminoacyl tRNA synthetase và ribosome Các mRNA là

khuôn mẫu cho quá trình dịch mã Dịch mã là một trong những quá trình

có tính bảo thủ cao và chiếm nhiều năng lượng của tế bào Tuy nhiên, docấu trúc khác nhau giữa mRNA của prokaryote và eukaryote nên quá

trình dịch mã của chúng cũng có những điểm khác biệt quan trọng.

Trang 21

1.3 Cấu trúc bậc hai của RNA.

Hình 1.5: Cấu trúc bậc hai (trái) và bậc ba của RNA

Chuỗi các nucleotide của phân tử RNA cấu thành cấu trúc bậc một (là trình

tự các base A, G, C và U) của chính nó và mô hình ghép đôi giữa các

nucleotide xác định cấu trúc bậc hai của chúng Tương tự như vậy sự sắp xếp

trong không gian ba chiều của các nguyên tử thể hiện cấu trúc bậc ba của nó

xem Hình 1.7.

Trong một tế bào, RNA không giữ lại hình dạng thẳng mà chúng lại xoắn

cuộn trong không gian Cấu trúc bậc hai của một RNA là tập hợp các hìnhxoắn ốc (là danh sách các base đã ghép cặp với nhau)

Cấu trúc bậc hai là hình dạng co bản của trình tự các nucleotide A, C, U, Gtạo thành sau khi được liên kết trong chuỗi, chẳng hạn gấp hoặc uốn lại chuỗi

axit nucleic.

Các nucleotide trong RNA đều tuân thủ theo nguyên tắc bắt cặp với nhau

để tạo thành một cấu trúc bén vững (các nucleotide không được bắt cặp sẽlàm cho cấu trúc không ổn định); nếu có một base nào đó di chuyển thì cấutrúc cũng sẽ thay đổi sao cho ổn định nhất Hầu hết các cặp base trong cấu

So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VĂN LANG

Trang 22

trúc bậc hai của RNA không chồng chéo lên nhau Có nghĩa là nếu có bất kỳhai cặp base (i, j) và (i’, j’) nào thì chúng đều thỏa điều kiện: i < i' <j’ <j hoặcï'<i<j <ÿ Số ít các cặp base còn lại là các cặp base cắt nhau được gọi làcấu trúc pseudoknot (chứa ít nhất hai cấu trúc stem loop).

Có 2 cặp base chính tắc: A-U và G-C và một cặp không chính tắt: G-U.

Tinh bền vững trong khả năng bắt cặp các base: G-C > A-U > G-U.

+» Những thành phần của cấu trúc bậc hai của RNA

Các cấu trúc lặp: Đứng riêng lẻ - Cấu

loop

Trang 23

Hình 1 7a): Sơ đồ các thành phan trong cấu trúc RNA.

c

A U

G ie

] \ 5! 13"

stacking pair hairpin loop multi loop

So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VAN LANG

Trang 24

interior loop bulge exterior loop

Hình 1.7 b): Chỉ tiết các thành phần trong cấu trúc RNA

1.3.1 Base pair hoặc Stack

La các cặp base được lông liên tiếp vào nhau — đây là liên kết mạnh nhất

xem Hình 1.7.

Là thành phần chính yếu của bốn base mà có thể xây dựng mỗi liên kếtlên tới ba hyđrô với base khác [3] Cặp base chuẩn tạo nên cặp base WatsonCreek chính tắt, hoặc là cặp base WC - base rút gọn, giống như cặp base

uracile - adenine (U-A) (trương tự adenine — thymine (A-T) trong DNA) va

cặp base guanine — cystidine (G-C) Cặp WC là isoster, điểu này có nghĩa làbạn có thể xây dựng hình xoắn với chiều dài chuỗi khác nhau Cặp Watson-Crick là đơn vị cơ bản nhất được bắt gặp trong cấu trúc RNA Như vậy, nó là

cực kỳ quan trọng để đạt được quá trình sự hy-drát hoá một cách chính xác.Hơn nữa, tập hợp dữ liệu cho cặp WC là cơ sở để so sánh vững chắc trongđánh giá về sự điều chỉnh của hy-drát hoá liên quan đến đầu bám của WCkhông bắt cặp và diéu chỉnh nucleotide trong cấu trúc RNA

Trong RNA cặp base khác được để nghị Wobble cặp base guanine và

Trang 25

cystidine Cặp Wobble là isoster, diéu này có nghĩa là có thể xây dựng hình

xoắn với chiéu dài nhau khác Vì thế, cặp base khác được gọi cặp base khôngchính tắt mà nó không là isoster và cũng không là isoster của chính nó

Việc thêm một cặp base vào hình xoắn là gớp phần tăng động lực cho quátrình xây dựng cấu trúc bậc hai RNA nhanh nhất Cặp base non-WC đóng vaitrò chính làm cấu trúc và chức năng trong kiến trúc RNA và được liên quanđến mẫu hy-drát hoá cụ thể

1.3.2 Hairpin Loop

Hairpin có một vòng xoắn trong vòng lặp, là một vòng lặp của mRNA

được tạo ra khi sợi mRNA gấp lại và bắt cặp với các base khác của cùng một

sợi Cấu trúc trông giống như một vòng lặp hoặc một hình dạng U [3]

Một định nghĩa khác: Hairpin loop (hay còn gọi là stem loop) là một trình

tự base cho phép các base tương ứng ở đuôi của RNA bắt cặp và liên kết vớinhau - có ít nhất bốn base trong mỗi vòng lặp xem Hình 1.7 Những vòng lặp

có 5 base không được bắt cặp thì ổn định hơn và những vòng lặp có 3 hoặc ít

hơn thì ít tạo thành vòng xoắn

Hairpin loop là một loại phổ biến của cấu trúc bậc hai trong các phân tử RNA Loại hairpin mRNA có thể được hình thành khi hai trình tự bổ sung

trong một phân tử mRNA duy nhất gặp và kết hợp với nhau, tạo nên nếp gấpcho phân tử RNA Hairpin loop cũng có thể hình thành trong các phân tử DNAnhưng trong mRNA thì phổ biến hơn

Một trường hợp đặc biệt được gọi là tetra loop-hairpins Có bốn cặp basedai, nhưng base đầu tiên và base cuối cùng tạo một cặp base mà những stacktại cặp base cuối cùng của chuỗi xoắn Vòng lặp tetra dễ làm mất tính ổn

định.

Trang 26

Có biểu hiện của hairpin loop giữa các sợi nucleic acid Một ví dụ về một

hairpin loop là trình tự ngừng sao chép trong một số prokaryote Một khipolymerase gặp vòng lặp này, nó rời ra và kết thúc phiên mã Một ví dụ khác

là RNA vận chuyển, trung tâm trong tổng hợp protein, là một phan được hình thành bởi các hairpin loop Phân tử RNA vận chuyển thực sự có ba hairpin

loop hình thành hình dang cổ ba lá xem Hình 1.8 (A) Một trong những hairpin

loop có chứa một chuỗi gọi là anticodon, nhận dạng và giải mã các phân tử

mRNA ba nucleotide (tương đương với một codon) tại một thời điểm trong

(B, C) Góc nhìn thực khi sử dung phân tích nhiễu xa tia x

(D) Chuỗi nucleotide dang thẳng của phân tử tRNA

Trang 27

1.3.3 Bulge Loop

Là một trình tự base cho phép các base tương ứng ở đuôi của RNA không

được bắt cặp và liên kết với nhau xem Hình I.7

Bulge loop là trường hợp trong cùng một sợi mà có những base không bắt

cặp, trong khi đó những base khác được bắt cặp [3]

Bulge loop có ít nhất là một base nhưng phần lớn không có giới hạn vềchiều dài của nó

Sự vững chắc của bulge loop phụ thuộc vào những nucleotide không bắt

cặp và những cặp base láng giéng Bulge loop có thể biến thành vòng lặpstem và điều này ảnh hưởng đến cấu trúc bậc ba

1.3.4 Internal loop

Internal loop là vòng lặp xảy ra khi các base trên cả hai mạch của cấu trúc

không bắt cặp với nhau xem Hình 1.7

Có một sự khác biệt giữa internal loop so với bulge loop là chúng có

những base không bắt cặp trong cả hai nhánh của cùng một sợi [3]

Chúng được gọi là cân đối nếu chúng có trong cả hai sợi cùng số lượngbase Internal loop cân đối được gọi là ghép có trật tự (match) và ngược lại

internal loop không đối xứng được gọi không có trật tự (mismatch)

chuỗi xoắn sẽ là stack và chúng ảnh hưởng sự tương thích RNA bậc ba [3]

Trang 28

1.3.6 External

Là một base đứng riêng lẻ [3], không tạo liên kết trong cấu trúc xem Hình

17a).

1.3.7 Pseudoknot

Một cấu trúc liên kết quan trọng trong cấu trúc bậc hai RNA là

pseudoknot Đây là một dạng cấu trúc bậc hai mà chứa đựng những base

không lồng vào nhau xem Hình 1.9

Một pseudoknot được định nghĩa bởi ít nhất hai cặp base, (i, j) và (i’, j’) để

mà nucleotide i xuất hiện trước i’, i’ trước j và j trước j’ trong cùng một chuỗi

[3] Những cặp base trong những pseudoknot đại diện cho một phần nhỏ củanhững cặp base trong những cấu trúc bậc hai RNA được biết, pseudoknot có

một số chức năng đặc biệt trong trình tự RNA (Van Batenburg, 2001; Condon

Trang 29

những quá trình như là tách intron, ribosomal frameshifting, hoạt động của

enzym cấu tạo lại đoạn cuối nhiễm sắc thể và chức năng ribosome.

Trong nhiều trường hợp, chúng hỗ trợ nhau toàn diện gấp 3D và không

nên được loại trừ từ việc tính toán dự đoán cấu trúc

1.3.8 Pseudoknot - free

Ngoài cấu trúc pseudoknot thì các cấu trúc còn lại được xem là

pseudoknot-free hay pseudoknot tự do Xem chỉ tiết vé pseudoknot free tại

Trang 30

Chương 2.

THUẬT TOÁN DỰ ĐOÁN CẤU TRÚC

BẬC HAI CỦA RNA

2.1 Đặt bài toán.

2.1.1 Bài toán.

Cấu trúc bậc hai của RNA rất quan trọng trong nhiều quy trình sinh học,nên việc dự đoán cấu trúc một cách hiệu quả có thể đưa ra những hướngnghiên cứu trong phòng thí nghiệm một cách thành công nhất Một thách thức

quan trọng trong lĩnh vực sinh học phân tử là việc dự đoán cấu trúc bậc hai

của RNA bao gồm pseudoknot RNA với cấu trúc pseudoknot là những phần

tử cấu trúc chức năng giữ vai trò chính trong xử lý vi-rút và xử lý tế bào [4]

Việc dự đoán của một cấu trúc bậc hai bằng tối thiểu hóa năng lượng tự do

với pseudoknot là một vấn để với lý thuyết tính toán rất phức tạp Việc thực thi

các giải thuật dự đoán cấu trúc bậc hai của RNA còn bị hạn chế bởi

pseudoknot diéu này đồng nghĩa với việc chấp nhận sự chính xác thấp và càng

ít 6i hơn đối với các trình tự RNA dài

PseudoKnot được xem là trung tâm của các thuật toán dự đoán cấu trúc

bậc hai Vậy làm sao tim được một cấu trúc bậc hai của một trình tự RNA mà

có sự tổn tại của pseudoknot

Trang 31

Hình 2.1 bên dưới:

Hình 2 1: Cấu trúc bậc hai của một trình tự RNA

" Để có được cấu trúc bậc hai của trình tự trên thì ta phải sử dụng thuật

toán nào hay chương trình nào để biết được cấu trúc bậc hai của trình tự

này.

= Nếu tìm được thuật toán dự đoán được cấu trúc bậc hai thì liệu kết quả

của việc dự đoán cấu trúc này có chính xác hay không

= Làm sao để biết được thuật toán này dự đoán chính xác hay không vàmức độ khả thi về mặt thời gian cũng như không gian lưu trữ có théchấp nhận được hay không

Đây là một vài câu hỏi được đặt ra cho việc xác định cấu trúc bậc hai của

một trình tự RNA Và tiếp theo sau đây là hướng giải quyết vấn đề đã đặt ra

2.1.2 Hướng giải quyết

Hiện tại tổn tại rất nhiều thuật toán cũng như chương trình để giải quyết

bài toán này xem Hình 2.2.

e Các phương pháp vật lý xác định cấu trúc RNA hiện nay như:

o Cộng hưởng từ hạt nhân (Nuclear Magnetic Resonance - NMR);

Trang 32

o Và một số phương pháp khác thì dy đoán một cách chính xác.

> Ưu điểm: Biết được cấu trúc bậc hai của RNA một cách chính xác.

> Khuyết điểm: Các phương pháp này cực kỳ tốn nhiều thời gian, chỉ phí

và yêu cầu một sự nỗ lực rất lớn mới có thể đạt được kết quả mong

RNA Secondary

Structure

Computational Method

Probabilisti and

Crystallography Enzvmatic

Dynamic Programming

Algorithm

Mutational Analysis

e Cac phương pháp dự đoán cấu trúc trước đây:

o Một số công cụ như paRNAss, RNAshapes và RNAbor có thể được dùng để dự đoán những chuyển đổi hình thức; thế nhưng, không có tổn

tại công cụ mà có thể nhận diện tổng quát (thí dụ như sự không tương

đồng) toàn bộ riboswitche (cả aptamer lẫn expression platform) với sựchính xác.

> Một điểm quan trọng nữa là đa số các công cụ này không có khả năng

dự đoán được cấu trúc bậc hai mà có sự tôn tại của pseudoknot

e _ Bên cạnh một số phương pháp dự đoán cấu trúc bậc hai như trước đây, thì

còn có những cách tiếp cận mở ra một tiém năng mới trong việc dự đoáncấu trúc bậc hai Những cách tiếp cận này có thể được tổng kết trong sáu

phạm trù.

Trang 33

Một là: Sử dụng giải thuật quy hoạch động để dự đoán những cấu trúcvới một cấu trúc liên kết hạn chế [12] (Rivas và Eddy, 1999; Uemura,

1999; Akutsu, 2000; Dirks và Pierce, 2003; Reeder và Giegerich, 2004).

Việc phân loại cấu trúc liên kết và sự giải thích cấu trúc liên kết được xử

lý bởi những giải thuật quy hoạch động sẵn có (Condon, 2004).

Hai là: Cấu trúc bậc hai mà có sự tổn tại của pseudoknot được xâydựng bằng việc sử dụng lặp đi lặp lại những giải thuật khác nhau không có

kha năng dự đoán pseudoknot [12] (Ruan, 2004; Ren, 2005; Jabbari, 2008).

Một vài giải thuật này có khả năng sử dụng sự sắp xếp nhiều chuỗi tươngđồng để cải thiện độ chính xác của nó bằng việc tìm thấy một cấu trúc hợpnhất (Ruan, 2004)

Ba là: Việc xây dựng nếp gấp và những cấu trúc mẫu với việc thêm

bậc của vòng xoắn [12] (Abrahams, 1990; Gultyaev, 1995; Isambert và

Siggia, 2000; Dawson, 2007; Meyer và Miklos, 2007).

Bốn là: Sử dụng giải thuật với trọng số cực đại phù hợp để xây dựngnhững cấu trúc bao gồm những cặp mà có trọng số cực đại (Tabaska, 1998;

Witwer, 2004).

Năm là: Những giải thuật sử dụng sự sắp xếp của nhiều chuỗi tương

đồng và những hàm tính điểm để mà tổng kết năng lượng tự do liên quanđến những cặp và sự biến thiên đồng thời của những cặp [12]

Sáu là: Sử dụng lập trình số nguyên phải được áp dụng để tìm thấynhững cấu trúc năng lượng giải phóng thấp nhất (Poolsap, 2009) [12]

Nhiéu thuật giải được dé cập ở trên sử dụng những luật để dự đoán

năng lượng tự do thay đổi, cũng như tính bền vững của những pseudoknot

Điều đáng quan tâm ở đây là việc sử dụng nhiều cách cách tiếp cận để

giải quyết bài toán Hay tập những quy tắc thực nghiệm được thiết kế cho

Trang 34

việc sử dụng với những giải thuật quy hoạch động (Rivas và Eddy, 1999; Dirks và Pierce, 2003).

Trong những năm gần đây có rất nhiều thuật toán được sử dụng để giảiquyết bài toán này như: ProbKnot, MaxExpect, DotNot, Pfold, paRNAss,RNAshapes và RNAbor, đứng trên quan điểm vé tính kha thi và tínhđúng đắn của từng thuật giải thì thuật giải nào cũng cho là mình chính xác

hơn các thuật giải còn lại.

Phần còn lại của quyển luận văn này sẽ trình bày một vài thuật gidi dự

đoán cấu trúc bậc hai của một trình tự RNA nhằm so sánh và đánh giá từngthuật giải mới trong những năm gần đây để tìm ra lời giải cho bài toán này

Đồng thời đề xuất việc sử dụng thuật toán nào để giải quyết cho bài toán đặt

ra.

e Ngoài phương pháp vật lý và phương pháp dự đoán còn có một phương

pháp khác để biết được cấu trúc của một trình từ RNA nữa là: so sánh sự

tương đồng giữa một trình tự cân biết cấu trúc bậc hai với một trình tự đãbiết được cấu trúc trên các ngân hàng dữ liệu sinh học như: GenBank,

RNA được ký hiệu là p(i, j)[14] Khả năng bắt cặp của cặp base p(-j)

được tính theo công thức:

up OXPC E(S)/ RT)

PUD= exp E(S)/RT)

Trang 35

Trong đó,

o E(S): là năng lượng tự do của cấu trúc S

o R:là hằng số gas

oT: Nhiệt độ (nhiệt độ bình thường là 37°C)

= Kha năng của một nucleotide i không bắt cặp được tính theo công thức

[14]:

q@=1 PGA) PU)

Trong do,

opti, j): khả năng bắt cặp của nucleotide i với nucleotide j

o p(, i): khả năng bắt cặp của nucleotide j với nucleotide i

2.2.2 Thuật toán ProbKnot

2.2.2.1 Sơ lược về thuật toán ProbKnot.

Trong một thế giới đa dạng các chuỗi RNA chức năng, chẳng hạn nhưbiểu hiện điểu chỉnh kiểu gen (Tucker và Breaker, 2005; Storz và

Gottesman, 2006; Wu và Belasco, 2008) xúc tác phan ứng (Nissen, 2000;

Doudna va Cech, 2002), chuyển đổi protein (Walter va Blobel, 1982) Cácchuỗi RNA mà không được chuyển hóa thành protein thì được xem như lànoncoding RNA, hoặc là ncRNA (Eddy, 2001) Nhiều chuỗi ncRNA dạng

này được định nghĩa rất kỹ vé mặt cấu trúc và người ta đã hiểu được rằngcác chuỗi ncRNA này thực hiện những chức năng quan trọng nào khi biết

biết được cấu trúc của chúng

Việc xác định cấu trúc bậc hai của RNA là một thử thách lớn Việc dự

đoán cấu trúc bậc hai bao gồm việc dự đoán những cặp base mà xuất hiệntrong một chuỗi những nucleotide

Trang 36

Nhiều phương pháp dự đoán cấu trúc bậc hai sẵn có Hầu hết nhữngphương pháp chính xác nhất là sự phân tích và so sánh chuỗi (Pace, 1999)

để mà xác định những cặp base được tổn tại trong số những chuỗi tương

đồng Phương pháp chính xác cao nhưng yêu cầu phải có một số lượng lớnchuỗi tương đồng Phương pháp này có ý nghĩa quan trọng cho nhân loại

nhưng giới hạn sử dụng.

Khi một chuỗi đơn sẵn có, cách tiếp cận phổ biến nhất cho việc dựđoán cấu trúc là dự đoán cấu trúc năng lượng tự do thấp nhất với giải thuật

quy hoạch động (Zuker, 2003; Mathews, 2004; Mathews và Turner, 2006;

Gruber, 2008) Hay một cách tiếp cận gần đây nhất để dự đoán RNA cấutrúc bậc hai được gọi là dự đoán cấu trúc dựa trên việc tối ưu hóa độ chính

xác cực đại (Knudsen và Hein, 2003; Do, 2006; Hamada, 2009; Lu, 2009).

Nói nôm na rằng, tối ưu hóa độ chính xác cực đại của những cấu trúc là

những cấu trúc được bao gồm những cặp mà khả năng bắt cặp của chúng

là tối đa nhất Khả năng bắt cặp có thể được dẫn xuất từ phương pháp máy

học hay bởi phương pháp nhiệt động học sử dụng những hàm phân hoạch.

Tối ưu hóa độ chính xác cực đại cấu trúc đã cải thiện độ chính xác so

với tối thiểu hóa năng lượng tự do bởi vì có một nhận định rằng kha năngbắt cặp của base thì cao và khá giống với việc dự đoán chính xác các cặp

(Mathews 2004).

Việc dự đoán những cấu trúc bậc hai bao gồm pseudoknot là mộtnhiệm vụ khó (Lyngso và Pederson, 2000) Chẳng hạn, những giải thuậtquy hoạch động phổ biến nhất để tìm thấy những cấu trúc năng lượng tự dotối thiểu thì không cho phép có mặt của pseudoknot Diéu này cho phép

những giải thuật quy hoạch động đó chạy nhanh và đánh giá tốt O(n’) về

thời gian trong đó n là chiéu dài của chuỗi Việc bao gồm pseudoknot trong

Trang 37

dự đoán cấu trúc yêu câu tỉ lệ thứ tự cao, sử dụng phương pháp heuristicmột thỏa thuận trên mô hình năng lượng Mặc dù điều này, một số cách

tiếp cận có tính chất đổi mới và thực hành đã được phát triển để dự đoán

những cấu trúc với pseudoknot

2.2.2.2 Mô tả thuật toán ProbKnot

ProbKnot là một giải thuật mà dự đoán cấu trúc bậc hai RNA bằng việc

tìm kiếm những cấu trúc với kha năng bắt cặp base có thể nhất [12]

ProbKnot tập hợp những cấu trúc được chứa đựng các cặp base i-j, mà

trong đó kha năng bắt cặp của i-j cao hơn bất kỳ cặp i-k hay cặp j-k nào

khác, với k là mọi nucleotide khác còn lại trong chuỗi

Tính toán và lưu trữ khả năng bắt cặp của các cặp trong một ma trận

vuông có kích thước n, với n là số lượng nucleotide có trong trình tự RNAban đầu Kha năng bắt cặp cao nhất của mỗi nucleotide được lưu trữ trong

Pmnax(i)

Sau đó mỗi cặp base được xem xét dé đưa vào trong cấu trúc

= _ Nếu khả năng bắt cặp của i-j bằng cả P„„() và P„„0) Điều này

có nghĩa là khả năng bắt cặp của cặp (i-j) cũng bằng với kha

năng bắt cặp của cặp (j-i)

= Thì cặp đôi này được bao gồm trong cấu trúc

Đồng thời giải thuật cũng có khả năng hỗ trợ sự lặp đi lặp lại nhiều lầnmột trạng thái tương tự để tìm thấy cặp (i-j) có thể nhất trong nhữngnucleotide còn lại mà chưa được bắt cặp sau khi thực hiện các bước lặp

trước đây.

Kế sau đó là một bước hậu xử lý, sau khi cấu trúc đã đang tổn tại, giảithuật loại bỏ các stack bao gồm hai hay ít hơn các base được bắt cặp Với

những sự tính toán này, một nucleotide bulge đơn được xem là stack và bởi

Trang 38

vậy loại bỏ hình trôn ốc trong stack Chẳng hạn như, hai cặp được phân chia

bởi nucleotide bulge đơn được xem là stack.

2.2.2.3 Giải thuật ProbKnot:

Đây là kiểu cấu trúc mà chứa tất cả các thông tin của một cấu trúc RNA

class structure {

int numofstructures // số lượng cấu trúc int numofbases // số lượng nucleotide của chuỗi

short int pair[maxforce]([2], npair, nforbid, forbid(maxforce] [2]

//arrays to hold lists of forced pairs or pairs forbidden

// mãng để chứa danh sách các base được bắt cặp hoặc không được bắt cặp

short int *numseq, *hnumber int **basepr

int *energy //[maxstructures+l]

char **ctlabel //[maxstructures+1] [ctheaderlength]

short int ndbl, đbl[maxforce]

int inter[3], allocatedstructures

short int nnopair, *nopair, nmod, mod[maxforce]

int nopairmax // số lượng lớn nhất của nucleotide không cho phép bắt cặp

short int ngu, gu[maxgu]

char *nucs bool intermolecular, allocated, templated, stacking

bool **tem

}

ProbKnot(structure *ct, int iterations, int MinHelixLength)

double **probs, *rowprob

1 int i, j, iter

2 int n // số lượng base trong chuỗi RNA ban dau

3 probs = new double *[n+ 1]

4 //khời tạo rowprob[i], khả năng bắt cặp cao nhất của i

b- rowprob = new double [n+1]

6 for (i=1; i <= n; itt)

7 Probs[i] = new double [i+1]

8 //khởi tạo rowprob = 0

9 rowprob[i] = 0.0

10 //khời tạo tất cả các basepr = 0

11 ct->basepr[1][i] = 0

12 //Đầu tiên xác định xác suất cặp:

13 for (i=l; i < ny i++)

14 for (j=itminlooptl; j <= n; j++)

15 probs[j] [i] = calculateprobability (1,3);

16 // cũng tích lũy probs tốt nhất cho mỗi nucleotide:

17 if (probs[j] [i] >rowprob[i])

18 rowprob[i] = probs[j] [il]

Trang 39

25 // lây một cặp nêu nó có vẫn cao nhất cho bat kỳ cặp.

26 liên quan đến i hoặc j

21 if (rowprob[i] == probs[j](i] && rowprob[j] ==

probs[j] [i]

28 &&probs [3] [‡]>0 0)

29 ct->basepr [1] [1] =3

30 ct->basepr [1] [j]=i

31 //Nếu số lần lặp lại được yêu cẩu, tiếp tục làm những:

32 for (iter = 2; iter <= iterations; iter ++)

38 if, (ct->basepr[l][i]==0 && ct->basepr[1][j] == 0)

39 // tích lũy probs tốt nhất cho mỗi

40.nucleotide chưa bắt cặp:

41 if (probs[j][i] > rowprob[il)

42 xowprob[i] = probs[3] [i]

43 if (probs[j] [i] > rowprob[j])

44 xowprob[j] = probs[3] [i]

52 if (rowprob[i] probs{j][i] && rowprob[j] ==

53 probs[j] [i] &&probs[j] [i] > 0.0)

ct->basepr [StructureNumber ] [i+2]

So sánh và đánh giá một số thuật toán phân tích cấu trúc RNA GVHD: PGS.TS TRAN VAN LANG

Trang 40

ct->basepr [StructureNumber] [1+1]

if (ct->basepr[StructureNumber] [i+1]

itt

pairst+

while (ct->basepr[StructureNumber] [i - 1] j +

if (ct->basepr(StructureNumber] [i-2] == j + 1) ct~>basepr [StructureNumber] [ct-

>basepr [StructureNumber] [i - 2]]

ct->basepr [StructureNumber] [i - 2] = 0

// cerr << rna->GetErrorMessage (error) ;

ie jet else

Tiêu đề	So sanh va danh gia mot so thuat toan phan tich du doan cau truc RNA
Tác giả	Nguyen Cong Hung
Người hướng dẫn	PGS.TS Tran Van Lang
Trường học	Truong Dai Hoc Cong Nghe Thong Tin
Chuyên ngành	Khoa Hoc May Tinh
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	93
Dung lượng	43,87 MB