Dự đoán cấu trúc bậc hai RNA

Một phần của tài liệu Nghiên cứu các chủng virus H5N1 ở Việt Nam về đặc tính bảo tồn chuỗi và cấu trúc bậc hai RNA bằng công cụ TinSinh học (Trang 28)

CHƯƠN G2 CƠ SỞ DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.3.2.Dự đoán cấu trúc bậc hai RNA

Sử dụng Sfold ở website http://sfold.wadsworth.org/

Các dự đoán của các cấu trúc bậc 2 cho một trình tự RNA đơn là một vấn đề kinh điển trong sinh học tính toán. Năng lượng tự do nhỏ nhất là một trong những phương pháp phổ biến nhất để giải quyết vấn đề này. Các thuật toán được thành lập để tính toán tối ưu sự gấp nếp và cài đặt sự tối ưu của gấp nếp đó. Một thuật toán gần đây tính tất cả các foldings tối ưu trong bất kỳ tăng định mức năng lượng tự do nhỏ nhất. Tuy nhiên, phương pháp tính toán một thống kê có giá trị trong cài đặt gấp nếp. Tiến tới một đặc tính tốt hơn của toàn bộ cấu trúc bậc 2 của RNA có thể xảy, McCaskill phát triển một thuật toán để tính toán cân bằng phân vùng chức năng, xác suất cặp đôi base. Mặc dù các thuật toán này được tính toán hiệu quả, tuy nhiên mỗi phương pháp có những hạn chế vốn có của nó. Có lẽ nhiều hạn chế quan trọng nhất xuất phát từ thực tế là những phương pháp này được phát triển chủ yếu cho các cấu trúc RNAs mà có thể có những cấu trúc độc đáo. RNA thông tin (mRNA), mặt khác, có thể tồn tại như một dân cư của các cấu trúc. Chúng tôi vừa phát triển một thuật toán để lấy mẫu một cách nghiêm ngặt và chính xác từ Boltzmann toàn bộ cấu trúc bậc 2, dựa trên các thông số nhiệt động lực học Turner. Thuật toán mẫu thống kê đảm bảo của một mẫu đại diện của các cấu trúc. Ngoài ra, Thuật toán này cho phép phát triển các công cụ độc đáo đối với một số ứng dụng quan trọng bao gồm các hợp lý thiết kế RNA mục tiêu axit nucleic.[17]

phương pháp xác suất cho các dự báo mục tiêu tiếp cận. Một cách tiếp cận ngẫu nhiên để tiếp cận đánh giá có thể là cần thiết để thêm vào khả năng tồn tại của một dân cư của các cấu trúc cho mRN. Xác suất tiếp cận mục tiêu mà thường tiếp cận trong một tỷ lệ cao của đại diện thống kê cấu trúc cho các RNA muc tiêu. Thông qua nhiêm vụ của thống kê tin tưởng vào dự đoán, cách tiếp cận này đi qua những khó khăn trước đây trong việc đánh giá khả năng tiếp cận bởi đại diện giới hạn của cấu trúc có thể xảy ra [17].

Dựa trên những thuật toán mới, phiên bản đầu tiên của Sfold, một gấp axit nucleic và gói phần mềm thiết kế, được hoàn thành trong mùa xuân năm 2002. Các gói phần mềm hiện bao gồm bốn module ứng dụng. Modules siRNA Soligo và Sribo cung cấp các công cụ tính toán để dự đoán khả năng tiếp cận mục tiêu và cho việc thiết kế hợp lý siRNAs, oligos antisense và trans-cleaving ribozymes, tương ứng. Tổng thống kê tính năng gấp và sản phẩm có sẵn từ các module thứ tư, Srna. Kể từ tháng 4 năm 2003, phần mềm có thể dùng cho cộng đồng khoa học thông qua các trang web tại

http://sfold.wadsworth.org và http://www.bioinfo.rpi.edu/applications/ sfold. Một hướng dẫn và các câu hỏi thường gặp (FAQs) về phần mềm được cung cấp trên trang web. Trong bài viết này, chúng tôi làm nổi bật các tính năng chính của phần mềm và các dịch vụ web. Người dùng được khuyến khích để tham khảo hướng dẫn nên online để biết thêm thông tin về phần mềm, và kiểm tra đầu ra của mẫu tại [18] .http://sfold.wadsworth.org/demo.

INPUT

Một người dùng có thể gửi công việc làm cho máy chủ trang web bằng cách đầu tiên cách nhấp vào ứng dụng mô hình mình quan tâm trên trang nhất của máy chủ và sau đó điền vào mẫu trình của công việc. Một công việc có thể chạy trong cả hai chế độ tương tác hoặc chế độ hàng loạt. Giới hạn hiện tại hơn 200 base cho một công việc tương tác và 5000 base cho một công việc hàng loạt. Đối với một việc

thành. Đối với chuỗi> 5000 bases căn cứ vào chiều dài được mô tả trong hướng dẫn trực tuyến. Thứ tự ở định dạng thô trong định dạng FASTA hoặc trong GenBank định dạng được chấp nhận, trình tự A có thể được nhập bằng cách sao chép và dán vào trình tự đầu vào cửa sổ. Cách khác, một tập tin trình tự trong thư mục file của người dùng (thư mục) có thể được lựa chọn, rồi tải lên. Bất kỳ khác hơn là A, C, G, T hoặc U sẽ được chỉnh sửa ra. Một tùy chọn được cung cấp cho các trường hợp mà chuỗi RNA được gấp lại là ngược lại bổ sung của chuỗi đầu vào. Đối với Soligo, người dùng có thể tùy chọn để thiết lập độ dài của oligos. Chiều dài mặc định là 20 nt. Đối với Sribo, người sử dụng có thể chỉ định một NUH cụ thể tách bộ ba của đầu búa của ribozymes . Bộ ba mặc định là GUC [17].

OUTPUT

Các trang đầu ra cho mỗi module bao gồm cả đồ họa đại diện và các tập tin văn bản có liên quan. Nhiều hình ảnh được trình bày thông qua các tương tác đồ họa ứng dụng của người dùng thông qua trình duyệt web. Người dùng có thể tải về một màu hoặc đen và trắng ở vùng định dạng PDF hoặc PostScript. Đối với máy in một màu, phiên bản màu đen và trắng được khuyến khích. Tất cả của đồ thị, ngoại lệ của sơ đồ cấu trúc RNA, là lần đầu tiên được tạo ra bởi phần mềm miền Gnuplot, sau đó xử lý bằng các bản chính Perl để cung cấp tính năng bổ sung và để cải thiện sự hình dung. Liên kết với sản phẩm từ mô-đun khác với các thiết lập mặc định đầu vào được cung cấp. Kết quả có thể được truy cập trên máy chủ lên đến 72 h sau khi hoàn thành công việc. Ngoại trừ siRNA có cấu trúc nội bộ ổn định, tất cả sản phẩm trong Zip hoặc nén tar (tar.gz) định dạng có sẵn để tải về. Sau khi các file nén đã được giải nén bởi người sử dụng, một thư mục công việc có ID như tên của nó được tạo ra dưới thư mục hiện tại của người dùng. Dưới công việc ID [17].

Srna module

Module này cung cấp công cụ và thống kê lấy mẫu để thống kê đặc trưng cho toàn bộ cấu trúc bậc hai của RNA Boltzmann. Một biểu đồ hai chiều (2Dhist) hiển thị xác suất cặp base tính toán từ một mẫu thống kê với kích thước mặc định của 1000 kết cấu. Trong 2Dhist, xác suất base bắt cặp được hiển thị bằng hình vuông rắn trong tam giác trên bên trái, với các vị trí nucleotide trên cả hai trục. Các khu vực của các ô vuông rắn được tỷ lệ thuận với tần số của các cặp base trong các cấu trúc lấy mẫu. 2Dhist có một tùy chọn cho việc hiển thị xác suất cặp base. Khi tùy chọn này được lựa chọn, xác suất, và các vị trí nucleotide của các cặp cơ sở để

Hình 15. Biểu đồ hai chiều (2Dhist) cho một mẫu của 1000 cấu trúc tạo ra bởi Leptomonas collosoma của 56 nt RNA dài (23). Như một ví dụ về các tùy chọn với cơ sở xác suất cặp dự toán lấy mẫu xác suất cho các cặp base giữa nt 25 và 29 được thể hiện là 0,681 khi con chuột được chỉ tại hình vuông rắn vị trí ở số (25,29) .

Một đại diện đặc biệt của mẫu cấu trúc được đưa ra trong một định dạng bảng. Đầu tiên, năng lượng tự do tối thiểu của các cấu trúc trong mẫu (SMFE) và năng lượng tự do lớn nhất (LFE) trong mẫu được tính toán. Phạm vi năng lượng tự do bao gồm tất cả các cấu trúc trong mẫu (tức là [SMFE, LFE]) được chia thành 10 khoảng cách đều nhau. Đối với mỗi khoảng năng lượng tự do, cơ cấu với năng lượng tự do thấp nhất được chọn làm đại diện. Đối với năng lượng đại diện, bảng trình bày liên quan đến khoảng năng lượng miễn phí của nó, các tần số của cấu trúc

lượng tự do của các cấu trúc và sơ đồ cấu trúc bậc hai. (Hình 15) Chúng tôi lưu ý rằng đây là một đại diện khá thô của mẫu cấu trúc và toàn bộ các Boltzmann, chủ yếu là bởi vì cấu trúc trong một khoảng năng lượng tự do phổ biến có thể có đặc tính cấu trúc cơ bản khác nhau. Cơ cấu sơ đồ được tạo ra bằng cách sử dụng một phiên bản sửa đổi của chương trình naview. Trong phiên bản sửa đổi của chúng tôi, một số lỗi đã được cố định để làm giảm cơ hội của chồng chéo giữa các thành phần biểu đồ. Một kịch bản Perl đã được viết để chuyển đổi các thiết bị độc lập plt2. Đầu ra từ naview vào một sơ đồ cấu trúc ở dạng PostScript. Sơ đồ cơ cấu cũng có sẵn trong định dạng PNG và PDF. Các định dạng PNG có khả năng để mở rộng và hiển thị địa phương. Các tập tin GCG kết nối cũng được cung cấp. Một tập tin văn bản của cặp tần số cơ sở để tạo ra một tập tin 2Dhist và năng lượng tự do của công trình lấy mẫu để vẽ bản phân phối năng lượng miễn phí có sẵn. Những tập tin này được mô tả chi tiết hơn trong hướng dẫn trực tuyến [17].

National Center for Biotechnology Information) [1,18], thu được chuỗi trình tự Ribonucleic Acid (RNA) của bộ gen từ 4767 chủng H5N1 trên toàn thế giới.

Ở trang web http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi

Tiếp đó viết chương trình dùng ngôn ngữ lập trình Perl (Phụ lục 1) để phân thành 8 phân đoạn riêng biệt của virus H5N1:HA, MP, NA, NP, NS, PA, PB1, PB2.

Sau đó, ta tiếp tục viết chương trình dùng ngôn ngữ lập trình Perl [6] (Phụ lục 2), để chọn lọc ra bộ gen của được 85 chủng H5N1 phân lập ở Việt Nam hay ở các địa điểm cụ thể ở Việt Nam như: Bạc Liêu, Lạng Sơn, Sóc Trăng, Hậu Giang, Cà Mau, Hà Nam, Ninh Bình và Nam Định ở những phân đoạn khác nhau.

Một phần của tài liệu Nghiên cứu các chủng virus H5N1 ở Việt Nam về đặc tính bảo tồn chuỗi và cấu trúc bậc hai RNA bằng công cụ TinSinh học (Trang 28)