3 Các công cụ giải quyết bài toán đảo đoạn

Một phần của tài liệu phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới (Trang 33)

1.3.1 - Chƣơng trình Wgsim

Wgsim là một công cụ nhỏ để mô phỏng trình tự của bộ gen tham chiếu. Nó có thể mô phỏng bộ gen lƣỡng bội với SNPs, chèn, xóa (Indel), mô phỏng ánh xạ với hầu hết lỗi trình tự. Wgsim trả về mô phỏng đa hình, và đƣa ra gợi ý về điểm dừng khả dĩ đúng tƣơng tự nhƣ số lƣợng các mô phỏng và trình tự lỗi trong ánh xạ.

Wgsim đã đƣợc sửa đổi từ MAQ bằng cách giảm sự phụ thuộc vào các mã nguồn trong gói MAQ và kết hợp các bản vá lỗi của Colin Hercus cho phép để mô phỏng Indels dài hơn 1bp. Wgsim ban đầu đƣợc phát hành trong gói phần mềm SAMtools.

1.3.2 - Chƣơng trình TMAP

TMAP (Torrent Mapping Alignment Program) là một phần mềm mô phỏng nhanh và chính xác cho các trình tự có độ dài khác nhau của các nucleotide đƣợc xây dựng bởi công nghệ giải trình tự thế hệ mới. Công cụ này thực hiện lập bản đồ ánh xạ cho các quá trình ánh xạ các đoạn trình tự.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

BWA là một gói phần mềm để lập bản đồ chuỗi có độ dài ngắn nhau đối với một bộ gen tham chiếu lớn, chẳng hạn nhƣ bộ gen con ngƣời. Nó bao gồm ba thuật toán: BWA-backtrack, BWA-SW và BWA-MEM. Thuật toán đầu tiên đƣợc thiết kế cho Illumina tự đọc lên đến 100bp, trong khi phần còn lại cho hai chuỗi còn dao động từ 70bp để 1Mbp.

Bowtie là công cụ để lập bản đồ sự gióng hàng các đoạn trình tự, công cụ này đƣợc xây dựng dựa trên thuật toán Smith-Waterman.Trong luận văn này khi thực nghiệm sẽ sử dụng phiên bản Bowtie2. Một số cú pháp khi sử dụng Bowtie2 trong môi trƣờng Ubuntu nhƣ: bowtie2-build, bowtie2- align….

Bowtie hoạt động tốt nhất khi sắp xếp các đoạn read ngắn đƣợc cắt từ bộ gen lớn, công cụ này thực hiện dựa trên cơ sở sử dụng các file dữ liệu của các máy đọc trình tự thế hệ mới (dạng fasta/fastq) rồi gióng hàng chúng với trình tự trong bộ gen tham chiếu, các đoạn read nhỏ đƣợc gióng hàng so với bộ gen tham chiếu tạo ra file dữ liệu SAM là dữ liệu đầu vào cho chƣơng trình xử lý tìm kiếm đảo đoạn của bài toán đặt ra trong luận văn này.

Chƣơng 2. MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN

Hiện nay các phƣơng pháp để phát hiện đột biến đảo đoạn thƣờng có các giai đoạn cơ bản đó là: Giai đoạn ánh xạ trình tự xuôi, giai đoạn trích rút và đảo ngƣợc các trình tự không lắp ráp đƣợc ở giai đoạn một và giai đoạn cuối cùng là ánh xạ trình tự ngƣợc (trình tự đƣợc đảo ngƣợc) để xác định vị trí đảo đoạn. Nhƣ vậy, ở giai đoạn thứ nhất và giai đoạn thứ ba đều sử dụng chung thuật toán ánh xạ trình tự. Ở giai đoạn thứ hai, là quá trình can thiệp vào tập tin SAM (đầu ra của quá trình ánh xạ trình tự) để tìm ra các trình tự không ánh xạ đƣợc và các điểm dừng khả dĩ.

Ánh xạ trình tự là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự (sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) của trình tự để tìm ra những

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

điểm tƣơng đồng, giống nhau giữa các trình tự. Dƣới đây là một số thuật toán để thực hiện nhiệm vụ đó.

2.1 - Thuật toán ma trận điểm

Thuật toán ma trận điểm[1] này đƣợc coi là đơn giản nhất. Ra đời năm 1970 bởi Gibbs và G.A.McIntyre để so sánh hai trình tự nucleotide của hệ gen. Thuật toán này xử lý các đoạn trình tự dựa vào ma trận điểm hai chiều xác định các base bắt cặp trong hai trình tự.

+Input:

Hai chuỗi S1, S2 (thể hiện hai trình tự cần so sánh).

Ma trận F (ma trận đƣợc xây dựng dựa trên trình tự base của hai chuỗi S1,S2)

+Out put:

Hai chuỗi S1‟ và S2‟ thỏa mãn có độ tƣơng đồng cao nhất

THUẬT TOÁN:

+Bƣớc 1: Thiết lập ma trận 2 chiều, mà trận này đƣợc xây dựng dựa vào chuỗi trình tự của S1, S2 (thứ tự các nucleotide trong S1, S2 không đƣợc thay đổi)

+Bƣớc 2: Tích vào tất cả các ô tƣơng ứng cùng với một nucleotide, sau đó thực hiện nối tất cả các ô đƣợc đánh dấu liền kề nhau theo chiều đƣờng chéo phía góc trên bên trái kẻ xuống để xác định đoạn chuỗi tƣơng đồng.

Phƣơng pháp này thể hiện sự tƣơng đồng giữa các nucleotide, các vùng lặp lại trong chuỗi trình tự, các trình tự bổ sung trong RNA mà có thể dẫn đến hình thành cấu trúc bậc đột biến.

Quá trình thực hiện bằng phƣơng pháp này có hạn chế khi thực hiện trên bộ dữ liệu vào quá lớn hoặc quá dài, dẫn đến việc sảy ra trùng lặp hoặc sai trong các lần so sánh gióng hàng các đoạn trình tự điều này ảnh hƣởng tới độ chính xác của kết quả.Tuy nhiên thuật toán này rất tốt khi sử dụng trên các bộ dữ liệu nhỏ và độ dài ngắn.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ATCGAGGCTAATCACACT ATCGACTATAATACACT Bƣớc 1: A T C G A G G C T A A T C A C A C T A T C G A C T A T A A T A C A C T Bƣớc 2: A T C G A G G C T A A T C A C A C T A x x x x x x T x x x x C x x x x x G x x X A x x x x x x C x x x x x T x x x x A x x x x x x T x x x x A x x x x x x A x x x x x x T x x x x

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ A x x x x x x C x x x x x A x x x x x x C x x x x x T x x x x A T C G A G G C T A A T C A C A C T A x x x x x x T x x x x C x x x x x G x x X A x x x x x x C x x x x x T x x x x A x x x x x x T x x x x A x x x x x x A x x x x x x T x x x x A x x x x x x C x x x x x A x x x x x x C x x x x x T x x x x

Từ ma trận điểm đã lập đƣợc có thể thấy có sự tồn tại một khả năng là hai chuỗi trên có cùng nguồn gốc, với sự sao chép nhầm lẫn giữa chúng ở đoạn GGC và một đột biến đứt đoạn tại C theo sơ đồ sau:

A T C G A G G C T A A T C A C A C T A T C G A C T A T A A T - A C A C T

Nhận xét: Phƣơng pháp này cho phép phát hiện sự có mặt của các dạng mất đoạn, đảo đoạn hoặc thêm đoạn giữa hai trình tự.

Một phần của tài liệu phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới (Trang 33)

Tải bản đầy đủ (PDF)

(81 trang)