Quy trình giải mã hệ gen và bài toán gióng hàng trình tự

Một phần của tài liệu Ứng dụng thuật toán burrows wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam (Trang 23 - 29)

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN

2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tự

Hệ gen được cấu tạo từ các phân tử ADN là một phân tử acidnucleic mang thông tin di truyền mã hóa cho hoạt động sinh trưởng và phát triển của sinh vật. Hệ gen bao gồm 4 loại nucleotide: A (Adenine), T (Thymine), G (Guanine) và C (Cytosine). Máy giải trình tự thế hệ mới (Next-generation sequencing) có thể giải trình tự được toàn bộ hệ gen. Máy giải trình tự không chỉ tạo ra duy nhất một chuỗi trình tự toàn bộ hệ gen, mà tạo ra hàng triệu đoạn trình tự nhỏ được cắt ra từ hệ gen, gọi là các trình tự đoạn ngắn (read). Các read được gióng hàng với một trình tự tham chiếu để tìm kiếm các khác biệt. Trong phần này, luận văn sẽ nêu tầm quan trọng của gióng hàng trong quy trình để phát hiện các biến dị/đa hình.

15

a. Quy trình

Các biến dị di truyền bao gồm đa hình đơn nucleotide viết tắt là SNP (single nucleotide polymorphisms) là một biến thể của nucleotide xảy ra ở một vị trí nhất định trong hệ gen và đa hình thêm hoặc mất nucleotide được gọi là InDel(Insertion/

Deletion). Những loại đa hình này ít nhiều có thể dẫn đến thay đổi các tính trạng của sinh vật.

Quy trình thực hiện việc tìm kiếm các biến dị di truyền (SNP và InDel) bao gồm 4 bước chính (Hình):

Bước 1: Tách chiết hệ gen của sinh vật.

Bước 2: Hệ gen của sinh vật được giải trình tự (theo một số phương pháp như:

Pyrosequencing, giải trình tự bằng gắn nối, hoặc giải trình tự bằng tổng hợp). Các đoạn trình tự ngắn cần đước đánh giá chất lượng trước khi gióng hàng. Các đoạn trình tự có chất lượng thấp cần loại bỏ.

Bước 3: Gióng hàng trình tự các đoạn ngắn (read) được tạo ra từ máy giải trình tự thế hệ mới với một trình tự tham chiếu được chọn trên cơ sở dữ liệu bằng phần mềm ứng dụng thuật toán Burrows – Wheeler transform. Chất lượng gióng hàng của phần mềm cần được đánh giá bởi phần trăm các đoạn trình tự ngắn gióng hàng với trình tự tham chiếu.

Bước 4: File dữ liệu đầu ra của phần mềm gióng hàng được sử dụng cho việc tìm kiếm các biến dị di truyền bằng một số phần mềm SAMtools và VarScan.

16

Hình 2.1 Quy trình xác định các biến dị di truyền.

Thuật toán BWT được ứng dụng trong bài toán gióng hàng trình tự là một bước để xác định biến dị (đa hình) trên hệ gen.

2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment)

Bài toán gióng hàng trình tự, hay là còn gọi là bài toán sắp xếp thẳng hàng trình tự (Sequence Alignment) là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự (sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau giữa các trình tự.

Sequence 1  G A A T T C A G T T A

| | | | | |

Sequence 2  G G A T - C - G - - A Hình 2.2 Ví dụ bài toán gióng hàng 2 trình tự Sequence 1 – Sequence 2

17

Nội dung của bài toán so sánh cặp trình tự được trình bày như sau :

+ Cho 2 chuỗi trình tự sinh học S1,S2. Gióng cặp chuỗi này được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (“gap” kí hiệu là “-“) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1‟ và S2‟ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho mỗi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách.

+ Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1‟ và S2‟

ta sẽ có S1 và S2 ban đầu.

2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tự

Gióng hàng trình tự nhằm nghiên cứu sự tiến hóa Hoặc để tìm kiếm, so sánh mức độ tương đồng giữa các trình tự

Đánh giá mức độ sai khác giữa các trình tự do nhiều nguyên nhân. Có thể ứng dụng để:

 phát hiện các đột biến điểm hoặc mất đoạn Nucleotide.

 Xác định được các Intron, exon(khi so sánh một trình tự mRNA với trình tự DNA).

 Xác định được các vùng bảo thủ trong các trình tự chẳng hạn như vùng Promoter(kỹ thuật footprinting).

 Nghiên cứu và xây dựng cây phát sinh chủng loại(Phylogenetic).

 Là một phần không thể thiếu khi đăng ký trình tự vào ngân hàng EMBL.

 Là cơ sở xây dựng cây phát sinh chủng loại.

Trong sự tiến hóa, các điểm gióng hàng giống nhau chính là một phần của trình tự sinh học tổ tiên. Còn các điểm gióng hàng không giống nhau chính là sự đột biến của trình tự.

18

Các trường hợp xác định được khi gióng hàng trình tự là việc thêm/ bớt một nucleotide (insertion/ deletion) hay còn gọi là SNP, việc thay thế một nucleotide (mismatch) hay còn gọi là Indel và việc trùng khớp các nucleotide(match).

Ví dụ hai trình tự u = “ATCTGATG” và v = “TGCATAC”. Khi lấy u làm căn cứ, thì v có: 4 điểm match, 1 điểm mismatch, 3 điểm insertion và 2 điểm deletion như mô tả dưới đây:

Hình 2.3 Các đột biến xác định khi gióng hàng 2 trình tự u – v

2.1.4 Phân loại bài toán gióng hàng trình tự

Bài toán gióng hàng trình tự được phân làm 2 loại : gióng hàng toàn cục và gióng hàng cục bộ :

+ Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên toàn bộ chuỗi trình tự. Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng, giống nhau cao.

19

Ví dụ: So sánh tổng thể cả chuỗi (toàn cục) L G S S K Q T G K G S - R I T D

| | | | | | |

L N - Y K S A G K G A I R L G D

+Phép so sánh trình tự theo hướng cục bộ: Phép toán so sánh được sử dụng trên một phần của chuỗi trình tự. Thường được sử dụng khi các trình tự có chiều dài lớn, độ tương đồng giống nhau không cao, chỉ có một số ít các gen giống nhau trên 2 trình tự, hoặc khi 2 trình tự có kích thước khác biệt lớn

Ví dụ: So sánh cục bộ một đoạn chuỗi(cục bộ) A G A A C C T G C G A - R A T G | | | |

T G - G A

Phương pháp giải bài toán gióng hàng trình tự theo hướng cục bộ áp dụng cho bài toán con : Short Read Alignment – là bài toán gióng hàng số lượng lớn các đoạn trình tự (read) vào hệ gen tham chiếu (reference Sequence)

Hình 2.4 Ví dụ bài toán Short Read Alignment

20

Các phần tiếp theo của chương hai giới thiệu một số thuật toán cơ bản giải quyết bài toán gióng hàng trình tự và trọng tâm của chương sẽ giới thiệu thuật toán Burrows – Wheeler Tranform (BWT) có ưu điểm nổi trội cho dạng bài toán gióng hàng trình tự theo hướng cục bộ nói trên.

Một phần của tài liệu Ứng dụng thuật toán burrows wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam (Trang 23 - 29)

Tải bản đầy đủ (PDF)

(80 trang)