Ứng dụng tin sinh học trong phân tích kết quả giải trình tự gen

Một phần của tài liệu (LUẬN văn THẠC sĩ) thiết kế và ứng dụng các chỉ thị ADN xác định các gen liên quan đến tính kháng đạo ôn ở một số giống lúa bản địa của việt nam (Trang 26 - 28)

Phần 2 Tổng quan tài liệu

2.5. Cơng nghệ giải trình tự thế hệ mới và ứng dụng tin sinh học

2.5.2. Ứng dụng tin sinh học trong phân tích kết quả giải trình tự gen

Cùng với sự phát triển liên tục của các máy đọc trình tự thế hệ mới NGS là sự bùng nổ về dữ liệu hệ gen, do đó các cơng cụ Tin sinh học được nhiều nhóm

phát triển để đáp ứng các nhu cầu phân tích xử lý dữ liệu của các nhà sinh học. Trong đó, phân tích đột biến gen là một mảng rất quan trọng có tính ứng dụng thực tiễn cao được các nhà Tin sinh học tập trung xây dựng và phát triển với một loạt bộ phần mềm như là: Genome Analysis Tool Kit (McKenna et al., 2010) (GATK, http://www.broadinstitute.org/ gatk/) do viện Broad phát triển SAMTools (Li et al., 2009) (http://samtools.sourceforge.net) bộ cơng cụ phân tích của dự án 1000 hệ gen (Siva, 2008) (http://www.1000genomes.org),

Ngun lý cơ bản của các cơng cụ phân tích hệ gen gồm các bước như sau:

- Giai đoạn 1: Đánh giá và tiền xử lý dữ liệu thu được từ thiết bị đọc trình

tự NGS bằng cách loại bỏ các trình tự có chất lượng thấp, các adapter, các nhiễu trong quá trình đọc trình tự.

- Giai đoạn 2: Ánh xạ trình tự (reference mapping). Ở giai đoạn này, các

trình tự ngắn thu được từ thiết bị NGS được ánh xạ vào hệ gen tham chiếu. Ở bước này các công cụ được sử dụng phổ biến như Bowtie2 (http.//howtip- hio.sourceforge.net/bowtie2/index.shtml)(Langmead and Salzberg 2012), BWA (http://bio-hwa.sourceforge.net) (Li and Durbin, 2009)...

- Giai đoạn 3: Xác định đột biến. Từ kết quả ánh xạ trình tự, các phần mềm xác định đột biến sẽ dị tìm các vị trí mà ở đó base trên hệ gen tham chiếu khác với base từ dữ liệu trình tự. Dựa vào các mơ hình tốn học, các phần mềm sẽ quyết định điểm nào có đột biến hay khơng dựa vào việc so sánh thống kê về tần suất xuất hiện các base khác biệt cũng như chất lượng của chúng. Các công cụ phổ biến hiện nay là GATK (McKenna et al., 2010) và SAMtooIs (Li et al.,

2009) và đều là phần mềm mã nguồn mở, miễn phí.

- Giai đoạn 4: Chú giải vai trò của các đột biến lên chức năng của gen thông qua hai hướng tiếp cận: đối sánh với các CSDL y sinh đã biết và phương pháp dự đoán ảnh hưởng của đột biến tới chức năng gen. Ở hướng tiếp cận thứ nhất, các phần mềm sẽ truy vấn nhiều nguồn cơ sở dữ liệu y sinh khác nhau như dbSNP (https://www.ncbi.nlm.nih.gov/projects/SNP/),ClinVar(https://www.ncbi.nlm. nUi.gov/clinvar/),COSMIC(http://cancer.sanger.ac.uk/cosmic),HGMD

(http://www.hgmd.cf.ac.uk/), OMIM (https://www.omim.org/),... để trích rút các chú giải có sẵn về các đột biến. Ở hướng tiếp cận cịn lại, các cơng cụ dựa các cấu trúc gen (vùng mã hóa, vùng khơng mã hóa) đã biết để phân loại các đột biến cũng như đưa ra các khả năng ảnh hưởng của đột biến lên chức năng của gen.

Đột biến có thể được chia thành nhiều loại như đột biến đơn điểm, đột biến INDEL (chèn/mất đoạn ngắn), đột biến thêm mất đoạn lớn (Copy Number Variant - CNV). Đột biến đơn điểm có tần suất xuất hiện lớn nhất và được phân loại theo mức độ ảnh hưởng lên quá trình phiên mã. SNP khơng đồng nghĩa (non-synonymous) và SNP đồng nghĩa (synonymous), trong đó SNP khơng đồng nghĩa gồm 2 dạng là SNP sai nghĩa (missense) và SNP vô nghĩa (nonsense). SNP không đồng nghĩa làm thay đổi chuỗi protein: SNP sai nghĩa dẫn đến việc tạo thành codon mã hóa một amino acid khác so với codon ban đầu và SNP vô nghĩa dẫn đến việc tạo thành stop codon thay vì codon mã hóa. Trong khi đó, synonymous SNP biến đổi codon ban đầu thành một codon khác mã hóa cùng một amino acid, vì vậy khơng làm ảnh hường đến chuỗi protein sản phẩm.

Một phần của tài liệu (LUẬN văn THẠC sĩ) thiết kế và ứng dụng các chỉ thị ADN xác định các gen liên quan đến tính kháng đạo ôn ở một số giống lúa bản địa của việt nam (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(76 trang)