Phƣơngpháp Phân tích dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) sàng lọc các chỉ thị phân tử SNP liên quan tới tính trạng tăng trưởng ở tôm sú (penaeus monodon) (Trang 36 - 39)

CHƢƠNG II VẬT LIỆU VÀ PHƢƠNGPHÁP NGHIÊN CỨU

2.2 Phƣơngpháp nghiên cứu

2.2.4 Phƣơngpháp Phân tích dữ liệu

2.2.4.1 Lắp ráp de novo hệ phiên mã.

Dữ liệu trình tự đọc sau khi đƣợc giải trình tự sẽ đƣợc tiền xử lý để loại bỏ adaptor và trình tự xấu do lỗi của máy giải trình tự. Những trình tự đọc có chất lƣợng base quá thấp (chất lƣợng nhỏ hơn 20) cũng nhƣ số base nhiễu nhiều (mỗi trình tự đọc có >2% N base) sẽ đƣợc chỉnh sửa bằng công cụ cutadapt (https://code.google.com/p/cutadapt/). Những trình tự đọc chất lƣợng cao từ bốn mô: mô cơ, mô tim, mô gan tụy, mô gốc mắt, đƣợc lắp ráp để tạo nên hệ phiên mã bao gồm các unigene của tôm sú bằng phần mềm Trinity (http://trinityrnaseq.sourceforge.net/) [16] với tham số mặc định.

2.2.4.2 Phát hiện SNP marker trong ngân hàng Unigene.

Các trình tự unigene bên cạnh đó cũng sẽ đƣợc khai phá các marker đa hình đơn nucleotide SNP hay các marker mất/thêm đoạn nhỏ Insert/Delete. Chúng tôi ánh xạ các trình tự đọc ngƣợc trở lại vào hệ phiên mã tham chiếu vừa lắp ráp bằng phần mềm Bowtie2. Kết qủa ánh xạ sẽ đƣợc 2 công cụ SAMtools và VarScan (http://varscan.sourceforge.net/) [23] xử lý để tìm ra các locus tiềm năng bị thay đổi nucleotide. Để sàng lọc kết quả dƣơng tính giả

do lỗi giải trình tự hoặc mẫu nhiễm trình tự lạ chúng tôi áp dụng các tham số sau: chỉ lấy những trình tự đọc có chất lƣợng ánh xạ lớn hơn 20, tần số alen của biến dị phải lớn hơn 0,1 và độ sâu tối thiểu của alen biến dị phải lớn hơn 10.

2.2.4.3 Chú giải và phân loại unigene trong hệ phiên mã.

Chú giải chức năng cho các unigene trong hệ phiên mã đòi hỏi phải sử dụng những thuật toán tìm kiếm tƣơng đồng trên các cơ sở dữ liệu protein quan trọng. Tôi sử dụng công cụ BLAST+ với chƣơng trình BLASTx để so sánh toàn bộ unigene lên các cơ sở dữ liệu NCBI non-redundant protein (Nr,

http://www.ncbi.nlm.nih.gov/), với tham số E-value là 1e-6. Trong khi đó với những unigene không đƣợc chú giải trên cơ sở dữ liệu Nr-NCBI, phần mềm ESTScan [18] sẽ dự đoán vùng mã hóa tiềm năng trong chuỗi trình tự của unigene. Kết quả chú giải từ ngân hàng Nr sau đó đƣợc phần mềm Blast2GO [10] sử dụng để lấy ra mã Gene Ontology (GO) riêng biệt cho mỗi unigene. Toàn bộ unigene trong hệ phiên mã sẽ đƣợc ánh xạ vào các mã GO và phân loại dựa vào 3 hạng mục: quá trình sinh học, thành phần tế bào và phân tử chức năng. Trong nghiên cứu này tôi tập chung vào nghiên cứu và phân loại unigene tiềm năng liên quan tới tính trạng tăng trƣởng.

2.2.4.4 Phát hiện SNP liên quan đến tính trạng tăng trưởng

Sau khi phân tích dữ liệu trên máy chủ của viện Công Nghệ Sinh học, thu đƣợc dữ liệu phát hiện marker SNP (file.vcf gồm: tên unigene, vị trí biến đổi trên gen tham chiếu và vị trí SNPtƣơng ứng, thông tin, định dạng…) và tiến hành thống kê SNP.

Blast các trình tự unigene lên ngân hàng Nr-NCBI bằng phần mềm blast2GO và phân tích thống kê với công cụ Microsoft Excel, dùng bộ lọc Filter và hàm VLOOKUP thống kê số lƣợng gene liên quan tới tính trạng tăng trƣởng, các gen tăng trƣởng chứa SNP, vị trí SNP trên hệ gen tham chiếu. Từ

đây lọc ra những chỉ thị SNP liên quan tới tính trạng tăng trƣởng ở loài tôm sú.

Một phần của tài liệu (LUẬN văn THẠC sĩ) sàng lọc các chỉ thị phân tử SNP liên quan tới tính trạng tăng trưởng ở tôm sú (penaeus monodon) (Trang 36 - 39)

Tải bản đầy đủ (PDF)

(86 trang)