Tóm tắt kết quả xử lý dữ liệu giải trình tự GBS

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu đa hình hệ gen các dòng tôm sú (penaeus monodon) việt nam nhằm phục vụ công tác chọn giống tôm (Trang 101 - 105)

Chỉ số phân tích Giá trị

Độ sâu giải trình tự 50x

Dung lượng dữ liệu (Gb) ~ 100

Số lượng đoạn trình tự thơ (raw reads) 145.836.644 Số lượng đoạn trình tự (read) sử dụng kết nối contig 102.505.713

Tổng số contig 510.076

Kích thước hệ gen tham chiếu tạm thời (bp) 76.229.742

Hình 3.5. Phân bố độ dài các contig sau tinh sạch

Các contig có kích thước 70 - 150 bp chiếm số lượng nhiều nhất (211.389), ít nhất là các contig có kích thước >450 bp, loại bỏ các contig

kích thước ngắn < 70bp. Số lượ ng c on tig

Theo tác giả You et al., 2010, kích thước hệ gen tơm sú có dung lượng khoảng 2.17×109

bp. Như vậy với hệ gen tham chiếu tạm thời được thiết lập de novo có kích thước 76.299.742 bp trong nghiên cứu này thì tỷ lệ bao phủ giải trình

tự đạt được khoảng 3,5%.

3.3.2. Sàng lọc SNP

Tổng cộng có 2887 SNP đã được phát hiện, trong đó có 1799 SNP chỉ xuất hiện ở nhóm tơm tăng trưởng nhanh, 587 SNP chỉ xuất hiện ở nhóm tơm tăng trưởng chậm và 501 SNP xuất hiện ở cả hai nhóm (Hình 3.6).

3.3.3. Chú giải gen chức năng từ dữ liệu giải trình tự tơm sú

Từ dữ liệu giải trình tự và dữ liệu sàng lọc SNP, chỉ những đoạn trình tự contig chứa SNP được sử dụng để chú giải nhằm tìm kiếm sự tương đồng với các trình tự gen chức năng được lưu trữ ở GenBank (NCBI). Tồn bộ 2887 đoạn trình tự chứa SNP ở cả hai nhóm tơm sú tăng trưởng nhanh và tăng trưởng chậm được chú giải chức năng bằng cơng cụ BlastX (nr-NCBI). Kết quả có 510 (chiếm tỷ lệ

Hình 3.6. Số lượng SNP ở nhóm tơm sú tăng trưởng nhanh và nhóm tơm sú tăng trưởng chậm

A- Số lượng SNP ở nhóm tơm sú tăng trưởng nhanh (1799) B- Số lượng SNP ở nhóm tơm sú tăng trưởng chậm (587)

C- Số lượng SNP ở cả hai nhóm (501).

B C

17,67%) contig chứa SNP có trình tự nucleotide tương đồng với các trình tự trên cơ sở dữ liệu nr-NCBI (với tham số E-value < 1e-6); trong đó có 287 (56,27 %) trình tự contig chứa SNP thuộc nhóm tơm sú tăng trưởng nhanh, 126 (24,71 %) trình tự contig chứa SNP thuộc nhóm tơm sú tăng trưởng chậm và 97 (19,02 %) trình tự contig chứa SNP thuộc cả hai nhóm. Một lượng lớn (82,33%) contig của nghiên cứu này không cho kết quả chú giải gen chức năng (Hình 3.7).

Từ kết quả BlastX, chúng tôi thu được danh sách chú giải gồm các protein đã biết chức năng hoặc các protein dự đốn cùng với tên lồi tương ứng. Với mục tiêu nghiên cứu là tìm kiếm và xác định sự liên quan giữa các gen mã hóa các protein có liên quan đến tăng trưởng ở tơm sú với các SNP đã sàng lọc được, chúng tôi đã so sánh đối chiếu lần lượt 22 protein liên quan đến tính trạng tăng trưởng trong họ giáp xác (Jung et al., 2013) với các protein đã chú giải được để rà sốt và tìm ra

Hình 3.7. Kết quả chú giải gen chức năng

Có 2377 contig chứa SNP khơng cho kết quả chú giải,

510 contig chứa SNP cho kết quả chú giải, trong đó: 287 contig chứa SNP ở nhóm tơm sú tăng trưởng nhanh, 126 contig chứa SNP ở nhóm tơm sú tăng

trưởng chậm và 97 contig chứa SNP ở cả hai nhóm.

Có kết quả chú giải Khơng có kết quả chú giải

loại protein tương ứng với trình tự contig chứa SNP của hai nhóm tơm sú nghiên cứu. Kết quả đã xác định được hai contig (contig83953 dài 98 bp và contig260347 dài 80 bp) ở nhóm tơm sú tăng trưởng nhanh có trình tự amino acid tương ứng tương đồng với trình tự amino acid của protein Myosin Heavy Chain (MHC). Trong đó, contig83953 tương đồng với MHC type a (MHCa) và contig260347 tương đồng với MHC type 1 (MHC1). Trong nghiên này, chúng tơi khơng tìm thấy contig nào của nhóm tơm sú tăng trưởng chậm có sự tương đồng với 22 protein liên quan đến tính trạng tăng trưởng trong họ giáp xác đã được cơng bố bởi nhóm tác giả Jung et al. (2013).

Trình tự nucleotide của contig83953 và contig260347 được trình bày ở Bảng 3.11.

Bảng 3.11. Kết quả chú giải các gen liên quan tính trạng tăng trưởng ở tôm sú

Contig được chú giải Gen bank ID Protein tương ứng Lồi tương ứng Trình tự nucleotide

(đối với contig83953 là trình tự bổ sung) Contig83953 (98 bp) gi|34318315 3|dbj|BAK61 429.1| Myosin heavy chain type a Marsupenaeus japonicus CAAGGTCGTCGAT CTTCAGCTTCCAT TCAGAGATGATCT TATCGAAGTTCTT CTGTTTCTTCTCA GCGGAGTTGGCCA GAGTCTGTGCACG TTCAGCA Cluster260347 (80 bp) gi|41050930 6|dbj|BAM65 719.1| Myosin heavy chain type 1 Penaeus monodon CTCGTCTCGAGGA AGCCGAAATGCA GATTGAGTCTCTC AATGTTAAGAACT TGCATTTGGAGAA GACCAAGATGCGT GCG

3.3.4. Xác định chỉ thị SNP và tương quan giữa các contig chứa SNP với gen MHC MHC

Từ các kết quả sàng lọc SNP và kết quả chú giải protein liên quan đến tính trạng tăng trưởng ở tôm sú (chỉ các contig chứa SNP được chọn để chú giải gen chức năng, sau đó so sánh trình tự của contig chứa SNP với trình tự của gen chức năng tương ứng để xác định loại nucleotide thay thế), chúng tôi đã xác định được vị trí SNP trên contig83953 và contig260347 ở tôm sú tăng trưởng nhanh như sau: SNP T C (Bảng 3.11) tại vị trí nucleotide thứ 20 trên mạch bổ sung với contig83953, tức là SNP A G trên mạch gốc contig83953 và SNP G A (Bảng 3.11) tại vị trí nucleotide thứ 19 trên contig260347. Ký pháp HGVS (Human Genome Variation Society) của hai SNP trên đây được thể hiện ở Bảng 3.12.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu đa hình hệ gen các dòng tôm sú (penaeus monodon) việt nam nhằm phục vụ công tác chọn giống tôm (Trang 101 - 105)

Tải bản đầy đủ (PDF)

(193 trang)