Dữ liệu trình tự đọc phân tích từ mẫu mRNA đã được tách chiết theo 2 mô của tôm sú Việt Nam là mơ cơ, mơ gan tụy. Trình tự đọc tổng số của 2 mơ được giải trình tự sử dụng máy giải trình tự Illumina MiSeq theo kiểu đọc trình tự hai đầu vào (pair-end). Do đó, mỗi mẫu giải trình tự được lưu ở tập FASTQ khác nhau ( file read_1 tương ứng với forward và file read_2 tương ứng với reverse). Khi nhận được dữ liệu thì bước quan trọng đầu tiên là đánh giá chất lượng trình tự đọc thô bằng phần mềm FastQC và tinh sạch dữ liệu trình tự đọc bằng Trimmomatic.
Hình 3.1. Kết quả đánh giá chất lƣợng dữ liệu trình tự đọc thơ và dữ liệu trình tự đọc tinh sạch ở mơ cơ.
Để biểu diễn được chất lượng dữ liệu giải trình tự theo cách hiệu quả nhất, phần mềmFastQC được sử dụngđể tạo ra cácbiểu đồ từmodule “Per Base sequence
quality” (Hình 3.1).Biểu đồ này cịn được gọi là biểu đồ “chất lượng giải trình tự theo vị trí base”vì trong biểu đồ này mỗi một vị trí base của tất cả các trình tự đọc sẽ được thống kê bằng cách giá trị khác nhau (trung bình, trung vị,biểu đồ hộp-và- râu (box-and whisker plot)). Trong các biểu đồ của Hình 3.1, trục hồnh thể hiện vị trí của các base trên mỗi trình tự đọc, trục tung thể hiện điểm chất lượng giải trình tự QC (quality score).Điểm chất lượng càng cao thể hiện nucleotide tại vị trí đó được giải trình tự chính xác càng cao. Hình nền của biểu đồ được phân thành các màu sắc khác nhau dựa theo trục tung của biểu đồ tương ứng với chất lượng giải trình tự cao (màu xanh lá cây), chất lượng giải trình tự trung bình (màu cam nhạt), chất lượng giải trình tự kém (màu tím nhạt). Với mỗi vị trí base trên trình tự đọc, biểu đồ có các giá trị: đường màu xanh da trời tương ứng với giá trị chất lượng trung bình tại vị trí đó của tất cả các trình tự đọc, vạch màu đỏ là giá trị chất lượng trung vị tại vị trí đó của tất cả các trình tự đọc, hộp màu vàng là nơi phân bố của 50% tổng số dữ liệuđiểm chất lượng, đi kèm là hai râu dài ra thể hiện đây là nơi phân bố của75% dữ liệu điểm chất lượng.
Dựa vào những kết quả đánh giá dữ liệu thô bằng phần mềm FastQC, nhìn chung dữ liệu có chất lượng giải trình tự tương đối tốt, hầu như tất cả các trình tự đều có điểm chất lượng theo từng vị trí base (per base sequence quality) lớn hơn 30 (QC > 30). Tuy nhiên vẫn cịn một số trình tự base ở cuối mỗi trình tự đọc đối với mơ cơ có chất lượng chưa được tốt (Hình 3.1 – dữ liệu thơ). Những trình tự này cần phải được loại bỏ ra khỏi dữ liệu để đảm bảo cho mức chính xác của các bước thí nghiệm tiếp theo. Do vậy, trong q trình tiền xử lý, chúng tơi đã dùng phần mềm Trimmomatic để loại bỏ những trình tự đọc có QC < 30 và độ dài nhỏ hơn 70 bp.(Hình 3.1 - dữ liệu tinh sạch) cho thấy tất cả các trình tự đọc đều có chất lượng tốt (tồn bộ các base đều có điểm số chất lượng trên 30) và nằm trong vùng an toàn (vùng màu xanh lá cây của biểu đồ).
Hình 3.2. Kết quả đánh giá chất lƣợng dữ liệu trình tự đọc thơ và dữ liệu trình tự đọc tinh sạch ở mơ gan tụy
Tương tự đối với mơ gan tụy trong Hình 3.2, dựa vào những kết quả đánh giá dữ liệu thơ bằng phần mềm FastQC, trình tự đọc của mơ gan tụy cho thấy có chất lượng cao hơn mô cơ do số lượng trình tự base cuối trình tự đọc có chất lượng lượng chưa tốt ít hơn mơ cơ. Trong q trình tiền xử lý, chúng tơi cũng dùng phần mềm Trimmomatic để loại bỏ những trình tự đọc có QC < 30 và độ dài nhỏ hơn 70 bp. Hình 3.2. (dữ liệu tinh sạch) cho thấy tất cả các trình tự đọc đều có chất lượng tốt (tồn bộ các base đều có điểm số chất lượng trên 30) và nằm trong vùng an toàn (vùng màu xanh lá cây của biểu đồ).
So sánh kết quả thống kê dữ liệu trước tinh sạch và sau tinh sạch (Bảng 3.1) cho thấy 80,72% dữ liệu thô được giữ lại trong dữ liệu tinh sạch với độ dài dao động từ 70 đến 151 bp và dữ liệu trình tự đọc tinh sạch có tồn bộ các base có QC ≥ 30 (Bảng 3.1). Với kết quả đánh giá chất lượng và tinh sạch như trên thì dữ liệu trình tự đọc trong hệ phiên mã từ mơ cơ và mô gan tụy tôm sú đủ điều kiện để thực hiện các phân tích tiếp theo.
Bảng 3.1: Thống kê số lƣợng, độ dài trình tự đọc theo từng mô
Mô Tham số Trước khi
tiền xử lý
Sau khi tiền xử lý % số đoạn trình tự giữ lại Mơ cơ Tổng số đoạn trình tự 12.312.819 8.533.944 69,31% Độ dài đoạn trình tự 35–251 bp 70–251 bp
Mơ gan tụy
Tổng số đoạn trình tự 20.512.979 17.964.211 87,57% Độ dài đoạn trình tự 35–151 bp 70–151 bp Tổng số đoạn trình tự chất lượng cao của
2 mô
3.2. Kết quả lắp ráp hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus monodon monodon
Dữ liệu trình tự đọc thơ sau khi tiền xử lý được lắp ráp bởi phần mềm Trinity thu được hệ phiên mã thô bao gồm 157.995 transcript, trải qua 2 bước loại bỏ những transcript lắp ráp kém chất lượng hay những transcript giống nhau, chúng tôi thu được hệ phiên mã tinh sạch với 17.406 unigene (độ dài nhỏ nhất là 201 bp, độ dài lớn nhất là 12.392 bp) với chỉ số N50 là 402 bp và độ dài trung bình là 403,06 bp. Mặc dù số lượng transcript của hệ phiên mã thơ giảm đi trong q trình tinh sạch để đạt được tập unigene của hệ phiên mã tinh sạch, tỷ lệ % trình tự đọc tinh sạch ánh xạ ngược trở lại hệ phiên mã thô và hệ phiên mã tinh sạch lần lượt là 67,60 % và 64,05 %) (Bảng 3.2). Phân bố độ dài unigene trong hệ phiên mã tinh sạch được thể hiện như trong Hình 3.3, chiếm phần lớn là độ dài dưới 500 bp (83,77 % tổng số unigene). Từ 3 tiêu chí là N50, số lượng trình tự đọc sử dụng cho lắp ráp hệ phiên mã và phân bố độ dài unigene trong hệ phiên mã tinh sạch cho thấy chất lượng lắp ráp de novo là tương đối tốt.
Bảng 3.2: Thống kê kết quả lắp ráp hệ phiên mã tinh sạchtừ mô cơ và mô gan tụy tôm sú Penaeus monodon
Các thông số của thống kê Hệ phiên mã thô Hệ phiên mã tinh sạch Số lƣợng 157.995 transcript 17.406 unigene Kích thƣớc hệ phiên mã (bp) 51.854.174 7.015.641 N50 (bp) 314 402 Độ dài trung bình các trình tự (bp) 328,20 403,06 Số đoạn trình tự đọc tinh sạch ánh xạ ngƣợc trở lại hệ phiên mã (Tỷ lệ) 17.913.904 (67,60%) 16.971.031 (64,05%) Độ dài trình tự ngắn nhất (bp) 201 201 Độ dài trình tự dài nhất (bp) 12.392 12.392
Hình 3.3. Phân bố độ dài tồn bộ unigene trên hệ phiên mã tinh sạch
3.3. Chú giải chức năng hệ phiên mã từ từ mô cơ và mô gan tụy tôm sú
Penaeus monodon
Quá trình chú giải chức năng bằng BLASTX cho kết quả 1.950 (11,20%) unigene được tìm thấy trên cơ sở dữ liệu Nr-NCBI với tham số E-value 1e-6, như vậy có đến 15.456 unigene (88,80%) khơng tìm thấy tương đồng trên cơ sở dữ liệu NCBI với tham số E-value như trên. Độ dài của các unigene được chú giải chức năng trên Nr-NCBI cũng tập trung chủ yếu ở những unigene có độ dài lớn hơn 500 bp (Hình 3.4 A), trong đó những unigene khơng có kết quả BLASTX lại tập trung ở những unigene có độ dài dưới 500 bp (Hình 3.4 B).
A B
Hình 3.4. Phân bố độ dài trên tồn bộ unigene có kết quả BLASTX (A) và phân bố độ dài trên tồn bộ unigene khơng có kết quả BLASTX (B).
Vì khơng có hệ gen tham chiếu tơm sú nên sẽ có một lượng lớn unigene không thể chú giải chức năng. Số lượng unigene không được chú giải trong nghiên cứu của chúng tơi có thể là những trình tự bản phiên mã (transcript) mới và đặc trưng với
Penaeus monodon. Thêm vào đó, cịn có một lý do khác giải thích cho tỷ lệ chú giải
chức năng thấp là do các trình tự unigene sau khi lắp ráp có độ dài khá ngắn. Bên cạnh đó, trong nhóm giáp xác chỉ có duy nhất lồi mơ hình Daphnia pulex, loài
được sử dụng trong nghiên cứu độc học sinh thái, là có hệ gen tham chiếu [36]. Tỷ lệ chú giải các unigene trong hệ phiên mã tinh sạch của chúng tôi trên cơ sở dữ liệu Nr-NCBI bằng công cụ BLASTX (11,20%) là thấp hơn so với những dự án lắp ráp de novo với những lồi khơng phải là lồi mơ hình trong nhóm giáp xác. Trong nghiên cứu phân tích hệ phiên mã trên đối tượng cua Portunus trituberculatus của Jianjian Lv và cộng sự (2014) tỷ lệ chú giải trên Nr-NCBI là
18,04% [47]. Trong quá trình lắp ráp de novo hệ phiên mã các tác giả đã sử dụng các trình tự đọc từ nhiều loại mơ khác nhau của Portunus trituberculatus như mô gốc mắt, mô mang, mô ruột, mô gan tụy và mô cơ. Đối với nghiên cứu của Sookruksawong và cộng sự (2013) trên đối tượng tôm thẻ chân trắng Litopenaeus
vannamei, kết quả chú giải hệ phiên mã tơm lắp ráp từ các trình tự đọc từ mơ máu
trong đáp ứng miễn dịch đối với virus gây hội chứng Taura (Taura syndrome virus) trên cơ sỡ dữ liệu Nr-NCBI là 20% [64]. Trong điều kiện đáp ứng miễn dịch với virus, mức độ biểu hiện của các gen sẽ tăng cường, các gen đã được nghiên cứu và công bố trong các đối tượng tôm chủ yếu liên quan đến hệ miễn dịch nên kết quả chú giải sẽ cao hơn.
Trong nghiên cứu của Nguyễn Giang Thu và cộng sự (2015), các tác giả đã lắp ráp de novo hệ phiên mã tơm sú P. monodon từ các trình tự đọc thu được từ mơ máu, mô gan tụy, mô cơ với tỷ lệ chú giải trên Nr-NCBI là 25,4% [7]. Trong quá trình tiền xử lý bằng cơng cụ Trimmomatic, các trình tự đọc có điểm số QC > 20 được giữ lại. Bên cạnh đó trong q trình tinh sạch hệ phiên mã, giá trị FPKM cutoff = 1 được sử dụng. Do vậy đã thu được kết quả tỷ lệ chú giải cao trên Nr- NCBI.
Trong nghiên cứu của chúng tơi, trong q trìnhxây dựng hệ phiên mã từ mô cơ và mô gan tụy tôm sú P. monodon, tiền xử lý bằng công cụ Trimmomatic, chúng tơi sử dụng các trình tự đọc có chất lượng cao (QC > 30) để lắp ráp de novo hệ
phiên mã. Với mục đích sàng lọc các unigene thuộc các nhóm gen/gen giả định liên quan tới tính trạng tăng trưởng ở P. monodon đặc trưng cho mô cơ và mô gan tụy, trong quá trình tinh sạch hệ phiên mã giá trị FPKM cutoff = 5 được sử dụng để giữ lại những bản phiên mã có mức độ biểu hiện cao. Do vậy, số lượng unigene trong hệ phiên mã tinh sạch của chúng tơi thu được ít hơn, dẫn đến tỷ lệ chú giải thấp hơn trên Nr-NCBI.
Phân bố E-value của các kết quả chú giải chức năng trong Nr-NCBI của các unigene trong hệ phiên mã tinh sạch chúng tơi xây dựng cho thấy 59,03% có giá trị trong khoảng 0 –> 1.0e-30 và 45,66% số lượng trình tự có điểm số E-value có độ tin cậy nhất (E-value < 10-45) (Hình 3.5 A). Những kết quả như vậy đã khẳng định giá trị và độ tin cậy của kết quả lắp ráp de novo hệ phiên mã của chúng tôi. Bên
độ tương đồng (similarity) lớn hơn 60% và 30,17% số lượng trình tự có độ tương đồng lớn hơn 80% (Hình 3.5 B). Sau khi tìm kiếm tương đồng bằng BLASTX, chúng tơi so sánh trình tự unigene sau khi lắp ráp xuất hiện trong những loài nào trên cơ sở dữ liệu và thống kê phân bố loài trong bộ kết quả tin cậy nhất (E-value thấp nhất) và được thể hiện như trong hình 3.5 C . Kết quả cho thấy có 145 (7,32%) unigene cho kết quả chú giải tương đồng với loài Daphnia magna, trong đó 124 (6,26%), 110 (5,55%), 94 (4,75%), 87 (4,39%), 45 (2,27%), 42 (2,12%) unigene cho kết quả tương đồng với Penaeus monodon, Litopenaeus vannamei, Limulus polyphemus, Zootermopsis nevadensis, Procambarus clarkii, Fenneropenaeus chinensis (Hình 3.5C).
A
B
C
Hình 3.5. Thống kê kết quả chú giải trên cơ sở dữ liệu Nr-NCBI, A: Thống kê phân bố giá trị E-value, B: Thống kê phân bố độ tƣơng đồng, C: Thống kê phân bố loài bố giá trị E-value, B: Thống kê phân bố độ tƣơng đồng, C: Thống kê phân bố loài
Bên cạnh việc được chú giải bằng cơ sở dữ liệu Nr-NCBI, 17.406 unigene của hệ phiên mã tinh sạch lắp ráp từ mô cơ và mô gan tụy của tơm sú Penaeus monodon cịn được chú giải bằng các cơ sở dữ liệu Swiss-Prot, Gene Ontology và KEGG. Tổng số 1957 unigen đã được chú giải từ những cơ sở dữ liệu này (Bảng 3.3).
Bảng 3.3: Thống kê kết quả chú giải hệ phiên mã tôm sú trên các cơ sở dữ liệu
Cơ sở dữ liệu Số lượng unigene
được chú giải Nr-NCBI 1950 Swiss-Prot 1546 KEGG 865 GO 1119 Tất cả các cơ sở dữ liệu 1957 Tổng số unigene 17.406 Tỷ lệ chú giải 11,24%
Hình 3.6. Sơ đồ Venn thể hiện kết quả chú giải trên 4 cở sở dữ liệu
Hình 3.6 thể hiện kết quả chú giải trùng nhau giữa các cơ sở dữ liệu. Ví dụ dối với cơ sở dữ liệu Nr-NCBI chú giải được 1950 unigene, cơ sở dữ liệu Swiss-Prot chú giải được 1546 unigene, số lượng unigene chú giải trùng nhau giữa hai cơ sở dữ liệu này là : 331 + 352 + 661 + 196 = 1540 unigene.
3.4. Phân loại Gene Ontology
Để phân loại chức năng đã được chú giải trên các ngân hàng cơ sở dữ liệu, chúng tôi sử dụng phần mềm Blast2GO. Dựa trên độ tương đồng của trình tự unigene, phân tích Gene Ontology đã xác định được 1119 unigene mang các mã chức năng GO và phân loại chức năng của 1119 unigene trong hệ phiên mã tôm sú vào 46 nhóm chức năng khác nhau (Hình 3.7). Trong nhóm Biological Processes, cellular process (558 unigene), metabolic process (552 unigene), biological regulation (193 unigene), pigmentation (165 unigene), và localization (143 unigene) là những nhóm chức năng chiếm ưu thế. Trong nhóm Cellular Component, cell (639 unigene), organelle (375 unigene) và macromolecular complex (232 unigene) lại là những nhóm chức năng điển hình. Và cuối cùng ở trong nhóm Molecular Function, catalytic activity (538 unigene), binding (539 unigene), và structural molecule
activity (102 unigene) là những nhóm chức năng nổi bật. Chú giải GO đã cung cấp thông tin tổng quan về chức năng hệ phiên mã thu được từ mô cơ và mơ gan tụy tơm sú.
Hình 3.7. Thống kê thơng tin chú giải chức năng trên ngân hàng Gene Ontology.
3.5. Phân loại con đƣờng trao đổi chất KEEG
Ngân hàng KEGG là ngân hàng chứa toàn bộ các sơ đồ con đường trao đổi chất theo hệ thống lớn nhất hiện nay. Phân tích dữ liệu giải trình tự thế hệ mới theo con đường trao đổi chất sẽ giúp chúng ta hiểu rõ hơn về chức năng sinh học và sự tương tác giữa các gen với nhau. Tổng cộng đã có 865 unigene từ hệ phiên mã thu được từ mô cơ và mô gan tụy của tôm sú được chú giải trên ngân hàng KEGG và đã thống kê được 10 con đường chuyển hóa có số lượng unigene tham gia nhiều nhất (Hình 3.8). Con đường trao đổi chất có số lượng unigene nhiều là metabolic pathways (190 unigene), theo sau là ribosome (80 unigene), oxidative phosphorylation (52 unigene), Huntington’s disease (50 unigene),biosynthesis of antibiotics (47 unigene), , microbial metabolism in diverse environments (45 unigene).
Hình 3.8. Thống kê 10 con đƣờng chuyển hóa có số lƣợng unigene tham gia nhiều nhất
3.6. Sàng lọc các unigene thuộc các nhóm gen/gen giả định liên quan đến tính trạng tăng trƣởng từ hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus trạng tăng trƣởng từ hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus monodon
Hệ phiên mã được chú giải của tôm sú Penaeus monodon sẽ là nguồn tài
nguyên quan trọng cho việc sàng lọc các gen ứng viên liên quan đến những tính trạng quan trọng của tơm sú, đặc biệt là khi so sánh với các phương pháp truyền thống trong việc phân lập các gen chưa biết trình tự bằng việc thiết kế mồi suy diễn (degenerate PCR). Bằng việc tổng quan tài liệu từ các cơng trình khoa học cơng bố thuộc lĩnh vực sinh học phân tử tôm, các nhà khoa học nhận thấy các gen ứng viên liên quan đến tính trạng tăng trưởng ở tơm thường được biểu hiện ở mô cơ và mô gan tụy [36]. Đây cũng chính là lý do chúng tơi đã sử dụng gói dữ liệu giải trình tự từ mơ cơ và mô gan tụy của tôm sú Penaeus monodon phân lập được từ vùng biển Bắc Trung Bộ Việt Nam để lắp ráp de novo hệ phiên mã, chú giải chức năng và
trưởng. Q trình sàng lọc các gen/nhóm gen giả định liên quan đến tính trạng tăng