bố giá trị E-value, B: Thống kê phân bố độ tƣơng đồng, C: Thống kê phân bố loài
Bên cạnh việc được chú giải bằng cơ sở dữ liệu Nr-NCBI, 17.406 unigene của hệ phiên mã tinh sạch lắp ráp từ mô cơ và mô gan tụy của tôm sú Penaeus monodon còn được chú giải bằng các cơ sở dữ liệu Swiss-Prot, Gene Ontology và KEGG. Tổng số 1957 unigen đã được chú giải từ những cơ sở dữ liệu này (Bảng 3.3).
Bảng 3.3: Thống kê kết quả chú giải hệ phiên mã tôm sú trên các cơ sở dữ liệu
Cơ sở dữ liệu Số lượng unigene
được chú giải Nr-NCBI 1950 Swiss-Prot 1546 KEGG 865 GO 1119 Tất cả các cơ sở dữ liệu 1957 Tổng số unigene 17.406 Tỷ lệ chú giải 11,24%
Hình 3.6. Sơ đồ Venn thể hiện kết quả chú giải trên 4 cở sở dữ liệu
Hình 3.6 thể hiện kết quả chú giải trùng nhau giữa các cơ sở dữ liệu. Ví dụ dối với cơ sở dữ liệu Nr-NCBI chú giải được 1950 unigene, cơ sở dữ liệu Swiss-Prot chú giải được 1546 unigene, số lượng unigene chú giải trùng nhau giữa hai cơ sở dữ liệu này là : 331 + 352 + 661 + 196 = 1540 unigene.
3.4. Phân loại Gene Ontology
Để phân loại chức năng đã được chú giải trên các ngân hàng cơ sở dữ liệu, chúng tôi sử dụng phần mềm Blast2GO. Dựa trên độ tương đồng của trình tự unigene, phân tích Gene Ontology đã xác định được 1119 unigene mang các mã chức năng GO và phân loại chức năng của 1119 unigene trong hệ phiên mã tôm sú vào 46 nhóm chức năng khác nhau (Hình 3.7). Trong nhóm Biological Processes, cellular process (558 unigene), metabolic process (552 unigene), biological regulation (193 unigene), pigmentation (165 unigene), và localization (143 unigene) là những nhóm chức năng chiếm ưu thế. Trong nhóm Cellular Component, cell (639 unigene), organelle (375 unigene) và macromolecular complex (232 unigene) lại là những nhóm chức năng điển hình. Và cuối cùng ở trong nhóm Molecular Function, catalytic activity (538 unigene), binding (539 unigene), và structural molecule
activity (102 unigene) là những nhóm chức năng nổi bật. Chú giải GO đã cung cấp thông tin tổng quan về chức năng hệ phiên mã thu được từ mô cơ và mô gan tụy tơm sú.
Hình 3.7. Thống kê thơng tin chú giải chức năng trên ngân hàng Gene Ontology.
3.5. Phân loại con đƣờng trao đổi chất KEEG
Ngân hàng KEGG là ngân hàng chứa toàn bộ các sơ đồ con đường trao đổi chất theo hệ thống lớn nhất hiện nay. Phân tích dữ liệu giải trình tự thế hệ mới theo con đường trao đổi chất sẽ giúp chúng ta hiểu rõ hơn về chức năng sinh học và sự tương tác giữa các gen với nhau. Tổng cộng đã có 865 unigene từ hệ phiên mã thu được từ mô cơ và mô gan tụy của tôm sú được chú giải trên ngân hàng KEGG và đã thống kê được 10 con đường chuyển hóa có số lượng unigene tham gia nhiều nhất (Hình 3.8). Con đường trao đổi chất có số lượng unigene nhiều là metabolic pathways (190 unigene), theo sau là ribosome (80 unigene), oxidative phosphorylation (52 unigene), Huntington’s disease (50 unigene),biosynthesis of antibiotics (47 unigene), , microbial metabolism in diverse environments (45 unigene).
Hình 3.8. Thống kê 10 con đƣờng chuyển hóa có số lƣợng unigene tham gia nhiều nhất
3.6. Sàng lọc các unigene thuộc các nhóm gen/gen giả định liên quan đến tính trạng tăng trƣởng từ hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus trạng tăng trƣởng từ hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus monodon
Hệ phiên mã được chú giải của tôm sú Penaeus monodon sẽ là nguồn tài
nguyên quan trọng cho việc sàng lọc các gen ứng viên liên quan đến những tính trạng quan trọng của tôm sú, đặc biệt là khi so sánh với các phương pháp truyền thống trong việc phân lập các gen chưa biết trình tự bằng việc thiết kế mồi suy diễn (degenerate PCR). Bằng việc tổng quan tài liệu từ các cơng trình khoa học cơng bố thuộc lĩnh vực sinh học phân tử tôm, các nhà khoa học nhận thấy các gen ứng viên liên quan đến tính trạng tăng trưởng ở tơm thường được biểu hiện ở mơ cơ và mơ gan tụy [36]. Đây cũng chính là lý do chúng tơi đã sử dụng gói dữ liệu giải trình tự từ mơ cơ và mơ gan tụy của tôm sú Penaeus monodon phân lập được từ vùng biển Bắc Trung Bộ Việt Nam để lắp ráp de novo hệ phiên mã, chú giải chức năng và
trưởng. Quá trình sàng lọc các gen/nhóm gen giả định liên quan đến tính trạng tăng trưởng được thực hiện dựa trên các nguyên lý của Jung và cộng sự(2013), đó là (i) mối liên quan giữa các gen và tính trạng tăng trưởng đã được cơng bố trong nhóm giáp xác, (ii) các gen liên quan đến tính trạng tăng trưởng trong q trình lột xác ở tơm, (iii) các gen phân giải và phát triển hệ cơ liên quan trong quá trình lột xác. Từ hệ phiên mã lắp ráp và chú giải, chúng tôi sàng lọc được 51 unigene phân bố trong 18 nhóm gen/gen giả định liên quan tới tính trạng tăng trưởng ở tơm sú (Bảng 3.4.). Có 8 nhóm gen được sàng lọc liên quan đến quá trình phân giải và phát triển của hệ cơ trong q trình lột xác, đó là các nhóm gen: Actin, Profilin, Myosin heavy chain, Calponin/calponintransgelin, Tropomyosin, Troponin, Muscle LIM protein và LIM binding domain, đây cũng là những gen đặc trưng cho mô cơ của tôm sú. Các nghiên cứu khác như nghiên cứu phân tích hệ phiên mã từ mơ cơ của tơm càng xanh
Macrobrachium rosenbergii và sàng lọc các gen ứng viên liên quan đến tính trạng
tăng trưởng của Jung và cộng sự [35], nghiên cứu phân tích hệ phiên mã của
Portunus trituberculatus và sàng lọc gen ứng viên liên quan đến tính trạng tăng
trưởng của Lv và cộng sự [47] cũng thu được kết quả về sàng lọc các gen ứng viên đặc trưng cho mô cơ tương tự như trong nghiên cứu của chúng tôi. Mặc dù tỷ lệ chú giải hệ phiên mã tinh sạch trên cơ sở dữ liệu Nr-NCBI của chúng tôi (11,20%) thấp hơn so với các nghiên cứu phân tích hệ phiên mã trên các đối tượng giáp xác khác, tuy nhiên chúng tơi đã sàng lọc được các gen/ nhóm gen giả định liên quan tới tính trạng tăng trưởng tương tự như kết quả sàng lọc trong nhóm nghiên cứu của Jung và cộng sự cũng như kết quả sàng lọc trong nhóm nghiên cứu của Lv và cộng sự. Tuy vậy, nhóm gen mã hóa Myostatin và nhân tố biệt hóa tăng trưởng (growth diferrentiation factor 8/11) có vai trị điều hịa đối với sự phát triển hệ cơ chưa được phát hiện trong số các unigene của hệ phiên mã tinh sạch trong nghiên cứu của chúng tôi. Ở tôm sú P. monodon một nghiên cứu cho thấy đối với nhóm cá thể có mức độ biểu hiện các bản phiên mã của gen MSTN và GDF 11 thấp hơn có tốc độ sinh trưởng thấp hơn khi so sánh với nhóm đối chứng. MSTN và GDF 11 điều hịa âm tính đối với sự phát triển của hệ cơ, sự biểu hiện của các gen này có thể làm tăng
tốc độ tăng trưởng ở cơ thể động vật giáp xác [36]. Có thể do sự biểu hiện thấp của gen MSTN và GDF 11, nên khi đặt giá trị FPKM cutoff = 5, chúng tôi đã loại bỏ các unigene thuộc nhóm gen này trong quá trình xây dựng hệ phiên mã tinh sạch.Ngồi ra có 3 nhóm gen liên quan đến tính trạng tăng trưởng đặc trưng cho mơ gan tụy được sàng lọc trong nghiên cứu của chúng tơi, đó là Alpha-amylase, Fatty acid binding protein liver, Cathepsin L; đây là những gen mã hóa cho những enzyme đóng vai trị quan trọng trong q trình trao đổi chất của tôm sú, đặc biệt là trong việc chuẩn bị nguồn vật chất cho giai đoạn lột xác ở tôm sú. Từ hệ phiên mã lắp ráp và chú giải, chúng tơi sàng lọc được unigene mã hóa isoform CypA thuộc nhóm gen Cyclophilin liên quan tới tính trạng tăng trưởng và đóng vai trò quan trọng trong đáp ứng miễn dịch chống lại các vi sinh vật gây bệnh ở tôm sú. Mặc dù Cyclophilin tham gia nhiều chức năng đa dạng trong đáp ứng miễn dịch tự nhiên và sự phát triển của tinh hoàn, mức độ biểu hiện của Cyclophilin được xác định là có mối tương quan ở mức cao đối với tính trạng khối lượng cơ thể ở tôm sú P. monodon [35],[67]. Trong tương lai chúng tơi có dự định sẽ nghiên cứu mối liên
quan giữa các gen ứng viên được sàng lọc trong nghiên cứu này với tính trạng tăng trưởng của tơm sú phân lập tại Việt Nam. Ngồi ra từ hệ phiên mã mô cơ và mô gan tụy tơm sú, chúng tơi khơng sàng lọc được nhóm gen moult inhibiting hormone và nhóm gen crustacean hyperglycaemic hormone vì đây là những nhóm gen đặc trưng cho mơ gốc mắt của tôm sú.
Bảng 3.4: Liệt kê 51 unigene thuộc 18 nhóm gen/gen giả định liên quan đến tính trạng tăng trƣởng ở tơm sú
STT Các nhóm gen ứng viên Các unigene
1. Alpha-amylase c83210_g1_i1, c44070_g1_i1,
c50035_g1_i1, c61443_g1_i1
2. Cathepsin L c61287_g1_i1, c62382_g1_i2
3. Cyclophilin c19823_g1_i1
c61108_g1_i1 5. Fibrillarin c43879_g1_i1 6. Glyceradehyde-3-phosphate dehydrogenase (GAPDH) c62621_g1_i1 7. Profilin c41374_g1_i1
8. Growth hormone and insulin-like growth factor
c62969_g1_i1, c19902_g1_i1, c54868_g1_i1
9. Secreted Protein Acidic and Rich in Cysteine (SPARC)
c60039_g1_i1
10. Methyl farnesoate and farnesoic acid O-methyltransferase
c60754_g1_i1, c61318_g1_i2
11. Ecdysteroid c50607_g1_i1
12. Calponin/calponintransgelin c13961_g1_i1, c51091_g1_i1
13. Tropomyosin c165984_g1_i1, c54212_g1_i2
14. Muscle LIM protein c62133_g1_i1, c62133_g2_i1, c62133_g3_i1, c43449_g1_i1, c56823_g1_i1
15. Troponin c41556_g1_i1, c37833_g1_i2,
c53843_g1_i1, c53843_g2_i1 16. LIM binding domain c56793_g1_i2, c60234_g1_i2,
c61458_g1_i2
17. Actin c62336_g3_i2, c106986_g1_i1,
c166206_g1_i1, c53399_g1_i1, c151792_g1_i1, c175914_g1_i1 18. Myosin heavy chain c62492_g1_i1, c62492_g3_i1,
c66492_g1_i1, c167495_g1_i1, c372_g1_i1, c20008_g1_i1, c22261_g1_i1, c32014_g1_i1, c43972_g1_i1
3.7. Phân tích biểu hiện hệ phiên mã từ mơ cơ và mô gan tụy tôm sú Penaeus monodon
Ánh xạ dữ liệu trình tự RNA-seq được thực hiện với phần mềm RSEM [35] để từ đó tính tốn được mức độ biểu hiện trên mỗi unigene đặc trưng cho từng mô. Kết quả ánh xạ cho thấy có 13.448 unigene biểu hiện đặc trưng cho mô cơ (giá trị điểm số FPKM của 13.448 unigene này khác 0 ở mô cơ và bằng 0 ở mô gan tụy), 574 unigene biểu hiện đặc trưng cho mô gan tụy (giá trị điểm số FPKM của 574 unigene này khác 0 ở mô gan tụy và bằng 0 ở mô cơ), 3384 unigene biểu hiện ở cả mô cơ và mô gan tụy trong tổng số 17.406 unigene của hệ phiên mã tinh sạch (giá trị FPKM của 3384 unigene này khác 0 ở cả mơ cơ và mơ gan tụy) (Hình 3.9.).
Hình 3.9. Số lƣợng unigene biểu hiện đặc trƣng ở mô cơ (muscle) và mô gan tụy (hepatopancreas) trong tập 17.406 unigene
Sau khi tiến hành tính tốn mức độ biểu hiện cho từng unigene đối với mỗi mô, chúng tôi tiến hành so sánh điểm số biểu hiện của từng unigene và xác định được 16.184 unigene trong tập 17.406 unigene có biểu hiện khác biệt giữa 2 mô, được gọi là DEG (differentially expressed genes)với tham số độ tin cậy FDR ≤ 0,001 (Hình 3.10).
Hình 3.10. Biểu đồ nhiệt (heat map) minh họa điểm biểu hiện của 16.184 unigene DEG trên mơ cơ và mơ gan tụy
Hình 3.10 thể hiện kết quả biểu hiện của 16.184 unigene DEG khi được so sánh theo cặp ở mô cơ và mơ gan tụy, tại mỗi unigene, nếu mơ nào có điểm biểu hiện cao hơn sẽ có màu đỏ hơn và ngược lại biểu hiện thấp hơn sẽ có màu xanh lá
cây.Số lượng các unigene biểu hiện tăng và giảm giữa 2 mô cho thấy có 14.599 unigene biểu hiện tăng trong mô cơ so với mơ gan tụy (vùng màu đỏ bên phía mơ cơ, vùng màu xanh bên phía mơ gan tụy) và 1585 unigene biểu hiện tăng ở mô gan tụy so với mơ cơ (vùng màu đỏ bên phía mơ gan tụy, vùng màu xanh bên phía mơ cơ) với giá trị tuyệt đối |log2(Độ sai khác biểu hiện)| ≥ 2. Bên cạnh đó ở trục tung của hình 3.10, các unigene có độ tương đồng về cấu trúc biểu hiện sẽ được nhóm với nhau thành một nhóm dựa vào phương pháp phân nhóm theo thứ bậc, từ đó phân loại ra được 88 nhóm mơ hình biểu hiện. Trong số 16.184 unigene biểu hiện khác biệt này chỉ có 1400 unigene được chú giải, nguyên nhân là do thông tin về hệ gen của tơm sú đã được cơng bố là rất ít.
Trong 51 unigene tiềm năng thuộc 18 nhóm gen/gen giả định liên quan đến tính trạng tăng trưởng ở tơm sú, có 38 unigene biểu hiện khác biệt giữa mơ cơ và mơ gan tụy, trong đó có 11 unigene biểu hiện tăng ở mô gan tụy so với mô cơ (11 unigene này được bôi đậm màu vàng trong bảng 3.5) và 27 unigene biểu hiện tăng trong mô cơ so với mô gan tụy (27 unigene này được bôi đậm màu xanh trong bảng 3.5) với giá trị tuyệt đối |log2(Độ sai khác biểu hiện)| ≥ 2. Điểm số biểu hiện của 51 unigene tiềm năng (FPKM) đối với mỗi mơ được trình bày trong bảng 3.5.
Bảng 3.5: Điểm số biểu hiện FPKM của 51 unigene tiềm năng liên quan tới tính trạng tăng trƣởng
Nhóm gen Tên unigene Chú giải Mô cơ Mô gan
tụy Alpha-amylase c83210_g1_i1 Pancreatic
alpha-amylase
27,029 6917,533
c44070_g1_i1 alpha-amylase 31,242 2368,829 c50035_g1_i1 alpha-amylase 1,334 119,771 c61443_g1_i1 alpha-amylase 20,326 2199,978
c62382_g1_i2 cathepsin L 178257 3451343 2
Cyclophilin c19823_g1_i1 cyclophilin A 888,178 322,784
Fatty acid-binding protein
c41270_g1_i1 fatty acid- binding liver 172,225 6797,702 c41041_g1_i1 intracellular fatty acid binding 179,259 0
c61108_g1_i1 fatty acid binding
2,88 38,065
Fibrillarin c43879_g1_i1 rRNA 2 -O- methyltransferas e fibrillarin 40,055 1,793 Glyceradehyde-3- phosphate dehydrogenase (GAPDH) c62621_g1_i1 glyceraldehyde- 3-phosphate dehydrogenase 12216,96 3 846,787
Profilin c41374_g1_i1 profilin 8,262 57,504
Growth hormone and insulin-like growth factor c62969_g1_i1 TBC1 domain family member 21,096 0 c19902_g1_i1 insulin-like growth factor- binding complex acid labile subunit isoform X1 0,697 410,095 c54868_g1_i1 insulin- degrading enzyme isoform 28,688 3,677
2
Secreted Protein Acidic and Rich in Cysteine (SPARC)
c60039_g1_i1 SPARC 180,832 1,055
Methyl farnesoate and farnesoic acid O- methyltransferase
c60754_g1_i1 farnesoic acid O- methyltransferas e
104,378 0,226
c61318_g1_i2 farnesoic acid O- methyltransferas e
17,486 1190,412
Ecdysteroid c50607_g1_i1 ecdysone-
inducible E75 isoform X4 24,082 12,417 Calponin/calponintran sgelin c13961_g1_i1 Calponin-3 13,451 51,507 c51091_g1_i1 calponin homology domain- containing DDB_G0272472 isoform X1 9,941 8,198
Tropomyosin c165984_g1_i1 tropomyosin 14474,76 3 42,797 c54212_g1_i2 tropomyosin- isoforms 9A A B isoform X9 71,251 52,14
Muscle LIM protein c62133_g1_i1 muscle lim 63,938 0,09 c62133_g2_i1 muscle LIM
Mlp84B isoform X2
c62133_g3_i1 Muscle LIM Mlp84B
18,999 0,151
c43449_g1_i1 muscle LIM Mlp84B isoform X1
266,45 0
c56823_g1_i1 PDZ and LIM
domain 3
isoform X1
226,992 0
Troponin c41556_g1_i1 troponin skeletal muscle isoform X3 6624,157 2,999 c37833_g1_i2 troponin I 3997,526 1,748 c53843_g1_i1 troponin C isoform 2b 358,133 0
c53843_g2_i1 troponin isoform 1-like
657,603 0,151
Lim domain binding c56793_g1_i2 LIM domain- binding
13,338 5,199
c60234_g1_i2 LIM domain and actin-binding 1
60,813 4,204
c61458_g1_i2 LIM domain- binding
245,858 2,562
Actin c62336_g3_i2 actin 7827,381 3923,766
c106986_g1_i1 actin 0 18,415 c166206_g1_i1 actin 87c 9,722 5,169 c53399_g1_i1 actin-binding Rho-activating - like isoform X1 16,889 0,105
c151792_g1_i1 actin-interacting 1
20,558 10,88
c175914_g1_i1 actin-related 3 35,204 0
Myosin heavy chain c62492_g1_i1 myosin heavy chain type 2
598,655 0,271
c62492_g3_i1 myosin heavy chain type 2
1494,877 0
c66492_g1_i1 myosin heavy chain type 1
21,507 0
c167495_g1_i1 myosin heavy chain
105,672 0
c372_g1_i1 myosin heavy chain type 2
879,047 0
c20008_g1_i1 muscle myosin heavy chain
7,067 6,661
c22261_g1_i1 myosin heavy chain type 1
24,898 0
c32014_g1_i1 myosin heavy chain
21,939 5,862
c43972_g1_i1 myosin heavy chain isoform B
KẾT LUẬN VÀ KIẾN NGHỊ KẾT LUẬN
1. Trong nghiên cứu này, chúng tôi đã đánh giá, tiền xử lý, lắp ráp de novo hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus monodonthu nhận từ vùng biển Bắc Trung Bộ Việt Nam. Số lượng bản phiên mã (transcript) của hệ phiên mã thô là 157.995 và số lượng unigene của hệ phiên mã tinh sạch là 17.046. Hệ phiên mã tinh sạch có kích thước trung bình là 403,06 bp; chỉ số N50 là 402 bp.Toàn bộ các unigene trong hệ phiên mã tinh sạch đã được chú giải với 4 cơ sở dữ liệu khác nhau (Nr-NCBI, Swiss-Prot, KEGG, GO) với kết quả chú giải được 1957 unigene, cung cấp thông tin tổng quan về chức năng hệ phiên mã thu được từ mô cơ, mô gan tụy tôm sú.
2. Đã sàng lọc được 51 unigene thuộc 18 nhóm gen/gen giả định liên quan tới tính trạng tăng trưởng ở tơm sú. Trong đó: Có 8 nhóm gen giả định liên quan tới tính trạng tăng trưởng đặc trưng cho mơ cơ, đó là các nhóm gen: Actin, Profilin, Myosin heavy chain, Calponin/calponintransgelin, Tropomyosin, Troponin, Muscle LIM protein và LIM binding domain. Có 3 nhóm gen giả định liên quan đến tính