Chương 4. BÀN LUẬN KẾT QUẢ
4.8. Ứng dụng kỹ thuật GBS để sàng lọc các đa hình nucleotide đơn (SNP) liên
4.8.1. Đánh giá thư viện, giải trình tự, kết nối các đoạn trình tự và thiết lập hệ gen tham chiếu tạm thời
Công nghệ giải trình tự gen thế hệ mới có thể phân tích được hàng triệu đoạn trình tự (read) với giá thành thấp nhưng hạn chế đi kèm là kích thước các đoạn trình tự thường rất ngắn (DW & Mockler, 2012). Vì vậy, các thuật toán lắp ráp đối với các loài không có hệ gen tham chiếu đã được phát triển để lắp ráp và phân tích cơ sở dữ liệu được tạo ra từ các thiết bị giải trình tự gen thế hệ mới. Hiện nay chưa có phương pháp chuẩn và phổ biến để đánh giá chất lượng các phần mềm lắp ráp (Nguyễn Giang Thu et al., 2015; Narzisi & Mishra, 2011). Lựa chọn phần mềm kết
nối phù hợp cho kết quả kết nối tin cậy là điểm then chốt trong phân tích hệ gen của các loài chưa có hệ gen tham chiếu. Phần mềm kết nối tối ưu là phần mềm sử dụng gần như hoàn toàn các đoạn trình tự để kết nối thành các contig (Zhou et al., 2012;
Nguyễn Minh Thành et al., 2015). Trong khi một số phần mềm như CLC Genomic Workbench v.6.0.4 (Nguyễn Minh Thành et al., 2015), Velvet/Oases (Robertson et al., 2010) hay Trinity (Grabherr et al., 2011) phù hợp cho kết nối các đoạn trình tự được giải mã từ thiết bị Ion Torrent thì phần mềm PEAR được sử dụng trong nghiên cứu này đã được đánh giá là công cụ mới có khả năng kết nối với độ chính xác cao các dữ liệu được giải trình tự từ thiết bị Illumina (Zhang et al., 2014).
Đối với công nghệ giải trình tự của Illumina, kích thước các đoạn đọc trình tự phù hợp thường có độ dài < 150 bp (nếu đọc hai chiều, paired-end) hoặc < 300 bp (nếu đọc một chiều, single-end). Vì hệ gen được cắt ngẫu nhiên nên trong nghiên cứu này, thư viện giải trình tự có kích thước trung bình 208 bp được xem là phù hợp để giải trình tự hai chiều trên thiết bị Illumina NextSeq500. Kích thước này ngắn hơn so với kích thước trung bình của thư viện trong nghiên cứu của Hampton et al.
(2011) (trung bình là 335 bp) khi sử dụng thiết bị Genome Analyzer FLX để đánh giá thư viện và công nghệ giải trình tự Roche GS GLX Titanium Sequencing với PicoTiterPlate Kits.
Tôm sú Penaeus monodon có 44 nhiễm sắc thể. Kích thước hệ gen tôm sú có dung lượng khá lớn, khoảng 2.17×109 bp (You et al., 2010). Với kích thước hệ gen như vậy thì tùy thuộc vào mục tiêu nghiên cứu, đồng thời theo khuyến nghị của Illumina (https://www.illumina.com/science/education/sequencing-coverage.html), độ sâu giải trình tự (depth of sequencing hay sequencing coverage) phù hợp đã được chọn là 50x để thu được dung lượng dữ liệu giải trình tự khoảng 100 Gb. Điều này có nghĩa là số lần đọc đối với mỗi vị trí nucleotide trong giải trình tự là khoảng 50 lần (https://bitesizebio.com/34461/ngs-depth-coverage-deep-sequencing/). Vì hệ gen tôm sú chưa được giải trình tự toàn bộ nên việc chọn độ sâu giải trình tự 50x nhằm tăng độ chính xác cho các kết quả đọc. Hầu hết các công nghệ giải trình tự NGS đều bắt đầu bằng việc cắt nhỏ hệ gen thành các phân đoạn ngắn một cách ngẫu
nhiên, các phân đoạn DNA này được giải trình tự và sau đó được kết nối lại với nhau bằng các công cụ phần mềm. Vì sự phân đoạn là ngẫu nhiên nên sự kết nối càng thành công khi mức độ bao phủ giữa các đoạn trình tự càng lớn (illumina.com, 2016). Do đó trong nghiên cứu này, mặc dù dung lượng dữ liệu giải trình tự thu được lên đến gần 100 GB (vì có rất nhiều tập dữ liệu đọc trình tự được tạo ra từ tập hợp các mẫu phân tích) nhưng kết quả giải trình tự thu được số lượng đoạn trình tự (tiền xử lý) chỉ là 145.836.644.
Từ 102.505.713 đoạn trình tự sau tinh sạch, kết quả kết nối thu được 510.076 contig. Kết quả này là do GBS chỉ giải mã một phần hệ gen ở các vùng ngẫu nhiên sau khi cắt bằng enzyme chứ không giải mã toàn bộ. Sau khi giải trình tự và sử dụng phần mềm để kết nối thì tất cả các đoạn trình tự không đáp ứng được độ sâu bao phủ đều bị loại bỏ, đồng thời cũng có một tỷ lệ nhất định các đoạn read không được sử dụng để kết nối do những hạn chế nhất định của phần mềm kết nối. Mặc dù phần mềm kết nối được sử dụng là phù hợp nhưng không phải tối ưu để có thể sử dụng hết 100% các đoạn read cho lắp ráp contig.
Vì vậy, mặc dù số lượng đoạn trình tự thu được sau giải mã rất lớn nhưng số lượng contig thu được không nhiều. Nhận định này cũng phù hợp với kết quả nghiên cứu của Baranski et al. (2014) trên tôm sú Penaeus monodon Ấn Độ sử dụng công nghệ giải trình tự Illumina RNA-seq: từ 196 triệu đoạn trình tự sau khi kết nối đã thu được 136.223 contig; hay nghiên cứu của Hampton et al. (2011) trên hệ gen loài Ictidomys tridecemlineatus (một loài gậm nhấm thuộc họ Sóc) sử dụng công nghệ giải trình tự Roche 454: từ 3.125.337 đoạn trình tự sau khi kết nối thu được 140.703 contig, có 619.767 read không được sử dụng để kết nối (chiếm tỷ lệ khoảng 19,8%).
Kích thước trung bình của contig trong nghiên cứu của Baranski et al. (2014) là 446 bp, trong đó contig ngắn nhất có kích thước 100 bp. Kết quả này cho thấy có sự phù hợp nhất định so với kết quả nghiên cứu của luận án với dải phân bố kích thước của contig sau khi chọn lọc là từ 70 bp đến > 450 bp.
Về sự phân bố contig theo kích thước: các contig có độ dài trong khoảng 70 -
150 bp chiếm tỷ lệ cao nhất; thấp nhất là các contig kích thước > 450. Kết quả này được lý giải là do chất lượng giải trình tự của thiết bị Illumina NextSeq500 tạo ra các đoạn đọc (reads) kích thước ngắn (tương ứng với các phân đoạn DNA được cắt ngẫu nhiên thành rất nhiều đoạn nhỏ); chất lượng đọc không đồng đều ở tất cả các vị trí gắn DNA trên giếng gắn mẫu (Flow cell). Do đó khi kết nối để tạo contig với độ sâu bao phủ đáp ứng cho kết nối chính xác nhằm hạn chế sai số do lỗi kết nối thì số lượng các contig thu được có kích thước ngắn chiếm tỷ lệ lớn. Trong nghiên cứu của Baranski et al. (2014) cũng cho thấy kích thước trung bình của các read trước khi xử lý là 73 bp, sau khi xử lý còn lại 67 bp.
Theo nhận định của Nguyễn Minh Thành et al. (2015), tiêu chí số lượng lớn contig không phải là tiêu chí tối ưu để lựa chọn phần mềm kết nối phù hợp. Trong khi đó, tiêu chí chiều dài trung bình của các contig là một trong những tiêu chí chuẩn cho việc đánh giá và lựa chọn phần mềm kết nối (Liu et al., 2013; Nguyễn Minh Thành et al., 2015).
Cho đến nay, các nghiên cứu về tôm sú nói chung và genome tôm sú nói riêng trên thế giới phần lớn tập trung vào các lĩnh vực nghiên cứu đa hình di truyền, xây dựng các nhóm gen liên kết, chọn giống, bệnh học tôm, nghiên cứu hệ gen phiên mã...; rất ít các công bố về genome và thiết lập hệ gen tôm sú giả định. Một số công bố về gen chủ yếu là nghiên cứu gen chức năng ở tôm sú và các đối tượng tôm khác như: gen CHH ở tôm tôm càng xanh Macrobrachium rosenbergii (Nguyễn Minh Thành et al., 2011), gen kinase 1 ở Penaeus monodon (Qiu et al., 2018), các gen liên quan đến bệnh tôm... Do đó, việc giải trình tự được một phần genome tôm sú và thiết lập được trình tự genome tôm sú giả định trong nghiên cứu này sẽ là cơ sở khoa học hữu ích cho các nghiên cứu tiếp theo.
4.8.2. Sàng lọc SNP và chú giải gen chức năng
Tổng số SNP xác định được trong nghiên cứu này nhiều hơn so với một số nghiên cứu của các tác giả khác trên các đối tượng tôm như nghiên cứu của Kumar (2014) trên tôm sú P. monodon (422 SNP), nghiên cứu của Du et al. (2010) trên tôm thẻ chân trắng Litopenaeus vannamei (1344 SNP); tuy nhiên ít hơn so với
nghiên cứu của Nguyễn Minh Thành et al. (2015) trên đối tượng cá tra (21.302 SNP). Trong nghiên cứu của Baranski et al. (2014) trên tôm sú Penaeus monodon Ấn Độ sử dụng công nghệ giải trình tự Illumina RNA-seq: 473.620 SNP giả định đã được xác định. Như vậy có sự khác nhau đáng kể về số lượng SNP sàng lọc được ở các nghiên cứu khác nhau trên các đối tượng tôm khác nhau. Điều này có thể do nhiều nguyên nhân gây nên. Tuy nhiên nếu loại trừ sai số về mặt kỹ thuật thì nguyên nhân cơ bản lý giải cho hiện tượng này là do các nghiên cứu khác nhau tiến hành giải trình tự trên những phần khác nhau của hệ gen và thường chỉ bao phủ một tỷ lệ rất nhỏ so với hệ gen hoàn chỉnh. Cụ thể trong nghiên cứu này, vì hệ gen tham chiếu giả định được thiết lập de novo chỉ bao phủ khoảng 3,5% hệ gen hoàn chỉnh của tôm sú (kích thước khoảng 2.17×109 bp theo You et al., 2010), do đó số lượng SNP sàng lọc được có sự sai khác lớn so với nghiên cứu của các tác giả khác, thậm chí trên cùng đối tượng là tôm sú Penaeus monodon.
Kết quả sàng lọc SNP trên genome của cả hai nhóm tôm sú tăng trưởng nhanh và tăng trưởng chậm cho thấy số lượng SNP chỉ xuất hiện ở nhóm tôm tăng trưởng nhanh (mà không xuất hiện ở nhóm tôm tăng trưởng chậm) là tương đối nhiều (1799 SNP). Điều này mở ra một hướng phân tích và khai thác dữ liệu rất có ý nghĩa thực tiễn, đó là tìm kiếm các chỉ thị SNP có khả năng liên kết với tính trạng tăng trưởng ở tôm sú. Vì hệ gen của đa số loài thủy sản nói chung và tôm sú nói riêng hiện nay chưa được giải mã hoàn toàn nên việc xác định được các SNP liên kết với các gen chức năng sẽ mở ra nhiều tiềm năng ứng dụng đối với ngành nuôi trồng thủy sản. Theo Salem et al. (2012), SNP giải thích 90% sự khác biệt di truyền giữa các cá thể và quá trình trao đổi chéo trong phân bào giảm nhiễm rất hiếm khi tách rời chỉ thị SNP khỏi gen chức năng khi SNP được xác định nằm trên hoặc gần gen chức năng (Nguyễn Minh Thành et al., 2015).
Với mục tiêu tìm kiếm chỉ thị SNP liên kết với tính trạng tăng trưởng nên chỉ những đoạn trình tự (contig) chứa SNP được sử dụng làm dữ liệu đầu vào để chú giải gen chức năng. Kết quả thu được cho thấy chỉ có khoảng 17,67% (tương ứng với số lượng 510) contig cho kết quả chú giải tương ứng, phần lớn contig (chiếm tỷ
lệ 82,33%) không cho kết quả chú giải gen chức năng. Nguyên nhân có thể do đây là những đoạn trình tự mới so với dữ liệu của nr-NCBI và đặc hiệu đối với loài Penaeus monodon. Ngoài ra còn có thể do một số nguyên nhân khác. Kết quả này cũng phù hợp với nhiều nghiên cứu về chú giải gen chức năng sử dụng công cụ BlastX trên nr-NCBI (Nguyễn Hải Bằng et al., 2017; Nguyễn Minh Thành et al., 2015; Jung et al., 2011).
Trong nghiên cứu của Baranski et al. (2014) trên tôm sú Penaeus monodon Ấn Độ, tỷ lệ contig được chú giải thành công bằng công cụ Blast chỉ chiếm khoảng 16%, tương ứng với số contig được chú giải thành công chưa đến 500 contig. Kết quả này phù hợp về tỷ lệ so với kết quả nghiên cứu của luận án. Kết quả này cũng cho thấy số lượng các chuỗi trình tự của các loài giáp xác được công bố trên Ngân hàng gen là không nhiều. Theo số liệu thống kê ngày 01 tháng 10 năm 2013, trên GenBank có 39.908 trình tự biểu hiện (expressed sequence tags - EST) có tiềm năng được sử dụng để phát hiện các locus đa hình (chẳng hạn như các SNP đa hình) và có khoảng 600 trình tự microsatellite (Baranski et al., 2014).
Theo kết quả chú giải, gen mã hóa protein Myosin Heavy Chain Type a, kí hiệu là MHCa (với geneID là gi|343183153|dbj|BAK61429.1|) xuất hiện ở loài tôm Marsupenaeus japonicus và gen mã hóa protein Myosin Heavy Chain Type 1, kí hiệu là MHC1 (với geneID là gi|410509306|dbj|BAM65719.1|) xuất hiện ở tôm sú Penaeus monodon. Hai gen này thuộc nhóm gen mã hóa chuỗi nặng của phân tử protein myosin.
Myosin là thành phần quan trọng của phức hệ co cơ, nó bao gồm hai chuỗi nặng và bốn chuỗi nhẹ, thuộc về một siêu họ protein lớn. Các protein myosin đều có vùng chức năng chung liên kết với actin tạo tơ cơ dày, thủy phân ATP và tạo lực co cơ. Các dạng đồng phân (isoform) của myosin biểu hiện ở hầu hết các tế bào nhân thực và được biểu hiện mạnh trong tế bào cơ (Jung et al., 2013).
Ở tôm Farfantepenaeus paulensis, sự biểu hiện mạnh hơn của gen mã hóa chuỗi nặng của myosin được quan sát thấy ở nhóm tôm có khối lượng cơ thể lớn hơn. Điều này cho thấy gen MHC là ứng viên quan trọng cho các nghiên cứu về
tính trạng tăng trưởng. Ngoài ra đối với sự tích lũy các khối cơ ở giáp xác, mức độ biểu hiện của các gen myosin có thể coi như chỉ thị phân tử cho tiềm năng tăng trưởng của cá thể (Jung et al., 2011; Jung et al., 2013).
4.8.3. Xác định chỉ thị SNP và tương quan về vị trí của chỉ thị SNP so với gen MHC
Theo tác giả Liu (2007), SNP thường xuất hiện ở đoạn gen không mã hóa và chọn lọc tự nhiên nói chung bảo tồn đoạn gen mã hóa vì tính chất quan trọng của gen mã hóa. Tác giả De-Santis & Jerry (2007) cũng công bố các marker đa hình xuất hiện ở đoạn gen mã hóa của hormon tăng trưởng ở cá thường rất hiếm so với mức độ phổ biến của marker xuất hiện ở đoạn gen không mã hóa (Nguyễn Minh Thành et al., 2011). Nghiên cứu của nhóm tác giả Nguyễn Minh Thành et al. (2011) về xác định mối tương quan giữa SNP của gen CHH (crustacean hyperglycemic hormone) với tính trạng tăng trưởng ở tôm càng xanh (Macrobrachium rosenbergii) cũng cho thấy tất cả các SNP sàng lọc được đều xuất hiện ở đoạn gen không mã hóa (intron). Như vậy, hai SNP được phát hiện trong nghiên cứu của chúng tôi (thuộc vùng mã hóa - exon - của gen MHC) có sự khác biệt rõ nét so với nhận định của nhiều tác giả về sự xuất hiện của chỉ thị SNP. Chỉ thị SNP đã được khẳng định là có thể xuất hiện ở vùng gen mã hoá, tác động trực tiếp đến tính trạng quan tâm và rất hiệu quả trong việc xác định mối tương quan giữa SNP với tính trạng (Beuzen et al., 2000, Nguyễn Minh Thành et al., 2011).
Hiện nay chỉ có vài công bố về mối tương quan có ý nghĩa giữa SNP với các tính trạng có giá trị kinh tế ở đối tượng thủy sản. Đó là SNP xuất hiện ở gen amylase có liên quan đến tốc độ tăng trưởng của hàu Crassostrea gigas (Prudence et al., 2006), SNP xuất hiện ở gen parvalbumin ảnh hưởng đến tăng trưởng của cá chẽm Lates calcarifer (Xu et al., 2006). Nhóm nghiên cứu Zeng et al. (2008) đã công bố SNP ở gen Hsp70 có liên quan đến khả năng kháng bệnh của tôm thẻ chân trắng Litopenaeus vannamei. Nghiên cứu của Nguyễn Minh Thành et al. (2011) đã sàng lọc được SNP xuất hiện ở các đoạn không mã hóa của gen CHH. Việc ứng dụng SNP trong các chương trình chọn giống còn khá mới mẻ. Đa số các nghiên
cứu sàng lọc chỉ thị SNP được thực hiện đối với hệ phiên mã (transcriptome) (Nguyễn Minh Thành et al., 2015; Nguyễn Giang Thu et al., 2015; Gao et al., 2012;
Jung et al., 2011)… Một số nghiên cứu sử dụng SNP để sàng lọc các gen tiềm năng liên quan đến tính trạng tăng trưởng ở một số đối tượng thuỷ sản như ở cá hồi Salvelinus alpinus (Tao and Boulding, 2003), tôm thẻ chân trắng Penaeus (Litopenaeus) vannamesi và tôm sú P. monodon (Glenn et al., 2005)...
4.8.4. Vùng tương đồng giữa contig chứa SNP so với gen mã hóa protein MHC Kết quả so sánh các chuỗi trình tự tương ứng (nucleotide, amino acid) giữa contig83953 và contig260347 với trình tự của gen MHCa và MHC1 đã cho thấy vị trí của vùng tương đồng nằm trong phân vùng chức năng LMM trên phân tử protein myosin. Kết quả này trùng khớp giữa cặp Contig83953 - MHCa và cặp Contig260347 - MHC1 cho thấy sự chính xác và tin cậy của dữ liệu phân tích.
Myosin là một hexamer bao gồm các tiểu đơn vị (các chuỗi nặng - myosin heavy chain - MHC và các chuỗi nhẹ - myosin light chain - MLC). Các phân vùng chức năng trên phân tử myosin đã được xác định (Koyama et al., 2012), bao gồm:
- Vùng S1 (subfragment-1): có chức năng liên kết ATP và actin. Chuỗi S1 gồm 3 phân vùng 25 kDa, 50 kDa, 20 kDa. Vùng 25 kDa và 50 kDa kết nối tín hiệu bởi vùng loop-1, trong khi vùng 50 kDa và 20 kDa được kết nối bởi vùng loop-2. Vùng loop-1 và loop-2 có chức năng trượt myosin trên sợi actin và trong quá trình hoạt hóa actin myosin hoạt hóa Mg2+-ATPase.
- Vùng S2 (subfragment-2): hoạt hóa chức năng trượt và điều hòa cơ vân.
- Vùng LMM: gồm các tiểu đơn vị protein liên kết actin, được hình thành bởi quá trình thủy phân trypsin, sau thủy phân hình thành hai loại meromyosin:
HMM (heavy meromyosin) và LMM (light meromyosin).
Kết quả nghiên cứu của chúng tôi là phát hiện đầu tiên về chỉ thị SNP nằm trong exon của gen MHC ở họ giáp xác. Tuy nhiên, để có thể khẳng định được hai SNP này có phải là SNP thực sự hay không thì cần phải tiến hành thêm các nghiên cứu sâu hơn nữa về lai giống và di truyền số lượng để kiểm tra sự di truyền của các SNP, đồng thời cần sàng lọc SNP trên quần đàn lớn hơn. Việc khẳng định sự tồn tại