Tổng số 140 con tôm sú trƣởng thành không mắc bệnh đƣợc thu thập tại vùng biển Nghệ An, do viện nuôi trồng thủy sản 2 cung cấp (vùng Bắc Trung Bộ).
Hình 2.1Tôm sú thu từ vùng biển Nghệ An
2.1.2 Hóa chất vàsinh phẩm
- Kit tinh sạch mRNA (Dynabeads mRNA DIRECT TM Micro Kit- Lifetechnology).
- Kit tạo thƣ viện cDNA.
- Hóa chất:Choloroform, Trizol, ethanol,elution buffer…dùng trong sinh học phân tử của các hãng uy tín nhƣ Invitrogen, Sigma, Merck…
2.1.3 Trang thiết bị
- Trang thiết bị nghiên cứu: Tủ lạnh sâu -20oC, -80oC (sanyo, Nhật Bản), máy quang phổ (NanoDrop, Techmo Scientific, Mỹ), box cấy vô trùng (Sanyo), bộ nguồn điện di (Bio-Rad), bộ điện di DNA (Advance, Nhật Bản), pipettman
các loại (Gilson), máy li tâm lạnh tốc độ cao (Sorvall), máy lắc ổn nhiệt 37o
C, máy khuấy từ (IKA, Đức), máy khuấy trộn Vortex, cân phân tích 10-4
g (Mettler Toledo), cân điện 10-2
g (Mettler Toledo).
2.2 Phƣơng pháp nghiên cứu
2.2.1 Phƣơng pháp tách chiết RNA tổng số
Nghiền mô trong Nito lỏng, sau đó đồng hóa trong dung dịch Trizol. Ly tâm 12.000 vòng/phút, 15 phút ở 4o
C, thu dịch nổi.
Bổ sung vào dịch nổi chloroform:isoamyl (24:1) với tỷ lệ 1:1, đảo đều. Ly tâm 12.000 vòng/phút, 15 phút ở 4o
C, thu dịch nổi.
Tủa RNA tổng số bằng việc bổ sung isopropanol với tỷ lệ 1:1 và để ở nhiệt độ phòng 15 phút.
Ly tâm 12.000 vòng/phút, 30 phút ở 4o
C. Rửa tủa bằng cồn 70% và hòa tủa trong nƣớc đƣợc xử lý DEPC.
RNA đƣợc định lƣợng bằng NanoDrop.
2.2.2 Phƣơng pháp tinh chế mRNA.
Trong nghiên cứu này, chúng tôi sử dụng bộ sinh phẩm Dynabeads mRNA DIRECT TM Micro Kit (Life technology) để tiến hành tinh chế mRNA từ RNA tống số, cụ thể nhƣ sau:
1. Chuẩn bị
Đƣa hạt Dynabeads về nhiệt độ phòng.
Ủ với nƣớc siêu sạch không chứa nuclease (180 µl /mẫu) tại 80C.
Đặt bể ổn nhiệt 70C.
2. Thí nghiệm a) Rửa hạt beads
Dùng pipet hút thể tích hạt beads phù hợp với lƣợng RNA tổng số đầu vào (100 µl).
Đặt Ependorf chứa hạt bead lên giá từ, loại bỏ dịch nổi.
Rửa lại hạt beads bằng thể tích tƣơng đƣơng Lysis/Binding Buffer.
Vortex nhẹ, spin.
b) Xử lý mẫu RNA tổng số
Pha loãng mẫu RNA tổng số với nồng độ từ 20 – 50 µg trong tổng thể tích 300 µl bằng nƣớc deion không chứa nuclease.
c) Tinh sạch mRNA 2 lần qua cột
Mẫu RNA sau pha loãng đƣợc xử lý nhiệt trong 2 phút 70C.
Thêm thể tích tƣơng tự Lysis/Binding Buffer vào mỗi mẫu, trộn đều, spin nhẹ.
Gắn mRNA vào hạt beads:
+ Chuyển hạt beads vào các giếng của phiến nhựa 96 giếng. + Bổ sung RNA đã xử lý nhiệt vào các giếng.
+ Mix hỗn hợp 10 lần bằng pipet, ủ nhiệt độ phòng trong 5 phút.
+ Đặt phiến lên giá từ, khi dung dịch đã trong trở lại (hạt beads lắng xuống đáy) loại bỏ dịch trong.
Rửa RNA
+ Chuyển phiến ra khỏi giá từ, bổ sung vào giếng 600 µl Washing buffer A, đảo lên xuống 10 lần bằng pipet.
+ Thực hiện tƣơng tự với Washing buffer B.
Hòa lại RNA
Cặn hạt từ thu đƣợc sau khi rửa với Washing buffer B đƣợc hòa lại bằng 90 µl nƣớc deion (đã đƣợc ủ trƣớc ở 80C), trộn đều 10 lần và để nhiệt độ phòng 30 giây.
+ Bổ sung Lysis/Binding Buffer vào các giếng, trộn đều 10 lần. + Ủ nhiệt độ phòng 5 phút.
+ Đặt đĩa trên giá từ và loại bỏ dịch nổi. + Lặp lại bƣớc rửa mRNA.
Hòa lại mRNA trong 30 µl nƣớc deion không chứa nuclease, sử dụng ngay để tổng hợp cDNA hoặc bảo quản trong tủ - 80oC.
2.2.3 Tạo thƣ viện cDNA
a)Cắt nhỏ mRNA sau khi tinh sạch
Bổ sung 19 µl RNA Seq Fragmentation Mix vào mỗi giếng của phiến 96 giếng chứa mRNA đã tinh chế.
Dán kín phiến và lắc nhẹ nhàng trong 5 giây. Li tâm nhanh phiến trong máy li tâm chuyên dụng để thu dịch trong.
Đặt phiến vào máy chu kỳ nhiệt và chạy chƣơng trình để phân cắt RNA: 94oC 8 phút, sau đó chuyển sang giữ ở 4 o
C.
b) Tổng hợp cDNA sợi thứ nhất:
Chuyển phiến chứa RNA đã phân cắt cùng với hạt từ từ máy chu kỳ nhiệt sang giá từ ở nhiệt độ phòng. Để phiến trên giá từ ít nhật 5 phút.
Nhẹ nhàng chuyển 17 µl dịch nổi chứa mRNA đã phân cắt sang phiến nhựa mới.
Bổ sung 8,5 µl of First Strand Master Mix/Actinomycin D mixture vào mỗi giếng chứa mRNA đã phân cắt.
Dán kín phiến và lắc nhẹ nhàng trong 5 giây.
Li tâm phiến ở 1500 x g trong 1 phút.
Để phiến vào máy chu kỳ nhiêt và chạy chƣơng trình: bƣớc 1: 25o
C 10 phút, bƣớc 2: 37oC 40 phút, bƣớc 3: chyển sang giữ ở 4o
C.
Bổ sung 25 µl RNA Seq Second Strand + End Repair Enzyme Mix vào 20µl mẫu cDNA sợi thứ nhất đã chuẩn bị.
Bổ sung 5 µl RNA Seq Second Strand + End Repair Oligo Mix vào mỗi giếng, nhƣ vậy ta sẽ có 50 µl dịch trong mỗi giếng.
Gián kín phiến và lắc nhẹ nhàng trong 5 giây.
Li tâm phiến ở 1500 x g trong 1 phút.
d)Khuếch đại các đoạn DNA đã gắn Adaptor
Các đoạn DNA đã gắn Adaptor đƣợc khuếch đại bằng PCR với cặp mồi đặc hiệu gắn adaptor.
Phản ứng khuếch đại cDNA:
Thành phần Số lƣợng
Platinum® PCR SuperMix High Fidelity
45µl Miseq 5’ PCR Primer v2 1 µl
Miseq 3′ PCR Primer v2 1 µl
Tổng 47 47 µl
+ Chuyển 6 µl mẫu cDNA vào ống PCR mới
+ Chuyển 47µl PCR mix vào 6 µl mẫu cDNA ở trên + Đảo ống phản ứng để hòa tan đều
+ Chạy PCR với chu trình nhiệt nhƣ sau
Các bƣớc Nhiệt độ Thời gian
Kéo dài 94 ºC 2 phút
Chu kỳ 1 (2 chu kỳ)
94 ºC 30 giây
50 ºC 30 giây
Chu kỳ 2 (14 chu kỳ)
94 ºC 30 giây
62 ºC 30 giây
68 ºC 30 giây
Kéo dài 68ºC 5 phút
Tinh sạch cDNA vừa khuếch đại: cDNA đƣợc tinh sạch bằng hạt từ (Nucleic Acid Beads) và các dung dịch đệm đƣợc cung cấp cùng với kit trên.
Thƣ viện cDNA sau khi tinh sạch đƣợc gửi đi giải mã trên hệ giải trình tự gen thế hệ mới Illumina MiSeq
2.2.4 Phƣơng pháp Phân tích dữ liệu
2.2.4.1 Lắp ráp de novo hệ phiên mã.
Dữ liệu trình tự đọc sau khi đƣợc giải trình tự sẽ đƣợc tiền xử lý để loại bỏ adaptor và trình tự xấu do lỗi của máy giải trình tự. Những trình tự đọc có chất lƣợng base quá thấp (chất lƣợng nhỏ hơn 20) cũng nhƣ số base nhiễu nhiều (mỗi trình tự đọc có >2% N base) sẽ đƣợc chỉnh sửa bằng công cụ cutadapt (https://code.google.com/p/cutadapt/). Những trình tự đọc chất lƣợng cao từ bốn mô: mô cơ, mô tim, mô gan tụy, mô gốc mắt, đƣợc lắp ráp để tạo nên hệ phiên mã bao gồm các unigene của tôm sú bằng phần mềm Trinity (http://trinityrnaseq.sourceforge.net/) [16] với tham số mặc định.
2.2.4.2 Phát hiện SNP marker trong ngân hàng Unigene.
Các trình tự unigene bên cạnh đó cũng sẽ đƣợc khai phá các marker đa hình đơn nucleotide SNP hay các marker mất/thêm đoạn nhỏ Insert/Delete. Chúng tôi ánh xạ các trình tự đọc ngƣợc trở lại vào hệ phiên mã tham chiếu vừa lắp ráp bằng phần mềm Bowtie2. Kết qủa ánh xạ sẽ đƣợc 2 công cụ SAMtools và VarScan (http://varscan.sourceforge.net/) [23] xử lý để tìm ra các locus tiềm năng bị thay đổi nucleotide. Để sàng lọc kết quả dƣơng tính giả
do lỗi giải trình tự hoặc mẫu nhiễm trình tự lạ chúng tôi áp dụng các tham số sau: chỉ lấy những trình tự đọc có chất lƣợng ánh xạ lớn hơn 20, tần số alen của biến dị phải lớn hơn 0,1 và độ sâu tối thiểu của alen biến dị phải lớn hơn 10.
2.2.4.3 Chú giải và phân loại unigene trong hệ phiên mã.
Chú giải chức năng cho các unigene trong hệ phiên mã đòi hỏi phải sử dụng những thuật toán tìm kiếm tƣơng đồng trên các cơ sở dữ liệu protein quan trọng. Tôi sử dụng công cụ BLAST+ với chƣơng trình BLASTx để so sánh toàn bộ unigene lên các cơ sở dữ liệu NCBI non-redundant protein (Nr,
http://www.ncbi.nlm.nih.gov/), với tham số E-value là 1e-6. Trong khi đó với những unigene không đƣợc chú giải trên cơ sở dữ liệu Nr-NCBI, phần mềm ESTScan [18] sẽ dự đoán vùng mã hóa tiềm năng trong chuỗi trình tự của unigene. Kết quả chú giải từ ngân hàng Nr sau đó đƣợc phần mềm Blast2GO [10] sử dụng để lấy ra mã Gene Ontology (GO) riêng biệt cho mỗi unigene. Toàn bộ unigene trong hệ phiên mã sẽ đƣợc ánh xạ vào các mã GO và phân loại dựa vào 3 hạng mục: quá trình sinh học, thành phần tế bào và phân tử chức năng. Trong nghiên cứu này tôi tập chung vào nghiên cứu và phân loại unigene tiềm năng liên quan tới tính trạng tăng trƣởng.
2.2.4.4 Phát hiện SNP liên quan đến tính trạng tăng trưởng
Sau khi phân tích dữ liệu trên máy chủ của viện Công Nghệ Sinh học, thu đƣợc dữ liệu phát hiện marker SNP (file.vcf gồm: tên unigene, vị trí biến đổi trên gen tham chiếu và vị trí SNPtƣơng ứng, thông tin, định dạng…) và tiến hành thống kê SNP.
Blast các trình tự unigene lên ngân hàng Nr-NCBI bằng phần mềm blast2GO và phân tích thống kê với công cụ Microsoft Excel, dùng bộ lọc Filter và hàm VLOOKUP thống kê số lƣợng gene liên quan tới tính trạng tăng trƣởng, các gen tăng trƣởng chứa SNP, vị trí SNP trên hệ gen tham chiếu. Từ
đây lọc ra những chỉ thị SNP liên quan tới tính trạng tăng trƣởng ở loài tôm sú.
3 CHƢƠNG III. KẾT QUẢ VÀ THẢO LUẬN
3.1 Tinh chếmRNAtừ RNA tổng số.
Trong nghiên cứu này, chúng tôi sử dụng bộ sinh phẩm Dynabeads mRNA DIRECT TM Micro Kit của hãng Life Technology để tiến hành tinh chế mRNA từ RNA tổng số tách từ 4 mô (mô cơ, gan tụy, tim và gốc mắt) nhƣ đƣợc trình bày trong phần Phƣơng pháp nghiên cứu. Nồng độ mRNA đƣợc xác định bằng máy NanoDrop (Bảng 3.1). Theo hƣớng dẫn của Illumina, nồng độ mRNA cần thiết để thực hiện tạo thƣ viện cDNA là 20 ng/µl trở lên. Kết quả Bảng 3.1cho thấy, các mẫu mRNA đảm bảo độ tinh sạch và nồng độ cho phản ứng tiếp theo.
Bảng 3.1Nồng độ mRNA của 4 mô
Stt Loại mô OD260/280 Nồng độ (ng/µl )
1 Mô cơ 1,95 28,6
2 Mô tim 1,90 21,1
3 Mô gan tụy 2,06 30,5
4 Mô gốc mắt 1,78 26,8
3.2 Tạo thƣ viện cDNA
Bộ sinh phẩm Truseq strand mRNA library preparation kit (Illumina) sử dụng để tạo thƣ viện cDNA, các bƣớc tiến hành nhƣ trình bày trong phần Phƣơng pháp nghiên cứu. Chất lƣợng cDNA (kích thƣớc và độ tinh khiết) đƣợc kiểm tra bằng máy Bioanalyzer, sử dụng bộ sinh phẩm High Sensitivity DNA assay (Agilent Technologies) trƣớc khi đƣa lên hệ thống giải trình tự gen thế hệ mới (NGS) Illumina MiSeq. Các thƣ cDNA trên đều đảm bảo chất lƣợng theo tiêu chuẩn của Illumina, với kích thƣớc chủ yếu từ 300-400 bp.
Hình 3.4Kiểm tra chất lƣợng thƣ viện cDNA của mô gốc mắt
3.3 Phân tích dữ liệu và tìm các SNP liên quan đến tính trạng tăng trƣởng.
Mẫu đƣợc đƣa lên hệ thống giải trình tự gen thế hệ mới Illumina MiSeq và thực hiện theo hƣớng dẫn của nhà sản xuất. Kết quả giải trình tự đƣợc thu nhận dƣới dạng bộ dữ liệu gồm 8 file fastq, đọc 2 chiều (xuôi – ngƣợc), có
dung lƣợng nhƣ Bảng 3.2Các dữ liệu này đƣợc đánh giá chất lƣợng, tiền xử lý và lắp ráp de novo hệ phiên mã.
Bảng 3.2Mô tả bộ dữ liệu sau khi giải trình tự
Tên mô Tên file dữ liệu Dung lƣợng (Gigabite)
Mô cơ Mc_R1.fastq 5,6
Mc_R2. fastq 5,7
Mô tim Mt_R1. fastq 8,9
Mt_R2. fastq 8,9
Mô gan tụy Gt_R1. fastq 6,9
Gt_R2. fastq 6,9
Mô gốc mắt Gm_R1.fastq 7,7
Gm_R1.fastq 7,7
3.3.1 Đánh giá chất lƣợng và tiền xử lý dữ liệu
Dữ liệu giải trình tự thu đƣợc từ máy Illumina Miseq đƣợc lƣu ở định dạng paired-end (dữ liệu giải trình tự từ hai đầu vào). Do đó, mỗi bộ dữ liệu sẽ đƣợc lƣu ở hai tập dữ liệu (Forward – Read 1 và Reverse – Read 2). Tổng số đoạn trình tự thu đƣợc và độ dài ở một tập dữ liệu theo các mô nhƣ sau (Bảng 3.3): Mô tim thu đƣợc 22.531.716 đoạn trình tự có độ dài từ 35 – 200 nt; Mô gốc mắt thu đƣợc 23.217.832 đoạn trình tự có độ dài từ 35 – 151 nt; Mô gan tụy thu đƣợc 20.512.979 đoạn trình tự có độ dài từ 35 – 151 nt và số đoạn trình tự thu đƣợc từ mô cơ là 12.312.819 với độ dài từ 35-251 nt. Kết quả đánh giá chất lƣợng giải trình tự bằng phần mềm FASTQC cho thấy dữ liệu giải trình tự ở tất cả mô có chất lƣợng tƣơng đối tốt. Tuy nhiên vẫn có một số trình tự (nt) ở cuối đoạn trình tự có chất lƣợng chƣa đƣợc tốt cần phải
đƣợc loải bỏ để đảm bảo mức độ tin cậy cho các bƣớc phân tích tiếp theo, đặc biệt là với mô cơ (Hình 3.5– Dữ liệu thô).
Bảng 3.3Thống kê số lƣợng độ dài trình tự của 4 mô trƣớc và sau khi tiền xử lý
Mô tim Mô gốc mắt Mô gan tụy Mô cơ
Tổng số đoạn trình tự (paired-end) 22.531.716 23.217.832 20.512.979 12.312.819 Tổng số đoạn trình tự sau tinh
sạch (paired-end) 18.113.880 17.715.691 17.964.211 8.533.944 % số đoạn trình tự giữ lại 80,39% 76,30% 87,57% 69,31% Độ dài read trƣớc khi tiền xử lý
(nt) 35-200 35-151 35-151 35-251
Độ dài read sau khi tiền xử lý (nt) 70-200 70-151 70-151 70-251
Tổng pair-end read chất lƣợng
tốt của 4 mô 62.327.726
Phần mềm Trimmomatic đƣơc sử dụng để loại bỏ dữ liệu có chất lƣợng kém với tham số nhƣ sau: Tất cả các trình tự có điểm chất lƣợng nhỏ hơn 30 (QC <30) và đoạn trình tự có kích thƣớc nhỏ hơn 70 nt sẽ đƣợc tinh sạch. Kết quả số lƣợng đoạn trình tự con lại sau tinh sạch ở các mô nhƣ sau: Đối với mô tim là 18.113.880 đoạn trình tự (80,39 % dữ liệu thô); mô gốc mắt 17.715.691 đoạn trình tự (76,30 % dữ liệu thô); mô gốc mắt là 17.964.211 đoạn trình tự (87,57 % dữ liệu thô) và số đoạn trình tự đạt tiêu chuẩn của mô cơ là 8.533.944 chiếm 69,31 % dữ liệu thô (Bảng 3.3). Từ hình Hình 3.5(Sau tinh sạch) cho thấy, tất cả các đoạn trình tự đều có điểm chất lƣợng tốt và nằm trong vùng an toàn (vùng màu xanh của biểu đồ). Tổng kết lại tổng số đoạn trình tự thô thu đƣợc từ 4 mô là 78.575.346 đoạn trình tự sau quá trình tinh sạch thu lại đƣợc 62.327.726 đoạn trình tự có chất lƣợng tốt (Bảng 3.3). Từ những kết quả trên cho thấy dữ liệu đạt tiêu chuẩn để tiến hành các bƣớc phân tích tiếp theo.
Dữ liệu thô Dữ liệu tinh sạch Mô tim Mô gốc mắt
Mô gan tụy
Mô cơ
3.3.2 Lắp ráp de-novo hệ phiên mã
Bốn bộ dữ liệu từ mô cơ, mô tim, mô gan tụy, mô gốc mắt sau khi tiền xử lý loại bỏ những trình tự đọc chất lƣợng thấp (QC <30), chúng tôi tiến hành lắp ráp de-novo hệ phiên mã bằng phần mềmTrinity. Theo đánh giá của phần mềm, chỉ có 45.876.462 trình tự read đƣợc sử dụng cho việc lắp ráp, chiếm 73,60 % so với số read đã xử lý ban đầu (Bảng 3.4). Kết quả lắp ráp
de-novo thu nhận đƣợc 69.089 unigene vớichỉ số N50 tƣơng ứng là 481 nt, số lƣợng read sử dụng cho lắp ráp là 45.876.462 (tƣơng ứng với 73,6% tổng số read thu nhận đƣợc) vàsự phân bố kích thƣớc nhƣ Hình 3.6.
Chỉ số N50 đƣợc tính bằng: (tổng độ dài unigene)/2 với các unigene đƣợc sắp xếp từ lớn đến nhỏ. Chỉ số N50 càng cao thì chất lƣợng dữ liệu phân tích càng tốt.
Bảng 3.4Thống kê chất lƣợng lắp ráp
Tổng số unigene lắp ráp 69.089
Tổng độ dài unigene lắp ráp (nt) 30.944.348 Độ dài lắp ráp unigene trung bình (nt) 447,89
N50 của unigene 481
Tổng số read 62.327.726
Hình 3.6Thống kê phân bố độ dài unigene
Kết quả hình 3.6 cho thấy, các unigene phân bố chủ yếu trong dải từ 201-500 nt với 55040 trình tự, các unigene có kích thƣớc lớn phân bố với số lƣợng ít, đặc trƣng là trong dải độ dài từ 2500-3000nt có 276 trình tự. Những unigene này đƣợc sử dụng để so sánh tƣơng đồng trên ngân hàng dữ liệu và tiến hành chú giải gen.
3.3.3 Phát hiện marker SNP trong ngân hàng unigene
Từ 69.089 unigene lắp ráp đƣợc chúng tôi sử dụng phần mềm Bowtie2,Samtools và Varscanđã tìm đƣợc 42.663 SNP với dải tần số allen xuất hiệnnhiều nhấttừ 20%-50% vàchiếm tỷ lệ từ 20%-28% tổng SNP tìm đƣợc (Hình 3.7). 55040 8901 2666 1285 566 276 355 0 10000 20000 30000 40000 50000 60000 201 -500 500 -1000