Phƣơng pháp phân tích dữ liệu trình tự

Các vector tái tổ hợp mang các đoạn cDNA/EST đƣợc chọn để phân tích trình tự. Trình tự nucleotide của các gen đƣợc xác định trên máy ABI PRISM® 3100 và 3100 Avant Genetic Analyzer (Applied Biosystems).

Kết thúc quá trình đọc trình tự trên máy xác định trình tự tự động ABI PRISM 3100 Genetic Analyzer, chƣơng trình phần mềm ABI PRISM 3100 Data Collection v2.0 sẽ giúp xử lý phổ trình tự (dạng hình ảnh đồ thị) thành trình tự DNA dƣới dạng text file. Sau đó, trình tự DNA đƣợc tiếp tục xử lý loại bỏ những phần có tín hiệu phổ yếu, không đáng tin cậy và loại bỏ thành phần trình tự của vector.

Trình tự cDNA/EST đƣợc đem so sánh tìm trình tự tƣơng đồng sử dụng chƣơng trình BLAST [17] theo các bƣớc nhƣ sơ đồ ở Hình 2.8. Các trình tự đƣợc chú giải dựa trên kết quả BLAST (độ tƣơng đồng với với các trình tự protein/ nucleotide đã biết).

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Hình 2. 8. Sơ đồ phân tích dữ liệu trình tự nucleotide cDNA/EST

Đối với trình tự protein suy diễn đã xác định đƣợc có độ tƣơng đồng cao với protein đã biết trong Database của NCBI, chức năng của những protein này đƣợc chú giải thêm và phân loại theo cơ sở dữ liệu Gene Ontology (http://www.geneontology.org/), trong đó có thể dự đoán chức năng của protein tham gia vào các tƣơng tác phân tử (molecular function), các quá trình sinh học (biological process) và cấu tạo tế bào (cellular component).

Kết quả so sánh trình tự nucleotide của các gen đƣợc phân tích thông qua các phần mềm: Seqscape 2.6, Lasergene 7, BioEdit 7.0.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

CHƢƠNG III. KẾT QUẢ VÀ THẢO LUẬN 3.1. TÁCH CHIẾT RNA TỔNG SỐ TÔM SÚ

Chúng tôi tiến hành tách chiết RNA tổng số từ các mẫu mô tôm sú nhƣ liệt kê ở Bảng 3.1 dƣới đây.

Bảng 3. 1. Các mẫu mô tôm sú sử dụng trong nghiên cứu

Mẫu tôm Loại mô

Tôm sú khỏe mạnh Mô gan tụy, mô cơ, mô gốc mắt Tôm sú nhiễm bệnh đốm trắng Mô gan tụy, mô cơ, mô gốc mắt

RNA tổng số đƣợc tách chiết từ các mẫu mô của tôm sú (Bảng 3.1) và điện di kiểm tra trên gel agarose 1% biến tính (denaturing gel) bằng formaldehyde. Kết quả thể hiện ở Hình 3.1.

Hình 3. 1. Điện di đồ các mẫu RNA tổng số tách chiết từ các mô khác nhau của tôm sú

a: Mô gan tụy; b: Mô cơ; c: Mô gốc mắt;

1: tôm sú khỏe mạnh; 2: tôm sú nhiễm bệnh đốm trắng 28S: rRNA 28S; 18S: rRNA 18S

Hình ảnh điện di cho thấy, các mẫu RNA tổng số tách đƣợc có các băng đặc trƣng 28S và 18S rRNA. Điều đó chứng tỏ các mẫu RNA tổng số khá nguyên vẹn, đảm bảo chất lƣợng cho những thí nghiệm tiếp theo.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Nồng độ RNA tổng số đƣợc xác định bằng phƣơng pháp đo quang phổ ở bƣớc sóng 260 nm và tính theo công thức:

Cµg/ml = OD260 x 40 x độ pha loãng Cụ thể kết quả đo ở một số mẫu trình bày ở Bảng 3.2

Bảng 3. 2. Kết quả kiểm tra nồng độ một số mẫu RNA tổng số bằng phƣơng pháp đo quang phổ (độ pha loãng 100 lần)

Tên mẫu OD260 OD280 OD260 / OD280 Cµg/ml

(1) Mô gan tụy

tôm thƣờng 0,36 0.2 1.8 1440

(2) Mô gan tụy

tôm bệnh 0,35 0.2 1.75 1400 (3) Mô cơ tôm thƣờng 0,31 0,17 1,82 1240 (4) Mô cơ tôm bệnh 0,28 0,15 1,86 1120 (5) Mô gốc mắt Tôm thƣờng 0,17 0,09 1,88 520 (6) Mô gốc mắt tôm bệnh 0,13 0,07 1,85 680

3.2. TẠO THƢ VIỆN cDNA/ EST

Vector tái tổ hợp pDONR222 sau khi đƣợc hình thành đƣợc biến nạp vào tế bào khả biến E. coli thông qua phƣơng pháp xung điện. Kết quả biến nạp đƣợc đem cấy trải trên môi trƣờng thạch LB có bổ sung kháng sinh kanamycine. Sau khoảng 16 giờ nuôi cấy các vi khuẩn sẽ phát triển thành các khuẩn lạc riêng rẽ, mỗi khuẩn lạc là một dòng và tập hợp các dòng thu đƣợc là thƣ viện cDNA mới tạo lập (Hình 3.2).

Với các mẫu RNA tổng số (Hình 3.1), chúng tôi đã tạo 5 loại thƣ viện cDNA/EST từ 3 loại mô khác nhau (mô cơ, mô gan tụy, mô gốc mắt,) của mẫu tôm thƣờng và tôm bệnh. Hiệu quả biến nạp (cDNA library titer) trung bình của các thƣ viện là : cfu/ ml = 2,5 x 104

Các khuẩn lạc đƣợc cấy chuyển sang master plate có đánh số (Hình 3.3) để quản lý và kiểm tra từng dòng vi khuẩn tái tổ hợp.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Hình 3. 2. Kết quả biến nạp vector tái tổ hợp vào tế bào vi khuẩn

Hình 3. 3. Master plate

3.3. KIỂM TRA THƢ VIỆN cDNA/ EST BẰNG PHẢN ỨNG CẮT ENZYME GIỚI HẠN

Sau khi cấy chuyển các đĩa Master plate, các đĩa này đƣợc bảo quản trong tủ lạnh ở điều kiện 4oC. Mỗi khuẩn lạc tƣơng ứng với một dòng mang một đoạn cDNA đƣợc nhặt nuôi trong 2 ml LB lỏng có bổ sung kháng sinh kanamycine ở 37oC qua đêm. Sau một đêm khuẩn phát triển dịch khuẩn sẽ đƣợc đem tách chiết plasmid tiếp đến là kiểm tra plasmid tái tổ hợp bằng phản ứng cắt bằng enzyme giới hạn.

3.3.1. Tách chiết plasmid tái tổ hợp

Dịch tế bào sau khoảng 16 giờ nuôi cấy đƣợc tách chiết theo phƣơng pháp nhƣ đã nêu, kết quả tách plasmid kiểm tra đƣợc điện di trên gel agarose 0,8 % nhƣ trên Hình 3.4.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

a b

Hình 3. 4. Một số hình ảnh điện di kiểm tra plasmid tái tổ hợp tác từ các dòng tế bào trong thƣ viện cDNA/EST tôm sú

a,b: minh họa vector tái tổ hợp thuộc các thư viện cDNA/EST;

M: Marker 1kb; 1-11(a): các mẫu mô cơ; 12(a)-16(a),1(b)-5(b): các mẫu mô gan tụy; 6(b)-16(b): các mẫu mô cuống mắt

Từ kết quả điện di cho thấy các băng plasmid thu đƣợc rất rõ nét, sự chênh lệch kích thƣớc giữa các plasmid của các dòng tế bào phản ánh kích thƣớc các đoạn chèn có sự khác nhau rõ rệt. Từ kết quả thu đƣợc có thể bƣớc đầu đánh giá thƣ viện cDNA/EST thu đƣợc đảm bảo chất lƣợng để có thể tiến hành các bƣớc tiếp theo. Tƣơng tự nhƣ kết quả ở Hình 3.4, 1630 dòng tế bào tái tổ hợp từ tất cả các thƣ viện cDNA/EST của tôm sú đã tạo lập đã đƣợc tiến hành tách plasmid.

3.3.2. Cắt plasmid tái tổ hợp bằng enzyme giới hạn

Bƣớc tiếp theo trong việc kiểm tra thƣ viện mới tạo lập đó chính là kiểm tra kích thƣớc các đoạn chèn. Trên vector có chứa trình tự cắt của enzyme giới hạn

BsrGI (Hình 2.6), đây là enzyme có tần số lặp lại rất thấp cho nên có thể sử dụng để kiểm tra các đoạn chèn bằng phƣơng pháp sử dụng enzyme giới hạn này.

Vector pDONR222 đối chứng (chƣa thực hiện phản ứng BP) sẽ có 3 vị trí nhận biết của enzyme giới hạn BsrGI nhƣ trên bản đồ Hình 2.6, khi tiến hành phản ứng cắt sẽ cho ra 3 băng có kích thƣớc lần lƣợt 2,5 kb; 1,4 kb và 790 bp. Đối với mẫu đã xảy ra phản ứng tái tổ hợp giữa vector pDONR222 với đoạn cDNA mới tạo, khi tiến hành phản ứng cắt với enzyme giới hạn BsrGI sẽ cho ra một băng 2,5 kb

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

(vector backbone) và một hoặc nhiều băng có kích thƣớc không trùng lặp với đối chứng.

Sản phẩm cắt sau đó đƣợc điện di kiểm tra trên gel agarose 0,8%. Hình 3.5 là hình ảnh minh họa một số kết quả kiểm tra plasmid tái tổ hợp

Hình 3. 5. Điện di đồ kiểm tra kích thƣớc cDNA đã đƣợc đƣa vào vector pDONR222

a,b: minh họa vector tái tổ hợp thuộc các thư viện cDNA/EST;

M: Marker 1kb; 1-11(a): các mẫu mô cơ; 12(a)-16(a),1(b)-5(b): các mẫu mô gan tụy; 6(b)-16(b): các mẫu mô cuống mắt

Tƣơng tự nhƣ các mẫu phân tích ở Hình 3.5, chúng tôi đã tiến hành kiểm tra 1630 plasmid tái tổ hợp tách chiết từ các dòng tế bào của từ tất cả các thƣ viện cDNA/EST của tôm sú đã tạo lập. Kết quả điện di kiểm tra cho thấy, mặc dù vẫn còn tồn tại một số các vector không tái tổ hợp, tuy nhiên một số lƣợng lớn các đoạn chèn có kích thƣớc khác nhau xuất hiện nhƣ trên hình đã chứng tỏ kết quả tái tổ hợp, các plasmid tái tổ hợp đủ điều kiện để thực hiện các phân tích tiếp theo.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.3.3. Số liệu thống kê các thƣ viện cDNA/EST tôm sú đã tạo lập

Chúng tôi đã thiết lập đƣợc 5 loại thƣ viện cDNA/EST từ 3 loại mô khác nhau bao gồm: thƣ viện cDNA/EST mô cơ, thƣ viện cDNA/EST mô gan tụy, và thƣ viện cDNA/EST mô gốc mắt. Các mô này đƣợc tách ra từ 2 lô mẫu tôm khác nhau là: tôm thƣờng, tôm bệnh.

Các dòng tế bào của các thƣ viện đƣợc kiểm tra thông qua việc kiểm tra các plasmid tái tổ hợp xử lý bằng enzyme giới hạn BsrGI. Kết quả kiểm tra thƣ viện cDNA/EST các mô của tôm sú đƣợc thống kê theo Bảng 3.3.

Bảng 3. 3. Bảng thống kê số lƣợng dòng tế bào phân tích ở các thƣ viện cDNA/.EST từ các mẫu mô tôm sú

Thƣ viện

cDNA/EST Loại tôm Số dòng phân tích Đoạn chèn > 300 bp Đoạn chèn < 300 bp Cơ Thƣờng 576 200 376 Bệnh 308 76 232 Gan Tụy Thƣờng 100 24 76 Bệnh 300 74 226 Mắt Thƣờng Bệnh 346 9 337 Tổng số 1630 383 1247

Từ bảng thống kê cho thấy thƣ viện cDNA/EST mô cơ và mô gan có số lƣợng dòng phân tích cao hơn so với thƣ viện mô gốc mắt do có chất lƣợng RNA tổng số đồng đều và hiệu quả biến nạp tốt hơn.

Từ kết quả kiểm tra cho thấy các đoạn cDNA/EST đƣợc chèn vào vector có các kích thƣớc rất đa dạng, tuy nhiên việc kiểm tra kích thƣớc các đoạn mới chỉ là một bƣớc trong đánh giá chất lƣợng thƣ viện cDNA/EST. Để xác định chính xác các đoạn cDNA/EST này thì bƣớc tiếp theo là đọc trình tự nucleotide của các đoạn cDNA/EST. Chúng tôi tiến hành phân loại và chỉ các đoạn cDNA/EST có kích

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

thƣớc > 300 bp đƣợc tiếp tục xác định trình tự.

Sau khi kiểm tra 1630 dòng tế bào tái tổ hợp ở các mô, chúng tôi chọn ra 383 plasmid tái tổ hợp mang đoạn cDNA/EST có kích thƣớc ≥ 300bp để tiếp tục xác định trình tự của những đoạn cDNA/ EST này.

Phân tích nguyên nhân chất lƣợng thƣ viện xây dựng chƣa cao, căn cứ vào sản phẩm tách chiết RNA tổng số chúng tôi nhận thấy, chất lƣợng mRNA ảnh hƣởng lớn đến chất lƣợng thƣ viện cDNA/ EST. Một nguyên nhân tiếp theo đƣợc xác định đó là: sau khi tổng hợp và tinh sạch cDNA nồng độ cDNA, thu đƣợc thấp, không đạt đƣợc đúng tiêu chuẩn đƣa ra của nhà sản xuất của bộ kit “CloneMiner cDNA Library Construction Kit” (Invitrogen). Ngoài ra, nhƣợc điểm của phƣơng pháp này là vector tái tổ hợp tạo ra chứa nhiều đoạn insert DNA có kích thƣớc nhỏ.

3.4. GIẢI MÃ CÁC cDNA/EST TỪ CÁC THƢ VIỆN ĐÃ TẠO LẬP

Tất cả các trình tự cDNA/ EST sau khi giải mã đƣợc phân tích theo các phƣơng pháp và tiến trình thực hiện theo sơ đồ Hình 2.8. Ở bƣớc phân tích đầu tiên, chúng tôi tiến hành xác định xem đoạn cDNA/ EST thu đƣợc có mang thông tin của trình tự protein hay không. Trong nghiên cứu này, chúng tôi đặt ra tiêu chuẩn dịch mã là: chiều dài của trình tự protein suy diễn phải > 20 amino acids (aa). Những đoạn còn lại đƣợc gọi chung là EST/ 3‟-UTR. Kết quả bƣớc phân tích đầu tiên này đƣợc thể hiện ở Bảng 3.4.

Từ kết quả phân tích cho thấy trình tự nucleotide có sự sai khác rõ rệt về mặt kích thƣớc, nhƣ vậy có thể bƣớc đầu kết luận thƣ viện cDNA/EST thu đƣợc khá đa dạng. Kết quả so sánh cũng cho thấy có rất nhiều trình tự giống nhau đƣợc phát hiện trong cùng một thƣ viện và đồng thời những trình tự này cũng đƣợc phát hiện ở nhiều thƣ viện khác nhau. Số lần lặp lại của các trình tự thƣờng gặp này dao động từ 1-15 lần (cột 2, Phụ lục 1). Sở dĩ nhƣ vậy là do thƣ viện cDNA/EST là thƣ viện của các gen biểu hiện, các gen biểu hiện nhiều sẽ có tần số bắt gặp lớn, và tần số xuất hiện các gen phụ thuộc vào từng loại mô và từng giai đoạn phát triển. Tuy nhiên, có những gen xuất hiện ở tất cả các loại mô. Trên tổng số 383 dòng plasmid tái tổ hợp

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

đem giải trình tự, có 95 trình tự là của vector pDONR222, nguyên nhân đƣợc xác định là do sự tái tổ hợp sai trong phản ứng BP. Trong 288 trình tự thu đƣợc, sau khi loại trừ sự lặp lại của các trình tự, chúng tôi thu đƣợc 253 loại trình tự khác nhau. Khung đọc mở (ORF) của các trình tự thu đƣợc lần lƣợt đƣợc xác định theo tiêu chí đặt ra (trình tự protein suy diễn phải >20 aa). Căn cứ vào kết quả dịch mã này, chúng tôi bƣớc đầu phân loại các trình tự thu đƣợc: (1) các đoạn trình tự cDNA có chứa một phần ORF (có đoạn trình tự protein suy diễn); (2) các đoạn trình tự cDNA/ EST ngắn không có thông tin ORF (EST/ 3‟-UTR). Những trình tự này đƣợc tiếp tục phân tích bằng cách sử dụng công cụ phần mềm BLAST nhƣ các bƣớc đã nêu sơ đồ Hình 2.8. Cụ thể là, các trình tự protein suy diễn của các cDNA (1) đƣợc so sánh với các trình tự protein đƣợc lƣu giữ trong ngân hàng Genbank (cơ sở dữ liệu các protein đại diện “non-redundant protein sequences”) bằng cách sử dụng chƣơng trình protein blast (blastp) nhằm tìm kiếm trình tự protein tƣơng đồng. Các trình tự EST/3‟-UTR (2) đƣợc so sánh với các trình tự nucleotide đƣợc lƣu giữ trong ngân hàng Genbank (cơ sở dữ liệu tập hợp các loại nucleotide “nucleotide collection”) bằng cách sử dụng chƣơng trình nucleotide blast (blastn) nhằm tìm kiếm trình tự nucleotide tƣơng đồng. Kết quả tìm kiếm trình tự protein tƣơng đồng sử dụng blastp đƣợc thống kê ở Bảng 3.4.

Bảng 3. 4. Bảng phân tích kết quả tìm kiếm trình tự tƣơng đồng của các protein suy diễn (Kết quả BLASTP)

STT TÊN MẪU PROTEIN TƢƠNG ĐỒNG Coverage E-

Value Identity

1 I4_C(Me2)_1_1(19) Beta-xylosidase 1 80% 18 64%

2 II2_C(1)_1_1(8) Chitin deacetylase 9 87% 2 e-49 42%

3 II2_C(1)_1_1(76) Cysteine-rich protein 1 60% 0.52 62%

4 I4_C(Me2)_2_2(53) Cytochrome b 67% 7.3 55%

5 I4_C(Me2)_2_3(67) Endonuclease-reverse transcriptase 82% 6 e-26 47%

6 I4_C(Me2)_1_4(72) Gag-like protein 82% 1 e-23 36%

7 I4_C(Me2)_2_4(26) Glutamyl-tRNA synthetase-related

protein 76% 5.5 69%

8 I4_C(Me2)_2_5(12) Importin alpha, putative 51% 0.16 60%

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

10 I4_C(Me2)_2_6(24) Peptidase, S1E (Streptogrisin A)

subfamily 48% 5.3 41%

11 I4_C(Me2)_2_2(71) Poly(A) RNA polymerase cid14 61% 10 69%

12 II2_C(1)_1_1(5) Pyruvate kinase 3 80% 2 e-124 97%

13 II2_C(9)_1_1(86) Sarcoplasmic calcium-binding protein 100% 4 e-29 99%

14 I4_C(Me2)_2_8(47) Sulfotransferase family, cytosolic, 1C,

member 3 58% 0.51 71%

15 I4_C(Me2)_2_1(17) Telomeric repeat binding factor (NIMA-

interacting) 1 57% 9.8 49%

16 II2_C(1)_1_1(2) Zinc proteinase Mpc1 97% 1 e-138 95%

17 I4_C(Me2)_1_1(14) AV protein 8% 1 e-49 99%

18 I4_C(Me2)_1_1(10) Similar to Peregrin 27% 3.5 29%

19 I4_C(Me2)_1_4(58) TonB-dependent receptor 70% 0.94 73%

20 I4_C(Me2)_2_3(3) Translationally-controlled tumor protein 42% 0.52 92%

21 I4_C(Me2)_2_8(31) 60S ribosomal protein L18a 61% 2 e-3 95%

22 I4_C(Me2)_2_7(41) Hemoglobin subunit alpha 42% 5.5 100%

23 I4_C(Me2)_2_1(8) NADH dehydrogenase chain N 50% 18 79%

24 I1_C(2)_1_1(72) Elongation factor 1-alpha 92% 1 e-141 99%

25 I4_C(Me2)_2_1(49) Ribosomal protein S3 73% 0.3 36%

26 I4_C(Me2)_2_1(66) AIG1 family protein 92% 2.3 58%

27 I4_C(Me2)_1_1(11) GG12920 59% 0.54 38%

28 I4_C(Me2)_2_2(5) GK20754-RA 17% 2.8 34%

29 I4_C(Me2)_2_3(24) PTS system, glucitol/sorbitol-specific,

IIA component 57% 6.9 33%

30 I4_C(Me2)_2_2(4) Putative inner membrane protein

translocase component YidC 86% 0.69 58%

31 I4_C(Me2)_2_5(17) RabGAP/TBC domain-containing

protein 64% 2.2 56%

32 I4_C(Me2)_2_2(63) Similar to pol polyprotein 88% 4 e-38 32%

33 I4_C(Me2)_2_1(6) Similar to pol-like protein 90% 9 e-34 32%

34 I4_C(Me2)_2_3(20) Similar to pol-like protein 81% 2 e-25 37%

35 I4_C(Me2)_2_3(51) Similar to pol-like protein 98% 2 e-20 33%

36 I4_C(Me2)_2_1(41) Unnamed protein product 89% 0.43 28%

37 I4_C(Me2)_2_5(51) Hypothetiacal protein 45% 3.8 50%

38 I4_C(Me2)_2_2(6) Hypothetical protein 68% 1.8 33%

39 I4_C(Me2)_2_6(14) Hypothetical protein 37% 1.1 30%

40 I4_C(Me2)_2_8(66) Hypothetical protein 64% 8 e-4 57%

Phƣơng pháp phân tích dữ liệu trình tự

Phát triển các chỉ thị phân tử

Tách chiết RNA tôm sú