Lắp ráp, chú giải và phân tích hệ phiên mã tôm sú Penaeus monodon

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	463,73 KB

Nội dung

Tôm sú (Penaeus monodon) là loài thủy sản đem lại nguồn lợi lớn cho quốc gia trong những năm gần đây. Tuy nhiên, các dữ liệu về hệ gene và hệ phiên mã của chúng còn hạn chế. Mặc dù công việc gia hóa sử dụng các biện pháp di truyền chọn giống đã nâng cao chất lượng tôm sú.

VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN LẮP RÁP, CHÚ GIẢI VÀ PHÂN TÍCH HỆ PHIÊN MÃ TƠM SÚ Penaeus monodon Nguyễn Cường1*, Phạm Quang Huy1, Nguyễn Văn Lâm1, Hà Thị Thu1, Phạm Thị Hoa1, Nguyễn Hải Triều1, Đậu Huy Tùng1, Nguyễn Giang Thu2, Nguyễn Hữu Ninh3, Đồng Văn Quyền1, Chu Hồng Hà1, Đinh Duy Kháng1 TĨM TẮT Tơm sú (Penaeus monodon) loài thủy sản đem lại nguồn lợi lớn cho quốc gia năm gần Tuy nhiên, liệu hệ gene hệ phiên mã chúng cịn hạn chế Mặc dù cơng việc gia hóa sử dụng biện pháp di truyền chọn giống nâng cao chất lượng tôm sú Tuy nhiên, nhu cầu giải mã phân tích hệ gene, hệ phiên mã của tơm sú để tìm thị phân tử liệu quan trọng khác giúp tăng hiệu suất cho trình chọn giống Trong báo này, chúng tơi cơng bố kết giải trình tự hệ phiên mã tơm sú cơng nghệ đọc trình tự hệ Với Gb liệu thu từ máy Illumina MiSeq, tiến hành lắp ráp de novo để tạo ngân hàng với 51.638 transcript, từ thực giải chức transcript, phát 7.016 thị phân tử microsatellite 17.783 SNP Chúng xây dựng hệ thống website quản lý ngân hàng transcript cơng cụ phân tích cần thiết Kết báo tiền đề cho nghiên cứu chun sâu lồi tơm sú mang lại nguồn lợi lớn Từ khóa: hệ phiên mã, lắp ráp de novo, giải trình tự hệ mới, giải, biểu gene, microsatellite, SNP I ĐẶT VẤN ĐỀ Động vật giáp xác chiếm 10% tổng sản lượng thủy sản giới lĩnh vực nuôi trồng thủy sản tăng trưởng nhanh (trung bình 15% năm từ năm 1970 đạt triệu vào năm 2008 (FAO, 2010) Trong đó, tơm sản phẩm thủy sản có giá trị nhóm ni trồng Việt Nam tôm sú Penaeus monodon Mặc dù ngành sản xuất nuôi trồng thủy sản đem lại nguồn lợi lớn cho quốc gia ngành sản xuất bị ảnh hưởng nặng nề thiên nhiên dịch bệnh dịch đốm trắng (WSSV) Do đó, nhu cầu nghiên cứu sâu hệ gene marker phân tử hỗ trợ chọn giống dựa vào thị phân tử để nâng cao suất ni tính trạng tăng trưởng kháng bệnh cần thiết Hiện nay, nguồn liệu tơm sú P monodon cịn khiêm tốn (Andriantahina ctv., 2013) Trên ngân hàng Genbank có tổng cộng 39.908 EST ứng dụng vào tìm điểm đa hình (ví dụ SNP) có khoảng 600 trình tự microsatellite (cập nhật tháng 10 năm 2013) Trong đó, P monodon có 44 nhiễm sắc thể với kích thước hệ gene lớn ~2,17 Gb (You EM ctv., 2010) Với đời phát triển không ngừng cơng nghệ đọc trình tự hệ Next Generation Sequencing (NGS), cơng suất đọc trình tự lên tới từ Gb 600 Gb, cho phép đọc trình tự nguyên gene với mức Viện Công nghệ Sinh học, Viện Hàn lâm KH&CN Việt Nam *Email: cuongnguyen@ibt.ac.vn Vụ Khoa học Công nghệ & Môi trường, Bộ NN&PTNT Viện Nghiên cứu Nuôi trồng Thủy sản I, Bộ NN&PTNT TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN độ lặp lớn lên tới 100x Hơn nữa, chi phí đọc trình tự thời gian đọc trình tự hệ gene giảm đáng kể thực phịng thí nghiệm có quy mơ trung bình Do đó, NGS cơng cụ mạnh để giải trình tự tồn hệ gene hệ phiên mã loài từ ứng dụng nhiều phân tích sinh học phân tử đánh giá biểu gene, phát thị phân tử, phân tích SNP/InDel, ứng dụng chuẩn đoán bệnh Trong nghiên cứu này, chúng tơi đọc trình tự hệ phiên mã tôm sú Penaeus monodon, tiến hành lắp ráp de novo để thu ngân hàng transcript Từ đó, chúng tơi tiến hành giải transcript thu được, phân tích biểu gene, tìm kiếm thị phân tử microsatellite phát thị SNP Chúng tiến hành xây dựng hệ thống phần mềm quản lý ngân hàng transcript với cơng cụ phân tích cần thiết II VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Vật liệu Một cá thể tôm sú Penaeus monodon lấy từ vùng nuôi trồng thủy sản Ninh Thuận, sau mơ tim cá thể đem tách chiết mRNA tổng số đọc trình tự máy giải trình tự hệ Illumina Miseq 2.2 Phương pháp 2.2.1 Lắp ráp de novo hệ phiên mã Dữ liệu trình tự đọc sau giải trình tự tiền xử lý để loại bỏ adaptor trình tự xấu có chất lượng thấp độ dài ngắn Những trình tự đọc có chất lượng base thấp (chất lượng QC2%) bị dính adaptor loại bỏ cơng cụ đánh giá cao Trimmomatic (http://www.usadellab org/cms/?page=trimmomatic) Những trình tự đọc chất lượng tốt từ mơ tim lắp ráp để tạo nên hệ phiên mã bao gồm transcript tôm sú phần mềm Trinity (http:// 10 trinityrnaseq.sourceforge.net/) (Grabherr ctv., 2011) với tham số mặc định Để đánh giá chất lượng lắp ráp chúng tơi đưa tiêu chí: N50, phân bố độ dài transcript số lượng trình tự đọc ánh xạ ngược trở lại hệ phiên mã tham chiếu 2.2.2 Chú giải phân loại transcript hệ phiên mã Chú giải chức cho transcript hệ phiên mã đòi hỏi phải sử dụng thuật tốn tìm kiếm tương đồng sở liệu protein quan trọng Trong nghiên cứu này, sử dụng công cụ BLAST+ với chế độ BLASTX để so sánh toàn transcript lên sở liệu NCBI non-redundant protein (Nr, http://www.ncbi.nlm.nih.gov/), Swiss-Prot (http://www.expasy.ch/sprot) với tham số E-value 1e-6 Trong trường hợp kết giải sở liệu khác thứ tự ưu tiên kết giải vùng mã hóa protein Nr, Swiss-Prot Kết giải từ ngân hàng Nr sau phần mềm Blast2GO (Conesa ctv., 2005) sử dụng để lấy mã Gene Ontology (GO) riêng biệt cho transcript Toàn transcript hệ phiên mã ánh xạ vào mã GO phân loại dựa vào hạng mục: trình sinh học, thành phần tế bào phân tử chức Hơn nữa, từ số liệu gene ontology, transcript sau giải gán mã số enzyme commission (EC code) tương đương 2.2.3 Phân tích biểu gene mơ tim Trình tự đọc tinh từ thư viện mô tim ánh xạ ngược trở lại hệ phiên mã vừa lắp ráp sử dụng Bowtie2 (http://bowtiebio.sourceforge.net/bowtie2/index.shtml) (Langmead and Salzberg, 2012) với tham số mặc định Tổng số lượng trình tự đọc ánh xạ vào transcript đếm xem xuất (biểu hiện) lần mô tim công cụ SAMtools (http://samtools.sourceforge net/) (Li ctv., 2009) Việc đếm trình tự đọc tiêu chuẩn hóa theo đơn TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN vị RPKM (reads per kilobase of transcripts per million fragments mapped) Tồn phần mềm phân tích biểu tích hợp với tham số mặc định chương trình viết ngơn ngữ Perlrun_RSEM_align_n_estimate.pl có gói phần mềm Trinity 2.2.4 Phát microsatellite marker SNP marker ngân hàng transcript Từ transcript lắp ráp, phần mềm MISA (http://pgrc.ipk-gatersleben de/misa/) (Thiel ctv., 2003) tìm kiếm microsatellite tiềm có miền khoảng từ di- hexanucleotide Giá trị lặp nhỏ cho miền bao gồm: dinucleotide, sáu cho tri-, năm cho tetra-, bốn cho penta- ba cho hexanucleotide Với trường hợp microsatellite mononucleotide khơng nghiên cứu khó để phân biệt mononucleotide thật từ vùng polyadenylation mononucleotideđược tạo lỗi giải trình tự Các trình tự transcript bên cạnh khai phá marker đa hình đơn nucleotide SNP Chúng tơi ánh xạ trình tự đọc ngược trở lại vào hệ phiên mã tham chiếu vừa lắp ráp phần mềm Bowtie2 Kết ánh xạ công cụ SAMtools VarScan (http://varscan.sourceforge.net/) (Koboldt ctv., 2012) xử lý để tìm loci tiềm bị thay đổi nucleotide Để sàng lọc kết dương tính giả lỗi giải trình tự mẫu nhiễm trình tự lạ chúng tơi áp dụng tham số sau: lấy trình tự đọc có chất lượng ánh xạ lớn 20, tần số alen biến dị phải lớn 0,1 độ sâu tối thiểu alen biến dị phải lớn 10 III KẾT QUẢ 3.1 Lắp ráp de novo đánh giá chất lượng lắp ráp Mẫu mô tim từ cá thể tôm nuôi từ vùng nuôi trồng thủy sản Ninh Thuận Tổng cộng 45.063.432 trình tự đọc thơ giải trình tự theo phương pháp paired-end từ máy giải trình tự Illumina MiSeq với độ dài từ 35200 bp Sau tiền xử lý thu 40.313.722 trình tự có chất lượng tốt với độ dài khoảng 70-200 bp (đạt tỉ lệ 89,46%) Từ liệu trình tự đọc tiền xử lý, sử dụng phần mềm Trinity để lắp ráp de novo hệ phiên mã thu 51.638 transcript có độ dài trung bình 531,24 bp N50 726 bp Phân bố độ dài transcript mơ tả (Hình 1) cho thấy phần lớn transcript có kích thước nhỏ (73,94% contig có độ dài từ 200-500 bp) Tuy nhiên có đến 93,66% số lượng read sử dụng cho lắp ráp de novo với độ sâu toàn hệ phiên mã sau lắp ráp 139X Từ tiêu chí N50, số lượng trình tự đọc sử dụng cho lắp ráp phân bố độ dài cho thấy chất lượng lắp ráp de novo tốt Bảng Thống kê số liệu liệu thô sau tiền xử lý Mô tim Mô tim – tinh Số lượng trình tự đọc 45.063.432 40.313.722 Chú giải chức cho hệ phiên mã Sử dụng công cụ BLAST với chế độ BLASTX tìm kiếm transcript vừa lắp ráp sở liệu nr NCBI với tham số E-value 1e-6, chúng tơi tìm 14.601 Độ dài 35-200 70-200 %GC 59 59 % Tiền xử lý 89,46% transcript giải chức (Hình 2) Vì độ dài trung bình transcript sau lắp ráp ngắn (độ dài N50 dài 726 bp) khơng có hệ gene tham chiếu tơm sú nên có lượng lớn transcript khơng thể giải chức TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 11 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SAÛN Phân bố E-value cho kết tin chiếm 21,1% Trong 99,9% transcript cậy thể transcript giải có độ tương đồng lớn 40% 0,01% trancó độ tin cậy cao (E-value nhỏ 1e- script có độ tương đồng từ 40% đến 15% 15) dải E-value phân bố từ 1e-15 đến 1e-5 Bảng Thống kê chất lượng transcript sau lắp ráp de novo Tổng số Transcript Transcript Average N50 transcript ngắn dài Mô tim 51.638 201 15.659 531,24 Hình Phân bố độ dài toàn transcript sau lắp ráp N10 %GC Tổng số base % trình tự đọc sử dụng 726 3.273 49,81 27.432.242 37.760.643 (93,66%) Hình Thống kê kết giải lên sở liệu NCBI Hình Thống kê lồi từ kết Tophit BLASTX Phân bố kết có độ tương đồng cao tơm sú phân loài NCBI từ sở liệu NR NCBI xây kết ứng với tơm sú Penaeus monodon dựng thành phân loài, loài đứng thứ với 330 kết (Hình 3) Daphnia pulex chiếm đa số đứng gần 12 TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 3.2 Phân tích biểu mô tim RPKM đơn vị biểu thể mức độ biểu transcript/contig hệ phiên mã hoàn chỉnh tính theo cơng thức sau: Do đó, đưa sơ đồ phân bố biểu cho tồn transcript mơ tim Hình Những transcript có mức độ biểu cao mơ tim (6,22% toàn transcript) transcript tiềm đặc hiệu cho riêng mô tim nghiên cứu sâu 3.3 Khai phá liệu microsatellite SNP Tồn transcript hệ phiên mã mơ tim tơm sú khai phá để tìm locus đa hình bao gồm microsatellite SNP, 18.838 microsatellite tìm thấy 13.965 transcript có 3.551 transcript có nhiều microsatellite 2.759 microsatellite dạng compound (Bảng 3) Trong số microsatellite tìm thấy chiếm số lượng nhiều dinucleotide (42%) trinucleotide (52,8%), theo sau tetra- (4,97%), hexa(0,16%) pentanucleotide (0,06%) (Bảng 4) Trong dinucleotide microsatellite, miền lặp nhiều AG/CT (45,6%), theo sau miền lặp AC/GT (35,52%) Còn với trinucleotide microsatellite, miền lặp nhiều AGG/ CCT (21,3%), theo sau miền lặp AGC/CTG (16,95%) Số lượng read bám vào transcript (Độ dài transcript) x (Tổng số read) Bảng Phân bố miền lặp microsatellite Bảng Kết tìm kiếm microsatellite Tổng số transcript thực Độ dài tổng số toàn transcript Tổng số microsatellite phát Số lượng transcript có microsatellite Số lượng transcript có nhiều microsatelltite Số lượng microsatellite dạng compound RPKM = 51.638 27.432.242 7.016 5.711 883 710 Hình Thống kê mức độ biểu transcript mô tim Miền lặp Số lượng microsatellite 2.947 3.705 349 11 Hình Thống kê miền lặp hệ phiên mã mơ tim tơm sú TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 13 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN Hình Tỉ lệ transition (AG CT) transversion (AT, CG) SNP tiềm Các tham số điều chỉnh phần mềm Bowtie2, SAMtools VarScan, với hệ phiên mã xây dựng từ cá thể tôm nên nhắm đến vị trí có tần số thay đổi alen 50% coi vị trí dị hợp alen Dựa vào chúng tơi tìm 17.783 SNP tiềm 6.683 transcript với mật độ trung bình 0,648 SNP kb Hầu hết SNP tiềm phân loại vào transition (2/3 tổng số Hình Phân bố tần số thay đổi alen SNP tiềm SNP) (Hình 6) Phân bố tần số thay đổi alen cho thấy phần lớn SNP tiềm có tần số nằm khoảng từ 30 đến 50% (Hình 7) 3.4 Phần mềm quản lý ngân hàng transcript Chúng xây dựng phần mềm quản lý hệ phiên mã tôm sú hoạt động trực tuyến địa http://tomsu.ibt.ac.vn Phần mềm cho phép duyệt xem chi tiết transcript microsatellite SNP chúng Hình Giao diện phần mềm quản lý hệ phiên mã tơm sú 14 TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN IV THẢO LUẬN Trên giới tơm sú lồi chưa xây dựng đồ hệ gen hoàn chỉnh từ trước đến có thơng tin EST ngân hàng Genbank NCBI, giải trình tự hệ phiên mã (RNA-seq) hướng đắn cho việc khai phá de novo thông tin hệ gene bên tôm sú Với phương pháp RNA-seq, cần lượng mẫu RNA nhỏ đảm bảo chất lượng giải trình tự cho phân tích tin sinh Sự tiến cơng nghệ giải trình tự hệ kèm với độ dài trình tự đọc tăng lên phần mềm lắp ráp tin sinh học phát triển sâu giúp kết phân tính xác nhiều so với trước Lắp ráp de novo hệ phiên mã thực tạo nên đột phá với nhiều trình tự giải mã nhiều lồi khác mà khơng có thông tin hệ gene tham chiếu tôm sú (Meyer ctv., 2009; Nielsen ctv., 2010; Novaes ctv., 2008; Wheat, 2010) Chúng tơi thực phân tích ước chừng số lượng gene giải chức gene cho hệ phiên mã tôm sú công cụ BLAST, kết có 71,72% số lượng transcript khơng giải chức khơng thể tìm thấy trình tự tương đồng với chúng ngân hàng liệu Để tìm trình tự tương đồng có ý nghĩa ngân hàng liệu có phần phụ thuộc vào độ dài trình tự cần tìm kiếm, chủ yếu trình tự khơng tìm thấy sở liệu có độ dài nhỏ 300 bp, trình tự có độ dải nhỏ thường xuyên xuất nghiên cứu giải trình tự hệ việc giải chức cho chúng khó khăn với phần mềm tin sinh (Novaes ctv., 2008) Tuy nhiên transcipt khơng tìm thấy ngân hàng liệu coi nguồn thông tin quý giá cho nghiên cứu trình cắt nối intron, sản phẩm gene hay phân tích biểu gene Việc tìm số lượng lớn vùng microsatellite SNP nguồn thị phân tử hữu ích cho nghiên cứu tương lai để sàng lọc tính trạng số lượng phân tích quần thể phả hệ Hệ gene tôm sú coi có số lượng microsatellite lớn, lớn nhiều động vật có xương sống nhiều gấp lần so với hệ gene cá lóc Fugu (Huang ctv., 2011; Maneeruttanarungroj ctv., 2006) Lý số lượng microsatellite tôm sú lại nhiều chưa giải thích rõ ràng có giả thiết cho chắn microsatellite tôm sú có liên quan đến vai trị bảo tồn chức quan trọng tơm sú Như cần có nghiên cứu sâu việc kết hợp vùng lặp lại microsatellite gene biểu với tính trạng số lượng biết tơm sú Nhằm hướng đến việc thiếp lập đồ di truyền khai phá thơng tin đa hình tơm sú cách xác, nghiên cứu tiếp theo, tăng số lượng mẫu số lượng mô dùng để tách chiết RNA lấy mẫu vùng địa lý khác V KẾT LUẬN Trong nghiên cứu này, từ liệu giải trình tự hệ mơ tim tơm sú nuôi Việt Nam, lắp ráp hệ phiên mã phương pháp de novo Từ liệu lắp ráp, trình tự so sánh sở liệu protein giới Nr NCBI Cuối xây dựng website trực quan quản lý liệu trình tự, liệu giải liệu phân tích biểu cho tơm sú nuôi Việt Nam Những liệu có ích cho phân tích đặc biệt truy tìm thị tiềm liên kết với tính trạng quan trọng tơm sú tăng trưởng kháng bệnh TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 15 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN TÀI LIỆU THAM KHẢO Andriantahina, F., Liu, X., Feng, T., Xiang, J., 2013 Current status of genetics and genomics of reared penaeid shrimp: information relevant to access and benefit sharing Mar Biotechnol N Y N 15, 399–412 Conesa, A., Gưtz, S., García-Gómez, J.M., Terol, J., Talón, M., Robles, M., 2005 Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research Bioinforma Oxf Engl 21, 3674–3676 FAO, 2010 Food and Agriculture Organisation of the United Nations The state ofworld fisheries and aquaculture Grabherr, M.G., Haas, B.J., Yassour, M., Levin, J.Z., Thompson, D.A., Amit, I., Adiconis, X., Fan, L., Raychowdhury, R., Zeng, Q., Chen, Z., Mauceli, E., Hacohen, N., Gnirke, A., Rhind, N., di Palma, F., Birren, B.W., Nusbaum, C., Lindblad-Toh, K., Friedman, N., Regev, A., 2011 Full-length transcriptome assembly from RNA-Seq data without a reference genome Nat Biotechnol 29, 644–652 Huang, S.-W., Lin, Y.-Y., You, E.-M., Liu, T.-T., Shu, H.-Y., Wu, K.-M., Tsai, S.-F., Lo, C.-F., Kou, G.-H., Ma, G.-C., others, 2011 Fosmid library end sequencing reveals a rarely known genome structure of marine shrimp Penaeus monodon BMC Genomics 12, 242 Koboldt, D.C., Zhang, Q., Larson, D.E., Shen, D., McLellan, M.D., Lin, L., Miller, C.A., Mardis, E.R., Ding, L., Wilson, R.K., 2012 VarScan 2: Somatic mutation and copy number alteration discovery in cancer by exome sequencing Genome Res 22, 568– 576 Langmead, B., Salzberg, S.L., 2012 Fast gappedread alignment with Bowtie Nat Methods 9, 357–359 Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G., Durbin, R., 1000 Genome Project Data Processing Subgroup, 2009 The Sequence 16 Alignment/Map format and SAMtools Bioinforma Oxf Engl 25, 2078–2079 Maneeruttanarungroj, C., Pongsomboon, S., Wuthisuthimethavee, S., Klinbunga, S., Wilson, K.J., Swan, J., Li, Y., Whan, V., Chu, K.-H., Li, C.P., Tong, J., Glenn, K., Rothschild, M., Jerry, D., Tassanakajon, A., 2006 Development of polymorphic expressed sequence tag-derived microsatellites for the extension of the genetic linkage map of the black tiger shrimp (Penaeus monodon) Anim Genet 37, 363–368 Meyer, E., Aglyamova, G.V., Wang, S., BuchananCarter, J., Abrego, D., Colbourne, J.K., Willis, B.L., Matz, M.V., 2009 Sequencing and de novo analysis of a coral larval transcriptome using 454 GSFlx BMC Genomics 10, 219 Nielsen, C.B., Cantor, M., Dubchak, I., Gordon, D., Wang, T., 2010 Visualizing genomes: techniques and challenges Nat Methods 7, S5–S15 Novaes, E., Drost, D.R., Farmerie, W.G., Pappas, G.J., Grattapaglia, D., Sederoff, R.R., Kirst, M., 2008 High-throughput gene and SNP discovery in Eucalyptus grandis, an uncharacterized genome BMC Genomics 9, 312 Thiel, T., Michalek, W., Varshney, R.K., Graner, A., 2003 Exploiting EST databases for the development and characterization of genederived SSR-markers in barley (Hordeum vulgare L.) TAG Theor Appl Genet Theor Angew Genet 106, 411–422 Wheat, C.W., 2010 Rapidly developing functional genomics in ecological model systems via 454 transcriptome sequencing Genetica 138, 433–451 You, E.M., Liu, K.F., Huang, S.W., Chen, M., Groumellec, M.L., 2010 Construction of integrated genetic linkage maps of the tiger shrimp (Penaeus monodon) using microsatellite and AFLP markers Anim Genet 41, 365–376 TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THÁNG 8/2015 VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN ASSEMBLING, ANNOTATING AND ANALYZING THE TRANSCRIPTOME OF Penaeus monodon Nguyen Cuong1*, Pham Quang Huy1, Nguyen Van Lam1, Ha Thi Thu1, Pham Thi Hoa1, Nguyen Hai Trieu1, Dau Huy Tung1, Nguyen Giang Thu2, Nguyen Huu Ninh3, Dong Van Quyen1, Chu Hoang Ha1, Dinh Duy Khang1 ABSTRACT Despite black tiger shrimp (Penaeus monodon) is the important aquaculture species in our country and contributes significantly to the export revenues in the recent years, the data of the black tiger shrimp genome and transcriptome are not well documented until now Although domestication and genetic improvement can be implemented through traditional breeding programs, the molecular markers and other data generated from genome and transcriptome sequencing will greatly improve the efficiency and effectiveness of selection In this paper, the transcriptome of P monodon was sequenced using the Next Generation Sequencing technology with the raw data size of Gb The raw reads were de novo assembled to get 51.638 transcripts Those transcripts were annotated and analyzed to find 7.016 microsatellites and 17.783 SNPs A website with helpful utilities had been developed to manage the transcripts These results would be useful for further research on P monodon Keywords: transcriptome, assembling de novo, next generation sequencing, annotating, gene display, microsatellite, SNP Người phản biện: TS Nguyễn Văn Sáng Ngày nhận bài: 29/5/2015 Ngày thông qua phản biện: 03/8/2015 Ngày duyệt đăng: 07/8/2015 Institute of Biotechnology *Email: cuongnguyen@ibt.ac.vn Sub-Department of Environment and Technology Science Research Institute for Aquaculture No 1 TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - - THAÙNG 8/2015 17 ... lượng lắp ráp chúng tơi đưa tiêu chí: N50, phân bố độ dài transcript số lượng trình tự đọc ánh xạ ngược trở lại hệ phiên mã tham chiếu 2.2.2 Chú giải phân loại transcript hệ phiên mã Chú giải chức... giá biểu gene, phát thị phân tử, phân tích SNP/InDel, ứng dụng chuẩn đốn bệnh Trong nghiên cứu này, chúng tơi đọc trình tự hệ phiên mã tôm sú Penaeus monodon, tiến hành lắp ráp de novo để thu... Toàn transcript hệ phiên mã ánh xạ vào mã GO phân loại dựa vào hạng mục: trình sinh học, thành phần tế bào phân tử chức Hơn nữa, từ số liệu gene ontology, transcript sau giải gán mã số enzyme commission

Ngày đăng: 07/12/2020, 11:50