Kết quả và đánh giá

Một phần của tài liệu Ứng dụng thuật toán burrows wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam (Trang 71 - 76)

CHƯƠNG 3 ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ LIỆU SINH HỌC

3.4 Kết quả và đánh giá

a. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu giả lập

Dữ liệu giả lập có số lượng đoạn trình tự ngắn (read) tương ứng với độ sâu 5X là 575,318 ; 10X là 1,150,636 ; và 30X là 3,451,908 trình tự đọc 2 chiều (paired-end). Từ bảng kết quả 3.3, nghiên cứu nhận thấy số lượng trình tự gióng hàng của BWA nhiều hơn so với BWT aligner ở cả 3 độ sâu, tuy nhiên, điểm chất lượng trình tự của BWTAligner cao hơn BWA. Khi mô phỏng dữ liệu giả lập, nghiên cứu đã tạo 19,560 SNP. Với việc gióng hàng bằng 2 phần mềm khác nhau cho ra định dạng file SAM, nghiên cứu kết hợp với 2 phần mềm khác là SAMtools và VarScan để tìm gọi các SNP.

Kết quả cho thấy, độ sâu trình tự ảnh hưởng đến việc tìm SNP mặc dù số phần trăm trình tự gióng hàng giữa 2 phần mềm là tương đương nhau, cụ thể càng tăng độ sâu, số SNP dương tính thật (TP : true-positive) càng gần với số lượng SNP nghiên cứu giả lập. So sánh giữa BWA và BWTAligner, số lượng SNP dương tính thật khi gióng hàng bằng BWA luôn cao hơn, trong khi thấp hơn BWTAligner về số lượng dương tính giả (FP : false-positive) và âm tính giả (FN : false-negative).

BWA BWTAligner

5X 10X 30X 5X 10X 30X

Số lƣợng trình tự gióng hàng

1,145,700 2,291,628 6,875,059 1,143,567 2,287,918 6,862,792

Phần trăm số lƣợng trình tự gióng hàng

(%)

99.57 99.58 99.58 99.38 99.41 99.41

Bảng 3.3 Kết quả tìm kiếm SNP với BWA và BWTAligner với các độ sâu trình tự khác nhau.

63

BWA BWTAligner

Số lượng SNP 5X

TP 1,182 6.01% 891 4.55%

FP 3 0.02% 9 0.05%

FN 18,468 93.97% 18,669 95.40%

Số lượng SNP 10X

TP 9,439 47.98% 8,223 41.92%

FP 21 0.11% 58 0.30%

FN 10,211 51.91% 11,337 57.79%

Số lượng SNP 30X

TP 19,155 96.56% 18,951 96.10%

FP 187 0.94% 161 0.82%

FN 495 2.50% 609 3.09%

Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả Ngoài ra, để đánh giá việc gọi SNP với hai phần mềm gióng hàng BWA và BWTAligner, nghiên cứu sử dụng phép đo độ chính xác (precision), độ bao phủ (hay còn gọi là độ nhạy, recall) và F-score. Độ chính xác được định nghĩa là TP/(TP+FP), độ bao phủ bằng TP/(TP+FN), và F-score bằng 2*độ chính xác*độ bao phủ/(độ chính xác+độ bao phủ). Độ nhạy được hiểu là số lượng dương tính thật trong số lượng các trường hợp dương tính dữ liệu ban đầu, còn độ chính xác là số lượng các dương tính thật trong số lượng dương tính trong dữ liệu thống kê được sau khi chạy gióng hàng và các phần mềm gọi SNP. Từ bảng 3.4, nghiên cứu cho thấy ở độ sâu thấp (5X và 10X), độ chính xác của BWA cao hơn, tuy nhiên với độ sâu 30X, độ chính xác của BWTAligner cao hơn (99.16% so với 99.03% của BWA). Độ nhạy của BWA luôn cao hơn BWTAligner ở các độ sâu khác nhau. F-score là một tỷ lệ trung bình điều hòa (harmonic mean) của độ chính xác và độ nhạy. Với cả 2 phần mềm BWA và

64

BWTAligner, F-score tăng khi độ sâu tăng, và đạt đến hơn 98% với độ sâu 30X. F- score của BWA cao hơn BWTAligner với 98.25% so với 98.01%.

BWA BWTAligner

5X 10X 30X 5X 10X 30X

Độ chính xác 0.9974 0.9978 0.9903 0.9900 0.9930 0.9916 Độ nhạy 0.0601 0.4804 0.9748 0.0456 0.4204 0.9689 F-score 0.1134 0.6485 0.9825 0.0871 0.5907 0.9801

Bảng 3.5 So sánh độ đúng giữa BWA và BWTAligner gọi SNP

b. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu hệ gen lúa Việt Nam Do nghiên cứu với dữ liệu giả lập, độ sâu 30X đủ tốt và đủ độ tin cậy cao, nên dữ liệu hệ gen lúa được lựa chọn giải trình tự với độ sâu 30X bởi công ty Illumina. kết quả gióng hàng trình tự của hệ gen với trình tự tham chiếu của BWA là 96.33% so với BWTAligner là 87,17%. Nghiên cứu cũng kết hợp sử dụng các công cụ hỗ trợ : SAMtools và VarScan để tìm số lượng SNP. Kết quả cho thấy, số lượng SNP khi chạy với BWA cao hơn 7.65% số lượng SNP khi chạy với BWTAligner (Hình 3.3, Bảng 3.6). Tuy nhiên để đánh giá được sự thành công và chính xác của công cụ thì cần có thêm nhiều thử nghiệm trên công cụ đã xây dựng trên các bộ dữ liệu khác nhau. Đòi hỏi những nghiên cứu tiếp theo chuyên sâu hơn để củng cố cho các kết quả đạt được.

Dưới đây là một số thống kê chi tiết trong kết quả thu được :

65

Hình 3.4 Biểu đồ số lượng SNP trên từng nhiễm sắc thể với hai phần mềm gióng hàng trình tự BWA và BWTAligner

Nhiễm sắc thể BWTAligner BWA

Nhiễm sắc thể 1 233,111 245,277

Nhiễm sắc thể 2 204,691 215,775

Nhiễm sắc thể 3 200,651 206,575

Nhiễm sắc thể 4 149,505 168,166

Nhiễm sắc thể 5 147,436 157,540

Nhiễm sắc thể 6 177,397 191,447

Nhiễm sắc thể 7 156,409 171,765

Nhiễm sắc thể 8 151,679 166,634

66

Nhiễm sắc thể 9 133,830 144,964

Nhiễm sắc thể 10 142,862 156,476

Nhiễm sắc thể 11 167,507 186,928

Nhiễm sắc thể 12 142,749 162,764

Tổng số 2,007,827 2,174,311

Bảng 3.6 Bảng thống kê số lượng trên từng SNP với 2 phần mềm Tốc độ và tỷ lệ gióng hàng được thể hiện ở hình ảnh sau:

Hình 3.5 Tỷ lệ gióng hàng và thời gian chạy bởi công cụ BWA

67

Hình 3.6 Tỷ lệ gióng hàng và thời gian chạy bởi công cụ BWTAligner

Một phần của tài liệu Ứng dụng thuật toán burrows wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam (Trang 71 - 76)

Tải bản đầy đủ (PDF)

(80 trang)