sẽ đưa ra so sánh với kết quả thực trước khi giả lập để đưa ra đánh giá độ chính xác của 2 công cụ đã sử dụng.
c. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm được lựa chọn là giống lúa Chiêm nhỡ Bắc Ninh được cung cấp bởi Viện Di truyền Nông nghiệp, Viện Khoa học Nông nghiệp Việt Nam. Tham số mismatch được lựa chọn trong q trình gióng hàng là z = 2% độ dài của read. Với dữ liệu thật của hệ gen giống lúa Chiêm nhỡ Bắc Ninh, các đoạn trình tự sau khi giải trình tự cần phải đánh giá chất lượng theo quy trình đã nêu ở mục 1.2.1 trước khi gióng hàng trình tự, nếu tồn tại các đoạn trình tự chất lượng thấp thì cần được loại bỏ. Như vậy, kết quả gióng hàng trình tự sẽ khơng bị ảnh hưởng bởi những trình tự có chất lượng khơng tốt. Với tổng số đoạn trình tự 100bp là 129,251,948 và độ sâu 30X, trình tự đều có chất lượng tốt với các vị trí nucleotit trong trình tự đều có điểm Phred ở ngưỡng cao (vùng màu xanh) thay vì các vùng chất lượng trung bình (màu da cam) và chất lượng kém (vùng màu đỏ). Biểu đồ sau thể hiện đánh giá chất lượng dữ liệu :
3.4 Kết quả và đánh giá
a. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu giả lập
Dữ liệu giả lập có số lượng đoạn trình tự ngắn (read) tương ứng với độ sâu 5X là 575,318 ; 10X là 1,150,636 ; và 30X là 3,451,908 trình tự đọc 2 chiều (paired-end). Từ bảng kết quả 3.3, nghiên cứu nhận thấy số lượng trình tự gióng hàng của BWA nhiều hơn so với BWT aligner ở cả 3 độ sâu, tuy nhiên, điểm chất lượng trình tự của BWTAligner cao hơn BWA. Khi mô phỏng dữ liệu giả lập, nghiên cứu đã tạo 19,560 SNP. Với việc gióng hàng bằng 2 phần mềm khác nhau cho ra định dạng file SAM, nghiên cứu kết hợp với 2 phần mềm khác là SAMtools và VarScan để tìm gọi các SNP. Kết quả cho thấy, độ sâu trình tự ảnh hưởng đến việc tìm SNP mặc dù số phần trăm trình tự gióng hàng giữa 2 phần mềm là tương đương nhau, cụ thể càng tăng độ sâu, số SNP dương tính thật (TP : true-positive) càng gần với số lượng SNP nghiên cứu giả lập. So sánh giữa BWA và BWTAligner, số lượng SNP dương tính thật khi gióng hàng bằng BWA ln cao hơn, trong khi thấp hơn BWTAligner về số lượng dương tính giả (FP : false-positive) và âm tính giả (FN : false-negative).
BWA BWTAligner 5X 10X 30X 5X 10X 30X Số lƣợng trình tự gióng hàng 1,145,700 2,291,628 6,875,059 1,143,567 2,287,918 6,862,792 Phần trăm số lƣợng trình tự gióng hàng (%) 99.57 99.58 99.58 99.38 99.41 99.41
BWA BWTAligner Số lượng SNP 5X TP 1,182 6.01% 891 4.55% FP 3 0.02% 9 0.05% FN 18,468 93.97% 18,669 95.40% Số lượng SNP 10X TP 9,439 47.98% 8,223 41.92% FP 21 0.11% 58 0.30% FN 10,211 51.91% 11,337 57.79% Số lượng SNP 30X TP 19,155 96.56% 18,951 96.10% FP 187 0.94% 161 0.82% FN 495 2.50% 609 3.09%
Bảng 3.4 Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả
Ngồi ra, để đánh giá việc gọi SNP với hai phần mềm gióng hàng BWA và BWTAligner, nghiên cứu sử dụng phép đo độ chính xác (precision), độ bao phủ (hay còn gọi là độ nhạy, recall) và F-score. Độ chính xác được định nghĩa là TP/(TP+FP), độ bao phủ bằng TP/(TP+FN), và F-score bằng 2*độ chính xác*độ bao phủ/(độ chính xác+độ bao phủ). Độ nhạy được hiểu là số lượng dương tính thật trong số lượng các trường hợp dương tính dữ liệu ban đầu, cịn độ chính xác là số lượng các dương tính thật trong số lượng dương tính trong dữ liệu thống kê được sau khi chạy gióng hàng và các phần mềm gọi SNP. Từ bảng 3.4, nghiên cứu cho thấy ở độ sâu thấp (5X và 10X),
BWTAligner, F-score tăng khi độ sâu tăng, và đạt đến hơn 98% với độ sâu 30X. F- score của BWA cao hơn BWTAligner với 98.25% so với 98.01%.
BWA BWTAligner
5X 10X 30X 5X 10X 30X
Độ chính xác 0.9974 0.9978 0.9903 0.9900 0.9930 0.9916
Độ nhạy 0.0601 0.4804 0.9748 0.0456 0.4204 0.9689
F-score 0.1134 0.6485 0.9825 0.0871 0.5907 0.9801
Bảng 3.5 So sánh độ đúng giữa BWA và BWTAligner gọi SNP
b. Kết quả gióng hàng trình tự và tìm SNP với dữ liệu hệ gen lúa Việt Nam
Do nghiên cứu với dữ liệu giả lập, độ sâu 30X đủ tốt và đủ độ tin cậy cao, nên dữ liệu hệ gen lúa được lựa chọn giải trình tự với độ sâu 30X bởi cơng ty Illumina. kết quả gióng hàng trình tự của hệ gen với trình tự tham chiếu của BWA là 96.33% so với BWTAligner là 87,17%. Nghiên cứu cũng kết hợp sử dụng các công cụ hỗ trợ : SAMtools và VarScan để tìm số lượng SNP. Kết quả cho thấy, số lượng SNP khi chạy với BWA cao hơn 7.65% số lượng SNP khi chạy với BWTAligner (Hình 3.3, Bảng 3.6). Tuy nhiên để đánh giá được sự thành cơng và chính xác của cơng cụ thì cần có thêm nhiều thử nghiệm trên cơng cụ đã xây dựng trên các bộ dữ liệu khác nhau. Đòi hỏi những nghiên cứu tiếp theo chuyên sâu hơn để củng cố cho các kết quả đạt được. Dưới đây là một số thống kê chi tiết trong kết quả thu được :
Hình 3.4 Biểu đồ số lượng SNP trên từng nhiễm sắc thể với hai phần mềm gióng hàng trình tự BWA và BWTAligner
Nhiễm sắc thể BWTAligner BWA
Nhiễm sắc thể 1 233,111 245,277
Nhiễm sắc thể 2 204,691 215,775
Nhiễm sắc thể 3 200,651 206,575
Nhiễm sắc thể 4 149,505 168,166
Nhiễm sắc thể 9 133,830 144,964
Nhiễm sắc thể 10 142,862 156,476
Nhiễm sắc thể 11 167,507 186,928
Nhiễm sắc thể 12 142,749 162,764
Tổng số 2,007,827 2,174,311