3.3 Chuẩn bị dữ liệu
a. Hệ gen tham chiếu
Để tìm kiếm các biến dị trên hệ gen, quá trình thực nghiệm sử dụng phần mềm đã được nhóm xây dựng là BWTAligner và phần mềm BWA (Burrows -Wheeler Aligner) để gióng hàng trình tự. Hệ tham chiếu – định nghĩa tại mục 1.3.3 - được chọn là hệ gen lúa Nipponbare, bản 7.0 từ Dự án chú giải hệ gen lúa (kích thước hệ gen tham chiếu là 373,245,519 bp).
Hệ gẹ Nipponbare được lựa chọn là hệ gen được nghiên cứu bởi các nhà khoa học Nhật Bản. Có nhiều bài báo được công bố, cũng như nhiều nghiên cứu khoa học khác trên thế giới cũng đã lựa chọn và sử dụng hệ gen Nipponbare làm hệ gen tham chiếu. Hệ gen Nipponbare là hệ gen duy nhất được chú giải hoàn toàn chức năng hệ gen tính đến đầu năm 2014. Do vậy hệ gen Nipponbare là hệ gen tham chiếu phù hợp được lựa chọn để tiến hành thực nghiệm.
b. Dữ liệu giả lập
Dữ liệu giả lập là dữ liệu được trích chọn một phần từ hệ gen tham chiếu. Dữ liệu giả lập sẽ được thay đổi sai ngẫu nhiên một số vị trí Nucleotid rồi đưa vào chạy gióng hàng trình tự bởi hai cơng cụ BWTAligner và BWT. Kết quả thu được sau khi gióng hàng trình tự sẽ được đem kiểm chứng với giả thiết trước đó và đưa ra đánh giá hiệu quả của phần mềm.
Dữ liệu giả lập lựa chọn nhiễm sắc thể số 9 của hệ gen tham chiều (kích thước 23,012,720 bp). Dữ liệu đã được thay đổi ngẫu nhiên 0.085% SNP. Để đánh giá phần mềm gióng hàng, dữ liệu được giả lập các độ sâu (depth coverage) khác nhau là 5X, 10X và 30X với chất lượng trình tự tốt .
Các thơng số giả lập dữ liệu được thể hiện qua bảng dưới đây :
Thông số Giá trị Tỷ lệ lỗi base 0.020 Tỷ lệ đột biến 0.085% Kích thước đoạn trình tự 100 bp Định dạng giải trình tự Paired-end (Giải trình tự 2 chiều)