4.1 Kết quả thực nghiệm
4.1.2 Các kết quả thực nghiệm của bài báo
Đánh giá hiệu năng của các thuật toán trên một bộ dữ liệu được mô phỏng:
Đánh giá về hiệu năng giữa các thuật toán được đánh giá trên ba mô hình xem hình 4.3[16]:
- Mô hinh1: Mô hình cộng gộp, hay còn gọi là mô hình nhân giống, biểu thị hoạt động của các alen đồng hợp tử.
- Mô hình 2: Mô hình tương tác át chế với hiệu ứng biên cụ thể. Nghĩa là phải có ít nhất một alen liên quan đến bệnh phải có mặt ở mỗi vị trí (các vị trí xảy ra tương tác với nhau).
- Mô hình 3: Cũng giống như mô hình 2, nhưng mô hình 3 là mô hình ngưỡng. Sự có mặt thêm của các alen liên quan đến bệnh không góp phần làm tăng thêm nguy cơ mà chỉ góp phần làm tăng tỉ lệ cược đối với bệnh.
Hình 4.3 Minh họa ý nghĩa ba mô hình 1,2,3
Trong hình 4.4 bên dưới thể hiện ba mô hình, mỗi một mô hình bao gồm các thông số sau:
N: Số lượng mẫu cá thể
: Tham số sinh ra dữ liệu giả và được lấy gần với dữ liệu thật nhất. có giá trị nhỏ thì càng gần với dữ liệu thật hơn. trong mô hình 1 và trong mô hình 2 và 3.
MAF: Được viết tắt bởi “minor allele frequency”, hiểu là tần số xuất hiện của các alen lặn trong mô hình dữ liệu.
: Tham số thể hiện liên kết không cân bằng giữa các SNPs ở các vị trí (Linkage disequilibrium between SNPs).
Hiệu năng (Power): Hiệu năng đánh giá khả năng phát hiện đúng các vị trí tương tác với nhau có liên quan đến bệnh. Power có giá trị càng cao thì càng tốt. Nhận lần lượt các giá trị: 0.0; 0.2 ; 0.4 ; 0.6 ; 0.8 ; 1.0.
Đối với mô hình 1 và mô hình 3 xét với MAF= 0.1; 0.2; 0.5 và = 0.7 và 1.0.
Nhìn tổng thể có thể nói thuật toán AntEpiSeeker có hiệu năng tốt hơn cả ba thuật toán: SNPHarvester, BEAM và Generic ACO. Đối với mô hình 2 không đánh giá được giữa các thuật toán.
Hình 4.4 Đánh giá hiệu năng giữa các thuật toán AntEpiSeeker, SNPHarvester, BEAM và Generic ACO
Đánh giá tỉ lệ dương tính giả
Thực hiện so sánh giữa các thuật toán AntEpiSeeker, SNPHarvester, BEAM và Generic ACO với tiêu chí: Thuật toán nào có giá trị và tỉ lệ phần trăm nhỏ hơn thì thuật toán đó hiệu quả hơn. Nghĩa là khả năng phát hiện sai các vị trí tương tác với nhau liên quan đến bệnh là ít. Hay có thể hiểu đó là tỉ lệ dương tính giả, các vị trí tương tác với nhau không liên quan đến bệnh nhưng lại phát hiện và cho là liên quan đến bệnh.
Xét trên bộ dữ liệu gồm có 4000 cá thể (2000 bị bệnh và 2000 không bị bệnh) được nghiên cứu và 2000SNPs với MAF , mức ý nghĩa thống kê lần lượt nhận các giá trị là: , các cột tiếp theo là các thuật toán.
(xem trong bảng 4.1). Các thuật toán so sánh với một mức ý nghĩa thống kê .
Để đánh giá thuật toán tốt, thuật toán nào có nhiều giá trị nhỏ thì thuật toán đó được đánh giá cao, nghĩa là việc tìm ra các vị trí tương tác liên quan đến bệnh có ý nghĩa thống kê hay phát hiện các vị trí tương tác đó là sai (tỉ lệ dương tính giả) ít. Nhìn vào bảng 4.1 ta thấy, thuật toán BEAM không có được báo cáo, thuật toán tìm kiếm tuần tự có giá trị nhỏ hơn so với thuật toán SNPHarvester nhưng lớn hơn so với thuật toán AntEpiSeeker trong cả hai trường hợp trước khi giảm thiểu dương tính giả và sau khi giảm thiểu dương tính giả. Thuật toán AntEpiSeeker với kết quả sau khi giảm thiểu tốt hơn đáng kể so với trước khi chưa giảm thiểu
Bảng 4.1 So sánh tỉ lệ giảm thiểu dương tính giả
Tỉ lệ phát hiện sai của các thuật toán khác nhau trên dữ liệu mô phỏng Tỉ lệ dương tính giả
AntEpiSeeker
(mức ý nghĩa)
Tìm kiếm tuần tự
BEAM SNPHarvester Trước khi giảm thiểu dương
tính giả
Sau khi giảm thiểu dương
tính giả 10-5
10-4
10-3
10-2
5.5x10-6
5.3x10-5
6.9x10-4
8.4x10-3
Không có báo cáo Không có
báo cáo Không có
báo cáo Không có
báo cáo
1.4x10-2
1.6x10-2
2.0x10-2
2.4x10-2
3.5x10-6
3.0x10-5
2.9x10-4
2.0x10-3
3.0x10-6
1.1x10-5
3.7x10-5
6.6x10-5
Bảng 4.2 Kết quả trước khi chưa giảm thiểu dương tính giả
Epistatic interactions:
Loci Chi-square Pvalue
486(rs486) 731(rs731) 45(rs45) 755(rs755) 1902(rs1902) 3376(rs3376)
1318(rs1318) 773(rs773) 450(rs450) 513(rs513) 407(rs407) 2673(rs2673) 3622(rs3622) 2673(rs2673)
3622(rs3622) 187(rs187) 3622(rs3622) 3095(rs3095) 3622(rs3622) 2363(rs2363)
………
31.6464 24.0707 21.0312 23.9852
22.5195 21.4931 26.716 22.5516 24.5271 36.7813
………
0.000107746 0.00223008
0.00706 0.00230489 0.00403916 0.00594673 0.000791302
0.0039903 0.00186873 1.26254e-005
………
Trước khi chưa thực hiện giảm thiểu dương tính giả, nhiều bộ SNP có chung cùng một vị trí. Ví dụ như vị trí tương tác với rất nhiều các vị trí khác có mặt ở nhiều bộ SNP khác nhau: . Tiến hành giảm thiểu dương tính giả bằng cách lấy giao các bộ có chung vị trí với nhau bộ SNP nào có giá trị nhỏ hơn thì chọn. Sau khi thực hiện giảm thiểu dương tính giả chỉ còn một bộ chứa vị trí vì giá trị = 1.26254e-005 nhỏ nhất so với các bộ khác.
Bảng 4.3 Kết quả sau khi giảm thiểu dương tính giả
Epistatic interactions:
Loci Chi-square P value
450(rs450) 513(rs513) 231(rs231) 2074(rs2074) 3622(rs3622) 3095(rs3095)
43(rs43) 1458(rs1458) 2523(rs2523) 3662(rs3662)
355(rs355) 2141(rs2141) 3780(rs3780) 1810(rs1810)
79(rs79) 3109(rs3109)
………
22.5195 20.4822 36.7813 31.9541 20.3716 21.2868 41.6486 20.8769
………
0.00403916 0.00865797 1.26254e-005 9.49211e-005 0.00901806 0.00642345 1.57615e-006
0.00748158
………
Đánh giá phần trăm phát hiện đúng và phát hiện sai trên bộ dữ liệu lớn mở rộng Thực hiện nghiên cứu trên nhiễm sắc thể số 1 với 912 cá thể (456 cá thể bị bệnh và 456 cá thể không bị bệnh) và 73 355 SNPs, với MAF< 0.1 và mức ý nghĩa thống kê với giá trị 0.0001[22]. Trong bảng 4.3 được thể hiện bên dưới tỉ lệ phát hiện đúng với phần trăm càng cao càng tốt và tỉ lệ phần trăm của phát hiện sai càng thấp càng tốt.
Qua bảng 4.3 cho thấy thuật toán AntEpiSeeker tốt hơn cả, trước khi chưa giảm thiểu tỉ lệ phần trăm phát hiện đúng so với thuật toán SNPHarvester cao hơn 40.2% và tỉ lệ phát hiện sai thì nhỏ hơn khoảng 1.5%. Thuật toán AntEpiSeeker sau khi giảm thiểu dương tính giả thì tỉ lệ phần trăm phát hiện sai giảm xuống chỉ còn 18.8%, có bước đánh dấu đáng kể.
Bảng 4.4 So sánh tỉ lệ phần trăm phát hiện trên bộ dữ liệu lớn So sánh các thuật toán khác nhau trên bộ dữ liệu lớn
Thuật toán Tỉ lệ phát hiện đúng Tỉ lệ phát hiện sai SNPHarvester
Generic ACO AntEpiSeeker AntEpiSeeker
(sau khi giảm thiểu dương tính giả)
26.5%
0 66.7%
53.3%
98.6%
100%
97.1%
18.8%