Thuật toán AntEpiSeeker

Như vậy vị trí nào có nhiều kiến sử dụng sẽ càng được cập nhật mùi nhiều hơn. Do đó sẽ được kiến lựa chọn nhiều hơn trong các bước lặp sau. Các con kiến giao tiếp với nhau thông qua vết mùi tại mỗi vị trí.

Ưu nhược điểm:

Ưu điểm

Khi sử dụng các bộ dữ liệu lớn thì thuật toán ACO so với hai thuật toán BEAM và SNPHarvester khả năng phát hiện tương tác khả quan hơn.

Nhược điểm

Tuy nhiên thuật toán Generic ACO vẫn còn thực hiện theo kiểu tuần tự nên vẫn còn mất nhiều thời gian trong quá trình tính toán đối với những bộ dữ liệu lớn và khả năng phát hiện vẫn chưa được chính xác như mong muốn.

3.3.1.2 Thuật toán AntEpiSeeker

Thuật toán AntEpiSeeker cải tiến của thuật toán Generic ACO trong việc giải quyết bài toán tương tác gen. Thuật toán AntEpiSeeker được Yupeng Wang cùng cộng sự đề xuất năm 2010[22], với mục đích tăng khả năng phát hiện để tạo độ chính xác cao hơn. Tư tưởng của thuật toán AntEpiSeeker được chia làm hai giai đoạn:

Giai đoạn đầu: Dùng thuật toán kiến (Thuật toán ACO).

Sử dụng thuật toán Generic ACO để tìm kiếm ra các bộ SNPs gồm 𝑘1 vị trí, với điều kiện 𝑘1 > 𝑘(là số tương tác đầu ra của bài toán). Tính 𝑋2 cho mỗi bộ SNPs được chọn, thực hiện hai cách chọn:

- Cách chọn thứ nhất: Chọn theo 𝑋2, chọn các bộ SNPs có 𝑋2 cao nhất đưa vào tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 >.

- Cách chọn thứ hai: Chọn theo vết mùi mà các con kiến để lại trên mỗi vị trí, chọn ra những vị trí có vết mùi cao nhất đưa vào tập < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 >.

- Kết quả sau hai lần chọn đưa vào một file: “AntEpiSeeker.log”

Giai đoạn hai: Dùng thuật toán duyệt toàn bộ.

Thực hiện tìm 𝑘 𝑣ị 𝑡𝑟í tương tác với nhau liên quan đến bệnh dựa trên hai tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 > và < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 > được xác định trong giai đoạn một được lưu trong trong file “AntEpiSeeker.log”. Thực hiện tính toán trên hai tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 > và < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 > , hai tập này nhỏ hơn rất nhiều so với SNPs trong bộ dữ liệu ban đầu. Vì vậy giúp giảm thiểu chi phí tính toán trong giai đoạn hai.

- Đối với tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 >: Duyệt toàn bộ 𝐶𝑘𝑘1 ∗ 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 cách chọn bộ gồm 𝑘 𝑣ị 𝑡𝑟í rồi tính 𝑋2 cho mỗi trường hợp, đưa vào file kết quả những trường hợp thỏa mãn 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒.

- Đối với tập < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 >: Cũng thực hiện duyệt toàn bộ 𝐶𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖𝑘 trường hợp và tính 𝑋2 cho mỗi trường hợp, đưa vào file kết quả những trường hợp thỏa mãn 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒.

- Kết quả chọn ra được tập các bộ có 𝑘 𝑣ị 𝑡𝑟í tương tác liên quan đến bệnh cho vào một file: “result_maximized.txt”.

- Từ file “result_maximized.txt” thực hiện giảm thiểu dương tính giả. Kết thúc quá trình giảm thiểu lưu vào một file kết quả “result.txt”.

Thuật toán AntEpiSeeker thực hiện hai lượt tìm kiếm có 𝑘1 𝑣ị 𝑡𝑟í ở mỗi bộ với hai lượt là khác nhau:

- Lượt thứ nhất: Mỗi bộ gồm có 𝑘1 = 6, 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 = 1000, 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 = 200.

- Lượt thứ hai: Mỗi bộ gồm có 𝑘1 = 3, 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 = 1000, 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 = 200.

- Mỗi một lượt đều thực hiện theo hai giai đoạn của thuật toán.

Thực hiện giảm thiểu dương tính giả

Thuật toán AntEpiSeeker có hai file kết quả: Trước khi giảm thiểu dương tính giả và sau khi giảm thiểu dương tính giả lần lượt là “result_maximized.txt” và “result.txt”. Được mô tả như sau:

1) Khởi tạo: 𝐸𝐼𝑎𝑙𝑙= result_maximized.txt; 𝐸𝐼𝑚= result.txt= ∅;

𝐼𝑖 ∈ 𝐸𝐼𝑎𝑙𝑙; 𝐽𝑗 ∈ 𝐸𝐼𝑚.

2) Thực hiện giảm thiểu: 𝐼𝑖 ∩ 𝐽𝑗 = ∅ thì 𝐸𝐼𝑚 = 𝐸𝐼𝑚 ∪ 𝐼𝑖.

Hình 3.4 Mô tả thuật toán AntEpiSeeker tổng quát

Bộ dữ liệu D

Lượt i 𝑖 = 1: 𝑘1 = 6 𝑖 = 2: 𝑘1 = 3 Giai đoạn 1

(thuật toán kiến)

iTopLoci=200

(vết mùi)

Giai đoạn 2 (thuật toán duyệt) iTopModel=1000 (𝑋2) 𝐶𝑘𝑘1 ∗ 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 iTopLoci=200 iTopModel=1000 𝐶𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖𝑘 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒 result_maximized.txt result.txt

Dữ liệu vào D, 𝑖𝐸𝑝𝑖𝑜𝑑𝑒𝑙, 𝑃 − 𝑉𝑎𝑙𝑢𝑒, 𝑙𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑠𝑚𝑎𝑙𝑙𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑖𝐴𝑛𝑡𝐶𝑜𝑢𝑛𝑡; 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝐿𝑎𝑟𝑔𝑒, 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝑆𝑚𝑎𝑙𝑙; 𝜏0, 𝜌, 𝛼 For 𝑠𝑒𝑡𝑠𝑖𝑧𝑒 ∈ (𝑙𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑠𝑚𝑎𝑙𝑙𝑠𝑒𝑡𝑠𝑖𝑧𝑒) If 𝑠𝑒𝑡𝑠𝑖𝑧𝑒== 𝑙𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑖𝐼𝑛𝑡𝐶𝑜𝑢𝑛𝑡 == 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝐿𝑎𝑟𝑔𝑒; else 𝑖𝐼𝑛𝑡𝐶𝑜𝑢𝑛𝑡 == 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝑆𝑚𝑎𝑙𝑙

Khởi tạo vết mùi cho mỗi vị trí 𝑖 = 0

Bắt đầu thực hiện vòng lặp

Với mỗi một con kiến lựa chọn một bộ SNP với 𝑠𝑒𝑡𝑠𝑖𝑧𝑒

(lựa chọn theo công thức 3.1);

Tính 𝑋2 cho mỗi bộ SNP và cập nhật vết mùi cho mỗi vị trí trong bộ SNP; Đưa ra danh sách tập các bộ SNP với 𝑋2cao nhất.

Khởi tạo lại tất cả các con kiến. 𝑖 = 𝑖 + 1

Kết thúc vòng lặp

If 𝑖 == 𝑖𝐼𝑛𝑡𝐶𝑜𝑢𝑛𝑡.

Thực hiện xử lý: Tìm kiếm và đưa ra danh sách các bộ SNP với 𝑋2cao nhất và các vị trí có vết mùi cao nhất.

End for

Thực hiện giảm thiểu dƣơng tính giả

Return tập các bộ SNP tương tác với nhau thỏa mãn 𝑃 − 𝑉𝑎𝑙𝑢𝑒 Hình 3.5 Đặc tả thuật toán AntEpiSeeker 3.3.2 Ý nghĩa các tham số

Giải thích ý nghĩa của các tham số được sử dụng trong thuật toán AntEpiSeeker:

 D: Là bộ dữ liệu của N cá thể cho nghiên cứu (trong đó có cá thể mắc bệnh và không mắc bệnh), với các mẫu kiểu gen ở L vị trí (locus).

 𝑖𝐸𝑝𝑖𝑀𝑜𝑑𝑒𝑙: Số vị trí tương tác trong một bộ của đầu ra (số SNP).

 𝑃 − 𝑉𝑎𝑙𝑢𝑒: Giá trị 𝑝 mang ý nghĩa thống kê.

 𝐿𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑠𝑚𝑎𝑙𝑙𝑠𝑒𝑡𝑠𝑖𝑧𝑒: Kích thước của bộ SNP lớn và bộ SNP nhỏ (kích

thước chính là số vị trí tương tác với nhau).

 𝑖𝐴𝑛𝑡𝐶𝑜𝑢𝑛𝑡: Số lượng của kiến.

 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝐿𝑎𝑟𝑔𝑒, 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝑆𝑚𝑎𝑙𝑙: Số lần lặp của bộ SNP với kích thước lớn và bộ SNP với kích thước nhỏ.

 𝜏0 : Mức mùi khởi tạo ban đầu; 𝜌 tỉ lệ bay hơi; 𝛼 tham số xác định trọng lượng vết mùi thu được bởi các con kiến.

3.3.3 Xác suất Chi-square và trị số 𝐏𝐯𝐚𝐥𝐮𝐞 3.3.3.1 Xác suất Chi-square

Chi-square hay còn gọi là “khi bình phương của pearson” được nhà sinh toán người Anh Karl Pearson đề xuất vào năm 1900 [12].

Chi-Square được kí hiệu: 𝑋2, một công cụ toán thống kê để kiểm tra độ phù hợp giữa các trị số thực tế quan sát được và các trị số lý thuyết được kì vọng của một giả thuyết thống kê nào đó trong một cuộc khảo sát hay thí nghiệm [2].

Công thức tính: 𝑋2 = (𝑂𝑖 − 𝐸𝑖) 2 𝐸𝑖 𝑛 𝑖 (3.4) Trong đó:

 n: Các đối tượng được xét trên một tập nhóm.

 𝑂𝑖 viết tắt bởi Observed: Trị số thực tế quan sát được trong một cuộc khảo sát hay thí nghiệm của đối tượng i trên tập nhóm.

 𝐸𝑖 viết tắt bởi Expected: Trị số lý thuyết được kì vọng của đối tượng i trên tập nhóm (tính theo một giả thuyết nào đó).

Một kiểm định 𝑋2 thường bao gồm những bước như sau:

- Thiết lập giả thuyết vô hiệu 𝐻0 và giả thuyết 𝐻1(phủ định với giả thuyết 𝐻0).

- Tính 𝐸 theo giả thuyết 𝐻0.

- Đưa ra giá trị 𝑂 và tính trị số 𝑋2 thực tế theo công thức 3.4.

- So sánh 𝑋2 thực tế với 𝑋2 lý thuyết:

i) Nếu 𝑋2 thực tế nhỏ hơn 𝑋2 lý thuyết, có 𝑃𝑣𝑎𝑙𝑢𝑒 > 𝑃 − 𝑉𝑎𝑙𝑢𝑒 (mức ý nghĩa thống kê) thì chấp giả thuyết 𝐻0.

ii) Nếu 𝑋2 thực tế lớn hơn 𝑋2 lý thuyết thì chấp nhận giả thuyết 𝐻1. 𝑋2 thực tế càng lớn thì trị số quan sát và trị số lý thuyết càng có ý nghĩa hay trị số 𝑃𝑣𝑎𝑙𝑢𝑒 so với 𝑃 − 𝑉𝑎𝑙𝑢𝑒 càng nhỏ càng tốt.

Ví dụ:

Để nghiên cứu mối quan hệ giữa tuổi với kết quả học tập của sinh viện tại một trường đại học, người ta tiến hành thử nghiệm ngẫu nhiên với 1140 sinh viên (với mức ý nghĩa 𝑝 = 0.05 và 𝑋2 = 12.84). Với đối tượng là các độ tuổi và nhóm gồm có kết quả học tập tốt và không tốt. Kết quả được trình bày trong bảng 3.2:

Bảng 3.2 Tuổi và kết quả học tập của sinh viên

Kết quả học tập Tuổi Tốt Không tốt Tổng cộng (Ri) ≤ 25 198 90 288 26 − 35 114 97 211 36 − 45 166 211 377 ≥ 46 92 172 264 Tổng cộng (Cj) 570 570 1140

Bài toán đưa ra với giả thuyết vô hiệu 𝐻0:

Giả thuyết 𝐻0: Không có mối liên hệ giữa tuổi và kết quả học tập. Giả thuyết 𝐻1: Tồn tại mối liên hệ giữa tuổi và kết quả học tập.

Trong bảng 3.2 giá trị của các đối tượng chính là trị số thực tế quan sát được. Trị số lý thuyết kì vọng 𝐸 được tính (theo giả thuyết 𝐻0): (𝑅𝑖 ∗ 𝐶𝑗)/1140.

 Với 𝑗 = 1 - 𝑖 = 1: 𝐸11= (288*570)/1140= 144 - 𝑖 = 2: 𝐸21= (211*570)/1140=105.5 - 𝑖 = 3: 𝐸21= (377*570)/1140=188.5 - 𝑖 = 4: 𝐸21= (264*570)/1140=132.  Tính tương tự với 𝑗 = 2.

Kết quả của giá trị 𝑂 và 𝐸 được thể hiện trong bảng 3.3. Giá trị trong ngoặc là giá trị của 𝐸.

Bảng 3.3 Kết quả của trị số 𝑶 và 𝑬 của ví dụ Tuổi Kết quả học tập Tốt Không tốt ≤ 25 198 (144) 90 (144) 26 − 35 114 (105,5) 97 (105,5) 36 − 45 166 (188,5) 211 (188,5) ≥ 46 92 (132) 172 (132) Ta có trị số 𝑋2 thực tế: 𝑋2 =(198 − 144) 2 144 + (90 − 144)2 144 + ⋯ + (172 − 132)2 132 = 71.5.

Ta thấy 71.5 > 12.84, tức là 𝑋2 thực tế lớn hơn 𝑋2 lý thuyết và 𝑃𝑣𝑎𝑙𝑢𝑒 = 2.03712E-15. Vậy giả thuyết 𝐻0 bị bác bỏ. Nghĩa là tồn tại mối liên hệ giữa tuổi và kết quả học tập (chấp nhận giả thuyết 𝐻1).

3.3.3.2 Trị số 𝐏𝐯𝐚𝐥𝐮𝐞

Trị số 𝑃 𝑣𝑎𝑙𝑢𝑒 được viết tắt của “Probability value ” hiểu là xác suất của dữ liệu xảy ra nếu giả thuyết vô hiệu là đúng. Trị số 𝑃 là một xác suất có điều kiện và ý nghĩa của trị số 𝑃 gắn liền với triết lý phản nghiệm trong khoa học.

Thực hiện xét một mô hình kiểm định thống kê để tiếp cận lý thuyết phản nghiệm. Mô hình gồm có các bước như sau:

- Bước một: Phát biểu giả thuyết vô hiệu 𝐻0, giả thuyết vô hiệu là giả thuyết ngược lại với giả thuyết mà nhà nghiên cứu muốn kiểm định.

- Bước hai: Thu thập dữ liệu E liên quan tới giả thuyết.

- Bước ba: Tính xác suất xảy ra với dữ liệu E thu được nếu giả thuyết 𝐻0 là đúng hay có thể hiểu theo toán học là 𝑃(𝐸|𝐻0).

Quay trở lại với ví dụ trong mục 3.3.3.1:

- Với giả thuyết vô hiệu 𝐻0: Không có mối liên hệ giữa tuổi và kết quả học tập.

- Tính dữ liệu E theo giả thuyết 𝐻0 , kết quả thể hiện trong bảng 3.3.

- Từ giá trị 𝑋2= 71.5 và bậc tự do = 3, thu được giá trị 𝑃𝑣𝑎𝑙𝑢𝑒 = 2.03712E-15.

- Xét giá trị với tiêu chí 𝑝 = 0.05 mà đầu bài cho, đây là xác suất mà để giữa tuổi và kết quả học tập không có mối liên hệ (hay là điều kiện mà giả thuyết vô hiệu là đúng). Giá trị 𝑃𝑣𝑎𝑙𝑢𝑒 thu được rất nhỏ so với 𝑝 = 0.05 vì thế rất có ý nghĩa thống kê hay nói cách khác không tồn tại độc lập giữa tuổi và kết quả học tập. Chấp nhận giả thuyết 𝐻1 và bác bỏ giả thuyết 𝐻0 .

3.3.3.3 Vận dụng Chi-square trong bài toán

Tính 𝑋2 cho mỗi bộ SNP. Giả sử ta có bộ T gồm có 𝑘 𝑣ị 𝑡𝑟í tương tác với nhau. Mỗi một vị trí có thể nhận các giá trị 0|1|2. Vậy bộ T có thể nhận 3𝑘 giá trị khác nhau. Xét mỗi giá trị của T:

- 𝑂0(𝑂1): Số lượng cá thể không (có) bệnh phân biệt bằng giá trị của T.

- 𝐸0: Số lượng cá thể có giá trị của T * 𝐸0/𝑛 (𝐸0: Số lượng cá thể không bị bệnh, n là số lượng cá thể).

- 𝐸1: Số lượng cá thể có giá trị của T * 𝐸1/𝑛 (𝐸1: số lượng cá thể không bị bệnh, n là số lượng cá thể).

- 𝑋2 = ∑( 𝑂0−𝐸0 2

𝐸0 + 𝑂1−𝐸1 2

𝐸1 )

- Sau khi tính được 𝑋2, tính giá trị 𝑃𝑣𝑎𝑙𝑢𝑒 dựa vào thư viện hỗ trợ "gsl/gsl_cdf.h" và so sánh với giá trị 𝑃 − 𝑉𝑎𝑙𝑢𝑒.

Ví dụ:

Bảng 3.4 Ví dụ đầu vào của bài toán với 2 vị trí

𝑟𝑠1 𝑟𝑠2 Class 0 0 1 0 0 0 0 1 1 1 2 0 0 0 1 2 2 0 0 0 1

- Xét bộ T với k=2, gồm hai vị trí 𝑟𝑠1 và 𝑟𝑠2 và class thể hiện cá thể bị bệnh và không bị bệnh (1 và 0).

- Bộ T nhận các giá trị có thể có là 32 = 9 giá trị khác nhau: 00; 01; 02; 10; 11; 12; 20; 21; 22. Mô tả trong bảng 3.5

Bảng 3.5 Các giá trị của T với mẫu cá thể

Cá thể

Giá trị của T Bị Bệnh Không bệnh Tổng cộng (Ri) 00 3 1 4 01 1 0 1 02 0 0 0 10 0 0 0 11 0 0 0 12 0 1 1 20 0 0 0 21 0 0 0 22 0 1 1 Tổng cộng (Cj) 4 3 7

Bài toán đưa ra với giả thuyết vô hiệu 𝐻0:

Giả thuyết 𝐻0: Hai vị trí 𝑟𝑠1 và 𝑟𝑠2 tương tác với nhau không liên quan đến bệnh. Giả thuyết 𝐻1: Hai vị trí 𝑟𝑠1 và 𝑟𝑠2 tương tác với nhau liên quan đến bệnh.

Trong bảng 3.6 giá trị của các đối tượng chính là trị số thực tế quan sát được. Trị số lý thuyết kì vọng 𝐸 được tính (theo giả thuyết 𝐻0): (𝑅𝑖 ∗ 𝐶𝑗)/7. Trong bảng 3.5 chỉ thực hiện lấy những đối tượng nào quan sát được có giá trị khác 0 và không lấy những đối tượng có giá trị quan sát cho cả trường hợp bị bệnh và không bệnh đều nhận giá trị 0. Kết quả thể hiện trong bảng 3.6. Giá trị trong ngoặc là giá trị của 𝐸.

Bảng 3.6 Kết quả của trị số 𝑶 và 𝑬 của ví dụ

Cá thể

Giá trị của T Bị bệnh Không bệnh Tổng cộng (Ri) 00 3(16/7) 1(12/7) 4 01 1(4/7) 0(3/7) 1 12 0(4/7) 1(3/7) 1 22 0(4/7) 1(3/7) 1 Tổng cộng (Cj) 4 3 7 Vậy bộ T có 𝑋2 = (3−16/7)2 16/7 +(1−12/72 12/7 + ⋯ + (4/7)2 4/7 +(1−3/72 3/7

CHƢƠNG IV

KẾT QUẢ THỰC NGHIỆM

4.1 Kết quả thực nghiệm

Từ bộ dữ liệu đã được công bố trên bài báo “AntEpiSeeker: detecting epistatic interactions for case-control studies using a two-stage ant colony optimizaton algorithm” do Yupeng Wang12, Xinyu Liu12, Kelly Robbins1 and Romdhane Rekaya123* năm 2010[bb]. Chúng tôi đã tiến hành thực nghiệm trên bộ dữ liệu của bài báo để so sánh về thời gian chạy của thuật toán so với sau khi xử lý song song và so sánh kết quả với quy tắc cập nhật mùi mới theo Max-Min trơn.

4.1.1 Các thông số cài đặt

Các thông số cần thiểt để chạy thuật toán AntEpiSeeker bao gồm: iAntCount, iItCountlarge, iItCountSmall, α, iTopLoci, ρ, τ0, largesetsize, smallsetsize, iEpiModel, pvalue, INPFILE, OUTFILE. Tham số "iEpiModel"xác định số vị trí (locus) SNPs trong một tương tác gen. Các thông số "largesetsize", "smallsetsize" phải lớn hơn "iEpiModel".

Đối với mô hình tương tác 2 vị trí cho mỗi bộ SNP: largesetsize =6, smallsetsize=3 và iEpiMode =2;iItCountLarge =150; iItCountSmall =300; iAntCount =

1000, α = 1, ρ = 0.05 and τ0 = 100. Ngoài ra còn có giá trị 𝑃 − 𝑉𝑎𝑙𝑢𝑒 = 0.01. Các thông số trên được mô tả trên một bộ dữ liệu gồm có 4000 cá thể (2000 bị bệnh và 2000 không bị bệnh) được nghiên cứu và 2000SNPs.

Hình 4.1 Mô tả INPFILE

Mỗi một cột là một locus thể hiện vị trí cho một SNPs trong bộ dữ liệu dataSNPs. Được kí hiệu là 𝑟𝑠𝑖. Cột cuối cùng trong INPFILE kí hiệu là Class để phân biệt cá thể

bị bệnh và không bị bệnh. Trong mỗi một vị trí có thể nhận các giá trị 0|1|2 thể hiện cho các kiểu gen của SNPs. Hàng ngang là thể hiện cho một cá thể (cá thể bị bệnh và không bị bệnh).

File OUTFILE: Là file đầu ra cũng được hiện thị dưới dạng bảng ma trận. “result.txt” là file chứa kết quả của OUTFILE.

Loci Chi-square P value

1311(rs1311) 1845(rs1845) 33.7662 4.4787e-005 1355(rs1355) 469(rs469) 21.0676 0.00697002 958(rs958) 342(rs342) 1148(rs1148) 204(rs204) 27.5125 0.000576393 1300(rs1300) 1183(rs1183) 20.9739 0.00721715 1802(rs1802) 1423(rs1423) 21.1179 0.00684082 1477(rs1477) 1658(rs1658) 29.7253 0.000236359 1705(rs1705) 1553(rs1553) 29.9533 0.000215436 805(rs805) 1216(rs1216) 23.2111 0.00310355 1207(rs1207) 523(rs523) 24.316 0.00202817 1276(rs1276) 203(rs203) 31.3684 0.000120791 347(rs347) 10(rs10) 520(rs520) 1954(rs1954) 21.6217 0.00566701 1267(rs1267) 1920(rs1920) 21.9148 0.00507611 1753(rs1753) 525(rs525) 21.351 0.00627125 21.0676 21.8965 0.00511131 27.5125 20.9739 21.1179 29.7253 29.9533 23.2111 24.316 31.3684 30.7619 0 21.6217 21.9148 21.351 24.9183 21.7522 21.5102 24.6708 0.0 4.4787e-005 0.00697002 0.00511131 0.000576393 0.00721715 0.00684082 0.000236359 0.000215436 0.00310355 0.00202817 0.000120791 0.000154889 0.00566701 0.00507611 0.00627125 0.00160487 0.00539 Hình 4.2 Mô tả OUTFILE 4.1.2 Các kết quả thực nghiệm của bài báo

Đánh giá hiệu năng của các thuật toán trên một bộ dữ liệu được mô phỏng:

Đánh giá về hiệu năng giữa các thuật toán được đánh giá trên ba mô hình xem

nghĩa kết quả thực nghiệm