Thuật toán SNPHarvester

Thuật toán SNPharvester do Can Yang và cộng sự đề xuất vào năm 2009[23] với tư tưởng tìm kiếm các nhóm SNPs từ bộ dữ liệu ban đầu để từ đó đưa ra các vị trí SNP tương tác có liên quan đến bệnh. Tại mỗi một lần lặp thực hiện lựa chọn ra tập hợp các nhóm gồm có 𝑘 𝑣ị 𝑡𝑟í (mỗi vị trí là một SNP) thỏa mãn điều kiện thống kê (kí hiệu: M) và tối ưu địa phương (E), có nghĩa tối ưu lại những SNP, chỉ xét những SNP có liên quan đến bệnh và loại bỏ những SNP không liên quan. Sau k=1….[ln3Nd-1] lần lặp thu được tập hợp các nhóm gồm có 𝑘 𝑣ị 𝑡𝑟í (kí hiệu: S). Từ tập S, tiến hành xác định được số lượng q vị trí tương tác có liên quan tới bệnh. Với mỗi một nhóm trong tập S sẽ có 𝐶𝑘𝑞 vị trí tương tác với nhau liên quan đến bệnh (2≤q≤k). Thuật toán được đặc tả trong hình 3.1:

Dữ liệu vào:

D: Tập hợp các mẫu kiểu gen của Nd cá thể bị bệnh và Nu cá thể không bị bệnh ở L SNP makers.

SuccessiveRun: Điều kiện dừng- số lượng nhóm liên quan tới bệnh.

T: Ngưỡng ý nghĩa thống kê

Kết quả ra:

S: Tập hợp các nhóm k-SNP thỏa mãn điều kiện thống kê. k= 1,...[ln3Nd−1].

for k=1 to ln3Nd−1do

if k==1 then

tìm kiếm L SNP markers, đưa những SNPs có ý nghĩa vào trong S, và xóa những SNPs khác.

NumRandomRun←0

while NumRandomRun<SuccessiveRun do (M,E) = PathSeeker(D,k,T)

Loại bỏ tối ưu địa phương E if M rỗng then

NumRandomRun++ else

Đưa M vào trong S, và NumRandomRun←0 end if

end while

end if end for return S

Hình 3.1 Đặc tả thuật toán SNPHarvester 3.1.3 Ƣu, nhƣợc điểm

3.1.3.1 Ƣu điểm

Thuật toán BEAM

Thuật toán BEAM gồm có hai thành phần chính: Công cụ tìm kiếm tương tác gen thông qua MCMC và một đánh giá ý nghĩa thống kê. Trong thuật toán BEAM, phương pháp tiếp cận Bayes có một lợi thế, khả năng đưa ra thông tin về mỗi maker (ví dụ maker là vùng đã được mã hóa hay quản lý), định lượng tất cả các thông tin và những vùng không chắc chắn để cho phân loại lần sau.

Thuật toán SNPHarvester

Thuật toán SNPHarvester cải tiến hơn thuật toán BEAM là từ bộ dataSNPs ban đầu, thuật toán thực hiện gom nhóm các SNP vào với nhau và kiểm tra điều kiện thống kê, sau đó chỉ xét các SNP thỏa mãn điều kiện thống kê. Vì vậy làm giảm đáng kể số lượng SNP. Ngoài ra cũng đem lại thời gian chạy nhanh hơn trong cả trường hợp mô phỏng và thực tế.

3.1.3.2 Nhƣợc điểm

Hai thuật toán BEAM và SNPHarvester được chứng minh là có khả năng thực hiện xử lý dữ liệu trên quy mô lớn. Nhưng các nhà nghiên cứu muốn tìm ra những thuật toán có khả năng tốt hơn và có độ chính xác cao cũng như khả năng phát hiện các tương tác nhanh. Thuật toán AntEpiSeeker trình bày trong mục 3.3.1.2.

3.2 Tƣơng quan giữa bài toán tƣơng tác gen với bài toán ngƣời chào hàng

Bài toán người chào hàng là một bài toán điển hình được các nhà nghiên cứu áp dụng đưa các thuật toán ACO vào giải quyết như: Thuật toán AS, thuật toán ACS, thuật toán Max-Min (MMAS), gần đây có thêm thuật toán Max-Min trơn (SMMAS). Bài toán người chào hàng là một bài toán đồ thị cấu trúc đầy đủ, có thông tin về độ dài khoảng cách giữa các thành phố. Thông tin heuristic được xác định bằng độ dài nghịch đảo của cạnh.

Bài toán tương tác gen là một bài toán đồ thị cấu trúc đầy đủ, thông tin về khoảng cách giữa các vị trí là như nhau. Thông tin heuristic được xác định bằng 1.

Bảng 3.1 Minh họa tƣơng quan đồ thị

Đồ thị cấu trúc 𝐺 = (𝑉, 𝐸)

Bài toán tương tác gen Bài toán người chào hàng

- V: Tập các đỉnh tương ứng với tập các vị trí, mỗi vị trí tương ứng một 𝑆𝑁𝑃 . - E: Tập các cạnh nối các vị trí - V: Tập các đỉnh tương ứng với tập các thành phố. - E: Tập các cạnh nối các thành phố tương ứng.

3.3 Thuật toán ACO để giải quyết bài toán tƣơng tác gen 3.3.1 Trình bày thuật toán

3.3.1.1 Thuật toán Generic ACO

Mô tả thuật toán:

Theo định nghĩa của Dorigio và Gambardella [10], thuật toán ACO mô phỏng cách tìm đường đi của các con kiến thực. Trên đường đi các con kiến thực để lại một vết hóa chất gọi là vết mùi và theo vết mùi của các con kiến khác để tìm đường đi. Dựa trên hành vi của kiến thực, các thuật toán ACO được xây dựng trên mô hình kiến nhân tạo, ngoài những đặc điểm của kiến thực, kiến nhân tạo có bộ nhớ riêng và có khả năng ghi nhớ các đỉnh mà kiến đi qua. Các con kiến giao tiếp với nhau thông qua một hàm mật độ xác suất (Probability Density Function: PDF), hàm PDF được cập nhật bởi một vết hóa chất gọi là vết mùi mà mỗi con kiến để lại trên đường đi.

Dữ liệu vào gồm có N cá thể (bị bệnh và không bị bệnh) và dataSNPs. Kết quả ra là bộ gồm 𝑘 𝑣ị 𝑡𝑟í tương tác với nhau có liên quan đến bệnh.

Trong trường hợp này ACO là một hàm thủ tục lặp, dừng lại khi xác định được số lượng tương tác. Tư tưởng tổng quát cho thuật toán Generic ACO gồm các bước thực hiện như sau:

- Bước thứ nhất: Từ bộ dữ liệu N cá thể (bị bệnh và không bị bệnh) và dataSNPs

ban đầu, khởi tạo vết mùi cho mỗi một vị trí. Mỗi vị trí tương ứng với một SNP.

- Bước thứ hai: Tại mỗi một bước lặp, kiến m chọn ra một bộ 𝑆𝑚 gồm có 𝑘 𝑣ị 𝑡𝑟í từ dataSNPs.

- Bước thứ ba: Tính 𝑋2 cho mỗi bộ 𝑆𝑚 được chọn và đồng thời cập nhập mùi cho mỗi vị trí. Sau đó chọn ra những bộ 𝑆𝑚 thỏa mãn điều kiện 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 −

𝑉𝑎𝑙𝑢𝑒. Trong đó 𝑃 𝑣𝑎𝑙𝑢𝑒 là giá trị của các bộ 𝑆𝑚 và 𝑃 − 𝑉𝑎𝑙𝑢𝑒 là mức ý nghĩa

thống kê ban đầu. Hàm kiểm định thống kê X2 và mức ý nghĩa thống kê sẽ được trình bày chi tiết trong phần 3.3.3.

Procedure Generic ACO Dữ liệu vào:

N cá thể (bị bệnh và không bị bệnh) L SNPs (L-vị trí)

P-Value

Kết quả ra: Tập 𝑉 các bộ, mỗi bộ gồm k-vị trí tương tác với nhau Begin

Khởi tạo các tham số, ma trận mùi, m con kiến

Repeat

For 𝑚′=1 to m do

Kiến 𝑚′ xây dựng lời giải

Tính 𝑋2 cho mỗi bộ mà kiến xây dựng Cập nhật mùi;

Until (điều kiện kết thúc)

Đưa vào tập 𝑉 những bộ thỏa mãn 𝑃 − 𝑉𝑎𝑙𝑢𝑒 (giá trị mang ý nghĩa thống kê)

End

Xây dựng lời giải:

Khởi tạo m con kiến và thực hiện 𝑛 lần lặp. Tại mỗi một lần lặp các con kiến thực hiện đồng thời và độc lập. Mỗi con kiến phải xây dựng cho mình một lời giải, lựa chọn cho mình một tập 𝑇 các đỉnh, mỗi đỉnh là một SNP tương ứng với một vị trí.

Trong quá trình đi xây dựng lời giải, kiến phải lựa chọn cho mình một bộ SNPs để cho vào tập lời giải. Việc lựa chọn bộ SNPs phụ thuộc vào 𝑘 𝑣ị 𝑡𝑟í trong mỗi bộ, mỗi con kiến dựa vào mùi của các vị trí trong mỗi bộ.

Tại lần lặp 𝑖, kiến m lựa chọn cho mình một bộ 𝑆𝑚 gồm 𝑘 𝑣ị 𝑡𝑟í . Hoạt động của kiến 𝑚 là thực hiện gom nhóm, chọn ra 𝑘 𝑣ị 𝑡𝑟í (các vị trí không trùng nhau) để cho vào bộ 𝑆𝑚. Mỗi một vị trí được kí hiệu bởi: 1,2 … , 𝑚. Giả sử đầu vào có m vị trí hay gồm có 𝑚 SNPs (k< 𝑚) (xem hình 3.3).

Hình 3.3 Mô tả hoạt động của kiến

Xác suất lựa chọn vị trí 𝑘 ở lần lặp thứ 𝑖 dựa vào công thức tính xác suất thể hiện trong công thức (3.1): 𝑝𝑘𝑖 = (𝜏𝑘 𝑖 )𝛼𝜂𝑘𝛽 ∑𝐿𝑗 =1(𝜏𝑗 𝑖 )𝛼𝜂𝑘𝛽 (3.1) Trong đó:  𝐿: Tập các vị trí.

 𝜂𝑘𝛽: Thông tin heuristic xét ở vị trí 𝑘 và bằng 1.

 𝜏𝑘 𝑖 : Thông tin học tăng cường, biểu thị vết mùi của vị trí 𝑘 tại lần lặp 𝑖.

Sau 𝑛 lần lặp, kiến 𝑚 xây dựng được 𝑛 lời giải cho mình (tại mỗi lần lặp, lời giải độc lập nhau và các đỉnh được xây dựng trong từng lời giải là không trùng nhau).

Tại lần lặp thứ i, các con kiến xây dựng lời giải và tính 𝑋2 cho lời giải mà mình xây dựng, sau đó tiến hành cập nhật vết mùi theo công thức (3.2). Tại mỗi một lần lặp, kiến m sẽ để lại vết mùi tại vị trí mà kiến đã đi qua:

𝜏𝑘 𝑖 + 1 = 1 − 𝜌 𝜏𝑘 𝑖 + ∆𝜏𝑘 𝑖 (3.2)

Trong đó:

0 < 𝜌 ≤ 1 là hệ số bay hơi. Tham số 𝜌 được sử dụng để tránh sự tích tụ vết mùi quá nhiều trên một đỉnh và giúp cho “kiến ” quên đi các quyết định sai lầm.

 ∆𝜏𝑘 𝑖 là lượng mùi do kiến m cập nhật trên vị trí 𝑘 mà kiến 𝑚 đi qua ở lần lặp 𝑖. Giá trị ∆𝜏𝑘 𝑖 tính trong công thức (3.3):

∆𝜏𝑘 𝑖 = 0,1. 𝑋2 𝑛ế𝑢 𝑘 ∈ 𝑆𝑚 0 𝑛𝑔ượ𝑐 𝑙ạ𝑖

(3.3)

Như vậy vị trí nào có nhiều kiến sử dụng sẽ càng được cập nhật mùi nhiều hơn. Do đó sẽ được kiến lựa chọn nhiều hơn trong các bước lặp sau. Các con kiến giao tiếp với nhau thông qua vết mùi tại mỗi vị trí.

Ưu nhược điểm:

Ưu điểm

Khi sử dụng các bộ dữ liệu lớn thì thuật toán ACO so với hai thuật toán BEAM và SNPHarvester khả năng phát hiện tương tác khả quan hơn.

Nhược điểm

Tuy nhiên thuật toán Generic ACO vẫn còn thực hiện theo kiểu tuần tự nên vẫn còn mất nhiều thời gian trong quá trình tính toán đối với những bộ dữ liệu lớn và khả năng phát hiện vẫn chưa được chính xác như mong muốn.

3.3.1.2 Thuật toán AntEpiSeeker

Thuật toán AntEpiSeeker cải tiến của thuật toán Generic ACO trong việc giải quyết bài toán tương tác gen. Thuật toán AntEpiSeeker được Yupeng Wang cùng cộng sự đề xuất năm 2010[22], với mục đích tăng khả năng phát hiện để tạo độ chính xác cao hơn. Tư tưởng của thuật toán AntEpiSeeker được chia làm hai giai đoạn:

Giai đoạn đầu: Dùng thuật toán kiến (Thuật toán ACO).

Sử dụng thuật toán Generic ACO để tìm kiếm ra các bộ SNPs gồm 𝑘1 vị trí, với điều kiện 𝑘1 > 𝑘(là số tương tác đầu ra của bài toán). Tính 𝑋2 cho mỗi bộ SNPs được chọn, thực hiện hai cách chọn:

- Cách chọn thứ nhất: Chọn theo 𝑋2, chọn các bộ SNPs có 𝑋2 cao nhất đưa vào tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 >.

- Cách chọn thứ hai: Chọn theo vết mùi mà các con kiến để lại trên mỗi vị trí, chọn ra những vị trí có vết mùi cao nhất đưa vào tập < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 >.

- Kết quả sau hai lần chọn đưa vào một file: “AntEpiSeeker.log”

Giai đoạn hai: Dùng thuật toán duyệt toàn bộ.

Thực hiện tìm 𝑘 𝑣ị 𝑡𝑟í tương tác với nhau liên quan đến bệnh dựa trên hai tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 > và < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 > được xác định trong giai đoạn một được lưu trong trong file “AntEpiSeeker.log”. Thực hiện tính toán trên hai tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 > và < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 > , hai tập này nhỏ hơn rất nhiều so với SNPs trong bộ dữ liệu ban đầu. Vì vậy giúp giảm thiểu chi phí tính toán trong giai đoạn hai.

- Đối với tập < 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 >: Duyệt toàn bộ 𝐶𝑘𝑘1 ∗ 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 cách chọn bộ gồm 𝑘 𝑣ị 𝑡𝑟í rồi tính 𝑋2 cho mỗi trường hợp, đưa vào file kết quả những trường hợp thỏa mãn 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒.

- Đối với tập < 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 >: Cũng thực hiện duyệt toàn bộ 𝐶𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖𝑘 trường hợp và tính 𝑋2 cho mỗi trường hợp, đưa vào file kết quả những trường hợp thỏa mãn 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒.

- Kết quả chọn ra được tập các bộ có 𝑘 𝑣ị 𝑡𝑟í tương tác liên quan đến bệnh cho vào một file: “result_maximized.txt”.

- Từ file “result_maximized.txt” thực hiện giảm thiểu dương tính giả. Kết thúc quá trình giảm thiểu lưu vào một file kết quả “result.txt”.

Thuật toán AntEpiSeeker thực hiện hai lượt tìm kiếm có 𝑘1 𝑣ị 𝑡𝑟í ở mỗi bộ với hai lượt là khác nhau:

- Lượt thứ nhất: Mỗi bộ gồm có 𝑘1 = 6, 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 = 1000, 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 = 200.

- Lượt thứ hai: Mỗi bộ gồm có 𝑘1 = 3, 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 = 1000, 𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖 = 200.

- Mỗi một lượt đều thực hiện theo hai giai đoạn của thuật toán.

Thực hiện giảm thiểu dương tính giả

Thuật toán AntEpiSeeker có hai file kết quả: Trước khi giảm thiểu dương tính giả và sau khi giảm thiểu dương tính giả lần lượt là “result_maximized.txt” và “result.txt”. Được mô tả như sau:

1) Khởi tạo: 𝐸𝐼𝑎𝑙𝑙= result_maximized.txt; 𝐸𝐼𝑚= result.txt= ∅;

𝐼𝑖 ∈ 𝐸𝐼𝑎𝑙𝑙; 𝐽𝑗 ∈ 𝐸𝐼𝑚.

2) Thực hiện giảm thiểu: 𝐼𝑖 ∩ 𝐽𝑗 = ∅ thì 𝐸𝐼𝑚 = 𝐸𝐼𝑚 ∪ 𝐼𝑖.

Hình 3.4 Mô tả thuật toán AntEpiSeeker tổng quát

Bộ dữ liệu D

Lượt i 𝑖 = 1: 𝑘1 = 6 𝑖 = 2: 𝑘1 = 3 Giai đoạn 1

(thuật toán kiến)

iTopLoci=200

(vết mùi)

Giai đoạn 2 (thuật toán duyệt) iTopModel=1000 (𝑋2) 𝐶𝑘𝑘1 ∗ 𝑖𝑇𝑜𝑝𝑀𝑜𝑑𝑒𝑙 iTopLoci=200 iTopModel=1000 𝐶𝑖𝑇𝑜𝑝𝐿𝑜𝑐𝑖𝑘 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒 𝑃 𝑣𝑎𝑙𝑢𝑒 < 𝑃 − 𝑉𝑎𝑙𝑢𝑒 result_maximized.txt result.txt

Dữ liệu vào D, 𝑖𝐸𝑝𝑖𝑜𝑑𝑒𝑙, 𝑃 − 𝑉𝑎𝑙𝑢𝑒, 𝑙𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑠𝑚𝑎𝑙𝑙𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑖𝐴𝑛𝑡𝐶𝑜𝑢𝑛𝑡; 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝐿𝑎𝑟𝑔𝑒, 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝑆𝑚𝑎𝑙𝑙; 𝜏0, 𝜌, 𝛼 For 𝑠𝑒𝑡𝑠𝑖𝑧𝑒 ∈ (𝑙𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑠𝑚𝑎𝑙𝑙𝑠𝑒𝑡𝑠𝑖𝑧𝑒) If 𝑠𝑒𝑡𝑠𝑖𝑧𝑒== 𝑙𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑖𝐼𝑛𝑡𝐶𝑜𝑢𝑛𝑡 == 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝐿𝑎𝑟𝑔𝑒; else 𝑖𝐼𝑛𝑡𝐶𝑜𝑢𝑛𝑡 == 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝑆𝑚𝑎𝑙𝑙

Khởi tạo vết mùi cho mỗi vị trí 𝑖 = 0

Bắt đầu thực hiện vòng lặp

Với mỗi một con kiến lựa chọn một bộ SNP với 𝑠𝑒𝑡𝑠𝑖𝑧𝑒

(lựa chọn theo công thức 3.1);

Tính 𝑋2 cho mỗi bộ SNP và cập nhật vết mùi cho mỗi vị trí trong bộ SNP; Đưa ra danh sách tập các bộ SNP với 𝑋2cao nhất.

Khởi tạo lại tất cả các con kiến. 𝑖 = 𝑖 + 1

Kết thúc vòng lặp

If 𝑖 == 𝑖𝐼𝑛𝑡𝐶𝑜𝑢𝑛𝑡.

Thực hiện xử lý: Tìm kiếm và đưa ra danh sách các bộ SNP với 𝑋2cao nhất và các vị trí có vết mùi cao nhất.

End for

Thực hiện giảm thiểu dƣơng tính giả

Return tập các bộ SNP tương tác với nhau thỏa mãn 𝑃 − 𝑉𝑎𝑙𝑢𝑒 Hình 3.5 Đặc tả thuật toán AntEpiSeeker 3.3.2 Ý nghĩa các tham số

Giải thích ý nghĩa của các tham số được sử dụng trong thuật toán AntEpiSeeker:

 D: Là bộ dữ liệu của N cá thể cho nghiên cứu (trong đó có cá thể mắc bệnh và không mắc bệnh), với các mẫu kiểu gen ở L vị trí (locus).

 𝑖𝐸𝑝𝑖𝑀𝑜𝑑𝑒𝑙: Số vị trí tương tác trong một bộ của đầu ra (số SNP).

 𝑃 − 𝑉𝑎𝑙𝑢𝑒: Giá trị 𝑝 mang ý nghĩa thống kê.

 𝐿𝑎𝑟𝑔𝑒𝑠𝑒𝑡𝑠𝑖𝑧𝑒, 𝑠𝑚𝑎𝑙𝑙𝑠𝑒𝑡𝑠𝑖𝑧𝑒: Kích thước của bộ SNP lớn và bộ SNP nhỏ (kích

thước chính là số vị trí tương tác với nhau).

 𝑖𝐴𝑛𝑡𝐶𝑜𝑢𝑛𝑡: Số lượng của kiến.

 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝐿𝑎𝑟𝑔𝑒, 𝑖𝐼𝑡𝐶𝑜𝑢𝑛𝑡𝑆𝑚𝑎𝑙𝑙: Số lần lặp của bộ SNP với kích thước lớn và bộ SNP với kích thước nhỏ.

 𝜏0 : Mức mùi khởi tạo ban đầu; 𝜌 tỉ lệ bay hơi; 𝛼 tham số xác định trọng lượng vết mùi thu được bởi các con kiến.

3.3.3 Xác suất Chi-square và trị số 𝐏𝐯𝐚𝐥𝐮𝐞 3.3.3.1 Xác suất Chi-square

Chi-square hay còn gọi là “khi bình phương của pearson” được nhà sinh toán người Anh Karl Pearson đề xuất vào năm 1900 [12].

Chi-Square được kí hiệu: 𝑋2, một công cụ toán thống kê để kiểm tra độ phù hợp giữa các trị số thực tế quan sát được và các trị số lý thuyết được kì vọng của một giả thuyết thống kê nào đó trong một cuộc khảo sát hay thí nghiệm [2].

Công thức tính: 𝑋2 = (𝑂𝑖 − 𝐸𝑖) 2 𝐸𝑖 𝑛 𝑖 (3.4) Trong đó:

 n: Các đối tượng được xét trên một tập nhóm.

 𝑂𝑖 viết tắt bởi Observed: Trị số thực tế quan sát được trong một cuộc khảo sát hay thí nghiệm của đối tượng i trên tập nhóm.

 𝐸𝑖 viết tắt bởi Expected: Trị số lý thuyết được kì vọng của đối tượng i trên tập nhóm (tính theo một giả thuyết nào đó).

Một kiểm định 𝑋2 thường bao gồm những bước như sau:

- Thiết lập giả thuyết vô hiệu 𝐻0 và giả thuyết 𝐻1(phủ định với giả thuyết 𝐻0).

- Tính 𝐸 theo giả thuyết 𝐻0.

- Đưa ra giá trị 𝑂 và tính trị số 𝑋2 thực tế theo công thức 3.4.

- So sánh 𝑋2 thực tế với 𝑋2 lý thuyết:

i) Nếu 𝑋2 thực tế nhỏ hơn 𝑋2 lý thuyết, có 𝑃𝑣𝑎𝑙𝑢𝑒 > 𝑃 − 𝑉𝑎𝑙𝑢𝑒 (mức ý nghĩa thống kê) thì chấp giả thuyết 𝐻0.

ii) Nếu 𝑋2 thực tế lớn hơn 𝑋2 lý thuyết thì chấp nhận giả thuyết 𝐻1. 𝑋2 thực tế càng lớn thì trị số quan sát và trị số lý thuyết càng có ý nghĩa hay trị số 𝑃𝑣𝑎𝑙𝑢𝑒 so

nghĩa kết quả thực nghiệm