.2 Thống kê dữ liệu theo thuố cR và phản ứng T

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (Trang 37 - 41)

Phản ứng có hại T Phản ứng có hại khác T Tổng cộng Thuốc R a b a + b Tất cả thuốc khác R c d c + d

Thông số của bảng trên dùng để tính chỉ số RR có ý nghĩa sau:

- Giá trị a là số trường hợp thuốc R có phản ứng T.

- Giá trị b là số trường hợp thuốc R khơng có phản ứng T.

- Giá trị d là số trường hợp thuốc khác R khơng có phải ứng T. Như vậy, chỉ số RR trong bài tốn này được tính theo cơng thức sau:

RR = [a/(a+b)] : [c/(c+d)] (2.6)

Cách tính 95% khoảng tin cậy (CI) cho chỉ số RR: Khoảng tin cậy

của chỉ số RR được tính theo các bước sau [13]:

- Bước 1: Tính giá trị RR theo dữ liệu.

- Bước 2: Tính logarit tự nhiên của chỉ số RR: LN(RR);

- Bước 3: Xác định hệ số tin cậy theo chuẩn bình thường là 1,96 đối với độ tinh cậy 95%.

- Bước 4: Tính giá trị SE của LN(RR) theo công thức: SE ln(RR) =√𝑎(𝑎+𝑏)𝑏 + 𝑑

𝑏(𝑏+𝑑) (2.7)

- Bước 5: Tính cận dưới LL và cận trên UL theo công thức:

LN(RR) ± 1,96 * SE ln(RR) (2.8)

- Bước 6: Dùng mà mũ để tính khoảng tin cậy: (EXP(LL), EXP(UL) )

Kết luận: Căn cứ vào giá trị của chỉ số RR và khoảng tin cậy, ta có

kết luận theo phương pháp PDA [11][13]:

- Nếu giá trị RR = 1 thì khơng có mối liên hệ trong thống kê giữa thuốc R và phản ứng có hại T

- Nếu giá trị RR < 1 thì thuốc R có mối quan hệ làm giảm phản ứng phản ứng ADR T, có nghĩa là thuốc R khơng có phản ứng ADR T.

- Nếu giá trị RR > 1 và khoảng tin cậy chứa 1 thì thuốc R và phản ứng ADR T có mối tương quan nhưng khơng có ý nghĩa thống kê.

- Nếu giá trị RR > 1 và khoảng tin cậy khơng chứa 1 thì thuốc R có quan hệ làm tăng phản ứng ADR T, có nghĩa là thuốc R có khả năng xảy ra phản ứng ADR T.

2.3.3. Thuật toán áp dụng

Ý tưởng của thuật giải: Do tính chất phân tích dữ liệu của phương pháp FDA có tính tương đồng với phương pháp khai phá dữ liệu Apriori và để tăng tốc độ xử lý cho bài toán, ta áp dụng thuật toán Apriori để loại bỏ các tập mục khơng thường xun, sau đó ta tính các chỉ số thống kê RR và khoảng tin cậy cho các tập mục thường xuyên. Như vậy, ý tưởng của thực hiện giải bài toán với tham số minsup là số lần xuất hiện của cặp (X,Y) như sau:

- Tạo ra tập 1_itemset: là các cặp itemset gồm 2 item (X = thuốc , Y = phản ứng ADR) trong CSDL, ta xác định độ hỗ trợ cho từng item dựa vào CSDL đã mã hóa, loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.

- Tạo ra tập 2_itemset: là các cặp itemset gồm 3 item là (X = {thuốc, tuổi}, Y = phản ứng ADR) hoặc (X = {thuốc, giới tính}, Y = phản ứng ADR), loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.

- Tạo ra tập 3_itemset: là các cặp itemset gồm 3 item là (X = {thuốc, tuổi, giới tính} , Y = phản ứng ADR), loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.

- Tính chỉ số RR và khoảng tin cậy theo phương pháp FDA cho các tập mục thường xuyên 1_itemset, 2_itemset, 3_itemset.

- Căn cứ vào chỉ số RR và khoảng tin cậy để đưa ra kết luận cho tập mục thường xun

Thuật giải có 2 bước chính:

- Bước 1: Sử dụng thuật toán Apriori để sinh ra tập Lk - k_itemset thường xuyên.

- Bước 2: Tính chỉ số RR và khoảng tin cậy cho tập mục thường xuyên Lk.

Giải thuật tính chỉ số RR và khoảng tin cậy CI5, CI95 của phương pháp FDA:

11. For (k = 1;Lk ≠ ; k++){

12. For (với mỗi cặp (X,Y) in Lk) {

13. // thuật tốn Aporiori đã tính giá trị a = sup(X Y) 14. Tính giá trị b = sup(X, not Y)

15. Tính giá tị c = sup(not X, Y) 16. Tính giá trị d = sup(not X, not Y)

17. Tính giá trị RR và CI5, CI95 // theo cơng thức tại mục 2.3.2 18. }}

2.4. NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP WHO-UMC ĐỂ TÌM RA PHẢN ỨNG CĨ HẠI CỦA THUỐC

2.4.1. Giới thiệu chỉ số thống kê OR

Chỉ số OR (odds ratio) là cũng chỉ số thống kê thường hay được dùng trong lĩnh vực y học, chỉ số này có ý nghĩa gần giống với chỉ số RR, nhưng thay vì sử dụng xác suất mắc bệnh p thì chỉ số OR sử dụng tỉ lệ giữa xác suất mắc bệnh và xác suất khơng mắc bệnh. Cụ thể, cơng thức tính giá trị chỉ số OR được tính như sau [10][11]:

Ví dụ về nghiên cứu bệnh nhân hút thuốc lá làm tăng nguy cơ mắc bệnh ung thư phổi. Trong nhóm 1 có n1 bệnh nhân hút thuốc, sau thời gian theo dõi có k1 bệnh nhân mắc bệnh ung thư phổi, thì tỉ lệ mắc bệnh trong nhóm 1 là p1 = k1/n1 và tỉ lệ khơng mắc bệnh trong nhóm 1 là (1-p1). Trong nhóm 2 có n2 bệnh nhân khơng hút thuốc lá có nguy cơ mắc bệnh ung thư phổi và trong cùng thời gian theo dõi có k2 bệnh nhân mắc bệnh, thì tỉ lệ mắc bệnh ung thư phổi của nhóm 2 là p2 = k2/n2, tỉ lệ khơng mắc bệnh trong

nhóm 2 là (1-p2). Khi đó, chỉ số OR là tỉ số của 2 tỉ lệ và được tính theo cơng thức:

OR = [p1/(1-p1)] : [p2/(1-p2)] (2.9) Dựa vào giá trị của chỉ số OR, ta có kết luận: Nếu giá trị OR > 1, thì bệnh nhân hút thuốc lá sẽ làm tăng khả năng mắc bệnh ung thư phổi; nếu OR = 1, thì việc bệnh nhân hút thuốc lá sẽ khơng có mối quan hệ với khả năng mắc bệnh ung thư phổi; và nếu OR < 1, thì việc bệnh nhân hút thuốc lá có thể làm giảm khả năng mắc bệnh ung thư phổi.

2.4.2. Nghiên cứu phương pháp WHO-UCM

Phương pháp WHO-UCM sử dụng chỉ số OR để xác định mối quan hệ giữa thuốc và phản ứng ADR. Giả sử ta đánh giá thuốc R với phản ứng có hại của thuốc là T, ta có bảng thống kê số liệu sau:

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (Trang 37 - 41)