CHƯƠNG 1 : GIỚI THIỆU
2.4.2. Nghiên cứu phương pháp WHO-UCM
Phương pháp WHO-UCM sử dụng chỉ số OR để xác định mối quan hệ giữa thuốc và phản ứng ADR. Giả sử ta đánh giá thuốc R với phản ứng có hại của thuốc là T, ta có bảng thống kê số liệu sau:
Bảng 2.3 - Thống kê dữ liệu theo Thuốc R và phản ứng T
Phản ứng có hại T Tất cả phản ứng có hại khác T Tổng cộng Thuốc R a b a + b Tất cả thuốc khác R c d c + d Trong đó:
- Giá trị a là số trường hợp thuốc R có phản ứng có hại T.
- Giá trị b là số trường hợp thuốc R không có phản ứng có hại T.
- Giá trị c là số trường hợp thuốc khác R có phản ứng có hại T.
- Giá trị d là số trường hợp thuốc khác R không có phải ứng có hại T.
Như vậy, chỉ số OR trong bài toán này được tính theo công thức sau: OR = (a/ b) : (c/d) (2.10)
Cách tính 95% khoảng tin cậy (CI) cho chỉ số OR: Khoảng tin cậy của chỉ số OR được tính theo các bước sau [13]:
- Bước 1: Tính giá trị OR theo dữ liệu.
- Bước 2: Tính logarit tự nhiên của chỉ số OR: LN(OR);
- Bước 3: Xác định hệ số tin cậy theo chuẩn bình thường là 1,96 đối với khoảng tin cậy 95%.
- Bước 4: Tính giá trị SE của LN(OR) theo công thức: SE ln(OR) = √1
𝑎+1
𝑏+1
𝑐+1
𝑑 (2.11)
- Bước 5: Tính cận dưới LL và cận trên UL theo công thức:
LN(OR) ± 1,96 * SE ln(OR) (2.12)
- Bước 6: Dùng mà mũ để tính khoảng tin cậy:
( CI05 = EXP(LL), CI95 = EXP(UL) ) (2.13)
Kết luận: Căn cứ vào giá trị của chỉ số OR và khoảng tin cậy, ta có kết luận theo phương pháp WHO-UCM [11][13]:
- Nếu giá trị OR = 1 thì không có mối liên hệ trong thống kê giữa thuốc R và phản ứng có hại T
- Nếu giá trị OR < 1 thì thuốc R có mối quan hệ làm giảm phản ứng phản ứng ADR T, có nghĩa là thuốc R không có phản ứng ADR T.
- Nếu giá trị OR > 1 và khoảng tin cậy chứa 1 thì thuốc R và phản ứng ADR T có mối tương quan không có ý nghĩa thống kê.
- Nếu giá trị OR > 1 và khoảng tin cậy không chứa 1 thì thuốc R có quan hệ làm tăng phản ứng ADR T, có nghĩa là thuốc R có khả năng xảy ra phản ứng ADR T.
2.4.3. Thuật toán áp dụng
Ý tưởng của thuật giải: Do tính chất phân tích dữ liệu của phương pháp WHO-UCM có tính tương đồng với phương pháp khai phá dữ liệu Apriori và để tăng tốc độ xử lý cho bài toán ta áp dụng thuật toán Apriori để loại bỏ các tập mục không thường xuyên, sau đó ta tính các chỉ số thống kê OR và khoảng tin cậy cho các tập mục thường xuyên. Như vậy, ý tưởng thực hiện giải bài toán với tham số minsup là số lần xuất hiện của cặp (X,Y) như sau:
- Tạo ra tập 1_itemset: là các cặp itemset gồm 2 item (X = thuốc , Y = phản ứng ADR) trong CSDL, ta xác định độ hỗ trợ cho từng item dựa vào CSDL đã mã hóa, loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.
- Tạo ra tập 2_itemset: là các cặp itemset gồm 3 item là (X = {thuốc, tuổi}, Y = phản ứng ADR) hoặc (X = {thuốc, giới tính}, Y = phản ứng ADR), loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.
- Tạo ra tập 3_itemset: là các cặp itemset gồm 3 item là (X = {thuốc, tuổi, giới tính} , Y = phản ứng ADR), loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.
- Tính chỉ số RR và khoảng tin cậy theo phương pháp FDA cho các tập mục thường xuyên 1_itemset, 2_itemset, 3_itemset.
- Căn cứ vào chỉ số RR và khoảng tin cậy để đưa ra kết luận cho tập mục thường xuyên
Thuật giải có 2 bước chính:
- Bước 1: Sử dụng thuật toán Apriori để sinh ra tập Lk - k_itemset thường xuyên.
- Bước 2: Tính chỉ số RR và khoảng tin cậy cho tập mục thường xuyên Lk.
Giải thuật tính chỉ số OR và khoảng tin cậy CI5, CI95 của phương pháp FDA:
1. For (k = 1;Lk ≠; k++){
2. For (với mỗi cặp (X,Y) in Lk) {
3. // thuật toán Aporiori đã tính giá trị a = sup(X Y) 4. Tính giá trị b = sup(X, not Y)
5. Tính giá tị c = sup(not X, Y) 6. Tính giá trị d = sup(not X, not Y)
7. Tính giá trị OR và CI5, CI95 // theo công thức được trình bày tại mục 2.4.2
CHƯƠNG 3: THỬ NGHIỆM CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC