.3 Thống kê dữ liệu theo Thuố cR và phản ứng T

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (Trang 41)

Phản ứng có hại T Tất cả phản ứng có hại khác T Tổng cộng Thuốc R a b a + b Tất cả thuốc khác R c d c + d Trong đó:

- Giá trị a là số trường hợp thuốc R có phản ứng có hại T.

- Giá trị b là số trường hợp thuốc R khơng có phản ứng có hại T.

- Giá trị c là số trường hợp thuốc khác R có phản ứng có hại T.

- Giá trị d là số trường hợp thuốc khác R khơng có phải ứng có hại T.

Như vậy, chỉ số OR trong bài tốn này được tính theo cơng thức sau: OR = (a/ b) : (c/d) (2.10)

Cách tính 95% khoảng tin cậy (CI) cho chỉ số OR: Khoảng tin cậy

của chỉ số OR được tính theo các bước sau [13]:

- Bước 1: Tính giá trị OR theo dữ liệu.

- Bước 2: Tính logarit tự nhiên của chỉ số OR: LN(OR);

- Bước 3: Xác định hệ số tin cậy theo chuẩn bình thường là 1,96 đối với khoảng tin cậy 95%.

- Bước 4: Tính giá trị SE của LN(OR) theo công thức: SE ln(OR) = √1

𝑎+1

𝑏+1

𝑐+1

𝑑 (2.11)

- Bước 5: Tính cận dưới LL và cận trên UL theo công thức:

LN(OR) ± 1,96 * SE ln(OR) (2.12)

- Bước 6: Dùng mà mũ để tính khoảng tin cậy:

( CI05 = EXP(LL), CI95 = EXP(UL) ) (2.13)

Kết luận: Căn cứ vào giá trị của chỉ số OR và khoảng tin cậy, ta có

kết luận theo phương pháp WHO-UCM [11][13]:

- Nếu giá trị OR = 1 thì khơng có mối liên hệ trong thống kê giữa thuốc R và phản ứng có hại T

- Nếu giá trị OR < 1 thì thuốc R có mối quan hệ làm giảm phản ứng phản ứng ADR T, có nghĩa là thuốc R khơng có phản ứng ADR T.

- Nếu giá trị OR > 1 và khoảng tin cậy chứa 1 thì thuốc R và phản ứng ADR T có mối tương quan khơng có ý nghĩa thống kê.

- Nếu giá trị OR > 1 và khoảng tin cậy khơng chứa 1 thì thuốc R có quan hệ làm tăng phản ứng ADR T, có nghĩa là thuốc R có khả năng xảy ra phản ứng ADR T.

2.4.3. Thuật toán áp dụng

Ý tưởng của thuật giải: Do tính chất phân tích dữ liệu của phương pháp WHO-UCM có tính tương đồng với phương pháp khai phá dữ liệu Apriori và để tăng tốc độ xử lý cho bài toán ta áp dụng thuật toán Apriori để loại bỏ các tập mục khơng thường xun, sau đó ta tính các chỉ số thống kê OR và khoảng tin cậy cho các tập mục thường xuyên. Như vậy, ý tưởng thực hiện giải bài toán với tham số minsup là số lần xuất hiện của cặp (X,Y) như sau:

- Tạo ra tập 1_itemset: là các cặp itemset gồm 2 item (X = thuốc , Y = phản ứng ADR) trong CSDL, ta xác định độ hỗ trợ cho từng item dựa vào CSDL đã mã hóa, loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.

- Tạo ra tập 2_itemset: là các cặp itemset gồm 3 item là (X = {thuốc, tuổi}, Y = phản ứng ADR) hoặc (X = {thuốc, giới tính}, Y = phản ứng ADR), loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.

- Tạo ra tập 3_itemset: là các cặp itemset gồm 3 item là (X = {thuốc, tuổi, giới tính} , Y = phản ứng ADR), loại đi các itemset có số lần xuất hiện sup(X,Y) < minsup.

- Tính chỉ số RR và khoảng tin cậy theo phương pháp FDA cho các tập mục thường xuyên 1_itemset, 2_itemset, 3_itemset.

- Căn cứ vào chỉ số RR và khoảng tin cậy để đưa ra kết luận cho tập mục thường xuyên

Thuật giải có 2 bước chính:

- Bước 1: Sử dụng thuật toán Apriori để sinh ra tập Lk - k_itemset thường xuyên.

- Bước 2: Tính chỉ số RR và khoảng tin cậy cho tập mục thường xuyên Lk.

Giải thuật tính chỉ số OR và khoảng tin cậy CI5, CI95 của phương pháp FDA:

1. For (k = 1;Lk ≠ ; k++){

2. For (với mỗi cặp (X,Y) in Lk) {

3. // thuật tốn Aporiori đã tính giá trị a = sup(X Y) 4. Tính giá trị b = sup(X, not Y)

5. Tính giá tị c = sup(not X, Y) 6. Tính giá trị d = sup(not X, not Y)

7. Tính giá trị OR và CI5, CI95 // theo cơng thức được trình bày tại mục 2.4.2

CHƯƠNG 3: THỬ NGHIỆM CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC

3.1. ÁP DỤNG CÁC THUẬT TỐN CHO BÀI TỐN PHÁT HIỆN TÍN HIỆU

3.1.1. Áp dụng thuật tốn Apriori cho bài tốn phát hiện tín hiệu ADR

Để giải quyết bài tốn phát hiện tích hiệu ADR từ tập dữ liệu báo cáo về phản ứng thuốc bằng phương pháp khai phá luật kết hợp Apriori. Chúng ta quy về bài tốn tìm luật kết hợp giữa thuốc và phản ứng ADR, cụ thể như sau:

- Cơ sở dữ liệu giao dịch (Transaction Database): là một tập các giao dịch D = {t1, t2, .. tn}, trong đó mỗi giao dịch ti tương ứng với 1 báo cáo ADR.

- Tập đối tượng trong mỗi giao dịch (itemset): là một tập đối tượng chỉ gồm các cặp (thuốc R, phản ứng T), (thuốc R kết hợp với thông tin tuổi của bệnh nhân, phản ứng T), (thuốc R kết hợp với thơng tin giới tính của bệnh nhân, phản ứng T) và cặp (thuốc R kết hợp với thơng tin tuổi và giới tính của bệnh nhân, phản ứng T).

Do tính chất đặc thù của bộ dữ liệu thu thập là mỗi một giao dịch chỉ gồm một cặp (Thuốc R, Phản ứng T) nên khi áp dụng thuật toán Apriori cho bài toán này sẽ đơn giản hơn rất nhiều, bài tốn trở thành tìm các tập mục thường xuyên gồm 2 thành phần thuốc R kết hợp với các thơng tin tuổi, giới tính và phản ứng ADR T, cụ thể với 2 tham số min-support và confidence được nhập vào bởi người sử dùng, hãy tìm kiếm trong CSDL cặp (thuốc R, phản ứng T) thỏa mãn điều kiện số lần xuất hiện cặp (thuốc R, phản ứng T) lớn hơn tham số min-support và có số lượng cặp (thuốc R, phản ứng T)/số lượng báo cáo ADR có thuốc R lớn hơn confidence. Các tập thuộc tính thường xuyên (thuốc R, phản ứng T) thỏa mãn điều kiện trên sẽ là các thuốc R có thể xảy ra phản ứng T.

3.1.2. Áp dụng phương pháp FDA cho bài tốn phát hiện tín hiệu ADR

Sử dụng phương pháp FDA trong việc phát hiện tín hiệu ADR là phương pháp sử dụng chỉ số RR để đánh giá qua đó xác định thuốc khả năng thuốc có các phản ứng có hại. Chỉ số RR chỉ ra thuốc R có phản ứng có hại T thường xuyên hơn so với các thuốc khác. Mối quan hệ giữa thuốc R và phản ứng có hại thuốc thuốc T trong cơ sở dữ liệu của các báo cáo ADR như sau:

- Giá trị a là số trường hợp thuốc R có phản ứng T.

- Giá trị b là số trường hợp thuốc R khơng có phản ứng T.

- Giá trị c là số trường hợp thuốc khác R có phản ứng T.

- Giá trị d là số trường hợp thuốc khác R không có phải ứng T. Dựa vào Giải thuật tính chỉ số RR và khoảng tin cậy thu được kết quả và căn cứ vào giá trị của chỉ số RR và khoảng tin cậy ta có kết luận:

- Nếu giá trị RR = 1 thì khơng có mối liên hệ trong thống kê giữa thuốc R và phản ứng có hại T

- Nếu giá trị RR < 1 thì thuốc R có mối quan hệ làm giảm phản ứng phản ứng ADR T, có nghĩa là thuốc R khơng có phản ứng ADR T.

- Nếu giá trị RR > 1 và khoảng tin cậy chứa 1 thì thuốc R và phản ứng ADR T có mối tương quan nhưng khơng có ý nghĩa thống kê.

- Nếu giá trị RR > 1 và khoảng tin cậy khơng chứa 1 thì thuốc R có quan hệ làm tăng phản ứng ADR T, có nghĩa là thuốc R có khả năng xảy ra phản ứng ADR T.

3.1.3. Áp dụng phương pháp WHO_UCM cho bài toán phát hiện tín hiệu ADR

Phương pháp WHO-UCM sử dụng chỉ số OR để xác định mối quan hệ giữa thuốc và phản ứng ADR. Mối quan hệ giữa thuốc R và phản ứng có hại thuốc thuốc T trong cơ sở dữ liệu của các báo cáo ADR như sau:

- Giá trị a là số trường hợp thuốc R có phản ứng có hại T.

- Giá trị b là số trường hợp thuốc R khơng có phản ứng có hại T.

- Giá trị c là số trường hợp thuốc khác R có phản ứng có hại T.

- Giá trị d là số trường hợp thuốc khác R khơng có phải ứng có hại T.

Dựa vào Giải thuật tính chỉ số OR và khoảng tin cậy thu được kết quả và căn cứ vào giá trị của chỉ số OR và khoảng tin cậy ta có kết luận:

- Nếu giá trị OR = 1 thì khơng có mối liên hệ trong thống kê giữa thuốc R và phản ứng có hại T

- Nếu giá trị OR < 1 thì thuốc R có mối quan hệ làm giảm phản ứng phản ứng ADR T, có nghĩa là thuốc R khơng có phản ứng ADR T.

- Nếu giá trị OR > 1 và khoảng tin cậy chứa 1 thì thuốc R và phản ứng ADR T có mối tương quan khơng có ý nghĩa thống kê.

- Nếu giá trị OR > 1 và khoảng tin cậy khơng chứa 1 thì thuốc R có quan hệ làm tăng phản ứng ADR T, có nghĩa là thuốc R có khả năng xảy ra phản ứng ADR T.

3.2. MÔ TẢ DỮ LIỆU THỬ NGHIỆM

Dữ liệu trong chương trình thực nghiệm bao gồm thơng tin: Độ tuổi, giới tính, ngày xuất hiện, thuốc nghi ngờ gây ADR, biểu hiện ADR, ngày báo cáo. Dưới đây là dữ liệu một vài bản ghi trong bộ dữ liệu.

Bảng 3.1 - Bảng dữ liệu một vài bản ghi trong bộ dữ liệu.

Ngày Tuổi Giới tính

Biệt dược Hoạt chất Biểu hiện ADR

07/01/2010

55 0

Zentotacxi

m cefotaxim sốt, rét run, mệt, đau 07/01/2010

55 0

Zentotacxi

m cefotaxim nhịp tim nhanh 07/01/2010 69 1 Peflacin pefloxacin unknown 07/01/2010 50 0 Torocef ceftriaxon dị ứng 07/01/2010 22 0 Peflacin pefloxacin dị ứng 07/01/2010

58 0 Biofazolin cefazolin

Rối loạn ra (ngứa, phồng rộp, phù, ban,.. 07/01/2010 58 0 Biofazolin cefazolin mẩn ngứa toàn thân 07/01/2010 87 0 Torocef ceftriaxon dị ứng

07/01/2010 54 0 Torocef ceftriaxon dị ứng 07/01/2010

22 0 Biofazolin cefazolin

Rối loạn ra (ngứa, phồng rộp, phù, ban,.. 07/01/2010 22 0 Biofazolin cefazolin mẩn ngứa toàn thân 07/01/2010 57 0 Torocef ceftriaxon mẩn ngứa toàn thân 07/01/2010 46 0 Panadol paracetamol hạ huyết áp

Ngày Tuổi Giới tính

Biệt dược Hoạt chất Biểu hiện ADR

07/01/2010 20 0 Torocef ceftriaxon mẩn ngứa toàn thân 07/01/2010 31 1 Biofazolin cefazolin dị ứng

07/01/2010 15 0 Amoxicillin amoxicilin hạ huyết áp

07/01/2010 15 0 Amoxicillin amoxicilin mẩn ngứa toàn thân 07/01/2010 35 0 Cefalexin cefalexin sốc phản vệ

07/01/2010 35 0 Paracetamol paracetamol sốc phản vệ 07/01/2010

61 0 Amoxicillin amoxicilin

Rối loạn ra (ngứa, phồng rộp, phù, ban,.. 07/01/2010 61 0 Amoxicillin amoxicilin mẩn ngứa toàn thân 07/01/2010 31 0 Ceftriaxone ceftriaxon mẩn ngứa toàn thân 07/01/2010 51 1 Lincocin lincomycin sốc phản vệ

07/01/2010

37 0 Amoxicillin amoxicilin

Rối loạn ra (ngứa, phồng rộp, phù, ban,.. 07/01/2010 37 0 Amoxicillin amoxicilin mẩn ngứa toàn thân 07/01/2010 37 0 Amoxicillin amoxicilin nhịp tim nhanh 07/01/2010

49 1

Tetracyclin

e tetracyclin sốt, rét run, mệt, đau Thống kê 100 thuốc có số lần xuất hiện nhiều nhất trong các báo cáo ADR

Bảng 3.2 – Danh sách thuốc có số lần xuất hiện nhiều nhất

STT Tên thuốc Số lần xuất hiện

1 Streptomycin 868 2 cefotaxim 511 3 Rifampicin 364 4 Paracetamol 353 5 Pyrazinamid 352 6 Diclofenac 285 7 Ciprofloxacin 210 8 Amoxicillin 187 9 turbezid 183 10 Ethambutol 182 11 Trepmycin 181 12 Cefalexin 178 13 Ceftriaxon 177 14 Primaquin 175 15 vancomycin 155 16 SM 150 17 Isoniazid 147 18 Cloroquin 146 19 Metronidazol 132

STT Tên thuốc Số lần xuất hiện 20 PZA 124 21 EMB 122 22 Unknown 114 23 Medotaxim 111 24 Arterakin 110 25 Augmentin 107 26 Rifadin 105 27 Cephalexin 102 28 INH 99 29 Ceftazidim 96 30 Gentamycin 89 31 Cefuroxim 86 32 RHZ 79 33 Voltaren 77 34 Fotalcix 74 35 Salbutamol 72 36 Ofloxacin 71 37 Torocef 70 38 Panadol 70 39 Diclovat 69

STT Tên thuốc Số lần xuất hiện 40 Oxytocin 69 41 Ampicilin 67 42 Cefixim 65 43 Lidocain 64 44 Amoxicilin 63 45 Hapacol 62 46 SAT 61 47 Ceftriaxone 60 48 Penicilin V 59 49 Telebrix 57 50 Claforan 57 51 Unitaxime 55 52 Alphachymotrypsin 53 53 Carbamazepin 51 54 Alaxan 51 55 Clindamycin 51 56 Glucose 51 57 Rifa 49 58 Haginat 48 59 Gentamicin 47

STT Tên thuốc Số lần xuất hiện 60 Medocephine 44 61 Rifamycin 44 62 Nospa 43 63 Perfalgan 43 64 Cloramphenicol 41 65 Omeprazol 41 66 Cetrimaz 41 67 Ringer lactat 40 68 Cefotaxone 38 69 Xenetix 37 70 Zidovudin 37 71 Ibuprofen 37 72 Unasyn 36 73 Cefradin 36

74 Thuốc đông dược 36

75 Shintaxim 34

76 efferalgan 34

77 Babymol 34

78 Klamentin 32

STT Tên thuốc Số lần xuất hiện 80 Glucose 5% 31 81 Keldacin 31 82 Haloperidol 30 83 Biotaksym 30 84 Ovitrelle 29 85 vitamin B1 29 86 thuốc nam 28 87 Misoprostol 28 88 Curam 28 89 Cefaxone 27 90 Meloxicam 27 91 Levofloxacin 27 92 Bicefzidim 27 93 Zinnat 27 94 RIF 26 95 Vietcef 26 96 Vitamin C 26 97 Bitazid 26 98 Nevirapin 26 99 Cefotaxime 26

STT Tên thuốc Số lần xuất hiện

100 Relab 26

Thống kê 50 phản ứng có hại của thuốc có số lần xuất hiện nhiều nhất

Bảng 3.3 – Danh sách 50 ADR có số lần xuất hiện nhiều nhất

STT Tên phản ứng có hại của thuốc Số lần xuất hiện

1 mẩn ngứa toàn thân 4063

2 Rối loạn ra (ngứa, phồng rộp, phù, ban,.. 3173

3 sốt, rét run, mệt, đau 1766

4 đau bụng, buồn nôn, tiêu chảy 1082

5 sốc phản vệ 1062

6 hoa mắt, chóng mặt, tê tay chân, đau đầu 920

7 mề đay 851

8 thở nhanh 616

9 phù nề (mắt, chi, toàn thân,….) 579

10 dị ứng 577

11 phù mặt (mắt, môi, …..) 217

12 nhịp tim nhanh 172

13 đỏ bừng mặt 149

14

chóng mặt, hoa mắt, loạng choạng, ù tai (tiền

STT Tên phản ứng có hại của thuốc Số lần xuất hiện

15 tức ngực 123

16 hạ huyết áp 122

17 nổi hồng ban khắp người 122

18 unknown 101

19 da thâm, mơi tím, tím tái 89

20 đỏ ngứa quanh vùng dây truyền dịch 82

21 rối loạn cảm giác (tê lưỡi, tay, chân, tồn thân) 81

22 q kích buồng trứng 79

23 đau khớp, đau cơ, chuột rút, đau mỏi toàn thân 71

24 viêm gan 67

25 rối loạn thị lực (mắt đỏ, chảy nước mắt,….) 56

26 vàng da, vàng mắt 55

27 tăng huyết áp 54

28 chán ăn 52

29 rối loạn tâm thần 48

30 tăng men gan 38

31 thị lực bất thường (mờ, quáng gà,…) 34

32 không rõ 29

STT Tên phản ứng có hại của thuốc Số lần xuất hiện

34 thiếu máu 25

35 chân tay lạnh 23

36 đau họng, hắt hơi, sổ mũi 22

37 viêm niêm mạc miệng 22

38 tăng creatinin 19

39 rối loạn giấc ngủ (ngủ kém hoặc nhiều) 16

40 co giật 15

41 giảm tiểu cầu 14

42 xuất huyết 12

43 mắt trợn ngược (phản ứng ngoại tháp) 11

44 phù họng, ăn uống khó 10

45 chức năng gan bất thường 10

46 xuất huyết dưới da 10

47 đau dạ dày 9

48 ngừng tim, mạch chậm 9

49 co thắt phế quản 8

50

cứng đơ người (rối loạn trương lực cơ hoặc hội

Bộ dữ liệu thông tin được thu thập tại Trung tâm DI&ADR Quốc gia gồm 17.059 bản ghi. Các thuộc tính trong dữ liệu trên có 6 thuộc tính: Độ tuổi, giới tính, biểu hiện, biệt dược, hoạt chất, ngày báo cáo. Nhưng để phù hợp với bài tốn phát hiện bệnh và tìm loại thuốc nên ta chỉ xử lý dữ liệu và thực nghiệm dựa vào 4 thuộc tính: Độ tuổi, giới tính, biểu hiện và loại thuốc. Dữ liệu đã được đưa vào hệ thống và có thể tra cứu thơng tin tại chức năng Tra cứu cơ sở dữ liệu ADR

Hình 3.1 – Dữ liệu ADR trong hệ thống

3.3. CÁC BƯỚC THỰC HIỆN THỬ NGHIỆM

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc (Trang 41)