CHƯƠNG 1 : GIỚI THIỆU
2.1. BÀI TOÁN PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC
Trên thực tế, trước khi một thuốc được sản xuất để đưa ra thị trường sử dụng sẽ được thử nghiệm lâm sàng (TNLS) trên một số lượng người bệnh rất ít so với người bệnh sẽ được điều trị bằng thuốc đó. Mặt khác, đối tượng người bệnh trong các TNLS được tuyển chọn rất kỹ lưỡng nên không phản ánh hết được sự phong phú về độ tuổi, bệnh mắc kèm, thuốc dùng đồng thời, chủng tộc, tình trạng thai sản,… khi thuốc được sử dụng trong thực tế. Do vậy, thông tin về tính an toàn của thuốc vẫn cần được tiếp tục ghi nhận, đánh giá sau khi thuốc được cấp phép lưu hành. Lúc này, thông tin do các cán bộ y tế tại các cơ sở khám chữa bệnh cung cấp về các phản ứng có hại của thuốc sẽ vô cùng hữu ích để tiếp tục đánh giá, và tìm ra các nguy cơ tiềm ẩn của thuốc khi lưu hành trên thị trường.
Báo cáo ADR theo thời gian, được tích lũy và tăng về số lượng. Số lượng mẫu báo cáo ADR tăng lên là điều kiện thuận lợi cho việc thống kê, đánh giá các phản ứng có hại của thuốc khi sử dụng thuốc giai đoạn hậu mãi. Tuy nhiên, việc tăng về số lượng cũng đồng thời làm tăng tính đa dạng về đặc điểm bệnh nhân, loại phản ứng có hại; loại thuốc (biệt dược và các thành phần hoạt chất) trong các báo cáo phản ứng có hại của thuốc. Điều này làm tăng độ phức tạp trong việc phát hiện các tổ hợp ngẫu nhiên của các loại thuốc và các phản ứng có hại xảy ra trên những đối tượng bệnh nhân có tình trạng lâm sàng khác nhau. Những tổ hợp này có thể là những tín hiệu dự báo các phản ứng có hại mới, hiếm gặp hoặc những phản ứng có hại đã biết nhưng tần suất và mức độ nghiêm trọng của phản ứng tăng lên trong những điều kiện sử dụng thuốc nhất định.
Hai thông tin quan trọng nhất trong cơ sở dữ liệu báo cáo ADR là thông tin về “thuốc” và thông tin về phản ứng có hại của thuốc (ADR, gọi tắt là ”phản ứng”). Khi số lượng báo cáo ADR (số bản ghi) tăng lên đồng nghĩa với việc tăng số lượng “thuốc” và “phản ứng” được ghi nhận, dẫn đến sự xuất hiện đồng thời trong một bản ghi của những cặp “thuốc” – “phản
ứng” mới trong cơ sở dữ liệu hoặc sự tăng bất thường tần suất xuất hiện của cặp “thuốc” – “phản ứng” cũ trong khoảng thời gian nhất định, kèm theo một số yếu tố nguy cơ như tuổi, giới, chỉ định dùng thuốc, thuốc dùng đồng thời…Những sự bất thường này gọi là “tín hiệu” và không phải lúc nào cũng có thể rà soát từng bản ghi đơn lẻ để phát hiện được.
Bảng 2.1 - Thống kê số dữ liệu theo thuốc R và phản ứng T
Phản ứng T Tất cả các phản ứng khác Thuốc R Kết hợp (Thuốc R+ phản ứng T) Thuốc R + tất cả các phản ứng khác Tất cả các thuốc khác Tất cả các thuốc khác + phản ứng T Tất cả các thuốc khác + tất cả các phản ứng khác
Do đó, cần có một mô hình có khả năng giải quyết các vấn đề trên, có khả năng xử lý với dữ liệu lớn, phát hiện các luật tổ hợp ngẫu nhiên của các đơn vị thuốc có khả năng gây ra các phản ứng có hại.
2.2. SỬ DỤNG THUẬT TOÁN KHAI PHÁ DỮ LIỆU APRIORI ĐỂ PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC
2.2.1. Một số khái niệm trong luật kết hợp
Khai phá luật kết hợp: là phát hiện những mối quan hệ giữa các thuộc tính hoặc mục của dữ liệu, các mối quan hệ hình thành luật kết hợp.
- Định nghĩa 1: Cho tập mục (item) I = {I1, I2,…, Im} là tập m thuộc tính riêng biệt. Một giao dịch (transaction) T là tập con của I, T I. Cơ sở dữ liệu giao dịch là tập các giao dịch DB = {T1,T2,…,Tm}. Mỗi giao dịch được gán một định danh Tid. Một tập mục con X
I, gồm k mục riêng biệt được gọi là k- tập mục. Giao dịch T gọi là chứa tập mục X nếu X T.
- Một luật kết hợp R được biểu diễn dạng: X Y, trong đó X, Y là các tập con của I, X Y =; X gọi là tiên đề của luật, Y gọi là kết luận của luật.
- Định nghĩa 2: Cho tập thuộc tính X I. Độ hỗ trợ (Support) của tập thuộc tính X trong cơ sở dữ liệu thao tác DB, ký hiệu sup(X), được xác định như sau:
𝑠𝑢𝑝(𝑋) = |{𝑇∈𝐷𝐵\𝑇𝑋}|
|𝐷𝐵| (2.1)
- Định nghĩa 3: Cho tập mục X I với ngưỡng hỗ trợ tối thiểu (minimum support) minsup ∈ [0,1]. X được gọi là tập thuộc tính thường xuyên khi sup(X) ≥minsup và ngược lại X là tập thuộc tính không thường xuyên.
- Định nghĩa 4: [12]Độ hỗ trợ (support) của luật kết hợp ký hiệu là sup(X Y), là độ hỗ trợ của tập mục X Y được xác định:
sup(X Y ) = sup (X Y) (2.2)
- Định nghĩa 5: [12] Tập X được gọi là tập thường xuyên khi: support(X) > minsup. Kí hiệu là FI.
- Định nghĩa 6: [12] Độ tin cậy (confidence) luật kết hợp, ký hiệu là conf(X Y) là độ tin cậy của tập mục X Y, ta có công thức:
conf(X Y ) = sup(X Y)/sup (X) (2.3)