Chẩn đốn bệnh tim dựa vào thơng tin lâm sàng của bệnh nhân

Một phần của tài liệu Luận văn thạc sĩ UEB một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú công nghệ thông tin 60 48 01 04 (Trang 37 - 47)

dụng để khai phá luật kết hợp cho tập dữ liệu đã qua tiền xử lý. Kết quả cuối cùng, ta có một tập luật kết hợp để hỗ trợ cho q trình chẩn đốn bệnh tim.

3.2.1 Tiền xử lý Dữ liệu

Dữ liệu được thu trực tiếp từ các thiết bị hay do bệnh nhân cung cấp dựa trên những quan sát và cảm nhận. Đối với bệnh tim thì một mẫu dữ liệu thu được gồm 14 thuộc tính được mơ tả như trong Bảng 3.1.

Các tập dữ liệu thu được thường chứa rất nhiều các thuộc tính được thu thập dưới dạng số nhưng lại khơng đầy đủ, có nhiều lỗi và kiểu giá trị đặc biệt. Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ sở dữ liệu. Thuật toán Apriori được đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục dạng số. Mỗi giá trị dữ liệu rời rạc được gọi là một item.

Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dữ liệu dạng số sang dữ liệu rời rạc biểu diễn bởi các items. Bảng 3.2 sau mô tả quy tắc

chuyển đổi dạng số sang dạng dữ liệu rời rạc.

3.2.2 Các khái niệm và định nghĩa

Trước khi mô tả thuật toán, phần này giới thiệu một số định nghĩa, khái niệm và dữ liệu được sử dụng trong thuật tốn tìm luật kết hợp Apriori.

Định nghĩa:

Cho I = I1; I2; :::; Im là tập hợp của m tính chất riêng biệt. Giả sử D là CSDL, với các bản ghi chứa một tập con T các tính chất (có thể coi T I), các bản ghi đều có chỉ số riêng. Một luật kết hợp là mệnh đề kéo theo có dạng X ! Y , trong đó X; Y I, thỏa mãn điều kiện X \ Y = . Các tập hợp X và Y được gọi là các tập hợp tính chất. Tập X gọi là nguyên nhân, tập Y gọi là hệ quả. Có hai độ đo quan trọng

Thuộc tính Age Sex Cp trestbps Chol fbs restecg thaclach Exang Oldpeak Slope ca Thal num

Bảng 3.1: Bảng thuộc tính của mẫu dữ liệu cho bệnh tim

với luật kết hợp là Độ hỗ trợ(support) và Độ tin cậy(confidence), được định nghĩa như phần dưới đây.

Độ hỗ trợ:

Độ hỗ trợ của một tập X trong cơ sở dữ liệu D là tỉ số giữa các bản ghi T D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của các bản ghi trong D có chứa tập X), ký hiệu là support(X) hay supp(X).

Ta có:

0 supp(X) 1; 8X

Độ hỗ trợ của một luật kết hợp X ! Y là tỷ lệ giữa số lượng các bản ghi chứa tập hợp X [ Y , so với tổng số các bản ghi trong D, ký hiệu là Supp(X ! Y ).

Supp(X

Khi chúng ta nói rằng, độ hỗ trợ của một luật là 50%, có nghĩa là có 50% tổng số bản ghi chứa X [ Y . Như vây, độ hỗ trợ mang ý nghĩa thống kê của luật.

Độ tin cậy:

Độ tin cậy của một luật kết hợp X ! Y là tỷ lệ giữa số lượng các bản ghi trong D chứa X [ Y với số bản ghi trong D có chứa tập X. Ký hiệu độ tin cậy của một luật là conf(r) với 0 conf(r) 1.

Độ tin cậy của một luật kết hợp X ! Y là tỷ lệ giữa số lượng các bản ghi của tập hợp chứa X [ Y , so với tổng số các bản ghi chứa X.

Một số định nghĩa và tính chất

Định nghĩa 3.1: Tập X được gọi là tập thường xuyên nếu có supp(X)

minsup với minsup là ngưỡng độ hỗ trợ cho trước. Ký hiệu các tập này là F I.

Tính chất 3.1: Giả sử A; B I là hai tập với A B thì supp(A) supp(B).

Như vậy những bản ghi nào chứa tập hợp B thì cũng chứa tập hợp A.

Tính chất 3.2: Giả sử A; B là hai tập hợp, A; B I, nếu B là tập thường xuyến

và A B thì A cũng là tập thường xuyên. Thật vậy, nếu B là tập thường xuyên thì supp(B) minsup, mọi tập hợp A là con của tập hợp B đều là tập thường xuyên trong cơ sở dữ liệu D vì supp(A) supp(B) (Tính chất 3.1).

Tính chất 3.3: Giả sử A; B là hai tập hợp, A B và A là tập không

Định nghĩa 3.2: Một tập mục X được gọi là đóng, nếu khơng có tập cha

nào của X có cùng độ hỗ trợ với nó, tức là khơng tồn tại một tập mục X0 nào mà X0 X và t(X) = t(X0) ( với t(X) và t(X’) tương ứng là tập các giao chứa tập mục X và X0. Ký hiệu của tập phổ biến đóng là F CI.

Định nghĩa 3.3: Nếu X là tập phổ biến và không tập cha nào của X là

phổ biến, ta nói rằng X là tập phổ biến lớn nhất. Ký hiệu tập tất cả các tập phổ biến lớn nhất là M F I. Dễ thấy M F I F CI F I.

Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có sự khác biệt rất nhiều so với những thông tin thu được từ câu lệnh truy vấn dữ liệu thơng thường như SQL. Đó là những tri thức, những mối liên hệ chưa biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức này không đơn giản là kết quả của phép nhóm, tính tổng hay sắp xếp mà là kết quả của một q trình tính tốn khá phức tạp.

Khai phá luật kết hợp là công việc phát hiện ra các luật kết hợp thỏa mãn các ngưỡng độ hỗ trợ và ngưỡng độ tin cậy cho trước. Bài toán khai phá luật kết hợp được chia thành hai bài tốn nhỏ:

B1: Tìm tất cả các tập phổ biến (FI) trong cơ sở dữ liệu T . B2: Sử dụng tập phổ biến ở B1 để sinh ra luật tin cậy.

Ýtưởng chung là nếu gọi ABCD và AB là tập mục phổ biến, thì chúng ta có thể xác định luật AB ! CD vởi tỷ lệ độ tin cậy:

conf =

Nếu conf minconf thì luật được giữ lại.

Thuật tốn 1-Thuật tốn cơ bản

Đầu vào: I; D; ;

Đầu ra: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ ,

ngưỡng độ tin cậy .

Thuật tốn:

1.Tìm tất cả các tập hợp các tính chất có độ hỗ trợ khơng nhỏ hơn ngưỡng .

Thuật tốn 2-Tìm luật kết hợp khi đã biết các tập hợp thường xuyên:

Đầu vào: I; D; ; ; S

Đầu ra: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ và ngưỡng độ tin cậy

cho trước.

Thuật toán:

1.Lấy ra một tập xuất hiện thường xuyên S S và một tập con X S.

2.Xét luật kết hợp có dạng X ! (S [ X), đánh giá độ tin cậy của nó xem có nhỏ hơn hay khơng. Thực chất, tập S mà ta xét đóng vai trị của tập hợp giao

S = (X [ Y ) và do X \ (S X) = , nên coi như Y = S X.

3.2.3 Thuật toán Apriori

Thuật toán Apriori là thuật toán khai phá luật kết hợp do Rakesh Agrawal, Tomasz Imeilinski, Anin Sawami đưa ra vào năm 1993 [6], là nền tảng cho việc phát triển các thuật toán sau này. Thuật toán sinh các tập mục ứng cử từ những tập mục phổ biển ở bước trước, sử dụng kỹ thuật "tỉa" để bỏ đi tập mục ứng cử không thỏa mãn ngưỡng hỗ trợ cho trước.

Ý tưởng của thuật toán Apriori

- Tạo ra các tập chỉ mục phổ biến có 1 phần tử, rồi tiếp đến là 2 phần tử, 3 phần tử . . . cho đến khi chúng ta tạo ra tập chỉ mục phổ biến của mọi kích thước.

- Mỗi tập chỉ mục tạo ra phải được tính tốn độ hỗ trợ.

- Tập chỉ mục phổ biến k phần tử được tạo ra từ tập chỉ mục phổ biến

k 1 phần tử, Bằng cách, nối từng đôi một tập chỉ mục phổ biến k 1 phần tử đã có để tạo ra tập ứng viên k phần tử. Sau đó, những tập ứng viên nào có chứa một tập con khơng phải là phổ biến sẽ bị loại bỏ.

Thuật tốn Apriori

Đầu vào: Tập dữ liệu thông tin lâm sàng sau khi được xử lý; minsup; minconf

1. L1 large1 itemsets 2.k 2 3.While Lk 1 6= 4. Ck apriori gen(Lk+1) 5. forall transactions t 2 D 6. Ct subset(Ck; t) 7. forall candidates c 2 Ct 8. count[c] count[c] + 1 9. Lk fcjc 2 Ck ^ count[c] minsupg 10. k k + 1 S 11. I k Lk 12. s subset(I) ^ S 6= 13. for S 14. R fS ) (I S)g 15. Rn 16.return

3.3 Chẩn đoán bệnh tim dựa vào sự thay đổi nhịp tim

Trong phần này sẽ tập trung trình bày bước chẩn đoán nguy cơ mắc bệnh tim mạch cho bệnh nhân ngoại trú dựa vào đánh giá tín hiệu điện tâm đồ trong một khoảng thời gian. Sự thay đổi nhịp tim cũng là một độ đo trong lĩnh vực tim mạch mà được dùng để dự đoán các trường hợp đột tử của bệnh nhân tim và liên quan tới hơ hấp, khí áp, và sự thay đổi bất thường của tim. Có nhiều nghiên cứu sử dụng mạng nơ-ron cho việc phát hiện sớm nguy cơ mắc bệnh tim mạch cho bệnh nhân nhưng không đề cập đến tác động của môi trường xung quanh và các hoạt động hằng ngày của bệnh nhân. Vì

vậy những nghiên cứu này chỉ có thể áp dụng cho các hệ thống mà hoạt động trong một môi trường tĩnh, chứ không thể dùng trong môi trường động. Bởi vì, dữ liệu là ln mở và khơng được biết trước. Chúng tôi sẽ khắc phục điểm yếu của các nghiên cứu đấy bằng việc sử dụng thuật toán GNG cho việc cập nhật liên tục dữ liệu về sự thay đổi nhịp tim khi bệnh nhân thực hiện các hoạt động hằng ngày.

Trước khi áp dụng được mơ hình mạng GNG, tín hiệu điện tâm đồ thu được phải được tiền xử lý. Đầu tiên, tín hiệu điện tâm đồ được biến đổi thành định dạng véc tơ sử dụng kỹ thuật Poincaré. Để đạt được tính mềm dẻo của mơ hình mạng thì khi huấn luyện trong một môi trường động, việc học tăng cường được thực hiện để mơ hình mạng có thể học và huấn luyện những dữ liệu mới nhưng khơng xóa đi những dữ liệu cũ. Mơ hình mạng GNG gồm 3 lớp. Lớp đầu vào nhận tín hiệu đã qua bước tiền xử lý. Lớp ẩn được biểu diễn bởi một đồ thị động, chịu trách nhiệm cho việc cập nhật lại và chuyển dịch khơng tuyến tính của tín hiệu đầu vào. Cuối cùng là lớp đầu ra làm nhiệm vụ chia tách không gian đầu ra vào các vùng quyết định. Trong tầng ẩn, mơ hình mạng ban đầu được khởi tạo với hai nút tại hai vị trí ngẫu nhiên. Khi một mẫu huấn luyện được đưa vào, các nút trong lớp ẩn cạnh tranh để xác định nút nào khớp nhất với mẫu. Vị trí của nút thắng và lân cận của nó sẽ được cập nhật. Sau một số bước của quá trình huấn luyện, tầng ẩn được cập nhật lại bằng việc chèn thêm nút mới với hy vọng sẽ cải thiện hiệu quả của mạng. Các nút với giá trị lỗi cao được dùng như một điều kiện của việc quyết định chèn nút mới. Bên cạnh việc chèn thêm nút mới, các nút mà khơng có hàng xóm lân cận sẽ bị xóa bởi vì sau một giai đoạn của quá trình huấn luyện thì giá trị lỗi được tích lũy của các nút đó có rất ít cơ hội để đạt được cực đại và việc chèn một nút mới cạnh chúng sẽ rất khó xảy ra. Q trình huấn luyện lặp lại cho đến khi mơ hình thỏa mãn điều kiện dừng như độ hội tụ hay số lượng nút trong mơ hình. Các lớp thu được sau giai đoạn huấn luyện được gán nhãn với các miêu tả kết hợp với dữ liệu đầu vào.

3.3.1 Tiền xử lý dữ liệu

Tiến trình tiền xử lý dữ liệu được trình bày chi tiết trong phần này. Dữ liệu về sự thay đổi nhịp tim được thu thập từ các thiết bị cảm ứng điện tâm đồ. Sự thay đổi nhịp tim là số thay đổi trong khoảng thời gian nhất định của các nhịp tim. Nhịp tim là số lần tim đập trong một phút. Được đo bằng phần nghìn giây. Sự thay đổi nhịp tim gần như không thể phát hiện bằng tai thường dù nó vẫn hiện diện. Sự thay đổi nhịp tim càng đa dạng càng tốt, vì một trái tim khơng thể thay đổi tốc độ nhanh chóng khơng phải là trái

tim khỏe mạnh. Sự thay đổi của nhịp tim phụ thuộc vào hệ thần kinh tự trị. Hệ thần kinh mạnh mẽ sẽ ảnh hưởng đến bộ phận chính của cơ thể, bao gồm cả trái tim, được phân thành hai nhánh. Nhánh đối giao cảm làm chậm nhịp tim và nhánh giao cảm làm tăng nhịp tim. Nếu bệnh nhân đang trong tình trạng căng thẳng tinh thần hoặc khơng khỏe kéo dài, nhánh giao cảm sẽ chi phối sẽ làm giảm sự thay đổi nhịp tim. Ngoài sự thay đổi nhịp tim, hai dải tần số cũng được xem xét để chẩn đoán bệnh tim mạch. Hai dải tần số là dải tần thấp (0:04 0:15Hz) và dải tần cao (0:15 0:4Hz). Hai dải tần này có thể phản ánh được gần hết các hoạt động giao cảm và đối giao cảm.

Sự thay đổi nhịp tim được đánh giá dựa trên các hoạt động hằng ngày. Các hoạt động này được theo dõi bằng các thiết bị cảm ứng. Do dữ liệu ngay sau khi thu thập thường sẽ bị nhiễu và là dữ liệu thơ nên thay vì sử dụng ngay trực tiếp, dữ liệu phải được tiền xử lý dựa trên việc tách đặc trưng như độ lệch chẩn, tối đa, tối thiểu và trung bình. Ưu điểm của cách tiếp cận này là thuật tốn sẽ khơng phải xử lý với các dữ liệu theo chuỗi thời gian. Trong luận văn này, chúng tôi sử dụng kỹ thuật Poincaré để tiền xử lý tín hiệu điện tâm đồ thu được.

Kỹ thuật Poincaré là một phương pháp hình học và khơng tuyến tính để phân tích sự thay đổi nhịp tim [2]. Nó cung cấp một mối liên hệ trực quan về sự thay đổi khoảng thời gian RR. Đồ thị Poincaré biểu diễn thông tin về sự thay đổi nhịp tim trong khoảng thời gian dài và ngắn. RR là khoảng cách từ một sóng R đến sóng R liền sau nó. Đồ thị Poincaré của khoảng thời gian RR được xây dựng bởi một tập các điểm mà mỗi điểm trong đồ thị tương ứng với hai khoảng RR liên tiếp (RRn; RRn+1). Từ đồ thị Poincaré, tín hiệu điện tâm đồ thể hiện sự thay đổi nhịp tim sẽ được chuyển đổi tới định dạng đầu vào của mạng rơ-ron.

Hình 3.3 mơ tả các bước chuyển đổi tín hiệu điện tâm đồ biểu diễn sự thay

đổi nhịp tim thành định dạng véc tơ sử dụng kỹ thuật Poincaré. Không gian đồ thị được phân chia thành một số các ơ. Mỗi ơ có độ rộng tương ứng với một thông số t(ms). Số thành phần của véc tơ đầu vào của mơ hình mạng là số lượng các ơ. Giá trị của mỗi ơ có thể là 0 hoặc 1. Những ơ nào có ít nhất một mẫu thì có giá trị là 1. Các ơ khơng có mẫu nào thì có giá trị là 0.

Một phần của tài liệu Luận văn thạc sĩ UEB một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú công nghệ thông tin 60 48 01 04 (Trang 37 - 47)

Tải bản đầy đủ (DOCX)

(81 trang)
w