Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân

Một phần của tài liệu (LUẬN văn THẠC sĩ) một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú công nghệ thông tin 60 48 01 04 (Trang 36 - 44)

4 Thực nghiệm và Đánh giá

3.2 Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân

dụng để khai phá luật kết hợp cho tập dữ liệu đã qua tiền xử lý. Kết quả cuối cùng, ta có một tập luật kết hợp để hỗ trợ cho quá trình chẩn đoán bệnh tim.

3.2.1 Tiền xử lý Dữ liệu

Dữ liệu được thu trực tiếp từ các thiết bị hay do bệnh nhân cung cấp dựa trên những quan sát và cảm nhận. Đối với bệnh tim thì một mẫu dữ liệu thu được gồm14 thuộc tính được mô tả như trong Bảng3.1.

Các tập dữ liệu thu được thường chứa rất nhiều các thuộc tính được thu thập dưới dạng số nhưng lại không đầy đủ, có nhiều lỗi và kiểu giá trị đặc biệt. Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ sở dữ liệu. Thuật toán Apriori được đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục dạng số. Mỗi giá trị dữ liệu rời rạc được gọi là một item. Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dữ liệu dạng số sang dữ liệu rời rạc biểu diễn bởi các items. Bảng 3.2 sau mô tả quy tắc chuyển đổi dạng số sang dạng dữ liệu rời rạc.

3.2.2 Các khái niệm và định nghĩa

Trước khi mô tả thuật toán, phần này giới thiệu một số định nghĩa, khái niệm và dữ liệu được sử dụng trong thuật toán tìm luật kết hợp Apriori.

Định nghĩa:

ChoI = I1, I2, ..., Imlà tập hợp củamtính chất riêng biệt. Giả sử D là CSDL, với các bản ghi chứa một tập con T các tính chất (có thể coi T ⊆ I), các bản ghi đều có chỉ số riêng. Một luật kết hợp là mệnh đề kéo theo có dạng X → Y, trong đó

X, Y ⊆ I, thỏa mãn điều kiệnX ∩Y =. Các tập hợp X vàY được gọi là các tập hợp tính chất. TậpX gọi là nguyên nhân, tậpY gọi là hệ quả. Có hai độ đo quan trọng

Thuộc tính Mô tả Kiểu dữ liệu

Age Tuổi Dạng số.

Sex Giới tính 0=Nữ,1=Nam

Cp Các dạng đau ngực 1=Đau thắt ngực điển hình, 2=Đau thắt ngực không điển hình, 3=Đau không thắt ngực,4=Không có triệu chứng trestbps Huyết áp tâm thu Dạng số

Chol Lượng cholesterol

trong máu Dạng số fbs Lượng đường trong máu lớn hơn120mg/dl 1=Có, 0=Không

restecg Kết quả điện tâm đồ 0=bình thường, 1=Có sóng ST-T bất thường,2=LV phình ra

thaclach Nhịp tim cao nhất đạt được

Dạng số. Exang Tập thể dục có gây ra

đau thắt

0=không, 1=Có Oldpeak ST giảm xuống khi

nghỉ ngơi

Dạng số

Slope Độ dốc 1=Dốc lên, 2=Bằng phẳng, 3=Dốc

xuống

ca Số lượng mạch máu Dạng số

Thal Bài tập thathilum

khuyết tật xạ hình

Dạng số

num Chỉ số nguy cơ mắc

bệnh

0=Không có bệnh, 1=Có bệnh Bảng 3.1: Bảng thuộc tính của mẫu dữ liệu cho bệnh tim

với luật kết hợp là Độ hỗ trợ(support) và Độ tin cậy(confidence), được định nghĩa như phần dưới đây.

Độ hỗ trợ:

• Độ hỗ trợ của một tậpX trong cơ sở dữ liệuDlà tỉ số giữa các bản ghiT ⊆ D

có chứa tập X và tổng số bản ghi trongD (hay là phần trăm của các bản ghi trongDcó chứa tập X), ký hiệu làsupport(X) haysupp(X).

S0 = |{T ⊂D :Y ⊃ X}|

Ta có:

0≤supp(X) ≤1,∀X

• Độ hỗ trợ của một luật kết hợpX → Y là tỷ lệ giữa số lượng các bản ghi chứa tập hợpX ∪Y, so với tổng số các bản ghi trongD, ký hiệu làSupp(X → Y).

Supp(X → Y) = |{T ⊂ D :T ⊇ X ∪Y}|

|D| (3.2)

Khi chúng ta nói rằng, độ hỗ trợ của một luật là50%, có nghĩa là có50%tổng số bản ghi chứaX ∪Y. Như vây, độ hỗ trợ mang ý nghĩa thống kê của luật.

Độ tin cậy:

• Độ tin cậy của một luật kết hợpX → Y là tỷ lệ giữa số lượng các bản ghi trong

D chứa X ∪Y với số bản ghi trongD có chứa tập X. Ký hiệu độ tin cậy của một luật làconf(r)với0≤ conf(r) ≤ 1.

• Độ tin cậy của một luật kết hợpX → Y là tỷ lệ giữa số lượng các bản ghi của tập hợp chứaX ∪Y, so với tổng số các bản ghi chứaX.

Một số định nghĩa và tính chất

Định nghĩa 3.1: Tập X được gọi là tập thường xuyên nếu có supp(X) ≥

minsup với minsup là ngưỡng độ hỗ trợ cho trước. Ký hiệu các tập này là

F I.

Tính chất 3.1:Giả sửA, B ⊆I là hai tập vớiA⊆ B thìsupp(A)≥ supp(B). Như vậy những bản ghi nào chứa tập hợpB thì cũng chứa tập hợpA.

Tính chất 3.2:Giả sửA, Blà hai tập hợp,A, B ⊆I, nếuB là tập thường xuyến vàA⊆ B thìAcũng là tập thường xuyên. Thật vậy, nếuB là tập thường xuyên thìsupp(B) ≥ minsup, mọi tập hợpAlà con của tập hợpB đều là tập thường xuyên trong cơ sở dữ liệuDvìsupp(A) ≥ supp(B) (Tính chất 3.1).

Tính chất 3.3: Giả sử A, B là hai tập hợp, A ⊆ B vàA là tập không thường xuyên thìB cũng là tập không thường xuyên.

Định nghĩa 3.2: Một tập mục X được gọi là đóng, nếu không có tập cha nào của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục X0 nào mà

X0 ⊂X vàt(X) =t(X0)( với t(X) và t(X’) tương ứng là tập các giao chứa tập mục X vàX0. Ký hiệu của tập phổ biến đóng là F CI.

Định nghĩa 3.3: Nếu X là tập phổ biến và không tập cha nào của X là phổ biến, ta nói rằngX là tập phổ biến lớn nhất. Ký hiệu tập tất cả các tập phổ biến lớn nhất làM F I. Dễ thấyM F I ⊆ F CI ⊆F I.

Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có sự khác biệt rất nhiều so với những thông tin thu được từ câu lệnh truy vấn dữ liệu thông thường như SQL. Đó là những tri thức, những mối liên hệ chưa biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức này không đơn giản là kết quả của phép nhóm, tính tổng hay sắp xếp mà là kết quả của một quá trình tính toán khá phức tạp.

Khai phá luật kết hợp là công việc phát hiện ra các luật kết hợp thỏa mãn các ngưỡng độ hỗ trợ và ngưỡng độ tin cậy cho trước. Bài toán khai phá luật kết hợp được chia thành hai bài toán nhỏ:

• B1: Tìm tất cả các tập phổ biến (FI) trong cơ sở dữ liệuT. • B2: Sử dụng tập phổ biến ởB1để sinh ra luật tin cậy.

Ý tưởng chung là nếu gọiABCD vàABlà tập mục phổ biến, thì chúng ta có thể xác định luậtAB → CDvởi tỷ lệ độ tin cậy:

conf = supp(ABCD)

supp(AB) (3.3)

Nếuconf ≥minconf thì luật được giữ lại.

Thuật toán 1-Thuật toán cơ bản

Đầu vào:I, D, σ, α

Đầu ra:Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợσ, ngưỡng độ tin cậyα.

Thuật toán:

1. Tìm tất cả các tập hợp các tính chất có độ hỗ trợ không nhỏ hơn ngưỡngσ. 2. Từ tập hợp mới tìm ra, tạo ra các luật kết hợp có độ tin cậy không nhỏ hơnα

Thuật toán 2-Tìm luật kết hợp khi đã biết các tập hợp thường xuyên:

Đầu vào:I, D, σ, α, S

Đầu ra: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ σ và ngưỡng độ tin cậy α cho trước.

Thuật toán:

1. Lấy ra một tập xuất hiệnσ−thường xuyênS ⊆S và một tập conX ⊆S. 2. Xét luật kết hợp có dạng X → (S ∪X), đánh giá độ tin cậy của nó xem có

nhỏ hơnα hay không. Thực chất, tậpS mà ta xét đóng vai trò của tập hợp giao

S = (X ∪Y) và doX∩(S−X) =, nên coi nhưY =S−X.

3.2.3 Thuật toán Apriori

Thuật toán Apriori là thuật toán khai phá luật kết hợp do Rakesh Agrawal, Tomasz Imeilinski, Anin Sawami đưa ra vào năm 1993 [6], là nền tảng cho việc phát triển các thuật toán sau này. Thuật toán sinh các tập mục ứng cử từ những tập mục phổ biển ở bước trước, sử dụng kỹ thuật "tỉa" để bỏ đi tập mục ứng cử không thỏa mãn ngưỡng hỗ trợ cho trước.

Ý tưởng của thuật toán Apriori

- Tạo ra các tập chỉ mục phổ biến có1phần tử, rồi tiếp đến là2phần tử,3phần tử . . . cho đến khi chúng ta tạo ra tập chỉ mục phổ biến của mọi kích thước.

- Mỗi tập chỉ mục tạo ra phải được tính toán độ hỗ trợ.

- Tập chỉ mục phổ biến k phần tử được tạo ra từ tập chỉ mục phổ biến k −1 phần tử, Bằng cách, nối từng đôi một tập chỉ mục phổ biến k−1phần tử đã có để tạo ra tập ứng viênkphần tử. Sau đó, những tập ứng viên nào có chứa một tập con không phải là phổ biến sẽ bị loại bỏ.

Thuật toán Apriori

Đầu vào:Tập dữ liệu thông tin lâm sàng sau khi được xử lý; minsup; minconf

Đầu ra:Tập luật phổ biến trong D

1. L1 ← large1−itemsets 2. k ← 2 3. WhileLk−1 6= 4. Ck ← apriori−gen(Lk+1) 5. foralltransactionst∈ D 6. Ct ← subset(Ck, t) 7. forallcandidatesc∈ Ct 8. count[c]← count[c] + 1 9. Lk ← {c|c∈ Ck ∧count[c] ≥minsup} 10. k ← k+ 1 11. I ← S kLk 12. s ← subset(I)∧S 6= 13. forS 14. R ← {S ⇒(I −S)} 15. Rn ← {R|conf(R) ≥minconf} 16. returnS nRn

3.3 Chẩn đoán bệnh tim dựa vào sự thay đổi nhịp tim

Trong phần này sẽ tập trung trình bày bước chẩn đoán nguy cơ mắc bệnh tim mạch cho bệnh nhân ngoại trú dựa vào đánh giá tín hiệu điện tâm đồ trong một khoảng thời gian. Sự thay đổi nhịp tim cũng là một độ đo trong lĩnh vực tim mạch mà được dùng để dự đoán các trường hợp đột tử của bệnh nhân tim và liên quan tới hô hấp, khí áp, và sự thay đổi bất thường của tim. Có nhiều nghiên cứu sử dụng mạng nơ-ron cho việc phát hiện sớm nguy cơ mắc bệnh tim mạch cho bệnh nhân nhưng không đề cập đến tác động của môi trường xung quanh và các hoạt động hằng ngày của bệnh nhân. Vì

vậy những nghiên cứu này chỉ có thể áp dụng cho các hệ thống mà hoạt động trong một môi trường tĩnh, chứ không thể dùng trong môi trường động. Bởi vì, dữ liệu là luôn mở và không được biết trước. Chúng tôi sẽ khắc phục điểm yếu của các nghiên cứu đấy bằng việc sử dụng thuật toán GNG cho việc cập nhật liên tục dữ liệu về sự thay đổi nhịp tim khi bệnh nhân thực hiện các hoạt động hằng ngày.

Trước khi áp dụng được mô hình mạng GNG, tín hiệu điện tâm đồ thu được phải được tiền xử lý. Đầu tiên, tín hiệu điện tâm đồ được biến đổi thành định dạng véc tơ sử dụng kỹ thuật Poincaré. Để đạt được tính mềm dẻo của mô hình mạng thì khi huấn luyện trong một môi trường động, việc học tăng cường được thực hiện để mô hình mạng có thể học và huấn luyện những dữ liệu mới nhưng không xóa đi những dữ liệu cũ. Mô hình mạng GNG gồm3lớp. Lớp đầu vào nhận tín hiệu đã qua bước tiền xử lý. Lớp ẩn được biểu diễn bởi một đồ thị động, chịu trách nhiệm cho việc cập nhật lại và chuyển dịch không tuyến tính của tín hiệu đầu vào. Cuối cùng là lớp đầu ra làm nhiệm vụ chia tách không gian đầu ra vào các vùng quyết định. Trong tầng ẩn, mô hình mạng ban đầu được khởi tạo với hai nút tại hai vị trí ngẫu nhiên. Khi một mẫu huấn luyện được đưa vào, các nút trong lớp ẩn cạnh tranh để xác định nút nào khớp nhất với mẫu. Vị trí của nút thắng và lân cận của nó sẽ được cập nhật. Sau một số bước của quá trình huấn luyện, tầng ẩn được cập nhật lại bằng việc chèn thêm nút mới với hy vọng sẽ cải thiện hiệu quả của mạng. Các nút với giá trị lỗi cao được dùng như một điều kiện của việc quyết định chèn nút mới. Bên cạnh việc chèn thêm nút mới, các nút mà không có hàng xóm lân cận sẽ bị xóa bởi vì sau một giai đoạn của quá trình huấn luyện thì giá trị lỗi được tích lũy của các nút đó có rất ít cơ hội để đạt được cực đại và việc chèn một nút mới cạnh chúng sẽ rất khó xảy ra. Quá trình huấn luyện lặp lại cho đến khi mô hình thỏa mãn điều kiện dừng như độ hội tụ hay số lượng nút trong mô hình. Các lớp thu được sau giai đoạn huấn luyện được gán nhãn với các miêu tả kết hợp với dữ liệu đầu vào.

3.3.1 Tiền xử lý dữ liệu

Tiến trình tiền xử lý dữ liệu được trình bày chi tiết trong phần này. Dữ liệu về sự thay đổi nhịp tim được thu thập từ các thiết bị cảm ứng điện tâm đồ. Sự thay đổi nhịp tim là số thay đổi trong khoảng thời gian nhất định của các nhịp tim. Nhịp tim là số lần tim đập trong một phút. Được đo bằng phần nghìn giây. Sự thay đổi nhịp tim gần như không thể phát hiện bằng tai thường dù nó vẫn hiện diện. Sự thay đổi nhịp tim càng đa dạng càng tốt, vì một trái tim không thể thay đổi tốc độ nhanh chóng không phải là trái

tim khỏe mạnh. Sự thay đổi của nhịp tim phụ thuộc vào hệ thần kinh tự trị. Hệ thần kinh mạnh mẽ sẽ ảnh hưởng đến bộ phận chính của cơ thể, bao gồm cả trái tim, được phân thành hai nhánh. Nhánh đối giao cảm làm chậm nhịp tim và nhánh giao cảm làm tăng nhịp tim. Nếu bệnh nhân đang trong tình trạng căng thẳng tinh thần hoặc không khỏe kéo dài, nhánh giao cảm sẽ chi phối sẽ làm giảm sự thay đổi nhịp tim. Ngoài sự thay đổi nhịp tim, hai dải tần số cũng được xem xét để chẩn đoán bệnh tim mạch. Hai dải tần số là dải tần thấp (0.04−0.15Hz) và dải tần cao (0.15−0.4Hz). Hai dải tần này có thể phản ánh được gần hết các hoạt động giao cảm và đối giao cảm.

Sự thay đổi nhịp tim được đánh giá dựa trên các hoạt động hằng ngày. Các hoạt động này được theo dõi bằng các thiết bị cảm ứng. Do dữ liệu ngay sau khi thu thập thường sẽ bị nhiễu và là dữ liệu thô nên thay vì sử dụng ngay trực tiếp, dữ liệu phải được tiền xử lý dựa trên việc tách đặc trưng như độ lệch chẩn, tối đa, tối thiểu và trung bình. Ưu điểm của cách tiếp cận này là thuật toán sẽ không phải xử lý với các dữ liệu theo chuỗi thời gian. Trong luận văn này, chúng tôi sử dụng kỹ thuật Poincaré để tiền xử lý tín hiệu điện tâm đồ thu được.

Kỹ thuật Poincaré là một phương pháp hình học và không tuyến tính để phân tích sự thay đổi nhịp tim [2]. Nó cung cấp một mối liên hệ trực quan về sự thay đổi khoảng thời gianRR. Đồ thị Poincaré biểu diễn thông tin về sự thay đổi nhịp tim trong khoảng thời gian dài và ngắn.RRlà khoảng cách từ một sóngR đến sóngR liền sau nó. Đồ thị Poincaré của khoảng thời gianRR được xây dựng bởi một tập các điểm mà mỗi điểm trong đồ thị tương ứng với hai khoảng RR liên tiếp (RRn, RRn+1). Từ đồ thị Poincaré, tín hiệu điện tâm đồ thể hiện sự thay đổi nhịp tim sẽ được chuyển đổi tới định dạng đầu vào của mạng rơ-ron.

Hình 3.3 mô tả các bước chuyển đổi tín hiệu điện tâm đồ biểu diễn sự thay đổi nhịp tim thành định dạng véc tơ sử dụng kỹ thuật Poincaré. Không gian đồ thị được phân chia thành một số các ô. Mỗi ô có độ rộng tương ứng với một thông số∆t(ms). Số thành phần của véc tơ đầu vào của mô hình mạng là số lượng các ô. Giá trị của mỗi ô có thể là 0hoặc 1. Những ô nào có ít nhất một mẫu thì có giá trị là 1. Các ô không có mẫu nào thì có giá trị là0.

Một phần của tài liệu (LUẬN văn THẠC sĩ) một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú công nghệ thông tin 60 48 01 04 (Trang 36 - 44)

Tải bản đầy đủ (PDF)

(72 trang)