Luận văn thạc sĩ Công nghệ thông tin: Một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú

1.2 Đóng góp của luận văn Trong luận văn này, chúng tôi tập trung nghiên cứu và phân tích một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim mạch cho bệnh nhân ngoại trú.. Cá

Trang 1

ĐẠI HOC QUOC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI XUÂN TRỌNG

LUẬN VĂN THAC SĨ CÔNG NGHỆ THONG TIN

HÀ NỘI, NĂM 2015

Trang 2

ĐẠI HOC QUOC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI XUÂN TRỌNG

Ngành: Công Nghệ Thông Tin

Chuyên ngành: Hệ Thống Thông Tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TIEN SĨ VŨ THỊ HỒNG NHẠN

HÀ NỘI, NĂM 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi, dưới sự hướng dẫn

của Tiến sĩ Vũ Thị Hồng Nhạn Luận văn này không sao chép từ của ai hay từ bất kỳ luận văn nào khác Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước nhà trường và pháp

luật.

BÙI XUÂN TRỌNG

Trang 4

LỜI CAM GN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Vũ Thi Hồng Nhan, cô đã

hướng dẫn, chỉ dạy tận tình để tôi có thể hoàn thành luận văn này Tôi

cũng xin chân thành cảm ơn các thay, cô giáo khoa Công nghệ thông tin Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền thụ kiếnthức cho tôi trong suốt quá trình học tập

-Tôi cũng muốn bày tỏ lòng biết ơn của mình tới gia đình, người thân vàđồng nghiệp đã động viên, khích lệ, giúp đố, tạo mọi điều kiện để tôi

hoàn thành khóa học và luận văn này.

Trang 5

TÓM TẮT

Bệnh tim mạch là một trong những nguyên nhân gây tử vong cao nhất hiện nay Với sự phát triển của Công nghệ, người ta có thể sử dụng cácthiết bị không dây, thiết bị cảm ứng tích hợp trên cơ người để thu thậpliên tục dif liệu về tình trạng sức khỏe của bệnh nhân nội trú cũng nhưngoại trú Trong luận văn này, chúng tôi nghiên cứu một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú.Quá trình chẩn đoán được thực hiện qua hai bước Trong bước thứ nhất,

bệnh nhân được chẩn đoán về nguy cơ mắc bệnh dựa vào luật kết hợp

Luật kết hợp được tìm ra dựa vào dữ liệu lâm sàng Dữ liệu lâm sàng củabệnh nhân được tiền xử lý và sau đó được khai phá để tìm luật kết hợpdựa trên thuật toán Apriori Sau bước này, dựa trên kết quả chẩn đoán,bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ bị bệnh tim mạch

cao sẽ tiếp tục được chẩn đoán thêm ở bước sau Ở bước chẩn đoán thứ

hai này sẽ áp dụng thuật toán GNG trên tập dữ liệu về sự thay đổi nhịptim Dữ liệu điện tâm đồ biểu diễn sự thay đổi nhịp tim của bệnh nhân

được thu trong các hoạt động hằng ngày Tín hiệu điện tâm đồ được tiền

xử lý dựa trên kỹ thuật Poincaré để chuyển sang định dạng của véc tơ đầuvào Thuật toán GNG được áp dụng để khai phá dữ liệu đã được tiền xử

lý Thuật toán này đáp ứng được yêu cầu của việc học liên tục và GNG

có khả năng huấn luyện với dữ liệu mới nhưng không quên những mẫu

đã được huấn luyện từ trước Một số thực nghiệm được thực hiện để đánhgiá độ chính xác của phương pháp chẩn đoán Từ kết quả thu được, ta có

thể thấy rằng, phương pháp này có thể áp dụng trong hệ một hệ thống

y tế để hỗ trợ việc chẩn đoán sớm những trường hợp tim mạch bất bìnhthường, phòng tránh các hậu quả nghiêm trọng, đặc biệt có thể theo dõi

bệnh nhân ngoại trú và ứng cứu kịp thời trong trường hợp cần thiết.

Trang 6

2.3 Một số thuật toán khai phá dữ liệu - 10

2.3.1 Kmeans 0.00002 eee eee 10

2.3.2 Cây quyếtđịnh 122.3.3 Thuật toán Mang Perceptron nhiều lớp 14

2.3.3.1 Mang Percepronmộtlóp 142.3.3.2 Mạng Perceptron lan truyền thang nhiều lớp 16

2.3.4 SOM Q.2 x3 xà 19

3 Quá trình chẩn đoán bệnh tim dựa trên kỹ thuật khai phá dữ liệu 24

3.1 Tổng quan quá trình chẩnđoán 24 3.2 Chẩn đoán bệnh Tim mach dựa trên các thông tin lâm sàng 25

3.21 TiềnxửlýDữliệu 26

ili

Trang 7

3.22 Các khái nệm và đnhngha 26 3.2.3 Thuậttoán AprTIOTI Ặ Ặ Ặ QC 30

3.3 Chẩn đoán bệnh tim dựa vào sự thay déinhiptim 31

4.1 Môi trường thực nghiệm và dữ liệu 44

4.1.1 Môi trường thực nghiệm cho bước chẩn đoán dựa vào các

thông tnlâmsàng 44

4.1.2 Môi trường thực nghiệm cho bước chẩn đoán dựa vào sự thay

đổi nhptim 454.2 Kétquathucnghiém 49

4.2.1 Kết quả va đánh giá hiệu quả của thuật toán Apriori 49

4.2.1.1 Đánh giá sự thay đổi số lượng các tập mục phổ biến

theo sự thay đổi của độ hỗ trợ minsup 49

4.2.1.2 Đánh giá số lượng các luật sinh ra theo sự thay đổi

của độ hỗ trợminsup 504.2.1.3 Đánh giá số lượng các luật tạo ra khi độ tin cậy

minconf thay đổi 51

4.2.2 Kết quả và đánh giá hiệu quả của thuật toán GNG 53

4.2.2.1 Đánh giá lỗi phân lớp trên tập dữ liệu D(O) 53

4.2.2.2 Đánh giá số lượng nút va cạnh của thuật toán GNG

trên tập dữ liệu D(O) 54

4.2.2.3 Đánh giá lỗi bình phương trung bình MSE trên D(O) 55

4.2.2.4 SosánhhGNG vớ SOM 56

5_Kếtluận 58

Tài liệu tham khảo 60

1V

Trang 8

Danh sách hình ve

2.1 2.2 2.3

2.4 2.5 2.6

2.7

2.8

2.9 2.10

2.11 2.12

3.1

3.2

3.3 3.4

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

Bệnh Tim mạch vành 5

Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch 9

Cụm dữ liệu khai phá bởi K-mean 11

Bảng dữ liệu Q2 12 Cây quyétdinh Ặ.Ặ VỤ 12 Mạng Perceptron một lớp 15

Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan truyền ngược saiSỐ So 18 Mô hìnhSOM QOQ Q Q eee ees 19 Ma trận trọng số Ặ.ẶẶQQ Q Ốc 20 Các lâncận 1 Ặ Q Q Q Q Q Q Q Q.2 20 Nút khớp nhất 22

Hàm lân cận cơbản 23

Tổng quan hệ thống quá trình chẩn đoán bệnh tim 25

Chẩn đoán bệnh tim dựa vào thông tin lâm sang của bệnh nhân 26

Kỹ thuật Poincaré Ặ.Ặ QẶ Q Q Q ee 34 DOthiRR 2 Q Quy 34 Tập dữ liệu đầu vào của thuật toán Apriori 45

Sự thay đổi itemset theo minsup 50

Số lượng luật theominsup 51

Số lượng luật theo minconf 52

Tập luật sinh ra với minsup=0.1 và minconf=0.97 52

Giá trị lỗi phân lớp của GNG trên tập dữ liệu D(O) 33

Số nút và cạnh của GNG trên tập dữ liệu với O=0%_ 54

Số nút va cạnh của GNG trên tap dữ liệu v6iO=1% 2 55

Trang 9

4.9 Số nút và cạnh của GNG trên tập dữ liệu vớ OEZ2%_ 55

4.10 MSE và Mức độ giao giữa các lốp 56

4.11 GNG va SOM trên tập dữ liệu D(0%) 56

4.12 GNG và SOM tập dữ liệu D(1%) 57

4.13 GNG và SOM tập dữ liệu D(2%) 57

VI

Trang 10

Danh sách bảng

3.1

3.2

4.1

4.2

4.3

4.4

4.5

4.6

Bảng thuộc tính của mẫu dữ liệu cho bénhtim 27

Quy tắc chuyển đổi dữ liệu - 43

Tổng hợp các tham số sử dụng để sinh ra tín hiệu điện tâm dé 46

Tham số sử dụng để sinh ra tập dữ liệu (BT-Bình thường, BBT- Bất bình thường) Q Q Q Q Q Q Q 47 Tổng hợp các tham số sử dụng trongGNG 48

Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ 50

Sự thay đổi số lượng luật sinh ra theo độ hỗtrợ 51

Sự thay đổi số lượng luật sinh ra theo độ tincay 51

VI

Trang 11

1.1 Động cơ nghiên cứu

Theo tổ chức y tế thế giới WHO, bệnh tim mạch đang là nguyên nhân tử vong hàngđầu ở người trên thế giới và chiếm nhiều nhất ở các nước đang phát triển [37] Mỗinăm, người chết do bệnh tim và đột quy nhiều hơn cả ung thư, lao, sốt rét và HIVcộng lại Còn tại Việt Nam, thống kê của Hội tim mạch cho thấy, cứ 3 người Việt

Nam trưởng thành thì có một người có nguy cơ mắc bệnh tim mạch, chủ yếu là bệnh

tim mạch vành [36] Bệnh tim mạch có thể chẩn đoán dựa trên các nguy cơ gây bệnh

và triệu chứng Nhưng, một số trường hợp người bệnh không có những biểu hiện triệu chứng hay dấu hiệu có thể nhận biết Đây gọi là bệnh tim mạch vành yên lặng Những trường hợp này, người bệnh chỉ có thể phát hiện được triệu chứng khi đã ở giai đoạnnguy hiểm, tức là có dấu hiệu của hiện tượng suy tim, hay đột quy Người bệnh có thể

bị chết nếu không được cấp cứu kịp thời Tuy nhiên, khó có thể xác định được bệnhnhân có bị mắc bệnh hay không khi chỉ thông qua một xét nghiệm Do đó, chúng tacần có một hệ thống hay phương pháp chẩn đoán và phát hiện sớm nguy cơ mắc bệnh

tim mạch có độ tin cậy cao.

Hiện nay, với sự phát triển của công nghệ thì các thiết bị di động, cảm ứng vàmạng không dây được tích hợp vào các hệ thống y tế ngày càng nhiều do lợi ích của

chúng mang lại như giảm chi phi chăm sóc sức khỏe và tăng khả năng truy cập, thu

thập thông tin cho bệnh nhân, cũng như các chuyên gia y tế Một trong những ứngdụng là các hệ thống cảm ứng sinh học tiết kiệm năng lượng có thể mang trên người.Trong bệnh viện, hệ thống này có thể sử dụng để theo dõi các bệnh nhân trong cáctrường hợp đăc biệt Bên ngoài bệnh viện, hệ thống này có thể theo dõi và thu thập

Trang 12

liên tục dif liệu về tình trạng sức khỏe của bệnh nhân Dữ liệu này bao gồm sự thayđổi nhịp tim của bệnh nhân trong các hoạt động hàng ngày và có tính thời gian thực.Những dữ liệu này sẽ được tiền xử lý và khai phá để trích rút ra những thông tin hữuích về tình trạng sức khỏe của bệnh nhân, cũng như hỗ trợ việc ra quyết định chẩnđoán cho bác sĩ Tuy nhiên, hầu hết các kỹ thuật khai phá dữ liệu truyền thống chủyếu áp dụng cho các tập dữ liệu cố định, có sẵn và trong một môi trường tĩnh, không

có tính thời gian thực Như vậy, chúng ta cần một thuật toán khai phá dữ liệu liên tục

mà có thể tích hợp liên tục các thông tin, dữ liệu mới vào bộ nhớ trong khi vẫn duy trì

những dif liệu đã được học từ trước Một số thuật toán khai phá dữ liệu liên tục được nghiên cứu nhiều như: SOM, GNG

1.2 Đóng góp của luận văn

Trong luận văn này, chúng tôi tập trung nghiên cứu và phân tích một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim mạch cho bệnh nhân ngoại trú Phươngpháp chẩn đoán được thực hiện qua hai bước Trong bước đầu tiên, dữ liệu lâm sàngcủa bệnh nhân như tuổi, giới tính, huyết áp, có bị tiểu đường hay không, lượng choles-terol trong máu, có hút thuốc hay không được thu thập Tập dữ liệu thu được thườngchứa rất nhiều các thuộc tính được thu thập dưới dạng số nhưng lại không đầy đủ, cónhiều lỗi và kiểu giá trị đặc biệt Mặt khác, trong bước chẩn đoán này, thuật toánApriori được áp dụng để khai phá luật kết hợp cho bệnh tim mạch Thuật toán Aprioriđược đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục, dạng số

Vì vậy, tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ

sở dit liệu Ở giai đoạn tiền xử lý dit liệu, chúng ta thực hiện chuyển đổi dữ liệu dang

số sang dữ liệu rời rac biểu diễn bởi các chỉ mục (items)

Dựa trên tập luật kết hợp mà được khai phá trong quá trình đầu tiên, bác sĩ sẽquyết định những bệnh nhân nào có nguy cơ mắc bệnh cao Những bệnh nhân này

sẽ được chuyển qua bước chẩn đoán kế tiếp Ở bước thứ hai này bệnh nhân sẽ được

chẩn đoán dựa trên tín hiệu điện tâm đồ mà biểu diễn sự thay đổi nhịp tim của bệnh

nhân khi họ thực hiện các hoạt động hàng ngày bằng cách sử dụng một mô hình mạng

nơ-ron nhân tạo Sự thay đổi nhịp tim là một thuộc tính quan trọng để chẩn đoán sớmcác trường hợp đột tử ở người mắc bệnh tim mạch [24] Đầu tiên, tín hiệu điện tâm

đồ được biến đổi thành định dạng véc tơ sử dụng kỹ thuật Poincaré Mục đích chínhcủa bước tiền xử lý dữ liệu là chuyển định dạng thông tin biểu diễn trong không gian

Trang 13

hai chiều bởi phương pháp mã hóa Poincaré về định dạng tương thích với véc tơ đầuvào của mô hình mạng nơ-ron Bên cạnh đó, với cách xử lý và biểu diễn dữ liệu nàykích cỡ của thông tin phần nào được nén lại để phù hợp hơn cho việc xử lý của mangnơ-ron Chính vì vậy thời gian huấn luyện mô hình sẽ trở nên nhanh hơn và làm giảm tính phức tạp của mô hình mạng Thuật toán GNG được áp dụng để nhận biết mẫu thay đổi nhịp tim Đây là một thuật toán khai phá dữ liệu liên tục và có thể học thêmđược những tri thức mới nhưng vẫn duy trì những tri thức cũ đã học GNG bao gồm

ba lớp Lớp đầu vào nhận tín hiệu đầu vào đã qua tiền xử lý Lớp ẩn là một đồ thị, cónhiệm vụ hiệu chỉnh và chuyển dịch không tuyến tính tín hiệu đầu vào Cuối cùng làlớp đầu ra có nhiệm vụ phân không gian đầu ra vào các vùng quyết định Mô hình banđầu được khởi tạo với hai nút tại hai vị trí ngẫu nhiên Khi một mẫu được đưa vào,các nút trong tầng ẩn sẽ cạnh tranh để xác định nút nào khớp nhất với mẫu đầu vào

Sau một số bước huấn luyện, tầng ẩn được cập nhật bằng cách chèn thêm nút mới với

hy vọng sẽ cải thiện hiệu quả của mô hình Các nút với giá trị lỗi cao chính là điềukiện để quyết định việc chèn thêm nút mới Bên cạnh việc chèn thêm nút mới, các nút

mà không có liên kết với nút nào khác sẽ bị xóa đi bởi vì sau một số bước huấn luyệngiá trị lỗi của chúng có rất ít khả năng trở thành giá trị lỗi lớn nhất Điều này dẫn đếnviệc chèn nút mới gần chúng sẽ rất khó xảy ra Quá trình huấn luyện lặp lại cho đếnkhi mô hình thỏa mãn điều kiện dừng như độ hội tụ hay số lượng nút trong mô hình

Sự hội tụ của thuật toán được đánh giá bằng giá trị lỗi bình phương trung bình

Tập dữ liệu sử dụng trong quá trình chẩn đoán đầu tiên được thu thập từ thực tế.Một mau dif liệu thu được gồm 14 thuộc tính như tuổi, giới tính, huyết áp tâm thu,lượng cholesterol trong máu, lượng đường trong máu, các dạng đau ngực, kết quả điệntâm đồ Các thực nghiệm thực hiên trên bộ dữ liệu này có thể đánh giá độ chínhxác của thuật toán và xem xét mức độ ảnh hưởng của tham số đầu vào như minsup,minconf đối với hiệu quả của thuật toán Tập dữ liệu cho bước thứ hai của quá trìnhchẩn đoán được thu thập từ tập các hoạt động, tần suất thở, trạng thái tim mạch Kết

quả thực nghiệm chứng tỏ rằng độ chính xác của thuật toán GNG khá cao với số nút

và số cạnh thấp khi so sánh với mô hình mạng nơ-ron SOM

Luận văn này gồm có 5 chương chính:

e Chương 1: Giới thiệu tổng quan động cơ nghiên cứu và đóng góp của luận văn.

e Chương 2: Giới thiệu bệnh tim mạch và một số hệ thống để chẩn đoán bệnh

Trang 14

tim mạch Trong chương này, chúng tôi cũng giới thiệu qua một số kỹ thuật khaiphá dữ liệu như K-means, Cây quyết định, Mạng Perception nhiều lớp và SOM.

e Chương 3: Giới thiệu tổng quan quá trình chẩn đoán Trong đó, chúng tôi trình

bày chi tiết hai bước của quá trình chẩn đoán bệnh tim mạch dựa trên thuật toán

Apriori và ƠNG.

e Chương 4: Đánh giá thuật toán Apriori trong khai phá luật kết hợp trên tập dữ

liệu về bệnh tim trong bước đầu tiên Sau đó, chúng tôi đánh giá hiệu quả của

thuật toán ƠNG và so sánh với thuật toán SOM trên tập dữ liệu tín hiệu điện

tâm đồ biểu diễn sự thay đổi nhịp tim

e Chương 5: Kết luận

Trang 15

Chương 2

Cơ sở lý thuyết

2.1 Giới thiệu về bệnh tim mach

Trái tim của chúng ta hoạt động như một cái bơm để bơm máu đưa máu đi tới khắp

các mô cơ quan trong cơ thể Để đảm bảo được chức năng bơm máu một cách đều đặnkhoảng 70-80 lần/phút, từ ngày này sang ngày khác, ban thân trái tim cũng được nuôidưỡng bởi một hệ thống mạch máu riêng Hệ thống mạch máu này gọi là hệ mạchvành Danh từ mạch vành để chỉ tình trạng bệnh lý làm cho lòng động mạch vành bị

hẹp lại hoặc tắc nghẽn Khi lòng động mạch vành bị hẹp đến một mức độ nào đó thì

dòng máu đến nuôi tim sẽ không đủ và dẫn đến tình trạng thiếu máu cơ tim Bệnhmạch vành còn có nhiều tên gọi khác như: Thiểu năng vành, suy động mạch vành, thiếu máu cơ tim hay bệnh tim thiếu máu cục bộ [36].

Hinh 2.1: Bénh Tim mach vanh

Trang 16

Nguyên nhan

Nguyên nhân thường gap là do mang xo vữa bám vào lòng mạch, mang xo vữa gây

phản ứng viêm, có thể lớn dần gây hẹp nặng lòng mạch và khi vỡ dễ dẫn đến nhồi máu

cơ tim Ngoài ra một số trường hợp mạch vành bị co thắt gây hẹp mạch vành từng lúc

cũng gây ra triệu chứng đau thắt ngực do thiếu máu cơ tim Nguyên nhân xơ vữa động

mạch thì chưa được xác định rõ ràng tuy nhiên khi nói đến nguyên nhân của bệnh timmạch người ta dùng đến khái niệm "yếu tố nguy cơ" Yếu tố nguy cơ của bệnh timmach là những yếu t6 mà khi hiển diện ở một cá thể nào đó thì làm cho cá thé đó có

tỷ lệ mắc bệnh tim cao hơn cá thể khác Những yếu tố nguy cơ của bệnh tim là: tănghuyết áp, rối loạn lipid máu, hút thuốc lá, béo phì, đái tháo đường, cuộc sống công

việc có nhiều căng thẳng, ít vận động, gia đình có người bị bệnh tim sớm, nam giới,

cao tuổi

Triệu chứng

e Đau ngực: triệu chứng của chứng thiếu máu cơ tim thường hay gặp nhất là đau

ngực Đau khởi phát khi gắng sức, ở ngay sau xương ức, đau nhói, thắt chặt và

lan ra vai trái, cánh tay trái, bàn tay trái Đau giảm đi khi nghỉ ngơi hoặc dùng

thuốc dãn mạch Nếu cơn đau xuất hiện lúc nghỉ ngơi hoặc cơn đau quá trầmtrọng, cơn đau quá 30 phút thì phải nghĩ đến là bệnh nhân bị nhồi máu cơ tim

cap.

e Một số người già, những người bi bệnh tiểu đường, bệnh phổi tắc nghẽn mãn

tính khi mắc bệnh mạch vành có thể không có triệu chứng đau thắt ngực như

trên mà thay vào đó là mệt hoặc khó thở khi gắng sức Những trường hợp đó

gọi là thiếu máu cơ tim yên lặng

Những thăm dò để chẩn đoán bệnh Tim mạch

e Điện tâm đồ lúc nghỉ: thiếu máu cơ tim làm thay đổi điện học của cơ tim và

điện tâm đồ phát hiện ra các thay đổi đó Tuy nhiên, chỉ khoảng 50% bệnh nhân

bị bệnh tim có thay đổi tín hiệu điện tâm đồ

e Siêu âm tim: Tình trạng thiếu máu cơ tim làm ảnh hưởng đến sự co bóp của tim

Những vùng giảm động do thiểu máu cơ tim gây ra sẽ được phát hiện qua siêu

âm tim.

e Điện tâm đồ và Siêu âm tim lúc gắng sức: Nếu lòng động mạch vành chỉ hẹp

nhẹ thì triệu chứng thiếu máu cơ tim chỉ xảy ra khi gắng sức

6

Trang 17

e Xạ hình tưới máu cơ tim: Dùng chất đồng vị phóng xạ bơm vào mạch máu.

Những vùng nào của cơ tim bị thiếu máu nuôi sẽ giảm hoặc không bắt được

đồng vị phóng xa Sau đó, dùng máy Scan để phát hiện các vùng đó

e Chụp động mạch vành chọn lọc: là tiêu chuẩn vàng để chẩn đoán bệnh tim

mạch Thông qua thăm dò này, bác sĩ sẽ biết được tình trạng tim mach của bạn như thé nào.

2.2 Các hệ thong chuẩn đoán bệnh Tim

2.2.1 Các Hệ thống chẩn đoán dựa vào chỉ số nguy cơ mắc bệnh

tim

Nghiên cứu Framingham là một nghiên cứu được tiến hành trên một bộ phân dân cưcủa thị tran Framingham (hạt Middlesex, bang Massachusettes, Hoa kỳ) Dân số banđầu gồm 5029 người đàn ông và phụ nữ khỏe mạnh độ tuổi từ 30 đến 62, được theodõi từ năm 1948 Đến năm 1971, các nhà nghiên cứu tuyển thêm một thé hệ thứ hai làcon của những người tham gia ban đầu cùng với vợ (hoặc chồng) của những người connày Cỡ mẫu nghiên cứu gồm 3969 người đàn ông và 4522 phụ nữ Trong quá trìnhtheo dõi, các nhà nghiên cứu ghi nhận các biến cố tim mạch nặng xảy ra cho nhữngngười tham gia Cùng với một số nghiên cứu dịch té khác, nghiên cứu Framinghamcho phép xác định các yếu tố nguy cơ chính của bệnh tim mạch do xơ vữa động mach:hút thuốc lá, tăng huyết áp, tăng cholesterol, đái tháo đường, HDL thấp

Từ các dữ liệu thu thập được, các nhà nghiên cứu dùng một mô hình toán học đểước tính xác suất bi các biến cô tim mạch trong 10 năm tới của một người dựa vàogiới tính, tuổi, cholesterol toàn phần, HDL, huyết áp tâm thu, tình trạng hút thuốc lá,

có đái tháo đường hay không, có điều trị tăng huyết áp hay không Bước kế tiếp, cácnhà nghiên cứu qui đổi từng khoảng trị số của các biến liên tục (tuổi, huyết áp )thành các điểm Khi cộng tất cả các điểm lại ta có điểm tổng cộng cho từng người vàứng với mỗi điểm tổng cộng là một xác suất ( bị các biến cố tim mạch trong 10 nămtới) tương ứng Hệ thống Framingham xây dựng hai bảng điểm riêng biệt cho nam và

nữ.

Trong hệ thống Framingham phiên bản năm 1998, biến cố được dự báo là sự xuất

hiện của bệnh tim ( đau thắt ngực, nhồi máu cơ tim được nhận biết hoặc không, suy

động mạch vành và chết do bệnh động mạch vành) Các biến được đưa vào bao gồm

7

Trang 18

giới tính, tuổi, cholesterol toàn phan, HDL, huyết áp tâm thu, có đái tháo đường haykhông, có hút thuốc lá hay không Dạng trình bày là cac bảng điểm dành riêng chonam và nữ Trong hệ thống Framingham phiên bản 2008, biến cố được dự báo ngoàibệnh động mạch vành còn có bệnh mạch máu não( đột quy dạng thiếu máu cục bộ,đột quy dạng xuất huyết, cơn thiếu máu não thoáng qua), bệnh động mạch ngoại vi(khập khiéng cách hồi) và suy tim.

Hệ thống chẩn đoán nguy cơ mắc bệnh tim mạch cho các nước Châu âu

(SCORE) được xây dung từ số liệu của 12 nghiên cứu đoàn hệ ở các nước Châu âu(khoảng 2,1 triệu người theo dõi), hầu hết được thực hiện trong dân số chung Các biếnđược đưa vào hệ thống SCORE gồm: giới tính, tuổi, cholesterol toàn phần, Huyết áptâm thu, có hút thuốc lá hay không( người đái tháo đường được xếp vào nhóm có nguy

cơ cao hoặc rất cao, không cần phải ước tính nguy cơ theo SCORE) Biến có được dựbáo là chết do nguyên nhân tim mạch gồm tất cả các trường hợp chết vì một bệnh timmạch có nguồn gốc xơ vữa động mạch: nhồi máu cơ tim, đột quy, phình động machchủ Việc dùng biến cố này có lợi điểm là dễ chuẩn hóa Dạng trình bày là biểu đồmàu, có hai biểu đồ riêng cho nhóm các nước có tử vong tim mạch thấp va các nước

có tử vong tim mạch cao.

Hệ thống chẩn đoán chẩn đoán bệnh tim mạch của Hiệp hội tim mạch Hoa

Ky (Pooled Cohort Equations - PCE) do nhóm chuyên gia thuộc Trường Tim Mach

và Hiệp hội Tim Hoa Kỳ đưa ra năm 2013 Nhóm chuyên gia này tập hợp số liệu các

nghiên cứu đoàn hệ cộng đồng trên những người Mỹ gốc Phi và Mỹ da trắng không

phải gốc Latinh được theo dõi ít nhất 12 năm Biến cô kết cục của hệ thống là chết

do bệnh động mạch vành, nhồi máu cơ tim nhưng không chết, đột quy hoặc đột quynhưng không chết Các biến được đưa vào hệ thống bao gồm: giới tính, tuổi, chủngtộc, cholesterol toàn phan, HDL, huyết áp tâm thu, có đang điều tri tăng huyết áp haykhông, có đái tháo đường hay không, có hút thuốc lá hay không

Nghiên cứu của Reynolds được xây dựng từ số liệu của 2 thử nghiệm lâm sàng làNghiên cứu về sức khỏe phụ nữ( Women Health Studay - 24.558 phụ nữ là nhân viên

y tế) và Nghiên cứu về sức khỏe thầy thuốc (Physician's Health Study - 10724 bác sĩnam), với biến cỗ được dự báo là nhồi máu cơ tim, đột quy, tái tưới máu mạch vành

và chết do nguyên nhân tim mạch Các biến được đưa vào là giới tính, tuổi, huyết áp

tâm thu, cholesterol toàn phần, HDL, có hút thuốc lá hay không, có tiền sử gia đình

mắc nhồi máu cơ tim sớm, HbA,,, hsC RP

Trang 19

Dân số chung ở Hoa

Ky, tuỗi 40-79

Dân số chung ở Châu Âu, tuỗi 40-65

mạch vành

Xác suất 10 năm chết do bệnh mạch

xơ vữa động mạch)

Xác suất 10 năm mắc NMCT, đột quị,

tái tưới máu mạch

áp, dai thao đường,

Ghi chú:NMCT = nhồi mau cơ tim; HATT = huyết ap tâm thu; NCEP ATP = National Cholesterol Education Program Adult Treatment

Panel; CCS = Canadian Cardiovascular Society, ACC/AHA = American College of Cardiology/American Heart Association.

Hình 2.2: Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch

2.2.2 Hệ thong hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ

thuật khai phá dữ liệu

Ngày nay, các bệnh viện đều lưu trữ và quản lý thông tin về tình hình sức khỏe củabệnh nhân trên các hệ thống thông tin Những hệ thống này chứa một lượng lớn dữliệu, trong đó có rất nhiều thông tin hữu ích chưa được khai phá để hỗ trợ cho bác sĩtrong việc chuẩn đoán, cũng như dự đoán tình trạng của bệnh nhân Với sự phát triểncủa khoa học máy tính và các kỹ thuật khai phá dữ liệu, có nhiều nghiên cứu và hệ

thống hỗ trợ chẩn đoán sớm nguy cơ mắc bệnh tim mạch đã được thực hiện Những

hệ thống đó áp dụng nhiều kỹ thuật khai phá dữ liệu khác nhau và thu được các kếtquả khác nhau Dưới đây là một số hệ thống và nghiên cứu trong khai phá dữ liệu đểchẩn đoán bệnh tim mạch.

e Hệ thống dự đoán bệnh tim thông minh (IHDPS) được phát triển dựa trên các

kỹ thuật khai phá dữ liệu như cây quyết định, mạng Nơron, Naive Bayes Hệthống được xây dựng bởi Sellappan Palaniappan và các đồng sự vào năm 2008

9

Trang 20

Hệ thống là một ứng dụng Web, dễ sử dụng và mở rộng [29]

e Hệ thống dự đoán bệnh tim, huyết áp và tiểu đường với kỹ thuật mạng Nơron,

được xây dựng bởi Niti Guru và đồng sự năm 2007

e Nghiên cứu chuẩn đoán bệnh tim (CANEIS) dựa trên hệ suy diễn mờ được thực

hiện bởi LathaParthipan năm 2008

e Kiyong Noh và các đồng sự đã sử dụng phương pháp phân lớp để rút ra những

đặc trưng hữu ích bằng cách đánh giá sự thay đổi nhịp tim từ tín hiệu điện tâm

đồ, tiền xử lý dữ liệu và các dữ liệu về bệnh tim năm 2006

2.3 Một số thuật toán khai phá dữ liệu

2.3.1 K-means

Thuật toán phân cụm k-means do MacQueen để xuất trong lĩnh vực thống kê năm

1967, mục dich của thuật toán k-means là sinh ra k cum dif liệu C1, Ca, , Cy, từ một

tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều X; = (#1, ở;a, , Via)(4 =1 n) sao cho hàm tiêu chuẩn

k

E=À ` D?(—mị) (2.1)

i=1 z€Ớ;

dat giá trị tối thiểu Trong đó, rn; là trọng tâm của cụm C;, 7 là khoảng cách giữa

hai đối tượng

Trọng tâm của một cụm là một véc tơ, trong đó giá trị của mỗi phần tử của nó là

trung bình cộng các thành phần tương ứng của các đối tượng véc tơ dif liệu trong cụm

đang xét Tham số đầu vào của thuật toán là số cụm k, tập CSDL gồm n phần tử va

tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng

cách giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide, bởi

vì đây là mô hình khoảng cách dễ lấy đạo hàm và xác định các cực trị tối thiểu Hàm

tiêu chuẩn và độ đo khoảng cách có thể được xác định cụ thể hơn tùy vào ứng dụng

hoặc các quan điểm của người dùng [7]

Thuật toán k-means được chứng minh là hội tụ và có độ phức tạp tính toán là

O(n.k.d) Nhu vậy, do thuật toán k-means phân tích phân cụm đơn giản nên có thé

áp dụng đối với tập dữ liệu lớn Tuy nhiên, nhược điểm của k-means là chỉ áp dụng

10

Trang 21

Algorithm 1 Thuật toán K-MEAN

3.Cập nhật lại trong tâm Đối với mỗi 7 = 1 k cập nhật lại trọng tâm cụm m, bằng

cách xác định trung bình cộng của các vector đối tượng dữ liệu

4.Điều kiện dừng:

Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi

với dữ liệu có thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-means cònrất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Hình 2.3 diễn tả môphỏng về một số hình dạng cụm dữ liệu khám phá được bởi k-means:

Hình 2.3: Cụm dữ liệu khai phá bởi K-mean

Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k-means phụ thuộc nhiềuvào các tham số đầu vào như: số cụm k và k trọng tâm khởi tao ban đầu Trong trườnghợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiênthì kết quả phân cụm của k-means có độ chính xác là rất thấp, nghĩa là các cụm difliệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa

có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sửdụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháptốt nhất

11

Trang 22

2.3.2 Cây quyết định

Cây quyết định là một kiểu mô hình dự báo, nghĩa là một ánh xạ từ các quan sát vềmột sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Cấutrúc của một cây quyết định bao gồm các nút và các nhánh Nút dưới cùng được gọi là

nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là

nhãn) Các nút khác nút lá được gọi là các nút con, đây còn là các thuộc tính của tập

dif liệu, hiển nhiên các thuộc tinh này phải khác thuộc tính phân lớp Mỗi một nhánhcủa cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên miễn giá trịcủa nút đó Nút đầu tiên được gọi là nút gốc của cây Xem xét một ví dụ về một câyquyết định như sau:

Outlook Temp Humidity Windy Play

Sunny Hot High False No

Sunny Hot High True No

Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No

Overcast Cool Normal True Yes

Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes

Rainy Mild High True No

high normal stro! weak

(oso, D8} {D9, D11} {D6, D14} {D4, D5, D10}

no yes

/

no yes

Hinh 2.5: Cay quyét dinh

Cây quyết định của ví dụ trên Hình 2.5 có thé được giải thích như sau: các nút lá

chứa các giá trị của thuộc tính phân lớp Các nút con tương ứng với các thuộc tính

12

Trang 23

khác thuộc tính phân lớp Nút gốc cũng được xem như một nút con đặc biệt Cácnhánh của cây từ một nút bất kỳ tương đương một phép so sánh có thể là so sánh

bằng, so sánh khác, lớn hơn nhỏ hơn Nhưng kết quả các phép so sánh này bắt buộc

phải thể hiện một giá trị logic (đúng hoặc sai) dựa trên một giá trị nào đó của thuộctính của nút Lưu ý cây quyết định trên không có sự tham gia của một số thuộc tínhtrong thành phần cây, các thuộc tính như vậy được gọi chung là các thuộc tính dư thừabởi vì các thuộc tính này không ảnh hưởng đến quá trình xây dựng mô hình của cây

Các thuộc tính tham gia vào quá trình phân lớp thông thường có các giá tri liên

tục hay còn gọi là kiểu số hoặc kiểu rời rac hay còn gọi là kiểu dif liệu phân loại Ví

dụ kiểu dữ liệu lương biểu diễn bằng số thực là kiểu dữ liệu liên tục, kiểu dữ liệu giới

tính là kiểu dữ liệu rời rạc.

Algorithm 2 Thuật toán Cây quyết định

1 Bắt đầu từ nút đơn biểu diễn tất cả các mẫu

2 Nếu các mẫu thuộc cùng một lớp, nút trở thành nút lá và được gán nhãn bằng lớp

đó.

3 Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu

vào các lớp

4 Một nhánh được tạo cho từng giá trị của thuộc tính được chọn và các mẫu được

phân hoạch theo.

5 Dùng đệ quy cùng một quá trình để tạo cây quyết định.

6 Tiến trình kết thúc chỉ khi một trong các điểu kiện sau đây là đúng.

e Tat cả các mẫu của một nút cho trước đều thuộc về cùng một lớp

e Không còn một mẫu nào mà có thể dựa vào để phân hoạch xa hơn

Thuật toán cây quyết định có một số điểm mạnh như sau:

e Cây quyết định có thể tự giải thích và khi được gắn kết lại, chúng có thể dé dang

tự sinh ra Nói cách khác, nếu cây quyết định mà có số lượng nút lá vừa phải thìngười không chuyên cũng dễ dàng hiểu được nó Hơn nữa, cây quyết định cũng

có thể chuyển sang tập luật Vì vậy, cây quyết định được xem như là dễ hiểu

e Cây quyết định có thể xử lý cả thuộc tính tên và số đầu vào

e Thể hiện của cây quyết định là đủ đa dạng để biểu diễn cho bắt kỳ giá trị rời rạc

nào.

13

Trang 24

e Cây quyết định có khả năng xử lý các bộ dữ liệu mà có thể gây ra lỗi.

e Cây quyết định có khả năng xử lý các bộ dữ liệu mà có giá trị rỗng

e Cây quyết định được xem như là một phương pháp phi tham số Điều này có

nghĩa là cây quyết định không có giả định về sự phân chia bộ nhớ và cấu trúc

phân lớp.

Bên cạnh đó, cây quyết định cũng có một số hạn chế sau:

e Hầu hết các thuật toán xây dựng cây quyết định (như ID3 hoặc C4.5) bắt buộc

các thuộc tính mục tiêu phải là các giá tri rời rac.

e Khi cây quyết định sử dụng phương pháp “chia để trị”, chúng có thể thực hiện

tốt néu tồn tại một số thuộc tính liên quan chặt chẽ với nhau, nhưng sẽ khó khănnếu một số tương tác phức tạp xuất hiện Một trong những nguyên nhân gây

ra điều này là những sự phân lớp mà có mô tả rất mạch lạc về việc phân lớp

cũng có thể gặp khó khăn trong việc biểu diễn bằng cây quyết định Một minh

họa đơn giản của hiện tượng này là vấn để tái tạo cây quyết định (Pagallo vàHuassler, 1990) Khi mà hầu hết các cây quyết định phân chia không gian thểhiện thành những khu vực loại trừ lẫn nhau để biểu diễn một khái niệm Trong

một số trường hợp, cây nên chứa một vài cây con giống nhau trong thứ tự thể

hiện của việc phân lớp.

2.3.3 Thuật toán Mang Perceptron nhiều lớp

2.3.3.1 Mạng Perceptron một lớp

Mang perceptron một lớp do F.Rosenblatt dé xuất năm 1960 [16] là mạng truyền

thẳng chỉ một lớp vào và một lớp ra không có lớp ẩn Trên mỗi lớp này có thể có một

hoặc nhiều nơ-ron Mô hình mạng nơ-ron của Rosenblatt sử dụng hàm ngưỡng đóng vai trò là hàm chuyển Do đó, tổng của các tín hiệu vào lớn hơn giá trị ngưỡng thì giá

trị đầu ra của nơ-ron sẽ là 1, còn trái lại sẽ là 0.

Trang 25

Một đối tượng sẽ được nơ-ron ¡ phân vào lớp A nếu

Tổng thông tin đầu vào: Ð ˆ+0;;#; > 0;

Trong đó w;; là trọng số liên kết từ no-ron 7 tới nơ-ron i, x; là đầu vào từ nơ-ron

7, và 6 là ngưỡng của nơ-ron i Trong trường hợp trái lại, đối tượng sẽ được phân vào

lớp B.

Việc huấn luyện mạng dựa trên phương pháp học có giám sát với tập mẫu học là

{(zt), 48), = 1,2, ,p Trong đó, dŒ) = [da , đ, dị ”]7 là đầu ra quan sát

| (k) (Rk) ()7

ứng với đầu vào x") = [x}"),a5"”, ,2m’ |" (với m là số đầu vào, n là số đầu ra, và p

là cặp mẫu đầu vào-đầu ra dùng cho việc học) Như vậy chúng ta mong rằng sau quá

trình huấn luyện, đầu ra tính toán được ¡` = lụt ) ys, " yr sẽ bằng với dau ra

của mẫu học đ#)

Yi = g(wuƑzŒ®)) = of mya" )=d 6 =1,2, n:k=1,2, p (2.2)

Đầu ra tinh toan Đầu ra mong muốn

(Wim = 84, Wom = 2, Wan = Đa }

Hình 2.6: Mang Perceptron một lớp

Để bắt đầu quá trình huấn luyện mô hình mạng, các trọng số được gán giá trị ngẫu

nhiên trong khoảng [-3, 3] Sau đó hiệu chỉnh các trọng số cho phù hợp với mẫu huấn

luyện để làm giảm sai số giữa y“) và äŒ)

Các bước tiễn hành:

e Xác định ngẫu nhiên bộ trọng số.

e Với mỗi mẫu huấn luyện (2), đ*)),k = 1,2, ,p thực hiện các bước:

15

Trang 26

— Tính giá tri y*) theo công thức

— Xác định sai số 6; tại nơ-ron i: 6; = d; — y;, trong đó d; là giá trị đầu ra

quan sát được và y; là giá trị đầu ra tính toán tại nơ-ron thứ i

— Tính Aw,; là số gia của trọng số w;; (trọng số liên kết giữa đầu vào j tới

nơ-ron i) theo công thức Aw;; = 76;2; trong đó 7 là tốc độ huấn luyện

(0 << 1).

— Hiệu chỉnh wir) = wi) + Awy = wi) + 70,0? trong đó w

trọng số sau khi điều chỉnh ở lần huấn luyện tại thời điểm ¿

(+1) 4s

ij la

Rosenblatt đã chứng minh rang quá trình huấn luyện của mang perceptron sẽ hội

tụ tới bộ trọng số W, biểu diễn đúng các mẫu học với điều kiện là các mẫu này biểuthị các điểm rời rac của một hàm khả tách tuyến tính nào đó (ƒ : R" > R được gọi làkhả tách tuyến tính nếu các tập F~!(z„) với x, thuộc miễn giá trị của ƒ, có thể tách

được với nhau bởi các siêu phẳng trong không gian R")

Năm 1969, Minsky và Papert đã chứng minh một cách chặt chẽ rằng lớp hàm thể

hiện sự phụ thuộc giữa đầu vào và đầu ra có thể huấn luyện bởi mạng Perceptron mộtlớp là lớp hàm khả tách tuyến tính Kha tách tuyến tính là trường hợp tồn tại một mặt

siêu phẳng để phân cách tất cả các đối tượng của một lớp này với một lớp khác, ví dụ

một mặt phẳng sẽ phân chia không gian ba chiều thành hai vùng riêng biệt Mở rộng

ra, nêu có đầu vào , n > 2 thì công thức S31 Wij] = 9; tạo nên một siêu phẳng

có — 1 chiều trong không gian n chiều, nó chia không gian đó thành hai nửa Trongnhiều bài toán thực tế đòi hỏi chia các vùng của các điểm trong một siêu không gian

thành các lớp riêng biệt Loại bài toán này gọi là bài toán phân lớp Bài toán phân lớp

có thể giải quyết bằng cách tìm các tham số thích hợp cho một siêu phẳng để nó có

thể chia không gian n chiều thành các vùng riêng biệt Với tinh chất của như đã nêutrên, mạng perceptron một lớp có thể mô tả các hàm logic như AND, OR và NOT Tuy nhiên nó không thể hiện được hàm XOR Như vậy chứng tỏ mô hình perceptronmột lớp không thể giải quyết bài toán này Vấn đề này sẽ được giải quyết bằng môhình mạng nơ-ron perceptron nhiễu lớp.

2.3.3.2 Mang Perceptron lan truyền thẳng nhiều lớp

Mang perceptron nhiều lớp (Multilayer Perceptron -MLP) còn được gọi là mạng

truyền thẳng nhiều lớp là sự mở rộng của mô hình mạng perceptron với sự bổ sung

thêm những lớp ẩn và các nơ-ron trong các lớp ẩn này có hàm kích hoạt dạng phi

16

Trang 27

tuyến Mạng MLP có một lớp ẩn là mạng nơ-ron nhân tạo được sử dụng phổ biếnnhất, nó có thể xấp xỉ các hàm liên tục được định nghĩa trên một miễn có giới hạncũng như những hàm là tập hợp hữu hạn của các điểm rời rạc.

Thuật toán học theo phương pháp lan truyền ngược sai số Thuật toán học theo

phương pháp lan truyền ngược sai số do Rumelhart và các cộng sự [27] đề xuất là mộttrong số những kết quả nghiên cứu quan trọng nhất đối với sự phát triển của mạng

nơ-ron nhân tạo Thuật toán này được áp dụng cho mạng truyền thắng nhiều lớp trong

đó các nơ-ron có thể sử dụng các hàm chuyển là các hàm liên tục có các dạng khác

nhau Thuật toán sử dụng một tập các mẫu gồm các cặp đầu vào - đầu ra để huấn

luyện mạng Với mỗi cặp đầu vào - đầu ra (+), đ#)) thuật toán lan truyền ngược sai

số thực hiện hai giai đoạn sau:

e Giai đoạn thứ nhất, mẫu đầu vào x“) được truyền từ lớp vào tới lớp ra, và ta có

kết quả đầu ra tính toán được là y*)

e Giai đoạn tiếp theo, tín hiệu lỗi được tính toán từ sự khác nhau giữa đầu ra quan

sát được đ#) với đầu ra tính toán #®) sẽ được lan truyền ngược lại từ lớp ra đến

các lớp trước để điều chỉnh các trọng số của mạng Để làm ví dụ ta xét mạng

truyền thẳng có một lớp ẩn dưới đây, đối với các mạng có kích thước lớn hơnthì thao tác cũng tương tự.

Mạng no-ron được xét có n nơ-ron ở lớp vào, nơd-ron trong lớp ẩn và nơ-ron ở lớp

ra Đường kẻ liền thể hiện luồng tín hiệu được truyền từ đầu vào tới đầu ra còn cácđường kẻ nét đứt thể hiện luồng tín hiệu lỗi được truyền ngược trở lại từ đầu ra

Chúng ta xét một cặp đầu vào - đầu ra để huấn luyện mang (z, d), để đơn giảnchúng ta bỏ ký hiệu mũ k thể hiện số thứ tự của cặp mẫu này trong bộ mẫu dùng đểhuấn luyện mạng Khi đưa vào đầu vào x, nơ-ron thứ ø trong lớp ẩn sẽ nhận tín hiệu

Trang 28

Hình 2.7: Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan truyền ngược sai số

Do đó tín hiệu vào của nơ-ron thứ 7 trên lớp sẽ ra là:

Công thức trên cho biết quá trình lan truyền tín hiệu từ dau vào qua lớp ẩn tới đầu

ra Tiếp theo chúng ta xét tín hiệu lỗi được lan truyền ngược lại từ lớp ra Trước hết,đối với mỗi cặp giá trị vào — ra chúng ta xây dựng một hàm giá như sau:

Nhu vậy với một tập gồm p mẫu huấn luyện, chúng ta lần lượt xây dựng được phàm giá như vậy Việc học của mạng hay nhiệm vụ của giải thuật thực chất là tìm kiếm tập trọng số W trong không gian RTM (A/ là số trọng số có trong mang) để lần

18

Trang 29

lượt tối thiểu hoá các hàm giá như vậy Điều đáng chú ý là việc tối thiểu hoá được tiếnhành liên tiếp nhau và theo chu kỳ đối với các hàm giá Để tối thiểu hàm giá như vậy,giải thuật lan truyền ngược sai số sử dụng phương pháp giảm Gradient để điều chỉnhcác trọng số liên kết giữa các nơ-ron.

2.3.4 SOM

Thuật toán SOM (Self Organizing Map) được giáo su Teuvo Kohonen phát triển vào

những năm 80, là một công cụ thích hợp trong khai phá dữ liệu [6, 32] SOM là một

mô hình mạng nơ-ron nhân tạo, được huấn luyện sử dụng kỹ thuật học không giám sát

để biểu diễn dữ liệu với số chiều thấp hơn nhiều (thường là 2 chiều) so với dữ liệu đầuvào đa chiều (thường số chiều lớn) Kết quả của SOM gọi là bản đồ Mô hình mạng

nơ-ron SOM khác với các mô hình mạng nơ-ron nhân tạo khác là không sử dụng các

lớp ẩn mà chỉ sử dụng lớp đầu vào và lớp đầu ra SOM sử dụng khái niệm lân cận đểgiữ lại đặc trưng của các dữ liệu đầu vào trên bản đồ (có nghĩa là các mẫu huấn luyệntương tự nhau thì được đặt gần nhau trên bản đồ) Ưu điểm chính của SOM là biểudiễn trực quan dữ liệu đa chiều vào không gian ít chiều hơn (thường là 2 chiều) và đặctrưng của dif liệu đầu vào được giữ lại trên bản đồ

Không gian ban đầu

Hình 2.8: Mô hình SOM

Kiến trúc của SOM

e Lớp đầu ra gồm các nơ-ron được bố trí trên một lưới (bản đồ) kích thước

X x Y.Mỗi nơ-ron có vị trí xác định trên lưới, tại mỗi nơ-ron lưu giữ một véc

tơ trọng sô có sô chiêu bang với sô chiêu của véc tơ đầu vào.

e Ma trận trọng sô :u;; kêt noi giữa véc tơ đầu vào và các nơ-ron.

19

Trang 30

Hình 2.9: Ma trận trọng số

Thuật toán SOM

Xét một tập dif liệu là các véc tơ trong không gian n chiéu:

— T R”

% = [#1,#2, ,®n| ` €

Thông thường SOM gồm n nơ-ron nằm trong một lưới (thường có kích thước 2 chiêu)

Một no-ron thứ 7 là một véc tơ mẫu có kích thước p:

: = mm, len

m= [tmai, ma, ca Mip| =

Các nơ-ron trong lưới có liên kết đến các nút lân cận bằng một quan hệ láng giéng

Các láng giềng liền kể là các nơ-ron lận cận tùy theo bán kính lân cận của nơ-ron thứ ¡

N;(đ) = 7, dị; < d, với d là bán kính lân cận.

Các nút lận cận tùy thuộc vào bán kính, được sắp xếp trong lưới theo hình chữ

nhật hoặc lục giác Số các lân cận xác định ma trận trọng tâm của kết quả, có ảnhhưởng đến độ chính xác và khả năng sinh ma trận của SOM

Hình 2.10: Các lân cận

20

Trang 31

Trong thuật toán SOM, các quan hệ hình học và số các nơ-ron là cố định ngay

từ đầu Số lượng nơ-ron thường được chọn đủ lớn nếu có thể, bằng cách điều khiển

kích thước cho phù hợp Nếu kích thước lân cận được lựa chọn là phù hợp thì ma trậnkhông bị mất mát thông tin nhiều ngay cả khi số các nơ-ron vượt quá số các véc tơđầu vào Tuy nhiên, nếu kích thước của ma trận tăng, ví dụ đến mười nghìn nơ-ron thìquá trình huấn luyện trở nên nặng nề vì việc tính toán sẽ không còn hợp lý cho phần

lớn các ứng dụng.

Trước khi huấn luyện các giá trị ban đầu được đưa ra là các véc tơ trọng số SOM

là thuật toán không phụ thuộc nhiều đối với dữ liệu ban đầu( dữ liệu có thể bị thiếu), nhưng thuật toán SOM vẫn hội tụ nhanh Có ba thủ tục khởi tạo điển hình sau:

e Khởi tạo ngẫu nhiên: véc tơ trong số ban dau được gan giá trị là các giá trị ngẫu

nhiên đủ nhỏ.

e Khởi tạo ví dụ: véc tơ trọng số ban đầu được gắn với các mẫu ngẫu nhiên rút ra

từ tập dữ liệu.

e Khởi tạo tuyến tính: véc tơ trọng số ban đầu được gắn trong một không gian con

tuyến tính bởi hai véc tơ của tập dữ liệu ban đầu

Trong mỗi bước huấn luyện, chọn ngẫu nhiên một véc tơ ví du x trong tập dữ liệuban dau Tính toán khoảng cách giữa x đến tất cả các véc tơ mẫu, trong đó e là đơn vị

có mẫu gần z nhất gọi là nơ-ron khớp nhất), được xác định như sau:

l# — mel] = min {|[# — m¿||}

với ||.|| là độ đo khoảng cách.

Sau khi tìm được nơ-ron khớp nhất, véc tơ trọng số của SOM được cập nhập lại.véc tơ trọng số của nơ-ron khớp nhất và các lân cận hình thái của nó di chuyển dầnđến véc tơ trong không gian đầu vào Thủ tục cập nhập này trải dài theo nơ-ron khớpnhất và các hình trạng lân cận của nó về phía véc tơ ví dụ

SOM cập nhập luật cho vectơ trọng số của đơn vị thứ i là:

mi(t + 1) = mi(t) + a(t)hei(t) [x — mi(t)] (2.7)

Trong đó:

e í: là thời gian

21

Trang 32

e x: là véc tơ đầu vào ngẫu nhiên rút ra từ tập dữ liệu đầu vào tại thời điểm £

e a(t): là hệ số ty lệ học.

e h„;(£): là nhân lân cận quanh c tại thời điểm ¢, là hàm lân cận Gauss.

Nhân lân cận xác định vùng ảnh hưởng mà ví dụ đầu vào có trong SOM Nhân được thể hiện gồm hai phan: hàm lân cận h(t, đ) và hàm tỉ lệ học a(t):

hei(t) = h.( [re — rill ,t) a(t) (2.8)

VỚI 7, 7; là các vi tri ndron 2 và c.

Ham lân cận đơn giản nhất đó là hàm nổi bot: nó gồm toàn bộ lân cận của đơn vị

chiến thắng và bằng không nếu ngược lại (Hình 2.12) Ngoài ra, còn có hàm lân cậnGauxo.

Ham lân cận Gauss cho ra kết quả tốt hon, nhưng việc tinh toán lại nặng nề hơn.Thường thì ban đầu bán kính lân cận lớn và giảm dần xuống 1 trong suốt quá trìnhhuấn luyện Tỷ lệ học a(t) là một hàm giảm dan theo thời gian Hai mẫu dùng phổbiến là hàm tuyến tính và hàm nghịch đảo theo thời gian:

Trang 33

là thiết lập SOM theo hình trạng tốt hơn trong khuôn khổ của tập dữ liệu hoặc thựchiện kết quả lượng tử hóa tốt hơn.

23

Trang 34

Chương 3

Quá trình chan đoán bệnh tim

dựa trên ky thuật khai pha du

liêu

3.1 Tong quan quá trình chan đoán

Làm thế nào để chẩn đoán bệnh Tim? Thực tế cho thấy, khó có thể xác định được

bệnh nhân có nguy cơ mắc bệnh tim hay không khi chỉ thông qua một xét nghiệm

Việc chẩn đoán bệnh tim có thể dựa trên các thông tin lâm sàng (tuổi, giới tính, huyết

áp, có hút thuốc lá hay không, có bị tiểu đường hay không ) và các triệu chứng.

Tuy nhiên, việc đánh giá dựa trên những thông tin lâm sàng không hoàn toàn chính

xác Do vậy, việc chẩn đoán bệnh tim còn được thực hiện dựa vào đánh giá và phântích dữ liệu về sự thay đổi nhịp tim Đây chính là thuộc tính rất quan trọng trong chẩn

đoán bệnh tim mach [1] Trong khi các thông tin lâm sàng là dữ liệu tinh và rời rac,

thi sự thay đổi nhịp tim trong một giai đoạn thì thay đổi theo thời gian Dựa vào cácthuộc tính khác nhau của yếu tố nguy cơ, quá trình chẩn đoán bệnh tim có thể đượcchia ra thành hai bước kiểm tra Bước đầu tiên, các kỹ thuật khai phá dữ liệu cơ bảnnhư cây quyết định, khai phá luật kết hợp có thể được áp dụng trên các thông tinlâm sàng để nhóm các đối tượng vào các lớp khác nhau theo mức độ của sự rủi ro (có

bệnh hoặc không) Ở bước sau, dữ liệu về sự biến đổi của nhịp tim sẽ được khai phá

theo thời gian thực.

Hình 3.1 mô tả tổng quan của quá trình chẩn đoán bệnh tim mạch Ở bước chẩn

24

Trang 35

Hình 3.1: Tổng quan hệ thống quá trình chẩn đoán bệnh tim

đoán đầu tiên thuật toán Apriori được áp dụng để khai phá luật kết hợp cho bệnh timdựa trên các thông tin lâm sàng của bệnh nhân Sau bước này, dựa trên kết quả thu

được, bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ mắc bệnh tim mạch cao

Nhóm bệnh nhân này tiếp tục được chuyển qua bước thứ hai của quá trình chẩn đoán

Ở bước thứ hai này, Kỹ thuật Poincaré và thuật toán GNG được áp dụng để chẩn đoán

dựa trên sự thay đổi nhịp tim khi bệnh nhân thực hiện các hoạt động hàng ngày.

3.2 Chan đoán bệnh Tim mạch dựa trên các thông tin

lâm sàng

Trong phần này, chúng tôi sẽ trình bày chỉ tiết bước đầu tiên của quá trình chẩn đoánbệnh tim Bước chẩn đoán này dựa trên các thông tin lâm sàng của bệnh nhân và sửdụng thuật toán Apriori để khai phá luật kết hợp cho bệnh tim

Hình 3.2 mô tả tiến trình chẩn đoán bệnh tim ở bước thứ nhất Đầu tiên, dữ liệulâm sàng của bệnh nhân được thu thập Sau đó, dữ liệu được tiền xử lý cho phù hợp

với định dạng đầu vào của thuật toán Apriori Ở bước này, thuật toán Apriori được áp

25

Trang 36

Hình 3.2: Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân

dụng để khai phá luật kết hợp cho tập dữ liệu đã qua tiền xử lý Kết quả cuối cùng, ta

có một tập luật kết hợp để hỗ trợ cho quá trình chẩn đoán bệnh tim

3.2.1 Tiền xử lý Dữ liệu

Dữ liệu được thu trực tiếp từ các thiết bị hay do bệnh nhân cung cấp dựa trên nhữngquan sát và cảm nhận Đối với bệnh tim thì một mẫu dữ liệu thu được gồm 14 thuộc

tính được mô tả như trong Bang 3.1.

Các tập dữ liệu thu được thường chứa rất nhiều các thuộc tính được thu thập dưới dang số nhưng lại không đầy đủ, có nhiều lỗi và kiểu giá trị đặc biệt Vì vậy, giai đoạnthu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức

từ cơ sở dữ liệu Thuật toán Apriori được dé xuất cho dữ liệu rời rac nên không thể

áp dụng cho dữ liệu liên tục dạng số Mỗi giá trị dữ liệu rời rac được gọi là một item.

Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dif liệu dạng số sang dữ

liệu rời rạc biểu diễn bởi các items Bảng 3.2 sau mô tả quy tắc chuyển đổi dạng số

sang dạng đữ liệu rời rạc.

3.2.2 Các khái niệm và định nghĩa

Trước khi mô tả thuật toán, phần này giới thiệu một số định nghĩa, khái niệm và dữliệu được sử dụng trong thuật toán tìm luật kết hợp Apriori

26

Tiêu đề	Một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú
Tác giả	Bùi Xuân Trọng
Người hướng dẫn	Tiến Sĩ. Vũ Thị Hồng Nhạn
Trường học	Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	72
Dung lượng	20,07 MB