1.2 Đóng góp của luận văn Trong luận văn này, chúng tôi tập trung nghiên cứu và phân tích một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim mạch cho bệnh nhân ngoại trú.. Cá
Trang 1ĐẠI HOC QUOC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI XUÂN TRỌNG
LUẬN VĂN THAC SĨ CÔNG NGHỆ THONG TIN
HÀ NỘI, NĂM 2015
Trang 2ĐẠI HOC QUOC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI XUÂN TRỌNG
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TIEN SĨ VŨ THỊ HỒNG NHẠN
HÀ NỘI, NĂM 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi, dưới sự hướng dẫn
của Tiến sĩ Vũ Thị Hồng Nhạn Luận văn này không sao chép từ của ai hay từ bất kỳ luận văn nào khác Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước nhà trường và pháp
luật.
BÙI XUÂN TRỌNG
Trang 4LỜI CAM GN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Vũ Thi Hồng Nhan, cô đã
hướng dẫn, chỉ dạy tận tình để tôi có thể hoàn thành luận văn này Tôi
cũng xin chân thành cảm ơn các thay, cô giáo khoa Công nghệ thông tin Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền thụ kiếnthức cho tôi trong suốt quá trình học tập
-Tôi cũng muốn bày tỏ lòng biết ơn của mình tới gia đình, người thân vàđồng nghiệp đã động viên, khích lệ, giúp đố, tạo mọi điều kiện để tôi
hoàn thành khóa học và luận văn này.
Trang 5TÓM TẮT
Bệnh tim mạch là một trong những nguyên nhân gây tử vong cao nhất hiện nay Với sự phát triển của Công nghệ, người ta có thể sử dụng cácthiết bị không dây, thiết bị cảm ứng tích hợp trên cơ người để thu thậpliên tục dif liệu về tình trạng sức khỏe của bệnh nhân nội trú cũng nhưngoại trú Trong luận văn này, chúng tôi nghiên cứu một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú.Quá trình chẩn đoán được thực hiện qua hai bước Trong bước thứ nhất,
bệnh nhân được chẩn đoán về nguy cơ mắc bệnh dựa vào luật kết hợp
Luật kết hợp được tìm ra dựa vào dữ liệu lâm sàng Dữ liệu lâm sàng củabệnh nhân được tiền xử lý và sau đó được khai phá để tìm luật kết hợpdựa trên thuật toán Apriori Sau bước này, dựa trên kết quả chẩn đoán,bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ bị bệnh tim mạch
cao sẽ tiếp tục được chẩn đoán thêm ở bước sau Ở bước chẩn đoán thứ
hai này sẽ áp dụng thuật toán GNG trên tập dữ liệu về sự thay đổi nhịptim Dữ liệu điện tâm đồ biểu diễn sự thay đổi nhịp tim của bệnh nhân
được thu trong các hoạt động hằng ngày Tín hiệu điện tâm đồ được tiền
xử lý dựa trên kỹ thuật Poincaré để chuyển sang định dạng của véc tơ đầuvào Thuật toán GNG được áp dụng để khai phá dữ liệu đã được tiền xử
lý Thuật toán này đáp ứng được yêu cầu của việc học liên tục và GNG
có khả năng huấn luyện với dữ liệu mới nhưng không quên những mẫu
đã được huấn luyện từ trước Một số thực nghiệm được thực hiện để đánhgiá độ chính xác của phương pháp chẩn đoán Từ kết quả thu được, ta có
thể thấy rằng, phương pháp này có thể áp dụng trong hệ một hệ thống
y tế để hỗ trợ việc chẩn đoán sớm những trường hợp tim mạch bất bìnhthường, phòng tránh các hậu quả nghiêm trọng, đặc biệt có thể theo dõi
bệnh nhân ngoại trú và ứng cứu kịp thời trong trường hợp cần thiết.
Trang 62.3 Một số thuật toán khai phá dữ liệu - 10
2.3.1 Kmeans 0.00002 eee eee 10
2.3.2 Cây quyếtđịnh 122.3.3 Thuật toán Mang Perceptron nhiều lớp 14
2.3.3.1 Mang Percepronmộtlóp 142.3.3.2 Mạng Perceptron lan truyền thang nhiều lớp 16
2.3.4 SOM Q.2 x3 xà 19
3 Quá trình chẩn đoán bệnh tim dựa trên kỹ thuật khai phá dữ liệu 24
3.1 Tổng quan quá trình chẩnđoán 24 3.2 Chẩn đoán bệnh Tim mach dựa trên các thông tin lâm sàng 25
3.21 TiềnxửlýDữliệu 26
ili
Trang 73.22 Các khái nệm và đnhngha 26 3.2.3 Thuậttoán AprTIOTI Ặ Ặ Ặ QC 30
3.3 Chẩn đoán bệnh tim dựa vào sự thay déinhiptim 31
4.1 Môi trường thực nghiệm và dữ liệu 44
4.1.1 Môi trường thực nghiệm cho bước chẩn đoán dựa vào các
thông tnlâmsàng 44
4.1.2 Môi trường thực nghiệm cho bước chẩn đoán dựa vào sự thay
đổi nhptim 454.2 Kétquathucnghiém 49
4.2.1 Kết quả va đánh giá hiệu quả của thuật toán Apriori 49
4.2.1.1 Đánh giá sự thay đổi số lượng các tập mục phổ biến
theo sự thay đổi của độ hỗ trợ minsup 49
4.2.1.2 Đánh giá số lượng các luật sinh ra theo sự thay đổi
của độ hỗ trợminsup 504.2.1.3 Đánh giá số lượng các luật tạo ra khi độ tin cậy
minconf thay đổi 51
4.2.2 Kết quả và đánh giá hiệu quả của thuật toán GNG 53
4.2.2.1 Đánh giá lỗi phân lớp trên tập dữ liệu D(O) 53
4.2.2.2 Đánh giá số lượng nút va cạnh của thuật toán GNG
trên tập dữ liệu D(O) 54
4.2.2.3 Đánh giá lỗi bình phương trung bình MSE trên D(O) 55
4.2.2.4 SosánhhGNG vớ SOM 56
5_Kếtluận 58
Tài liệu tham khảo 60
1V
Trang 8Danh sách hình ve
2.1 2.2 2.3
2.4 2.5 2.6
2.7
2.8
2.9 2.10
2.11 2.12
3.1
3.2
3.3 3.4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
Bệnh Tim mạch vành 5
Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch 9
Cụm dữ liệu khai phá bởi K-mean 11
Bảng dữ liệu Q2 12 Cây quyétdinh Ặ.Ặ VỤ 12 Mạng Perceptron một lớp 15
Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan truyền ngược saiSỐ So 18 Mô hìnhSOM QOQ Q Q eee ees 19 Ma trận trọng số Ặ.ẶẶQQ Q Ốc 20 Các lâncận 1 Ặ Q Q Q Q Q Q Q Q.2 20 Nút khớp nhất 22
Hàm lân cận cơbản 23
Tổng quan hệ thống quá trình chẩn đoán bệnh tim 25
Chẩn đoán bệnh tim dựa vào thông tin lâm sang của bệnh nhân 26
Kỹ thuật Poincaré Ặ.Ặ QẶ Q Q Q ee 34 DOthiRR 2 Q Quy 34 Tập dữ liệu đầu vào của thuật toán Apriori 45
Sự thay đổi itemset theo minsup 50
Số lượng luật theominsup 51
Số lượng luật theo minconf 52
Tập luật sinh ra với minsup=0.1 và minconf=0.97 52
Giá trị lỗi phân lớp của GNG trên tập dữ liệu D(O) 33
Số nút và cạnh của GNG trên tập dữ liệu với O=0%_ 54
Số nút va cạnh của GNG trên tap dữ liệu v6iO=1% 2 55
Trang 94.9 Số nút và cạnh của GNG trên tập dữ liệu vớ OEZ2%_ 55
4.10 MSE và Mức độ giao giữa các lốp 56
4.11 GNG va SOM trên tập dữ liệu D(0%) 56
4.12 GNG và SOM tập dữ liệu D(1%) 57
4.13 GNG và SOM tập dữ liệu D(2%) 57
VI
Trang 10Danh sách bảng
3.1
3.2
4.1
4.2
4.3
4.4
4.5
4.6
Bảng thuộc tính của mẫu dữ liệu cho bénhtim 27
Quy tắc chuyển đổi dữ liệu - 43
Tổng hợp các tham số sử dụng để sinh ra tín hiệu điện tâm dé 46
Tham số sử dụng để sinh ra tập dữ liệu (BT-Bình thường, BBT- Bất bình thường) Q Q Q Q Q Q Q 47 Tổng hợp các tham số sử dụng trongGNG 48
Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ 50
Sự thay đổi số lượng luật sinh ra theo độ hỗtrợ 51
Sự thay đổi số lượng luật sinh ra theo độ tincay 51
VI
Trang 111.1 Động cơ nghiên cứu
Theo tổ chức y tế thế giới WHO, bệnh tim mạch đang là nguyên nhân tử vong hàngđầu ở người trên thế giới và chiếm nhiều nhất ở các nước đang phát triển [37] Mỗinăm, người chết do bệnh tim và đột quy nhiều hơn cả ung thư, lao, sốt rét và HIVcộng lại Còn tại Việt Nam, thống kê của Hội tim mạch cho thấy, cứ 3 người Việt
Nam trưởng thành thì có một người có nguy cơ mắc bệnh tim mạch, chủ yếu là bệnh
tim mạch vành [36] Bệnh tim mạch có thể chẩn đoán dựa trên các nguy cơ gây bệnh
và triệu chứng Nhưng, một số trường hợp người bệnh không có những biểu hiện triệu chứng hay dấu hiệu có thể nhận biết Đây gọi là bệnh tim mạch vành yên lặng Những trường hợp này, người bệnh chỉ có thể phát hiện được triệu chứng khi đã ở giai đoạnnguy hiểm, tức là có dấu hiệu của hiện tượng suy tim, hay đột quy Người bệnh có thể
bị chết nếu không được cấp cứu kịp thời Tuy nhiên, khó có thể xác định được bệnhnhân có bị mắc bệnh hay không khi chỉ thông qua một xét nghiệm Do đó, chúng tacần có một hệ thống hay phương pháp chẩn đoán và phát hiện sớm nguy cơ mắc bệnh
tim mạch có độ tin cậy cao.
Hiện nay, với sự phát triển của công nghệ thì các thiết bị di động, cảm ứng vàmạng không dây được tích hợp vào các hệ thống y tế ngày càng nhiều do lợi ích của
chúng mang lại như giảm chi phi chăm sóc sức khỏe và tăng khả năng truy cập, thu
thập thông tin cho bệnh nhân, cũng như các chuyên gia y tế Một trong những ứngdụng là các hệ thống cảm ứng sinh học tiết kiệm năng lượng có thể mang trên người.Trong bệnh viện, hệ thống này có thể sử dụng để theo dõi các bệnh nhân trong cáctrường hợp đăc biệt Bên ngoài bệnh viện, hệ thống này có thể theo dõi và thu thập
Trang 12liên tục dif liệu về tình trạng sức khỏe của bệnh nhân Dữ liệu này bao gồm sự thayđổi nhịp tim của bệnh nhân trong các hoạt động hàng ngày và có tính thời gian thực.Những dữ liệu này sẽ được tiền xử lý và khai phá để trích rút ra những thông tin hữuích về tình trạng sức khỏe của bệnh nhân, cũng như hỗ trợ việc ra quyết định chẩnđoán cho bác sĩ Tuy nhiên, hầu hết các kỹ thuật khai phá dữ liệu truyền thống chủyếu áp dụng cho các tập dữ liệu cố định, có sẵn và trong một môi trường tĩnh, không
có tính thời gian thực Như vậy, chúng ta cần một thuật toán khai phá dữ liệu liên tục
mà có thể tích hợp liên tục các thông tin, dữ liệu mới vào bộ nhớ trong khi vẫn duy trì
những dif liệu đã được học từ trước Một số thuật toán khai phá dữ liệu liên tục được nghiên cứu nhiều như: SOM, GNG
1.2 Đóng góp của luận văn
Trong luận văn này, chúng tôi tập trung nghiên cứu và phân tích một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim mạch cho bệnh nhân ngoại trú Phươngpháp chẩn đoán được thực hiện qua hai bước Trong bước đầu tiên, dữ liệu lâm sàngcủa bệnh nhân như tuổi, giới tính, huyết áp, có bị tiểu đường hay không, lượng choles-terol trong máu, có hút thuốc hay không được thu thập Tập dữ liệu thu được thườngchứa rất nhiều các thuộc tính được thu thập dưới dạng số nhưng lại không đầy đủ, cónhiều lỗi và kiểu giá trị đặc biệt Mặt khác, trong bước chẩn đoán này, thuật toánApriori được áp dụng để khai phá luật kết hợp cho bệnh tim mạch Thuật toán Aprioriđược đề xuất cho dữ liệu rời rạc nên không thể áp dụng cho dữ liệu liên tục, dạng số
Vì vậy, tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức từ cơ
sở dit liệu Ở giai đoạn tiền xử lý dit liệu, chúng ta thực hiện chuyển đổi dữ liệu dang
số sang dữ liệu rời rac biểu diễn bởi các chỉ mục (items)
Dựa trên tập luật kết hợp mà được khai phá trong quá trình đầu tiên, bác sĩ sẽquyết định những bệnh nhân nào có nguy cơ mắc bệnh cao Những bệnh nhân này
sẽ được chuyển qua bước chẩn đoán kế tiếp Ở bước thứ hai này bệnh nhân sẽ được
chẩn đoán dựa trên tín hiệu điện tâm đồ mà biểu diễn sự thay đổi nhịp tim của bệnh
nhân khi họ thực hiện các hoạt động hàng ngày bằng cách sử dụng một mô hình mạng
nơ-ron nhân tạo Sự thay đổi nhịp tim là một thuộc tính quan trọng để chẩn đoán sớmcác trường hợp đột tử ở người mắc bệnh tim mạch [24] Đầu tiên, tín hiệu điện tâm
đồ được biến đổi thành định dạng véc tơ sử dụng kỹ thuật Poincaré Mục đích chínhcủa bước tiền xử lý dữ liệu là chuyển định dạng thông tin biểu diễn trong không gian
Trang 13hai chiều bởi phương pháp mã hóa Poincaré về định dạng tương thích với véc tơ đầuvào của mô hình mạng nơ-ron Bên cạnh đó, với cách xử lý và biểu diễn dữ liệu nàykích cỡ của thông tin phần nào được nén lại để phù hợp hơn cho việc xử lý của mangnơ-ron Chính vì vậy thời gian huấn luyện mô hình sẽ trở nên nhanh hơn và làm giảm tính phức tạp của mô hình mạng Thuật toán GNG được áp dụng để nhận biết mẫu thay đổi nhịp tim Đây là một thuật toán khai phá dữ liệu liên tục và có thể học thêmđược những tri thức mới nhưng vẫn duy trì những tri thức cũ đã học GNG bao gồm
ba lớp Lớp đầu vào nhận tín hiệu đầu vào đã qua tiền xử lý Lớp ẩn là một đồ thị, cónhiệm vụ hiệu chỉnh và chuyển dịch không tuyến tính tín hiệu đầu vào Cuối cùng làlớp đầu ra có nhiệm vụ phân không gian đầu ra vào các vùng quyết định Mô hình banđầu được khởi tạo với hai nút tại hai vị trí ngẫu nhiên Khi một mẫu được đưa vào,các nút trong tầng ẩn sẽ cạnh tranh để xác định nút nào khớp nhất với mẫu đầu vào
Sau một số bước huấn luyện, tầng ẩn được cập nhật bằng cách chèn thêm nút mới với
hy vọng sẽ cải thiện hiệu quả của mô hình Các nút với giá trị lỗi cao chính là điềukiện để quyết định việc chèn thêm nút mới Bên cạnh việc chèn thêm nút mới, các nút
mà không có liên kết với nút nào khác sẽ bị xóa đi bởi vì sau một số bước huấn luyệngiá trị lỗi của chúng có rất ít khả năng trở thành giá trị lỗi lớn nhất Điều này dẫn đếnviệc chèn nút mới gần chúng sẽ rất khó xảy ra Quá trình huấn luyện lặp lại cho đếnkhi mô hình thỏa mãn điều kiện dừng như độ hội tụ hay số lượng nút trong mô hình
Sự hội tụ của thuật toán được đánh giá bằng giá trị lỗi bình phương trung bình
Tập dữ liệu sử dụng trong quá trình chẩn đoán đầu tiên được thu thập từ thực tế.Một mau dif liệu thu được gồm 14 thuộc tính như tuổi, giới tính, huyết áp tâm thu,lượng cholesterol trong máu, lượng đường trong máu, các dạng đau ngực, kết quả điệntâm đồ Các thực nghiệm thực hiên trên bộ dữ liệu này có thể đánh giá độ chínhxác của thuật toán và xem xét mức độ ảnh hưởng của tham số đầu vào như minsup,minconf đối với hiệu quả của thuật toán Tập dữ liệu cho bước thứ hai của quá trìnhchẩn đoán được thu thập từ tập các hoạt động, tần suất thở, trạng thái tim mạch Kết
quả thực nghiệm chứng tỏ rằng độ chính xác của thuật toán GNG khá cao với số nút
và số cạnh thấp khi so sánh với mô hình mạng nơ-ron SOM
Luận văn này gồm có 5 chương chính:
e Chương 1: Giới thiệu tổng quan động cơ nghiên cứu và đóng góp của luận văn.
e Chương 2: Giới thiệu bệnh tim mạch và một số hệ thống để chẩn đoán bệnh
Trang 14tim mạch Trong chương này, chúng tôi cũng giới thiệu qua một số kỹ thuật khaiphá dữ liệu như K-means, Cây quyết định, Mạng Perception nhiều lớp và SOM.
e Chương 3: Giới thiệu tổng quan quá trình chẩn đoán Trong đó, chúng tôi trình
bày chi tiết hai bước của quá trình chẩn đoán bệnh tim mạch dựa trên thuật toán
Apriori và ƠNG.
e Chương 4: Đánh giá thuật toán Apriori trong khai phá luật kết hợp trên tập dữ
liệu về bệnh tim trong bước đầu tiên Sau đó, chúng tôi đánh giá hiệu quả của
thuật toán ƠNG và so sánh với thuật toán SOM trên tập dữ liệu tín hiệu điện
tâm đồ biểu diễn sự thay đổi nhịp tim
e Chương 5: Kết luận
Trang 15Chương 2
Cơ sở lý thuyết
2.1 Giới thiệu về bệnh tim mach
Trái tim của chúng ta hoạt động như một cái bơm để bơm máu đưa máu đi tới khắp
các mô cơ quan trong cơ thể Để đảm bảo được chức năng bơm máu một cách đều đặnkhoảng 70-80 lần/phút, từ ngày này sang ngày khác, ban thân trái tim cũng được nuôidưỡng bởi một hệ thống mạch máu riêng Hệ thống mạch máu này gọi là hệ mạchvành Danh từ mạch vành để chỉ tình trạng bệnh lý làm cho lòng động mạch vành bị
hẹp lại hoặc tắc nghẽn Khi lòng động mạch vành bị hẹp đến một mức độ nào đó thì
dòng máu đến nuôi tim sẽ không đủ và dẫn đến tình trạng thiếu máu cơ tim Bệnhmạch vành còn có nhiều tên gọi khác như: Thiểu năng vành, suy động mạch vành, thiếu máu cơ tim hay bệnh tim thiếu máu cục bộ [36].
Hinh 2.1: Bénh Tim mach vanh
Trang 16Nguyên nhan
Nguyên nhân thường gap là do mang xo vữa bám vào lòng mạch, mang xo vữa gây
phản ứng viêm, có thể lớn dần gây hẹp nặng lòng mạch và khi vỡ dễ dẫn đến nhồi máu
cơ tim Ngoài ra một số trường hợp mạch vành bị co thắt gây hẹp mạch vành từng lúc
cũng gây ra triệu chứng đau thắt ngực do thiếu máu cơ tim Nguyên nhân xơ vữa động
mạch thì chưa được xác định rõ ràng tuy nhiên khi nói đến nguyên nhân của bệnh timmạch người ta dùng đến khái niệm "yếu tố nguy cơ" Yếu tố nguy cơ của bệnh timmach là những yếu t6 mà khi hiển diện ở một cá thể nào đó thì làm cho cá thé đó có
tỷ lệ mắc bệnh tim cao hơn cá thể khác Những yếu tố nguy cơ của bệnh tim là: tănghuyết áp, rối loạn lipid máu, hút thuốc lá, béo phì, đái tháo đường, cuộc sống công
việc có nhiều căng thẳng, ít vận động, gia đình có người bị bệnh tim sớm, nam giới,
cao tuổi
Triệu chứng
e Đau ngực: triệu chứng của chứng thiếu máu cơ tim thường hay gặp nhất là đau
ngực Đau khởi phát khi gắng sức, ở ngay sau xương ức, đau nhói, thắt chặt và
lan ra vai trái, cánh tay trái, bàn tay trái Đau giảm đi khi nghỉ ngơi hoặc dùng
thuốc dãn mạch Nếu cơn đau xuất hiện lúc nghỉ ngơi hoặc cơn đau quá trầmtrọng, cơn đau quá 30 phút thì phải nghĩ đến là bệnh nhân bị nhồi máu cơ tim
cap.
e Một số người già, những người bi bệnh tiểu đường, bệnh phổi tắc nghẽn mãn
tính khi mắc bệnh mạch vành có thể không có triệu chứng đau thắt ngực như
trên mà thay vào đó là mệt hoặc khó thở khi gắng sức Những trường hợp đó
gọi là thiếu máu cơ tim yên lặng
Những thăm dò để chẩn đoán bệnh Tim mạch
e Điện tâm đồ lúc nghỉ: thiếu máu cơ tim làm thay đổi điện học của cơ tim và
điện tâm đồ phát hiện ra các thay đổi đó Tuy nhiên, chỉ khoảng 50% bệnh nhân
bị bệnh tim có thay đổi tín hiệu điện tâm đồ
e Siêu âm tim: Tình trạng thiếu máu cơ tim làm ảnh hưởng đến sự co bóp của tim
Những vùng giảm động do thiểu máu cơ tim gây ra sẽ được phát hiện qua siêu
âm tim.
e Điện tâm đồ và Siêu âm tim lúc gắng sức: Nếu lòng động mạch vành chỉ hẹp
nhẹ thì triệu chứng thiếu máu cơ tim chỉ xảy ra khi gắng sức
6
Trang 17e Xạ hình tưới máu cơ tim: Dùng chất đồng vị phóng xạ bơm vào mạch máu.
Những vùng nào của cơ tim bị thiếu máu nuôi sẽ giảm hoặc không bắt được
đồng vị phóng xa Sau đó, dùng máy Scan để phát hiện các vùng đó
e Chụp động mạch vành chọn lọc: là tiêu chuẩn vàng để chẩn đoán bệnh tim
mạch Thông qua thăm dò này, bác sĩ sẽ biết được tình trạng tim mach của bạn như thé nào.
2.2 Các hệ thong chuẩn đoán bệnh Tim
2.2.1 Các Hệ thống chẩn đoán dựa vào chỉ số nguy cơ mắc bệnh
tim
Nghiên cứu Framingham là một nghiên cứu được tiến hành trên một bộ phân dân cưcủa thị tran Framingham (hạt Middlesex, bang Massachusettes, Hoa kỳ) Dân số banđầu gồm 5029 người đàn ông và phụ nữ khỏe mạnh độ tuổi từ 30 đến 62, được theodõi từ năm 1948 Đến năm 1971, các nhà nghiên cứu tuyển thêm một thé hệ thứ hai làcon của những người tham gia ban đầu cùng với vợ (hoặc chồng) của những người connày Cỡ mẫu nghiên cứu gồm 3969 người đàn ông và 4522 phụ nữ Trong quá trìnhtheo dõi, các nhà nghiên cứu ghi nhận các biến cố tim mạch nặng xảy ra cho nhữngngười tham gia Cùng với một số nghiên cứu dịch té khác, nghiên cứu Framinghamcho phép xác định các yếu tố nguy cơ chính của bệnh tim mạch do xơ vữa động mach:hút thuốc lá, tăng huyết áp, tăng cholesterol, đái tháo đường, HDL thấp
Từ các dữ liệu thu thập được, các nhà nghiên cứu dùng một mô hình toán học đểước tính xác suất bi các biến cô tim mạch trong 10 năm tới của một người dựa vàogiới tính, tuổi, cholesterol toàn phần, HDL, huyết áp tâm thu, tình trạng hút thuốc lá,
có đái tháo đường hay không, có điều trị tăng huyết áp hay không Bước kế tiếp, cácnhà nghiên cứu qui đổi từng khoảng trị số của các biến liên tục (tuổi, huyết áp )thành các điểm Khi cộng tất cả các điểm lại ta có điểm tổng cộng cho từng người vàứng với mỗi điểm tổng cộng là một xác suất ( bị các biến cố tim mạch trong 10 nămtới) tương ứng Hệ thống Framingham xây dựng hai bảng điểm riêng biệt cho nam và
nữ.
Trong hệ thống Framingham phiên bản năm 1998, biến cố được dự báo là sự xuất
hiện của bệnh tim ( đau thắt ngực, nhồi máu cơ tim được nhận biết hoặc không, suy
động mạch vành và chết do bệnh động mạch vành) Các biến được đưa vào bao gồm
7
Trang 18giới tính, tuổi, cholesterol toàn phan, HDL, huyết áp tâm thu, có đái tháo đường haykhông, có hút thuốc lá hay không Dạng trình bày là cac bảng điểm dành riêng chonam và nữ Trong hệ thống Framingham phiên bản 2008, biến cố được dự báo ngoàibệnh động mạch vành còn có bệnh mạch máu não( đột quy dạng thiếu máu cục bộ,đột quy dạng xuất huyết, cơn thiếu máu não thoáng qua), bệnh động mạch ngoại vi(khập khiéng cách hồi) và suy tim.
Hệ thống chẩn đoán nguy cơ mắc bệnh tim mạch cho các nước Châu âu
(SCORE) được xây dung từ số liệu của 12 nghiên cứu đoàn hệ ở các nước Châu âu(khoảng 2,1 triệu người theo dõi), hầu hết được thực hiện trong dân số chung Các biếnđược đưa vào hệ thống SCORE gồm: giới tính, tuổi, cholesterol toàn phần, Huyết áptâm thu, có hút thuốc lá hay không( người đái tháo đường được xếp vào nhóm có nguy
cơ cao hoặc rất cao, không cần phải ước tính nguy cơ theo SCORE) Biến có được dựbáo là chết do nguyên nhân tim mạch gồm tất cả các trường hợp chết vì một bệnh timmạch có nguồn gốc xơ vữa động mạch: nhồi máu cơ tim, đột quy, phình động machchủ Việc dùng biến cố này có lợi điểm là dễ chuẩn hóa Dạng trình bày là biểu đồmàu, có hai biểu đồ riêng cho nhóm các nước có tử vong tim mạch thấp va các nước
có tử vong tim mạch cao.
Hệ thống chẩn đoán chẩn đoán bệnh tim mạch của Hiệp hội tim mạch Hoa
Ky (Pooled Cohort Equations - PCE) do nhóm chuyên gia thuộc Trường Tim Mach
và Hiệp hội Tim Hoa Kỳ đưa ra năm 2013 Nhóm chuyên gia này tập hợp số liệu các
nghiên cứu đoàn hệ cộng đồng trên những người Mỹ gốc Phi và Mỹ da trắng không
phải gốc Latinh được theo dõi ít nhất 12 năm Biến cô kết cục của hệ thống là chết
do bệnh động mạch vành, nhồi máu cơ tim nhưng không chết, đột quy hoặc đột quynhưng không chết Các biến được đưa vào hệ thống bao gồm: giới tính, tuổi, chủngtộc, cholesterol toàn phan, HDL, huyết áp tâm thu, có đang điều tri tăng huyết áp haykhông, có đái tháo đường hay không, có hút thuốc lá hay không
Nghiên cứu của Reynolds được xây dựng từ số liệu của 2 thử nghiệm lâm sàng làNghiên cứu về sức khỏe phụ nữ( Women Health Studay - 24.558 phụ nữ là nhân viên
y tế) và Nghiên cứu về sức khỏe thầy thuốc (Physician's Health Study - 10724 bác sĩnam), với biến cỗ được dự báo là nhồi máu cơ tim, đột quy, tái tưới máu mạch vành
và chết do nguyên nhân tim mạch Các biến được đưa vào là giới tính, tuổi, huyết áp
tâm thu, cholesterol toàn phần, HDL, có hút thuốc lá hay không, có tiền sử gia đình
mắc nhồi máu cơ tim sớm, HbA,,, hsC RP
Trang 19Dân số chung ở Hoa
Ky, tuỗi 40-79
Dân số chung ở Châu Âu, tuỗi 40-65
mạch vành
Xác suất 10 năm chết do bệnh mạch
xơ vữa động mạch)
Xác suất 10 năm mắc NMCT, đột quị,
tái tưới máu mạch
áp, dai thao đường,
Ghi chú:NMCT = nhồi mau cơ tim; HATT = huyết ap tâm thu; NCEP ATP = National Cholesterol Education Program Adult Treatment
Panel; CCS = Canadian Cardiovascular Society, ACC/AHA = American College of Cardiology/American Heart Association.
Hình 2.2: Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch
2.2.2 Hệ thong hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ
thuật khai phá dữ liệu
Ngày nay, các bệnh viện đều lưu trữ và quản lý thông tin về tình hình sức khỏe củabệnh nhân trên các hệ thống thông tin Những hệ thống này chứa một lượng lớn dữliệu, trong đó có rất nhiều thông tin hữu ích chưa được khai phá để hỗ trợ cho bác sĩtrong việc chuẩn đoán, cũng như dự đoán tình trạng của bệnh nhân Với sự phát triểncủa khoa học máy tính và các kỹ thuật khai phá dữ liệu, có nhiều nghiên cứu và hệ
thống hỗ trợ chẩn đoán sớm nguy cơ mắc bệnh tim mạch đã được thực hiện Những
hệ thống đó áp dụng nhiều kỹ thuật khai phá dữ liệu khác nhau và thu được các kếtquả khác nhau Dưới đây là một số hệ thống và nghiên cứu trong khai phá dữ liệu đểchẩn đoán bệnh tim mạch.
e Hệ thống dự đoán bệnh tim thông minh (IHDPS) được phát triển dựa trên các
kỹ thuật khai phá dữ liệu như cây quyết định, mạng Nơron, Naive Bayes Hệthống được xây dựng bởi Sellappan Palaniappan và các đồng sự vào năm 2008
9
Trang 20Hệ thống là một ứng dụng Web, dễ sử dụng và mở rộng [29]
e Hệ thống dự đoán bệnh tim, huyết áp và tiểu đường với kỹ thuật mạng Nơron,
được xây dựng bởi Niti Guru và đồng sự năm 2007
e Nghiên cứu chuẩn đoán bệnh tim (CANEIS) dựa trên hệ suy diễn mờ được thực
hiện bởi LathaParthipan năm 2008
e Kiyong Noh và các đồng sự đã sử dụng phương pháp phân lớp để rút ra những
đặc trưng hữu ích bằng cách đánh giá sự thay đổi nhịp tim từ tín hiệu điện tâm
đồ, tiền xử lý dữ liệu và các dữ liệu về bệnh tim năm 2006
2.3 Một số thuật toán khai phá dữ liệu
2.3.1 K-means
Thuật toán phân cụm k-means do MacQueen để xuất trong lĩnh vực thống kê năm
1967, mục dich của thuật toán k-means là sinh ra k cum dif liệu C1, Ca, , Cy, từ một
tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều X; = (#1, ở;a, , Via)(4 =1 n) sao cho hàm tiêu chuẩn
k
E=À ` D?(—mị) (2.1)
i=1 z€Ớ;
dat giá trị tối thiểu Trong đó, rn; là trọng tâm của cụm C;, 7 là khoảng cách giữa
hai đối tượng
Trọng tâm của một cụm là một véc tơ, trong đó giá trị của mỗi phần tử của nó là
trung bình cộng các thành phần tương ứng của các đối tượng véc tơ dif liệu trong cụm
đang xét Tham số đầu vào của thuật toán là số cụm k, tập CSDL gồm n phần tử va
tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng
cách giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide, bởi
vì đây là mô hình khoảng cách dễ lấy đạo hàm và xác định các cực trị tối thiểu Hàm
tiêu chuẩn và độ đo khoảng cách có thể được xác định cụ thể hơn tùy vào ứng dụng
hoặc các quan điểm của người dùng [7]
Thuật toán k-means được chứng minh là hội tụ và có độ phức tạp tính toán là
O(n.k.d) Nhu vậy, do thuật toán k-means phân tích phân cụm đơn giản nên có thé
áp dụng đối với tập dữ liệu lớn Tuy nhiên, nhược điểm của k-means là chỉ áp dụng
10
Trang 21Algorithm 1 Thuật toán K-MEAN
3.Cập nhật lại trong tâm Đối với mỗi 7 = 1 k cập nhật lại trọng tâm cụm m, bằng
cách xác định trung bình cộng của các vector đối tượng dữ liệu
4.Điều kiện dừng:
Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi
với dữ liệu có thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-means cònrất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Hình 2.3 diễn tả môphỏng về một số hình dạng cụm dữ liệu khám phá được bởi k-means:
Hình 2.3: Cụm dữ liệu khai phá bởi K-mean
Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k-means phụ thuộc nhiềuvào các tham số đầu vào như: số cụm k và k trọng tâm khởi tao ban đầu Trong trườnghợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiênthì kết quả phân cụm của k-means có độ chính xác là rất thấp, nghĩa là các cụm difliệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa
có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sửdụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháptốt nhất
11
Trang 222.3.2 Cây quyết định
Cây quyết định là một kiểu mô hình dự báo, nghĩa là một ánh xạ từ các quan sát vềmột sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Cấutrúc của một cây quyết định bao gồm các nút và các nhánh Nút dưới cùng được gọi là
nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là
nhãn) Các nút khác nút lá được gọi là các nút con, đây còn là các thuộc tính của tập
dif liệu, hiển nhiên các thuộc tinh này phải khác thuộc tính phân lớp Mỗi một nhánhcủa cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên miễn giá trịcủa nút đó Nút đầu tiên được gọi là nút gốc của cây Xem xét một ví dụ về một câyquyết định như sau:
Outlook Temp Humidity Windy Play
Sunny Hot High False No
Sunny Hot High True No
Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No
Overcast Cool Normal True Yes
Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes
Rainy Mild High True No
high normal stro! weak
(oso, D8} {D9, D11} {D6, D14} {D4, D5, D10}
no yes
/
no yes
Hinh 2.5: Cay quyét dinh
Cây quyết định của ví dụ trên Hình 2.5 có thé được giải thích như sau: các nút lá
chứa các giá trị của thuộc tính phân lớp Các nút con tương ứng với các thuộc tính
12
Trang 23khác thuộc tính phân lớp Nút gốc cũng được xem như một nút con đặc biệt Cácnhánh của cây từ một nút bất kỳ tương đương một phép so sánh có thể là so sánh
bằng, so sánh khác, lớn hơn nhỏ hơn Nhưng kết quả các phép so sánh này bắt buộc
phải thể hiện một giá trị logic (đúng hoặc sai) dựa trên một giá trị nào đó của thuộctính của nút Lưu ý cây quyết định trên không có sự tham gia của một số thuộc tínhtrong thành phần cây, các thuộc tính như vậy được gọi chung là các thuộc tính dư thừabởi vì các thuộc tính này không ảnh hưởng đến quá trình xây dựng mô hình của cây
Các thuộc tính tham gia vào quá trình phân lớp thông thường có các giá tri liên
tục hay còn gọi là kiểu số hoặc kiểu rời rac hay còn gọi là kiểu dif liệu phân loại Ví
dụ kiểu dữ liệu lương biểu diễn bằng số thực là kiểu dữ liệu liên tục, kiểu dữ liệu giới
tính là kiểu dữ liệu rời rạc.
Algorithm 2 Thuật toán Cây quyết định
1 Bắt đầu từ nút đơn biểu diễn tất cả các mẫu
2 Nếu các mẫu thuộc cùng một lớp, nút trở thành nút lá và được gán nhãn bằng lớp
đó.
3 Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu
vào các lớp
4 Một nhánh được tạo cho từng giá trị của thuộc tính được chọn và các mẫu được
phân hoạch theo.
5 Dùng đệ quy cùng một quá trình để tạo cây quyết định.
6 Tiến trình kết thúc chỉ khi một trong các điểu kiện sau đây là đúng.
e Tat cả các mẫu của một nút cho trước đều thuộc về cùng một lớp
e Không còn một mẫu nào mà có thể dựa vào để phân hoạch xa hơn
Thuật toán cây quyết định có một số điểm mạnh như sau:
e Cây quyết định có thể tự giải thích và khi được gắn kết lại, chúng có thể dé dang
tự sinh ra Nói cách khác, nếu cây quyết định mà có số lượng nút lá vừa phải thìngười không chuyên cũng dễ dàng hiểu được nó Hơn nữa, cây quyết định cũng
có thể chuyển sang tập luật Vì vậy, cây quyết định được xem như là dễ hiểu
e Cây quyết định có thể xử lý cả thuộc tính tên và số đầu vào
e Thể hiện của cây quyết định là đủ đa dạng để biểu diễn cho bắt kỳ giá trị rời rạc
nào.
13
Trang 24e Cây quyết định có khả năng xử lý các bộ dữ liệu mà có thể gây ra lỗi.
e Cây quyết định có khả năng xử lý các bộ dữ liệu mà có giá trị rỗng
e Cây quyết định được xem như là một phương pháp phi tham số Điều này có
nghĩa là cây quyết định không có giả định về sự phân chia bộ nhớ và cấu trúc
phân lớp.
Bên cạnh đó, cây quyết định cũng có một số hạn chế sau:
e Hầu hết các thuật toán xây dựng cây quyết định (như ID3 hoặc C4.5) bắt buộc
các thuộc tính mục tiêu phải là các giá tri rời rac.
e Khi cây quyết định sử dụng phương pháp “chia để trị”, chúng có thể thực hiện
tốt néu tồn tại một số thuộc tính liên quan chặt chẽ với nhau, nhưng sẽ khó khănnếu một số tương tác phức tạp xuất hiện Một trong những nguyên nhân gây
ra điều này là những sự phân lớp mà có mô tả rất mạch lạc về việc phân lớp
cũng có thể gặp khó khăn trong việc biểu diễn bằng cây quyết định Một minh
họa đơn giản của hiện tượng này là vấn để tái tạo cây quyết định (Pagallo vàHuassler, 1990) Khi mà hầu hết các cây quyết định phân chia không gian thểhiện thành những khu vực loại trừ lẫn nhau để biểu diễn một khái niệm Trong
một số trường hợp, cây nên chứa một vài cây con giống nhau trong thứ tự thể
hiện của việc phân lớp.
2.3.3 Thuật toán Mang Perceptron nhiều lớp
2.3.3.1 Mạng Perceptron một lớp
Mang perceptron một lớp do F.Rosenblatt dé xuất năm 1960 [16] là mạng truyền
thẳng chỉ một lớp vào và một lớp ra không có lớp ẩn Trên mỗi lớp này có thể có một
hoặc nhiều nơ-ron Mô hình mạng nơ-ron của Rosenblatt sử dụng hàm ngưỡng đóng vai trò là hàm chuyển Do đó, tổng của các tín hiệu vào lớn hơn giá trị ngưỡng thì giá
trị đầu ra của nơ-ron sẽ là 1, còn trái lại sẽ là 0.
Trang 25Một đối tượng sẽ được nơ-ron ¡ phân vào lớp A nếu
Tổng thông tin đầu vào: Ð ˆ+0;;#; > 0;
Trong đó w;; là trọng số liên kết từ no-ron 7 tới nơ-ron i, x; là đầu vào từ nơ-ron
7, và 6 là ngưỡng của nơ-ron i Trong trường hợp trái lại, đối tượng sẽ được phân vào
lớp B.
Việc huấn luyện mạng dựa trên phương pháp học có giám sát với tập mẫu học là
{(zt), 48), = 1,2, ,p Trong đó, dŒ) = [da , đ, dị ”]7 là đầu ra quan sát
| (k) (Rk) ()7
ứng với đầu vào x") = [x}"),a5"”, ,2m’ |" (với m là số đầu vào, n là số đầu ra, và p
là cặp mẫu đầu vào-đầu ra dùng cho việc học) Như vậy chúng ta mong rằng sau quá
trình huấn luyện, đầu ra tính toán được ¡` = lụt ) ys, " yr sẽ bằng với dau ra
của mẫu học đ#)
Yi = g(wuƑzŒ®)) = of mya" )=d 6 =1,2, n:k=1,2, p (2.2)
Đầu ra tinh toan Đầu ra mong muốn
(Wim = 84, Wom = 2, Wan = Đa }
Hình 2.6: Mang Perceptron một lớp
Để bắt đầu quá trình huấn luyện mô hình mạng, các trọng số được gán giá trị ngẫu
nhiên trong khoảng [-3, 3] Sau đó hiệu chỉnh các trọng số cho phù hợp với mẫu huấn
luyện để làm giảm sai số giữa y“) và äŒ)
Các bước tiễn hành:
e Xác định ngẫu nhiên bộ trọng số.
e Với mỗi mẫu huấn luyện (2), đ*)),k = 1,2, ,p thực hiện các bước:
15
Trang 26— Tính giá tri y*) theo công thức
— Xác định sai số 6; tại nơ-ron i: 6; = d; — y;, trong đó d; là giá trị đầu ra
quan sát được và y; là giá trị đầu ra tính toán tại nơ-ron thứ i
— Tính Aw,; là số gia của trọng số w;; (trọng số liên kết giữa đầu vào j tới
nơ-ron i) theo công thức Aw;; = 76;2; trong đó 7 là tốc độ huấn luyện
(0 << 1).
— Hiệu chỉnh wir) = wi) + Awy = wi) + 70,0? trong đó w
trọng số sau khi điều chỉnh ở lần huấn luyện tại thời điểm ¿
(+1) 4s
ij la
Rosenblatt đã chứng minh rang quá trình huấn luyện của mang perceptron sẽ hội
tụ tới bộ trọng số W, biểu diễn đúng các mẫu học với điều kiện là các mẫu này biểuthị các điểm rời rac của một hàm khả tách tuyến tính nào đó (ƒ : R" > R được gọi làkhả tách tuyến tính nếu các tập F~!(z„) với x, thuộc miễn giá trị của ƒ, có thể tách
được với nhau bởi các siêu phẳng trong không gian R")
Năm 1969, Minsky và Papert đã chứng minh một cách chặt chẽ rằng lớp hàm thể
hiện sự phụ thuộc giữa đầu vào và đầu ra có thể huấn luyện bởi mạng Perceptron mộtlớp là lớp hàm khả tách tuyến tính Kha tách tuyến tính là trường hợp tồn tại một mặt
siêu phẳng để phân cách tất cả các đối tượng của một lớp này với một lớp khác, ví dụ
một mặt phẳng sẽ phân chia không gian ba chiều thành hai vùng riêng biệt Mở rộng
ra, nêu có đầu vào , n > 2 thì công thức S31 Wij] = 9; tạo nên một siêu phẳng
có — 1 chiều trong không gian n chiều, nó chia không gian đó thành hai nửa Trongnhiều bài toán thực tế đòi hỏi chia các vùng của các điểm trong một siêu không gian
thành các lớp riêng biệt Loại bài toán này gọi là bài toán phân lớp Bài toán phân lớp
có thể giải quyết bằng cách tìm các tham số thích hợp cho một siêu phẳng để nó có
thể chia không gian n chiều thành các vùng riêng biệt Với tinh chất của như đã nêutrên, mạng perceptron một lớp có thể mô tả các hàm logic như AND, OR và NOT Tuy nhiên nó không thể hiện được hàm XOR Như vậy chứng tỏ mô hình perceptronmột lớp không thể giải quyết bài toán này Vấn đề này sẽ được giải quyết bằng môhình mạng nơ-ron perceptron nhiễu lớp.
2.3.3.2 Mang Perceptron lan truyền thẳng nhiều lớp
Mang perceptron nhiều lớp (Multilayer Perceptron -MLP) còn được gọi là mạng
truyền thẳng nhiều lớp là sự mở rộng của mô hình mạng perceptron với sự bổ sung
thêm những lớp ẩn và các nơ-ron trong các lớp ẩn này có hàm kích hoạt dạng phi
16
Trang 27tuyến Mạng MLP có một lớp ẩn là mạng nơ-ron nhân tạo được sử dụng phổ biếnnhất, nó có thể xấp xỉ các hàm liên tục được định nghĩa trên một miễn có giới hạncũng như những hàm là tập hợp hữu hạn của các điểm rời rạc.
Thuật toán học theo phương pháp lan truyền ngược sai số Thuật toán học theo
phương pháp lan truyền ngược sai số do Rumelhart và các cộng sự [27] đề xuất là mộttrong số những kết quả nghiên cứu quan trọng nhất đối với sự phát triển của mạng
nơ-ron nhân tạo Thuật toán này được áp dụng cho mạng truyền thắng nhiều lớp trong
đó các nơ-ron có thể sử dụng các hàm chuyển là các hàm liên tục có các dạng khác
nhau Thuật toán sử dụng một tập các mẫu gồm các cặp đầu vào - đầu ra để huấn
luyện mạng Với mỗi cặp đầu vào - đầu ra (+), đ#)) thuật toán lan truyền ngược sai
số thực hiện hai giai đoạn sau:
e Giai đoạn thứ nhất, mẫu đầu vào x“) được truyền từ lớp vào tới lớp ra, và ta có
kết quả đầu ra tính toán được là y*)
e Giai đoạn tiếp theo, tín hiệu lỗi được tính toán từ sự khác nhau giữa đầu ra quan
sát được đ#) với đầu ra tính toán #®) sẽ được lan truyền ngược lại từ lớp ra đến
các lớp trước để điều chỉnh các trọng số của mạng Để làm ví dụ ta xét mạng
truyền thẳng có một lớp ẩn dưới đây, đối với các mạng có kích thước lớn hơnthì thao tác cũng tương tự.
Mạng no-ron được xét có n nơ-ron ở lớp vào, nơd-ron trong lớp ẩn và nơ-ron ở lớp
ra Đường kẻ liền thể hiện luồng tín hiệu được truyền từ đầu vào tới đầu ra còn cácđường kẻ nét đứt thể hiện luồng tín hiệu lỗi được truyền ngược trở lại từ đầu ra
Chúng ta xét một cặp đầu vào - đầu ra để huấn luyện mang (z, d), để đơn giảnchúng ta bỏ ký hiệu mũ k thể hiện số thứ tự của cặp mẫu này trong bộ mẫu dùng đểhuấn luyện mạng Khi đưa vào đầu vào x, nơ-ron thứ ø trong lớp ẩn sẽ nhận tín hiệu
Trang 28Hình 2.7: Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan truyền ngược sai số
Do đó tín hiệu vào của nơ-ron thứ 7 trên lớp sẽ ra là:
Công thức trên cho biết quá trình lan truyền tín hiệu từ dau vào qua lớp ẩn tới đầu
ra Tiếp theo chúng ta xét tín hiệu lỗi được lan truyền ngược lại từ lớp ra Trước hết,đối với mỗi cặp giá trị vào — ra chúng ta xây dựng một hàm giá như sau:
Nhu vậy với một tập gồm p mẫu huấn luyện, chúng ta lần lượt xây dựng được phàm giá như vậy Việc học của mạng hay nhiệm vụ của giải thuật thực chất là tìm kiếm tập trọng số W trong không gian RTM (A/ là số trọng số có trong mang) để lần
18
Trang 29lượt tối thiểu hoá các hàm giá như vậy Điều đáng chú ý là việc tối thiểu hoá được tiếnhành liên tiếp nhau và theo chu kỳ đối với các hàm giá Để tối thiểu hàm giá như vậy,giải thuật lan truyền ngược sai số sử dụng phương pháp giảm Gradient để điều chỉnhcác trọng số liên kết giữa các nơ-ron.
2.3.4 SOM
Thuật toán SOM (Self Organizing Map) được giáo su Teuvo Kohonen phát triển vào
những năm 80, là một công cụ thích hợp trong khai phá dữ liệu [6, 32] SOM là một
mô hình mạng nơ-ron nhân tạo, được huấn luyện sử dụng kỹ thuật học không giám sát
để biểu diễn dữ liệu với số chiều thấp hơn nhiều (thường là 2 chiều) so với dữ liệu đầuvào đa chiều (thường số chiều lớn) Kết quả của SOM gọi là bản đồ Mô hình mạng
nơ-ron SOM khác với các mô hình mạng nơ-ron nhân tạo khác là không sử dụng các
lớp ẩn mà chỉ sử dụng lớp đầu vào và lớp đầu ra SOM sử dụng khái niệm lân cận đểgiữ lại đặc trưng của các dữ liệu đầu vào trên bản đồ (có nghĩa là các mẫu huấn luyệntương tự nhau thì được đặt gần nhau trên bản đồ) Ưu điểm chính của SOM là biểudiễn trực quan dữ liệu đa chiều vào không gian ít chiều hơn (thường là 2 chiều) và đặctrưng của dif liệu đầu vào được giữ lại trên bản đồ
Không gian ban đầu
Hình 2.8: Mô hình SOM
Kiến trúc của SOM
e Lớp đầu ra gồm các nơ-ron được bố trí trên một lưới (bản đồ) kích thước
X x Y.Mỗi nơ-ron có vị trí xác định trên lưới, tại mỗi nơ-ron lưu giữ một véc
tơ trọng sô có sô chiêu bang với sô chiêu của véc tơ đầu vào.
e Ma trận trọng sô :u;; kêt noi giữa véc tơ đầu vào và các nơ-ron.
19
Trang 30Hình 2.9: Ma trận trọng số
Thuật toán SOM
Xét một tập dif liệu là các véc tơ trong không gian n chiéu:
— T R”
% = [#1,#2, ,®n| ` €
Thông thường SOM gồm n nơ-ron nằm trong một lưới (thường có kích thước 2 chiêu)
Một no-ron thứ 7 là một véc tơ mẫu có kích thước p:
: = mm, len
m= [tmai, ma, ca Mip| =
Các nơ-ron trong lưới có liên kết đến các nút lân cận bằng một quan hệ láng giéng
Các láng giềng liền kể là các nơ-ron lận cận tùy theo bán kính lân cận của nơ-ron thứ ¡
N;(đ) = 7, dị; < d, với d là bán kính lân cận.
Các nút lận cận tùy thuộc vào bán kính, được sắp xếp trong lưới theo hình chữ
nhật hoặc lục giác Số các lân cận xác định ma trận trọng tâm của kết quả, có ảnhhưởng đến độ chính xác và khả năng sinh ma trận của SOM
Hình 2.10: Các lân cận
20
Trang 31Trong thuật toán SOM, các quan hệ hình học và số các nơ-ron là cố định ngay
từ đầu Số lượng nơ-ron thường được chọn đủ lớn nếu có thể, bằng cách điều khiển
kích thước cho phù hợp Nếu kích thước lân cận được lựa chọn là phù hợp thì ma trậnkhông bị mất mát thông tin nhiều ngay cả khi số các nơ-ron vượt quá số các véc tơđầu vào Tuy nhiên, nếu kích thước của ma trận tăng, ví dụ đến mười nghìn nơ-ron thìquá trình huấn luyện trở nên nặng nề vì việc tính toán sẽ không còn hợp lý cho phần
lớn các ứng dụng.
Trước khi huấn luyện các giá trị ban đầu được đưa ra là các véc tơ trọng số SOM
là thuật toán không phụ thuộc nhiều đối với dữ liệu ban đầu( dữ liệu có thể bị thiếu), nhưng thuật toán SOM vẫn hội tụ nhanh Có ba thủ tục khởi tạo điển hình sau:
e Khởi tạo ngẫu nhiên: véc tơ trong số ban dau được gan giá trị là các giá trị ngẫu
nhiên đủ nhỏ.
e Khởi tạo ví dụ: véc tơ trọng số ban đầu được gắn với các mẫu ngẫu nhiên rút ra
từ tập dữ liệu.
e Khởi tạo tuyến tính: véc tơ trọng số ban đầu được gắn trong một không gian con
tuyến tính bởi hai véc tơ của tập dữ liệu ban đầu
Trong mỗi bước huấn luyện, chọn ngẫu nhiên một véc tơ ví du x trong tập dữ liệuban dau Tính toán khoảng cách giữa x đến tất cả các véc tơ mẫu, trong đó e là đơn vị
có mẫu gần z nhất gọi là nơ-ron khớp nhất), được xác định như sau:
l# — mel] = min {|[# — m¿||}
với ||.|| là độ đo khoảng cách.
Sau khi tìm được nơ-ron khớp nhất, véc tơ trọng số của SOM được cập nhập lại.véc tơ trọng số của nơ-ron khớp nhất và các lân cận hình thái của nó di chuyển dầnđến véc tơ trong không gian đầu vào Thủ tục cập nhập này trải dài theo nơ-ron khớpnhất và các hình trạng lân cận của nó về phía véc tơ ví dụ
SOM cập nhập luật cho vectơ trọng số của đơn vị thứ i là:
mi(t + 1) = mi(t) + a(t)hei(t) [x — mi(t)] (2.7)
Trong đó:
e í: là thời gian
21
Trang 32e x: là véc tơ đầu vào ngẫu nhiên rút ra từ tập dữ liệu đầu vào tại thời điểm £
e a(t): là hệ số ty lệ học.
e h„;(£): là nhân lân cận quanh c tại thời điểm ¢, là hàm lân cận Gauss.
Nhân lân cận xác định vùng ảnh hưởng mà ví dụ đầu vào có trong SOM Nhân được thể hiện gồm hai phan: hàm lân cận h(t, đ) và hàm tỉ lệ học a(t):
hei(t) = h.( [re — rill ,t) a(t) (2.8)
VỚI 7, 7; là các vi tri ndron 2 và c.
Ham lân cận đơn giản nhất đó là hàm nổi bot: nó gồm toàn bộ lân cận của đơn vị
chiến thắng và bằng không nếu ngược lại (Hình 2.12) Ngoài ra, còn có hàm lân cậnGauxo.
Ham lân cận Gauss cho ra kết quả tốt hon, nhưng việc tinh toán lại nặng nề hơn.Thường thì ban đầu bán kính lân cận lớn và giảm dần xuống 1 trong suốt quá trìnhhuấn luyện Tỷ lệ học a(t) là một hàm giảm dan theo thời gian Hai mẫu dùng phổbiến là hàm tuyến tính và hàm nghịch đảo theo thời gian:
Trang 33là thiết lập SOM theo hình trạng tốt hơn trong khuôn khổ của tập dữ liệu hoặc thựchiện kết quả lượng tử hóa tốt hơn.
23
Trang 34Chương 3
Quá trình chan đoán bệnh tim
dựa trên ky thuật khai pha du
liêu
3.1 Tong quan quá trình chan đoán
Làm thế nào để chẩn đoán bệnh Tim? Thực tế cho thấy, khó có thể xác định được
bệnh nhân có nguy cơ mắc bệnh tim hay không khi chỉ thông qua một xét nghiệm
Việc chẩn đoán bệnh tim có thể dựa trên các thông tin lâm sàng (tuổi, giới tính, huyết
áp, có hút thuốc lá hay không, có bị tiểu đường hay không ) và các triệu chứng.
Tuy nhiên, việc đánh giá dựa trên những thông tin lâm sàng không hoàn toàn chính
xác Do vậy, việc chẩn đoán bệnh tim còn được thực hiện dựa vào đánh giá và phântích dữ liệu về sự thay đổi nhịp tim Đây chính là thuộc tính rất quan trọng trong chẩn
đoán bệnh tim mach [1] Trong khi các thông tin lâm sàng là dữ liệu tinh và rời rac,
thi sự thay đổi nhịp tim trong một giai đoạn thì thay đổi theo thời gian Dựa vào cácthuộc tính khác nhau của yếu tố nguy cơ, quá trình chẩn đoán bệnh tim có thể đượcchia ra thành hai bước kiểm tra Bước đầu tiên, các kỹ thuật khai phá dữ liệu cơ bảnnhư cây quyết định, khai phá luật kết hợp có thể được áp dụng trên các thông tinlâm sàng để nhóm các đối tượng vào các lớp khác nhau theo mức độ của sự rủi ro (có
bệnh hoặc không) Ở bước sau, dữ liệu về sự biến đổi của nhịp tim sẽ được khai phá
theo thời gian thực.
Hình 3.1 mô tả tổng quan của quá trình chẩn đoán bệnh tim mạch Ở bước chẩn
24
Trang 35Hình 3.1: Tổng quan hệ thống quá trình chẩn đoán bệnh tim
đoán đầu tiên thuật toán Apriori được áp dụng để khai phá luật kết hợp cho bệnh timdựa trên các thông tin lâm sàng của bệnh nhân Sau bước này, dựa trên kết quả thu
được, bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ mắc bệnh tim mạch cao
Nhóm bệnh nhân này tiếp tục được chuyển qua bước thứ hai của quá trình chẩn đoán
Ở bước thứ hai này, Kỹ thuật Poincaré và thuật toán GNG được áp dụng để chẩn đoán
dựa trên sự thay đổi nhịp tim khi bệnh nhân thực hiện các hoạt động hàng ngày.
3.2 Chan đoán bệnh Tim mạch dựa trên các thông tin
lâm sàng
Trong phần này, chúng tôi sẽ trình bày chỉ tiết bước đầu tiên của quá trình chẩn đoánbệnh tim Bước chẩn đoán này dựa trên các thông tin lâm sàng của bệnh nhân và sửdụng thuật toán Apriori để khai phá luật kết hợp cho bệnh tim
Hình 3.2 mô tả tiến trình chẩn đoán bệnh tim ở bước thứ nhất Đầu tiên, dữ liệulâm sàng của bệnh nhân được thu thập Sau đó, dữ liệu được tiền xử lý cho phù hợp
với định dạng đầu vào của thuật toán Apriori Ở bước này, thuật toán Apriori được áp
25
Trang 36Hình 3.2: Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân
dụng để khai phá luật kết hợp cho tập dữ liệu đã qua tiền xử lý Kết quả cuối cùng, ta
có một tập luật kết hợp để hỗ trợ cho quá trình chẩn đoán bệnh tim
3.2.1 Tiền xử lý Dữ liệu
Dữ liệu được thu trực tiếp từ các thiết bị hay do bệnh nhân cung cấp dựa trên nhữngquan sát và cảm nhận Đối với bệnh tim thì một mẫu dữ liệu thu được gồm 14 thuộc
tính được mô tả như trong Bang 3.1.
Các tập dữ liệu thu được thường chứa rất nhiều các thuộc tính được thu thập dưới dang số nhưng lại không đầy đủ, có nhiều lỗi và kiểu giá trị đặc biệt Vì vậy, giai đoạnthu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình khai phá tri thức
từ cơ sở dữ liệu Thuật toán Apriori được dé xuất cho dữ liệu rời rac nên không thể
áp dụng cho dữ liệu liên tục dạng số Mỗi giá trị dữ liệu rời rac được gọi là một item.
Ở giai đoạn tiền xử lý dữ liệu, chúng ta thực hiện chuyển đổi dif liệu dạng số sang dữ
liệu rời rạc biểu diễn bởi các items Bảng 3.2 sau mô tả quy tắc chuyển đổi dạng số
sang dạng đữ liệu rời rạc.
3.2.2 Các khái niệm và định nghĩa
Trước khi mô tả thuật toán, phần này giới thiệu một số định nghĩa, khái niệm và dữliệu được sử dụng trong thuật toán tìm luật kết hợp Apriori
26