TÊN ĐÈ TÀI: Ứng dụng khai phá dữ liệu và hệ hỗ trợ ra quyết định trong quản lý và điều trị bệnh đái tháo đường típ 2.. DANH MỤC CHỮ VIET TATDTD: Dai tháo đườngDSS: Decision Support Syste
Trang 1ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
lla
NGUYEN THI THIEN HUONG
QUYET ĐỊNH TRONG QUAN LÝ VA DIEU TRI BỆNH DAI
THAO DUONG TIP 2
LUAN VAN THAC SI
TP HO CHI MINH, thang 11 năm 2013
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HOC BACH KHOA -DHQG -HCM
Cán bộ hướng dẫn khoa hoc: TS Lê Thanh VânCán bộ cham nhận xét 1:TS Nguyễn Đức ThaiCán bộ cham nhận xét 2:TS Nguyễn Thanh Hiên
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 27 tháng 12 năm 2013.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ ho, tên, học ham, học vi của Hội đồng cham bảo vệ luận văn thạc sĩ)1 TS Dang Trần Khánh
2 TS Lê Thanh Vân
3 TS Nguyễn Đức Thái
4 TS Lê Thanh Hiên5 TS Lê Thanh Sách
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyền ngành sau khi luận van đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAMTRUONG ĐẠI HỌC BACH KHOA Độc lập - Tw do - Hanh phúc
NHIEM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYEN THỊ THIÊN HUONG MSHV:11320964
Ngày, thang, năm sinh: 16/12/1984 Nơi sinh: Quảng Ngãi
Chuyên ngành: Hệ thống thông tin quản lý Mã số: 603448I TÊN ĐÈ TÀI:
Ứng dụng khai phá dữ liệu và hệ hỗ trợ ra quyết định trong quản lý và điều
trị bệnh đái tháo đường típ 2.
Il NHIỆM VỤ VA NOI DUNG:
1 Thu nhap va tiền xử lý dữ liệu trước khi sử dụng thuật toán khai phá dữ
liệu đề tìm ra tri thức.2 Xây dựng mô hình phân lớp bệnh nhân.3 Tìm ra các luật giữa các thuộc tính của bệnh nhân.4 Xây dựng chương trình phân loại bệnh nhân trên mô hình phân lớp xâydựng được.
5 Xây dựng chương trình quản lý việc điều trị của bệnh nhân.Ill NGÀY GIAO NHIỆM VU: 14/01/2013
IV NGAY HOAN THANH NHIEM VU: 22/11/2013V CAN BO HUONG DAN: TS Lê Thanh Vân
Tp HCM, ngày 22 thang 11 năm 2013
CAN BO HUONG DAN CHU NHIEM BO MON DAO TAO
TRUONG KHOA
Trang 4LỜI CÁM ƠN
Lời cảm ơn đầu tiên tôi xin được gửi đến TS LE THANH VAN - giảng viêntrường đại học bách khoa tp Hồ Chí Minh, cảm ơn cô đã truyền đạt kiến thức, kinh
nghiệm và những gợi ý giúp toi hoàn thành luận văn này.
Tiếp theo tôi muốn gởi lời cảm ơn đến bác si NGUYEN THI THU HƯƠNG —nội trú nội tiết năm 3 trường đại học y dược tp H6 Chí Minh, cảm ơn bác sĩ đã cungcấp số liệu và chỉ dẫn cho tôi những kiến thức sơ lược về bệnh đái tháo đường cũngnhư đưa ra những nhận xét y khoa cho kết quả nghiên cứu
Tôi xin chân thành cảm ơn các thầy cô Khoa Khoa Học & Kỹ Thuật Máy
Tính, Khoa Quản Lý Công Nghiệp và Phòng Sau Đại Trường Đại học Bách
Khoa-Đại Học Quốc Gia TP.HCM đã tham gia giảng dạy, quản lý lớp học và truyền đạtkiến thức cho tôi trong suốt khóa học vừa qua
Lời cảm ơn sau cùng tôi xin được gửi đến gia đình và bạn bè, lời động viên
của mọi người đã giúp tôi có thêm niêm tin trong công viéc.
TP.HCM ngày 22 thang 11 năm 2013
Học viên cao học khóa 2011
Nguyễn Thị Thiên Hương
Trang 5TOM TAT NOI DUNG LUAN VANĐề tai được thực hiện nhằm nghiên cứu các yếu tố ảnh hưởng đến việc điều trị
bệnh đái tháo đường típ 2 tại Việt Nam hiện nay Xác định mức độ quan trọng
tương đối của các yếu tố này nhằm mục đích phân loại bệnh nhân, giúp cho các bácsĩ có cách điều trị bệnh tốt hơn so với hiện tại Đề tài cũng nghiên cứu mỗi quan hệtrong các thuộc tính của bệnh nhân, từ đó đưa ra các khuyến cáo, giúp bác sĩ có théxem xét các xét nghiệm nào can thiết được tiến hành để giúp cho quá trình chan
đoán bệnh của bệnh nhân hiệu quả hơn.
Nghiên cứu được tiễn hành theo 3 bước chính: (1) thu thập dữ liệu; (2) xử lý
dữ liệu; (3) ý nghĩa thực tiễn y học rút ra được từ dữ liệu đã được xử lý
Thu thập dữ liệu được tiến hành băng cách lấy dữ liệu nghiên cứu “Địnhlượng HbAIc để theo dõi kiểm soát đường huyết bệnh đái tháo đường tip 2” do hộiNội Tiết và Dai Tháo Đường Tp Hồ Chí Minh tổ chức
Xử lý dữ liệu: gồm 2 bước chính là tiền xử lý dữ liệu và sử dụng phần mềmWeka để xử lý dữ liệu
Y nghĩa thực tiễn đó là tham khảo ý kiến bác sĩ chuyên khoa dé rút ra ý nghĩa
thực tiễn từ các luật được trích ra
Ngoài ra dé tài cũng dé xuất ý tưởng chăm sóc bệnh nhân băng cách xây dựngchức năng quản lý Chức năng này có nhiệm vụ nhắc nhở bệnh nhân ngày tái khámđịnh kỳ, giải đáp thắc mac của bệnh nhân và có thé cập nhật các bài báo về sứckhỏe cho bệnh nhân một cách hiệu quả nhất
Trang 6ABSTRACT
The purpose of this study is to investigate the factors that affect the treatmentof type 2 diabetes in Vietnam, determine the relative weight of these factors toclassify patient, help the doctor do the treatment in a more efficient way.
This study also investigates the relationship among the properties of type 2diabetes to give recommendation to doctors, help them determine the necessarymedical test to increase performance of diagnostic process.
The study is carried out through three steps: (1) data collecting; (2) dataprocessing; (3) medical data meaning.
The data collecting process is based on data of the research “Quantify ofHbA Ic in monitor and control blood sugar of type 2 diabetes patient” conducted byAssociation of Endocrine and Diabetes Ho Chi Minh City.
The data processing includes two steps: the data are firstly pre-processed thenprocessed using WEKA software.
Medical data meaning: the mining rules generated from WEKA software arepassed to specialist doctors to deduct medical meaning.
Moreover, the study also proposes the idea of doing patient care throughpatient management module This module will have some function like prepareschedule and remind patient to go to the doctor, manage patient questions and sendout the related medical news, research s to patient in a more convenient way.
Trang 7LỜI CAM ĐOANTôi xin cam đoan sô liệu được sử dụng trong nghiên cứu này là sô liệu sô liệuthực, do tôi nhập liệu từ các bệnh án xét nghiệm một cách trung thực và kháchquan Việc khảo sát, nghiên cứu và thực hiện do tôi tự làm.
Trang 8MỤC LỤC
LOL CÁM ƠN 2c th HH HH reTOM TAT NOI DUNG LUẬN VĂN -¿- +52 SE E1 3 1E 1211111211111 11 11.1 xe ll
1.2.1 Thực trạng bệnh đái tháo đường ở nước fa - ke 4
1.2.2 Một số van dé đang tổn tại trong các cơ sở y tẾ ở nước ta -. -c-: 41.2.3 Tình hình ứng dụng CNTT vao y tẾ ¿c2 252222 ESEEEEEEEEErkrrkrrrreee 51.3 Mục tiêu và nội dung dé tài - 2 5-1 S23 1 1511112111111 1111011111111 51.4 Ý nghĩa để tài ¿- - S523 1 E5 5 123 15151111 11111111 1111011151111 01 11.11111101 re 61.5 Phạm vi và giới hạn dé tải - + 2 5 SE SE 3 1515 3 121111151111 11 111111111 71.6 Bố cục luận Văn - tk 119191 1E 5111919111 10111511111 011111110110 1g vớ: 7
CHƯƠNG 2: KIÊN THỨC CƠ BẢN VỀ BỆNH DAI THÁO DUONG TIP 2 9
2.1 Dai tháo đường tip 2 - Gv 92.1.1 Định ng hÍa - (<< 19000 re 9
2.1.2 Các yếu tổ nguy cơ cho sự phát triển bệnh ĐTĐ 2-5- 2 + 25525: 9
Trang 92.2 Biến chứng bệnh đái tháo đường ¿- + ¿25252 2E+E+EE£E£EvEEzEvEerererrrrees 102.3 Các yếu tô liên quan đến bệnh đái tháo đường - 5+ 2 55+c5scsccee 112.3.1 Thuốc lá va bia ru oe ececesccscscecesessssscscecescecevscscececsevacscscecescecacecsevavacsceeeees 11
2.3.2 Béo Dhl - cv 112.3.3 Địa Ư - Gv 122.3 ⁄4 GIỚI TÍnhh G0 vn 12"0 0 6e :43 122.4.1 Dinh nghia ee 12
2.4.2 Ý nghĩa HbA Ic trong chan đoán bệnh DTD tip 2 -5- 5555: 122.5 Khái niệm đường huyết đói - ¿2 5£ SE+E+EESE£E#EEEEEEEEEEEEEEEEkrkrkrrkrrrreee 122.6 Phác đỗ điều trị bệnh đái tháo đường IIDE -.- 25-5252 2s+SS+£s+xeeezecsee 13CHƯƠNG 3: CƠ SƠ LY THUYET 5c 55+cxteEteEterkrerkrerkrerkerrkrrrked 153.1 Tổng quan về hệ hỗ trợ quyết định (DSS-Decision Support System) 153.1.1 Khái niệm hệ hỗ trợ quyết 310055 153.1.2 Các bước của hệ hỗ trợ ra quyết định: cnnn s1 ren 153.1.3 Hệ hỗ trợ quyết định trong y tế (CDSS) 5S 2 EcEctsrsrrrkrree 153.1.4 Mô hình hệ hỗ trợ quyết định sử dung trong bài toán và ý nghĩa 17
3.2 Bài toán phan lớp bệnh nhân dựa trên luật sinh ra từ tập dữ liệu 17
3.2.1 Phát biểu bai toán phân lớp bệnh nhân dựa trên luật sinh ra từ tap đữ liệu 17
Trang 103.2.4.2 Các cách tiếp cận phương pháp kết hợp các bộ phân loại 27
3.2.4.3 Mô hình hoạt động cua Bagging (Boostrap Aggregation) 27
3.3 Khai phá sự kết hợp của các thuộc tinh << << 111 34 283.3.1 Phát biểu bài toán - + S212 E2 E1 1 111511511 2111171111 0111111111111 xe 28E400 0á) 01 -:Ö11 28(0< : tA 31CHUONG 4: TIEN XỬ LÝ DU LIEU & PHAN TÍCH SU PHAN BO CAC
THUOC TINH CUA BỆNH NHAN eecceccscccececesecsesececececsssevscececsevevecaceceesevavaceaveees 324.1 Ngu6n dit liQU eccccccccccscscscscscscscsssscscscscsssscscsssssssescscscsssscscsssssssscscessesessescseens 32
4.2 Các bước xử lý dữ liỆU - + 2565611 E1 1212151511 1121 111115111111 11 1.1111 324.2.1 Loại bỏ và hiệu chỉnh lại dif liệu - ¿22 + E2 £E+E£E+EeE£EzErereereree, 33
4.2.2 Chuyên đổi dữ liệu ¿- E6 S223 3915 1212111511111 251111711511 11111 344.2.3 Chuyển đổi các thuộc tính có dạng số thành dạng Nominal 354.2.3.1 Phân loại BMI theo tiêu chuẩn - ¿+ + 6E EsEsE‡E+ESeEsEseeeseseree 35
4.2.3.2 Phân loại vòng ©€O - nọ nọ nọ 35
4.2.3.3 Phân loại đường huyết đói - + 2522552 E+EE‡EeEerrrerrrerrrree 354.2.3.4 Phân loại độ tuôi ¿- - < + xxx S9 91911 E113 112v 1v ng ree 364.3 Thống kê các thuộc tính của bệnh nhân + + << << << 22<<ssssss 364.3.1 Thông kê số bệnh nhân theo tuổi ¿-¿-¿- 2 2 2+£+E+E+£z£E+EzEzEerzree: 364.3.2 Thong kê số bệnh nhân theo chỉ số BMI ¿2-2-5552 2 2+s+s+£zcze: 374.3.3 Thông kê số bệnh nhân theo thời gian mắc bệnh - 5 2s: 384.3.4 Thống kế số bệnh nhân theo chỉ số đường huyết đói -5-5- 394.3.5 Thong kế số bệnh nhân theo chỉ số HDAIC 2- + 2 2 2 2+s+s+£zcze: 404.3.6 Thống kế số bệnh nhân theo vòng eO -¿- ¿+2 +52 s+x+Ez£e+x+xrerrerered 414.3.6 Thong kê tỉ lệ phần trăm các yếu tố của người bệnh - 424.3.7 Thong kê tỉ lệ phần trăm sử dung các loại thuốc của người bệnh 43
Trang 11AA TOng c6 -::3-1-A 44CHƯƠNG 5: XÂY DUNG MÔ HÌNH e.eccccscscecccscecscscscecececececececececseceveveveveveveraeees 45
5.1 Xây dựng mồ hình phân lớp bệnh nhân - - «5 S321 ssesss 45
5.1.1 Phần mềm Weka - + cv hệt tr HH2 455.1.2 Dinh dạng dữ liệu huấn luyện, dữ liệu kiểm thử -. - + cece 455.1.3 Xây dựng mô hình sử dụng phần mềm Weka 5- 55255252 475.1.3.1 Nhập dữ liệu đầu vào ¿- - + S221 1 t2 E1 1112151111111 11111111 re 47
5.1.3.2 Xây dựng mô hình phân lỚp - - - - << + 112111 3111 ke 46
5.1.3.3 Kiếm tra, đánh giá mô hình -. - 2 2 +£+E+E£EE£E+E+EeErerxreressee 495.1.4 Các luật rút ra được từ mô hình cây quyết định và ý nghĩa y học 515.1.5 Kiém chứng, dé xuất với phác đồ điều trị bệnh đái tháo đường của tô chức
IDF đỀ xuât Gv 52
5.2 Xây dựng luật kết hợp các thuộc tính của bệnh nhân đái tháo đường tip 2 545.2.1 Các luật kết hợp rút ra duoc từ xử lý WIEEKA ccccccccccceereree 545.2.2 Ý nghĩ y khoa của các luật kết HOP w.cecceccececccssesessssescscssssssesssssesseseseessesees 55
5.2.2.1 Luật chỉ ra sự tương quan giữa béo bụng và béo phì ««‹- 56
5.2.2.2 Các luật anh hưởng đến tăng huyết áp veces 565.2.2.3 Luật ảnh hưởng đến RL/LP - 5 + +E+E+E£E£EEEEEEEEEEEErkrkrkrkrered 58
CHUONG 6: XÂY DUNG CHUONG TRINH PHAN LOẠI VA QUAN LÝBỆNH NHAN - G1 112v 1911191911 5111015111 101111111112 ng ni 59
N6) 0 0a 596.2 Tính năng chương trÌnhh - + 1 119990010 0 ngờ 596.2.1 Nhập thông tin bệnh nhân - - - - << G5100 11999 ng ke 59
6.2.2 Nhập thông số chân đoán ¿- - 2 2 52522392 SE‡E£EEEE2EEEEEEeErrerkrrerrree 596.2.3 Tiến hành chân đoán -:-5:-c+ tre 59
6.2.4 Quản lý bệnh nhân - G5 5G 0010119999000 0n ke 60
Trang 126.2.5 Cập nhật mô hình ¿2 2 +EE+EEE£E#EEEE£E#EEEEEEEEE 51115111511 te 60
6.3 Thiết kế chương trinh ¿ - 5 2566 2EE£EEEEE2EEE#E2EE E23 1511115152521 711521 E xe 606.3.1 Sơ đồ hoạt động - - + 25c S11 1E 111112151311 11 1171111111011 11 011111 rk 606.3.2 Ngôn ngữ lập trình và thư viện phần MEM ¿-22 + 2©s+s+se55¿ 616.3.2 Thiết kế giao iON eecececcccccccccccscsssscscssscsscscscscsescsescscssssesessssscsssssecsesssssseseseess 63
6.3.2.1 Giao diện nhập dữ liệu oo cscssescssssscssesesessssssssesesssesssseseseans 63
6.3.2.2 Các nút điều khiỂn -¿-¿- + S2 SE 2E 1+ 2E EE E315 1 12112111 11x re, 636.4 Một số kết quả chạy thử chương trinh -¿- ¿5-5 25252 2E£E+E+Ec£EzErezrererered 64
6.4.1 Xây dựng mô hình dựa vào tập dữ liệu training - -««««- 64
6.4.2 Chân đoán bệnh nhân - EsEE SE SE E$E#E#E SE ke eEgxrvev se ree 656.4.3 Kiểm tra dit liệu bệnh nhân - - G- + E6 SE ESEESE SE EeEsEEESEE xxx ree 666.5 TOM 7 1 67CHUONG7: DANH GIA KET QUA NGHIÊN CUU V KIÊN NGHỊ 687.1 Kết quả nghiên CUU ceccccccscsscsesesesesscsesesssssscsssesscsesessesssesscseseescsesesssseseessseseeseees 687.1.1 Tóm tat nội dung nghiên CỨU o.cccccecccccsessssssesesesessesesessssesessssessssssseeeseseeeees 687.1.2 Đóng góp của dé tài + + c1 1t E111 111112111111 017111 0111011101200 re 687.2 Hạn chế và hướng nghiên cứu tiếp theo - - + 5 + + s+x+S+£x+x+Ezevxerereexeee 697.2.1 Hạn chế của dé tầi - tt 11198 1E 91119151 1 5 9111191 1101112613 1xx 697.2.2 Hướng nghiên cứu tiếp theo - ¿+ - ¿56 +52 SE+E+EEE£ESEEE2EEEEEEErrkrererrees 69TÀI LIEU THAM KHẢO G-G G63 539191 3E 9191 1 1 111121 1E 1121 eo 71LY LICH TRÍCH NGANG - G1 939191 1E 919151 1 3 511111 0 111111 1 ng: 74
0000 5 745
Trang 13DANH MỤC CHỮ VIET TATDTD: Dai tháo đường
DSS: Decision Support System - Hệ hỗ trợ ra quyết địnhCDSS: Clinical Decision Support System - Hệ hỗ trợ ra quyết định trong y tế
Data Mining : Khai phá dữ liệuCNTT : Công Nghệ Thông Tin
THA: Tăng Huyết ápRLLP: Rối loan lipidIDF : International Diabetes Federation - Hiệp hội đái tháo đường thé giớiCDA: Chế độ ăn
YTNG: Yếu tố nguy cơBMI: Body Mass Index - Chỉ số khối của cơ thểWHO: World Health Organization —T6 chức y tế thế giớiDH: Đường Huyết
CSDL: Cơ Sở Dữ LiệuSu: SulfonylureaMet: Metformin
OLAP: Online Analytical Processing - Xử lý phân tích trực tuyến
Trang 14DANH MỤC BANG
Bang 4.1: Bảng phân loại thé trang cơ thé theo chỉ số BMI -. - 35Bảng 4.2: Phân loại tình trạng cơ thé theo chỉ số đường huyết đói 35Bang 4.3: Bang thống kê tỉ lệ % các yếu tố của người bệnh DTD tip 2 42Bảng 4.4: Bảng thống kê tỉ lệ % các thuốc đang dùng - + 5552: 43Bảng 4.5: Tỉ lệ sử dụng thuốc trong các bệnh nhân có đường huyết được kiểm soátBảng 4.6: Tỉ lệ sử dụng thuốc trong các bệnh nhân có đường huyết chưa được kiếm
ủi ố 44
Trang 15Hình 3.5: Mô hình cây quyết định -¿-2- + 222cc 2EEeErxrkrkrrerrrreee 24
Hình 3.6: Mô hình bagging sử dụng 3 bộ phân loại cơ bản . 28
Hình 4.1: Thống kê số bệnh nhân theo tui ¿2 - + 2 2+2+£+£+££££E£E+£z£rscxd 36Hình 4.2: Thống kê số bệnh nhân theo chỉ số BMI -2-5- 55 +52 £2£s+s+c+2 37Hình 4.3: Thống kê số bệnh nhân theo thời gian mắc bệnh - 5 +: 38Hình 4.4: Thống kế số bệnh nhân theo chỉ số đường huyết đói - 39Hình 4.5: Thống kế số bệnh nhân theo chỉ số HbA Ic 5- - 2 +52 2£s+s+5+240Hình 4.6: Thống kế số bệnh nhân nữ theo vòng eO . 2- + + +cs+ccs+s+see: 41Hình 4.7: Thống kế số bệnh nhân nam theo vòng €0 c.ccscscsssessesesessesesesesseseseesesen 41Hình 5.1: Nhập dữ liệu vào phan mềm Weka.uw ccccceccceccssssesescesssessesesessseseeseseees 47Hình 5.2: Xây dựng mô hình phân lớp bang phần mềm Weka - - 48Hình 5.3: Các thông số của thuật toán bagging + 52552552 ce+eseececcee 49Hình 5.4: Kiểm tra đánh giá độ chính xác mô hình 2- 5-55 c2 52£s+s+S+2 50Hình 5.5: Phác đồ điều trị DTD tip 2 theo IDF dùng Metformin - 52Hình 5.6: Phác đồ điều trị DTD tip 2 theo IDF thêm insulin - - - 53Hình 5.7: Các thông số thuật toán Apriori trong Weka ccccecsesessesssesseseseseeeeen 55Hình 6.1 So đồ khối chức năng, hoạt động của chương trình << «+61Hình 6.2: Môi trường phát triển Eclipse với các thư viện liên quan - 62Hình 6.3: Thiết kế giao diện phan mềm + 22 + 22222 £E+E+EE£E+EeEzsrxeseei 64Hình 6.4: Kết quả xây dựng kiểm tra bộ phân lớp - +5 + ++s+s+cszszxee: 65Hình 6.5: Chạy chương trình chân đoán bệnh nhân - ¿2-5-5 2 2 2+s+szS+2 66Hình 6.6: Kiểm tra dữ liệu bệnh nhân - - 2 E2 E+EEE+E#E£E+EEEsEeEeEsEvErerxei 67
Trang 16CHƯƠNG 1:GIOI THIỆU
Chương | giới thiệu tong quan về dé tài Chương này trình bay các phần chínhsau (1) giới thiệu về những van đền liên quan đến hệ hỗ trợ quyết định trong y tế;(2) lý do hình thành đề tài; (3) mục tiêu và nội dung nghiên cứu của đề tai; (4) giớihan và phạm vi nghiên cứu; (5) ý nghĩa thực tiễn của đề tài vào tình hình y tế nước
ta hiện nay; (6) cudi cùng là trình bày bô cục của luận văn.1.1 Giới thi u đề t i
Hệ hỗ trợ ra quyết định y tế (CDSS) là phần mém tương tác hỗ trợ ra quyếtđịnh, được thiết kế nhăm giúp bác sĩ và các chuyên gia y tế trong việc quyết địnhthực hiện các tác vụ y khoa như đưa ra các chân đoán dựa trên dữ liệu bệnh nhân|{ 1].Hoạt động của hệ hỗ trợ ra quyết định y tế (CDSS) được mô tả như sau: “Làviệc kết nối những quan sát y tế và kiến thức y tế nhăm tác động đến những lựachọn điều trị của bác sĩ nhăm nâng cao hiệu quả chăm sóc y tế” (theo Robert
Hayward - Centre for Health Evidence) [1].
Do đó hệ hỗ trợ ra quyết định y tế (CDSS) là một chủ đề chính của ngành trí
tuệ nhân tạo trong lĩnh vực y khoa.
1.1.1 Ứng dụng hệ hỗ trợ ra quyết định trong lĩnh vực y tẾTrong lĩnh vực y tế, hệ hỗ trợ ra quyết định đã bước đầu được quan tâm,nghiên cứu, ứng dụng và thu được những kết quả nhất định
Hệ hỗ trợ ra quyết định được dùng như một công cụ tư vấn cho bác sĩ trongcác giai đoạn chan đoán khác nhau như sau:
+ Trước chân đoán: giup bac sĩ xác định các chân đoán, xét nghiệm cần thực
Trang 171.1.2 Hiệu quả của hệ hỗ trợ ra quyết định trong y tẾThống kê năm 2005 của nhóm Garg dựa trên kết quả của 100 nghiên cứu ứngdụng hệ hỗ trợ ra quyết định cho biết có 64 nghiên cứu cho kết quả có ích; đồngthời chỉ ra rằng lượng dữ liệu và phương pháp, thuật toán sử dụng trong các ứngdụng trên có nhiều tiến triển trong suốt giai đoạn 1973-2004 [1].
Cũng trong năm 2005, thống kê định lượng của nhóm Kawamoto cho thay hệhỗ trợ ra quyết định có hiệu quả đáng kể trong khoảng 68% các ca điều trị [1]
Từ các thống kê trên ta rút ra nhận xét là việc áp dụng hệ hỗ trợ ra quyết địnhtrong y tế đang phát triển và có độ tin cậy ngày càng cao
1.1.3 Một số kết quả nghiên cứu, ứng dung trong và ngoài nướcKết quả nghiên cứu trên thé giới
Việc áp dụng hệ hỗ trợ ra quyết định vào trong y tế đã được nhiều tô chức cơsở trên thế giới áp dụng, có nhiều ứng dụng ra đời với mục tiêu hỗ trợ việc điều trịvà chân đoán bệnh hiệu quả hơn Qua tìm hiểu ta thay có một số tô chức nỗi trội
sau:
CADUCEUS là hệ thống chan đoán y tế xây dựng bởi Harry Pope từ nhữngnăm 1970 đến khoảng 1985 mới hoàn thành, là một hệ cơ sở tri thức y tế đồ sộ, cóthé chân đoán trên 1000 bệnh khác nhau [1]
DiagnosisPro là một hệ chân đoán trực tuyến với cơ sở dữ liệu trên 11000bệnh và 15000 tài liệu mô tả triệu chứng bệnh, trang web hoạt động trực tuyến cókhoảng 60000 truy cập/tháng (số liệu năm 2008-2009) [1]
Canada Health Infoway là một tô chức phi lợi nhuận hỗ trợ chính phủ tô chứcnay đã dé xuất những tiêu chuẩn chăm sóc sức khỏe nhất quán trên khắp Canada.Cơ sở hạ tầng của Infoway được dựa trên công nghệ SOA (Service OrientedArchitecture) và mục tiêu của nó là để kết nối mạng lưới hệ thống y tế cấp tỉnh đểtạo thành một mạng toàn quốc, nơi các hồ sơ y tế điện tử có thé truy cập từ các địađiểm khác nhau [2]
EGADSS (Evidence-based Guidelines And Decision Support System) là một
ứng dụng độc lập hỗ trợ học viên tại điểm chăm sóc bằng cách tự động tạo ra cảnh
Trang 18báo và nhắc nhở EGADSS thông qua một ngôn ngữ mã hóa kiến thức y tế để xácđịnh logic ra quyết định [2].
COMPETE (Computerization Of Medical Practices for the Enhancement of
Therapeutic Effectiveness) la một dự án dự định cung cấp VIỆC ra quyết định dựatrên máy tính hỗ trợ các cơ sở quản lý bệnh nhân tăng huyết áp, tiểu đường,cholesterol, tiền sử bệnh tim và/hoặc đột quy và bệnh man tính [2]
Malysia: nghiên cứu việc áp dụng OLAP và khai phá tri thức trong hệ hỗ trợ
ra quyết định Hệ hỗ trợ quyết định ra đời với mục đích giảm giá cả về y tế và nângcao chất lượng dịch vụ [2|
Ninh, đa khoa tỉnh Phú Thọ, đa khoa TW Thái Nguyên uy nhiên mô hình bệnh
viện này chưa áp dụng hệ hỗ trợ ra quyết định vào việc hỗ trợ bác sĩ trong quá trìnhchan đoán và điều trị bệnh
Nghiên cứu khác là xây dựng hệ hỗ trợ ra quyết định về quá trình chân đoánbệnh qua số liệu siêu âm tim mạch “Quá trình xây dựng hệ hỗ trợ ra quyết định nàyđược thực hiện dựa trên sự kết hợp giữa cơ sở lý thuyết tập mờ, đại số gia tử vàphương pháp suy diễn mờ để tiễn hành Việc xây dựng ứng dụng được thực nghiệmtrên dữ liệu mẫu tại Viện Tim mạch Tp HCM, kết quả bước đầu đã thử nghiệm trên3000 mẫu dữ liệu về triệu chứng suy tim của bệnh nhân và chương trình đưa ra kếtquả chân đoán với độ chính xác trên 80% so với kết quả chân đoán thực tế” [4].Nghiên cứu trên đã ứng dụng hệ hỗ trợ ra quyết định vào trong chân đoán bệnh suy
tim.
Trang 191.2 Cơ sở hình th nh đề t i1.2.1 Thực trạng bệnh dai thao đường ở nước ta
Ở Việt Nam hiện nay, bệnh đái tháo đường đang có chiều hướng gia tăng Tỷlệ người bị mắc bệnh đái tháo đường trên toàn quốc là 2/7%, ở khu vực thành phốlà 4.4%, ở miễn núi và trung du là 2,1% và ở đồng bang là 2/7% Các con số nàyđược đưa ra tại Hội nghị thượng đỉnh Quỹ đái tháo đường thế giới khai mạc ngày
(21/2/2012) tại Hà Nội.
Hiện Việt Nam năm trong nhóm 10 quốc gia có tỷ lệ mắc bệnh này cao nhấtthế giới: gia tăng 211% trong vòng 10 năm (2002-2012) Tại Tp HCM, theo điềutra dịch tễ học do Trung tâm Dinh dưỡng Tp HCM tiến hành năm 2012 trên nhữngngười trưởng thành từ 30-69 tuôi thì tỉ lệ đái tháo đường là 11,4%, tăng 300% so
với năm 2002 là 3.8%.
Nguyên nhân chính khiến bệnh đái tháo đường gia tăng là do nhận thức cộngđồng về phòng bệnh thấp, tỷ lệ bệnh không được phát hiện cao, cán bộ va cơ sở vậtchất dé theo dõi và điều trị còn rất hạn chế
Ngoài ra quá trình đô thị hóa và sự phát triển kinh tế làm thay đổi lối sốngtheo chiều hướng không có lợi cho sức khỏe: sống tĩnh tại, ít vận động, ăn nhiều
thức ăn nhanh, chăm sóc trẻ em và phụ nữ có thai thái quá là những nguyên nhân
dẫn đến đái tháo đường gia tăng nhanh ở Việt Nam.Theo Tổ chức Y tế thế giới, đái tháo đường là một trong 3 căn bệnh có tốc độphát triển nhanh nhất va đang là một trong những nguyên nhân gây tử vong hàngđầu ở các nước phát triển [5]
Chính vì vậy, việc phòng và điều trị bệnh đái tháo đường đang là một mỗiquan tâm của rất nhiều gia đình và toàn xã hội
1.2.2 Một số van dé dang tôn tại trong các cơ sở y té ở nước ta
Thực trạng ở nước ta hiện nay là các bệnh viện lớn quá tải bệnh nhân trong khi
các bệnh viện ở tuyến tỉnh thì ít bệnh nhân Nguyên nhân chính của tình trạng nàylà bệnh viện lớn có nhiều bác sĩ giỏi và nhiều kinh nghiệm hơn
Hơn thế nữa, môi trường xã hội luôn thay đổi đòi hỏi kiến thức y học phảiđược cập nhật dựa trên thực nghiệm Thế nhưng các cơ sở y tế đặc biệc là ở cấp
Trang 20phường xã, tình hình cập nhật kiến thức y khoa chưa được chú trọng, đó chính làmột trong những nguyên nhân cơ bản dẫn đến việc phân bố bệnh nhân không đồngđiều tại các cơ sở y tế.
1.2.3 Tình hình ứng dụng CNTT vào y tếViệc ứng dụng CNTT vào hoạt động của ngành y tế là một trong những yêu caucấp thiết hiện nay Trước mắt, đó là nhu cau rat lớn trong việc xây dựng hệ thống dữliệu quốc gia về y tế bởi hiện nay VN mới chỉ có các số liệu thống kê trong các lĩnhvực riêng lẻ như y tế dự phòng, HIV/AIDS mà chưa có một co sở dữ liệu mangtính hệ thông, tổng thé của ngành y tế Với hàng triệu lượt khám chữa bệnh va chanđoán hình ảnh mỗi năm, ngành y tế đang rất cần xây dựng một hệ thống lưu trữ dữliệu bệnh án tài chính, thuốc, xét nghiệm [6]
Như vậy việc ứng dụng CNNT vào trong y tế ở nước ta đã đang được quan tâmvà từng bước tiến triển
Ngành y tế đang đầu tư phát triển kho dữ liệu theo chuẩn chung cho các tổ chứccơ sở khám bệnh chứa thông tin về hồ sơ của bệnh nhân [6] Tuy nhiên việc ứng
dụng DSS vào trong công tác quản lý, khám và chữa bệnh vẫn chưa được quan tâm
như nhiều tổ chức y tế khác trên thé giới Với mong muốn nâng cao chất lượng dịchvụ y tế, nâng cao công tác quản lý bệnh nhân và sử dụng kho dữ liệu đã và đangđược thiết lập, luận văn mong muốn áp dụng CNTT ở đây là khai phá tri thức và hệhỗ trợ ra quyết định vào trong nên y tế ở nước ta
Với những nguyên nhân trên luận văn: “Ứng dụng khai phá dữ liệu và hệ hỗ trợra quyết định trong quản lý và điều trị bệnh đái tháo đường típ 2” ra đời
1.3 Mục tiêuv nội dung đề t iMục tiêu và nội dung của dé tài gôm 4 phan chính sau đây:
1/ Thu nhập dữ liệu y tế đã có, dữ liệu này được thu nhập cho dé tài “Khao sátđịnh lượng HbAlc dé theo dõi kiểm soát đường huyết bệnh đái tháo đường tip 2”do hiệp hội đái tháo đường tp Hồ Chí Minh triển khai và nghiên cứu Sau đó ta tiễnhành tiền xử lý dữ liệu trước khi sử dụng thuật toán data mining để xây dựng mô
hình phân lớp.
Trang 212/ Tiếp theo dé tài sử dụng thuật toán data mining dé phân lớp bệnh nhân DTDthành 2 lớp: lớp bệnh nhân có đường huyết được kiểm soát tốt, lớp bệnh nhân cóđường huyết chưa được kiểm soát tốt với cơ chế điều trị hiện tại Đó chính là thànhphan chính của hệ hỗ trợ ra quyết định giúp cho bác sĩ có thé điều chỉnh cách thức
chữa bệnh phù hợp với từng loại bệnh nhân hơn.
3/ Ngoài ra, dé tài còn tìm ra mối liên hệ giữa các thuộc tính trong dữ liệu củabệnh nhân đái tháo đường, giúp bác sĩ chân đoán bệnh tốt hơn
4/ Cuối cùng dé tài dé xuất và xây dựng chức năng quản lý bằng cách xâydựng hệ thông cảnh báo/nhắc nhở cho bệnh nhân và thay thuốc như sau:
+ Đối với bệnh nhân: hệ thống nhac nhở chỉ áp dụng đối với đối tượng bệnhnhân chọn đăng ký vào hệ thống, việc triển khai thực tế thì có các lựa chọn chophép bệnh nhân lựa chọn chức năng này và có thu phí nhất định
+ Đối với thay thuốc: theo dõi quá trình bệnh của bệnh nhân và có trách nhiệmnhắc nhở bệnh nhân ngày giờ khám bệnh định kỳ, nếu tình trạng của bệnh nhân ởmức báo động thì phải điều chỉnh ngày tái khám hợp lý
1.4 Ý nghĩa đề t i
Đề tài phân loại bệnh nhân thành 2 lớp: lớp bệnh nhân có đường huyết đượckiểm soát tốt, lớp bệnh nhân có đường huyết chưa được kiểm soát tốt với cơ chếđiều trị hiện tại Cơ sở đó giúp các bac sĩ điều chỉnh cách điều trị cho hợp lý hơn
Ngoài ra, đề tài cũng chỉ ra được mối liên hệ giữa các thuộc tính: độ tudi, BMI,vòng eo, giới tính, chế độ ăn, tập thé dục, của bệnh nhân DTD tip 2.Từ đó cónhững chân đoán tốt hơn cho bệnh nhân: ví dụ bệnh nhân DTD tip 2 bị béo bụngthì sẽ bị rối loạn lipid từ đó khuyến cáo bác sĩ nên làm những xét nghiệm liên quanđến RLLP
Hơn thế nữa, để tài cũng mong muốn xây dựng hệ hỗ trợ với mục đích giúpbác sĩ tuyến dưới tham khảo cách điều trị bệnh ở các bệnh viện lớn để cập nhật tìnhhình chữa trị, tình hình thuốc men và những lời khuyên hợp lý cho bệnh nhân
Trang 22Cuối cùng dé tài góp phan trong việc ứng dụng CNTT mà ở đây là khai phádữ liệu, hệ hỗ trợ quyết định vào trong y tế, nhằm nâng cao chất lượng và dịch vụ y
tế ở nước ta.1.5 Phạm viv giới hạn đề t i
Đối tượng nghiên cứu là bệnh nhân đái tháo đường típ 2 đang khám và điều trịbệnh tại một số cơ sở y té: bénh vién Da khoa Dong Nai, bénh vién Nguyễn TriPhuong, bénh vién Cần Thơ và bệnh viện Cho Ray "
Quá trình lây mẫu bệnh nhân được thực hiện bởi hiệp hội dai tháo đường Tp.H6 Chí với dé tài “Khảo sát định lượng HbAIc để theo dõi kiểm soát đường huyếtbệnh đái tháo đường tip 2” Sau khi khảo sát các yếu tô lịch sử, lay máu, mẫu máuđược đưa qua trung tâm y khoa medic Hòa Hảo dé xét nghiệm
Đề tài chỉ khảo sát các thuộc tính đã được lấy trong mẫu: năm sinh, giới tính,BMI, vòng eo, chỉ số HbAlc, chỉ số đường huyết đói, các loại thuốc dang dùng,chế độ ăn, chế độ tập luyện, uống rượu, hút thuốc lá, THA, RLLP
1.6B cục luận van
Luận văn được thực hiện gom cac 7 chuong sauChương 1: Giới thiệu tổng quan - Giới thiệu về những van đền liên quan đếnhệ hỗ trợ quyết định trong y tế, cơ sở hình thành đề tài, mục tiêu nghiên cứu của détài, phạm vi và giới hạn nghiên cứu, ý nghĩa thực tiễn và bố cục của luận văn
Chương 2: Kiến thức cơ bản về bệnh đái tháo đường tip 2 - Giới thiệu tongquan về đái tháo đường típ 2 và ý nghĩa của các thuộc tính liên quan
Chương 3: Cơ sở lý thuyết - Trình bảy cơ sở toán học và việc áp dụng lýthuyết này vào bài toán
Chương 4: Quá trình thu nhập và tiền xử lý dữ liệu - Trình bày cách thu nhậpdữ liệu, các bước tiễn hành xử lý dữ liệu, phân tích thống kê các thuộc tính của
bệnh nhân.Chương 5: Xây dung mồ hình - Trinh bày cách áp dụng Weka vào việc xây
dựng mô hình, ý nghĩa thực tiễn từ mô hình xây dựng được
Trang 23Chương 6: Xây dựng chương trình phân loại và quản lý bệnh nhân — Chương
trình thực hiện việc nhập thông tin bệnh nhân và xuất ra kết quả chân đoán dựa trênmô hình DSS xây dựng ở chương 4, chương 5.Kết quả chân đoán và dữ liệu bệnhnhân được lưu trữ nhằm thực hiện chức năng quản lý (lên lịch tái khám, kiểm tralịch sử điều trị) Ngoài ra, những kết quả chan đoán tốt có thé được sử dụng dé cập
nhật lại mô hình DSS.
Chương 7: Đánh giá kết quả nghiên cứu: nhận định kết quả nghiên cứu, nêunhững hạn chế và đề xuất hướng nghiên cứu tiếp theo
1.7 Tổng kếtTóm lại, chương 1 đã giới thiệu tông quan về đê tài, giới thiệu về tình hình sử
dụng hệ hỗ trợ ra quyết định trong y tế (CDSS), nội dung mục tiêu và ý nghĩa củađề tài Đồng thời chương này cũng đưa ra cơ sở áp dụng hệ hỗ trợ (DSS) vào trongbệnh DTD tip 2 Tiếp theo chương 2 sẽ trình bày tổng quan về bệnh DTD tip 2
Trang 24_ CHƯƠNG2: | OoKIEN THUC CO BAN VE BENH DAI THAO DUONG TIP 2
Chương 2 trình bay tong quan kiến thức bệnh đái tháo đường tip 2.Nội dungcủa chương nay gồm 6 phan sau: (1) định nghĩa bệnh DTD tip 2; (2) biến chứngbệnh DTD ;(3) các yếu tố liên quan đến bệnh DTD; (4) giới thiệu về HbAIc; (5)giới thiệu về đường huyết đói; (6) phác đồ điều trị bệnh DTD cho bệnh nhân châu A(2013) theo tiêu chuẩn IDE
2.1 Đái tháo đường típ 2
2.1.1 Định nghĩa
Bệnh DTD tip 2 xảy ra do tình trạng rối loạn chuyên hóa cacbonhidrat chủ yếudo sự thiếu insulin hoặc tình trạng dé khang insulin Tinh trang dé khang insulin giatăng ở người béo phi, tăng huyết áp, rỗi loan lipid máu
2.1.2 Các yếu tô nguy cơ cho sự phát triển bệnh DTDSau khi tong hợp các bài báo về bệnh DTD ta có các nguy cơ sau [7], [27]:
+ Có tiền căn trực hệ gan trong gia đình có người mac bệnh DTD (cha me
hoặc anh chị em ruột).
+ Có tiền căn bị các bệnh về mạch máu.+ Thuộc sắc dân có nguy cơ cao (Mỹ da đen, Mỹ La tinh, Mỹ bản xứ, Mỹ gốcchâu A, dân đảo châu A — Thái Binh Duong )
+ HbAIc > 5,7 %
+ Nữ có hội chứng buông trứng đa nang
Trang 25+ Tuôi: theo khuyên cáo của WHO các đôi tượng trên 45 tuôi nên tam soátDTD, bởi vì bệnh DTD gia tăng theo tuôi, tuy nhiên cân nhớ bệnh có thê xảyra ở bat cứ độ tuôi nào, nêu càng có nhiêu yêu tô nguy cơ thì nên tâm soát sớm
Tăng huyết áp thường gặp ở bệnh nhân đái tháo đường, ty lệ mắc bệnh chungcủa tăng huyết áp ở bệnh nhân đái tháo đường gấp đôi so với người bình thường.Trong đái tháo đường típ 2, 50% đái tháo đường mới được chân đoán có tăng huyếtáp Tăng huyết áp ở người đái tháo đường típ 2 thường kèm theo các rối loạnchuyển hoá và tăng lipid máu [7|, [27]
Trang 26máu [7], [27].
Ngoài ra còn có một số các biến chứng khác như: Bệnh lý mat ở bệnh nhân đáitháo đường: bệnh than kinh do đái tháo đường: bệnh lý bàn chân do đái tháo đường:nhiễm khuẩn ở bệnh nhân đái tháo đường Chi tiết các bệnh nay được tham khảo ở
chương 2 của [7][27].2.3 Các yéut liên quan đến b nh đái tháo đường2.3.1 Thuốc la và bia rượu
Thuốc lá và bia rượu là những chất gây hại cho cơ thể, làm nặng thêm các rốiloạn chuyển hoá Một số nghiên cứu ở châu Âu cho thấy tỷ lệ hút thuốc lá ở bệnhnhân đái tháo đường khá cao, có nhiều vùng trên 50% [8] Trường đại họcLausanne (Anh) đã tiến hành 25 cuộc nghiên cứu trên 1,2 triệu bệnh nhân và nhậnthay những người hút thuốc có 44% nguy co mắc bệnh đái tháo đường tip 2 Nhữngngười hút thuốc có xu hướng hình thành những thói quen không có lợi khác, chănghạn như không tập thé dục thé thao hoặc ăn những thực phẩm không có lợi cho sức
khỏe.2.3.2 Béo phì
“Béo phi là trạng thái thừa mỡ của co thể” [9] Theo các chuyên gia của WHO,béo phì là yếu tố nguy cơ mạnh mẽ nhất tác động lên kha năng mac đái tháo đường
típ 2.
Trang 27Một số nghiên cứu của Việt Nam cũng cho kết quả tương tự Nghiên cứu củaNguyễn Huy Cường tại Hà Nội cho thấy tỷ lệ mặc đái tháo đường ở nội thành là
14%, ngoại thành là 0,6%.2.3.4 Giới tính
Nghiên cứu về tình hình đái tháo đường và yếu tô nguy cơ được tiến hành trêncả nước năm 2002 - 2003 cho thay không có sự khác biệt về tỷ lệ mắc bệnh theo
giới.
2.4 HbA lc2.4.1 Định nghĩa
Hemoglobin (Hb) là một trong những thành phan cau tạo nên tế bào hồng cầucủa máu, có vai trò vận chuyển oxy trong máu Bình thường luôn luôn có sự gankết của đường trong máu với Hb của hồng cầu HbAlc chiếm phan lớn ở ngườilớn, nó đại diện cho tình trang gan kết của đường trên Hb hong cau
Sự hình thành HbAlc xảy ra chậm 0 05% trong ngày, và tổn tại suốt trong đờisống hong cầu 120 ngày (3 tháng) thay đối sớm nhất trong vòng 4 tuần lễ
2.4.2 Y nghĩa HbAIc trong chan đoán bệnh DTD tip 2Xét nghiệm HbA Ic cho biết mức đường huyết trung bình của bạn trong 2-3tháng vừa qua Đây là xét nghiệm tốt nhất để theo dõi sự kiểm soát đường huyết,giúp bạn và bác sĩ điều trị đánh giá được đường huyết có kiểm soát tốt hay không
trong thời gian vừa qua [7], [27].2.5 Khái ni m đường huyết đói
Là đường huyết đo được khi bệnh nhân nhịn ăn qua đêm (>= 8 tiếng)
Trang 282.6 Phác đồ điều trị b nh đái tháo đường IDF
Bệnh đái tháo đường được điều trị theo tiêu chuẩn mới của IDF cho các nướcChâu Á (2013) như hình sau:
Phác đồ điều trị mới của IDFTha HT XS Sóng Ti) [= Tiếp cận thường dùng `
Sau đó, ở mỗi bước, nếu không đạt mục tiêu ( HbA, <7.0%) Í ] = Thay thế
Chọn hàng đầu
Sulfonylurea
Hoặc
ee ee xi a-Glucosidase inhibitor
Metformin |_| Thiazolidinedione, Hoặc
(Nếu không ở Hoặc DPP-4 inhibitor, Hoặc
Với bệnh nhân mới được chan đoán DTD, mức đường huyết không quá caoHbA Ic < 8% thì có thể xem xét đơn trị liệu Nếu quyết định chỉ sử dụng một loạithuốc thì có thể xem metformin là lựa chọn được ưu tiên hàng đầu hiện nay Khi
Trang 29Khi metformin không phải là thuốc được lựa chọn ở hàng thứ nhất thì có thểxem xét việc kết hợp thêm metformin ở hàng thứ hai này Khi đã phối hợp hai loạithuốc mà vẫn không đạt được mục tiêu đường huyết đề ra thì sẽ phải qua hàng thứba Trong trường hợp này thì phải sử dụng đồng thời ba loại thuốc hoặc kết hợp với
insulin.
Lua chon két hop voi insulin van là ưu tiên được chon lựa vi giúp kiểm soátđường huyết được tốt nhất, lúc này có thé là insulin nền hoặc insulin trộn sẵn Tuynhiên việc thuyết phục bệnh nhân đồng ý với việc tiêm insulin hăng ngày đôi khi ratkhó khăn, khi đó có lựa chọn cho bác sĩ là sử dụng thêm thuốc thứ 3 như:thiazodiadinone, DPPIV, đồng vận GLP1
Và cuối cùng vẫn không kiểm soát được đường huyết như mong muốn thì phảisử dụng insulin với phác đồ basal bolus hoặc insulin trộn săn 2 hoặc ba mũi mộtngày Khi đã sử dụng ở phác đỗ này thì thường phải ngưng các thuốc có cơ chế kíchthích tiết insulin như sulfonuylurea vì tăng nguy cơ hạ đường huyết cho bệnh nhân
Trang 30CHUONG 3: CƠ SƠ LÝ THUYET
Chương 3 trình bày cơ sở toán học và việc áp dụng lý thuyết này vào bài toán.Chương này gồm 3 phân chính sau (1) Giới thiệu về hệ hỗ trợ ra quyết định và môhình áp dụng hệ hỗ trợ vào dé tai; (2) Trình bày các bước cơ bản của khai phá dữliệu, bài toán phân lớp bệnh nhân dựa trên cây quyết định và thuật toán học máybagging; (3) phan này trình bày bài toán khai phá luật kết hợp, ý nghĩa của nó trongthực tế
3.1 Tong quan vềh_ hỗ trợ quyết định (DSS-Decision Support
System)3.1.1 Khai niệm hệ hỗ trợ quyết dinh-DSS
Hệ hỗ trợ ra quyết định một hệ thống thông tin tương tác dựa trên máy tínhnhăm giúp người dùng đưa ra quyết định hợp lý vào đúng lúc và có mức phí hợp lý.Đó là sự kết hợp giữa tri thức và việc tạo lập quyết định Hệ hỗ trợ ra quyết định cóthể dùng cho cá nhân hoặc tô chức Việc hỗ trợ có thể là gián tiếp hoặc trực tiếp
[12].
3.1.2 Cac bước của hệ hỗ trợ ra quyết định:
Việc ra quyết định bao gồm 3 bước cơ bản sau:+ Thu thập thông tin, tri thức (thu thập, chọn lọc, chuẩn hóa, )+ Thiết kế: Xây dựng các phương án thay thế Phân tích các phương án từ đó
Trong lĩnh vực y tế, hệ hỗ trợ ra quyết định cung cấp thông tin tri thức và thông
tin của từng bệnh nhân cho đội ngũ bác sĩ, nhân viên, người bệnh hoặc các cá nhân
Trang 31Lợi ích hệ hỗ trợ quyết định y tế [1]
+ Tăng cường chât lượng của công tác chăm sóc y tê, đem lại cho bệnh nhân
sức khỏe tốt hơn.+ Tránh được các sai sót và các tình huồng nguy hiểm.+ Tăng cường hiệu quả, giảm chi phí cho nhà cung cấp dịch vụ y tế đồng thời
+ tăng mức độ hài lòng của người bệnh.
Các loại hệ hỗ trợ ra quyết định trong y khoaTrong y tế có 2 loại hỗ trợ ra quyết định chính: (1) Hệ thống dựa trên nền tảngkiến thức (knowledge base): (2) Hệ thống không sử dụng nên tảng kiến thức (non-
knowdelge base).CDSS dựa trên knowledge-based
Hau hết CDSS bao gồm 3 phân chính là knowledge base, co chế suy luận, vaphương thức để truy xuất Thành phần knowkedge base bao gồm các luật và mốiliên quan của dữ liệu, thông thường là các luật IF-THEN Nếu hệ thống xác định sựtương tác của thuốc thì luật có thể là nếu sử dụng thuốc X và sử dụng thuốc Y thìcảnh báo người dùng Ngoài ra, hệ thống còn cho phép cập nhật kiến thức(knowledge base) dé cập nhật tình hình mới nhất [1]
Trang 32Nhập: thông tin ` (He hỗ trợ B § Xuất: phân loại
sức khỏe của bệnh quyết định bênh nhân theo
nhân Xử lý tiêu chuẩn đái
tháo đường
\_ y, \ y,
Hình 3.1: Mô hình hệ hỗ trợ ra quyết định áp dụng trong bài toán.Mô hình này gm 3 phần chính:
Nhập: cho phép người sử dụng nhập thông tin sức khỏe của bệnh nhân.
Xứ lý(H hỗ trợ ra quyết định): xử lý thông tin bệnh nhân được nhập vào.Xuất: loại bệnh nhân, bệnh nhân thuộc lớp đường huyết kiểm soát tốt hoặc lớpcó đường huyết chưa được kiểm soát tốt
Ý nghĩa của mô hình ¬
Việc phân loại bệnh nhân thành thành lớp kiêm soát đường huyết tôt hay kiêm
soát đường huyết chưa tốt là co sở giúp cho việc diéu trị bệnh được tốt hơn
3.2 B i toán phan lớp b nh nhân dựa trên luật sinh ra từ tập dữliu
3.2.1 Phát biểu bài toán phân lớp bệnh nhân dựa trên luật sinh ra từ tập dữ
liệu
Dựa trên dữ liệu thu thập được từ các hồ sơ bệnh nhân, sử dụng khai phá trithức dé xây dựng các tập luật là một cơ sở quan trọng trong hệ hỗ trợ quyết định
Trang 333.2.2 Cơ sở lý thuyết
3.2.2.1 Khai pha dữ li u (data mining) 1 gi
“Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuỗicủa thập niên 1980 Nó là quá trình trích xuất các thông tin có giá trị tiềm ân bên
trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu Hiện nay,
ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý
nghĩa tương tự như: khai phá tri thức từ CSDL, trích lọc dữ liệu, phân tích dữ
liệu/mẫu, khảo cô dữ liệu, nạo vét dữ liệu Nhiều người coi khai phá dữ liệu và một
thuật ngữ thong dụng khác va phát hiện tri thức trong CSDL (Knowlegde
Discovery in Databases - KDD) là như nhau Tuy nhiên trên thực tế, khai phá dữliệu chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong CSDL Có thénói khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình phát hiện tri thứctừ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và
kinh doanh.”
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuấtra Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khókhăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại
toàn bộ qua trình,
Trang 34Ln eee meee ewe eww eee oo eo
wwe mem em em em Mm em em em em em em Me ee ew em em em em em em em ew eee em em em em em em em me me Se em em em em em em em em ets ew ew em em ee ee
Hình 3.2: Quá trình khai pha dit liệu [28]
(1) Gom dit liệu (Gathering): Tập hợp dữ liệu là bước đầu tiên trong quá trình
khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ
liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web.(2) Trích lọc dữ liệu (SelecHon): Ở giai đoạn này dữ liệu được lựa chọn hoặcphân chia theo một số tiêu chuẩn nao đó phục vụ mục đích khai thác, ví dụ chọn tatca những người có tuôi đời từ 25 - 35 và có trình độ đại học
(3) Làm sạch, tiêm xử lý và chuẩn bị trước dữ liệu (Cleansing,
Pre-processing and Preparation): Giai đoạn thứ ba này là giai đoạn hay bị xao lang,
nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Mộtsố lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logic Vìvậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu,ví dụ như tuôi = 673 Giai đoạn này sẽ tiễn hành xử lý những dang dữ liệu không
chặt chẽ nói trên Những dữ liệu dạng này được xem như thông tin dư thừa, không
có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không
Trang 35thực hiện các thao tác nhóm hoặc tập hợp.(5) Khai phá dữ liệu (Data mining): Day là bước mang tính tu duy trong khai
phá dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích racác mẫu từ dữ liệu Thuật toán thường dùng là nguyên tac phân loại, nguyên tac kết
hợp luật,
(6) Đánh giá các luật và biểu diễn tri thức (Evaluation of Result): O giaiđoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu.Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vìvậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức(Knowlege) cần chiết xuất ra Đánh giá sự hữu ích của các mẫu biểu diễn tri thứcdựa trên một số phép đo Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoádữ liệu để biéu diễn tri thức khai phá được cho người sử dụng
Trên day là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn 5
-khai phá dữ liệu (hay còn gọi đó là Data Mining) là giai đoạn được quan tâm nhiềunhất
3.2.2.2 B ¡ toán phan lớpDinh nghĩa
Bài toán phân lớp là phân tích dữ liệu nhăm rút trích các mô hình mô tả các
lớp dữ liệu hoặc dự đoán xu hướng dữ liệu.
Quá trình xây dựng mô hình gồm hai bước chính
Xây dựng mô hình
+ Xây dựng mô hình: xây dựng bộ phân loại (classifier) băng việc sử dụng cácgiải thuật phân loại (classification Algorithms) từ dữ liệu huấn luyện (trainingdata) Lập huấn luyện là một tập dữ liệu có cầu trúc được mô tả băng các
thuộc tính và được tạo ra từ tập các bộ giá tri của các thuộc tính.
Trang 36+ (2) Sử dụng mô hình để phân loại đối tượng mới (Unseen data) nếu độ chínhxác của bộ phân loại là chấp nhận được (acceptable).
Vi du minh họa:
Mục đích: Phân loại bệnh nhân nữ vào 2 lớp: lớp có kết qua DTD dương tinhvà lớp có kết qua DTD âm tính Mỗi bệnh nhân có các thuộc tính sau dùng dé phânloại: DTD thai sản, BMI, tudi
Bước 1: Xây dưng mo hình
Thi Có 21 | 67 | Dương tínhCúc Có 27.5| 37 | Dương tínhMai Có 26 | 44 | Dương tínhHuệ Không 22 | 55 | AmtinhHanh Có 18 |30 | Amtinh
Hà Không 23.5| 65 | Dương tính
Giải thuật
ZO TM
IF ‘DTD thai san’ = ‘C6’AND BMI > 25
Trang 37Bước 2: Sử dụng mô hình được xây dựng ở bước 1: gồm 2 bước sau
ace
a eee,| Dữ liệu mới `
tên_ |PTo thal sin|BMI {Tuổi kết quả Br | ‘= C6, 30, =Nhan Am tinh
Ngoc thông 24 | 33 Am tinh
Tinh Có 25.3! 35 | Dương tínhThùy Có 28.4) 50 | Dương tính
Kết quảDTD?
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết địnhtới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phân lớp dữ
liệu là tim ra được một thuật toán phân lớp nhanh, hiệu qua, có độ chính xác cao vàcó khả năng mở rộng được.
Đánh giá mô hình phan loại dựa vào các thuộc tính sau [13]+ Độ chính xác (predictive accuracy): Độ chính xác của bộ phân loại M kí
hiệu là acc(M) được định nghĩa là phần tỉ lệ % dự đoán đúng của tập kiểm thử( test set) Phần trăm sai số: 1-acc(M)
+ Tốc độ (time): Thời gian xây dựng mô hình (training time), thời gian sử
dụng mô hình cho việc phân loại và dự đoán (classification and predictiontime)
Trang 38Cac kỹ thuật phân lớp [13]
+ Phân lớp cây quyết định (Decision tree classification)
+ Phân loại dữ liệu với mạng Bayesian (Bayesian classifier)+ Phân loại dữ liệu với mạng Neural
+ Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier)+ Phân tích thong kê
+ Các thuật toán di truyền
+ Phương pháp tập thô (Rough set Approach)
Chi tiết về các thuật toán phân lớp có thé xem thêm ở [13] chương 8.3.2.2.3 Trình b y cây quyết định
Định nghĩa cây quyết địnhCây quyết định với những ưu điểm của mình được đánh giá là một công cụmạnh, phố biến và đặc biệt thích hợp cho khai phá dữ liệu (data mining) nói chungvà phân lớp dữ liệu nói riêng [15] Có thể kế ra những ưu điểm của cây quyết địnhnhư: xây dựng tương đối nhanh, đơn giản, dễ hiểu Cuối cùng, việc phân lớp dựatrên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các
phương pháp phân lớp khác [15].
Trang 39Car type € {sport} / Car type € {family, truck}
Risk = High Risk = Low
Hình 3.5: Mô hình cây quyết định [15]Risk = mm
Trong cây quyết định:¢ Gốc: là node trên cùng của cây¢ Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật).¢ Nhánh: biéu diễn các kết quả của kiểm tra trên node trong (mũi tên)
¢ Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn).Quá trình xây dựng cây quyết định gồm hai giai đoạn [13][15][14]+ Giai đoạn thứ nhất phát triển cây quyết định
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạptheo cách thức chia dé trị cho tới khi đạt được cây quyết định với tat cả các lá được
gán nhãn lớp.
+ Giai đoạn thứ hai cat, tia bớt các cành nhánh trên cây quyết địnhGiai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độchính xác của cây quyết định băng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise)của dữ liệu dao tao mang tinh chat thong kê, hay những sự biến đổi mà có thé là đặctính riêng biệt của dữ liệu dao tạo Giai đoạn này chỉ truy cập dữ liệu trên cây quyếtđịnh đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai
Trang 40thuộc tính đã chọn.
3) Sắp xếp, phân chia tập dữ liệu đảo tạo tới node con.4) Nếu các ví dụ được phân lớp rõ ràng thì dừng
Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con Các thuật toán khác
nhau có các cách giải quyết van dé khác nhau cho hai giai đoạn trên trên.Có 3 loại tiêu chuẩn hay chỉ s dé xác định thuộc tính t t nhất phát triển tại
mỗi node như sau
+ Gini-index (Breiman và các đồng sự, 1984 [14], [13])Loại tiêu chuẩn này lựa chọn thuộc tính mà làm cực tiểu hóa độ không tỉnhkhiết của mỗi phân chia Các thuật toán sử dụng này là CART, SLIQ,
SPRINT.+ Information—gain hoặc Information gain ratio (Quinlan, 1993 [14][13])
Khác với Gini-index, tiểu chuẩn lựa chọn thuộc tinh theo mức cực đại hóa chisố entropy Các thuật toán sử dụng tiêu chuẩn này là ID3, C4.5
+ ⁄2 -bang thông kê các sự kiện xảy ra ngâu nhiên [14], [13]
x2 do độ tương quan giữa từng thuộc tinh nhãn lớp Sau đó lựa chon thuộc
tính có độ tương quan lớn nhất, CHAID là thuật toán sử dụng tiêu chuẩn này.3.2.3 Một số van dé với bài toán phan loại
Có 2 vẫn đề xay ra với kết quả dự đoán của các bộ phân loại đó là kết quả dựđoán bị lệch (bias), tức là kết quả có thiên hướng sai giống nhau và kết quả dự đoán
quá khác biệt nhau (variance).Bias
“Giả sử rang chúng ta có các tập dữ liệu huấn luyện khác nhau, và tốt như
nhau, một thuật toán được coi là dự đoán lệch (bias) với một dữ liệu dau vào x nêu