BO GIAO DUC VA DAO TAO DAI HOC HUE
TRUONG DAI HOC KHOA HOC
CHU SĨ THÀNH
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG HỆ HỖ TRỢ QUYET DINH CHAN DOAN GOUT
LUAN VAN THAC SI KHOA HOC
CONG NGHE THONG TIN
Thừa Thiên Huế, 2020
Trang 2
PHAN MO DAU > Ly do chon dé tai
Bénh gout (gout tiéng Anh hay goutte tiếng Pháp) là bệnh nằm trong nhóm bệnh lắng tụ các tinh thể, cụ thê ở đây là lắng tụ tinh thể monosodium urat trong các khớp do tỉnh trạng axit uric tăng cao trong máu gây ra các đợt viêm khớp ngoại biên của chân tay, đặc biệt hay xảy ra ở ngón chân cai Tinh trang viêm này là do các con bạch cầu - được ví như các lính chiến đấu trong cơ thé - gây ra khi di don dep các tinh thé
urat
Bệnh thường mở đầu bằng các cơn gout cấp Cơn gout cấp được định nghĩa là viêm khớp với sự lắng tụ các tinh thé urat trong các khớp, dẫn đến tình trạng viêm cấp và cuối cùng là sự hư hại các mô làm phá hủy khớp gây ra tàn phế Cơn gout cấp có thể bị day lùi bằng các thuốc hiện có và chế độ ăn kiêng nhưng nên nhớ rằng đây là loại bệnh không thê chữa dứt, nghĩa là bệnh nhân phải chấp nhận ăn kiêng và theo dõi bệnh suốt đời Nếu không điều trị hoặc để cơn gout xảy ra nhiều lần sẽ gây ra hủy hoại khớp đưa đến tàn phế Những bệnh nhân bị các cơn gout cấp liên tiếp hay dai dăng, nhiều năm sau sẽ chuyền sang gout man tinh kèm các tophi Tophi thường được coi là biến chứng muộn của gout, đó là những cục thấy ở dưới da tại các khớp, các
túi hoạt dịch, sụn, xương ở nhiễu nơi trong cơ thể, hình thành do sự lắng tụ các tinh
thé urat Tophi có thể vỡ ra ngoài da, có màu trắng hay vàng nhạt - trắng
Sau một thời gian dài tích tụ tỉnh thể muối urat trong các khớp và mô bao quanh khoảng chừng một năm thì gout sẽ khởi phát Các triệu chứng dễ nhận thấy là nóng, đau, sưng, mềm tại các khớp, triệu chứng này được gọi là podagra
Trang 3LOI CAM DOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu phát sinh trong công việc đề hình thành hướng ứng dụng Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn thu thập được là trung thực chưa từng được ai công bố trước đây
Thừa Thiên Huế, tháng 03 năm 2020
Học viên
Trang 4LOI CAM ON
Trước tiên tôi xin được gửi lời cảm ơn chân thành đến Ban Giám hiệu, Phòng
sau đại học và các giảng viên trong khoa Công nghệ Thông tin Trường Đại học Khoa
học — Đại học Huế đã tạo điều kiện và môi trường học tốt nhất Quý Phó Giáo sư —
Tiến sĩ đã tâm quyết không ngại đường sá xa xôi, đến đề truyền đạt cho chúng tôi những kiến thức vô cùng quý báu, cũng như phương pháp học tập và nghiên cứu Tôi xin chân thành cảm ơn Ban Giám hiệu, các đồng nghiệp trong Trường THPT Nguyễn
Huệ - Gia Lai đã tạo điều kiện, giúp đỡ tôi trong quá trình thực hiện luận văn
Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới thầy hướng dẫn PGS-TS
LÊ MẠNH THẠNH Thây đã tận tình hướng dẫn, giúp đỡ đề tôi có thể hoàn thành
luận văn này
Trong quá trình thực hiện luận văn, tôi đã nhận được sự giúp đỡ của các bạn bè,
quý thầy cô trong ngành Công nghệ Thông tin, quý cán bộ y bác sỹ khoa Nội tổng
hợp của bệnh viện Đa khoa tỉnh Gia Lai, bệnh viện Đại học ŸY Dược - Hoàng Anh
Gia Lai và bệnh viện đa khoa thành phố Pleiku Mặt dù rất cố gắng nhưng không thê tránh khỏi những thiếu sót trong lúc thực hiện, tôi rất mong đón nhận những đóng góp ý kiến từ bạn bè, thầy cô và các chuyên gia
Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tơi hồn thành ứng dụng khoa học này
Trang 5Quá trình phát triển cây sẽ tiếp tục cho tới khi:
Cây quyết định phân loại hoàn toàn (perfectly classifies) các đữ liệu đầu vào
Tất cả các thuộc tính được sử dụng
> Giả mã của thuật toán ID3 như sau:
Dữ liệu vao: Bang quyét dinh DT = (U, C U {d}) Dữ liệu ra: Mô hình cây quyết định
FEunction Create_tree (U, C, {d}) Begin
If tat cả các mẫu thuộc cùng nhãn lớp d; then
refurn một nút lá được gan nhan dj
else if C = null then
return nut lá có nhãn đ; là lớp phổ biến nhất trong DT
else
begin
bestAttribute:= getBestAttribute(U, C);
// Chọn thuộc tính tốt nhất đề chia
C:= C- {bestAttribute}; //xoa bestAttribute khỏi tập thuộc tinh
voi mdi v in bestAttribute Begin
Uy := [U]v; //Uy la phan hoạch của U
ChildNode:=Create_tree(Uvy, C, {d}); //Tao 1 nut con
end end End
Trang 6Chuong 2 MO HINH PHAN LOP DU LIEU TRONG HE HO TRO
QUYÉT ĐỊNH 52 2222222211211122112111221221121221221222222 re 15
2.1 Giới thiệu vé khai pha dit LGU ceo ccc ccecceceeeseeee tees nese tecettseeeteneeeeeees 15
2d -Khai niém: Khai pha Gt WOU: serpeenccsewccceemnecnuememueemene masmnecemmemnees 15
2.1.2 Các chức năng chính của khai phá dữ liệu - ¿5s s:+s++s+2 17 2.1.3 Ứng dụng của khai phá dữ liệu -2-©2222222222225222512112222222-e 18
2.1.4 Một số kỹ thuật trong khai phá dữ liệu
2;9 Phân lớp dữ HỆU: seseseseonasooaaasarssurdra 20
2.3 Một số kĩ thuật phân lớp dữ liệu
2.3.1 Luật kết hợp 21
2.3.2 Cây quyết định 24
2.3.2.1 Dinh nghia va vi du eee 24
2.3.2.2 Một số thuật toán xây đựng cây quyết định 2e 2/Ƒ 2.3.2.3 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu
2.3.2.4 Thuật toán xây dựng cây quyết định dựa vào Entropy 2.3.2.5 Thuật toán ID3
2.4 Tiểu kết chương 2 52 222222221222122212221121222222 e6 38
Chuong 3: XAY DUNG UNG DUNG HE CHAN DOAN GOUT 39
8 deat DAL OMI serererse cence reer imnerannseseronierenimnemanasrore arene meriermereer ume 39 3.1.1 Tổng quan về bệnh gout -2- 222 2212221222122122122122121121 22 2e 39
3:1:2- Thực trang bệnh;gouEhiên P8 WosssscssosensieeieioBitstlsDlisosjasseeaoseauel 41
3.1.3 Nguy hại của bệnh gout ảnh hưởng đến sức khỏe cộng đồng 42
3.2 Xây dựng hệ thống -.-222222212211221122112112112112112212222222 se 42
3.2.1 Bài toán đặt ra nh eseeeseecscesececeesisisnenenensseseeseeseeeees 42 3:2.2 Thư thâp dit iu wcscnecnnmemnmneee ener 42 3.2.3 Xây dựng cây quyết định 2-22 221222122212211221122122222 re 45
3.2.4 Giao diện của của hệ thống -©2222222221221222121121121121 22 2e 68
Người dùng cần giao tiếp với hệ thống thông qua giao diện sau đây: 68
3.3 Tiểu kết chương 3 -.- 522222 221122121112112112112112221222222222 ra 68
KÉT LUẬN 2 22 2222211221121112111211121112212212122122122212121222 re 69
TÀI LIỆU THAM KHẢO ©2222222221222122122122121121121222222 xe 70
Trang 7Bang 2.1 Bang 2.2 Bang 2.3 Bang 2.4 Bang 2.5 Bang 2.6 Bang 2.7 Bang 3.1 Bang 3.2 Bang 3.3 Bang 3.4 Bang 3.5 Bang 3.6 Bang 3.7 Bang 3.8 Bang 3.9 Bang 3.10 Bang 3.11 Bang 3.12 Bang 3.13 Bang 3.14 Bang 3.15 Bang 3.16 Bang 3.17 Bang 3.18 Bảng 3.19 Bảng 3.20 DANH MỤC CÁC BẢNG Trang
Ví dụ về một cơ sở dữ liệu dang giao dịch - D à sec: 22
Các tập phổ biến trong CSDL ở bảng 1 với độ hỗ trợ tối thiểu 50% .23
Bảng dữ liệu huấn luyện - 22222 22122212112211221122122222 xe 33 Tinh giá trị các Entropy va InfOrgain -:- cccccccsssrerrrrsrreres 34 Bảng dữ liệu huấn luyện đã loại bỏ thuộc tính “ độ Âm” c, 35 Tinh giá trị các Entropy và Inforgain sau khi loại thuộc tính “độ âm” 35
Tính giá trị các Entropy và Inforgain cho nhánh “trung bình” 37
Bảng dữ liệu huấn luyện được lấy từ hồ sơ bệnh án và các chuyên gia.44 Bảng huấn luyện ứng với các thuộc tính - 22222222222122122126 46 Tinh giá trị các Entropy và Inforgain của tất cả thuộc tính 48
Bảng dữ liệu huấn luyện đã loại bỏ thuộc tính B + 49
Tính giá trị các Entropy và Inforgain sau khi loại thuộc tính B 50
Tập huấn luyện ứng với giá trị “có” của thuộc tính C - 51
Tinh gia tri cac Entropy va Inforgain sau khi loai thuéc tinh C 51
Tập huấn luyện ứng với giá trị “Không” của thuộc tính E 52
Tinh gia tri cac Entropy va Inforgain sau khi loai thuéc tinh E 52
Tập huấn luyện ứng với giá trị “To” của thuộc tính D - 5 33 Tinh giá trị Entropy và Inforgain của A ứng với nhánh trái của D 53
Tap hudn luyén tng voi gia tri “C6” cla Bao cece eee eeceeeeeeee 54 Tinh gia tri cac Entropy và Inforgain tng voi nhanh trai cia B 55
Tap hudn luyén tng voi gia tri “Thap” cha Aone 56 Tinh gia tri cac Entropy va Inforgain sau khi loại bỏ A - 57
Tap hudn luyén ing voi gia tri “Khong” cla Eos 58 Tinh gia tri cac Entropy va Inforgain sau khi loại bỏ E 58
Trang 8Bang 3.21 Bang 3.22 Bang 3.23 Bang 3.24 Bang 3.25 Bang 3.26 Bang 3.27 Bang 3.28 Bang 3.29
Tinh giá trị Entropy và Inforgain của D sec ssieirerrreree 60 Tập huấn luyện ứng sau khi loại bỏ A -2-©2222222222222E222222x22e 61 Tính giá trị các Entropy và Inforgain sau khi loại A - 62 Tập huấn luyện ứng sau khi loại bỏ C .-2-©222222222222212222222222e 63 Tinh gia tri cac Entropy va Inforgain sau khi loại C - 64 Tập huấn luyện ứng sau khi loại bỏ TD 2-©22222222222221222222222e2 64 Tinh giá trị Entropy và Inforgain của E c cccccssierernkerree 65 Tập huấn luyện ứng với giá trị “Vừa” của D -22- 222222 szev 65 Tinh giá trị Entropy và Inforgain của E ứng với nhánh trái của D 66
Trang 9DANH MUC HiNH ANH
Trang
Hinh 1.1 Hệ thống thông tin hiện đại 52-222 2222222221221112111211221212 2e 7
Hình 1.2 Hoạt động của hệ thống thông tin 22-222 22222512251223121112111212 222.2 8 Hinh 1.3 Hệ thống thông tin trong quan ly kinh tẾ -2-©222222222225222522222222-e2 9 Hinh 1.4 Sơ đồ mô tả quá trình ra quyết định . -22-222222222212221221222 e6 12 Hình 1.5 Thành phần của hệ hỗ trợ quyết định -.-5222222212221222122122ee 13 Hinh 2.1 Quá trình khai phá dữ liệu . - 5c 2:32 St EsEEtrrrxerrerrrrrrsree 16 Hình 2.2 Phân lớp dữ liệu - i22: 2112121121111 E1 E11 Hy Hàn tiệt 21 Hinh 2.3 Vi du về cây quyết định 222222 222222122212211221122222222ee 24
Hình 2.4 Cây sau khi chọn thuộc tính Độ âm (3) 2 22c 2 2e 34
Hình 2.5 Cây sau khi chọn thuộc tính Quang cảnh (ID3) :s:+s:5: 36 Hinh 2.6 Cây kết quả (ID3) -©22¿222222221222112231122112211221221211 21 cee 38 Hình 3.1 gout tấn công khớp bàn chân, khớp cổ chân - 2222222222222 39
Hinh 3.2 Cây sau khi chọn được thuộc tính B làm nút gôc :-:+s:5: 48 Hình 3.3 Cây sau khi chọn thuộc tính C - c5: 2: 2 2x2 EEEtrrtrrreksree 50 Hình 3.4 Cây sau khi chọn thuộc tính E, 5c 2:32 S SE rrrrrxtrrerrrrerek 52 Hình 3.5 Cây sau khi chọn thuộc tính Ï - 5c 2:32 S SsEEsEEkrrrxsrrerrrrrreree 53 Hình 3.6 Cây sau khi chọn thuộc tính A - cSc 2c 2S nrhhy re 54
Hình 3.7 Cây sau khi chọn thuộc tinh A lam nhánh trái của cây 56
Hinh 3.8 Cây sau khi chọn thuộc tính E làm nhánh phải của A 37
Hình 3.9 Cây sau khi chọn thuộc tính D làm nút con phải của E - 58
Hình 3.10 Cây sau khi chọn thuộc tính C làm nút con trái của E 60
Hình 3.11 Cây sau khi chọn thuộc tính D làm nhánh phải của C 61
Hình 3.12 Cây sau khi chọn thuộc tính C làm nút con trái của A - 63
Hình 3.13 Cây sau khi chọn thuộc tính D làm nút con phải của C 64
Hình 3.14 Cây sau khi chọn thuộc tính E làm nút con trái của D -: 65
Hình 3.15 Kết quả phân lớp bằng thuật tốn ID3 22©22221222122212212222ee 66
Hình 3.16 Kết quả đạt được theo tập luật 2-222221222122122122221222 e0 68
Trang 10DANH MUC CAC CHU VIET TAT
KPDL Khai phá dữ liệu
Trang 11PHAN MO DAU > Ly do chon dé tai
Bénh gout (gout tiéng Anh hay goutte tiếng Pháp) là bệnh nằm trong nhóm bệnh lắng tụ các tinh thể, cụ thê ở đây là lắng tụ tinh thể monosodium urat trong các khớp do tỉnh trạng axit uric tăng cao trong máu gây ra các đợt viêm khớp ngoại biên của chân tay, đặc biệt hay xảy ra ở ngón chân cai Tinh trang viêm này là do các con bạch cầu - được ví như các lính chiến đấu trong cơ thé - gây ra khi di don dep các tinh thé
urat
Bệnh thường mở đầu bằng các cơn gout cấp Cơn gout cấp được định nghĩa là viêm khớp với sự lắng tụ các tinh thé urat trong các khớp, dẫn đến tình trạng viêm cấp và cuối cùng là sự hư hại các mô làm phá hủy khớp gây ra tàn phế Cơn gout cấp có thể bị day lùi bằng các thuốc hiện có và chế độ ăn kiêng nhưng nên nhớ rằng đây là loại bệnh không thê chữa dứt, nghĩa là bệnh nhân phải chấp nhận ăn kiêng và theo dõi bệnh suốt đời Nếu không điều trị hoặc để cơn gout xảy ra nhiều lần sẽ gây ra hủy hoại khớp đưa đến tàn phế Những bệnh nhân bị các cơn gout cấp liên tiếp hay dai dăng, nhiều năm sau sẽ chuyền sang gout man tinh kèm các tophi Tophi thường được coi là biến chứng muộn của gout, đó là những cục thấy ở dưới da tại các khớp, các
túi hoạt dịch, sụn, xương ở nhiễu nơi trong cơ thể, hình thành do sự lắng tụ các tinh
thé urat Tophi có thể vỡ ra ngoài da, có màu trắng hay vàng nhạt - trắng
Sau một thời gian dài tích tụ tỉnh thể muối urat trong các khớp và mô bao quanh khoảng chừng một năm thì gout sẽ khởi phát Các triệu chứng dễ nhận thấy là nóng, đau, sưng, mềm tại các khớp, triệu chứng này được gọi là podagra
Trang 12Trong cac giai doan cấp tính, bệnh nhân còn có thể bị sốt cao, có một vài dấu
hiệu như cỗ cứng, nôn giống với bệnh màng não Chính bởi lý do bệnh gout xuất hiện theo từng đợt, khi thuyên giảm người bệnh thấy hết đau nên tưởng chừng như khỏi hắn và lơ là trong việc điều trị và bệnh tái phát sau đó không lâu Các triệu chứng
khác dễ thấy của bệnh gout như nổi các hạt tophi, xuất hiện các u cục tại vị trí các khớp Sưng túi dịch đệm ở đầu gối, khuỷu tay khiến sự vận động luôn bị cản trở, bị
hạn chế Ở giai đoạn muộn, gout sẽ tái phát ở nhiều vị trí cùng lúc có thể đối xứng
hoặc bắt đối xứng Bệnh diễn ra liên miên không theo từng đợt, rất dễ bị nhầm với
các loại viêm khớp khác nên rất khó để phòng ngừa và điều trị đúng cách
Theo khảo sát của Viện gout từ tháng 07/2007 đến 7/2012 trên cả nước có hơn 22 ngàn người mắc bệnh gout trong đó số bệnh nhân gout tại Thành phố Hồ Chí Minh là lớn nhất lên tới 8246 người chiếm hơn 1/3 bệnh nhân gout trên cả nước
Theo Bác sĩ chuyên khoa II Nguyễn Thị Lực (nguyên Trưởng khoa Cơ xương
khớp, Bệnh viện E), một người được chân đoán là mắc gout khi có các dấu hiệu như:
nồng độ axit uric trong máu tăng cao trên 420 micromol/lit với nam và 360 micromol/lít với nữ; khớp bơ viêm, sưng, nóng đỏ Tuy nhiên, trong giai đoạn đầu,
biểu hiện của bệnh chưa rõ ràng nên việc chân đoán dễ gặp phải một số khó khăn
Cụ thể, đó là gout có thể bị nhằm với một số bệnh lý khớp khác (thoái hóa khớp,
viêm khớp dạng thấp ) do có triệu chứng lâm sàng tương tự nhau (các khớp sưng
đau) Bên cạnh đó, nhiều trường hợp lạm dụng thuốc, triệu chứng của bệnh không rõ rệt nên việc chân đoán trở nên khó khăn Nếu không được phát hiện, điều trị kip thoi,
gout cé thé gây tốn thương nhiều khớp và dẫn tới một số biến chứng nguy hiểm như:
sỏi thận, suy thận
Một hệ thống chân đoán bệnh, sẽ hỗ trợ cho bác sỹ rất nhiều trong việc đưa ra
kết quả chân đoán cuối cùng Với việc áp dụng Công nghệ thông tin, đặc biệt là việc sử dụng KPDL để xây dựng các hệ thống chẩn đoán bệnh giúp các bác sỹ chuyên
khoa có thể tiếp cận và đưa ra chân đoán bệnh một cách nhanh chóng, chính xác Từ
Trang 13Ngày nay việc ứng dụng KPDL vào các ngành khoa học đã phát triển mạnh mẽ, riêng trong lĩnh vực y học việc xây dựng một hệ thống chẩn đoán bệnh dùng KPDL
đã được thực hiện ở nước ngoài hoặc ở trong nước như hệ thống chẩn đốn bệnh lao phơi, hệ thống chân đoán bệnh đau đâu, ung thư, Tuy nhiên, việc xây dựng các hệ
chân đoán y học như vậy ở nước ta hiện nay vẫn còn khá khiêm tốn
Chính vì vậy tôi chọn dé tai nghiên cứu: “ng dụng khai phá dữ liệu trong xây dựng hệ hỗ trợ quyết định chấn đoán gout”, nham mục đích giúp các y bác sỹ chuyên khoa có thê đưa ra chẩn đoán chính xác và có cách điều trị phù hợp, đồng thời cung cấp thông tin liên quan đến bệnh gout, hướng dẫn cho bệnh nhân và người nhà biết được nguy cơ để phòng tránh và điều trị bệnh gout, giảm thiểu tỷ lệ mắc bệnh và nguy cơ biến chứng, tử vong cho người bệnh
> Tình hình nghiên cứu
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nay
được áp dụng hầu hết trong mọi lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu
được lưu trữ với kích thước tăng lên không ngừng Đây chính là điều kiện tốt cho
việc khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập
bang biéu va KPDL
Khai phá dữ liệu (KPDL)[2] là một kỹ thuật đựa trên nền tảng của nhiều lý
thuyết như xác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ân trong các
kho đữ liệu có kích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ
thuật thông thường Nguồn đữ liệu y khoa rất lớn, nếu áp đụng KPDL trong lĩnh vực này sẽ mang lại nhiều ý nghĩa cho nghành y tế Nó sẽ cung cấp những thông tin quý
giá nhằm hỗ trợ trong việc chân đoán và điều trị sớm giúp bệnh nhân thoát được nhiều
căn bệnh hiểm nghèo
Trong lĩnh vực Y khoa ở Việt Nam, hiện nay các tuyến y tế phường, xã, vùng sâu, vùng xa còn thiếu nhân lực y tế có trình độ chuyên môn và thiếu các trang
Trang 14tế giúp chấn đoán sớm một số bệnh phát hiện sớm được những bệnh nguy hiểm và giảm gánh nặng kinh tế cho gia đình bệnh nhân và cho xã hội Đề minh chứng cho
những lợi ích mà hệ hỗ trợ chẩn đoán mang lại, để tài chọn đữ liệu bệnh gout để
thử nghiệm và đánh giá
Ứng dụng mô hình trong KPDL xây dựng hệ hỗ trợ quyết định chân đoán bệnh gout là một trong những hướng nghiên cứu chính của đề tài
Gout là một trong những bệnh về xương khớp phổ biến nhất, chiếm khoảng 1/3 tổng số lượng người bệnh đến khám các vấn đề về xương khớp Điều đáng quan ngại là người mắc gout ngày càng trẻ hóa Cứ 4 người đến khám tại phòng khám Nội cơ xương khớp của Bệnh viện và được chân đoán mắc gout thì có 1-2 người trong độ tuổi 30-40 Tuy nhiên, đa số người mắc gout thường xem nhẹ tình trạng bệnh, cho rằng bệnh gout không nguy hiểm bằng các bệnh đái tháo đường tim mạch, tăng huyết áp nên không tuân thủ chỉ định điều trị của bác sĩ Nhiều người bệnh chỉ dùng thuốc khi có các triệu chứng sưng đau khớp Sau đó, khi thấy các triệu chứng được cải thiện
thì họ tự ý bỏ thuốc
Sau này, có rất nhiều để tài nghiên cứu về thực trạng, nguyên nhân, triệu chứng và cách điều trị bệnh gout Tuy nhiên, các nghiên cứu này chỉ sử dụng các phương pháp chân đoán truyền thống trong y khoa
Bên cạnh đó, cũng có các công trình nghiên cứu liên quan ứng dụng các kỹ thuật
như hỗ trợ quyết định, KPDL, hệ chuyên gia trong chẩn đoán các bệnh như:
- Bài báo Xây đựng hệ hỗ trợ ra quyết định chẩn đoán bệnh (Văn Thế Thanh,
Tran Minh Bao, nam 2012)
- Luận văn Wghiên cứu và ứng dụng kỹ thuật phân nhóm đề xây dựng hệ thơng
dụ đốn bệnh tự kỷ ở trẻ em (Nguyễn thị Thương, ĐH Đà Nẵng, năm 2017)
- Luận văn ứng đụng KPDL xây dựng hệ hỗ trợ chân đoán Y khoa (Tống Đức
Trang 15> Mục tiêu nghiên cứu
- Mục tiêu chung: Nghiên cứu các thành phần của hệ hỗ trợ ra quyết định và
một số kỹ thuật KPDL Trên cơ sở đó xây dựng hệ chân đoán bệnh gout - Các mục tiêu cụ thể:
+ Nghiên cứu các thành phần của hệ hỗ trợ ra quyết định
+ Nghiên cứu các kỹ thuật phân lớp dữ liệu để lựa chọn kỹ thuật thích hợp sử
dụng cho mô hình của hệ hỗ trợ chẩn đoán bệnh
+ Xây dựng hệ thống chân đoán bệnh gout > Đối tượng và phạm vi nghiên cứu
- Về lý thuyết: Cấu trúc hệ thống, phương pháp phân lớp đữ liệu (cây quyết
định, luật kết hợp)
- Về thực hành: Địa bàn tỉnh Gia Lai, tuổi từ 30 tháng đến 65, thời gian khảo
sát hai năm 2018-2019
> Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tổng hợp, phân tích các công trình nghiên cứu liên quan đến hệ thống thông tin, hệ hỗ trợ quyết định, các kỹ thuật phân lớp dữ
liệu Kết hợp với các tài liệu về bệnh gout, lựa chọn kỹ thuật thích hợp cho bài toán
chân đoán bệnh này
- Phương pháp thực nghiệm (xây dựng ứng dụng)
- Sử dụng các dữ liệu đã được lưu trữ trong các hồ sơ bệnh án ở các bệnh viện
- Xây dựng bảng hỏi để thu thập ý kiến các chuyên gia (các bác sỹ, người bệnh) - Thu thập thông tin từ các trang web (Internet)
- Xây dựng khoảng 40 bản ghi ứng với 40 người (có bệnh và không bệnh) 80%
Trang 16> Cấu trúc của luận văn
Luận văn được chia làm 3 chương:
Trang 17Chuong 1 TONG QUAN HE THONG THONG TIN VA HE HO TRO QUYET DINH
1.1 HE THONG THONG TIN
1.1.1 Khái niệm của hệ thống thông tin
Hệ thống thông tin, là tập hợp người, thủ tục và các nguồn lực để thu thập, xử
lý, truyền và phát thông tin trong một tô chức
Hệ thống thông tin có thể là thủ công nếu dựa vào các công cụ như giấy, bút
Hệ thống thông tin hiện đại là hệ thống tự động hóa dựa vào máy tính (phần
cứng, phần mềm) và các công nghệ thông tin khác
Dữ liệu Théng tin
Phản hỏi
Hình 1 1 Hệ thống thông tin hiện đại Dữ liệu đầu vào gồm hai loại:
Tự nhiên: giữ nguyên dạng khi nó phát sinh: (tiếng nói, công văn, hình ảnh v.v )
Có cấu trúc: được cấu trúc hoá với khuôn dạng nhất định (số sách, bảng biểu V.V )
Thông tin đầu ra:
Được phân tích, tổng hợp v.v từ đữ liệu vào và tùy thuộc vào từng nhu cầu (quản lý) trong từng trường hợp cụ thể, từng đơn vị cụ thé thuộc tổ chức (báo cáo tổng hợp, thống kê, thông báo v.v )
Xử lý tự động chỉ được thực hiện trên các dữ liệu có cấu trúc
Hoạt động của hệ thống thông tin:
Trang 18Xu ly: Phan tich, tong hợp, tính toán trên các nhóm chỉ tiêu, tạo thông tin kết quả Cập nhật, sắp xếp, lưu trữ dữ liệu Phân phát: thông tin cho từng đối tượng Thu thập->Xử lý->Phân phát -_ Nguễn bén trang | Nguễn bến ngoài | ———t— XU LY CAC DIF LIEU THO) (os, cau tric hia | xử LÝ NSD Ss PHAN PHAT oS NSE _
Hình 1.2 Hoạt động của hệ thống thông tin 1.1.2 Các đặc trưng của hệ thống thông tin hiện đại
Hệ thống thông tin được xây dựng trên nên tảng công nghệ hiện đại (CNTT) Hệ thống thông tin được cấu thành bởi nhiều hệ thống con Khi các hệ con này
được nối kết và tương tác với nhau, chúng sẽ phục vụ cho việc liên lạc giữa các lĩnh vực hoạt động khác nhau của tổ chức
Hệ thống thông tin hướng tới mục tiêu cung cấp thông tin cho việc ra quyết định và kiểm soát Hệ thống chuyên giao cho từng thành viên trong tổ chức những thông
tin cần thiết dé xác định, chọn lựa các hành động phù hợp với mục tiêu của tổ chức
cũng như các hành động giúp kiểm soát lĩnh vực mà thành viên đó chịu trách nhiệm
Hệ thống thông tin là một kết cầu hệ thống mềm dẻo và có khả năng tiến hóa Một hệ
thông thông tin rất có thể trở nên lỗi thời nhanh chóng nếu không có khả năng thay đổi mềm dẻo và mở rộng được đề phù hợp với sự biến đổi và phát triển của tổ chức 1.1.3 Nhiệm vụ và vai trò của HTTT trong tô chức kinh tế
Trang 19H6 tro quyét dinh x Quyét dinh Thông tin vào tử môi trường ngoai Vv HT Thong tin Thong tin ra từ môi trường ngoài Thông tin 1 Thông tin điện hành v điền hành
tiền, sức lao động Nguyên vật liệu, Hỗ trợ Menghiép Sản phẩm tiên Hình 1.3 Hệ thống thông tin trong quản lý kinh tế
Nhiệm vụ
Đối ngoại: thu thập thông tin từ mơi trường ngồi, đưa thông tin ra môi trường ngồi
Ví dụ: thơng tin về giá cả, thị trường, sức lao động, nhu cầu hàng hoá
Đối nội: làm cầu nỗi liên lạc giữa các bộ phận của tổ chức, cung cấp thông tin
cho hệ tác nghiệp, hệ quyết định
Ví dụ: - Thông tin phản ánh tính trạng nội bộ của cơ quan tổ chức - Thông tin về tình trạng hoạt động kinh đoanh của tô chức
1.2 HẸ HỖ TRỢ RA QUYẾT ĐỊNH
1.2.1 Tổng quan
Trong cuộc sống hằng ngày, mỗi người trong chúng ta đều phải đưa ra nhiều quyết định liên quan đến các sinh hoạt cá nhân như: ăn gì, uống gì, mặc gì, làm gì,
Trang 20Trong lĩnh vực kinh doanh, vai trò đặc trưng chung của nha quan lý là trách nhiệm đưa ra các quyết định, từ các quyết định quan trọng như phát triển một loại sản phẩm mới, giải thể công ty đến các quyết định thông thường như tuyên nhân viên, xác định kế hoạch sản xuất hàng tháng, hàng quý Việc ra quyết định thâm nhập vào cả bốn
chức năng của nhà quản lý gồm hoạch định, tổ chức, chỉ đạo và kiểm tra, vì vậy nhà
quản lý đôi khi còn được gọi là người ra quyết định
Quyết định là một lựa chọn về đường lối hành động (Simon 1960; Costello & Zalkind 1963; Churchman 1968), hay chiến lược hành dong (Fishburn 1964) dan dén
một mục tiêu mong mudén (Churchman 1968)
Ra quyết định chính là một quá trình lựa chọn có ý thức giữa hai hay nhiều phương án đề chọn ra một phương án tạo ra được một kết quả mong muốn trong các điều kiện ràng buộc đã biết [1]
Việc ra quyết định luôn luôn cần phải xử lý một lượng kiến thức nhất định nào đó Kiến thức chính là nguyên liệu (đầu vào) và cũng là thành phẩm (đầu ra) của việc ra quyết định Lượng kiến thức này cần được sở hữu hoặc tích lãy bởi người ra quyết định
Tuy nhiên, trí nhớ con người là có giới hạn dẫn đến việc nhận thức cũng có giới
hạn Bên cạnh đó, các yếu tố khác như: giới hạn về thời gian, giới hạn về kinh tế, về
nhân lực, áp lực cạnh tranh cũng là các nguyên nhân trực tiếp dẫn đến nhu cầu hỗ trợ ra quyết định
Bản chất của việc hỗ trợ ra quyết định chính là việc cung cấp các thông tin, tri thức thê hiện qua các tương tác người — máy hoặc thông qua các mô phỏng
Chất lượng của quyết định phụ thuộc vào chất lượng của thông tin cung cấp cho người ra quyết định [1]
1.2.2 Định nghĩa và khái niệm
Hệ hỗ trợ quyết định là các hệ dựa trên máy tính, có tính tương tác, giúp các nhà
ra quyết định dùng dữ liệu và mô hình để giải quyết các bài toán phi cấu trúc Nó kết
Trang 21hợp trí lực của con người với năng lực của máy tính để cải tiến chất lượng của quyết dinh (Ken & S Morton, 1978) [1]
Hệ hỗ trợ quyết định nhấn mạnh vào khả năng hỗ trợ các nhà ra quyết định quan ly Như vậy, hệ hỗ trợ quyết định có ý nghĩa là một công cụ bồ trợ cho các nhà quản lý nhằm mở rộng năng lực nhưng không có nghĩa là thay thế khả năng phân xử của họ Tình huống ở đây là cần đến các phân xử của người ra quyết định hay các quyết định khơng hồn tồn được giải quyết thông qua các giải thuật chặt chẽ
Thông thường các hệ hỗ trợ quyết định sẽ là các hệ thông tin máy tính hóa, có giao tiếp đồ họa và làm việc ở chế độ tương tác trên các mạng máy tính
Cải thiện tốc độ tính toán
Tăng năng suất của cá nhân liên đới
Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đổi dữ liệu trong và ngoài tổ
chức theo hướng nhanh và kinh tế
Nâng cao chất lượng của các quyết định đưa ra Tăng cường năng lực cạnh tranh của tổ chức
Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thông tin
1.2.3 Quá trình ra quyết định
Quá trình ra quyết định gồm có 3 giai đoạn:
Tim hiéu (intelligence): bài toán dẫn đến quyết định
Thiết kế (design): phân tích và xây dựng các diễn trình hành động
Chọn lựa (choice): chọn một diễn trình trong tập diễn trình + Tiếp theo giai đoạn Chọn lựa là giai đoạn Hiện thực
Trang 22
—<=>| GIAI DOAN TM HIEU Xac ainn myc tiêu tổ chức
tap han dién, phi
Phan loai va phat biếu vần đề ( Phat biểu vấn đề +
=——[ GIA DOAN THIET KE ok ÍThiết lạp mơ hình ` ey
Lập bảng tiêu chuẩn chọn lựa
[TIm kiếm các phương án
[Tiên đoán và đo lường các kết cục „Z7 Phương án
Kiểm thử giải pháp xuất
———| GIA! DOAN LA CHON Ichon (các) phương án tốt nhát |Hoacn định việc thực hiện Hiện thực các giải pháp Hình 1.4 Sơ đồ mô tả quá trình ra quyết định
Giai đoạn Tìm hiểu (Intellegence)
Trong giai đoạn này, các nội đung chính cần phải thực hiện bao gồm:
Nhận diện vấn đề (cơ hội hoặc rủi ro)
Phân loại vấn đẻ
Phân rã vấn đề: chia ra các bài toán nhỏ và đơn giản hơn
Xác định chủ thể vẫn dé: trách nhiệm giải quyết và năng lực giải quyết
Phat biéu van dé chính thức
Giai doan Thiét ké (Design)
Ở giai đoạn Thiết kế, mục tiêu quan trọng là phải xây dựng được mô hình
Trang 23Bién quyét dinh Bién két qua
Biến khơng kiểm sốt
Ngoài ra, có thể có thêm Thông số
1.3 CAC THANH PHAN CUA HE HO TRO QUYET DINH
Trang 241.3.2 Phân hệ quản lý mô hình
Còn được gọi là hệ quản trị cơ sở mô hình (MBMS — ModelBase Management
System) la g6i phần mềm gồm các thành phần về thống kê, tài chính, khoa học quản lý hay các phương pháp định lượng nhằm trang bị cho hệ thống năng lực phân tích; cũng có thể có các ngôn ngữ mô hình hóa ở đây Thành phần này có thê kết nối với các kho chứa mô hình của tô chức hay ở bên ngoài nào khác
1.3.3 Phân hệ giao diện
Giúp người sử đụng giao tiếp và ra lệnh cho hệ thống Các thành phần vừa kế
trên tạo nên hệ hỗ trợ quyết định, có thể kết nối với intranet/extranet của tổ chức hay
kết nối trực tiếp với Internet
1.4 TIỂU KẾT
Trong Chương l tôi trình bày các thành phần cơ bản của hệ hỗ trợ quyết định, nó là cơ sở để xây dựng hệ hỗ trợ quyết định chân đoán bệnh Trong các thành phần của hệ hỗ trợ quyết định thì thành phần cơ bản nhất là mô hình Trong luận văn này thì mô hình được chọn là mô hình cây quyết định trong KPDL và sẽ được trình bày trong Chương 2
Trang 25Chuong 2 MO HiINH PHAN LOP DU LIEU TRONG HE HO TRO
QUYET DINH 2.1 GIOI THIEU VE KHAI PHA DU LIEU
2.1.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu (Data Mining) [2]là một khái niệm ra đời vào cuối những năm 1980 Nó là quá trình khám phá thông tin ấn được tìm thấy trong các cơ sở dữ liệu và có thể xem như là một bước trong quá trình khám phá tri thức KPDL là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo
dục, kinh doanh, y tế
Giáo sư Tom Mitchell đã đưa ra định nghĩa của KPDL như sau: “Khai phá dữ
liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những
quyết định trong tương lai” Tiến sĩ Fayyad đã phát biêu: “Khai phá dữ liệu, thường
được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình xuất
những thông tin Ân, trước đây chưa biết và có khả năng hữu ích, đưới dạng các qui
luật, ràng buộc, qui tắc trong cơ sở dữ liệu” Hay nói cách khác “Khai phá dữ liệu-
Data Mining là tiến trình khám phá tri thức tiềm ân trong các cơ sở đữ liệu Cụ thé
hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết
nhưng hữu ích từ cơ sở dữ liệu lớn”
Nói tóm lại, KPDL là một quá trình học trị thức mới từ những dữ liệu đã thu thập được
Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành
các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra
quyết định KPDL là việc trích rút trì thức một cách tự động và hiệu quả từ một khối
dữ liệu rất lớn Tri thức đó thường ở dạng các mẫu tin có tính chất không tầm thường, không tường minh (ấn), chưa được biết đến và có tiềm năng mang lại lợi ích
Để hình dung vấn để này ta có thể sử dụng một ví dụ đơn giản như sau: KPDL được ví như tìm một cây kim trong đống cỏ khô Trong ví dụ này, cây kim là một
Trang 26mảnh nhỏ tri thức hoặc một thông tin có giá tri va đồng có khô là một kho cơ sở dữ
liệu rộng lớn Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ
được chiết xuất ra và sử dụng một cách hữu ích nhờ KPDL
Chức năng KPDL gồm có gộp nhóm phân loại, đự báo, đự đoán và phân tích các liên kết Năm 1989 Fayyad, Smyth và Piateslsky-Shapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu (Knowledge Discovery 1n Database - KDD)
Trong đó KPDL là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng
các kỹ thuật để tìm ra các mẫu từ dữ liệu Có thể coi KPDL là cốt lỗi của quá trình phát hiện tri thức
Quá trình KPDL sẽ tiến hành qua 6 giai đoạn như hình 2.1
Đánh giá luật
Khai phá dữ liệu
Chuyển đổi dữ liệu `
Í_ Tiên xử lý và chuẩn aa | —————n bị dữ liệu Tri thức Trích lọc dữ liệu Ì \ ( ll a = E=] Mô hình cass Dữ liệu đã - Dữ liệu đã chuyển đổi Dữ liệu đích xử lý
Hinh 2.1 Quá trình khai phá dữ liệu
Quá trình KPDL bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải
lặp đi lặp lại toàn bộ quá trình,
1 Gom đữ liệu (Gathering): Tập hợp đữ liệu là bước đầu tiên trong quá trình
KPDL Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm
chí các đữ liệu từ các nguồn ứng dung Web
2 Trích lọc dữ liệu (Selection): Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời 25-35 và có trình độ đại học
Trang 273 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleaning, Pre-processing and
Preparation): Gia đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình KPDL Một số lỗi thường mắc phải trong khi
gom dữ liệu là tính không đủ chặt chẽ, logic Vì vậy, dữ liệu thường chứa các giá trị
vô nghĩa và không có khả năng kết nối dữ liệu Ví dụ: tuổi = 273 Giai đoạn này sẽ tiên hành xử lý những dạng đữ liệu không chặt chẽ nói trên Những dữ liệu đạng này được xem như thông tin thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan
trọng vì dữ liệu này nếu không được “làm sạch — tiền xử lý — chuẩn bị trước” thì sẽ
gây nên những kết quả sai lệch nghiêm trọng
4 Chuyên đổi đữ liệu (Transformation): Tiếp theo là giai đoạn chuyển đổi dữ
liệu, dữ liệu đưa ra có thê sử dụng và điều khiển được bởi việc tô chức lại nó Dữ liệu
đã được chuyển đổi phù hợp với mục đích khai thác
5 Phát hiện và trích mẫu đữ liệu (Pattern Extraction and Discovery): Đây là bước mang tính tư duy trong KPDL Ở giai đoạn này nhiêu thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc
phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,
6 Đánh giá kết quả mẫu (Evaluation of Result): Đây là giai đoạn cuối trong quá
trình KPDL Ở giai đoạn này, các mẫu đữ liệu được chiết xuất ra bởi phần mềm
KPDL Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá đề chiết xuất ra các tri thức (Knowledge) Trên đây là 6 giai đoạn trong quá trình KPDL, trong đó Š giai đoạn
được quan tâm nhiều nhất, đó là KPDL
2.1.2 Các chức năng chính của khai phá dữ liệu
Data Mining được chia nhỏ thành một số hướng chính như sau:
+ Mô tả khái niệm (concept description): thiên về mô ta, tong hop va tóm tắt
khái niệm Ví dụ: tóm tắt văn bản
+ Luật kết hop (association rules): la dang luat biểu diễn tri thức ở dạng khá đơn
giản Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ
Trang 28mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trường chứng khoán, V.V
+ Kỹ thuật cây quyết định: là một công cụ mạnh và hiệu quả trong phân lớp
và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu
đối với người sử dụng
+ Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo đữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây
quyết dinh (decision tree), mang no ron nhan tao (neural network), v.v Nguoi ta con
gọi phân lớp là học có giám sát (học có thay)
+ Phan cum (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước Người ta còn gọi phân cụm là học không giám sát (học không thầy)
+ Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiễu trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao
2.1.3 Ứng dụng của khai phá dữ liệu
Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Chúng ta có thể liệt kê ra đây một số ứng dụng điền hình:
- Phân tích đữ liệu và hỗ trợ ra quyết định (data analysis & decision support) - Diéu tri y hoc (medical treatment)
- Text mining & Web mining - Tin-sinh (bio-informatics)
- Tai chinh va thi trường chtrng khoan (finance & stock market)
Trang 29- Bao hiém (insurance)
- Nhận dạng (pattern recognition) v.v
KPDL cũng được vận đụng hiệu quả đề giải quyết các bài toán phức tạp trong
các ngành đòi hỏi kỹ thuật cao, như tìm kiếm mỏ dầu từ ảnh viễn thám, cảnh báo
hỏng hóc trong các hệ thống sản xuất, Các kỹ thuật KPDL đã được áp dụng thành công trong việc dự đoán tái sử dụng điện năng cho các công ty cung cấp điện, lưu
lượng viễn thông cho các công ty điện thoại, mức độ tiêu thụ sản phẩm cho các nhà
san xuat,
Ngoài ra, KPDL còn được áp dụng cho các vấn đề xã hội như phân tích các kết
quả phòng chống và điều trị một số loại bệnh, phân tích tác hại của ma túy, phát hiện tội phạm hay tăng cường an ninh xã hội, Việc vận dụng thành công đã mang lại
những hiệu quả thiết thực cho các hoạt động diễn ra hàng ngày trong đời sống
2.1.4 Một số kỹ thuật trong khai phá dữ liệu
Các kỹ thuật KPDL thường được chia thành 2 nhóm chính
+ Kỹ thuật KPDL mô tả: Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính
chung của dữ liệu trong cơ sở dữ liệu hiện có Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt (summarization), trực quan hóa (visualization), phân tích sự
phát triển và độ lệch (Evolution anh deviation analysis), phát hiện luật kết hợp
(association rules),
+ Kỹ thuật KPDL dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy
diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), hồi quy (regression),
Tuy nhiên, do khuôn khổ có hạn nên tôi chỉ giới thiệu phương pháp phân lớp dữ liệu trong để tài này
Trang 302.2 PHAN LOP DU’ LIEU
> Giới thiệu về phần lớp dữ liệu
Phân lớp (classification): Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp Tập đữ liệu học bao gồm tập đối tượng đã
được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối
tượng trong tập dữ liệu học Các luật phân lớp được sử dụng đề xây dựng các bộ phân lớp dữ liệu Phân lớp đữ liệu có vai trò quan trọng trong tiến trình đự báo các khuynh hướng quy luật phát triển Ap đụng vào tiến trình phân lớp đữ liệu khách hàng trong CSDL có thể xây đựng các luật phân lớp khách hàng Một số kỹ thuật thường được sử dụng trong phân lớp:
+ Cây quyết định (decision tree): Cấu trúc dạng hình cây là biểu thị cho các quyết định Các quyết định này sinh ra các quy tắc để phân lớp và dự đoán (dự báo) tập dữ liệu mới chưa được phân lớp Tri thức được rút ra trong kỹ thuật này thường
được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử
dụng Tuy vậy, nó cũng đòi hỏi một không gian nhất định để mô tả tri thức trong phạm vi mà con người có thể hiểu được
Quá trình phân lớp đữ liệu thường gồm hai bước:
+ Bước I: Xây dựng mô hỉnh dựa trên việc phân tích các mẫu đữ liệu có sẵn Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính
phân lớp Các mẫu dữ liệu này còn gọi là tập đữ liệu huấn luyện (training dataset)
Nhãn lớp của tập dữ liệu huấn luyện phải được xác định trước khi xây dựng mô hình,
vì vậy phương pháp này còn được gọi là học có giám sát (supervised learning) + Bước 2: Sử đụng mô hình để phân lớp dữ liệu Chúng ta phải tính độ chính
xác của mô hình, nếu độ chính xác là chấp nhận được thì mô hình sẽ được sử dụng
đề dự đoán lớp cho các mẫu dữ liệu khác trong tương lai
Trang 31| Bộ phân lớp | Dữ liệu kiểm tra Kết quả Tén BN HCT PLT NH1 | án doạ
TH |SE5 ms Am tinh | Ovong tinh (Khang, 61.2 , 131.1, “Duong tinh”)
Khai | 593 160.1 Dương tính | Dương tính
Anh |347 2128 Am tinh | Am tinh Két qua
chan doan
Dương tinh
Hinh 2.2 Phan lop dit liéu
2.3 MOT SO KI THUAT PHAN LOP DU LI£U
2.3.1 Luật kết hợp
Định nghĩa luật kết hợp: Cho một tập I = {lh, lo, .,Ín} là tập gồm m khoản mục (item), con được gọi là các thuộc tính (attribute) Các phan tu trong I la phan biét nhau XcI duoc goi la tap muc (itemset) Néu luc luong cua X bang k đức là |X| = k) thì X được gọi là k-itemset
Một giao dich (transaction) T' được định nghĩa như một tập con (subset) của các khoản mục trong I (T CD) Tương tự như khái niệm tập hợp, các giao dịch không được
trùng lặp, nhưng có thê nới rộng tính chất này của tập hợp và trong các thuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả
các tập mục (temset) khác, có thể coi chúng đã được sắp xếp theo thứ tự từ điển của
các item
Gọi D là cơ sở dữ liệu của n giao dịch và mỗi giao dịch được đánh nhãn với một
định danh duy nhất (Unique Transasction IDentifier-TID) Nói rằng, một giao dịch T
e D hỗ trợ (support) cho mét tap XcI nếu nó chứa tất cả các item của X, nghĩa là X
TT, trong một số trường hợp người ta đùng ký hiệu TỢ) đề chỉ tập các giao địch hỗ
Trang 32tro cho X Ki hiéu support(X) (hode supp(X), s(X)) la ty 16 phan tram cua cde giao dich hỗ tro X trên tổng các giao dịch trong D, nghĩa là: TeD|X cT| — P| Ví dụ về cơ sở đữ liệu D (dạng giao dich): J = {A, B, C, D, E}, T = {1,2, 3, 4, Supp(X)=
5, 6} Thông tin về các giao địch cho ở bảng sau:
Bảng 21 Lĩ dụ về một cơ sở đữ liệu dang giao dich - D Dinh danh giao dich (TID) Tap muc (itemset) 1 ABDE 2 BCE 3 ABDE 4 ABCE 5 ABCDE 6 BCD Ta co: supp({A }) = 4/6 (%)= 66.67%: supp({ABDE}) = 3/6 =50%; supp({ABCDE}) = 1/6 = 16.67%, Tap phé bién (frequent itemset):
Support téi thiéu minsupe e€( 0, 1] (Minimum Support) 1a mét gid trị cho truée béi ngwoi sir dung Néu tap muc X CI cé supp(X)c minsup thi ta ndi X la một tập phổ biến-frequent itemset (hoặc large itemset) Một frequent itemset duoc
sử dụng như một tập đáng quan tâm trong các thuật tốn, ngược lại, những tập
khơng phai frequent itemset là những tập không đáng quan tâm Trong các trình bày sau này, ta sẽ sử dụng những cụm từ khác như “X có support tối thiểu”, hay
Trang 33“X không có support tối thiêu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X) minsupp
Ví dụ: Với cơ sở dữ liệu D cho ở bảng 2, và giá trị ngưỡng minsupp = 50% sẽ liệt kê tất cả các tập phổ biến (frequent-itemset) như sau:
Bảng 2.2 Các tập phô biến trong CSDL ở bảng 1 với độ hỗ trợ tối thiểu 50% Các tập mục phê biến Độ hỗ trợ (supp) tương ứng B 100% (6/6) E, BE 83% (5/6) A, C, D, AB, AE, BC, BD, ABE 67% (4/6) AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6)
Một số tinh chất (TC) liên quan dén cdc frequent itemset:
TC1 support cho tat ca cdc subset: néu A CB, A, B la cdc itemset thi supp(A) > supp(B) vi tat cả các giao dịch của D support B thì cũng support A
TC2 Nếu một item A không có support tối thiêu trên D nghĩa là support(A) < minsupp thì một superset B của A sẽ không phải là một frequent vì support(B) < support(A) < minsup
TC3 Néu item B la frequent trén D, nghia 1a support(B) > minsup thi moi subset A cua B la frequent trén D vi support(A) > support(B) > minsup
Định nghĩa luât kết hợp:
Một luật kết hợp có dạng R: X >Y, trong đó X, Y la cac itemset, X, YCI va X AY = © X duoc goi 1a tién dé va Y duoc gọi là hệ quả của luật
Luật X —Y tổn tại một bộ hỗ trợ support - supp Supp(X SY) duoc định nghĩa là khả năng mà tập giao dịch hỗ trợ cho các thuộc tính có trong cả X lẫn Y, nghĩa là:
Support(X>Y) = support(XUY)
Luật X —>Y tổn tại một độ tin cay c (confidence - conf) Conf c duoc định nghĩa
là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Nói cách khác c biểu thị số phần trăm giao dịch có chứa luôn A trong số những giao dịch có chứa X
Trang 34Ta có công thức tính conf ¢ nhu sau:
pry <TAX CT) sup P(XYY) 9,
CS CS ES Sel — Be eign
conf(X => Y) = p(Y cT| XcT)=
p(XcT) sup p(X)
Ta nói rằng, luật X —Y là thoả trên D nếu với một support tối thiéu minsup và một ngưỡng confidence tối thiểu minconf cho trước nào đó mà:
Support(X Y) 3 minsup và confIdence(X> Y) 3 ninconƒ`
Chú ý rằng, nếu luật x— Y mà thoả trên D thì cả X và Y đều phải là các Frequent Itemset trên D và khi xét một luật có thoả hay không, thi ca support va
confidence của nó đều phải quan tâm, vì một luật có thể có confidence = 100% >
minconf nhưng có thể là nó không đạt support tối thiểu minsup
2.3.2 Cây quyết định
2.3.2.1 Dinh nghia va ví dụ
Một cây quyết định là mét m6 hinh logic được biéu dién nhu mot cay, cho biét gia tri cua mot biến mục tiêu có thể được dự đoán bằng cách dùng các giá trị của một
tập các biến dự đoán Trên mô hình cây quyết định, mỗi một nút trong tương ứng với
một biến dự đoán, đường nối giữa nó với nút con của nó thể hiện một gia tri cu thé
cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Nó có thể hiểu như là một cách biểu diễn các
Trang 35Trong do:
Géc : Nút trên cùng của cây
Nút trong : Biểu diễn một kiểm tra trên một thuộc tính
Nhánh : Biểu diễn các kết quả của kiểm tra trên nút
Nút lá : Biểu diễn lớp
Xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai đoạn: Giai đoạn thứ nhất phát triển cây quyết định:
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp
theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được
gán nhãn lớp
Giai đoạn thứ hai cắt, tỉa bớt các cảnh nhánh trên cây quyết định
Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ
chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu dao tao mang tinh chat théng kê, hay những sự biến đổi mà có thể là đặc
tính riêng biệt của đữ liệu đào tạo Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này không tốn nhiều tài nguyên tính toán, như với phần lớn các thuật toán, giai đoạn này chiếm khoảng dưới 1% tổng thời gian xây dựng mô hình phân lớp
Do vậy, ở day chung ta chỉ tập trung vào nghiên cứu giai đoạn phát triển cây quyết định Dưới đây là khung công việc của giai đoạn này:
Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước
Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của thuộc
tính đã chọn
Sắp xếp, phân chia tập đữ liệu đào tạo tới nođe con
Trang 36Nếu các ví dụ được phân lớp rõ ràng thì dừng Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con
Giải bài toán phân lớp đựa trên mô hình cây quyết định chính là xây đựng một cây quyết định, ký hiệu S, để phân lớp S đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn: S: D — Ƒ
Cây quyết định biểu diễn cho tri thức về bài toán, nó không chỉ phản ánh đúng với tập dữ liệu mẫu huấn luyện mà còn phải có khả năng dự đoán và cung cấp giúp cho người dùng phán đoán, ra quyết định đối với đối tượng trong tương lai mà nhãn
lớp của nó chưa được xác định từ tập dữ liệu chưa biết Quá trình học cây quyết định
gồm có 3 giai đoạn:
+ Tạo cây : Sử dụng các thuật toán phân lớp đề phân chia tập dữ liệu huấn luyện
một cách đệ quy cho đến khi mọi nút lá đều thuần khiết, tức là nút mà tại đó tập mẫu tương ứng có cùng một giá trị trên thuộc tính quyết định Y Sự lựa chọn các thuộc
tính trong quá trình xây dựng cây được dựa trên việc đánh giá lượng lợi ích thông tin
tại mỗi thuộc tính đang xét
+ Cắt tỉa cây : Sau khi tạo cây, cắt tỉa cây quyết định là việc làm rất cần thiết để khắc phục những khiếm khuyết của cây Cắt tỉa cây là cố gắng loại bỏ những nhánh không phù hợp hay những nhánh gây ra lỗi
+ Kiểm định cây kết quả Đề bảo đảm độ chính xác của cây trước khi đưa vào ứng dụng trong thực tế, ta cần phải đánh giá độ chính xác của cây từ đó đưa ra tiêu
chí đánh giá độ tin cậy theo tỷ lệ phần trăm được dự đoán chính xác
Việc tạo cây là giai đoạn quan trọng nhất, nó chính là quá trình tạo ra mô hình
logic cho cây Đề xây đựng cây quyết định, tại mỗi nút trong cần xác định một thuộc
tính thích hợp để kiểm tra, phân chia dữ liệu thành các tập con
Cho tập mẫu huấn luyện D gồm có 7 thuộc tính, z bộ Mỗi thuộc tính bắt ky A;
€D, ta ký hiệu |4¡| là số các giá trị khác nhau của nó và gọi là lực lượng của 44; Số lần xuất hiện mỗi một giá trị aij trong A; ky hiéu la lai; | Với thuộc tính quyết định Y, số lớp cần phân hoạch trong Y chính là lực lượng của Y và ta viết |Y| Như vậy khi
Trang 37[Ƒ| = 1 thì tất cả các đối tượng trong tập mẫu thuộc cùng một lớp và ta nói chúng là thuần nhất trên V
Trên mỗi tập mẫu huấn luyện, về cơ bản các thuật toán phân lớp đữ liệu bằng cây quyết định phải thực hiện 2 bước sau:
Bước 1: Chọn thuộc tính A¡ có các gia tri ai}, aig, , din
Bước 2: Với thuộc tinh Aj được chọn, ta tạo một nút của cây và sau đó chia tập mẫu này thành & tập mẫu Di, Do, ., De tương ứng với & nút được tạo và sau đó lại
tiếp tục
Bước 2 là bước phân chia với kết quả nhận được từ ðước 1, điều này có nghĩa là chất lượng của cây kết quả phụ thuộc phần lớn vào cách chọn thuộc tính và cách
phân chia tập mẫu tại mỗi nút Chính vì điều này, các thuật toán đều phải tính lợi ích thông tin nhận được trên các thuộc tính và chọn thuộc tính tương ứng có lợi ích thông
tin tốt nhất dé làm nút phân tách trên cây, nhằm để đạt được cây có ít nút nhưng có khả năng dự đoán cao
2.3.2.2 Một số thuật toán xây dựng cây quyết định
Có nhiều thuật toán khác nhau để xây đựng cây quyết định như CLS, ID3, C4.5 nhưng nhìn chung quá trình xây dựng cây quyết định đều được chia là 3 bước cơ bản:
Bước 1: Xây dựng cây
Thực hiện chia một cách đệ quy tập dữ liệu huấn luyện cho đến khi các mẫu ở
mỗi nút là thuộc cùng một lớp
Bước 2: Cắt tỉa cây tối ưu hóa cây, trộn một cây con vào trong một nút lá Bước 3: Đánh giá cây
Đánh giá độ chính xác của cây kết quả, tiêu chí là tổng số mẫu được phân lớp chính xác trên tông sô mâu đưa vào
Trang 38Quá trình tạo cây xuất phat từ nút gốc với tất cả các mẫu huấn luyện nằm ở nút
gốc sau đó phân chia một cách đệ qui dựa trên thuộc tính tốt nhất được lựa chọn
Thuật toán tạo cây quyết định có những đặc điểm sau: Cây xây dựng đệ qui từ trên xuống
Ở thời điểm bắt đầu, tất cả các mẫu huấn luyện đều ở nút gốc
Các ví dụ mẫu được phan chia đệ qui dựa trên thuộc tính được lựa chọn
Thuộc tính được lựa chọn được xác định dựa trên nền tảng của một định lượng
thống kê
Điều kiện đề đừng việc phân chia:
Tất cả các mẫu huấn luyện đối với một nút thuộc về cùng một lớp
Không còn thuộc tính còn lại nao dé tiếp tục phân chia Không còn mẫu nào còn lại
Trang 392.3.2.3 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu
Ưu điểm:
+ Quá trình xây dựng cây quyết định không dùng kiến thức về lĩnh vực đữ liệu đang nghiên cứu hoặc thông số đầu vào nào
+ Kết quả của quá trình huấn luyện (học) được biểu diễn đưới dạng cây nên dễ hiểu và gần gũi với con người
+ Nhìn chung, các giải thuật cây quyết định cho kết quả có độ chính xác khá cao
Khuyết điểm:
+ Đối với các tập dữ liệu có nhiều thuộc tính thì cây quyết định sẽ lớn (về chiều sâu cả chiều ngang), vì vậy làm giảm độ dễ hiều
+ Việc xếp hạng các thuộc tính để phân nhánh dựa vào lần phân nhánh trước đó
và bỏ qua sự phụ thuộc lẫn nhau giữa các thuộc tính
+ Khi dùng độ lợi thông tin (Information Gain) để xác định thuộc tính rẽ nhánh, các thuộc tính có nhiều giá trị thường được ưu tiên chọn
2.3.2.4 Thuật toán xây dựng cây quyết định dựa vào Entropy Tiêu chí chọn thuộc tính phân lớp
Tiêu chí để đánh giá tìm điểm chia là rất quan trọng, chúng được xem là một tiêu chuẩn “heuristie” để phân chia dữ liệu Y tưởng chính trong việc đưa ra các tiêu chí trên là làm sao cho các tập con được phân chia càng trở nên “trong suốt” (tất cả
các bộ thuộc về cùng một nhãn) càng tốt Thuật toán dùng độ đo lượng thông tin thu
thêm (Information Gain — IG) đề xác định điểm chia [2] Độ đo này dựa trên cơ sở lý
thuyết thông tin của nhà toán học Claude Shannon, độ đo này được xác như sau:
Xét bảng quyết định D7 = (U, C U {d} ), số giá trị (nhãn lớp) có thể của d là k
Khi đỏ Entropy của tập các đối tượng trong DT được định nghĩa bởi:
k
Emiropy( U=->_ Plog ,p,
i=l
Trang 40Trong đó p¡ là tỉ lệ các đối tượng trong DT mang nhãn lớp i Y nghĩa của đại luong Entropy trong lĩnh vực lý thuyết công nghệ thông tin: Entropy của tập U chỉ ra số lượng bít cần thiết để mã hóa lớp của một phần tử được lấy ra ngẫu nhiên từ tập U Luong théng tin thu thém Unformation Gain - IG) la luong Entropy còn lại khi
tap cac đối tượng trong DT được phân hoạch theo một thuộc tính điều kiện c nao đó
IG xác định theo công thức sau [6]:
IG(U, ¢) = Entropy(U) — >
# |U|
Entropy(U,, )
Trong đó V là tập các giá trị của thuộc tinh c, Uy là tập các đối tượng trong
DĨ có giá trị thuộc tính c bằng v Gia tri IG(U, c) được sử dụng làm độ đo lựa
chọn thuộc tính phân chia dữ liệu tại mỗi nút trong thuật toán xây dựng cây quyết
định ID3 Thuộc tính được chọn là thuộc tính cho lượng thông tin thu thêm lớn
nhất Ý nghĩa của đại lượng IG trong lĩnh vực lý thuyết công nghệ thông tin: IG của tập S chỉ ra số lượng bít giảm đối với việc mã hóa lớp của một phần tử e được lấy ra ngẫu nhiên từ tập U
2.3.2.5 Thuật toán ID3
> Ý tưởng của thuật toán ID3
Thực hiện giải thuật tìm kiếm tham lam (greedy search) đối với không gian các cây quyết định có thê
Xây dựng nút (node) theo chiến lược Top-Down, bat đầu từ nút gốc
Ở mỗi nút, thuộc tính kiểm tra (test attribute) là thuộc tính có khả năng phân loại tốt nhất
Tạo mới một cây con (sub-tree) của nút hiện tại cho mỗi gia tri co thể của thuộc tính kiểm tra, và tập dữ liệu đầu vào sẽ được tách ra thành các tập con tương ứng với
các cây con vừa tạo
Mỗi thuộc tính chỉ được phép xuất hiện tối đa 1 lần đối với bất kỳ đường đi nào
trong cây