1.1.2 Một số định nghĩa về khai phá dữ liệu Sau đây là một số định nghĩa khác nhau về KPDL: Định nghĩa của Giáo sư Tom Mitchell: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để kh
Trang 1Trước tiên tôi xin được gửi lời cảm ơn chân thành tới Ban Giám hiệu nhà trường, Phòng sau đại học, các thầy cô giáo trong khoa Công nghệ thông tin, trường đại học Lạc Hồng đã tạo điều kiện và môi trường học tốt nhất Các Giáo sư – Tiến sĩ đã tâm quyết không ngại đường xá xa, đến để truyền đạt cho chúng tôi nguồn kiến thức vô cùng quý báu, cũng như cách học tập và nghiên cứu khoa học
Tôi xin chân thành cám ơn Ban Giám Đốc Bệnh viện Nhi Đồng – Đồng Nai, TS.BS Nguyễn Trọng Nơi Phó Giám Đốc, BS.CKI Nguyễn Quang Hinh Trưởng phòng Kế Hoạch Tổng Hợp, BS.CKI Nguyễn Văn Giai Trưởng khoa Nhiễm, THs.BS Chu Văn Thiện trưởng khoa Hối sức tích cực chống độc bệnh viện Nhi Đồng – Đồng Nai đã tư vấn và giúp đỡ tôi một cách chân thành trong quá trình thực hiện nghiên cứu khoa học
Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới Thầy giáo PGS TS Đặng Trần Khánh Thầy đã hướng dẫn và định hướng, giúp tôi hoàn thành tốt đề tài nghiên cứu khoa học này
Trong quá trình thực hiện luận văn, tôi đã nhận được sự giúp đỡ của các chuyên gia bác sĩ tại bệnh viện Nhi Đồng – Đồng Nai, của các bạn bè trong ngành Công nghệ thông tin, đặc biệt là sự nghiêm khắc giáo huấn của thầy Đặng Trần Khánh Mặc dù rất cố gắng nhưng không thể tránh khỏi những thiếu sót trong lúc thực hiện, tôi rất mong đón nhận những đóng góp ý kiến từ bạn bè, thầy cô và các chuyên gia
Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tôi hoàn thành nghiên cứu khoa học này
Tác giả
Trương Minh Văn
LỜI CẢM ƠN
Trang 2Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu thực tế tại bệnh viện Số liệu nghiên cứu có nguồn gốc rõ ràng, trung thực, được thu thập từ những hồ sơ bệnh án, đang lưu trữ tại kho lưu trữ hồ sơ bệnh án tại bệnh viện Nhi Đồng – Đồng Nai Trong quá trình nghiên cứu, tôi được sự hỗ trợ của cấp lãnh đạo và dữ liệu thu thập trong quá trình nghiên cứu được thực hiện đúng theo quy chế của bệnh viện
Tác giả
Trang 3
TRANG PHỤ BÌA
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH SÁCH BẢNG
DANH SÁCH HÌNH VẼ
LỜI MỞ ĐẦU 1
CHƯƠNG I: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 5
1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? - 5
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu - 5
1.1.2 Một số định nghĩa về khai phá dữ liệu - 6
1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? - 8
1.2.1 Tại sao phải khai phá dữ liệu? - 8
1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào? - 10
1.2.3 Ứng dụng của khai phá dữ liệu - 10
1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU - 11
1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá tri thức - 11
1.3.2 Một số phương pháp khai phá dữ liệu - 13
1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU - 14
1.4.1 Mô tả (Descriptive) - 14
1.4.2 Dự đoán (Predictive) - 14
1.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG - 15
1.5.1 Phân lớp dữ liệu - 15
1.5.2 Phân cụm dữ liệu - 15
1.5.3 Khai phá luật kết hợp - 15
1.5.4 Hồi quy - 15
Trang 41.5.7 Cây quyết định - 16
1.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC - 17
1.7 KẾT CHƯƠNG - 17
CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA 19
2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU 19
2.1.1 Khái niệm - 19
2.1.2 Mục đích và phương pháp luận của canh tác dữ liệu - 20
2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu 21
2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu - 25
2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu - 27
2.1.6 Quy trình canh tác dữ liệu - 28
2.1.7 Phương pháp canh tác dữ liệu đánh giá đặc tính - 30
2.1.7.1 Đặc tính chung của dữ liệu 30
2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu 30
2.2 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA - 31
2.2.1 Vai trò của diều dưỡng, bác sĩ trong canh tác dữ liệu y khoa - 31
2.2.2 Tập dữ liệu y khoa - 32
2.2.3 Phương pháp giải quyết - 32
2.2.3.1 Phương pháp giải quyết công việc 1 32
2.2.3.2 Phương pháp giải quyết công việc 2 33
2.2.3.3 Phương pháp giải quyết công việc 3 33
2.3 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU BỆNH SỐT XUẤT HUYẾT - 33
2.3 1 Tập thuộc tính ban đầu - 33
2.3 1.1 Thông tin hành chính 33
2.3.1.2 Triệu chứng lâm sàng 34
Trang 52.3.2 Phương pháp giải quyết - 34
2.3.2.1 Phương pháp giải quyết công việc 1 34
2.3.2.2 Phương pháp giải quyết công việc 2 35
2.3.2.3 Phương pháp giải quyết công việc 3 35
2.3.3 Tập thuộc tính sau khi canh tác dữ liệu - 35
2.4 KẾT CHƯƠNG - 36
CHƯƠNGII: KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 37 3.1 CÂY QUYẾT ĐỊNH - 37
3.1.1 Khái niệm - 37
3.1.2 Biểu diễn cây quyết định - 38
3.1.3 Các bước chính xây dựng cây quyết định - 39
3.1.4 Cây quyết định so với kỹ thuật khai phá khác - 40
3.1.4.1 Một số ưu điểm của cây quyết định 40
3.1.4.2 Một số điểm yếu của cây quyết định 42
3.2 MỘT SỐ THUẬT TOÁN KPDL BẰNG CÂY QUYẾT ĐỊNH - 43
3.2.1 Thuật toán ID3 - 43
3.2.1.1 Lịch sử phát triển 43
3.2.1.2 Mã giã giải thuật ID3 44
3.2.1.4 Lựa chọn thuộc tính kiểm tra 44
3.2.1.5 Một vài ưu khuyết điểm của thuật toán ID3 49
3.2.2 Thuật toán C4.5 - 49
3.2.2.1 Lịch sử phát triển 49
3.2.2.2 Mã giã của thuật toán C4.5 50
3.2.2.3 Một số cải tiến của thuật toán C4.5 52
3.2.3 Thuật toán SPRINT - 54
3.2.3.1 Lịch sử phát triển 54
3.2.3.2 Mã giã của thuật toán SPRINT 55
3.2.3.3 SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập dữ liệu “tốt nhất” 56
Trang 6CHƯƠNG IV: XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC
NGHIỆM 60
4.1 MỤC TIÊU - 60
4.2 ĐỐI TƯỢNG VÀ PHẠM VI - 60
4.3 PHƯƠNG PHÁP GIẢI QUYẾT - 60
4.4 QUY TRÌNH XÂY DỰNG HỆ THỐNG - 60
4.4.1 Tìm hiểu nghiệp vụ của bài toán - 60
4.4.2 Thu thập dữ liệu - 61
4.4.2.1 Nguyên tắc chọn lựa thuộc tính khai phá 61
4.4.2.2 Tiến hành thu thập dữ liệu 61
4.4.2.3 Xử lý dữ liệu-chuyển đổi dữ liệu 62
4.4.3 Chọn lựa kỹ thuật khai phá - 63
4.4.4 Xây dựng chương trình - 63
4.4.4.1 Dữ liệu đầu vào 63
4.4.4.2 Mô tả dữ liệu đầu vào 63
4.4.4.3 Dữ liệu đầu ra 64
4.4.4.4 Sử dụng thuật toán cho bài toán 64
4.4.4.5 Ngôn ngữ phát triển và cơ sở dữ liệu sử dụng 64
4.5 THỰC NGHIỆM - 64
4.5.1 Dữ liệu và chương trình thực nghiệm - 64
4.5.1.1 Dữ liệu thực nghiệm 64
4.5.1.2 Hướng dẫn sử dụng hệ thống 65
4.6 KẾT QUẢ THỰC NGHIỆM - 67
4.7 NHẬN XÉT KẾT QUẢ THỰC NGHIỆM - 67
CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69
5.1 KẾT LUẬN - 69
5.1.1 Kết quả đạt được - 69
5.1.1.1 Lý thuyết 69
5.1.1.2 Thực nghiệm 70
5.1.2 Kết quả chưa đạt được - 70
Trang 75.2.2 Thực hành - 71
TÀI LIỆU THAM KHẢO
PHỤ LỤC
Trang 8KDD Knowledge Discovery in Databaes
SXHD-CB Sốt xuất huyết Dengue cảnh báo
SXHD-VS Sốt xuất huyết Dengue vào sốc
WHO Tổ chức Y tế thế giới
Trang 9Bảng 2.1 So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu 19 Bảng 3.1 Tập dữ liệu huấn luyện cho khái niệm mục tiêu Play tennis 45 Bảng 4.1 Bảng kết quả thực nghiệm của hệ thống 71
Trang 10
Hình 1.1 Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu 5
Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu 7
Hình 1.3 Chúng ta đang giàu dữ liệu nhưng nghèo tri thức 9
Hình 1.4 Biễu diễn chức năng chính của khai phá dữ liệu 14
Hình 2.1 Quá trình khám phá tri thức và khai phá dữ liệu 23
Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức 24
Hình 2.3 So sánh khai phá dữ liệu có và không có canh tác dữ liệu 26
Hình 3.1 Biễu diễn cây quyết định cơ bản 37
Hình 3.2 Cây quyết định cho việc chơi Tennis 38
Hình 3.3 Tạo Node gốc Outlook 48
Hình 3.4 Thuộc tính kiểm tra cho con kế node gốc 48
Hình 4.1 Đơn xin mượn hồ sơ bệnh án nghiên cứu khoa học 62
Hình 4.2 Giao diện chính hệ thống chương trình 65
Hình 4.3 Màn hình hiển thị dữ liệu tập huấn 65
Hình 4.4 Hiển thị cây quyết định dạng treeview 66
Hình 4.5 Màn hành giao diện chẩn đoán 66
Trang 11LỜI MỞ ĐẦU
1/Tính cấp thiết của đề tài
Tình hình bệnh sốt xuất huyết (SXH) trên thới giới
Tỉ lệ mắc bệnh SXH trên toàn thế giới đang gia tăng mạnh mẽ trong những năm gần đây Theo Tổ chức Y tế thế giới (WHO), trong vòng 10 năm gần đây, bệnh sốt SXH hay còn gọi sốt Dengue (SD)/ sốt xuất huyết Dengue (SXHD) trở nên trầm trọng, có trên 100 nước ở châu Phi, châu Mỹ, vùng Ðông Ðịa Trung Hải, các nước Ðông Nam á và Tây Thái Bình Dương đều báo cáo có bệnh này Trong vòng 9 năm từ 1990 đến 1998, số trường hợp trung bình hằng năm mắc SD/SXHD khoảng 514.139.000 người Đông Nam
Á và Tây Thái Bình Dương là khu vực chịu ảnh hưởng nặng nề nhất Do sự phát triển dân cư và đô thị hóa tạo điều kiện cho muỗi Aedes aegypti[pl3], dịch xuất hiện thường xuyên và tăng nhanh, đến nay, Sốt xuất huyết đã trở thành bệnh lưu hành Trong đó, Malaysia, Singapore, Đài Loan, Thái Lan và Việt Nam có tỉ lệ tử vong trung bình khoảng 0,5%
Tình hình bệnh sốt xuất huyết tại Việt Nam
Theo thống kê báo cáo của Bộ Y tế Việt Nam, tình hình bệnh sốt xuất huyết diễn ra phức tạp, tỉ lệ mắc bệnh và tử vong còn rất cao [pl3] Trong 6 tháng đầu năm 2012 cả nước có 26.000 ca bị mắc bệnh SXH, số tử vong 30 ca trong đó TPHCM 6 ca, bệnh viện Nhi Đồng – Đồng Nai 7 ca.[báo cáo giao ban tại bệnh viện Nhi Đồng – Đồng Nai, tháng 7/2012]
Bệnh SD/SXHD trở thành một bệnh dịch lưu hành ở nước ta Bệnh không chỉ xuất hiện ở đô thị mà cả vùng nông thôn, nơi có muỗi vectơ truyền bệnh Dịch lớn SD/SXHD bùng nổ theo chu kỳ khoảng 3-5 năm Năm 1998, trên toàn quốc bùng nổ vụ dịch lớn, số mắc bệnh và tử vong cao (mắc: 234.920 người, tử vong 377[2])
[pl3]
Tham khảo phụ lục 3
[pl3] Tham khảo phụ lục 3
Trang 12Bệnh SXHD là bệnh truyền nhiễm gây dịch do virus Dengue gây nên
Virus Dengue có 4 týp huyết thanh là DEN -1, DEN -2, DEN -3, DEN -4
Virus truyền từ người bệnh sang người lành do muỗi đốt Muỗi Aedes aegypti
là côn trùng trung gian truyền bệnh chủ yếu Đặc điểm của SXH D là sốt, xuất huyết và thoát huyết tương, có thể dẫn đến sốc giảm thể tích tuần hoàn và rối loạn đông máu, nếu không được chẩn đoán sớm và xử trí kịp thời dễ dẫn đến
2/Tính thực tiễn của đề tài
Y học là môn khoa học không ngừng phát triển Tiếp cận và cập nhật hóa thông tin y học chứng cớ[pl1] và y học thực chứng[pl2] từ những cơ sở dữ liệu,
để nâng cao chất lượng chăm sóc sức khỏe cho nhân dân là điều không thể thiếu trong thực hành lâm sàng Với sự phát triển mạnh mẽ của ngành Công Nghệ Thông Tin (CNTT), một trong những ngành mũi nhọn của nhiều quốc gia trên thới giới Sự phát triển vượt bậc đó là kết quả tất yếu của việc ứng dụng của nó trong nhiều lĩnh vực khác nhau trong cuộc sống như: Giáo dục,
Y tế, Kinh tế, Khoa học, Xây dựng nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người Trong kỷ nguyên bùng nổ thông tin, việc áp dụng các phương pháp tìm kiếm thông tin từ những nguồn
dữ liệu khác nhau là nhu cầu thiết thực cho toàn xã hội Trong các phương
[pl1]
Tham khảo phụ lục 1
[pl2] Tham khảo phụ lục 2
Trang 13pháp tìm kiếm thông tin đó, khai phá dữ liệu để tìm ra tri thức, phục vụ đời sống xã hội là một phương pháp mới, đang được các nhà nghiên cứu khoa học quan tâm Tuy nhiên, khai phá dữ liệu trong lĩnh vực y khoa ở nước ta quả thật còn rất ít, gặp nhiều khó khăn, do hiện nay nhiều bệnh viện ở nước ta chưa có bệnh án điện tử Việc khai phá trong lĩnh vực này thực sự mang lại nhiều ý nghĩa cho y học chứng cớ và y học thực chứng, để hỗ trợ cho các bác
sĩ, chẩn đoán bệnh sớm và điều trị bệnh có hiệu quả, giảm bớt tử vong cũng như chi phí điều trị, đây là một nhu cầu thiết thực trong các bệnh viện
Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa” để
nghiên cứu cho luận văn thạc sĩ của mình
3/Mục đích và ý nghĩa nghiên cứu
- Giới thiệu về phương pháp khai phá dữ liệu có sử dụng tri thức chuyên gia (lĩnh vực có liên quan) trong quá trình chọn lựa thuộc tính nhằm các mục đích sau:
- Giảm bớt thuộc tính nhiễu, dư thừa trong khai phá dữ liệu
- Giảm bớt thời gian và chi phí khai phá dữ liệu, giúp các thuật toán khai phá dữ liệu chạy nhanh và chính xác hơn, từ đó các luật sinh ra trong quá trình khai phá cũng tốt hơn Giá trị chẩn đoán từ các luật cũng có độ tin cậy cao hơn
- Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5, tạo ra các luật, thông qua kiểm nghiệm thực tiễn, hỗ trợ bác sĩ chẩn đoán và điều trị bệnh
Với mục đích đặt ra cho đề tài nêu trên, việc nghiên cứu thực sự có ý nghĩa rất to lớn cho nền y học, tạo ra các y học chứng cớ và y học thực chứng, cải cách chẩn đoán, tạo công cụ hỗ trợ đắc lực trong quá trình chẩn đoán bệnh (trong luận văn này nghiên cứu hỗ trợ chẩn đoán bệnh SXH), nhằm giảm thiểu tử vong và giảm chi phí điều trị cho bệnh nhân
Trang 14Kỳ vọng của đề tài là giải pháp hỗ trợ, mong được áp dụng tại bệnh viện Nhi Đồng – Đồng Nai, cũng như những bệnh viện tuyến huyện, thiếu chuyên gia bác sĩ giỏi, nhằm hướng cải cách chẩn đoán và điều trị bệnh nhân,
cụ thể là bệnh SXHD
4/Đối tượng và phạm vi nghiên cứu
Gồm các hồ sơ bệnh án lưu trữ bằng giấy, thuộc đối tượng trẻ em từ 0
tuổi đến 15 tuổi, được chẩn đoán SXH theo tiêu chuẩn WHO 1997 và Bộ Y
Tế Việt Nam[2], đã nhập viện và điều trị tại bệnh viện Nhi Đồng – Đồng Nai
từ năm 2009 đến năm 2012
5/Phương pháp nghiên cứu
- Phương pháp nghiên cứu hồi cứu [5]
- Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác
sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ liệu y khoa
- Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5
6/Kết cấu luận văn
Luận văn gồm 5 chương: Ngoài phần mở đầu, tham khảo, phụ lục
- Chương I: Cơ sở lý thuyết về khai phá dữ liệu
- Chương II : Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa
- Chương III: Kỹ thuật khai phá dữ liệu bằng cây quyết định
- Chương IV: Xây dựng hệ thống chương trình hỗ trợ chẩn đoán bệnh SXH và thực nghiệm
- Chương V: Kết luận và hướng phát triển
Trang 15Chương I
CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU
1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ?
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge Discovery in
Database-KDD) là một qui trình nhận biết các mẫu hoặc các mô hình trong
dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được
Khai phá dữ liệu (Data Mining-DM) [6] là một khái niệm ra đời vào
những năm cuối của thập kỷ 1980 Cụm từ “khai phá dữ liệu” nó bao hàm
một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn Thuật ngữ này thực sự là một cái tên nhầm lẫn Hãy nhớ rằng việc khai thác vàng từ đá hoặc cát được gọi là khai thác vàng chứ không phải là khai thác đá, cát Như vậy, khai phá dữ liệu (KPDL) nên được đặt tên
thích hợp hơn là “khai thác kiến thức từ dữ liệu”.Tuy nhiên, “khai phá dữ
liệu” vẫn được dùng cách phổ biến Hình 1.1 minh họa đơn giản và trực quan cho khái niệm này
Hình 1-1: Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu
Trang 16Khái niệm KDD và KPDL được các nhà khoa học xem là tương đương nhau Tuy nhưng, nếu phân chia một cách rành mạch và chi tiết thì KPDL là một bước chính trong quá trình KDD
Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành như: Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song và hiệu năng cao Các kỹ thuật chính áp dụng trong khám phá tri thức phần lớn được thừa kế từ các ngành này
1.1.2 Một số định nghĩa về khai phá dữ liệu
Sau đây là một số định nghĩa khác nhau về KPDL:
Định nghĩa của Giáo sư Tom Mitchell: “Khai phá dữ liệu là việc sử dụng
dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp
được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát
biểu:”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các
cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.”
Còn các nhà Thống kê thì xem "Khai phá dữ liệu như là một quá trình
phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu"
Trang 17Tuy nhiên trên thực tế, KPDL được xem là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL bao gồm các thụât toán KPDL chuyên dùng, dưới một số quy định về hiệu quả tính toán chấp nhận được, để tìm ra các mẫu hoặc các mô hình trong dữ liệu Quá trình này được mô tả trong hình 1.2 và bao gồm một chuỗi lặp đi lặp lại các bước sau [6]:
• Làm sạch dữ liệu (loại bỏ dữ liệu nhiễu và dữ liệu không phù hợp)
• Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể được kết hợp)
• Lựa chọn dữ liệu (nơi mà các dữ liệu liên quan đến công việc phân tích được lấy từ cơ sở dữ liệu)
• Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi, hợp nhất thành các hình thức thích hợp để khai thác bằng cách thực hiện các hoạt động tóm tắt hoặc tập hợp)
• Khai phá dữ liệu (một quá trình cần thiết mà các phương pháp thông minh được áp dụng để trích xuất mẫu dữ liệu)
• Đánh giá mẫu (xác định các mô hình thực sự quan tâm đại diện cho kiến thức dựa trên một vài đo lường lưu tâm)
• Biểu diễn tri thức (nơi kỹ thuật biểu diễn tri thức và sự hình dung được
sử dụng để trình bày các tri thức được khai thác đến người dùng)
Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu
Trang 181.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU?
1.2.1 Tại sao phải khai phá dữ liệu?
Trong thời đại ngày nay, việc nắm bắt được thông tin được coi là chìa khóa của thành công Ai thu thập, phân tích và hiểu được thông tin và hành động được nhờ vào những thông tin đó là kẻ thắng cuộc Chính vì vậy, việc tạo ra thông tin và mức tiêu thụ thông tin ngày nay ngày càng gia tăng Cùng với sự phát triển vượt bậc của CNTT và việc ứng dụng CNTT trong nhiều lĩnh vực khác nhau trong nhiều năm qua cũng đồng hành với lượng dữ liệu lưu trữ ngày một nhiều lên Những dữ liệu này thường ẩn chứa những giá trị nhất định nào đó Tuy nhiên, Trong thực tế thì chỉ có một ít dữ liệu là được phân tích (cụ thể là hồ sơ bệnh án trong các bệnh viện), số còn lại họ không biết sẽ phải làm gì, nhưng họ vẫn tiếp tục thu thập rất tốn kém, với ý nghĩ lo
sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến (có thể chứng minh quan trọng trong tương lai) Tuy nhiên, thực tế đã chứng minh,
dữ liệu (DL) là một thứ gì đó vô giá chỉ có con người chưa khám phá ra hết những giá trị của nó Sau đây là một số chuyên gia nhận định về giá trị DL lưu trữ như sau:
Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998
“Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ liệu tiếp thị Con người không có đủ thời gian để xem xét dữ liệu như vậy Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong
nó, và tự động chỉ dẫn các dị thường
Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh
Trang 19vực này Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài thập kỷ gần đây”
Kenneth Cukier:
“Thông tin từ khan hiếm tới dư dật Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được: nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …
Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý”
Chính vì vậy, đúng như John Naisbett nhận định, hiện nay chúng ta
đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”
Lượng DL khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị bởi thông tin là yếu tố then chốt để phục vụ cho mọi nhu cầu thiết thực trong hoạt động hàng ngày của chúng ta Vậy chúng ta làm gì với một khối DL này Hình 1.3 thể hiện sự băng khoăn đó
“Necessity is the mother of invention” - Data Mining ra đời như một
hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Khá nhiều định nghĩa
về Data Mining đã được trình bày ở trên Data Mining được xem như là một
Hình 1.3 Chúng ta đang giàu dữ liệu nhưng nghèo tri thức [6]
Trang 20công nghệ tri thức, giúp khai thác những thông tin hữu ích từ những kho DL, được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó
1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào?
Khai phá dữ liệuđược áp dụng trên nhiều loại DL khác nhau Về nguyên tắc, KPDL được áp dụng đối với bất kỳ loại DL lưu trữ nào, cũng như các DL tạm thời[6] Do đó, phạm vi DL của chúng ta sẽ bao gồm các CSDL quan
hệ(Relational Databases), kho dữ liệu (DataWarehouses), CSDL giao dịch(Transactional Databases), hệ thống CSDL nâng cao(Advanced Data and Information Systems), DL dòng (Stream data), World Wide Web …
Hệ thống CSDL nâng cao bao gồm các đối tượng CSDL quan hệ và CSDL có tính định hướng theo ứng dụng cụ thể, chẳng hạn như CSDL đa truyền thông, CSDL đa chiều, CSDL chuỗi thời gian, CSDL văn bản Những thách thức và kỹ thuật KPDL có thể khác nhau cho mỗi hệ thống lưu trữ
1.2.3 Ứng dụng của khai phá dữ liệu
KPDL được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao như : Tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất; Được ứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản xuất trong thực tế như: Dự đoán tái sử dụng điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng; Áp dụng cho các vấn
đề xã hội như: Phát hiện tội phạm, tăng cường an ninh, trong y khoa chẩn đoán bệnh… Một số ứng dụng cụ thể như sau:
- KPDL được sử dụng để phân tích DL, hỗ trợ ra quyết định
- Trong sinh học: nó dùng để tìm kiếm , so sánh các hệ gen và thông tin di chuyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di chuyền
- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng lâm sàng, chẩn đoán bệnh
Trang 21- Tài chính và thị trường chứng khoán: KPDL để phân tích tình hình tài chính, phân tích đầu tư, phân tích cổ phiếu
1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá tri thức
quá trình KDD gồm các bước sau:
(1) Xác định chính xác vấn đề cần giải quyết sau đó tìm hiểu nghiệp vụ
và dữ liệu cho vấn đề cần giải quyết
(2) Chuẩn bị dữ liệu, thu thập dữ liệu
(3) Tiền xử lý dữ liệu
(4) Lựa chọn chức năng KPDL
(5) Lựa chọn giải thuật KPDL phù hợp
(6) Tiến hành KPDL
(7) Hậu xử lý và đánh giá mô hình
(8) Triển khai tri thức
Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau Tham gia chính trong quá trình KPDL là các nhà tư vấn (NTV) và nhà phát triển chuyên nghiệp trong lĩnh vực KPDL
(1) Xác định chính xác vấn đề cần giải quyết và tìm hiểu nghiệp vụ và
dữ liệu: Xác định chính xác vấn đề cần giải quyết (xác định và hình
thành bài toán của ứng dụng) sau đó nghiên cứu kiến thức về lĩnh vực
sẽ áp dụng, bao gồm các tri thức, cấu trúc về hệ thống và tri thức, các
Trang 22nguồn DL hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực
tể DL Xác định các nhiệm vụ cần phải hoàn thành Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp KPDL thích hợp với mục đích ứng dụng và bản chất của DL
(2) Chuẩn bị dữ liệu và thu thập: Chuẩn bị và thu thập DL phù hợp với
mục đích đề ra
(3) Tiền xử lý dữ liệu: Là thu thập và xử lý thô, hay còn được gọi là tiền
xử lý DL bước này gồm một số công việc sau:
- Làm sạch DL: Loại bỏ DL nhiễu, DL dư thừa không phù hợp
- Làm giàu DL: Các DL bị thiếu/mất sẽ được thay thế bởi các giá trị thích hợp
- Làm giảm chiều: Các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt
- Biến đổi DL và rút gọn DL nếu cần thiết: bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức Do
DL được lấy từ nhiều nguồn khác nhau, không đồng nhất, có thể gây
ra các nhầm lẫn Sau bước này, DL sẽ nhất quán, đầy đủ, được rút gọn và rời rạc hoá
Mục đích của bước này là xử lý DL sao cho giải thuật khai phá hiểu được
(4) Lựa chọn chức năng khai phá dữ liệu: Tóm tắt hóa (summarization),
phân loại/phân lớp, hồi quy/dự đoán, kết hợp, phân cụm
(5) Lựa chọn giải thuật khai phá dữ liệu: Trong giai đoạn này, chọn
thuật toán KPDL thích hợp cho ứng dụng Đây là một công việc không kém phần quan trọng Một ứng dụng chạy tốt, kết quả chính xác là nhờ thuật toán hiệu quả
(6) Khai phá dữ liệu, rút ra các tri thức: Là KPDL hay nói cách khác là
trích ra các mẫu hoặc/và các mô hình ẩn dưới các DL Giai đoạn này
Trang 23rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của KPDL, dùng phương pháp khai phá nào? Thông thường, các bài toán KPDL bao gồm: Các bài toán mang tính mô tả - đưa ra tính chất chung nhất của DL, các bài toán dự báo bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp KPDL cho phù hợp
(7) Hậu xử lý và đánh giá mẫu mô hình: Hiển thị hóa, chuyển đổi, bỏ đi
các mẫu dư thừa Trong bước này có thể tư vấn các chuyên gia để loại
bỏ những mô hình dư thừa, không hợp với ứng dụng là rất cần thiết
(8) Triển khai tri thức là sử dụng các tri thức phát hiện được: Là hiểu
tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các quy trình trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện Các kết quả của quá trình phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác nhau Do các kết quả có thể là các dự đoán hoặc các mô
tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này
1.3.2 Một số phương pháp khai phá dữ liệu
KPDL là lĩnh vực liên ngành mà con người luôn tìm cách đạt được mục đích sử dụng thông tin của mình Quá trình KPDL là quá trình phát hiện mẫu, trong đó phương pháp KPDL để tìm kiếm các mẫu đáng quan tâm theo dạng xác định Có thể kể ra đây một vài phương pháp như:
- Phương pháp sinh cây quyết định và luật (đây là phương pháp được
sử dụng trong luận văn này sẽ được trình bày kỹ trong chương III)
Trang 24- Luật suy diễn
- Trực quan hóa dữ liệu
- Phát hiện luật kết hợp, …
1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU
Khai phá dữ gồm hai chức năng chính sau đây: Mô tả và dự đoán
1.4.1 Mô tả (Descriptive)
Có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của DL trong CSDL hiện có Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân tích sự phát triển và độ lệch (Evolution and deviation analyst)…
1.4.2 Dự đoán (Predictive)
Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên CSDL hiện thời Một số kỹ thuật khai phá trong nhóm này là: phân lớp (Classification), hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp…
Hình 1.4: Biễu diễn chức năng chính của khai phá dữ liệu
Trang 251.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG
Trong thực tế có nhiều kỹ thuật KPDL khác nhau, nhằm thực hiện hai chức năng chính: Mô tả và dự đoán Một số kỹ thuật phổ biến thường được
sử dụng để KPDL hiện nay là:
1.5.1 Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu( mỗi mẫu 1 lớp) Mô hình được sử dụng để dự đoán nhãn lớp khi
mà độ chính xác của mô hình chấp nhận được
Trang 261.5.5 Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên Ý tưởng chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học
1.5.6 Mạng nơ-ron (neural network)
Đây là một trong những kỹ thuật KPDL được ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người
Kết quả mà mạng nơ-ron học được có khả năng tạo ra các mô hình dự báo, dự đoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được Tuy nhiên phương pháp neural network rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều
DL, nhiều lần kiểm tra thử nghiệm
1.5.7 Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo Các đối tượng DL được phân thành các lớp Các giá trị của đối tượng DL chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng Trong những năm qua, nhiều mô hình phân lớp DL đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất, nhưng kỹ thuật cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho DM nói chung
và phân lớp dữ liệu nói riêng
Trong khóa luận này tác giả đã sử dụng cây quyết định và thuật toán C4.5
để giải quyết bài toán chẩn đoán bệnh SXHD Vì vậy kỹ thuật này và các thuật toán có liên quan sẽ được trình bày trong chương III )
Trang 271.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC
- DL bị thiếu hoặc bị nhiễu
- Quan hệ giữa các trường phức tạp
- Vấn đề giao tiếp với người sử dụng và kết hợp với các tri thức đã
1.7 KẾT CHƯƠNG
Khai phá dữ liệu và khám phá tri thức là một môn khoa học có liên quan nhiều ngành: Cơ sở dữ liệu, học máy và thống kê, nghiên cứu các kỹ thuật”khai phá núi tìm vàng” nhằm tìm và phát hiện những tri thức hữu ích,
Trang 28để phục vụ nhu cầu thực tiễn hàng ngày của chúng ta Khái niệm KDD và KPDL được các nhà khoa học xem là tương đương nhau Thế nhưng, nếu phân chia một cách chi tiết thì KPDL là một bước chính trong quá trình KDD Phần chương này tác giả đã trình bày các nội dung chính:
- Khái niệm về KDD trong CSDL
- Khái niệm và một số định nghĩa về KPDL
- Tại sao phải KPDL? KPDL được áp dụng trên những loại DL nào? Ứng dụng của KPDL
bày khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa Đây là phương pháp khai phá dữ liệu có sử dụng các tri thức chuyên gia
trong quá trình chọn lựa thuộc tính khai phá và đánh giá mô hình Sự kết hợp này sẽ làm giảm chi phí thu thập DL cũng như mô hình dự đoán có mức độ thường chính xác cao
Trang 29Các quy trình, các phương pháp, sử dụng các kiến thức chuyên gia để quyết định những thuộc tính nào quan trọng nhất trong quá trình thu thập dữ liệu, nhằm rút ra tri thức hữu dụng từ những cơ sở dữ liệu, gọi là khai phá dữ liệu có canh tác dữ liệu hay còn gọi ngắn gọn là canh tác dữ liệu (data farming) [4],[9]
Để hiểu rỏ hơn về thuật ngữ này hãy xem sự so sánh bảng 2.1 sau:
Bảng 2.1 So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu
(1) Xác định loại nông sản cần sản
xuất
(1) Xác định mục đích khai phá dữ liệu
(2) Chọn loại giống tốt, chuẩn bị đất
canh tác và ươm mầm (Trong
phương pháp này người nông có thể
dựa vào kinh nghiệm, hay sử dụng
(2) Chọn lựa thuộc tính có đặc tính tốt, sử dụng các công cụ, các phương pháp hoặc sử dụng kiến thức chuyên gia về lĩnh vực dữ liệu
Trang 30kinh nghiệm của người khác như
người lớn tuổi có kinh nghiệm canh
tác lâu năm, hay các kỹ sư nông
nghiệp )
có liên quan ( như khai phá dữ liệu
y khoa sử dụng kiến thức các y bác
sĩ tìm ra thuộc tính có đặc tính tốt trong chẩn đoán bệnh)
(3) Gieo trồng, chăm sóc, cung cấp
phân bón và bảo vệ cây trồng
KPDL là một hoạt động giống như tìm vàng thô từ mỏ khoáng sản, hoặc hái quả trong rừng, hoặc thu hoạch lúa trong cánh đồng Xét về mặt ứng dụng của KPDL, giá trị thông tin đã có rồi, chỉ cần chờ đợi tìm thấy nó và sử dụng Còn về mặt phương pháp, KPDL truyền thống chỉ tập trung xây dựng các mối liên kết giữa các trị thuộc tính [4][9]
Canh tác dữ liệu (CTDL), xét về mặt ứng dụng, giá trị thông tin gần như chưa có Còn phương pháp, thì CTDL tập trung xác định bản chất tác động qua lại của các thuộc tính để khai phá [9]
2.1.2 Mục đích và phương pháp luận của canh tác dữ liệu
Chọn lựa hay trích lọc thuộc tính (Feature Selection, Feature Extraction) là nhiệm vụ rất quan trọng trong giai đoạn tiền xử lý DL khi triển khai các mô hình KPDL Rút gọn thuộc tính (hay còn gọi là rút gọn số chiều Dimension reduction) đã trở thành đề tài được quan tâm bởi nhiều nhà nghiên cứu thuộc các lĩnh vực khác nhau đặc biệt là trong lĩnh vực học máy, KPDL
Trang 31- Mục đích của CTDL chính là tìm và lựa chọn thuộc tính có đặc tính tốt,
có giá trị liên quan, nhằm tối đa tính năng cũng như giảm chi phí thu
thập dữ liệu
- CTDL làm giảm số chiều của không gian thuộc tính hay còn gọi là rút gọn thuộc tính (loại bỏ dữ liệu nhiễu, dữ liệu dư thừa) Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Cải thiện chất lượng, tính dễ hiểu của các kết quả thu được Đồng thời giúp cho các thuật toán trong khai phá thực thi nhanh hơn, chính xác hơn, mô hình dự đoán sinh ra cũng có độ chuẩn cao hơn, đáp ứng yêu cầu của ứng dụng
- Phương pháp luận của CTDL là xác định bản chất tác động của các thuộc tính [4] trong KPDL nhằm giúp cho mục đích KPDL có hiệu quả hơn
2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu
Trước khi đi vào thảo luận thêm khám phá tri thức và khai phá dữ liệu
ta bàn luận về khái niệm “dữ liệu, thông tin và tri thức Dữ liệu thường được
cho bởi các giá trị mô tả các sự kiện, hiện tượng cụ thể Còn tri thức
(knowledge) là gì? Có thể có những định nghĩa rõ ràng để phân biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà định nghĩa chính xác, nhưng phân biệt chúng trong những ngữ cảnh nhất định là rất cần thiết và có thể làm được Thông tin là một khái niệm rất rộng, khó có thể đưa ra một định nghĩa chính xác cho khái niệm này Cũng không thể định nghĩa cho khái niệm tri thức cho dù chỉ hạn chế trong phạm vi những tri thức được chiết xuất từ các CSDL Tuy nhiên, ta có thể hiểu tri thức là một biểu thức trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính trong các DL đó Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc phát hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật (rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một,
Trang 32các hệ thống phương trình, v.v…, ví dụ như ta có các luật mô tả các thuộc tính của DL, các mẫu thường xuyên xảy ra, các nhóm đối tượng trong cơ sở
dữ liệu, v.v…
2.1.3.1 Khám phá tri thức và khai phá dữ liệu
KDD là một qui trình nhận biết các mẫu hoặc các mô hình trong DL với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được KDD mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra Vì vậy, quá trình phát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặc một chuyên gia phân tích với các công cụ tin học
Còn KPDL là một bước trong qui trình phát hiện tri thức, gồm có các thuật toán khai thác dữ liệu chuyên dùng, dưới một số qui định về hiệu quả tính toán chấp nhận được, để tìm ra các mẫu hoặc các mô hình trong DL
Nói một cách khác, mục đích của KDD và DM chính là tìm ra các mẫu hoặc các mô hình đang tồn tại trong các CSDL nhưng vẫn còn bị che khuất bởi hàng núi DL
2.1.3.2 Quy trình phát hiện tri thức và khai phá dữ liệu
KDD là một quá trình có sử dụng nhiều phương pháp và công cụ tin học, nhưng vẫn là một quá trình mà trong đó con người là trọng tâm Do đó,
nó không phải là một hệ thống phân tích tự động, mà là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và CSDL, tất nhiên là với sự hỗ trợ của các công cụ tin học Người sử dụng hệ thống ở đây, phải là người có kiến thức cơ bản về lĩnh vực cần phát hiện tri thức, để có thể chọn được đúng các tập con DL, các lớp mẫu phù hợp và đạt tiêu chuẩn quan tâm so với mục đích Tri thức mà ta nói ở đây là các tri thức rút ra từ các CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định Do đó, quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là
Trang 33phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra Vì vậy, quá trình phát hiện tri thức là một quá trình hoạt động tương tác giữa con người (người sử dụng hoặc chuyên gia phân tích) với các công cụ tin học và có thể tóm tắt các bước cơ bản sau:
Hình 2.1 Quá trình khám phá tri thức và khai phá dữ liệu
Bước thứ nhất: Là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán: Bước
này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp KPDL thích hợp với mục đích ứng dụng và bản chất của
DL Trong bước này tổ chức nhà kho dữ liệu (Data warehousing) nhằm thu thập DL nhiều nguồn để sử dụng cho một mục đích ứng dụng
Bước thứ hai: Là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu
(Pre – processing): Nhằm loại bỏ D:L nhiễu, xử lý việc thiếu DL, biến đổi DL
và rút gọn DL nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức
Bước thứ ba: Là KPDL: Hay nói cách khác là trích ra các mẫu hoặc và các
mô hình ẩn dưới các DL Sử dụng các kỹ thuật thông minh để khai phá
Bước thứ tư: Giải thích và đánh giá tri thức đã được khám phá
Phân tích và kiểm định kết quả
Sử dụng tri thức đã phát hiện được
Trang 34Bước thứ năm: Sử dụng tri thức đã phát hiện vào thực tế: là hiểu tri thức đã
tìm được, đặc biệt làm sáng tỏa và dự đoán Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên các lần thực hiện
Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà ta xét
ở đây là sự tiếp thu, sử dụng và phát triển nhiều thành tựu và công cụ của các lĩnh vực đã phát triển trước đó như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v… Nhưng đặc điểm cơ bản của lý luận về phát hiện tri thức ở đây
là phát hiện tri thức trực tiếp từ dữ liệu, do đặc điểm đó mà nó có những điểm mới, phân biệt với các ngành đã có từ trước Thí dụ như với các hệ chuyên gia thì cơ sở tri thức được hình thành từ kinh nghiệm và kiến thức của các chuyên gia là chủ yếu, với nhiều bài toán nhận dạng thì thường là tập các dạng mẫu cho trước, v.v…, còn đối với lý thuyết phát hiện tri thức thì các tri thức, các
dạng mẫu, các giả thuyết đều được phát hiện từ việc khai phá các kho dữ liệu
Ở đây tôi muốn cụ thể hơn là phát hiện tri thức từ CSDL bằng sự kết hợp giữa KPDL và tri thức chuyên gia chuyên ngành
2.1.3.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu
Canh tác dữ liệu tác động trên 3 giai đoạn của quy trình khám phá tri thức
và khai phá dữ liệu [4][9] (xem hình 2.2):
Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức
Trang 35- Tiền xử lý
- Khai phá dữ liệu
- Hậu xử lý
(1) Trong giai đoạn tiền xử lý, các hoạt động bao gồm chọn lựa đặc tính
(Feature Selection) và sử dụng các phương pháp, các công cụ CTDL Các
hoạt động này, giúp chọn lọc thuộc tính liên quan nhất cho mục đích KPDL,
trong rất nhiều thuộc tính có sẵn của nhà kho dữ liệu Việc chọn lọc đó, giảm
kích thước DL phải thu thập theo chiều rộng Hệ quả chọn lọc thuộc tính đó,
sẽ giảm thiểu lượng DL cần thiết phải thu thập, đồng nghĩa với việc giảm kích
thước DL theo chiều sâu Hệ quả khác của chọn lọc thuộc tính là nâng cao
chất lượng DL cung cấp cho khai phá, vì các DL nhiễu, DL không liên quan
và DL dư thừa được loại bỏ
(2) Trong giai đoạn KPDL, CTDL sẽ giúp cho các thuật toán KPDL có
trọng tâm hơn và thực thi nhanh chóng hơn Ngoài ra, trong quá trình KPDL,
các kết quả trung gian nên lần lượt trình bày, để các chuyên gia tham gia các
bước quyết định tiếp theo Chọn được cái liên quan nhất để trình bày điều đó
sẽ nâng cao chất lượng của các quyết định chuyên gia và cũng nâng cao công
năng khai phái dữ liệu
(3) Trong giai đoạn hậu xử lý, các hoạt động CTDL trong giai đoạn này
bao gồm: chuyển dạng tri thức (Knowledge stransformation) được rút trích,
kiểm chứng thuộc tính, định nghĩa kết xuất (Outcome definition) Trong các
hoạt động này , chuyển dạng tri thức được rút trích giúp đánh giá , sắp xếp và
phân loại kết quả khai phá, nhằm nâng cao tính dễ hiểu và tính trong suốt của
tri thức được rút trích, tới người sử dụng
2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu
Hãy quan sát lưu đồ sau:
Lưu
đồ A Feature Selection and Data farming Data Mining Data farming
Trang 36Hình 2.3 So sánh khai phá dữ liệu có và không có canh tác dữ liệu
Lưu đồ A khai phá dữ liệu có canh tác dữ liệu
Lưu đồ B khai phá dữ liệu không có cánh tác dữ liệu So sánh hai quá trình khai phá như sau:
(1)Thời gian
Thời gian khai phá ở lưu đồ A:
- Chọn lựa đặc tính và canh tác dữ liệu: thực hiện công việc nghiên cứu,
tìm hiểu nghiệp vụ dữ liệu, tham vấn nhiều chuyên gia có thời gian là: ta1
- Khai phá dữ liệu có thời gian: ta2
- Canh tác dữ liệu có thời gian là:ta3
Thời gian khai phá ở lưu đồ B
- Khai phá dữ liệu có thời gian là: tb
Giả sử thời gian ta2 và tb là tương đương thì rỏ ràng ta1 + ta2 + ta3 > tb
Nhưng thực tế sau khi chọn lựa thuộc tính có đặc tính tốt và canh tác dữ liệu thì khoãng thời gian của lưu đồ A có thể nhỏ hơn lưu đồ B vì canh tác dữ liệu
đã rút gọn thuộc tính trong khai phá, nên thời gian thu thập giảm đi rất nhiều
có đặc tính dư thừa làm các thuật toán học phức tạp Như vậy, dự đoán chính xác không cao
Khai phá dữ liệu có canh tác dữ liệu, rõ ràng dự đoán sẽ có độ chính xác cao hơn bởi lý do sau đây:
Lưu
Trang 37Tính đơn giản của kết quả khai phá
Kết quả khai phá có thể biểu diễn dạng: luật, cây quyết định, mạng, vv dù
là dạng nào, người dùng luôn mong đợi tính đơn giản của chúng Tính đơn giản được xem là tính dễ hiểu
KPDL không có chọn lựa đặc tính và CTDL thường cho kết quả không đơn giản Có thể là quá nhiều luật, cây quyết định quá nhiều nút, bảng quyết định quá lớn, mạng quá nhiều lớp, vv
KPDL có canh tác dữ liệu thường cho kết quả tương đối đơn giản (các luật sinh ra tương đối ít, cây quyết định sinh ra nhỏ… Do giảm thuộc tính khai phá)
Tóm lại khai phá dữ liệu có canh tác dữ liệu có hiệu quả và năng suất hơn
khai phá dữ liệu thông thường
2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu
CTDL là cần thiết cho hiện tại và trong tương lai [7].Nó tác động có hiệu quả trên ba giai đoạn của quy trình KDD và DM (đã được trình bày trong mục 2.1.3.3)
Có nhiều đề án KPDL trên các tập DL được thu thập sẵn cho nhiều mục đích khác nhau Trong một số trường hợp các thuộc tính được xem xét có thể lớn và đủ cho việc tin lọc tri thức và trong một số trường hợp khác tập DL hẹp không thể tinh lọc tri thức
Các đặc tính quyết định cần được thu thập DL nhưng còn thiếu trong một tập DL đang có hay chỉ có một phần của chúng (một tập hẹp) đã không được
đề cập đến một cách đầy đủ trong các tài liệu Tuy vậy, vấn đề này lại tối quan trọng vì lợi ích trong việc KPDL đang tăng trưởng
CTDL ứng dụng trong khai phá các tập DL rộng đáp ứng được các mong đợi đó
Nói cách khác, CTDL ứng dụng có hiệu quả nhất trong khai phá các tập
dữ liệu rộng Một trong những bài toán ứng dụng khai phá các tập dữ liệu rộng quan trọng là bài toán dự đoán
Trang 38Trong luận văn này, CTDL sẽ ứng dụng trong khai phá dữ liệu y khoa cho bài toán dự đoán bệnh SXH-VS
2.1.6 Quy trình canh tác dữ liệu
Quy trình CTDL[9] nói chung gần giống như quy trình khai phá dữ liệu, chỉ có khác là, tại mỗi bước có sử dụng tri thức chuyên gia để tư vấn trong quá trình KPDL Quy trình CTDL gồm các bước sau:
Bước 1.Tìm hiểu và nghiên cứu nghiệp vụ Thiết lập mục tiêu KPDL
Bước 2 Phân tích tính năng liên thuộc (Xác định tập thuộc tính có đặc tính có khả năng)
Bước 3 Lựa chọn và áp dụng phương pháp canh tác phù hợp DL
Bước 4 Quá trình KPDL
Bước 5 Đánh giá của mục tiêu KPDL
Các bước có thể được thực hiện theo thứ tự và một số bước có thể được thực hiện song song
Các loại phương pháp CTDL được sử dụng phụ thuộc vào mục đích khai thác
dữ liệu
Bước 1: Tìm hiểu và nghiên cứu nghiệp vụ Thiết lập mục tiêu KPDL
Bước này dựa trên các mục đích chính của việc KPDL như sau: Tìm hiểu, nghiên cứu kiến thức về lĩnh vực sẽ khai phá, KPDL này áp dụng cho mục tiêu gì? Cấu trúc về hệ thống và tri thức, các nguồn DL hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể DL Thiết lập mục tiêu khai thác dữ liệu (hình thành và định nghĩa bài toán) nhằm đáp ứng hai nhiệm vụ:
i Học tập
ii Hỗ trợ ra quyết định bằng tri thức được khám phá
Bước 2 : Xác định tập thuộc tính có đặc tính ban đầu có tìm năng Đây là
bước rất quan trọng trong khai phá dữ liệu có canh tác dữ liệu Trong bước này có thể sử dụng một số phương pháp và công cụ tùy thuộc đặc tính như sau:
i Sử dụng một số thuật toán rút gọn thuộc tính
Trang 39ii Các phương pháp phân rã cấu trúc cho một vấn đề, một quy trình iii Sử dụng tri thức chuyên gia để tìm tập thuộc tính ban đầu có tìm năng (đây là phương pháp được sử dụng trong luận văn trong khai phá dữ liệu y khoa)
………
Bước 3: Chọn lựa loại phương pháp canh tác dữ liệu được sử dụng tùy thuộc
mục đích khác nhau Các phương pháp canh tác có thể được phân nhóm như sau [7]:
i Đánh giá đặc tính (Feature evaluation)
ii Chuyển dạng dữ liệu (Data transformation)
iii Chuyển dạng tri thức (Knowledge transformation)
iv Định nghĩa kết xuất (Outcome definition)
v Định nghĩa đặc tính (Feature definition)
Luận văn đã sử dụng phương pháp đánh giá đặc tính, vì vậy phương pháp đó
sẽ đề cập trong mục 2.1.7, các phương pháp khác không được trình bày
Bước 4: Khai phá dữ liệu có canh tác dữ liệu có thể sử dụng các phương pháp
sau:
i Phương pháp lý thuyết tập thô (rough set theory)
ii Phương pháp Bayesian
iii Phương pháp gom cụm (clusterring)
iv Phương pháp sử dụng cây quyết định
Bước 5: Đánh giá khai phá dữ liệu có canh tác dữ liệu có thể thực hiện các
phương pháp sau
i Sử dụng kiến thức chuyên gia Nhờ chuyên gia kiểm chứng kết quả
ii Kiểm chứng qua thực nghiệm
ii Cross-validation (phương pháp xác minh chéo)
Trang 402.1.7 Phương pháp canh tác dữ liệu đánh giá đặc tính
2.1.7.1 Đặc tính chung của dữ liệu
Những thuộc tính có đặc tính và tiềm năng tốt có thể bị giới hạn khi đứng riêng lẻ, nhưng có giá trị cao khi đứng chung thành nhóm
2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu
A Định nghĩa
Chọn lựa thuộc tính có đặc tính tốt là quy trình chọn lựa ra các tập con thuộc tính từ một tập con đặc tính gốc đầy đủ, sao cho mỗi tập con này có thể đánh giá tốt và khả năng dự đoán chính xác[9]
B Các phương pháp chọn lựa đặc tính
i Dùng phương pháp vét cạn
ii Chọn ngẫu nhiên
iii Chọn theo kinh nghiệm chuyên gia
Trong luận văn này tác giả chọn phương pháp iii theo kinh nghiêm chuyên gia Cách chọn theo kinh nghiệm của chuyên gia là tốt nhất bởi những lý do sau đây:
Chọn vét cạn sẽ cho ra dư thừa các tập con Ai rất nhiều vì nó có thể không có liên quan đến giá trị trong chẩn đoán
Chọn ngẫu nhiên sẽ dẫn đến khả năng thiếu tập con Ai mà những tập con này có khả năng có giá trị trong chẩn đoán
Chọn theo kinh nghiệm chuyên gia khắc phục được các khuyết điểm trên
Những thuộc tính do kinh nghiệm chuyên gia đưa ra, đa phần là kết quả đã được nghiệm chứng thực tế do đó điều liên quan đến chẩn đoán, mặc dù
chuyên gia khác nhau có thể đưa ra những đặc tính khác nhau