1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG hệ hỗ TRỢ CHẨN đoán BỆNH ĐAU LƯNG

117 86 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 117
Dung lượng 12,16 MB

Nội dung

Nó cung cấp một hệ thống trợ giúp phân loại tập dữ liệu, rút trích các thông tin hữu ích từ tập dữ liệu…Với việc áp dụng lý thuyết tập thô vào việc trích chọn dữ liệu giúp làm giảm đi mứ

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



VÕ LÊ HOÀNG KHẢI

XÂY DỰNG HỆ HỖ TRỢ CHẨN ĐOÁN BỆNH ĐAU LƯNG

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 60.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS DƯƠNG MINH ĐỨC

TP HỒ CHÍ MINH – NĂM 2017

Trang 2

LỜI CẢM ƠN

Trong suốt quá trình học tập và hoàn thành luận văn này, tôi đã nhận được sự hướng dẫn, giúp đỡ rất quý báu của quý thầy cô, gia đình, bạn bè và đồng nghiệp

Với lòng biết ơn sâu sắc, em chân thành cảm ơn Thầy TS Dương Minh Đức

trong thời gian qua, đã dành nhiều thì giờ quý báu để hướng dẫn và cung cấp tài liệu khoa học giúp em hoàn thành luận văn này

Em chân thành cảm ơn TS.BS Vũ Viết Chính (Trường ĐH Y Khoa Phạm Ngọc Thạch), TS.BS Nguyễn Thanh Tuyền (BV Nhân Dân 115) đã đóng góp nhiều ý kiến

chuyên môn để luận văn này được hoàn chỉnh

Em cũng xin cảm ơn các Thầy bộ môn Thương Mại Điện Tử trường ĐH Công Nghệ Thông Tin TP HCM, Cảm ơn các bạn Nghiên Cứu Viên đã đóng góp

nhiều ý kiến và hỗ trợ trong thời gian thực hiện luận văn

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của tôi dưới sự hướng dẫn của

Thầy TS Dương Minh Đức

Các số liệu, kết quả nêu trong luận văn này là trung thực và chưa từng được công

Người Cam Đoan

Võ Lê Hoàng Khải

Trang 4

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC HÌNH iv

DANH MỤC BẢNG vi

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 2

1.1 Tổng quan tình hình nghiên cứu trong nước và ngoài nước 2

1.2 Giới thiệu chung 3

1.2.1 Các thách thức 3

1.3 Tình hình nghiên cứu 3

1.3.1 Tình hình nghiên cứu trong nước 3

1.3.2 Tình hình nghiên cứu ngoài nước 4

1.4 Đề xuất 3

1.5 Mục tiêu 5

1.5.1 Về mặt khoa học 5

1.5.2 Về mặt thực tiễn 5

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6

2.1 Các giai đoạn của quá trình khám phá tri thức 6

2.2 Khai phá dữ liệu 7

2.3 Tập thô trong không gian xấp xỉ 8

2.4 Khai phá tri thức theo cách tiếp cận tập thô 9

2.5 Sự rời rạc hóa dữ liệu theo cách tiếp cận tập thô 10

2.6 Lựa chọn thuộc tính dựa trên tập thô 10

2.7 Học cây quyết định 11

Trang 5

2.8 Một số thuật tốn phq6n lớp dữ liệu 13

2.8.1 Thuật tốn ID3 13

2.8.2 Thuật tốn Nạve Bayes 16

2.8.3 Thuật tốn C4.5 19

2.9 Khái niệm về hệ hỗ trợ ra quyết định 21

2.10 Các đĩng gĩp của hệ hỗ trợ ra quyết định trong chẩn đốn bệnh 22

2.11 Mơ hình hệ hỗ trợ ra quyết định chẩn đốn bệnh 23

CHƯƠNG 3: XÂY DỰNG CƠ SỞ DỮ LIỆU 24

3.1 Xác định vấn đề 24

3.2 Thu thập và tiền xử lý dữ liệu 26

3.2.1 Đánh giá chất lượng dữ liệu 27

3.2.2 Các kỹ thuật tiền xử lý dữ kiệu 27

3.3 Xây dựng cây quyết định 33

3.3.1 Tiêu chí chọn thuộc tính phân lớp 32

3.3.2 Cây quyết định 47

3.4 Thực nghiệm bộ dữ liệu 38

3.4.1Thực nghiệm bộ dữ liệu bằng thuật tốn Nạve Bayes 39

3.4.2 Thực nghiệm bộ dữ liệu bằng thuật tốn ID3 41

3.4.3 Thực nghiệm bộ dữ liệu bằng thuật tốn C4.5 44

3.4.4 Kết quả thực nghiệm 47

3.4.5 Nhận xét kết quả thực nghiệm 48

3.5 Các tập luật được rút ra 48

CHƯƠNG 4: PHÂN TÍCH, THIẾT KẾ, CÀI ĐẶT HỆ THỐNG 53

4.1 Phân tích hệ thống 53

4.1.1 Lưu đồ hoạt động của hệ thống 53

4.1.2 Lưu đồ trạng thái 54

4.1.3 Lưu đồ cập nhật bệnh nhân 55

4.1.4 Lưu đồ cập nhật triệu chứng 56

Trang 6

4.1.5 Lưu đồ cập nhật tri thức 57

4.2 Thiết kế cơ sở dữ liệu 57

4.3 Cài đặt hệ thống 58

4.4 Thực nghiệm hệ thống 58

4.4.1 Kết quả thực nghiệm hệ thống 65

4.4.2 Phân tích và đánh giá kết quả thực nghiệm hệ thống 65

CHƯƠNG 5: KẾT LUẬN 67

5.1 Kết quả đạt được 67

5.1.1 Về mặt khoa học 67

5.1.2 Về mặt thực tiễn 67

5.2 Hướng phát triển 67

5.3 Kết luận 69

TÀI LIỆU THAM KHẢO 70

PHỤ LỤC 1 Bảng danh sách các triệu chứng bệnh 73

PHỤ LỤC 2 Tổng quan về bệnh đau lưng 77

PHỤ LỤC 3 Kết quả thực nghiệm của hệ thống 93

Trang 7

DANH MỤC HÌNH

Hình 2.1 Mô hình mô tả quá trình khám phá tri thức

Hình 2.2 Một ví dụ về cây quyết đinh

Hình 2.3 Mô hình hệ hỗ trợ ra quyết định chẩn đoán y

Hình 3.1 Ảnh hồ sơ bệnh án trang thông tin bệnh nhân

Hình 3.2 Ảnh hồ sơ bệnh án triệu chứng bệnh

Hình 3.3 Ảnh hồ sơ bệnh án trang cận lâm sàng và chẩn đoán

Hình 3.4 Sơ đồ cây quyết định

Hình 4.1 Lưu đồ hoạt động của hệ thống

Hình 4.2 Lưu trạng thái dành cho người dùng/ khách

Hình 4.3 Lưu đồ trạng thái dành cho bác sĩ/ quản trị

Hình 4.9 Menu Thông tin bệnh nhân

Hình 4.10 Menu Danh sách bệnh nhân

Hình 4.11 Menu Chẩn đoán

Hình 4.12 Menu Kết quả chẩn đoán

Hình 4.13 Menu Quản lý chung

Hình 4.14 Menu Danh sách luật

Hình 4.15 Menu Danh sách bệnh

Hình 4.16 Menu Nhóm người dùng

Hình 4.17 Menu Người dùng cá nhân

Trang 8

DANH MỤC BẢNG

Bảng 2.1 Ví dụ về một cơ sở dữ liệu

Bảng 2.2 Độ hỗ trợ tương ứng của từng mục đơn

Bảng 2.3 Độ hỗ trợ tương ứng của các tập mục khác

Bảng 2.4 Độ tin cậy của các luật

Bảng 2.5 Các ví dụ huấn luyện trong cây quyết định

Bảng 2.6 Giá trị Informatin Gain của các thuộc tính

Bảng 2.7 Chi tiết các triệu chứng gây bệnh

Bảng 3.5 Kết quả phân lớp theo tỷ lệ 7 : 3 theo Nạve Bayes

Bảng 3.6 Kết quả phân lớp theo tỷ lệ 7.5 : 2.5 theo Nạve Bayes Bảng 3.7 Kết quả phân lớp theo tỷ lệ 8:2 theo Nạve Bayes

Bảng 3.8 Kết quả phân lớp theo tỷ lệ 8.5 : 1.5 theo Nạve Bayes Bảng 3.9 Kết quả phân lớp theo tỷ lệ 9 : 1 theo Nạve Bayes

Bảng 3.10 Tĩm tắt kết quả phân lớp các trường hợp theo Nạve Bayes Bảng 3.11 Kết quả phân lớp theo tỷ lệ 7 : 3 theo ID3

Bảng 3.12Kết quả phân lớp theo tỷ lệ 7.5 : 2.5 theo ID3

Bảng 3.13Kết quả phân lớp theo tỷ lệ 8:2 theo ID3

Bảng 3.14Kết quả phân lớp theo tỷ lệ 8.5 : 1.5 theo ID3

Bảng 3.15Kết quả phân lớp theo tỷ lệ 9 : 1 theo ID3

Bảng 3.16 Tĩm tắt kết quả phân lớp các trường hợp theo ID3

Bảng 3.17 Kết quả phân lớp theo tỷ lệ 7 : 3 theo C4.5

Bảng 3.18 Kết quả phân lớp theo tỷ lệ 7.5 : 2.5 theo C4.5

Bảng 3.19 Kết quả phân lớp theo tỷ lệ 8:2 theo C4.5

Bảng 3.20 Kết quả phân lớp theo tỷ lệ 8.5 : 1.5 theo C4.5

Bảng 3.21 Kết quả phân lớp theo tỷ lệ 9 : 1 theo C4.5

Bảng 3.22Tĩm tắt kết quả phân lớp các trường hợp theo C4.5

Bảng 3.23 Tĩm tắt kết quả phân lớp tổng hợp

Trang 9

để phát hiện ra mối quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu Nó cho ta một cách nhìn đặc biệt về mô tả, phân tích và thao tác dữ liệu cũng như một cách tiếp cận đối với tính không chắc chắn và không chính xác của dữ liệu

Mục đích của lý thuyết tập thô là sự phân loại của dữ liệu ở dạng bảng biểu gọi

là hệ thông tin Mỗi hàng biểu diễn một đối tượng, mỗi cột biểu diễn một thuộc tính

Nó cung cấp một hệ thống trợ giúp phân loại tập dữ liệu, rút trích các thông tin hữu ích từ

tập dữ liệu…Với việc áp dụng lý thuyết tập thô vào việc trích chọn dữ liệu giúp làm giảm đi mức độ đồ sộ của hệ thống dữ liệu, giúp chúng ta có thể nhận biết trước loại

dữ liệu được xử lý

Công nghệ thông tin phát triển mạnh mẽ trong cuộc cách mạng 4.0 tác động đến các lĩnh vực: thành phố thông minh, ngôi nhà thông minh, nông nhiệp thông minh,… Y tế thông minh Người dân dễ dàng tiếp cận và trao đổi các cơ sở khám chữa bệnh từ xa, dễ dàng chọn chuyên khoa, bác sĩ, giời khám,…Nhân viên y tế dễ dàng cập nhật, tra cứu hồ sơ bệnh án, hội chẩn trao đổi chuyên môn với các khoa trong và ngoài bệnh viện,…Các nhà quản lý giám sát quy trình hành chính nhỏ gọn nhờ số hóa,

dễ dàng tiếp cận dữ liệu chính xác và kịp thời Điều phối các hoạt động, tình trạng quá tải bệnh viện, dự báo và can thiệp các dịch bệnh,…

Các giải pháp, các sản phẩm công nghệ thông tin ứng dụng trong lĩnh vực y tế,

đã góp phần hỗ trợ đối tượng người dùng dễ dàng và hiệu quả cho các vấn đề trên, giúp giảm nguồn nhân lực, tài lực, tiết kiệm thời gian cho ngành y tế nói riêng và cho

xã hội nói chung

Trang 10

Chương 1 TỔNG QUAN ĐỀ TÀI

1.1 Tổng quan tình hình nghiên cứu trong nước và ngoài nước

1.1.1 Giới thiệu chung

Bệnh đau lưng [7][15] khá phổ biến trên toàn thế giới Theo thống kê Raheleh Sadat Malaeekeh [16] 95% dân số gặp vấn đề đau lưng cấp ít nhất một lần trong đời,

và trong số đó 10% - 40% chuyển từ đau lưng cấp tính sang mãn tính Ngày nay, nếu bệnh được phát hiện sớm và điều trị kịp thời, đúng cách thì bệnh hoàn toàn chữa khỏi

Phát triển công nghệ thông tin đã mang lại nhiều ứng dụng thực tiễn trong nhiều lĩnh vực đời sống nói chung, Y khoa nói riêng Theo tiến sĩ y khoa Georg Marckmann [6] Hệ thống hỗ trợ quyết định Y khoa đóng một vai trò ngày càng quan trọng trong y khoa Bằng cách hỗ trợ các Y Bác sĩ với các quyết định lâm sàng, cải thiện chất lượng chăm sóc y tế

1.1.2 Các thách thức

Vấn đề đặt ra là tri thức và kinh nghiệm thức tế của các Y Bác sĩ trong việc chẩn đoán và điều trị bệnh đau lưng từ nhiều năm qua, làm thế nào để tập hợp chúng thành các tập luật và đưa vào máy tính, để từ đó, giúp Y Bác sĩ chẩn đoán nguyên nhân gây bệnh, thuận lợi và đề xuất phương pháp điều trị tối ưu [18]

Chẩn đoán chính xác là yếu tố quan trong giúp điều trị đúng bệnh Phải kết hợp các triệu chứng lâm sàng chính là đau thì cần phải kết hợp nhiều yếu khác như: cường

độ đau, thời điểm xẩy ra cơn đau, vị trí đau, hướng lan, trình trạng hai chi dưới, đau khi nghỉ ngơi hay vận động ,…Ngoài ra, các yếu tố cận lâm sàng không được bỏ qua

Do vậy, chẩn đoán bệnh xem như một quá trình xử lý các thông tin đầu vào (triệu chứng bệnh) để xác định thông tin đầu ra (nguyên nhân gây bệnh) [12][16] Về mặt toán học, chẩn đoán bệnh tương đương với việc giải phương trình nhiều ẩn số

Một các khắc phục vấn đề khó khăn này là ứng dụng lý thuyết tập thô [1] Ngày nay, việc ứng dụng lý thuyết tập thô trong các ngành khoa học đã phát triễn mạnh Tuy

Trang 11

nhiên, ứng dụng lý thuyết tập thô xây dựng hệ hỗ trợ chẩn đoán trong Y khoa ở nước

ta vẫn còn khiêm tốn

1.2 Tình hình nghiên cứu

1.2.1 Tình hình nghiên cứu ngoài nước

Nhóm nghiên cứu Lin Lin và cộng sự [8] thu thập dữ liệu thông qua khám lâm sàng, tạo các tập mờ Bằng phương pháp thống kê và suy luận Bayes xây dựng hệ hỗ trợ chuẩn đoán bệnh đau lưng do bệnh lý gây ra Qua kết quả thực nghiệm, đánh giá

độ tin cậy của Hệ đạt 76% Bài báo có tính kế thừa cao, song chưa đề cập tới các yếu

tố cận lâm sàng, đau lưng do chấn thương gây ra

Theo nghiên cứu J Can Chiropr PGS [4], thu thập dữ liệu qua bảng câu hỏi có/ không Bảng này được các Y Bác sĩ cung cấp trong quá trình khám bệnh ban đầu khi bệnh nhân nhập viện Tác giả dùng thống kê toán học để phân loại bệnh đau lưng rất

cụ thể, chi tiết Kết quả là xây dựng thành công hệ hỗ trợ chuẩn đoán bệnh ban đầu tuyến cơ sở

NNC R Parvin, Dr Abdolreza [20] thu thập dữ liệu qua phiếu xét nghiệm điện tâm đồ, tạo ra các tập mờ Dùng SQL Server truy vấn dữ liệu Kết quả là xây dựng hệ

hỗ trợ cảnh báo tình trạng tim mạch của Bệnh nhân, giúp Y Bác sĩ chẩn đoán bệnh sớm để đưa ra hướng điều trị kịp thời

1.2.2 Tình hình nghiên cứu trong nước

Tại Việt Nam, Truc Ly Thi Nguyen và cộng sự [16] thu thập dữ liệu từ Hồ sơ bệnh án bao gồm triệu chứng lâm sàng và cận lâm sàng, tạo ra các tập mờ, dùng phương pháp suy diễn tiến đưa ra kết quả chẩn đoán bệnh Xây dựng Hệ chuyên gia chẩn đoán bệnh tiểu đường Kết quả thực nghiệm 106 Bệnh nhân tại 4 Bệnh viện

Văn Đỗ Cẩm Vân và cộng sự [21] khai phá tri thức bằng ứng dụng logic mờ, dùng phương pháp suy diễn từ đó xây dựng thành công Hệ hỗ trợ chẩn đoán bệnh trong y khoa Nhóm tác giả phát triễn và ứng dụng chẩn đoán cho bệnh tâm thần và đặt tên là Dinemis

Trang 12

Văn Thế Thành và cộng sự [22] rút trích dữ liệu qua thông số hiện trên màn hình máy đo điện tim, kết hợp xử lý ảnh, tạo các tập mờ Bằng phương pháp nội suy từ tập mờ, xây dựng mô hình lập luận mờ và viết ứng dụng Hệ hỗ trợ chẩn đoán bệnh tim mạch Kết quả là Hệ hỗ trợ giúp Bác sĩ chẩn đoán bệnh tim mạch trong giai đoạn đầu khám bệnh

Đàm Quốc Phối và cộng sự [2] thu thập dữ liệu từ bảng điểm được chấm do các Y Bác sĩ, tạo ra các tập mờ, dùng phương pháp suy luận Bayes để ra kết quả chẩn đoán Nhóm ứng dụng thực nghiệm chẩn đoán trên hai loại bệnh là xuất huyết não và nhồi máu não trên lều Kết quả là Hệ hỗ trợ giúp Bác sĩ phân loại, chẩn đoán và tiên lượng tình trạng hai loại bệnh trên

Như vậy, hiện tại chưa có đề tài nào tập trung nghiên cứu hỗ trợ các Y Bác sĩ chẩn đoán bệnh đau lưng theo hướng lý thuyết tập thô

1.3 Đề xuất

Trong khuôn khổ luận văn này, tác giả đưa ra một giải pháp xây dựng hệ hỗ trợ chẩn đoán bệnh đau lưng Bằng phương pháp khai phá dữ liệu theo cách tiếp cận lý thuyết tập thô Kết hợp các thuật toán, tác giả xây dựng bảng tập luật gồm các triệu chứng gây bệnh và kết quả chẩn đoán Xây dựng ứng dụng và triển khai trên website, người dùng nhập vào các triệu chứng gây bệnh, hệ thống sẽ trả về kết quả là nguyên nhân mắc bệnh

1.4 Mục tiêu

1.4.1 Về mặt khoa học

Khai phá dữ liệu trong bệnh đau lưng theo cách tiếp cận lý thuyết tập thô Thu thập các triệu chứng gây bệnh và nguyên nhân gây bệnh đau lưng, đây là các thuộc tính của tập dữ liệu Mục tiêu phải đạt được là:

• Bảng dữ liệu mô tả triệu chứng và nguyên nhân gây bệnh đau lưng

• Rút ra các tập luật có giá trị với độ tin cậy cao

Trang 13

1.4.2 Về mặt thực tiễn

Ứng dụng công nghệ thông tin vào lĩnh vực y khoa đối với bệnh đau lưng Tác giả thiết kế website ứng dụng, người dùng khai báo các triệu chứng bệnh, hệ thống sẽ trả về kết quả chẩn đoán Ứng dụng nhằm:

Hỗ trợ các y bác sĩ thêm một kênh thông tin tham khảo kết quả chẩn đoán

Người bệnh có thể tự kiểm tra sơ bộ tình trạng bệnh trước khi đến khám bệnh tại các cơ sở y tế

Chương 3 ứng dụng cơ sở lý thuyết chương 2, tác giả làm sạch dữ liệu bằng ứng dụng phương pháp tiền xử lý, tạo ra các tập sinh và thực nghiệm bộ dữ liệu bằng phương pháp máy học, học máy với sự hỗ trợ công cụ RapidMiner 7.6.1 Thực nghiệm

bộ dữ liệu trên các thuật toán phân lớp dữ liệu, để đưa ra độ tin cậy của các tập luật

Chương 4 phân tích và thiết kế cơ sở dữ liệu bằng công cụ My SQL Workbench cho hệ thống Cài đặt chương trình ứng dụng website Hệ Thống Chẩn Đoán Bệnh Đau Lưng bằng ngôn ngữ PHP, truy vấn dữ liệu My SQL Người dùng chọn các triệu chứng gây bệnh và hệ thống trả về kết quả chẩn đoán Thực nghiệm hệ

hỗ trợ trên các tập hồ sơ bệnh án được tác giả thu thập tại các bệnh viện thành phố Hồ Chí Minh, Bình Dương, Đồng Nai, Cần Thơ

Chương 5 kết luận các vấn đề đạt được về mặt khoa học, về mặt thực tiễn và hướng phát triển của đề tài

Trang 14

Khám phá tri thức trong các cơ sở dữ liệu là quá trình phát hiện những tri thức tiềm ẩn, không biết trước, và có ích trong trong cơ sở dữ liệu Thực chất đó là quá trình tìm kiếm những thông tin có trong cơ sở dữ liệu nhưng bị che giấu trong

các khối dữ liệu

2.1 Các giai đoạn của quá trình khám phá tri thức

Các giai đoạn trong quá trình này có thể lặp đi lặp lại nhiều lần và được mô

tả theo hình sau[19]:

Hình 2.1 Mô hình mô tả quá trình khám phá tri thức

Xác định và định nghĩa vấn đề

Trang 15

Giai đoạn 1:Xác định và định nghĩa vấn đề

- Xác định rõ lĩnh vực ứng dụng và nhiệm vụ, xác định các tri thức đã có và các mục tiêu của người sử dụng

- Tạo và chọn lựa cơ sở dữ liệu

Giai đoạn 2: Thu nhập và tiền xử lý dữ liệu

- Làm sạch dữ liệu trước: Bỏ đi các dữ liệu tạp Xử lý dữ liệu bị mất, nhiễu,

dư thừa, chuyển đổi dữ liệu phù hợp

- Rút gọn kích thước dữ liệu: Tìm ra các thuộc tính hữu ích

Giai đoạn 3: Khai phá dữ liệu

- Chọn các phương pháp khai phá dữ liệu

- Khai phá dữ liệu để rút ra các tập mẫu, tập luật, các mô hình

Giai đoạn 4: Giải thích kết quả và đánh giá các mẫu, tập luật, các mô hình

Giai đoạn 5: Sử dụng tri thức phát hiện được

- Các tri thức phát hiện được tích hợp chặt chẽ trong hệ thống Cần đến các chuyên gia trong các lĩnh vực nghiên cứu vì tri thức rút ra có thể chỉ có tính chất hỗ trợ quyết định

- Tri thức tìm được có thể được sử dụng cho quá trình khai phá tri thức khác Như vậy khám phá tri thức gồm 5 giai đoạn chính, giai đoạn khai phá dữ liệu là quan trọng nhất Đây là giai đoạn duy nhất tìm được các thông tin tiềm ẩn trong cơ sở dữ liệu

2.2 Khai phá dữ liệu

Khai phá dữ liệu (Data Mining) được định nghĩa như là quá trình phát hiện các tri thức mới, có giá trị từ những dữ liệu lớn được lưu trữ trong cơ sở, datawarehouse hay các kho chứa thông tin khác Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình phát hiện tri thức Về bản chất nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ần có trong cơ sở dữ liệu Mục đích nguyên thủy của khai phá dữ liệu là mô tả và dự đoán[3] [19] Các kỹ thuật khai phá dữ liệu được chia thành những mảng chính sau:

Trang 16

• Phân cụm và phân lớp dữ liệu: Có rất nhiều phương pháp để phân lớp dữ liệu được nguyên cứu như: Các phương pháp học cây quyết định, phương pháp thông kê, các mạng nơ ron, các mạng xác xuất Bayes,

• Khai phá luật kết hợp: Tìm ra những mối quan hệ giữa các thuộc tính độc lập với nhau trong cơ sở dữ liệu

• Khai phá chuỗi: Luật chuỗi và khai phá chuỗi có thể coi như là một cách trừu tượng của luật kết hợp và phát hiện các luật kết hợp trong cơ sở dữ liệu phụ thuộc thời gian

Có rất nhiều phương pháp để có thể tiến hành khai phá dữ liệu đã được nguyên cứu và đề ra như:

• Phương pháp cây láng giềng gần nhất

• Các luật suy diễn

• Trực quan hoá dữ liệu

• Các phương pháp cây quyết định

• Phương pháp thống kê

• Mạng nơ ron

• Thuật toán di truyền

• …

2.3 Tập thô trong không gian xấp xỉ

Để hiểu rõ về việc hệ thông tin biểu diễn và xử lý dữ liệu thô như thế nào ta xét định nghĩa dưới đầy Ta xét R là một quan hệ tương đương với trường hợp đặc biệt B  A gồm tất cả các thuộc tính Lớp tương đương theo quan hệ R được gọi

là các tập sơ cấp và gọi E là tập các tập sơ cấp Z Pawlak [25] đã đưa ra khái niệm tập mô tả được như sau:

Ví dụ:Ta tiếp tục xét bảng 2, và tập B là tâp các thuộc tính điều kiện Khi

đó tập các tập sơ cấp của quan hệ không phân biệt được trên tập thuộc tính B là:

[X1]B=[X7]B={X1, X7},

[X2]B={X2},

[X3]B={X3},

Trang 17

Mà tập [X1]B thì lại chứa bênh nhân X7 là không bị bệnh (thuộc tính quyết định

có giá trị là 2) Như vậy tập X là không mô tả được theo các tập sơ cấp trên

Khắc phục hạn chế trên ta có thể dùng tính chất của lý thuyết tập thô để biểu diễn tập X ở trên Chúng ta không trực tiếp biểu diễn tập X mà đi tìm các tập

là mô tả được là tập xấp xỉ trên và tập xấp xỉ dưới của X Tập xấp xỉ dưới của X là

tập bao gồm những người chắc chắn bị bệnh {X3, X5}, còn tập xấp xỉ trên của X

là tập những người có khả năng bị bệnh {X1, X3, X5, X7} Ta xem xét các bệnh nhân không thuộc tập những người chắc chắn bị bệnh mà lại thuộc tập những người có khả năng bị bệnh {X1, X7}.Tập này là vùng ranh giới giữa trường hợp chắc chắn và trường hợp có khả năng bị bệnh Nếu tập ranh giới này không

rỗng thì tập này được gọi là thô Ta có định nghĩa sau[1][24]:

Tập B-xấp xỉ dưới của X, ký hiệu là BX , là tập BX ={xU: [x]B  X}

Tập B-xấp xỉ trên của X, ký hiệu là BX , là tập BX ={xU:[x]BX} Các tính chất của sự xấp xỉ Có bốn loại tập thô cơ bản:

Người ta phân tập thô thành 4 loại [1]:

X là xác định thô thực sự theo B nếu BX   và 𝐵X ≠U

X là không xác định bên trong theo B nếu BX =  𝐵X ≠U

X là không xác đinh bên ngoài theo B nếu BX ≠ 𝐵X =U

X là không xác định thực sự theo B nếu BX = 𝐵X =U

Trang 18

Độ đo liên quan biên xấp xỉ:

2.4 Khai phá tri thức theo cách tiếp cận tập thô

Khai phá tri thức từ cơ sở dữ liệu đang là vấn đề được áp dụng rộng rãi trong nhiều lĩnh vực[10][19] Việc tìm kiếm tri thức trong các cơ sở dữ liệu được tiến hành theo rất nhiều phương pháp khác nhau Trong đó khai phá tri thức theo cách tiếp cân tập thô là một phương pháp hiệu quả đối với những dữ liệu nhiều kiểu khác nhau Hơn thế nữa nó con có thể làm tốt với những cơ sở dữ liệu không chắc chắn, có tính mơ hồ

2.5 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô

Khi sử dụng phương pháp rời rạc hoá dữ liệu thìchúng ta đã chấp nhận sai

số trong dữ liệu Một ví dụ là khi đo về thân nhiệt của cơ thể bệnh nhân thì ta thương gặp những số thực nhưng chúng ta thường phải quy về giá trị nguyên hay những khoảng Việc phân chia các giá trị thực thành các khoảng hợp lý là rất phức tạp Khi đó thường cần phải có các chuyên gia trong các lĩnh vực cụ thể tham gia cùng

2.6 Lựa chọn thuộc tính dựa trên tập thô

Các cơ sở dữ liệu trong thực tế thương có rất nhiều thuộc tính, những thuộc tính cần thiết cho lĩnh vực mà bài toán khai phá dữ liệu mà chúng ta đang xử lý không phải là tất cả Việc lựa chọn những thuộc tính phù hợp để tiến hành các phương pháp khai phá dữ liệu là rất cần thiết Các thuộc tính dư thừa không cần thiết trong quá trình khai phá tri thức không chỉ làm cho bài toán trở lên phức tạp

mà còn dẫn đền một thực tế là số tri thức được phát hiện sẽ không nhiều vì phải

Trang 19

phụ thuộc vào cả những thuộc tính không được coi là đặc trưng của bài toán Mục tiêu của việc lựa chọn thuộc tính là phải đưa ra được một tập tối ưu các thuộc tính trong cơ sở dữ liệu Từ đó các luật sinh ra trong cơ sở dữ liệu sẽ đạt được hiệu quả cao nhất, dữ liệu mà chúng ta thực sự phải làm việc sẽ nhỏ đi rất nhiều

Có hai phương pháp lựa chọn thuộc tính thường được sử dụng là lọc và bọc Trong đó thì phương pháp lọc thực chất là tìm những thuộc tính tối thiểu trong tập các thuộc tính, chọn ra các thuộc tính có độ phù hợp cao hơn theo tiêu chuẩn sau:

- Lựa chọn những thuộc tính là cho số trường hợp thoả mãn tăng nhanh

- Chọn những thuộc tính có it giá trị khác nhau

Phương pháp này là khá đơn giản và tốc độ là tương đối nhanh Phương pháp thứ hai sử dụng thuật toán quy nạp đánh giá Tư tưởng của thuật toán này là

sử dụng 3 cách tìm kiếm: tìm kiếm toàn bộ, tìm kiếm kinh nghiệm và tìm kiếm không xác định Phương pháp này sử dụng các thuật toán quy nạp nên độ phức tạp lớn nhưng bù lại thì kết quả mang lại sẽ chính xác và toàn diện hơn

Trang 20

Hình 2.2 Một ví dụ về cây quyết đinh

Hình trên là một ví dụ về cây quyết định phân lớp AI các mẫu đưa vào theo bảng 2.5 Mỗi nút của cây biểu diễn một thuộc tính trong các mẫu, mỗi một nhánh tới nút tương ứng với một trong những giá trị cụ thể cho thuộc tính này Để đơn giản ta chỉ xét các thuộc tính nhị phân, tức là chỉ lấy giá trị là 0 và 1

Trong bảng 2.5, dữ liệu huấn luyện là 10 văn bản (trong các bài toán thực tế thì số lượng văn bản có thể lên tới hàng nghìn) Mỗi văn bản có 8 thuộc tính nhị phân tương ứng với việc văn bản đó có hay không có từ đó Đó là các thuộc tính

System

Proces

s

Timetable

Trang 21

ai, system, paralell, relation, database, process, graphics.Thuộc tính cuối Class AI cùng là thuộc tính quyết định Đó là hàm mục tiêu của chúng ta, nó nhận giá trị 1 tức là văn bản đó thuộc lớp AI, 0 tức là văn bản đó không thuộc lớp AI

Mặt khác, từ cây quyết định trên chúng ta sinh ra được các luật như sau:

1 Nếu (System=1) và (Timetable =1 ) thì class AI =Yes

2 Nếu (System=1) và (Timetable =0 ) thì class AI =No

3 Nếu (System=0) và (Process =1 ) thì class AI =No

4 Nếu (System=0) và ( Process=0 ) thì class AI =Yes

Giải thích cụ thể hơn ta có:

1 Nếu văn bản có từ System và từ Timetable thì thuộc lớp AI

2 Nếu văn bản có System và không cóTimetable thì không thuộc lớp AI

3 Nếu văn bản không có từ System và có Process thì không thuộc lớp AI

4 Nếu văn bản không có từ System và không có Process thì thuộc lớp AI

2.8 Một số thuật toán phân lớp dữ liệu

2.8.1 Thuật toán ID3

a Giới thiệu

Thuật toán ID3 là một thuật toán cơ bản nhất trong lĩnh vực học cây quyết đinh, hầu hết các thuật toán học cây quyết đinh cải tiến sau này đều dựa trên thuật toán này Thuật toán ID3 lần đầu tiên được Quinlan giới thiệu năm 1975, Machine Learning [5] Sau đây tác giả trình bày thuật toán ID3, thuật toán được mô tả như sau:

b Thuật toán ID3

ID3(Examples, Target attribute, Attributes)

Examples: Tập các ví dụ huấn luyện

Target attribute: là thuộc tính đầu ra cho cây quyết

định Attributes: Danh sách các thuộc tính

Kết quả trả về là một câu quyết định phân lớp đúng các mẫu ví dụ đưa ra

Trang 22

• Tạo một nút gốc Root cho cây quyết định

• Nếu toàn bộ Examples là ví dụ dương Trả về cây Root một nút đơn, với nhãn +

• Nếu toàn bộ Examples là ví dụ âm Trả về cây Root một nút đơn, với nhãn -

• Nếu tập thuộc tính là rỗng thì trả lại cây Root một nút đơn với nhãn bằng giá trị phổ biến nhất của Target_attribute trong Examples

• Ngược lại:Begin

o A Thuộc tính từ tập Attributes mà phân lớp tốt nhất tập Examples

o Thuộc tính quyết định cho Root A

o For Mỗi giá trị cụ thể vi của A,

▪ Thêm một nhánh cây con ở dưới Root, phù hợp với biểu thức kiểm tra A=vi

▪ Đặt Examplesvi là tập ví dụ có giá trị của thuộc tính A là vi

▪ Nếu Examplesvi rỗng

•thì dưới nhánh mới thêm gán một nút lá với nhãn = giá trị phổ biến nhất của Target_attribute trong tập Examples

•ngược lại thì dưới nhánh mới này thêm một cây con: ID3(Examplesvi,Target_attribute,Attribute-{A}

Trang 23

d Độ đo Entropy

Entropy là đại lượng đo tính đồng nhất của các mẫu Khi đó Entropy của tập S được định nghĩa như sau:

Entropy(S)-p log2p p log2p

p : là phân bố của các ví dụ dương trong S

p : là phân bố của các ví dụ dương trong S Chúng ta quy đinh 0log20 =0

Ví dụ: Xét trong ví dụ bảng 5, có10 mẫu huấn luyện, trong đó có 5 mẫu huấn luyện dương(Class AI=1) và 5 ví dụ âm (Class Ai=0) Khi đó đại lương Entropy S liên quan tới sự phân bố 2 lớp dương và âm của tập S là:

Entropy(S) = -(5/10)log2(5/10)-(5/10)log2(5/10)

=1.0 Trong trường hợp tổng quát thì đại lượng Entropy được tính như sau : 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = − ∑𝑐 𝑃𝑖 𝑙𝑜𝑔

Trang 24

= 1.0-(6/10).0,918-(4/10).0,812

= 0,1244

Attribute ai timetable system parallel relation database process graphic Gain 0,1244 0,1244 0,2871 0,0349 0,0 0,1244 0,0 0,1244

Bảng 2.6 Giá trị informatin Gain của các thuộc tính

Khi đĩ theo thuật tốn ID3 thì thuộc tính đầu tiên được chọn là thuộc tính system vì cĩ giá trị Information Gain là lớn nhất

2.8.2 Thuật Tốn Naive Bayes

a Giới thiệu thuật tốn

Naive Bayes là giải thuật Machine learning được đề cập nhiều trong thập niên 1950-1960 Phương pháp Naive Bayes cĩ mối liên hệ mật thiết với Thống kê, vì cơ chế của nĩ dựa vào định lý Bayes và khi vận dụng vào Y học, thì Naive Bayes cũng tương đồng với quy trình biện luận lâm sàng của người thầy thuốc Tuy cổ xưa và quá đơn giản, nhưng Naive Bayes vẫn cịn chỗ đứng ở thời đại ngày nay Nạve Bayes vẫn được nhắc đến trong mọi giáo trình về Machine learning bên cạnh những giải thuật phức tạp khác, điều này cho thấy Naive Bayes cĩ hiệu quả thực sự

Naive Bayes là một giải thuật dựa vào lý thuyết xác suất điều kiện Giả sử ta cĩ một bài tốn phân loại với kết quả là C gồm k nhãn giá trị Mục tiêu của chúng ta là xếp một cá thể đặc trưng bởi vector dữ liệu X vào một phân lớp C gồm k loại Điều chúng ta sẽ thực sự làm, đĩ là ước tính xác suất cho mỗi nhãn giá trị Ci, từ C1 đến Ck trong điều kiện X hiện cĩ Nhãn giá trị nào cĩ xác suất cao nhất sẽ được chọn làm quyết định sau cùng

Theo định lý Bayes, ta cĩ :

P(Ci|X)= (𝐶𝑖)𝑃(𝑋|𝐶𝑖)𝑃(𝑋)

𝑃 (𝑋)Trong cơng thức này, P(Ci) được gọi là xác suất tiền nghiệm mà ta biết về Ci, trước khi tiếp cận dữ liệu X Một thí dụ thường gặp về P(Ci) trong y học là tỉ suất mắc

Trang 25

bệnh trong quần thể Trong bài tốn phân loại, P(Ci) được cung cấp từ chính tập dữ liệu ta dùng để huấn luyện mơ hình, vì ta biết tỉ lệ phân bố của mỗi nhãn Ci trên tồn

bộ mẫu

Giả sử D là tập huấn luyện gồm các mẫu biểu diễn dưới dạng X = Ci, D là tập các mẫu của D thuộc lớp Ci (i = 1, 2,…, m) Các thuộc tính x 1, x 2, …, x n độc lập điều kiện đơi

một với nhau khi cho lớp C

b Thuật tốn Nạve Bayes

Bước 1: Huấn luyện Naive Bayes trên tập dữ liệu huấn luyện Lượng giá P(Ci)

và P(xk |C i )

Bước 2: X_new được gán vào lớp cho giá trị cơng thức lớn nhất:

Argmaxck P(Ci) ∏𝑛 (𝑃𝑥𝑘

𝑘=1 |Ci) Trường hợp X là giá trị rời rạc

Giả sử X = xi Trong đĩ, xi nhận các giá trị rời rạc Khi đĩ, lượng giá P(Ci) và lượng

giá P(xk |C i ) theo cơng thức

Với m là số lớp, r là số giá trị rời rạc của thuộc tính

Trường hợp X là giá trị liên tục

Nếu thuộc tính nhận giá trị liên tục thì xác suất P(Xk |C i ) thường được tính dựa

theo phân bố Gauss với giá trị trung bình mu và độ lệch sigma:

g(𝑥, 𝜇, 𝜎) = 1

√2𝜋𝜎𝑒−(𝑥−𝜇)22𝜎2

Trang 26

Và P(Xk |C i ) là:

P(X k |C i )𝑃(𝑋𝑘|𝐶𝑖) = g(𝑥𝑘, 𝜇𝑐𝑖, 𝜎𝑐𝑖)

c Ưu thế của Naive Bayes

Cơ chế hoạt động và kết quả Naive Bayes tương đồng với quy trình suy luận trong thực hành lâm sàng Quy trình chẩn đốn trên mỗi bệnh nhân là sự tổng hợp của hàng loạt suy luận Bayes theo kiểu : Với dữ liệu lâm sàng trong bệnh án (tiền sử, bệnh

sử, triệu chứng chức năng/thực thể, kết quả xét nghiệm…) từ đĩ tính xác suất mắc bệnh của bệnh nhân Sau đây là các ưu thế Nạve Bayes cĩ được:

Nạve Bayes xét riêng lẻ từng biến nhưng khơng cần biết mối liên hệ, tổ hợp giữa chúng

Tại mỗi biến, xác suất điều kiện riêng phần được ước lượng đơn giản bằng phép đếm tần suất hoặc giả định phân phối chuẩn

Khi thi hành trên dữ liệu mới thì Naive Baye cũng cực kì nhanh Quả thực, hiếm giải thuật nào cĩ tốc độ nhanh trong cả 2 quá trình: học từ dữ liệu và thi hành nhiệm vụ như Naive Bayes Vậy, Nạve Bayes rất thích hợp cho những bộ dữ liệu kích thước lớn, cả về số lượng biến và số trường hợp

Naive Bayes tính tốn được tất cả các loại biến trong dữ liệu đầu vào, từ liên tục, rời rạc và nhị phân

Nạve Bayes chỉ cần cỡ mẫu vừa đủ cho mỗi biến, vì thực chất nĩ khơng dùng hết tồn bộ từng trường hợp mà chỉ quan tâm đến tỉ lệ phân bố cho mỗi bậc giá trị (biến rời rạc) hoặc đặc tính phân phối (biến liên tục) Cũng vì lý do này Nạve Bayes

ít nhạy cảm với nhiễu và chấp nhận dữ liệu bị thiếu sĩt rải rác cho từng biến Trong thực hành lâm sàng khơng phải lúc nào ta cũng thu thập được đầy đủ thơng tin, một

mơ hình chấp nhận thiếu sĩt dữ liệu như Naive Bayes cĩ thể sẽ cĩ ích trong trường hợp này

Trang 27

d Hạn chế của Nạve Bayes

Bất lợi lớn nhất của Naive Bayes chính là sự đơn giản Giả định về tính độc lập tuyệt đối giữa các biến đầu vào là rất vơ lý và hồn tồn mâu thuẫn với cơ chế sinh lý bệnh Do đĩ mơ hình Naive Bayes thường khơng cho phép diễn giải về tương tác đa chiều hoặc khai phá những cơ chế sinh lý bệnh học mới

Một nhược điểm khác của Naive Bayes đĩ là nĩ nhạy cảm với vấn đề mất cân bằng giữa các nhãn phân loại trong dữ liệu Tuy nhiên đây chỉ là vấn đề kỹ thuật và cĩ thể khắc phục

2.8.3 Thuật tốn C4.5

a Giới thiệu

ID3 (Quinlan, 1979) là một hệ thống đơn giản, ban đầu chứa khoảng 600 dịng

lệnh Pascal Năm 1993, J Ross Quinlan phát triển thành C4.5 với 9000 dịng lệnh C

Đặc điểm C4.5 là thuật tốn phân lớp dữ liệu dựa trên cây quyết định, hiệu quả

và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu cĩ kích thước nhỏ C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định C4.5 cịn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then

b Thuật tốn C4.5

Bước 1 Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước

Bước 2 Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của thuộc

tính đã chọn

Bước 3 Sắp xếp, phân chia tập dữ liệu đào tạo tới node con

Bước 4 Nếu các ví dụ được phân lớp rõ ràng thì dừng

Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con

Xây dựng luật: 4 bước

Trang 28

• Mỗi đường đi từ gốc đến lá là một luật mẫu Đơn giản luật mẫu bằng cách bỏ dần điều kiện mà không ảnh hưởng tới độ chính xác của luật

• Các luật đã cắt tỉa được nhóm lại theo giá trị phân lớp tạo ra các tập Với mỗi tập con, xem xét để lựa chọn luật để tối ưu hóa độ chính xác dự đoán của lớp gắn với tập luật đó

• Sắp xếp các tập luật trên theo tần số lỗi Lớp mặc định được tạo ra bằng cách xác định các case trong tập S không chứa trong các luật hiện tại

và chọn lớp phổ biến nhất trong các case đó làm lớp mặc định

• Ước lượng đánh giá: các luật được ước lượng trên toàn tập S, loại bỏ luật làm giảm độ chính xác của sự phân lớp

Kiểm tra case cơ bản:

· Với mỗi thuộc tính A tìm thông tin nhờ việc tách thuộc tính A

· Chọn a_best là thuộc tính mà độ đo lựa chọn thuộc tính “tốt nhất”

· Dùng a_best làm thuộc tính cho node chia cắt cây

· Đệ quy trên các danh sách phụ được tạo ra bởi việc phân chia theo a_best, và thêm các node này như là con của node

c Ưu thế C4.5

C4.5 sử dụng information gain khi tạo cây quyết định

Kết hợp tỉa cành, C4.5 sử dụng quá trình cắt tỉa single-pass để giảm thiểu hiện tượng quá khớp (overfitting)

C4.5 có thể làm việc với cả dữ liệu liên tục và rời rạc Bằng cách xác định phạm vi hoặc các ngưỡng cho dữ liệu liên tục nhờ vậy dữ liệu liên tục được chuyển sang dạng rời rạc

Dữ liệu bị thiếu vẫn được xử lý

d Hạn chế C4.5

Dễ bị overfitting, có thể khắc phục bằng các phương pháp ensemble

Trang 29

2.9 Hệ hỗ trợ ra quyết định chẩn đoán y khoa

Đây là một hệ thống máy tính được xây dựng để hỗ trợ cho các bác sĩ và các chuyên gia y tế trong việc đưa ra quyết định dựa trên dữ liệu của bệnh nhân

Hiện nay, hệ hỗ trợ được chia thành hai dạng chính:

i Hệ cơ sở tri thức (Knowledge Based Systems)

Hệ cơ sở tri thức là hệ thống dựa trên tri thức, cho phép mô hình hóa tri thức của chuyên gia, dùng tri thức để giải quyết vấn phức tạp thuộc cùng lĩnh vực

Hai yếu tố quan trọng trong hệ cơ sở tri thức là tri thức chuyên gia và lập luận, tương ứng với hệ thống có 2 khối chính là cơ sở tri thức và động cơ suy diễn

ii Hệ phi cơ sở tri thức (Non-knowledge Based Systems)

Hệ phi cơ sở tri thức sử dụng một dạng của trí tuệ nhân tạo là máy học, cho phép máy tính học những kinh nghiệm trong quá khứ để có thể nhận dạng các dữ mô hình trong dữ liệu lâm sàng Mạng nơron nhân tạo (Artificial Neural Networks) và các giải thuật di truyền (Genetic Algorithms) là hai dạng của hệ phi cơ sở tri thức

2.10 Các đóng góp của hệ hỗ trợ ra quyết định trong chẩn đoán bệnh

• Tăng chất lượng điều trị, an toàn cho bệnh nhân

• Tránh sai sót trong kỹ thuật, thủ thuật, thuốc

• Tuân thủ phát đồ, khuyến cáo

• Gia tăng dự phòng, giáo dục sức khỏe

2.11 Mô hình hệ hỗ trợ ra quyết định chẩn đoán bệnh

Theo tác giả Lin Lin và cộng sự [8], mô hình hệ hỗ trợ chẩn đoán y khoa là một tổng thể nhiều thành phần:

Trang 30

Hình 2.3 Mô hình hệ hỗ trợ ra quyết định chẩn đoán y khoa [8]

Trong hệ thống này, khi một bệnh nhân không cần có sự hỗ trợ của bác sĩ,có thể đăng nhập thông qua chức năng của hệ thống để bắt đầu một phiên chẩn đoán.Tất

cả các phiên chẩn đoán được cấu trúc bởi một chuỗi các câu hỏi được trình bày thông qua các trang web, hệ thống ghi nhận các triệu chứng đau cụ thể và đánh giá

Nhân viên y tế thực hiện hiện tương tự để hoàn thành các câu hỏi khám bệnh và cập nhật các triệu chứng lâm sàng thu thập được

Ngoài ra, chức năng chẩn đoán thể hiện các câu hỏi và thông tin cá nhân cơ bản, thông tin bệnh của bệnh nhân và kết quả chẩn đoán bệnh Bên cạnh đó, các chức năng cập nhật dữ liệu được người quản trị hay nhân viên y tế cập nhật thông tin: bổ sung các triệu chứng mới của bệnh, bổ sung các bệnh mới, hoặc điều chỉnh thông tin phù hợp theo yêu cầu

Trang 31

Về cơ sở tri thức của hệ thống bao gồm các thông tin đang quan tâm, cụ thể là triệu chứng bệnh đau lưng và kết quả chẩn đoán Tri thức này được người quản trị hay nhân viên y tế cập nhật một các thường xuyên

Hệ suy diễn là mối tương quan giữa triệu chứng gây bệnh và chẩn đoán bệnh, thông qua các luật suy diễn tạo ra các luật

Cơ sở dữ liệu lưu trữ thông tin cá nhân cơ bản của bệnh nhân, triệu chứng và kết quả chẩn đoán bệnh

Kết quả chẩn đoán sẽ thực hiện phân loại các loại bệnh, hỗ trợ người bệnh biết sơ bộ tình trạng sức khỏe để sớm đến cơ sở y tế Hỗ trợ nhân viên y tế thêm kênh tham thảo chẩn đoán nhằm đưa ra hướng điều trị phù hợp

  

Trang 32

Chương 3 XÂY DỰNG CƠ SỞ DỮ LIỆU

3.1 Xác định vấn đề

Theo giải phẩu học, lưng là khu vực đi từ N1 – xương ngực thứ nhất đến xương cùng cụt [7][13] Do vậy, bệnh đau lưng có rất nhiều nguyên nhân gây ra, có bệnh nội khoa, ngoại khoa cũng như do thay đổi sinh lý cơ thể cũng gây ra cảm giác đau cho người bệnh Trong khuôn khổ luận văn này, tác giả giới hạn khu vực đau lưng từ L1 (cột sống lưng thứ nhất ) đến xương cùng cụt và kéo dài đến bàn chân và các ngón chân Các bệnh được đề cập là nội khoa và ngoại khoa thường mắc phải

Trong khuôn khổ luận văn này, tác giả đề cập tới 21 loại bệnh đau lưng Đây là 21 loại bệnh bệnh mà phổ biến [4][8][24] trong nhóm bệnh đau lưng

Z1 Bệnh đau lưng do căng cơ, mỏi cơ

Z16 Gãy xương cột sống lưng chưa ảnh hưởng dây thần kinh

Z17 Gãy xương cột sống lưng ảnh hưởng dây thần kinh

Z18 Bệnh hẹp ống sống

Z19 Bệnh đau thần kinh tọa

Trang 33

Z20 Bệnh u nội tủy

Z21 Bệnh đau lưng liên quan chức năng thận

3.2 Thu thập và tiền xử lý dữ liệu

Dữ liệu trong luận văn dựa vào các tri thức và thông tin từ các nguồn:

1 Tài liệu chuyên ngành y khoa là các sách, giáo trình đang giảng dạy tại các trường đại học y, cùng các bài báo cáo khoa học được thu thập những năm gần đây

• PGS.TS Nguyễn Thị Xuyên, Chẩn Đoán Và Điều Trị Các Bệnh Cơ Xương Khớp, NXB Y Học Hà Nội 2016 [12]

• PGS.TS Lê Xuân Trung, Bệnh Học Ngoại Thần Kinh, NXB Y Học 2010[13]

• PGS.TS Bùi Quang Tuyển, Phẩu Thuật Thần Kinh, NXB Quân Đội Nhân Dân

Hà Nội, 2003 [14]

2 Hồ sơ bệnh án: thu thập được từ các bệnh viện lớn như: Bệnh viện Chấn thương chỉnh hình, bệnh viên Nhân Dân 115, bệnh viện Nhân Dân Gia Định, bệnh viện Trưng Vương, bệnh viện Thống Nhất Tỉnh Đồng Nai, bệnh viện đa khoa Tỉnh Bình Dương, bệnh viện đa khoa TP Cần Thơ

Hình 3.1 Ảnh hồ sơ bệnh án trang thông tin bệnh nhân

Trang 34

Hình 3.2 Ảnh hồ sơ bệnh án triệu chứng bệnh

Hình 3.3 Ảnh hồ sơ bệnh án trang cận lâm sàng và chẩn đoán

3 Ý kiến chuyên gia: Ý kiến từ TS.BS Vũ Viết Chính – Giảng viên trường đại học y khoa Phạm Ngọc Thạch, TS BS Nguyễn Thanh Tuyền – khoa ngoại thần kinh bệnh viện Nhân Dân 115 Đây là nững ý kiến có giá trị khoa học và thực tế

Trang 35

3.2.1 Đánh giá chất lượng dữ liệu

• Tính chính xác: Dữ liệu từ sách y học khá đầy đủ, chi tiết Kết hợp dữ liệu thực

tế từ các hồ sơ bệnh án và ý kiến chuyên gia để đảm bảo tính chính xác cho tập dữ liệu nghiên cứu

• Tính hiện hành: Dữ liệu tham khảo những năm gần đây 2010, 2016 Nên vẫn đảm bảo không bị lỗi thời

• Tính toàn vẹn: Các giá trị của một thuộc tính đều được ghi nhận

• Tính nhất quán: Tất cả các dữ liệu đều được biểu diễn như nhau trong các trường hợp

Trang 36

3.2.2 Các kỹ thuật tiền xử lý dữ liệu

Tập bệnh có 21 loại bệnh với 19 tập triệu chứng gồm nhiều thuộc tính con , tuy nhiên, các thuộc tính này bị thiếu hoặc có nhiều thuộc tính không ý nghĩa nhiều trong công tác chẩn đoán Tác giả đã xử lý dữ liệu thiếu

Dữ liệu thừa: Trong quát trình thu thập dữ liệu, có nhiều thuộc tính mà theo ý kiến chuyên gia là không có ý nghĩa trong ra quyết định chần đoán Vì vậy, tác giả đã loại bỏ các thuộc tính này: tiền căn, tiền sử các bệnh tiểu đường, số lần sinh con (nữ), thói quen hút thuốc lá, rượu bia… để làm sạch bộ dữ liệu và tích hợp lại được kết quả như sau:

Vị trí đau

A1 Đau thắt lưng giữa

A2 Đau thắt lưng trái

A3 Đau thắt lưng phải

Đặc điểm cơn đau

C1 Đau âm ỉ / râm ran

C2 Đau nhói / buốt

D4 Nhiều ngày liền

Thời điểm xuất hiện cơn đau

Trang 37

E1 Thời điểm đau có tính cố định

E2 Thời điểm đau không cố định

Yếu tố làm tăng cơn đau

F1 Nằm làm tăng cơn đau

F2 Ngồi làm tăng cơn đau

F3 Vận động làm tăng cơn đau

Yếu tố làm giảm cơn đau

G1 Nằm làm giảm cơn đau

G2 Ngồi làm giảm cơn đau

G3 Đứng làm giảm cơn đau

G4 Đi lại làm giảm cơn đau

Hướng lan cảm giác tê

I1 Tê lan xuống vùng mông

I2 Tê lan xuống vùng đùi

I3 Tê lan xuống vùng cẳng chân

I4 Tê lan xuống bàn chân

I5 Tê lan xuống gót chân

I6 Tê lan xuống mắt cá trong

I7 Tê lan xuống ngón chân II, III

I8 Tê lan xuống ngón chân IV, V

Trang 38

L4 Thể trạng thừa cân nhiều

Hoàn cảnh xuất hiện

N15 Có hình ảnh hẹp CSL

Trang 40

Xét bảng quyết định DT = {U, C ∪ {d}}

U = { tập thuộc tính}

C ={ tập các triệu chứng gây bệnh}

d = {tập các nguyên nhân gây bệnh}

Giải thích cơ sở dữ liệu bảng trên:

Vị trí đau có 4 thuộc tính là Đau thắt lưng giữa, Đau thắt lưng trái, Đau thắt lưng phải, Đau vùng mông Được viết ngắn gọn là

Vị trí đau (Đau thắt lưng giữa, Đau thắt lưng trái, Đau thắt lưng phải, Đau vùng

mông)

Tương tự cho các tập thuộc tính khác:

Cường độ đau (Đau nhẹ, Đau đau /vừa, Đau nhiều, Rất đau)

Đặc điểm cơn đau (Đau âm ỉ / râm ran, Đau nhói / buốt, Đau nhứt nhối, Đau dữ dội) Thời gian kéo dài cơn đau (Vài phút, Vài giời, Vài ngày, Nhiều ngày liền)

Thời điểm xuất hiện cơn đau (Thời điểm đau có tính cố định, Thời điểm đau không

cố định)

Yếu tố làm tăng cơn đau (Nằm làm tăng cơn đau, Ngồi làm tăng cơn đau, Vận động

làm tăng cơn đau)

Yếu tố làm giảm cơn đau ( Nằm làm giảm cơn đau, Ngồi làm giảm cơn đau, Đứng

làm giảm cơn đau, Đi lại làm giảm cơn đau)

Cảm giác tê ( Không cảm giác tê, Tê nhẹ, Tê tê /tê vừa, Tê nhiều, Rất tê)

Hướng lan cảm giác tê (Tê lan xuống vùng mông, Tê lan xuống vùng đùi, Tê lan

xuống vùng cẳng chân, Tê lan xuống bàn chân, Tê lan xuống gót chân, Tê lan xuống mắt cá trong, Tê lan xuống ngón chân II, III; Tê lan xuống ngón chân IV, V )

Tiêu ( Tiêu bình thường, Tiêu khó, Tiêu rất khó, Bí tiêu)

Tiểu ( Tiểu bình thường, Tiểu khó, Tiểu rất khó, Bí tiểu)

Thể trạng ( Thể trạng gầy, Thể trạng trung bình, Thể trạng thừa cân ít, Thể trạng thừa

cân nhiều)

Hoàn cảnh xuất hiện (Có tác động ngoại lực, Do tính chất công việc, Do lão hóa,

Yếu tố khác, mơ hồ)

Ngày đăng: 23/12/2018, 06:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w