trong đĩ C là tập tất cả các tập mục thường xuyên đĩng ,l là độ dài tập định danh
3.1 Bài tốn phát hiện luật kết hợp trong dữ liệ uy tế
Dữ liệu y tế rất phức tạp để sử dụng cho việc thực hiện khai phá dữ liệu vì các thuộc tính đa chiều. Dữ liệu cĩ thể là văn bản, hình ảnh, video…. Mỗi bệnh nhân cĩ hàng chục thuộc tính để xác định tình trạng của người bệnh. Do đĩ, cần cĩ cách tiếp cận phù hợp để sử dụng các dữ liệu đĩ tìm ra các luật kết hợp.
Chương trình thực nghiệm được thực hiện theo mơ hình khai phá dữ liệu (DME – Data Mining Engine) thể hiện trong hình 3.1 [14]. Trong mơ hình, quá trình khai phá hồn thành với sáu bước chính. Nhiệm vụ của chương trình là tìm kiếm mối liên hệ giữa các thuộc tính của dữ liệu bệnh nhân. Bước đầu tiên là chọn lọc dữ liệu đầu vào lấy từ cơ sở dữ liệu y tế đang hoạt động. Tiếp đến, dữ liệu được rời rạc hố, chuyển đổi về dạng nhị phân để phù hợp với thuật tốn CHARM. Chương trình khai phá tập dữ liệu bằng thuật tốn CHARM, kết quả nhận được các tập mục thường xuyên đĩng. Bước tiếp theo chương trình sinh ra các luật kết hợp từ các tập mục thường xuyên đĩng, các luật này được cung cấp cho các nhà quản lý, các bác sĩ,….
Hình 3.1: Mơ hình khai phá cho dữ liệu y tế
CSDL khảo sát của bệnh nhân
Khai phá dữ liệu y tế Máy khai phá dữ liệu Dữ liệu vào
Rời rạc hĩa DL
Sinh ra luật
Khai phá dữ liệu Chuyển đổi dữ liệu
Tập mục TX đĩng
Quản lý tri thức
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Từ hồ sơ bệnh án tháng 01 năm 2013 của bệnh nhân tại Bệnh viện C – Thái nguyên, chọn ra 1000 bệnh án của bệnh nhân đã được chuẩn đốn bệnh hen suyễn. Sau khi thu thập và xử lý dữ liệu ta nhận thấy: Mỗi bệnh nhân gồm cĩ rất nhiều thơng tin khi đến khám như họ tên, giới tính, tuổi, địa chỉ, các triệu chứng của bệnh (mệt mỏi, khĩ thở, sốt…). Được thể hiện dưới bảng sau: