- Nguồn dữ liệu thu thập từ các nguồn khác nhau:
+ Dữ liệu về phân chia các khu vực hành chính cấp quận huyện:Thành phố Thái Nguyên; Thị xã Sông Công ; Huyện Phổ Yên, Phú Bình, Đồng Hỷ, Võ Nhai, Định Hóa, Đại Từ, Phú Lƣơng.
DL gốc
Tiền xử lý dữ liệu Dữ liệu mẫu
Thuật toán AHC
Thuật toán K-means
Kết quả Biểu diễn kết quả
trên bản đồ
Chọn K cụm
DL các khu vực hành chính
+ Dữ liệu về việc phân chia các khu vực cấp phƣờng, xã có trình độ phát triển khác nhau trong tỉnh Thái Nguyên. Việc phân loại các khu vực đƣợc sử dụng để phân chia các khu vực thành bốn nhóm:
Nhóm A, các khu vực phát triển gồm 55 phƣờng, xã, thị trấn đƣợc đại diện bởi A1 đến A55
Nhóm B, các khu vực phát triển vừa phải gồm 36 xã, phƣờng, thị trấn đƣợc đại diện bởi B1 đến B36
Nhóm C, các khu vực kém phát triển gồm 36 xã, phƣờng, thị trấn đƣợc đại diện bởi C1 đến C41
Nhóm D, các khu vực đặc biệt khó khăn gồm 36 xã, phƣờng, thị trấn đƣợc đại diện bởi D1 đến D48.
+ Dữ liệu về hồ sơ bệnh án thuộc Đại học Y Dƣợc Thái Nguyên bốn tháng đầu năm 2015.Dữ liệu gốc đƣợc cung cấp dƣới dạng file Excel (file type .xls) với gần 200 nghìn bản ghi.
- Đặc điểm dữ liệu gốc:
Dữ liệu đƣợc cung cấp bao gồm một số thuộc tính sau: 1 – Mã bệnh nhân
2 – Họ tên 3 – Phƣờng Xã 4 – Quận Huyện 5 – ICD vào
6 – Chuẩn đoán đầu vào 7 – Đối tƣợng
8 – Tên dịch vụ
9 – Tên phẫu thuật thủ thuật 10 – ICD ra
11 – Chuẩn đoán đầu ra(bệnh)
nhiều thông tin trùng lặp khiến dữ liệu rất lớn sẽ dẫn đến kết quả không chính xác khi phân cụm. Bên cạnh đó tập tin có định dạng Excel (.xls) cũng không phù hợp với kiểu dữ liệu đầu vào của phần mềm phân cụm. Do đó cần công việc xử lý dữ liệu trƣớc khi đƣa vào các mô hình là rất cần thiết để có thể áp dụng đƣợc các mô hình khai phá dữ liệu.