Tiền xử lý dữ liệu gốc

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​ (Trang 56 - 62)

Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu làm cho dữ liệu ban đầu (dữ liệu gốc) có thể áp dụng đƣợc (thích hợp) với các mô hình khai phá dữ liệu cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc nhƣ:

- Lọc thuộc tính, chọn các thuộc tính phù hợp với mô hình - Lọc các mẫu dữ liệu cho mô hình

- Làm sạch dữ liệu nhƣ xóa bỏ các dữ liệu bất thƣờng

- Chuyển đổi dữ liệu cho phù hợp với các mô hình nhƣ chuyển đổi dữ liệu từ numeric qua nomial hay ordinal

- Rời rạc hóa dữ liệu: Nếu dữ liệu là liên tục nhƣng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc thì sẽ cần thực hiện việc rời rạc hóa dữ liệu

Các bƣớc xử lý dữ liệu gốc:

Theo dữ liệu ban đầu đƣợc cung cấp từ Đại học Y Dƣợc Thái Nguyên, số lƣợng bản ghi gần 200 nghìn bản ghi. Tuy nhiên dữ liệu đƣợc cung cấp có rất nhiều dữ liệu trùng lặp, chỉ khác nhau về một số thuộc tính không quan trọng; Có khá nhiều các ký tự đặc biệt, không phù hợp với các phần mềm phân tích dữ liệu. Sau khi thực hiện loại bỏ các bản ghi trùng lặp hoàn toàn số lƣợng các bản ghi giảm xuống còn 193740 bản ghi. Sử dụng phần mềm nguồn mở Weka để hỗ trợ phân tích và xử lý tiền dữ liệu. Weka (Waikato Environment for Knowledge Analysis) là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand. Một công cụ phát triển các kỹ thuật máy học và áp dụng chúng vào bài toán khai thác dữ liệu trong thực tế.

Mục tiêu của bài toán là phân tích một số bệnh phổ biến, quan trọng, mãn tính trong CSDL trong 9 khu vực hành chính của tỉnh Thái Nguyên. Từ đó ta xác

định đƣợc các tiêu chí để lựa chọn các trƣờng dữ liệu, loại bỏ các dữ liệu thừa, bất thƣờng để lọc đƣợc dữ liệu mẫu tốt nhất.

Hình 3.2: Phân tích dữ liệu gốc, thuộc tính “HO TEN”

Theo hình trên có thể thấy số lƣợng bệnh nhân bị trùng lặp là rất lớn. Nguyên nhân là do cách lƣu trữ trong đó có những thuộc tính thừa.

+ Tiến hành lọc thuộc tính thừa: MA BN, ICD VAO, ICD RA, CHUAN DOAN DAU VAO, DOI TUONG, TEN DICH VU, TEN PHAU THUAT THU THUAT

+ Loại bỏ các trƣờng dữ liệu trùng lặp

Hình 3.3: Dữ liệu gốc sau khi loại bỏ thuộc tính thừa và dữ liệu trùng lặp

Theo yêu cầu bài toán đƣa ra, ta chỉ xét những khu vực hành chính thuộc địa bàn tỉnh Thái Nguyên đối với thuộc tính “QUAN HUYEN”. Vậy ta cũng cần lọc bỏ những dữ liệu thừa với thuộc tính này. Hình dƣới thể hiện những giá trị của thuộc tính “QUAN HUYEN” trong dữ liệu gốc ban đầu. Các giá trị đƣợc khoang đỏ là những giá trị cần đƣợc lọc bỏ.

Hình 3.4: Phân tích dữ liệu gốc, thuộc tính “QUAN HUYEN”

Sau khi lọc bỏ các giá trị không cần thiết của thuộc tính “QUAN HUYEN” ta sẽ đƣợc kết quả nhƣ hình dƣới và dữ liệu giảm xuống còn 4452 bản ghi.

Hình 3.5: Loại bỏ một số giá trị của thuộc tính “QUAN HUYEN”

Tuy nhiên để dữ liệu phù hợp với mục đích của bài toán, tiếp tục loại bỏ bớt những giá trị không phù hợp của thuộc tính “CHUAN DOAN DAU RA”: những bệnh không phổ biến, có tính chất cấp tính, chấn thƣơng, không phù hợp với yêu cầu bài toán...Hình dƣới thể hiện dữ liệu trƣớc khi loại bỏ một số giá trị của thuộc tính “CHUAN DOAN DAU RA”; lúc này dữ liệu là 4452 bản ghi. Kết quả dữ liệu sau khi thực hiện việc lọc bỏ dữ liệu đƣợc thể hiện trong hình; dữ liệu lúc này gồm 2765 bản ghi.

Sau khi tiến hành các bƣớc tiền xử lý dữ liệu gốc thu đƣợc tập dữ liệu với 2765 bản ghi; lƣu trữ các thông tin về tên tuổi, khu vực sinh sống và kết luận bệnh của bệnh nhân. Tập dữ liệu này sẽ đƣợc dùng làm tập dữ liệu mẫu để triển khai các thuật toán phân cụm dữ liệu cho các bƣớc tiếp theo.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​ (Trang 56 - 62)

Tải bản đầy đủ (PDF)

(73 trang)