6. Bố cục của luận văn:
3.2 Tiền xử lí dữ liệu
Cơ sở dữ liệu thường chứa các thuộc tính ở các thang đo dữ liệu khác nhau và cũng cĩ một số dữ liệu bị nhiễu, thiếu. Trong quá trình khai thác dữ liệu để dự đốn và chẩn đốn thì chất lượng dữ liệu là yếu tố quan trọng, bởi vì chất lượng dữ liệu thấp cĩ thể dẫn đến kết quả dự đốn thấp hoặc khơng chính xác. Để làm cho tập dữ liệu gốc của chúng tơi đạt chất lượng hơn và cĩ thể áp dụng dự đốn bệnh tiểu đường buộc chúng tơi phải làm sạch dữ liệu và đưa chúng về cùng một thang đo dữ liệu.
Đầu tiên, chúng tơi phân tích ý nghĩa y khoa các thuộc tính dữ liệu và tìm hiểu mối tương quan của từng thuộc tính dữ liệu với bệnh tiểu đường. Qua quan sát chúng tơi phát hiện ra rằng giới tính là dữ liệu ít liên quan đến bệnh tiểu đường. Do đĩ chúng tơi chuyển thuộc tính này thành thuộc tính danh nghĩa với giá trị 0 là giới tính nữ và 1 là giới tính nam.
Tiếp theo, qua quan sát chúng tơi thấy tập dữ liệu cĩ chứa một số giá trị bị thiếu và khơng chính xác. Ví dụ như thuộc tính ‘Tuoi’ khơng được bằng 0 hoặc thuộc tính ‘Glucose’ cũng khơng được chứa giá trị bằng 0 hoặc cĩ giá trị cao quá mức (vì chỉ số đường glucose trong huyết tương phải khác giá trị 0). Như thế, tập dữ liệu ban đầu bị lỗi, điều này ảnh hưởng đến độ chính xác của chương trình. Vì vậy, chúng tơi cần phải xử lý các dữ liệu này bằng cách thay thế giá trị giá trị cịn thiếu.
Sau cùng, chúng tơi thực hiện chuẩn hĩa dữ liệu để tất cả các dữ liệu được về cùng một thang đo [0,1] bằng cách tính sau:
Pl-48
𝑔𝑖á 𝑡𝑟ị 𝑚ớ𝑖 = 𝑔𝑖á 𝑡𝑟ị 𝑏𝑎𝑛 đầ𝑢 − 𝑔𝑖á 𝑡𝑟ị 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ độ 𝑙ệ𝑐ℎ 𝑐ℎ𝑢ẩ𝑛
Việc làm này nhằm tránh độ phức tạp của thuật tốn, tăng tốc độ của hoạt động.