1.2 Các nghiên cứu liên quan
2.1.3 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một quá trình xử lý các dữ liệu đầu vào, dữ liệu thô/gốc thành các dữ liệu đầu ra nhằm cải thiện ch t lƣợng dữ liệu. Do đó, sẽ cải thiện ch t lƣợng của kết quả khai phá. Dữ liệu thô/gốc: có thể là dữ liệu có c u trúc, án c u trúc, phi c u trúc. Đƣợc đƣa vào từ các nguồn dữ liệu trong các hệ thống xử lý tập tin (file processing systems) hay là các hệ thống cơ sở sữ liệu (data ase systems). Ch t lƣợng của dữ liệu (data quality) ao gồm: tính chính xác (accuracy), tính hiện hành (currency/timeliness), tính toàn vẹn (completeness), tính nh t quán (consistency).
Các kỹ thuật tiền xử lý dữ liệu:
Làm sạch dữ liệu (data cleaning): lá quá trình loại ỏ nhiễu (remove noise), hiệu chỉnh những phần dữ liệu không nh t quán (correct data inconsistencies). Xác định hoặc loại ỏ các phần tử ngoại lai (outliers), giải quyết các mâu thuẫn dữ liệu.
Tích hợp dữ liệu (data integration): là quá trình trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ liệu.
Biến đổi dữ liệu (data transformation): là quá trình chuẩn hóa dữ liệu (data normalization), rời rạc hóa dữ liệu.
Thu giảm dữ liệu (data reduction): là quá trình thu giảm kích thƣớc dữ liệu (nghĩa là giảm số phần tử) ằng việc kết hợp dữ liệu (data aggregation), loại ỏ các đặc điểm dƣ thừa (redundant features – giảm số chiều/thuộc tính dữ liệu), gom cụm dữ liệu nhƣng vẫn đảm ảo thu đƣợc các kết quả khai phá dữ liệu tƣơng đƣơng (hoặc x p xỉ).
Do có nhiều kỹ thuật tiền xử lý dữ liệu, sau đây sẽ trình ày chi tiết hai kỹ thuật tiền xử lý dữ liệu là cách phát hiện phần tử ngoại lai (outliers) và thu giảm số chiều:
Phần tử ngoại lai của một tập dữ liệu là các phần tử mà theo một cách nhìn nào đó có các đặc tính không giống với đa số tập hợp còn lại của tập dữ liệu. Một phần tử ngoại lai có thể là một đối tƣợng dữ liệu trong các trƣờng hợp sau: nằm trong một phân ố khác với phân ố của tập dữ liệu còn lại hoặc có thể là một đối tƣợng có giá trị hợp lệ nhƣng không phải là đối tƣợng mong muốn hoặc có thể là đối tƣợng dữliệu đƣợc tạo sinh có sai sót. Xác định phần tử ngoại lai theo khoảng cách (distance- ased): tác giả Knorr and Ng. [24] đã đề xu t cách tiếp cận là cần phải xác định một hàm đo khoảng cách (metric) giữa các phần tử trong tập dữ liệu. Các phần tử ngoại lai là những phần tử nằm khác xa với các tập phần tử còn lại. Xác định phần tử ngoại lai theo thống kê (statistical-based): hƣớng tiếp cận này đƣợc tác giả Barnerr và Lewis [25] đề xu t dựa trên việc xác định các mô hình phân phối thống kê mà các phần tử phải tuân theo (phân
phối chuẩn, phân phối …). Phần tử ngoại lai là các phần tử không tuân theo các luật này. Xác định theo độ khác iệt (deviation- ased): hƣớng tiếp cận này đƣợc Arning, Agrawal, Raghavan [26] đề xu t dựa trên việc xác định các đặc trƣng cơ ản của các phần tử trong một tập các phần tử. Các phần tử có những đặc trƣng khác iệt quá lớn so với các phần tử còn lại thì nó là các phần tử ngoại lai.
Hình 2.3Ví dụ về một outlier
Thu giảm số chiều (dimensionality reduction): loại ỏ các thuộc tính không (hoặc ít) quan trọng. Phƣơng pháp giảm số chiều sẽ giúp tránh (giảm ớt) những ảnh hƣởng tiêu cực của số chiều lớn, giúp loại ỏ các thuộc tính không liên quan, giảm nhiễu và lỗi, giảm chi phí về thời gian và ộ nhớ cần cho quá trình khai phá dữ liệu và cho phép hiển thị hóa dữ liệu một cách dễ dàng và hiệu quả hơn. Dƣới đây sẽ giới thiệu 2 trong số những kỹ thuật thu giảm số chiều:
ü Phân tích thành phần chính (Principal component analysis): thứ nh t là tìm một phép chiếu (projection) không gian thuộc tính mới – sao cho giữ đƣợc mức độ tối đa về sự khác iệt (variation) trong tập dữ liệu an đầu. Thứ hai, tìm các eigenvectors của ma trận hiệp iến – eigenvectors này sẽ định nghĩa không gian thuộc tính mới.
ü Lựa chọn tập con các thuộc tính (feature su set selection): lựa chọn các thuộc tính riêng rẽ (với giả sử là các thuộc tính là độc lập với nhau) theo
một hoặc một số tiêu chí đánh giá. Lựa chọn thuộc tính từng ƣớc (step- wise feature selection): thuộc tính tốt nh t sẽ đƣợc chọn ra đầu tiên. Chọn thuộc tính tốt nh t tiếp theo đối với thuộc tính đầu tiên đã chọn … Loại ỏ thuộc tính từng ƣớc (step-wise feature elimination): loại ỏ dần dần (repeatedly) các thuộc tính kém (không phù hợp) nh t. Kết hợp đồng thời 2 chiến lƣợc: lựa chọn và loại ỏ các thuộc tính.