Dữ liệu xác định là dữ liệu rời rạc, thuộc tính có kiểu dữ liệu xác định có số lượng giá trị phân biệt có hạn (nhưng có khả năng nhiều), và không có thứ tự giữa các giá trị. Ví dụ như vị trí địa lý, nghề nghiệp hay loại sản phẩm…. Có một vài phương pháp cho việc tổng quát hóa mức khái niệm cho loại dữ liệu này.
- Chuyên gia hay người sử dụng chỉ rõ một phần thứ tự của các thuộc tính ở mức lược đồ: Thứ bậc khái niệm cho các thuộc tính kiểu xác định thông thường liên quan đến một nhóm các thuộc tính. Chuyên gia hay người sử dụng có thể dễ dàng định nghĩa một thứ bậc khái niệm bằng cách chỉ ra một phần hay toàn bộ thứ tự của các thuộc tính ở mức lược đồ. Ví dụ, một cơ sở dữ liệu quan hệ có thể có một bảng gồm một nhóm các thuộc tính sau đây:
“phố”, “thành phố”, “tỉnh”, “quốc gia”, khi đó thứ bậc khái niệm có thể định nghĩa bằng việc chỉ ra toàn bộ thứ tự giữa các thuộc tính này ở mức lược đồ, như phố < thành phố < tỉnh < quốc gia.
- Chỉ rõ một phần của thứ bậc bằng cách nhóm dữ liệu: Bản chất của nó là định nghĩa bằng tay một phần của thứ bậc khái niệm. Quả là phi thực tế khi định nghĩa toàn bộ mức khái niệm bằng các liệt kê tất cả giá trị của thuộc tính trong một cơ sở dữ liệu lớn. Tuy nhiên, điều đó có thể thực hiện được khi định ra một nhóm cho một phần nhỏ dữ liệu ở mức trung gian. Ví dụ, sau khi chỉ ra rằng tỉnh và quốc gia hình thành một thứ bậc khái niệm ở mức lược đồ, có thể thêm dữ liệu vào bằng tay ở mức trung gian, ví dụ “{Hà Nội, Quảng Ninh} Miền Bắc Việt Nam” và “{Miền Bắc Việt Nam, Miền Trung Việt Nam} nước Việt Nam”
- Chỉ ra một tập các thuộc tính mà không chỉ ra thứ tự bộ phận của chúng: Hệ thống sau đó sẽ tự động sinh ra thứ tự của các thuộc tính để xây dựng một thứ bậc khái niệm có nghĩa. Vậy làm sao có thể xây dựng được thứ bậc khái niệm có nghĩa mà không biết về ngữ nghĩa của dữ liệu. Trong thực tế, các
41
khái niệm mức cao thường bao trùm vài khái niệm phụ thuộc mức thấp hơn. Một thuộc tính được định nghĩa là khái niệm mức cao thường có số giá trị phân biệt nhỏ hơn thuộc tính được định nghĩa ở thứ bậc khái niệm thấp hơn. Dựa vào quan sát này, một thứ bậc khái niệm có thể có thể được sinh ra dựa vào số giá trị phân biệt trên mỗi thuộc tính trong một tập thuộc tính cụ thể. Thuộc tính với nhiều giá trị phân biệt nhất được đặt ở mức thấp nhất, thuộc tính với ít giá trị phân biệt hơn sẽ được đặt ở mức cao hơn và thuộc tính ít giá trị phân biệt nhất sẽ được đặt ở mức cao nhất của thứ bậc khái niệm. Quy giá tắc dựa vào kinh nghiệm này hoạt động tốt trong nhiều trường hợp. Nếu cần thiết thì người sử dụng hay các chuyên gia có thể hoán chuyển hay điều chỉnh cục bộ sau khi kiểm tra thứ bậc khái niệm đã được sinh ra.
Cũng phải chú ý rằng, quy tắc này không thể giải quyết được mọi vấn đề bởi vì trong thực tế có nhiều trường hợp không theo kinh nghiệm này, ví dụ: Thời gian trong một cơ sở dữ liệu có 20 năm khác nhau, có 12 tháng khác nhau, và 7 ngày trong tuần khác nhau. Tuy nhiên, chúng không gợi cho chúng ta xây dựng một thứ bậc khái niệm về thời gian theo dạng “năm < tháng < ngày_trong_tuần” với thuộc tính ngày_trong_tuần ở mức cao nhất.
Tóm lại, tiền xử lý dữ liệu là một vấn đề quan trọng cho cả kho dữ liệu và khai phá dữ liệu, vì dữ liệu trong thực tế thường không đầy đủ, nhiễu và không nhất quán. Tiền xử lý dữ liệu bao gồm một số kỹ thuật như làm sạch, tích hợp, biến đổi và thu gọn dữ liệu. Làm sạch dữ liệu là một công đoạn được sử dụng để giải quyết vấn đề mất dữ liệu, giảm nhiễu dữ liệu, nhận diện các dữ liệu không liên quan và hiệu chỉnh nhưng dữ liệu không nhất quán; Tích hợp dữ liệu là kết hợp dữ liệu từ nhiều nguồn khác nhau, tạo nên một lưu trữ dữ liệu chặt chẽ. Các bước phân tích tương quan, phát hiện mâu thuẫn, và cách giải quyết vấn đề hỗn tạp về ngữ nghĩa góp phần làm mịn dữ liệu trong bước tích hợp dữ liệu này; Biến đổi dữ liệu là một công đoạn chuyển đổi dữ liệu thành những dạng thích hợp cho khai phá; Kỹ thuật thu gọn dữ liệu như kết khối dữ liệu, giảm số chiều, nén dữ liệu, rời rạc hóa dữ liệu có thể được sử dụng để mang lại biểu diễn dữ liệu ở thể gọn hơn, nhưng phải đảm bảo tối thiểu hóa việc mất nội dung thông tin; Tự động sinh ra thứ bậc khái niệm
42
cho dữ liệu kiểu số bao gồm những kỹ thuật như binning, phân tích biểu đồ, phân tích cụm, phân đoạn bằng chia cắt tự nhiên…Với loại dữ liệu kiểu xác định, thứ bậc khái niệm có thể được sinh ra dựa trên số lượng giá trị phân biệt của các thuộc tính được sử dụng để hình thành nên thứ bậc khái niệm đó.
43
Chương 3 Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu.