Tích hợp dữ liệu

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 28)

Việc phân tích dữ liệu của chúng ta sẽ phù hợp hơn khi bao gồm cả tích hợp dữ liệu, nó kết hợp dữ liệu từ nhiều nguồn thành một lưu trữ dữ liệu liên kết, như trong kho dữ liệu. Những nguồn này có thể bao gồm nhiều cơ sở dữ liệu, khối dữ liệu hay tệp dữ liệu.

Có một số vấn đề cần phải cân nhắc trong quá trình tích hợp dữ liệu. Tích hợp lược đồ có thể bị kéo theo. Làm thế nào có thể phù hợp các thực thể từ nhiều nguồn dữ liệu khác nhau trong thực tế? cái đó được xem như là vấn đề nhận diện thực thể. Lấy ví dụ, có thể phân tích dữ hoặc tính toán như thế nào để bảo đảm rằng customer_id trong một cơ sở dữ liệu và cust_number trong một cơ sở dữ liệu khác tham chiếu đến cùng một thực thể?. Cơ sở dữ liệu và kho dữ liệu thông thường có

30

siêu dữ liệu, đó là dữ liệu về dữ liệu. Vì thế, siêu dữ liệu có thể được sử dụng để tránh gặp lỗi khi tích hợp lược đồ.

Dư thừa cũng là một vấn đề quan trọng được đặt ra. Một thuộc tính có thể bị dư thừa nếu nó có thể “lấy được” từ những bảng khác. Việc không nhất quán trong cách đặt tên các thuộc tính cũng có thể là nguyên nhân gây nên dư thừa trong tập dữ liệu kết quả.

Một số dư thừa có thể được phát hiện bằng phân tích tương quan. Sự tương quan giữa hai thuộc tính A và B có thể được tính bằng:

, ( )( ) ( 1) A B A B A A B B r n        Công thức (2.1)A A n   ; ( )2 1 A A A n     

Trong đó n là số bản ghi, AB là giá trị trung bình tương ứng của A và B.

A

 và B là độ lệch chuẩn tương ứng của A và B. Nếu kết quả của công thức (2.1) lớn hơn 0, thì rõ ràng A và B có sự tương quan, có nghĩa là nếu giá trị của A tăng thì giá trị của B cũng tăng, giá trị càng cao thì thuộc tính này bao hàm thuộc tính kia càng nhiều. Vì thế, một giá trị cao cho biết A (hoặc B) có thể được loại bỏ như một dư thừa. Nếu kết quả của công thức bằng 0, thì A và B là độc lập với nhau, không có sự tương quan giữa hai thuộc tính. Giá trị của kết quả mà nhỏ hơn 0, thì A và B là tương quan phủ định, khi đó giá trị của một thuộc tính tăng lên thì giá trị của thuộc tính kia giảm xuống, có nghĩa là thuộc tính này hạn chế thuộc tính kia. Công thức (2.1) có thể phát hiện ra sự tương quan giữa hai thuộc tính customer_id

cust_number được mô tả ở trên.

Thêm vào việc phát hiện dư thừa giữa các thuộc tính, vấn đề bản sao cũng có thể được phát hiện ở mức bản ghi (tức là khi có hai hay nhiều bản ghi giống hệt nhau cho một ca dữ liệu duy nhất).

Vấn đề quan trọng thứ ba trong việc tích hợp dữ liệu là phát hiện và giải quyết những xung đột giá trị dữ liệu. Giá trị của một thuộc tính trong cùng một thực thể từ nhiều nguồn khác nhau thì có thể khác nhau, chúng có thể làm cho việc biểu diễn, co dãn và mã hóa dữ liệu khác nhau. Ví dụ, một thuộc tính về chiều cao trong một hệ thống được lưu với đơn vị là mét, trong khi ở Anh người ta sử dụng đơn vị đo

31

lường khác, hay thuộc tính giá của các khách sạn có thể không khác nhau về đơn vị tiền tệ nhưng lại khác nhau về dịch vụ (như có miễn phí ăn sáng hay không) và thuế. Chính sự hỗn tạp về ngữ nghĩa của dữ liệu là một thách thức lớn trong quá trình tích hợp dữ liệu.

Tích hợp dữ liệu một cách cẩn thận từ nhiều nguồn khác nhau có thể giúp ta giảm và tránh được dữ liệu dư thừa và không nhất quán trong tập dữ liệu kết quả. Điều đó góp phần cải thiện độ chính xác, cũng như tốc độ của những tiến trình khai phá về sau.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 28)

Tải bản đầy đủ (PDF)

(90 trang)