Mối quan hệ phức tạp giữa các thuộc tính

Một phần của tài liệu nghiên cứu quy trình khám phá tri thức (Trang 25 - 26)

Dữ liệu tồn tại trong nhiều dạng (forms) và không đặt trong một sự phân cấp đầy đủ (complete taxonomy). Thực vậy, rất khó xây dựng một phân cấp đầy đủ do một khía cạnh của dữ liệu trong tình huống này có thể lại không quan trọng trong tình huống khác. Dù vậy, có những sự phân biệt rõ ràng mà chúng ta nên để ý tới. Một là sự khác nhau giữa các số đo phân loại và định lượng. Các thuộc tính định lượng được đo trong một thang số và có thể nhận một giá trị bất kỳ (ví dụ bảng lương, giá cổ phiếu, ...). Ngược lại, các biến có giá trị thuộc tính phân loại (categorical variables) như là giới tính, trạng thái, loại cổ phiếu, trình độ học vấn, ... chỉ có thể nhận giá trị xác định, rời rạc. Các thuộc tính có giá trị phân loại có thể là sắp thứ tự được (có thứ tự tự nhiên, như là trình độ học vấn) hoặc là tên của các loại (đặt tên đơn giản cho các loại, như là marital status - tình trạng hôn nhân). Một kỹ thuận phân tích dữ liệu chỉ thích hợp cho một kiểu dữ liệu này mà có thể không thích hợp với kiểu dữ liệu khác (mặc dù nó dựa trên cùng mục đính phân tích). Ví dụ, ngay cả khi tình trạng hôn nhân được biểu diễn bằng số nguyên (1 ứng với chưa có gia đình, 2 - đã có gia đình, 3 - góa, ...), nó cũng sẽ không có nghĩa hoặc không thích hợp để tính giá trị trung bình thuộc tính này trên mẫu (sample). Tương tự, hồi qui tuyến tính đơn giản (dự đoán một biến định lượng như một hàm của các biến khác) thường thích hợp áp dụng cho biến định lượng, áp dụng nó cho dữ liệu có giá trị phân loại là không phù hợp; các kỹ thuật khác có mục tiêu tương tự (mục tiêu có thể giống nhau đối với các kiểu dữ liệu

khác nhau), có thể thích hợp hơn với kiểu có giá trị phân loại. Các mối quan hệ giữa các thuộc tính và các phương tiện phức tạp để diễn tả tri thức về nội dung của CSDL yêu cầu các giải thuật phải có khả năng sử dụng một cách hiệu quả thông tin này. Ban đầu, kỹ thuật Khai phá dữ liệu chỉ được ứng dụng cho các thực thể có giá trị thuộc tính đơn giản. Tuy nhiên, ngày nay người ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này.

Một phần của tài liệu nghiên cứu quy trình khám phá tri thức (Trang 25 - 26)