Định nghĩa vấn đề

Định nghĩa vấn đề

Giả sử rằng tập dữ liệu là một bảng quan hệ thông thường, bảng này bao gồm N ca, được mô tả bằng m các thuộc tính riêng biệt. N ca dữ liệu này được chia vào q lớp đã biết. Mỗi thuộc tính có thể có kiểu dữ liệu là rời rạc hay liên tục. Ở đây, chúng ta xem như tất cả những thuộc tính có kiểu giống nhau (tức là cùn rời rạc hay liên tục). Với một thuộc tính rời rạc, tất cả những giá trị của nó được ánh xạ vào một tập các số nguyên dương liên tục. Đối với những thuộc tính liên tục, miền giá trị của nó chia thành khoảng, và mỗi khoảng cũng được ánh xạ vào những tập số nguyên dương liên tục. Với những ánh xạ đó, chúng ta có thể xem một ca dữ liệu như là một cặp gồm (thuộc tính, giá trị nguyên) và một nhãn lớp.Chúng ta gọi mỗi một cặp thuộc tính và giá trị nguyên là một mục [6].

Cho D là một tập dữ liệu, cho I là tập tất cả các mục trong D và Y là tập các nhãn lớp. Chúng ta nói rằng một ca dữ liệu dD bao gồm XI là một tập con của các mục, nếu Xd. Chúng ta định nghĩa một kiểu phụ thuộc hàm mới gọi là một xấp xỉ lớp phụ thuộc hàm. Lớp phụ thuộc hàm là một phụ thuộc hàm dưới dạng xấp xỉ (XY), trong đó XI và yY. Đó là, lớp phụ thuộc hàm hạn chế bớt vế phải của phần phụ thuộc đối với thuộc tính lớp. Chúng ta có hai mục tiêu cơ bản là sinh ra một tập xấp xỉ lớp phụ thuộc hàm và xây dựng một cây quyết định phân lớp sử dụng những xấp xỉ lớp phụ thuộc hàm đó.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 61)

Phân lớp và dự báo

Quy nạp cây quyết định