Thuật toán xây dựng cây quyết định dựa trên phụ thuộc hàm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 55 - 59)

CHƢƠNG 3 MỘT SỐ PHƢƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH

3.1. THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH

3.1.4. Thuật toán xây dựng cây quyết định dựa trên phụ thuộc hàm

3.1.4.1. Tổng quan

Phụ thuộc hàm (FDs) đã được nghiên cứu rất nhiều trong khi phân tích, thiết kế cơ sở dữ liệu[17]. Phụ thuộc hàm giữa các thuộc tính quả quan hệ cho phép xác định chính xác các mối quan hệ trong cơ sở dữ liệu. Các ràng buộc do phụ thuộc hàm quy định trong sơ đồ quan hệ tương đối độc lập với dữ liệu. Khái niệm về phụ thuộc hàm đã được xem xét ở phần: 2.2.4.1. Định nghĩa phụ thuộc hàm. Một trong các vấn đề được quan tâm nghiên cứu là cho trước một sơ đồ quan hệ s=<R,F> trong đó R là tập thuộc tính và F là tập phụ thuộc hàm, làm thế nào xác định được tất cả các phụ thuộc hàm trong sơ đồ quan hệ s (tức là tập F+).

Phụ thuộc hàm được tìm hiểu trong rất nhiều lĩnh vực như quản trị và thiết kế cơ sở dữ liệu, khai phá kho dữ liệu và khai phá dữ liệu,… Một số thuật toán hiệu quả nhằm phát hiện các phụ thuộc hàm trong cơ sở dữ liệu như TANE[18], FDEP[19], DEP-MINER[20] và FUN[21] đã được nghiên cứu rộng rãi và mang lại hiệu quả. Một phụ thuộc hàm xấp xỉ là một phụ thuộc hàm mà nó đúng trên hầu hết trường hợp, tính toán của các trường hợp này được xem xét ở định nghĩa của phụ thuộc hàm xấp xỉ[22].

3.1.4.2. Thuật toán TANE

Là thuật toán cho phép xác định phụ thuộc hàm xấp xỉ trên tập cơ sở dữ liệu lớn, thuật toán này được phát biểu như sau:

1 L0   2 C  R 3 L1AAR 4 1 5 While L   6 COMPUTE_DEPENDENCIES(L) 7 PRUNE(L) 8 L1=GENERATE_NEXT_LEVEL(L) 9 1

Ở đây, việc tính GENERATE-NEXT-LEVEL(L) là

 1

1  

 

X X

3.1.4.3. Xây dựng cây quyết định

Đầu vào của thuật toán được xác định khi các phụ thuộc hàm xấp xỉ được tính trên tập dữ liệu mẫu. Sau đây là hàm cho phép xây dựng cây quyết định dựa trên phụ thuộc hàm đã tìm được[22].

Function BuilDecisionTree(examples, attributes, default)

return a decision tree

if examples is empty then return default

else if all examples have the save classification then

return the classification

else if attributes is empty then

return MajorityClass(examples)

else

minCFD ← ChoseMinApproxCFD(atrributes, examples) tree ← a new decision tree with root test minCFD

for each value vi of minCFD do

Examplei ← {elements of examples with minCFD = vi} Subtree←BuildDecisionTree(Examplei,atrributes-

minCFD,MajorityClass(examples))

Add a branch to tree with label vi and subtree

end do end

return tree.

Trong thuật toán trên, hàm MajorityClass là tìm nhiễu của các dữ liệu mẫu có cùng đặc tính nhưng khác phân lớp và hàm ChooseMinApproxCFD là chọn một phụ thuộc hàm xấp xỉ với số lỗi nhỏ nhất.

3.1.4.4. Ví dụ minh họa

Với bài toán xây dựng một cây quyết định với tập dữ liệu huấn luyện như Bảng 2.1.1.1. Tập mẫu dữ liệu huấn luyện về cán bộ, công chức với STT dùng để định danh, các thuộc tính Tuổi, Hệ số lương, Ngạch công chức, Học vị là các thuộc tính ứng viên dùng để xét còn thuộc tính Chức danh dùng làm thuộc tính khẳng định, dùng để phân lớp. Chúng ta có thể xây dựng các phụ thuộc hàm xỉ như sau:

Ta thấy giữa thuộc tính Tuổi, Hệ số lương có mối tương quan với chức danh. Với  = 0.05 ta kiểm tra điều kiện đối với phụ thuộc hàm xấp xỉ:

Với cặp hàng 1,2 ta có

(t1(Tuổi, Hệ số lương),t2(Tuổi, Hệ số lương)) = 0<0.05

Ta cũng tính được (t1(Có chức danh), t2(Có chức danh)) = 0<0.05

Tương tự ta cũng kiểm tra dễ dàng với các cột còn lại, vậy ta có phụ thuộc hàm Tuổi, hệ số lương >0.05 Có chức danh

Sau khi tìm tất cả các phụ thuộc hàm xấp xỉ phù hợp với quá trình xây dựng cây quyết định, ta có thể xây dựng được cây quyết định như sau

Học vị Tuổi Hệ số lương Có Không Không Có Có Có Thấp Cao Tiến sĩ khoa học Tiến sĩ Không Thạc sĩ Trung bình <30 30 - 40 >40

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp xây dựng cây quyết định trong khai phá dữ liệu Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 55 - 59)

Tải bản đầy đủ (PDF)

(72 trang)