Cấu trúc của một câyquyết định:

1 .Sơ lược về khai phá dữ liệu

2.2 Cấu trúc của một câyquyết định:

Cây quyết định là cấu trúc phân cấp của các nút và các nhánh. Mỗi đỉnh của một cây là nút gốc của cây con của đỉnh đó, số các cây con của một đỉnh chính là bậc của đỉnh đó.

Có 3 loại nút trên cây:

- Nút gốc: là nút có bậc cao nhất trong cây.

- Nút nội bộ: mỗi nút mang một thuộc tính của CSDL. - Nút lá (lớp): nút có bậc = 0.

Ở mỗi nút, 1 thuộc tính được lựa chọn để phân hoạch dữ liệu sao cho tách rời các lớp tốt nhất có thể.

Mỗi nhánh tương ứng với một giá trị của thuộc tính. Dữ liệu mới đến được phân loại theo đường dẫn từ nút gốc đến nút lá.

Khóa luận tốt nghiệp Ứng dụng cây quyết định trong xếp hạng tín dụng khách hàng cá nhân vay tín chấp tiêu dùng tại ngân hàng kỹ thương việt nam( techcombank)

2.3. Kỹ thuật khai phá dữ liệu sử dụng cây quyết định.

Cây quyết định là một phương pháp mạnh và phổ biến cho cả hai nhiệm vụ của khai phá dữ liệu là mô tả và dự báo.

Cây quyết định dùng để xây dựng kế hoạch nhằm thực hiện mục tiêu nhất định. Các cây quyết định dùng để hỗ trợ cho việc ra quyết định.

Có nhiều thuật tốn để xây dựng cây quyết định nhưng chúng đều dựa trên ý tưởng sau:

- Lựa chọn thuộc tính tốt nhất nhờ vào độ đo thích hợp.

- Mở rộng cây bằng cách thêm vào nhánh mới với giá trị của từng thuộc tính. - Sắp xếp các mẫu huấn luyện cho các nút lá.

- Kiểm tra: nếu mẫu huấn luyện đã được phân loại thì dừng, ngược lại thì lặp lại quy trình trên cho mỗi nút lá.

- Tỉa bớt những nút lá không ổn định.

2.4. Xây dựng cây quyết định

Phương pháp xây dựng cây quyết định

Với mục đích khai phá dữ liệu, để thấy được các quy luật, các mối quan hệ giữa các thuộc tính dưới dạng cây quyết định. Cho nên, để có được kết quả tốt, cây quyết định phải được xây dựng khoa học, chính xác.

a) Xử lý dữ liệu

Trong thế giới thực, nói chung dữ liệu thơ chắc chắn có mức độ nhiễu. Điều này có các nguyên nhân khác nhau như là dữ liệu lỗi, dữ liệu có đại lượng khơng chính xác, .... Do đó, chúng ta thường tiền xử lý (nghĩa là, “làm sạch”) để cực tiểu hoá hay huỷ bỏ tất cả dữ liệu thô bị nhiễu. Các giai đoạn tiền xử lý này cũng có thể biến đổi dữ liệu thơ hiển thị hữu ích hơn, như hệ thống thông tin. Khi nhiều bước tiền xử lý ứng dụng hiệu quả, nó sẽ giúp cải tiến hiệu quả phân lớp.

Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: - Filtering Attributes: Chọn các thuộc tính phù hợp với mơ hình.

- Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mơ hình.

- Transformation: Chuyển đổi dữ liệu cho phù hợp với các mơ hình như chuyển

đổi dữ liệu từ numeric sang nomial

- Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng có một số

thuật toán chỉ áp dụng cho các dữ liệu rời rạc (như ID3, ADTDA,...) thì bạn phải thực hiện việc rời rạc hóa dữ liệu.

Cây quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp.

Các nút (không phải là nút lá) là các điểm phân nhánh của cây. Việc phân nhánh tại các nút có thể dựa trên việc kiểm tra một hay nhiều thuộc tính để xác định việc phân chia dữ liệu.

c) Tiêu chuẩn tách

Việc lựa chọn chủ yếu trong các thuật toán phân lớp dựa vào cây quyết định là chọn thuộc tính nào để kiểm tra tại mỗi nút của cây. Chúng ta mong muốn chọn thuộc tính sao cho việc phân lớp tập mẫu là tốt nhất. Như vậy chúng ta cần phải có một tiêu chuẩn để đánh giá vấn đề này. Có rất nhiều tiêu chuẩn được đánh giá được sử dụng đó là:

- Lượng thông tin thu thêm IG (Information Gain, thuật toán ID3 của John Ross Quilan.

- Độ phụ thuộc của thuộc tính quyết định vào thuộc tính điều kiện theo nghĩa lí thuyết tập thơ của Zdzislaw Pawlak

Các tiêu chuẩn trên sẽ được trình bày trong các thuật tốn xây dựng cây quyết định ở các phần dưới đây.

d) Tiêu chuẩn dừng

Đây là phần quan trọng trong cấu trúc phân lớp của cây quyết định nhằm chia một nút thành các nút con.

Chúng ta tập trung một số tiêu chuẩn dừng chung nhất được sử dụng trong cây quyết định. Tiêu chuẩn dừng truyền thống sử dụng các tập kiểm tra. Chúng ta kiểm tra cây quyết định trong suốt qúa trình xây dựng cây với tập kiểm tra và dừng thuật toán khi xảy ra lỗi. Một phương pháp khác sử dụng giá trị ngưỡng cho trước để dừng chia nút. Chúng ta có thể thay ngưỡng như là giảm nhiễu, số các mẫu trong một nút, tỉ lệ các mẫu trong nút, hay chiều sâu của cây, ...

e) Tỉa cây

Trong giai đoạn tạo cây chúng ta có thể giới hạn việc phát triển của cây bằng số bản tin tối thiểu tại mỗi nút, độ sâu tối đa của cây hay giá trị tối thiểu của lượng thông tin thu thêm.

Sau giai đoạn tạo cây chúng ta có thể dùng phương pháp “Độ dài mơ tả ngắn nhất” (Minimum Description Length) hay giá trị tối thiểu của IG để tỉa cây (chúng ta có thể chọn giá trị tối thiểu của IG trong giai đoạn tạo cây đủ nhỏ để cho cây phát triển tương đối sâu, sau đó lại nâng giá trị này lên để tỉa cây).

Phương pháp tổng quát xây dựng cây quyết định

Quá trình xây dựng một cây quyết định cụ thể bắt đầu bằng một nút rỗng bao gồm toàn bộ các đối tượng huấn luyện và làm như sau:

- Bước 1: nếu tại nút hiện thời, tất cả các đối tượng huấn luyện đều thuộc vào một lớp nào đó thì cho nút này thành nút lá có tên là nhãn lớp chung của các đối tượng.

- Bước 2: trường hợp ngược lại, sử dụng một độ đo, chọn thuộc tính điều kiện phân chia tốt nhất tập mẫu huấn luyện có tại nút.

- Bước 3: tạo một lượng nút con của nút hiện thời bằng số các giá trị khác nhau của thuộc tính được chọn. Gán cho mỗi nhánh từ nút cha đến nút con một giá trị của thuộc tính rồi phân chia các các đối tượng huấn luyện vào các nút con tương ứng.

- Bước 4: nút con t được gọi là thuần nhất, trở thành lá, nếu tất cả các đối tượng mẫu tại đó đều thuộc vào cùng một lớp. Lặp lại các bước 1-3 đối với mỗi nút chưa thuần nhất.

Trong các thuật toán cơ sở xây dựng cây quyết định chỉ chấp nhận các thuộc tính tham gia vào q trình phân lớp có giá trị rời rạc, bao gồm cả thuộc tính được dùng để dự đốn trong q trình học cũng như các thuộc tính được sử dụng để kiểm tra tại mỗi nút của cây. Do đó trong trường hợp các thuộc tính có giá trị liên tục có thể dễ dàng loại bỏ bằng cách phân mảnh tập giá trị liên tục của thuộc tính thành một tập rời các khoảng.

Việc xây dựng cây quyết định được tiến hành một cách đệ qui, lần lượt từ nút gốc xuống tới tận các nút lá. Tại mỗi nút hiện hành đang xét, nếu kiểm tra thấy thoả điều kiện dừng: thuật toán sẽ tạo nút lá. Nút này được gán một giá trị của nhãn lớp tùy điều kiện dừng được thoả mãn. Ngược lại, thuật toán tiến hành chọn điểm chia tốt nhất theo một tiêu chí cho trước, phân chia dữ liệu hiện hành theo điều kiện chia này.

Sau bước phân chia trên, thuật toán sẽ lặp qua tất cả các tập con (đã được chia) và tiến hành gọi đệ qui như bước đầu tiên với dữ liệu chính là các tập con này.

Trong bước 3, tiêu chuẩn sử dụng lựa chọn thuộc tính được hiểu là một số đo độ phù hợp, một số đo đánh giá độ thuần nhất, hay một quy tắc phân chia tập mẫu huấn luyện.

2.5. Ứng dụng cây quyết định trong khai phá dữ liệu

Sau khi đã xây dựng thành công cây quyết định ta sử dụng kết quả từ mơ hình cây quyết định đó. Đây là bước sử dụng mơ hình để phân lớp dữ liệu hoặc rút ra các tri thức trong phương pháp khai phá dữ liệu bằng phương pháp phân lớp.

Trên cơ sở đã biết giá trị của các thuộc tính của các mẫu X1, X2, .., Xn ta xác định thuộc tính quyết định (hay phân lớp) Y của đối tượng đó (có thể dùng kỹ thuật này để nhận dạng mẫu, dự báo, ...)

Hình 5. Mơ hình phân lớp các mâu mới

b) Rút ra các tri thức hay luật từ cây

Với mục đích và nhiệm vụ chính của việc khai phá dữ liệu là phát hiện ra các quy luật, các mơ hình từ trong cơ sở dữ liệu. Từ mơ hình cây thu được ta rút ra các tri thức hay các quy luật dưới dạng cây hoặc các luật dưới dạng “If ... Then.”. Hai mơ hình trên là tương đương, chúng có thể được chuyển đổi qua lại giữa các mơ hình đó với nhau.

2.6. Thuật toán xây dựng quyết định

2.6.1 Thuật toán ID3

ID3 (Quinlan, 1979)-1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal.

ID3 với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước. ID3 xây dựng cây quyết định từ trên- xuống (top -down).

Đây là thuật toán xây dựng cây quyết định dựa vào Entropy.

Entropy được sử dụng để xác định thơng tin đầu vào một thuộc tính, đặc biệt là về các thuộc tính đầu ra cho một tập hợp các dữ liệu huấn luyện, định mức giá trị cho những nguồn thông tin không chắc chắn, nguồn thông tin đưa vào càng khơng chắc chắn thì càng cần có thêm thơng tin mơ tả về nó.

Entropy của nguồn là một thước đo sự không chắc chắn của đối tượng tiếp nhận về nguồn tin đó.

Chính vì thế, ý tưởng chính trong việc đưa ra các tiêu chí là làm sao cho các tập con được phân chia sao cho việc hiểu được các thông tin càng trở nên rõ ràng. Và, tiêu chí để đánh giá điểm chia là rất quan trọng, ở đây, chúng ta sử dụng tiêu chuẩn “heuristic” để phân chia dữ liệu. Thuật tốn dùng độ đo lượng thơng tin thu thêm để xác định điểm chia [2]. Độ đo này dựa trên cơ sở lý thuyết thơng tin của nhà tốn học Claude Shannon, độ đo này được xác định như sau:

Xét bảng quyết định:

DT = (U, CU {d})

Trong đó: U là tập hữu hạn khác rỗng các đối tượng. C là tập thuộc tính điều kiện

{d} khơng thuộc C, là thuộc tính phân biệt được gọi là là thuộc tính quyết định

Số giá trị (nhãn lớp) có thể của d là k. Khi đó Entropy của tập các đối tượng trong DT được định nghĩa bởi:

Entropy(U) = -∑∙=1 Pi log2 Pi

Trong đó, Pi là tỉ lệ các đối tượng trong DT mang nhãn lớp i.

Ý nghĩa của đại lượng Entropy trong lĩnh vực lý thuyết công nghệ thông tin: Entropy của tập U chỉ ra số lượng bit cần thiết để mã hóa lớp của một phần tử được lấy ra ngẫu nhiên từ tập U. Lượng thông tin thu thêm (Information gain - IG) là lượng Entropy còn lại khi tập các đối tượng trong DT được phân hoạch theo một thuộc tính điều kiện c nào đó.

Ý nghĩa của đại lượng IG trong lĩnh vực lý thuyết công nghệ thông tin: IG của tập S chỉ ra số lượng bit giảm đối với việc mã hóa lớp của một phần tử c được lấy ra ngẫu nhiên từ tập U. IG xác định theo công thức sau:

IG (U, c) = Entropy(U) - ∑v 7∈ c⅛7 Entropy(Uv)c |U| Trong đó Vc là tập các giá trị của thuộc tính c,

Uv là tập các đối tượng trong DT có giá trị thuộc tính c bằng v.

Giá trị IG(U, c) được sử dụng làm độ đo lựa chọn thuộc tính phân chia dữ liệu tại mỗi nút trong thuật toán xây dựng cây quyết định ID3. Thuộc tính được chọn là thuộc tính cho lượng thơng tin thu thêm lớn nhất.

Ý tưởng của thuật tốn ID3:

- Thực hiện giải thuật tìm kiếm tham lam (greedy search) đối với khơng gian các cây quyết định có thể.

- Cây được thiết lập từ trên xuống dưới (phương pháp top-down)

- Ở mỗi nút, thuộc tính kiểm tra (test attribute) là thuộc tính có khả năng phân loại tốt nhất. Thuộc tính được chọn dựa trên độ đo thống kê hoặc độ đo heuristic (chính là các giá trị Entropy, Info-Gain đã tính tốn ở trên). Với từng thuộc tính, giá trị Gain nào thấp nhất trong tập các thuộc tính chưa được xét thì sẽ được chọn đưa vào cây ở bước đó. Ta có thể hiểu cách lựa chọn đó chính là nhằm mục đích tạo ra một cây nhỏ nhất có thể, giá trị Gain càng nhỏ có nghĩa là thuộc tính đó có lợi nhất cho q trình phân lớp.

- Tạo mới một cây con (sub-tree) của nút hiện tại cho mỗi giá trị có thể của thuộc tính kiểm tra, và tập dữ liệu đầu vào sẽ được tách ra thành các tập con tương ứng với các cay con vừa tạo.

- Mỗi thuộc tính chỉ được phép xuất hiện tối đa 1 lần đối với bất kì đường đi nào trong cây.

- Quá trình phát triển cây sẽ tiếp tục cho tới khi:

• Cây quyết định phân loại hoàn toàn (perfectly classifies) các dữ liệu đầu vào.

• Tất cả các thuộc tính được sử dụng.

Giải mã của thuật tốn ID3 như sau:

Dữ liệu vào: bảng quyết định

DT = (U, CU {d])

Trong đó: U là tập hữu hạn khác rỗng các đối tượng. C là tập thuộc tính điều kiện

STT Tuổi Học vấn Tình trạng cư Cơ cấu gia Quyết định

{d} không thuộc C, là thuộc tính phân biệt được gọi là là thuộc tính quyết định

Function Create tree (U, C, {d})

Begin

If tất cả các mẫu thuộc cùng nhãn lớp di Return một nút lá được dán nhãn di Else if C = null then

Return nút lá có nhãn di là lớp phổ biến nhất trong DT Else

Begin

bestAttribute : = getBestAttribute (U, C); // chọn thuộc tính tốt nhất để chia

C := C- {bestAttribute}; //xóa bestAttribute khỏi tập thuộc tính

Với mỗi v in bestAttribute Begin

Uv := [U]v;

// Uv là phân hoạch của U

ChildNode := Create tre (Uv, C, {d}); // tạo 1 nút con

End

End End

Giải mã của hàm getBestAttribute như sau:

Dữ liệu vào: bảng quyết định DT = (U, C U {d}) Dữ liệu ra: thuộc tính đều khiển tốt nhất

Function getBestAttribute (U, C); Begin

maxIG := IG(U, C); với mỗi c in C

begin

tg:=IG (U,c);

// tính lượng thơng tin thu thêm IG(U, c) If (tg > max IG) then

Begin maxIG := tg; kq := c; end end return kq;

//hàm trả về thuộc tính có lượng thơng tin thu thêm IG là lớn nhất.

End

Ví dụ về thuật tốn ID3

Xét bảng quyết định sau đây:

2 36-55 Trên ĐH CSH Hạt nhân Có

3 36-55 ĐH Với gia đình Sống với giađình Khơng

4 36-55 ĐH Với gia đình Hạt nhân Khơng

5 26-35 CĐ CSH Sống với giađình Có

6 26-35 CĐ Với gia đình Hạt nhân Khơng

7 26-35 CĐ Th Sống với giađình Có

8 26-35 Trung học CSH Hạt nhân Có

9 26-35 Trung học Th Sống với giađình Có

10 56-60 Trung học Th Sống với gia

đình Khơng

11 56-60 CĐ CSH Hạt nhân Có

Thuật tốn xây dựng cây quyết định với dữ liệu bảng trên như sau:

- Trước tiên các nút lá được khởi tạo gồm các mẫu từ 1 đến 12

Tính Entropy cho tồn bộ tập huấn luyện U gồm 7 bộ {1,2,5,7,8,9,11} có giá trị thuộc tính nhãn là “CĨ” và 5 bộ {3,4,6,10,12} có giá trị thuộc tính nhãn là “KHƠNG” do đó:

Entropy (H) = -⅛log2⅛- ⅛log2⅛ = 0.9799

12 to2 12 12 to2 12

Tính IG cho từng thuộc tính:

Thuộc tính “Tuổi”. Thuộc tính này có 3 giá trị “36-55”, “26-55”, “56-60” Căn cứ vào bảng dữ liệu ta thấy:

Ứngdụng câyquyết địnhtrong khai phá dữ liệu

Đánh giá và kiến nghị