Tổng quan về cây quyết định

Một phần của tài liệu Khóa luận nghiên cứu những thuộc tính của ngân hàng quyết định đến chất lượng sản phẩm tín dụng hỗ trợ SXKD cho khách hàng cá nhân tại ngân hàng TMCP công thương việt nam (Trang 37 - 38)

CHƯƠNG 1 : TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

1.4. PHƯƠNG PHÁP NGHIÊN CỨU

1.4.2. Tổng quan về cây quyết định

1.4.2.1. Khái niệm

Cây quyết định (Decision Tree) là một trong những kĩ thuật thường dùng trong khai phá dữ liệu. Cây quyết định là cấu trúc biểu diễn dưới dạng cây với hình thức trực quan và dễ hiểu. Cấu trúc của cây quyết định bao gồm các nút và các nhánh. Trong đó, mỗi nút trong (internal node) biểu diễn một thuộc tính, nhánh (branch) biểu diễn giá trị có thể có của thuộc tính, mỗi nút lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root). Cây quyết định được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp được nút lá. Trên cơ sở phân lớp này ta có thể chuyển đổi về các luật quyết định, thường là các luật If – Then.

Một cây quyết định có thể được tạo thành bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Q trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất. Q trình đệ quy hồn thành khi khơng thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.

Dữ liệu tạo thành cây quyết định được cho dưới dạng các bản ghi có dạng:

Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng qt hóa. x1, x2, x3... là các biến sẽ giúp ta thực hiện cơng việc đó.

Cây quyết định trong khai phá dữ liệu được ứng dụng chủ yếu để phân lớp dữ liệu và từ đó tìm ra các luật. Từ các luật này, người nghiên cứu có thể sử dụng để hỗ trợ cho việc ra quyết định, phân bổ tài nguyên, dự đoán…

1.4.2.2. Ưu điểm của phương pháp cây quyết định

So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm như sau:

- Cây quyết định là một mơ hình trực quan và dễ hiểu. Việc biểu đạt tri thức dưới dạng cây có thể được diễn đạt dễ dàng. Người ta có thể hiểu cây quyết định sau khi được giải thích ngắn.

- Cây quyết định có thể xử lí các dữ liệu có giá trị bằng số và cả những giá trị bằng tên thể loại, trong khi các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến.

- Việc xây dựng cây quyết định khơng địi hỏi bất cứ kiến thức chuyên ngành hay tham số ban đầu nào cả.

- Cây quyết định có thể quản lí dữ liệu có số chiều lớn. Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.

Một phần của tài liệu Khóa luận nghiên cứu những thuộc tính của ngân hàng quyết định đến chất lượng sản phẩm tín dụng hỗ trợ SXKD cho khách hàng cá nhân tại ngân hàng TMCP công thương việt nam (Trang 37 - 38)

Tải bản đầy đủ (PDF)

(89 trang)