1. Trang chủ
  2. » Công Nghệ Thông Tin

Cây quyết định (Decision Tree)

48 1K 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

DANH SÁCH THÀNH VIÊN TRONG NHÓM Phạm Anh Tú Nguyễn Đình Nghĩa Trần Quang Việt Decision Tree Mục lục Lời nói đầu Trong trình hoạt động, người tạo nhiều liệu nghiệp vụ Các tập liệu tích lũy có kích thước ngày lớn, chứa nhiều thông tin ẩn dạng quy luật chưa khám phá Chính vậy, nhu cầu đặt cần tìm cách trích rút từ tập liệu luật phân lớp liệu hay dự đoán xu hướng liệu tương lai Những quy tắc nghiệp vụ thông minh tạo phục vụ đắc lực cho hoạt động thực tiễn, phục vụ đắc lực cho trình nghiên cứu khoa học Công nghệ phân lớp dự đoán liệu đời để đáp ứng mong muốn Công nghệ phân lớp liệu đã, phát triển mạnh mẽ trước khao khát tri thức người Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên Decision Tree cứu thị trường, bảo hiểm, y tế, giáo dục Nhiều kỹ thuật phân lớp đề xuất như: Phân lớp định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân lớp K hàng xóm gần (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,… Trong kỹ thuật đó, định coi công cụ mạnh, phổ biến đặc biệt thích hợp cho data mining [5][7] Trong mô hình phân lớp, thuật toán phân lớp nhân tố chủ đạo Do cần xây dựng thuật toán có độ xác cao, thực thi nhanh, kèm với khả mở rộng để thao tác với tập liệu ngày lớn Chương :Giới thiệu đề tài Tiểu luận nghiên cứu tổng quan công nghệ phân lớp liệu nói chung phân lớp liệu dựa định nói riêng Từ tập trung hai thuật toán tiêu biểu cho hai phạm vi ứng dụng khác C4.5 SPRINT Việc phân tích, đánh giá thuật toán có giá trị khoa học ý nghĩa thực tiễn Tìm hiểu thuật toán giúp tiếp thu phát triển mặt tư tưởng, kỹ thuật công nghệ tiên tiến thách thức nhà khoa học lĩnh vực data mining Từ triển khai cài đặt thử nghiệm mô hình phân lớp liệu thực tế Tiến tới ứng dụng vào hoạt động thực tiễn Việt Nam, mà trước tiên hoạt động phân tích, nghiên cứu thị trường khách hàng Tiểu luận chạy thử nghiệm mô hình phân lớp C4.5 tập liệu thực tế từ Tổng công ty bưu viễn thông Qua tiếp thu kỹ thuật triển khai, áp dụng mô hình phân lớp liệu vào hoạt động thực tiễn Quá trình chạy thử nghiệm thu kết phân lớp khả quan với độ tin cậy cao nhiều Decision Tree tiềm ứng dụng Các đánh giá hiệu mô hình phân lớp tiến hành Chương : Nội dung Giới thiệu 1.1 Cây định Cây định (decision tree) hình thức mô tả liệu trực quan nhất, dễ hiểu người dùng Cấu trúc định bao gồm nút nhánh Nút gọi nút lá, mô hình phân lớp liệu giá trị nhãn lớp (gọi tắt nhãn) Các nút khác nút gọi nút con, thuộc tính tập liệu, hiển nhiên thuộc tính phải khác thuộc tính phân lớp Mỗi nhánh xuất phát từ nút p ứng với phép so sánh dựa miền giá trị nút Nút gọi nút gốc Xem xét ví dụ định sau[1]: Decision Tree Từ bảng liệu trên, ta xây dựng định sau: Cây định ví dụ giải thích sau: nút chứa giá trị thuộc tính phân lớp (thuộc tính “Play”) Các nút tương ứng với thuộc tính khác thuộc tính phân lớp; nút gốc xem nút đặc biệt, thuộc tính “Outlook” Các nhánh từ nút tương đương phép so sánh so sánh bằng, so sánh khác, lớn nhỏ hơn… kết Decision Tree phép so sánh bắt buộc phải thể giá trị logic (Đúng Sai) dựa giá trị thuộc tính nút Lưu ý định tham gia thuộc tính “thu nhập” thành phần cây, thuộc tính gọi chung thuộc tính dư thừa thuộc tính không ảnh hưởng đến trình xây dựng mô hình Các thuộc tính tham gia vào trình phân lớp thông thường có giá trị liên tục hay gọi kiểu số (ordered or numeric values) kiểu rời rạc hay gọi kiểu liệu phân loại (unordered or category values) Ví dụ kiểu liệu lương biểu diễn số thực kiểu liệu liên tục, kiểu liệu giới tính kiểu liệu rời rạc (có thể rời rạc hóa thuộc tính giới tính cách dễ dàng) 1.2 Chiến lược để xây dựng định • Bắt đầu từ nút đơn biểu diễn tất mẫu • Nếu mẫu thuộc lớp, nút trở thành nút gán nhãn lớp • Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính phân tách tốt mẫu vào lớp • Một nhánh đƣợc tạo cho giá trị thuộc tính chọn mẫu đƣợc phân hoạch theo • Dùng đệ quy trình để tạo định • Tiến trình kết thúc điều kiện sau - Tất mẫu cho nút cho trƣớc thuộc lớp - Không thuộc tính mà mẫu dựa vào để phân hoạch xa - Không mẫu cho nhánh test_attribute = Tuy nhiên, không chọn thuộc tính phân lớp hợp lý nút, ta tạo ca phức tạp, ví dụ đây: Decision Tree Như vậy, vấn đề đặt phải chọn thuộc tính phân lớp tốt Phần giới thiệu tiêu chuẩn, dựa vào tiêu chuẩn này, ta chọn thuộc tính phân lớp tốt nút 1.3 Thuận lợi hạn chế mô hình định  Một số thuận lợi sau định xem công cụ phân loại mà tài liệu này: Cây định tự giải thích gắn kết lại, chúng dễ dàng tự sinh Nói cách khác, định mà có số lượng nút vừa phải người không chuyên dễ dàng hiểu Hơn nữa, định chuyển sang tập luật Vì vậy, định xem dễ hiểu Cây định xử lý thuộc tính tên số đầu vào Thể định đủ đa dạng để biểu diễn cho giá trị rời rạc Cây định có khả xử lý liệu mà gây lỗi Cây định có khả xử lý liệu mà có giá trị rỗng Cây định xem phương pháp phi tham số Điều có nghĩa định giả định phân chia nhớ cấu trúc phân lớp  Bên cạnh đó, định có bất lợi sau đây: Hầu hết thuật toán (như ID3 C4.5) bắt buộc thuộc tính mục tiêu phải giá trị rời rạc Decision Tree Khi định sử dụng phương pháp “chia để trị”, chúng thực tốt tồn số thuộc tính liên quan chặt chẽ với nhau, khó khăn số tương tác phức tạp xuất Một nguyên nhân gây điều phân lớp mà có mô tả mạch lạc việc phân lớp gặp khó khăn việc biểu diễn định Một minh họa đơn giản tượng vấn đề tái tạo định (Pagallo Huassler, 1990) Khi mà hầu hết định phân chia không gian thể thành khu vực loại trừ lẫn để biểu diễn khái niệm, số trường hợp, nên chứa vài giống thứ tự thể việc phân lớp Ví dụ, khái niệm sau mà thể theo hàm nhị phân: y = (A A2) (A3 A4) định đơn biến tối tiểu mà biểu diễn hàm biểu diễn phần 9.3 Lưu ý có chứa Các đặc tính liên quan định dẫn đến khó khăn khác độ nhạy với tập huấn luyện, thuộc tính không phù hợp, nhiễu (Quinlan, 1993) Decision Tree Các tiêu chuẩn tạo định Việc tìm tiêu chí để đánh giá tìm điểm chia quan trọng, chúng xem tiêu chuẩn “heuristic” để phân chia liệu Ý tưởng việc đưa tiêu chí cho tập phân chia trở nên “trong suốt” (tất thuộc nhãn) tốt Cho tập liệu D, tập nhãn Ci (i>=1 i[...]... Wehenkel (2003) đã hiện thực một cây quyết định mờ mới được gọi là cây quyết định mềm Cách tiếp cận này vừa kết hợp việc phát triển cây và tỉa cây, để xác định cấu trúc của cây quyết định mềm, với việc trang bị lại và thích hợp hơn, để cải thiện khả năng khái quát của nó Họ chỉ ra trong thực nghiệm rằng cây quyết định mềm chính xác hơn một cách đáng kể so với cây quyết định tiêu chuẩn Hơn nữa, một mô... Tại sao phải chuyển cây quyết định sang luật? • Phân biệt giữa những ngữ cảnh khác nhau ở những node của cây quyết định được dùng • Loại bỏ đi điểm khác biệt giữa những thuộc tính kiểm tra xảy ra gần node gốc của cây và xảy ra gần node lá của cây • Cải thiện tính dễ đọc Decision Tree 34 5 Cây quyết định mở rộng 5.1 Oblivious Decision Trees Cây quyết định oblivious là cây quyết định mà tất cả các nút... chế, song cây quyết định oblivious rất hiệu quả trong việc lựa chọn tính năng [Almuallim và Deitterich (1994)] cũng như [Schlimmer (1993)] đã đề xuất một thủ tục lựa chọn tính năng trước đây bằng cách xây dựng cây quyết định oblivious, trong khi đó [Langley và Sage (1994)] đã đề nghị lựa chọn ngược cũng sử dụng cây quyết định oblivious [Kohavi và Sommerfield (1998)] đã chỉ ra rằng cây quyết định oblivious... tổng quát Decision Tree 24 H1 Thống kê độ chính xác của cây quyết định Đây là một mô hình diễn tả quá trình quá khớp dữ liệu trong một ứng dụng điển hình của cây quyết định Trong trường hợp này, cây quyết định này được xây dựng trên thuật toán ID3 về việc học chữa bệnh tiểu đường Với đường chân trời thể hiện tổng số node ứng viên trên cây quyết định và đường thẳng đứng thể hiện độ chính xác của trên... bảng quyết định Gần đây [Maimon và Last (2000)] đã đề nghị thuật toán mới IFN (Information Fuzzy Network) để xây dựng cây quyết định oblivious 5.2 Fuzzy decision trees Hầu hết các phương pháp cây quyết định trước đây sử dụng để trích lọc tri thức trong các vấn đề phân loại sự không chắc chắn, nhận thức mơ hồ và không rõ ràng liên quan đến tư duy và nhận thức của con người Một phương pháp cây quyết định. .. tiếp tục triển khai cây tại mỗi bước ID3 xây dựng cây quyết định từ trên- xuống (top -down) ID3 sử dụng độ đo Information Gain (trình bày ở 2.1.1.1)để đo tính hiệu quả của các thuộc tính phân lớp Trong quá trình xây dựng cây quyết định theo thuật toán ID3 tại mỗi bước phát triển cây, thuộc tính được chọn để triển khai là thuộc tính có giá trị Gain lớn nhất Hàm xây dựng cây quyết định trong thuật toán... việc giảm phân loại mơ hồ với dấu hiệu mờ được phát triển Cây quyết định mờ thể hiện việc phân loại kiến thức tự nhiên hơn là cách thức tư duy của con người và mạnh mẽ hơn trong việc tiếp cận thông tin không chính xác, xung đột và thiếu thông tin Trong cây quyết định cổ điển, một trường hợp có thể được kết hợp với chỉ một nhánh của cây Cây quyết định mờ (FDT) có thể kết hợp đồng thời nhiều nhánh đến cùng... vào cây quyết định: Decision Tree 30 H6 Đánh giá độ lỗi tại một node[4] Kết quả cây được cắt tỉa như sau: Decision Tree 31 H7 Cây được cắt tỉa[4] Node cha bị cắt tỉa sẽ thay thế node con như sau: • Nâng cây: H8 Nâng cây[ 4] • Thay bằng node lá có tầng số xuất hiện nhiều nhất so với các node còn lại Decision Tree 32 4.2.2 Luật hậu cắt tỉa (Rule Post-Pruning) 2 Phương pháp: • Phát triển cây quyết định. .. phân loại của cây quyết định kết hợp là không tốt như trên cây quyết định đơn được xây dựng trên toàn tập dữ liệu Thuật toán SLIQ (Mehta, 1996) không bắt buộc phải tải toàn bộ tập dữ liệu vào bộ nhớ chính, thay vào đó nó sử dụng bộ nhớ thứ cấp (bộ nhớ đĩa) Nói cách khác, một trường hợp nào đó không nhất thiết phải cư trú trong bộ nhớ chính tại mọi thời điểm SLIQ tạo ra một cây quyết định duy nhất từ... sử dụng cách tiếp cận tương tự (Shafer, 1996) Thuật toán này xây dựng các cây quyết định tương đối nhanh và khắc phục các hạn chế về bộ nhớ của cây quyết định quy nạp SPRINT đánh dấu bất kỳ nhiễu nào được chia nhỏ dựa trên các bộ dữ liệu lớn (Gehrke, 2000) đã giới thiệu RainForest; một khung đồng nhất cho các phân lớp cây quyết định mà có khả năng nhân rộng bất kỳ thuật toán cụ thể nào từ tài liệu này

Ngày đăng: 01/12/2015, 21:44

Xem thêm: Cây quyết định (Decision Tree)

TỪ KHÓA LIÊN QUAN

Mục lục

    Chương 1 :Giới thiệu đề tài

    1.2 Chiến lược cơ bản để xây dựng cây quyết định

    1.3 Thuận lợi và hạn chế của mô hình cây quyết định

    2. Các tiêu chuẩn tạo cây quyết định

    2.1 Tiêu chuẩn tách 1 chiều (Univariate Splitting Criteria):

    2.1.2 Normalized impurity based criteria:

    2.2 Tiêu chuẩn tách đa chiều:

    2.3 Tiêu chuẩn dừng (Stopping Criteria):

    3. Một số thuật toán

    3.4.1 SPRINT sử dụng độ đo Gini-index

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w