Nghiên cứu cây quyết định và ứng dụng vào bài toán cụ thể (bài toán đầu tư)

24 1.8K 14
Nghiên cứu cây quyết định và ứng dụng vào bài toán cụ thể (bài toán đầu tư)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 LỜI NĨI ĐẦU Ra định? Đó khơng công việc nhà quản trị Thực ra, nhà quản trị nói chung khơng dành nhiều thời gian để định Tuy nhiên, định nhiệm vụ quản trị cụ thể điều mang lại kết quả/hệ sâu rộng Khi nhà quản trị định “tốt”, thường dường có người ý đến, mặt khác, nhà quản lý định “tồi”, định nhớ hàng nhiều năm chưa ngi ngoai Vậy, để giúp người quản trị định đắn? Khi định với độ không chắn trường hợp có phương án để chọn lựa việc xây dựng Cây định để phân lớp tập liệu từ giúp nhà quản trị có đủ sở tùy vào mục đích để định hiệu Cụ thể nội dung tiểu luận chúng em trình bày lý thuyết định việc hỗ trợ định toán cụ thể: “Bài tốn đầu tư” Từ giúp có nhìn cụ thể, rõ ràng tồn diện ứng dụng định Trong trình thực hiện, có sai sót khơng thể tránh khỏi Kính mong thầy bạn vui lòng góp ý cho nhóm chúng em hồn thiện Mọi góp ý xin gửi hòm thư điện tử: Cám ơn đón đọc góp ý người Nhóm thực CHƯƠNG I SƠ BỘ VỀ ĐỀ TÀI Phát biểu đề tài Để giúp người quản trị dẽ dàng việc định việc phân lớp liệu vơ quan trọng Có nhiều phương pháp phân lớp đề xuất, nhiên phương pháp tiếp cận phân loại tối ưu xác hẳn phương pháp khác Dù với phương pháp có lợi bất lợi riêng sử dụng Đối với tốn có phương án lựa chọn dường việc phân tích Cây định để tìm quy luật phân lớp phương án hợp lí hiệu Với mong muốn nghiên cứu việc ứng dụng định để giải hiệu tốn đầu tư, tơi chọn đề tài “Nghiên cứu định ứng dụng vào toán cụ thể (bài toán đầu tư)” Mục tiêu nghiên cứu Nghiên cứu vấn đề thuật toán xây dựng định ID3, cài đặt đánh giá thuật tốn đó; bước đầu áp dụng mơ hình định (ID3: Decision Tree) xây dựng vào việc phân tích liệu giải toán đầu tư Đối tượng, phạm vi nghiên cứu Tìm hiểu thuật tốn khai phá liệu ID3 để phân loại đối tượng đầu tư dựa liệu có Cài đặt thử nghiệm với liệu cho trước Phương pháp nghiên cứu  Phương pháp nghiên cứu tài liệu: Phân tích tổng hợp tài liệu khai phá liệu sử dụng thuật tốn Decision Tree có thuật tốn ID3, phân loại liệu, mơ hình dự báo  Phương pháp thực nghiệm: Ứng dụng kết hợp kỹ thuật phân loại mơ hình định để chọn phương án tối ưu dựa theo mục đích nhà quản trị  CHƯƠNG II CƠ SỞ LÝ THUYẾT CÂY QUYẾT ĐỊNH I.Tổng quan Cây định (decision tree) phương pháp mạnh phổ biến cho hai nhiệm vụ khai phá liệu phân loại dự báo Mặt khác, định chuyển sang dạng biểu diễn tương đương dạng tri thức luật If-Then Cây định cấu trúc biễu diễn dạng Trong đó, nút (internal node) biễu diễn thuộc tính, nhánh (branch) biễu diễn giá trị có thuộc tính, (leaf node) biểu diễn lớp định đỉnh gọi gốc (root) Cây định dùng để phân lớp cách xuất phát từ gốc di chuyển theo nhánh gặp nút Trên sở phân lớp chuyển đổi luật định Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc Tạo định q trình phân tích sở liệu, phân lớp đưa dự đoán Cây định tạo thành cách chia (đệ quy) tập liệu thành tập liệu con, tập tạo thành chủ yếu từ phần tử lớp Lựa chọn thuộc tính để tạo nhánh thơng qua Entropy Gain Học định phương pháp thơng dụng khai phá liệu Khi đó, định mô tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính Q trình lặp lại cách đệ qui cho tập dẫn xuất Q trình đệ qui hồn thành khơng thể tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập dẫn xuất Cây định mơ tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mô tả, phân loại tổng quát hóa tập liệu cho trước Dữ liệu cho dạng ghi có dạng: ( x, y )  ( x1 , x2 , x3 , , xk , y ) Biến phụ thuộc (dependant variable) y biến mà cần tìm hiểu, phân loại hay tổng quát hóa x1 , x2 , x3 biến giúp ta thực cơng việc Các kiểu định: Cây định có hai tên khác: ¡ Cây hồi quy (Regression tree) : ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện) ¡ Cây phân loại (Classification tree) : y biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) II.CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH: Cây định cấu trúc sử dụng để chia liên tiếp tập ghi lớn thành tập nhỏ cách áp dụng chuỗi luật đơn giản Với phép chia liên tiếp, tập thu tập kết ngày giống Nó có cấu trúc sau : - Mỗi nút mang thuộc tính (biến độc lập) - Mỗi nhánh tương ứng với giá trị thuộc tính - Mỗi nút lớp (biến phụ thuộc) Đối với định, nút, thuộc tính chọn để phân tách tập mẫu thành lớp khác nhiều Tiến hành lặp lại bước đến kết thúc ta có tập lớp định nghĩa trước Một trường hợp phân loại dựa vào việc tìm đường dẫn phù hợp tới nút III.Phương pháp xây dựng định  Việc tạo định bao gồm giai đoạn : Tạo tỉa - Để tạo thời điểm bắt đầu tất ví dụ huấn luyện gốc sau phân chia ví dụ huấn luyện theo cách đệ qui dựa thuộc tính chọn - Việc tỉa xác định xóa nhánh mà có phần tử hỗn loạn phần tử nằm ngồi (những phần tử khơng thể phân vào lớp đó)  Có nhiều biến đổi khác nòng cốt thuật tốn định, chúng tuân theo bước sau : - Cây thiết lập từ xuống theo cách thức chia để trị - Ở thời điểm bắt đầu, mẫu huấn luyện nằm gốc - Thuộc tính phân loại (Rời rạc hóa thuộc tính dạng phi số ) - Chọn thuộc tính để phân chia thành nhánh Thuộc tính chọn dựa độ đo thống kê độ đo heuristic - Tiếp tục lặp lại việc xây dựng định cho nhánh  Điều kiện để dừng việc phân chia: + Tất mẫu rơi vào nút thuộc lớp (nút lá) + Khơng thuộc tính dùng để phân chia mẫu + Khơng lại mẫu nút IV.Xây dựng định Chọn thuộc tính phân tách: Lúc khởi đầu, ta có tay tập luyện chứa tập ghi phân loại trước – tức giá trị biến đích xác định tất trường hợp Cây định xây dựng cách phân tách ghi nút dựa thuộc tính đầu vào Rõ ràng nhiệm vụ phải chọn xem thuộc tính đưa phân tách tốt nút Độ đo sử dụng để đánh giá khả phân tách độ tinh khiết Chúng ta có phương pháp xác định để tính tốn độ tinh khiết cách chi tiết, nhiên chúng cố gắng đạt hiệu Một phân tách tốt phân tách làm tăng độ tinh khiết tập ghi với số lượng lớn Một phân tách tốt phải tạo nút có kích cỡ tương tự nhau, hay chí khơng tạo nút có ghi Dữ liệu gốc Phép phân tách Phép phân tách Phép phân tách tốt Thuật toán xây dựng định thấu đáo Chúng bắt đầu việc chọn biến đầu vào chưa chọn đo mức độ tăng độ tinh khiết kết ứng với biến Sau phép tách tốt sử dụng phép tách khởi đầu, để tạo hai hay nhiều nút Nếu khơng phép phân tách có khả (có thể có q ghi) khơng có phép phân tách làm tăng độ tinh khiết thuật tốn kết thúc nút trở thành nút Phép phân tách biến đầu vào kiểu số: phân tách nhị phân biến đầu vào, giá trị mà biến chứa trở thành giá trị dự tuyển Phép phân tách nhị phân dựa biến đầu vào kiểu số có dạng X < N Để cải thiện hiệu năng, số thuật tốn khơng kiểm tra hết toàn giá trị biến mà kiểm tra tập mẫu giá trị biến Phép phân tách biến đầu vào định tính : thuật tốn đơn giản việc phân tách biến định tính ứng với giá trị biến đó, ta tạo nhánh tương ứng với lớp phân loại Phương pháp sử dụng thực số phần mềm mang lại hiệu thấp Một phương pháp phổ biến nhóm lớp mà dự đoán kết với Cụ thể, hai lớp biến đầu vào có phân phối biến đích khác giới hạn cho phép hai lớp hợp với Phép phân tách với có mặt giá trị bị thiếu: điểm hay định có khả xử lý giá trị bị thiếu cách coi giá trị rỗng (NULL) nhánh Phương pháp ưa thích so với việc vứt ghi có giá trị thiếu cố gắng gắn giá trị cho nhiều giá trị rỗng có ý nghĩa riêng Mặc dù phép phân tách giá trị rỗng lớp riêng rẽ có ý nghĩa người ta thường đề xuất giải pháp khác Trong khai phá liêu, nút chứa vài luật phân tách thực nút đó, phép phân tách dựa vào biến đầu vào khác Khi giá trị rỗng xuất hiên biến đầu vào phép phân tách tốt nhất, ta sử dụng phép phân tách thay biến đầu vào có phép phân tách tốt thứ hai Phép kiểm tra để chọn phép phân tách tốt nhất: - Độ lợi thơng tin (Information gain) • • • Information gain đại lượng sử dụng để chọn lựa thuộc tính với information gain lớn Cho P N hai lớp S tập liệu có p phần tử lớp P n phần tử lớp N Khối lượng thông tin cần thiết để định mẫu tùy ý có thuộc lớp P hay N hay không là: Info( p, n)  Entropy ( • p n p p n n , ) log  log pn pn pn pn pn pn Cho tập {S1, S2 , …, Sv} phân hoạch tập S, sử dụng thuộc tính A 10 • Cho Si chứa pi mẫu lớp P ni mẫu lớp N • Entropy, hay thông tin mong muốn cần thiết để phân lớp đối tượng tất Si là: p  ni Entropy ( A)  � i Info( pi , ni ) i 1 p  n  • Thơng tin có việc phân nhánh thuộc tính A là: Gain( A)  Info( p, n)  Entropy ( A) V.Biến đổi định thành luật - Biểu diễn tri thức dạng luật IF-THEN - Mỗi luật tạo từ đường dẫn từ gốc đến - Mỗi cặp giá trị thuộc tính dọc theo đường dẫn tạo nên phép kết (phép AND – và) - Các nút mang tên lớp VI.Thuật toán phân lớp học định Giới thiệu: Giải thuật quy nạp ID3 (gọi tắt ID3) giải thuật học đơn giản tỏ thành công nhiều lĩnh vực ID3 biểu diễn khái niệm (concept) dạng định (decision tree) Biểu diễn cho phép xác định phân loại đối tượng cách kiểm tra giá trị số thuộc tính Như vậy, nhiệm vụ giải thuật ID3 học định từ tập ví dụ rèn luyện (training example) hay gọi liệu rèn luyện (training data) Hay nói khác hơn, giải thuật có:  Đầu vào: Một tập hợp ví dụ Mỗi ví dụ bao gồm thuộc tính mơ tả tình huống, hay đối tượng đó, giá trị phân loại 11  Đầu ra: Cây định có khả phân loại đắn ví dụ tập liệu rèn luyện, hy vọng phân loại cho ví dụ chưa gặp tương lai Giải thuật ID3 xây dựng định từ xuống ID3 xây dựng định (cây QĐ) theo cách từ xuống Lưu ý thuộc tính nào, phân vùng tập hợp ví dụ rèn luyện thành tập tách rời, mà ví dụ phân vùng (partition) có giá trị chung cho thuộc tính ID3 chọn thuộc tính để kiểm tra nút dùng trắc nghiệm để phân vùng tập hợp ví dụ; thuật tốn xây dựng theo cách đệ quy cho phân vùng Việc tiếp tục thành viên phân vùng nằm lớp; lớp trở thành nút Vì thứ tự trắc nghiệm quan trọng việc xây dựng QĐ đơn giản, ID3 phụ thuộc nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc * ID3 xây dựng định theo giải thuật sau: Function induce_tree(tập_ví_dụ, tập_thuộc_tính) begin if ví dụ tập_ví_dụ nằm lớp then return nút gán nhãn lớp else if tập_thuộc_tính rỗng then return nút gán nhãn tuyển tất lớp tập_ví_dụ else begin chọn thuộc tính P, lấy làm gốc cho tại; xóa P khỏi tập_thuộc_tính; với giá trị V P begin tạo nhánh gán nhãn V; Đặt vào phân_vùngV ví dụ tập_ví_dụ có giá trị V thuộc tính P; Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết vào nhánh 12 V end end end  Các khả có phân vùng (partition): Trong trình xây dựng QĐ, phân vùng nhánh có dạng sau:  Có ví dụ thuộc lớp khác nhau, chẳng hạn có ví dụ âm dương  Tất ví dụ thuộc lớp, chẳng hạn tồn âm tồn dương  Khơng ví dụ => giải thuật trả  Khơng thuộc tính => nghĩa liệu bị nhiễu, giải thuật phải sử dụng luật để xử lý, chẳng hạn luật đa số (lớp có nhiều ví dụ dùng để gán nhãn cho nút trả về) Từ nhận xét này, ta thấy để có QĐ đơn giản, hay có chiều cao thấp, ta nên chọn thuộc tính cho tạo nhiều phân vùng chứa ví dụ thuộc lớp tốt Một phân vùng có ví dụ 13 thuộc lớp, ta nói phân vùng có tính Vậy, để chọn thuộc tính kiểm tra giảm thiểu chiều sâu QĐ, ta cần phép đo để đo tính phân vùng, chọn thuộc tính kiểm tra tạo nhiều phân vùng tốt ID3 sử dụng lý thuyết thông tin để thực điều Thuộc tính thuộc tính dùng để phân loại tốt nhất? a Entropy đo tính tập ví dụ Khái niệm entropy tập S định nghĩa Lý thuyết thông tin số lượng mong đợi bít cần thiết để mã hóa thông tin lớp thành viên rút cách ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có độ dài ngắn Theo lý thuyết thơng tin, mã có độ dài tối ưu mã gán –log 2p bits cho thơng điệp có xác suất p Trong trường hợp S tập ví dụ, thành viên S ví dụ, ví dụ thuộc lớp hay có giá trị phân loại  Entropy có giá trị nằm khoảng [0 1],  Entropy(S) =  tập ví dụ S tồn ví dụ thuộc loại, hay S  Entropy(S) =  tập ví dụ S có ví dụ thuộc loại khác với độ pha trộn cao  < Entropy(S) <  tập ví dụ S có số lượng ví dụ thuộc loại khác không Để đơn giản ta xét trường hợp ví dụ S thuộc loại âm (-) dương (+) Cho trước: • Tập S tập liệu rèn luyện, thuộc tính phân loại có hai giá trị, giả sử âm (-) dương (+) • p+ phần ví dụ dương tập S 14 • p- phần ví dụ âm tập S Khi đó, entropy đo độ pha trộn tập S theo công thức sau: Entropy(S) = -p+log2p+ - p-log2pMột cách tổng quát hơn, ví dụ tập S thuộc nhiều hai loại, giả sử có c giá trị phân loại cơng thức entropy tổng qt là: Entropy(S) = b Lượng thông tin thu đo mức độ giảm entropy mong đợi Entropy số đo đo độ pha trộn tập ví dụ, định nghĩa phép đo hiệu suất phân loại ví dụ thuộc tính Phép đo gọi lượng thơng tin thu được, đơn giản lượng giảm entropy mong đợi gây việc phân chia ví dụ theo thuộc tính Một cách xác hơn, Gain(S,A) thuộc tính A, tập S, định nghĩa sau: Trong Values(A) tập hợp có giá trị thuộc tính A, S V tập S chứa ví dụ có thuộc tính A mang giá trị v Tìm kiếm khơng gian giả thuyết ID3 Cũng phương pháp học quy nạp khác, ID3 tìm kiếm khơng gian giả thuyết giả thuyết phù hợp với tập liệu rèn luyện Không gian giả thuyết mà ID3 tìm kiếm tập hợp định có ID3 thực phép tìm kiếm từ đơn giản đến phức tạp, theo giải thuật leo-núi (hill climbing), rỗng, sau xem xét giả thuyết phức tạp mà phân loại ví dụ rèn luyện Hàm đánh giá dùng để hướng dẫn tìm kiếm leo núi phép đo lượng thông tin thu 15 Từ cách nhìn ID3 giải thuật tìm kiếm khơng gian giả thuyết, ta có số nhận xét sau:  Khơng gian giả thuyết định ID3 không gian đầy đủ định thuộc tính cho tập rèn luyện Điều có nghĩa khơng gian mà ID3 tìm kiếm chắn có chứa định cần tìm  Trong tìm kiếm, ID3 trì giả thuyết Vì vậy, giải thuật khơng có khả biểu diễn tất định khác có khả phân loại liệu có  Vì ID3 sử dụng tất ví dụ bước để đưa định dựa thống kê, nên kết tìm kiếm ID3 bị ảnh hưởng vài liệu sai (hay liệu nhiễu)  Trong q trình tìm kiếm, giải thuật ID3 có xu hướng chọn định ngắn định dài Đánh giá hiệu suất định: 16 Một định sinh ID3 đánh giá tốt có khả phân loại trường hợp hay ví dụ gặp tương lai, hay cụ thể có khả phân loại ví dụ không nằm tập liệu rèn luyện Để đánh giá hiệu suất định người ta thường sử dụng tập ví dụ tách rời, tập khác với tập liệu rèn luyện, để đánh giá khả phân loại ví dụ tập Tập liệu gọi tập kiểm tra (validation set) Thông thường, tập liệu sẵn có chia thành hai tập: tập rèn luyện thường chiếm 2/3 số ví dụ tập kiểm tra chiếm 1/3 Khi nên sử dụng ID3 Giải thuật ID3 giải thuật học đơn giản phù hợp với lớp tốn hay vấn đề biểu diễn ký hiệu Chính vậy, giải thuật thuộc tiếp cận giải vấn đề dựa ký hiệu (symbol – based approach) VIII.Thuật toán phân lớp học định Giới thiệu: - Cây định phương pháp xấp xỉ hóa hàm mục tiêu giá trị rời rạc hàm học thể định Học định phương pháp thực dụng sử dụng rộng rãi cho phương pháp suy diễn qui nạp - Giải thuật học định sử dụng thành công hệ chuyên gia việc nắm bắt kiến thức Cơng việc sử dụng hệ thống việc sử dụng phương pháp qui nạp cho giá trị cho trước thuộc tính đối tượng chưa biết để xác định phân loại xấp xỉ theo luật định Cây định phân loại trường hợp cách duyệt từ nút gốc đến nút Chúng ta nút gốc định, kiểm tra thuộc tính xác định nút sau chuyển xuống nhánh theo giá trị thuộc tính tập hợp cho trước Quá trình lặp lại - Giải thuật định thích hợp cho điều đây: 17 + Mỗi trường hợp biểu diễn cặp giá trị thuộc tính Ví dụ thuộc tính “nhiệt độ“ có giá trị “nóng”, “mát”, “lạnh” Chúng đồng thời liên quan đến thuộc tính mở rộng , giá trị tiếp theo, liệu tính tốn ( giá trị thuộc tính số) dự án + Hàm mục tiêu có giá trị đầu giá trị rời rạc Nó dễ dàng liên hệ đến trường hợp mà gán vào định sai Nó mở rộng hàm mục tiêu đến giá trị đầu giá trị thực + Những liệu đưa vào chứa đựng nhiều lỗi điều liên quan đến kĩ thuật giản lược liệu thừa - Trong thuật toán học định ID3 C4.5 hai thuật tốn phổ dụng - Những thiếu sót giải thuật ID3: + Một thiếu sót quan trọng ID3 không gian phân chia hợp lệ node cạn kiệt Một phân chia phân hoạch trường hợp không gian mà kết đạt từ việc thử nghiệm node định ID3 cháu cho phép kiểm tra tại thuộc tính đơn nhánh kết cho từ kiểm tra + Một thiếu sót mà ID3 mắc phải dựa vào nhiều vào số lượng tập hợp liệu đưa vào Quản lý tạp nhiễu tập liệu vào vô quan trọng ứng dụng giải thuật học định vào giới thực Ví dụ Khi có lẫn tạp tập liệu đưa vào số lượng ví dụ đưa vào nhỏ để tạo ví dụ điển hình hàm mục tiêu đúng, ID3 dẫn đến việc tạo định sai + Trong thuật tốn ID3, giá trị thuộc tính rời rạc, giới thực tồn thuộc tính có giá trị liên tục (giá trị số) + Trong thuật tốn ID3, thuộc tính có nhiều giá trị mà giá trị lại nhất, dẫn tới tạo phức tạp, không đưa định cho trường hợp thực tế - C4.5 mở rộng giải thuật ID3 số khía cạnh sau: + Trong việc xây dựng định, chúng liên hệ với tập huấn luyện mà có records với giá trị thuộc tính khơng biết đến việc đánh giá việc thu thập thông tin tỉ số thu thập 18 thông tin , cho thuộc tính việc xem xét record mà thuộc tính định nghĩa + Trong việc xây dựng định, giải thuật C4.5 giải tốt trường hợp giá trị thuộc tính giá trị thực + Trong việc xây dựng đinh, C4.5 giải tốt trường hợp thuộc tính có nhiều giá trị mà giá trị lại Thuật toán xây dựng định: Dữ liệu vào: Tập liệu D, tập danh sách thuộc tính, tập nhãn lớp Dữ liệu ra: Mơ hình định Thuật tốn: Tạocây(Tập liệu E, tập danh sách thuộc tính F, tập nhãn lớp) Nếu điều_kiện_dừng(E,F) = nútlá = CreateNode() nútlá.nhãnlớp=Phânlớp(E) return nútlá Ngược lại Nútgốc = CreateNode() Nútgốc.điềukiệnkiểmtra = tìm_điểm_chia_tốt_nhất(E, F) Đặt F = F \ {Nút chọn phân chia} Đặt V = {v| v thoả điều kiện phần phân chia xuất phát từ Nútgốc} 10 Lặp qua tập phân chia v V 11 Đặt Ev = {e | Nútgốc.điềukiệnkiểmtra(e) = v e E} 12 Nútcon = Tạocây(Ev, F, tập nhãn lớp) 13 Dừng lặp 14 End if 15 Trả nútgốc Hàm Gọi hàm Tạocây (E, tập danh sách thuộc tính E, tập nhãn lớp) Giải thích thuật tốn: Đây thuật toán kiểu đệ qui tạo định + Tại hàm chính, gọi hàm đệ qui Tạocây() với ba tham số vào tập liệu E, tập danh sách thuộc tính E tập nhãn Thuật tốn làm việc cách đệ qui chọn giá trị thuộc tính tốt để chia, lưu ý chọn giá trị thuộc tính cho điều kiện chia tốt (bước 7), tiếp tục tiến hành mở rộng nút cách 19 gọi đệ qui điều kiện dừng (ở bước 1) thỏa mãn Dưới phần giải thích chi tiết thuật tốn: + Dòng kiểm tra điều kiện dừng, thỏa mãn nghĩa đệ qui để tạo đến nút Điều kiện dừng xảy khi:  Tất dòng tập liệu E thuộc lớp (1)   Khơng có dòng tập E, điều xảy tập tạo bước phân chia tập rỗng (2) Trong trường hợp (1) việc tiến hành tạo nút hàm createNode() tiến hành gán nhãn cho nút cách gán nhãn cho thuộc tính nhãn nút vừa tạo Trường hợp (2) trả nút rỗng tiến hành gán nhãn cho nút cha nhãn lớp xuất nhiều sau: Nhãn lớp = max (tổng giá trị nhãn lớp riêng biệt E) Hàm Phânlớp(E) thực việc xác định nhãn cho tập liệu E, tự động xác định trả giá trị nhãn cho hai trường hợp + Dòng xảy thuộc tính nút cha (lưu ý nút cha nút sau phân chia tạo tập liệu D này) Nếu sau phân chia nút cha mà tập D không chứa thuộc tính để phân chia, trả nút giá trị nhãn xuất nhiều D + Xét dòng 5, thuật tốn chưa thỏa mãn điều kiện để dừng, tiếp tục xét cách tìm kiếm điểm chia tốt Để tìm điểm chia tốt cần sử dụng hàm đánh giá, kết hàm trả thuộc tính chọn tương ứng Về tiêu chuẩn đánh chọn điểm chia giải thích rõ phần bên + Xét dòng 8, sau chọn điểm chia tốt nhất, tiến hành phân chia tập D thành tập Di, cập nhật lại danh sách thuộc tính + Dòng 10: lặp qua danh sách tập D i tiến hành gọi đệ qui hàm Tạocây() với tham số tương ứng Độ đo sử dụng để xác định điểm chia tốt nhất:  Entropy: Đại lượng đo tính đồng hay tính mẫu Trong đó: 20  S tập liệu huấn luyện  Ci nhãn lớp tập liệu S  Pi xác suất S thuộc nhãn Ci Giả sử phân chia S thuộc tính A bất kỳ, để khơng tính tổng qt xem A có giá trị phân biệt {a 1, a2, …, av} Nếu thuộc tính A sử dụng để chia thành v tập con, tập tương ứng với nhánh nút tại, độ đo thơng tin có sau phân lớp theo v tập tính sau: Trong đó: tổng số liệu phân chia vào tập thứ j  Information gain: độ đo xác định ảnh hưởng thuộc tính mẫu việc phân lớp gọi độ lợi thơng tin Độ lợi thông tin dựa phân nhánh thuộc tính A:  SplitInformation: Thơng tin tiềm ẩn tạo cách chia tập liệu số tập Splitinfomation(S,A) = Trong Si tập S chứa ví dụ có thuộc tính A mang giá trị V i Để ý Splitinfomation thực Entropy S với liên quan giá trị thuộc tính A  GainRatio: Sự đánh giá thay đổi giá trị thuộc tính Gain(S,A) GainRation(S,A) = SplitInformation(S,A) Tất thuộc tính tính tốn độ đo tỷ lệ Gain, thuộc tính có độ đo tỷ lệ Gain lớn chọn làm thuộc tính phân chia 21 Chương - THỬ NGHIỆM ĐÁNH GIÁ 3.1 Giới thiệu toán Cây định ứng dụng nhiều thực tế sống ngày, người phải định liên quan đến sinh hoạt cá nhân từ ăn gì, uống gì, làm gì, nào, đâu, định bình thường, định suy tính kỹ càng, định theo cảm xúc tức thời Tuy nhiên, nhà quản lý hay người làm công việc liên quan đến: đầu tư chứng khốn, đầu tư tài chính, định đưa quan trọng, gây ảnh hưởng lơn đến cơng ty hay trí làm phá sản, định lựa chọn phải định có độ tin lớn an toàn Vậy, làm để giúp nhà quản lí có định cách đắn định đầuvào đâu? Dựa vào tập liệu cho trước ta xây dựng định, từ định rút luật định Dựa cào luật định ta phân lớp tập liệu tập liệu sau phân lớp hỗ trợ cho nhà quản lí, nhà đầuđịnh có nên đầuvào ngành hay không Xin xét tình đầu tư cần phải định sau: Một nhà đầu tư xem xét có nên đầu tư 10 tỷ đồng vào thị trường chứng khoán hay gửi toàn số tiền vào ngân hàng với lãi suất cố định 9%/năm Nếu thị trường chứng khốn cho lạc quan (optimistic) sau năm nhà đầu tư thu khoản lợi tức 14% số tiền đầu tư ban đầu Nếu thị trường bình thường (moderate) sau năm đầu tư tỷ suất lợi tức 9% gửi tiền ngân hàng Còn thị trường diễn biến theo hướng bi quan (Pessimistic) sau năm đầu tư nhà đầu tư khơng thu khoản lợi tức song bảo toàn vốn Bằng kinh nghiệm nhà đầu tư ước tính xác suất để thị trường có viễn cảnh lạc quan, bình thường bi quan xảy tương ứng 0,3; 0,5 0,2 22 3.2 Các bước tiến hành Để định đầu tư cần tiến hành bước sau:  Bước Vấn đề đặt tình nhà đầu tư cần phải định có nên đầu tư khoản tiền thị trường tài hay khơng có đầuvào chứng khốn hay gửi tiền vào ngân hàng  Bước Các phương án chọn lựa là: Phương án 1: Gửi toàn số tiền vào ngân hàng Phương án 2: Đầu tư chứng khốn Phương án Khơng đầu tư  Bước Các tình kết xảy ra: Thị trường lạc quan Thị trường bình thường Thị trường bi quan  Bước Xác định lợi ích hay chi phí khả kết hợp phương án tình kết xảy Bất kỳ nhà đầu tư hướng đến mục tiêu tối đa hoá lợi tức tối thiểu hoá rủi ro đầu tư Lợi tức mà nhà đầu tư có theo phương án tình kết biểu diễn qua bảng sau (gọi bảng định – Decision Table) Gửi ngân hàng Mua chứng khốn Khơng đầu tư Lạc quan Bình thường 0,9 0,9 1,4 0,9 0 Bảng Bảng định Bi quan 0,9 0  Bước Xác định môi trường định: rủi ro, tính dễ bị tổn thương, thơng tin hồn hảo  Bước Lựa chọn mơ hình định phù hợp định sau 23 3.2.1 Tiêu chuẩn định dựa giá trị kỳ vọng (Expected Value) Kỳ vọng biến ngẫu nhiên giá trị trung bình mà biến ngẫu nhiên nhận được, hay nói cách khác kỳ vọng biến ngẫu nhiên trọng tâm phân phối xác suất với khối lượng Kỳ vọng biến ngẫu nhiên xác định sau: Tiêu chuẩn định dựa giá trị kỳ vọng diễn tả dạng giá trị tiền hay độ hữu ích Tiêu chuẩn giá trị kỳ vọng đưa dựa giả thuyết việc định lặp lại nhiều lần Giá trị kỳ vọng phương án tính tổng có trọng số giá trị trả giá (payoff) phương án với trọng số xác suất xảy trạng thái tự nhiên tương ứng Trong đó: EMVi : giá trị kỳ vọng phương án i POj,i : giá trị trả giá trạng thái tự nhiên j ứng với phương án i i : phương án thứ i, với j : trạng thái tự nhiên thứ j, với Theo liệu cho ta xác định EMV sau: Phương án 1: EMV1 = 0,9x0,3 + 0,9x0,5 + 0,9x0,2 = 0,9 Phương án 2: EMV2 = 1,4x0,3 + 0,9x0,5 + 0x0,2 = 0,87 Phương án 3: EMV3 = Căn theo tiêu chuẩn giá trị kỳ vọng phương án (gửi tiền vào ngân hàng) phương án tốt nên chọn KẾT LUẬN 24 Những nghiên cứu xây dựng định ứng dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú lưu trữ hệ thống thơng tin, qua chọn lọc phương án tối ưu Trong khuôn khổ khóa luận tốt nghiệp này, chúng em nghiên cứu, phân tích, đánh giá thuật tốn phân lớp liệu dựa định Tiêu biểu thuật tốn ID3 C4.5 Hai thuật tốn có cách thức lưu trữ liệu xây dựng định dựa độ đo khác Do thuật tốn có phạm vi ứng dụng vào sở liệu có kích thước khác C4.5 mở rộng giải thuật ID3 số khía cạnh C4.5 thuật tốn xử lý đầy đủ vấn đề trình phân lớp liệu: lựa chọn thuộc tính tốt nhất, lưu trữ phân chia liệu, xử lý giá trị thiếu, tránh q vừa, cắt tỉa cây,…Qua phân tích ứng dụng vào toán thực tế (Bài toán đầu tư), chúng em có bước đầu nghiên cứu, thiết kế, phân tích chạy thử nghiệm chương trình ứng dụng qua thu kết tích cực 25 TÀI LIỆU THAM KHẢO [1] ThS Lưu Minh Tuấn Bài giảng Hệ hỗ trợ Quyết định BM CNTT [2] Võ Văn Huy & Huỳnh Ngọc Liễu Máy tính kinh doanh NXB KHKT,2002 [3]www.ebook.edu.vn [4] Cây định http://vi.wikipedia.org/wiki/Cây_quyết_định tháng 11/2016 [5] http://luanvan.net.vn/luan-van/tieu-luan-tam-quan-trong-cua-viec-ra-quyetdinh-quan-tri-va-nhung-sai-lam-pho-bien-58567/ 26 ... tài Nghiên cứu định ứng dụng vào toán cụ thể (bài toán đầu tư) Mục tiêu nghiên cứu Nghiên cứu vấn đề thuật toán xây dựng định ID3, cài đặt đánh giá thuật tốn đó; bước đầu áp dụng mơ hình định. .. thiếu, tránh vừa, cắt tỉa cây, …Qua phân tích ứng dụng vào toán thực tế (Bài toán đầu tư), chúng em có bước đầu nghiên cứu, thiết kế, phân tích chạy thử nghiệm chương trình ứng dụng qua thu kết tích... Cây định để phân lớp tập liệu từ giúp nhà quản trị có đủ sở tùy vào mục đích để định hiệu Cụ thể nội dung tiểu luận chúng em trình bày lý thuyết định việc hỗ trợ định toán cụ thể: Bài toán đầu

Ngày đăng: 03/01/2018, 15:35

Mục lục

  • a. Entropy đo tính thuần nhất của tập ví dụ

  • b. Lượng thông tin thu được đo mức độ giảm entropy mong đợi

  • 4. Tìm kiếm không gian giả thuyết trong ID3

  • 5. Đánh giá hiệu suất của cây quyết định:

  • 6. Khi nào nên sử dụng ID3

Tài liệu cùng người dùng

Tài liệu liên quan