1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng cây quyết định có trọng số cho dự đoán sai với ràng buộc về tài nguyên bằng mô hình quy hoạch nguyên tuyến tính hỗn hợp

56 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng cây quyết định có trọng số cho dự đoán sai với ràng buộc về tài nguyên bằng mô hình quy hoạch nguyên tuyến tính hỗn hợp
Tác giả Trần Quang Toàn
Người hướng dẫn TS. Vũ Đức Minh, PGS.TS. Hà Minh Hoàng
Trường học Trường Đại học Phenikaa
Chuyên ngành Khoa học máy tính
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 56
Dung lượng 903,89 KB

Nội dung

Khóa luận đề xuất xây dựng cây quyết định tối ưu trong đó xem xét các yếu tốchi phí và ràng buộc về thời gian thông qua phương pháp quy hoạch nguyên hỗn hợp.Khóa luận cải tiến cải tiến c

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC PHENIKAA

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC PHENIKAA

LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Vũ Đức MinhPGS.TS Hà Minh Hoàng

Hà Nội, 04/2024

Copies for internal use only in Phenikaa University

Trang 3

Lời cảm ơn

Đầu tiên, em xin gửi lời cảm ơn chân thành tới TS Vũ Đức Minh và PGS.TS HàMinh Hoàng đã cho em cơ hội được học tập và nghiên cứu tại khoa Công nghệ thôngtin trường Đại học Phenikaa cũng như phòng thí nghiệm Tối ưu hóa các Hệ thống lớnOrlab Em cũng xin cảm ơn ThS Phạm Hoàng Giang đã giúp đỡ em rất nhiều trongquá trình làm luận văn Sự hướng dẫn, hỗ trợ, động viên và tạo điều kiện của các thầy

đã giúp em nghiên cứu hoàn thành khóa luận này

Em xin cảm ơn các thầy, cô trong khoa Công nghệ thông tin, các thầy cô trườngĐại học Phenikaa đã định hướng, giúp đỡ em trong suốt quá trình học tập và nghiêncứu tại trường

Bên cạnh đó, em xin cảm ơn bạn bè tại trường Đại học Phenikaa, các thành viênOrlab đã giúp đỡ, đồng hành cùng em suốt gần 2 năm qua Em xin chân thành cảm ơn!

Hà Nội, ngày tháng năm

Copies for internal use only in Phenikaa University

Trang 4

Lời cam kết

Tôi xin cam đoan những kiến thức được trình bày trong khóa luận "Xây dựng câyquyết định có trọng số cho dự đoán sai với ràng buộc về tài nguyên bằng mô hình quyhoạch nguyên tuyến tính hỗn hợp" này là do tôi tìm hiểu và triển khai dưới sự hướngdẫn của TS Vũ Đức Minh và PGS.TS Hà Minh Hoàng và sự giúp đỡ của ThS PhạmHoàng Giang

Tất cả các tham khảo từ các tài liệu liên quan đều được tôi nêu ra một cách rõ ràngtrong danh mục tài liệu tham khảo Trong khóa luận không có việc sao chép tài liệu,công trình nghiên cứu của người khác mà không chỉ rõ về nguồn gốc của tài liệu.Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!

Hà Nội, ngày tháng năm

Copies for internal use only in Phenikaa University

Trang 5

Tóm tắt

Khóa luận nghiên cứu bài toán xây dựng cây quyết định có trọng số cho dự đoán saivới các ràng buộc về tài nguyên bằng mô hình quy hoạch tuyến tính Bài toán này xuấthiện ở nhiều nơi, trong đó có thể kể đến bài toán thực hiện 1 dãy các xét nghiệm máunhằm xác định bệnh nhân có mắc một loại bệnh hay không dựa vào kết quả của xétnghiệm trước đó Việc thực hiện xét nghiệm không chỉ tiêu tốn nhiều loại tài nguyên(con người, trang thiết bị, ) mà còn phát sinh nhiều chi phí về tiền bạc, thời gian Bêncạnh đó, việc phân loại sai trường hợp dương tính thành trường hợp âm tính cần đượcgiảm thiểu nhằm hạn chế những ảnh hưởng nghiêm trọng do xét nghiệm sai đối vớibệnh nhân Mặc đã có nhiều nghiên cứu về cách xây dựng cây quyết định từ dữ liệuđào tạo để giảm thiểu chi phí (liên quan phân việc loại sai và chi phí kiểm thử), nhưngchưa có nghiên cứu nào về cách xây dựng cây quyết định tối ưu với các giới hạn thờigian, mà điều này rất cần thiết trong các trường hợp tài nguyên về thời gian bị hạnchế Khóa luận đề xuất xây dựng cây quyết định tối ưu trong đó xem xét các yếu tốchi phí và ràng buộc về thời gian thông qua phương pháp quy hoạch nguyên hỗn hợp.Khóa luận cải tiến cải tiến các mô hình đã có để có thể bổ sung được các ràng buộcthời gian, ràng buộc về chi phí phân loại sai và ràng buộc về chi phí các thuộc tínhđược lựa chọn Ngoài ra, khóa luận cũng đề xuất các mô hình toán học mới được thiết

kế riêng cho các bài toán nghiên cứu Chúng tôi báo cáo các kết quả thực nghiệm vềhiệu suất của các mô hình đề xuất; và chúng tôi đánh giá ảnh hưởng các ràng buộc vềthời gian và chi phí đối với quá trình xác định và chứng minh các nghiệm tối ưu

Copies for internal use only in Phenikaa University

Trang 6

Mục lục

2.1 Cây quyết định tối ưu & phương pháp 14

2.2 Cây quyết định nhạy cảm với chi phí & phương pháp 17

3 Mô hình toán học mới cho việc xây dựng cây quyết định tối ưu nhạy cảm với chi phí và ràng buộc về thời gian 20 3.1 Cây quyết định tối ưu truyền thống 20

3.2 Các biến thể nhạy cảm với chi phí và ràng buộc về thời gian 27

3.2.1 Cây quyết định cân bằng 28

3.2.2 Cây quyết định không cân bằng 30

4 Sự điều chỉnh thời gian giới hạn và chi phí thuộc tính cho các mô hình hiện có 32 4.1 Sự điều chỉnh thời gian giới hạn và chi phí thuộc tính cho FlowOCT 32 4.1.1 Cây quyết định cân bằng 32

4.1.2 Cây quyết định không cân bằng 34

4.2 Sự điều chỉnh thời gian giới hạn và chi phí thuộc tính cho BinOCT 36

Copies for internal use only in Phenikaa University

Trang 7

5 Kết quả 39

5.1 So sánh cỡ của các mô hình MIP 39

5.2 Thiết lập thực nghiệm 40

5.3 So sánh hiệu suất của các mô hình MIP 42

5.4 Kết luận và hướng phát triển 44

Copies for internal use only in Phenikaa University

Trang 8

Danh sách ký hiệu

OCT Optimal Classification Tree

BCS Balanced Cost Sensitive

ICS Imbalanced Cost Sensitive

CS Cost Sensitive

CAT Cost-Sensitive Associative Tree

MIP Mixed-Integer Programming

Copies for internal use only in Phenikaa University

Trang 9

descent Kỹ thuật giảm độ dốc ngẫu nhiên

Column generation Phương pháp sinh cột

Copies for internal use only in Phenikaa University

Trang 10

Danh sách hình vẽ

3.1 Xây dựng cây quyết định 223.2 Bitset ωnPl tương ứng với các lá l của cây 253.3 BCS-PathOCT v.s ICS-PathOCT 304.1 Mô hình ICS-PathOCT và ICS-FlowOCT xây dựng cây quyết địnhkhông cân bằng 345.1 Kết quả của các mô hình ICS 425.2 Kết quả của các mô hình BCS 43

Copies for internal use only in Phenikaa University

Trang 11

Danh sách bảng

3.1 Các biến quyết định, tham số và các tập hợp trong mô hình 26

4.1 Các biến quyết định trong FlowOCT 34

4.2 Các biến quyết định, tham số và tập hợp trong BinOCT 38

5.1 Độ phức tạp của các mô hình toán học 39

5.2 Bộ dữ liệu sử dụng 40

6.1 Kết quả của mô hình ICS 51

6.2 Kết quả của mô hình ICS 52

6.3 Kết quả của mô hình ICS 53

6.4 Kết quả của mô hình BCS 54

6.5 Kết quả của mô hình BCS 55

6.6 Kết quả của mô hình BCS 56

Copies for internal use only in Phenikaa University

Trang 12

Chương 1 Giới thiệu

Cây quyết định là một trong những kỹ thuật học máy quan trọng được sử dụng rộngrãi trong bài toán phân lớp dữ liệu Với cấu trúc là cây nhị phân, cây quyết định đượcxây dựng dựa trên các phân vùng dữ liệu đào tạo bằng cách đệ quy và gán nhãn chotừng phân vùng Sau đó, cây quyết định có thể phân loại một dữ liệu mới bằng cáchxuất phát từ gốc và đi xuống các nút con dựa vào kết quả so sánh giữa dữ liệu vào vàthông tin tại các nút Quá trình này lặp lại cho đến khi gặp nút lá và nhãn nút lá chính

là kết quả của việc phân lớp Một ưu điểm chính của cây quyết định là tính chính xáccủa việc phân lớp thông qua việc thiết kế các thông tin hiệu quả cho các nút trong củacây quyết định

Mục tiêu trong việc thiết kế các cây quyết định tối ưu là chọn ra các thuộc tính để

sử dụng tại mỗi nút trong và các nhãn để gán cho mỗi lá nhằm tối đa hóa độ chính xáccủa dự đoán hay nói một cách khác là giảm thiểu việc dự đoán sai Một trong nhữngcách xây dựng cây quyết định truyền thống là dựa vào thuật toán tham lam mà điểnhình là các thuật toán CART, C4.5 và ID3 Đây là cách tiếp cận đệ quy, xuất phát từmột nút gốc, sau đó giải bài toán tối ưu trên một tập con các bộ dữ liệu đào tạo tại

để xác định nhãn các nút con một cách tốt nhất theo một nghĩa đó Quá trình này kếtthúc khi một điều kiện dừng nào đó được thỏa mãn Thuật toán tham lam có ưu thếlớn về tốc độ thực thi nhưng các cây quyết định được tạo nên từ các thuật toán nàykhông đảm bảo tối ưu theo các tiêu chí của nó

Khóa luận đề xuất mô hình quy hoạch nguyên cho bài toán xây dựng cây quyếtđịnh tối ưu và sử dụng sử dụng công cụ giải bài toán quy hoạch nguyên như CPLEX

để hỗ trợ tìm ra cây quyết định như vậy Ưu điểm của việc sử dụng mô hình quy hoạchnguyên là cho phép mô hình hóa nhiều loại ràng buộc phức tạp của đề bài thông quacác ràng buộc tuyến tính Sau đó, trong phần thực nghiệm, khóa luận sử dụng cácphần mềm hiện đại như CPLEX để giúp tìm kiếm nhanh chóng cây quyết định tối ưuthông qua mô hình đề xuất

Copies for internal use only in Phenikaa University

Trang 13

Nội dung của khóa luận bao gồm:

• Giới thiệu về bài toán xây dựng cây quyết định có ràng buộc về thời gian và nhạycảm với chi phí Trong phần này, khóa luận giới thiệu các ràng buộc về giới hạnthời gian và cũng như ràng buộc về chi phí của các thuộc tính trong quá trình xâydựng cây phân lớp

Đề xuất mô hình quy hoạch nguyên mới (PathOCT) cho việc xây dựng cây quyết

định tối ưu nhạy cảm với chi phí và ràng buộc về thời gian với độ sâu cho trước

Mô hình chia tập hợp các nút trong thành tập hợp các đường dẫn từ gốc cây đếncác lá Thay vì tìm các hướng đi của từng điểm dữ liệu tại mỗi nút trong, các môhình xem xét một tập hợp các khai triển tương ứng với mỗi đường dẫn và kiểmtra tính khả thi của một điểm dữ liệu trong việc đi qua đường dẫn này Kỹ thuậtnày giúp giảm kích thước của mô hình toán học, đồng thời cho phép áp dụng cácràng buộc cắt tỉa đối để xây dựng các cây quyết định không cân bằng

• Thực nghiệm và báo cáo kết quả xây dựng cây quyết định cho bài toán đượcnghiên cứu trong khóa luận Bên cạnh đó, khóa luận cũng so sánh với các mô

hình hiện có như FlowOCT trong Aghaei et al [2020] và BinOCT trong Verwer

and Zhang [2019] thông qua việc điều chỉnh các tham số và ràng buộc của môhình đề xuất Từ việc phân tích kết quả các mô hình đưa ra, khóa luận đưa ranhận xét về những ưu và nhược điểm của các mô hình đề xuất khi bổ sung thêmràng buộc về thời gian và chi phí

Bên cạnh phần mở đầu, khóa luận gồm các chương chính như sau Chương 2 nêutổng quan các nghiên cứu có liên quan và thảo luận về các thuật toán trong việc xâydựng cây quyết định nhạy cảm với chi phí - ràng buộc về tài nguyên Chương 3 đềxuất mô hình toán học mới và các khái niệm quan trọng cho bài toán cây quyết địnhtối ưu Chương 4 trình bày về việc làm sao chúng tôi có thể thu được các mô hình

đã có thông qua việc điều chỉnh các giới hạn thời gian và chi phí của các thuộc tính.Chương 5 báo cáo kết quả thực nghiệm và kết luận; gồm có việc so sánh các kết quảgiữa các mô hình, kết luận và đề xuất các hướng phát triển trong tương lai

Copies for internal use only in Phenikaa University

Trang 14

Chương 2 Tổng quan nghiên cứu

Phân lớp dữ liệu là một bài toán quan trọng trong lĩnh vực trí tuệ nhân tạo, trong

đó dữ liệu tương lai sẽ được dự đoán bởi các mô hình được tạo lập từ các dữ liệu huấnluyện Một số kỹ thuật phân lớp phổ biến có thể kể đến gồm có: phân lớp dựa vàocây quyết định, bộ phân lớp Bayesian, bộ phân lớp mạng Neural và lập luận theo tìnhhuống Trong các phương pháp này, cây quyết định là phương pháp có khả năng biểudiễn các cấu trúc phức tạp và có hiệu quả tính toán cao, cùng với khả năng tạo ra cácquy tắc phân lớp dễ hiểu Vì vậy, khóa luận lựa chọn xây dựng cây quyết định tối ưu

để phù hợp với các ràng buộc phức tạp thường xảy ra trong các bài toán y tế mà khóaluận hướng tới

Hyafil and Rivest [1976] chỉ ra rằng bài toán xây dựng cây quyết định tối ưu chính

là một bài toán tối ưu tổ hợp NP-khó với số biến quyết định theo cấp số nhân của dữliệu đầu vào Do là bài toán NP-khó, nhiều tác giả đã đề xuất các thuật toán xấp xỉ,tham lam hoặc tối ưu top-down trong đó có thể kể đến Breiman et al [1984]; Quinlan[1986, 1993] Breiman et al [1984]

Điểm yếu của phương pháp tham lam là việc phân tách nút trong của cây quyếtđịnh được xác định một cách độc lập và cục bộ mà không xem xét tác động có thể

có của các lần phân tách tiếp theo Vì yếu tố cục bộ, việc giảm thiểu độ sai lệch tạinút phân nhánh riêng lẻ không thể xem xét hết các các đặc điểm của bộ dữ liệu huấnluyện và do đó, có khả năng dẫn đến hiệu suất phân lớp kém với các dữ liệu thực tế.Một nhược điểm của phương pháp quy nạp từ trên xuống là cần có các quy tắc cắttỉa cây để bỏ đi những nhánh không hiệu quả Do các phương pháp này không thểxem xét đầy đủ các hình phạt (penalties) đối với độ phức tạp của cây, các phân táchmạnh có thể ẩn sau các phân tách yếu hơn trong khi phát triển cây Khi hình phạt độ

Copies for internal use only in Phenikaa University

Trang 15

phức tạp (complexity penalty) quá cao, sự phân tách yếu hơn đầu tiên có thể bị ngănkhông cho chọn, từ đó không tạo được cây tốt hơn Để khắc phục nhược điểm này,quá trình huấn luyện diễn ra theo hai giai đoạn, phát triển cây càng sâu càng tốt thôngqua một loạt các quyết định tham lam, sau đó cắt tỉa cây bằng cách sử dụng hình phạt

độ phức tạp Để giải quyết vấn đề phân tách mạnh bị ẩn đằng sau phân tách yếu hơn,các phương pháp heuristic thường được sử dụng, chẳng hạn như một số thiết kế cảitiến của ID3: IDX đề xuất bởi Norton [1989], LSID3 và ID3-k đề xuất bởi Esmeir andMarkovitch [2007], nhằm tìm ra các phân tách mới dựa trên việc tối ưu hóa các câysâu hơn bắt nguồn từ lá hiện tại, thay vì chỉ tối ưu hóa phân tách đơn lẻ Tuy nhiên,trong Murthy and Salzberg [1995] các tác giả chỉ ra rằng các phương pháp này khôngđảm bảo sẽ tạo ra các cây có khả năng khái quát hóa tốt hơn và đồng thời tránh cáigọi là sự tiên đoán trong việc xây dựng cây quyết định

Mặc dù việc kết hợp giai đoạn xây dựng và cắt tỉa trong việc phát triển cây quyếtđịnh vốn dĩ có thể tốt hơn, nhưng điều này dẫn đến khó khăn trong việc tìm ra giảipháp tối ưu do những hạn chế thực tế về thời gian Một số phương pháp heuristic, baogồm tối ưu hóa tuyến tính trong Bennett [1992], tối ưu hóa liên tục trong Bennett andBlue [1996], quy hoạch động trong Cox et al [1989]; Payne and Meisel [1977], giảithuật di truyền trong Son [1998], và các phương pháp dựa trên kỹ thuật giảm độ dốcngẫu nhiên (stochastic gradient descent) trong Norouzi et al [2015], được áp dụng đểphát triển cây chỉ trong một bước Tuy nhiên, việc tạo ra các cây tối ưu được chứngnhận trong thời gian thực tế bằng cách sử dụng các phương pháp heuristic vẫn còn làthách thức chưa có lời giải

Sự phát triển của các thuật toán và phần mềm tối ưu nguyên gần đây đã dẫn đến

sự xuất hiện của nhiều nghiên cứu xây dụng mô hình toán học cho bài toán cây quyếtđịnh Các mô hình toán học cho phép linh hoạt trong việc mô hình hóa các mục tiêu

và ràng buộc khác nhau, như tính công bằng và diễn giải, cũng như các ràng buộc vềquy tắc phân nhánh tuyến tính Rất nhiều phương pháp MIP gần đây đã được đề xuấttrong các nghiên cứu Tuy nhiên, do số lượng biến thường là cấp số mũ của dữ liệuhuấn luyện, Các mô hình quy hoạch nguyên thường giới hạn độ sâu của cây để cácphần mềm giải chúng có thể hoạt động hiệu quả

Bertsimas and Dunn [2017] xem xét cả phân tách quyết định đơn biến và đa biếnkhi xây dựng cây phân loại tối ưu Cấu trúc của cây không cố định mà được điều khiểnbởi một tham số của hàm mục tiêu Khi giá trị các tham số tăng lên, có thể sẽ dẫn đếnnhiều nút lá không ứng với dữ liệu nào và một số nút trong cũng không được gán bất

Copies for internal use only in Phenikaa University

Trang 16

kỳ thuộc tính nào Do đó, kỹ thuật cắt tỉa được kết hợp ngay trong quá trình xây dựngcây thông qua mô hình MIP, được gọi là OCT, thay vì thực hiện từng bước như trongcác phương pháp quy nạp từ trên xuống Kiểm thử cho thấy rằng OCT cung cấp mứccải thiện 1-2% về độ chính xác trên dữ liệu ngoài mẫu đối với các kiểm thử đơn biến

và cải thiện 3-5% đối với các kiểm thử đa biến

Gunluk et al [2016] đề xuất một mô hình MILP cho bài toán xây dựng cây phânloại dữ liệu có tính chất thuộc tính Bằng cách khai thác tính chất rời rạc của dữ liệu,các quyết định có thể được xác định dựa trên tổ hợp các kiểm tra tại mỗi nút Một lợithế của kỹ thuật này là số lượng biến số nguyên trong mô hình không phụ thuộc vàokích thước của dữ liệu đào tạo Bốn cấu hình cây được đề nghị và được đánh giá bằng

kỹ thuật xác thực chéo để tìm ra lựa chọn tốt nhất Các thử nghiệm chỉ ra rằng thuậttoán của họ vượt trội hơn CART về độ chính xác với các bộ dữ liệu nhỏ

Dash et al [2018] giới thiệu một mô hình ILP để học các quy tắc quyết địnhBoolean ở dạng chuẩn tắc tuyển hoặc dạng chuẩn tắc hội Mô hình được đề xuất hoạtđộng như một mô hình khả diễn để phân loại thông qua phương pháp sinh cột (columngeneration) Các tác giả xem xét sự đánh đổi giữa độ chính xác và tính đơn giản củacác quy tắc được chọn Kết quả tính toán cho thấy phương pháp sinh cột có khả năngcạnh tranh cao với các thuật toán hiện đại khác Áp dụng kỹ thuật tương tự, Firat et al.[2020] sử dụng lấy mẫu ngưỡng trên các nút quyết định để xây dựng cây phân lớp nhịphân đơn biến Cách tiếp cận của họ đánh đổi sự tối ưu để có được tốc độ xử lý cáctập dữ liệu lớn chứa hàng chục nghìn hàng dữ liệu

Verwer and Zhang [2017] đề xuất một cách mã hóa hiệu quả cho việc xây dựng cảcây phân loại và cây hồi quy của các phân tách đơn biến có độ sâu cho trước So vớiBertsimas and Dunn [2017], mô hình giảm số lượng biến quyết định từ hàm mũ sanghàm tuyến tính Phương pháp này thu được kết quả tốt trên các cây có độ sâu tối đa lànăm và các bộ dữ liệu nhỏ có kích thước tối đa 1000 Để tăng tốc quá trình học, cáctác giả đề xuất trong Verwer and Zhang [2019] mô hình quy hoạch nguyên nhị phân,

được gọi là BinOCT Kết quả thực nghiệm cho thấy BinOCT vượt trội hơn mô hình

toán học trong Bertsimas and Dunn [2017] trên các bộ dữ liệu mà có không quá 5000điểm dữ liệu cả về cả độ chính xác và thời gian tính toán

Gần đây, Aghaei et al [2020] đề xuất mô hình MIP FlowOCT dựa trên luồng để

học cây phân loại tối ưu với các thuộc tính nhị phân Cây được chuyển sang dạng đồthị bằng cách thêm nguồn, đích và các cạnh nối các nút của cây với đích Các điểm

dữ liệu có thể xem như luồng bắt đầu từ nguồn, đi qua nhiều nút trong và lá phù hợp,

Copies for internal use only in Phenikaa University

Trang 17

sau đó đến đích Các tác giả chỉ ra rằng mô hình liên tục tương ứng của họ mạnh hơn

so với các mô hình hiện có Thực nghiệm cho thấy FlowOCT tốt hơn các mô hình đã

có cả về chất lượng nghiệm trong mẫu và ngoài mẫu

Verhaeghe et al [2020] đề xuất hướng tiếp cận quy hoạch ràng buộc (ConstraintProgramming) để giải bài toán xây dựng cây quyết định tối ưu Ràng buộc độ sâu tối

đa và ràng buộc hỗ trợ tối thiểu được áp dụng với tìm kiếm nhánh cận bound search) Tuy nhiên, phương pháp này chỉ thích hợp đối với các bài toán phânloại hai lớp Kết quả kiểm thử cho thấy phương pháp này cung cấp lời giải cạnh tranh

(branch-and-so với BinOCT

Thuật toán DL8 được giới thiệu trong Nijssen and Fromont [2007, 2010] dựa trênmột nhóm ý tưởng khác với các mô hình dựa trên MIP Các tác giả áp dụng kỹ thuậtkhai phá dữ liệu để tìm kiếm trong không gian các đường đi khả thi một cách hiệu quả

và thực hiện quy hoạch động trên các đường đi đó để xây dựng cây quyết định tối ưu

Mô hình này vượt trội đáng kể so với các mô hình dựa trên MIP Trong Aglin et al

[2020], DL8.5 - một phiên bản cải tiến của DL8 được đề xuất với kỹ thuật tìm kiếm

nhánh cận và kỹ thuật lưu trữ tạm thời Thuật toán giúp cắt giảm phần lớn không giantìm kiếm bổ sung, một phương pháp lưu trữ bộ đệm mới để lưu trữ thông tin của củacác đường đi, và một loạt các kỹ thuật phân nhánh Thuật toán cho phép tìm cây quyếtđịnh tối ưu giúp giảm thiểu lỗi phân loại và cho thấy mô hình dựa trên các đường đivượt trội hơn so với các mô hình dựa trên MIP và CP

pháp

Bên cạnh mục tiêu tối ưu tỉ lệ phân loại chính xác và giảm thiểu lỗi phân loại sai,công việc phân loại còn nhiều yếu tố khác để xem xét như vấn đề chi phí Từ nhữngnăm 1990, các mô hình học máy nhạy cảm với chi phí dựa trên cây quyết định đãđược đề xuất trong Mookerjee and Dos Santos [1993]; Murphy and Benaroch [1997];Turney [1995] Trong những năm gần đây, việc xây dựng cây quyết định nhạy cảmvới chi phí là một chủ đề thú vị Lomax and Vadera [2013]; Kao and Tang [2014] Hailoại chi phí được nghiên cứu phổ biến là chi phí phân loại sai và chi phí kiểm tra Ví

dụ, việc phân loại một bệnh nhân ốm yếu thành khỏe mạnh thường nguy hiểm hơn sovới việc phân loại một trường hợp khỏe mạnh là trường hợp ốm yếu Do đó, chi phícủa lỗi phân loại Chen et al [2009]; Pendharkar [2014, 2015]; Wang et al [2014] có

Copies for internal use only in Phenikaa University

Trang 18

thể có độ mất cân bằng cao trong một số trường hợp thay vì được xử lý cân bằng nhưthường thấy của các tác vụ phân loại Ngoài ra, mỗi xét nghiệm có thể yêu cầu chiphí thực hiện liên quan Min et al [2014]; Yi et al [2011]., chẳng hạn như chi phí xétnghiệm máu, chụp X-quang hay chi phí siêu âm, v.v.

Nghiên cứu đầu tiên xem xét cả hai loại chi phí này là nghiên cứu của Turney[1995] Tác giả giới thiệu thuật toán di truyền có tên là Phân lớp ít tốn kém với kiểmthử đắt đỏ (Inexpensive Classification with Expensive Tests), cho phân loại nhạy cảmvới chi phí có hàm mục tiêu chứa cả chi phí kiểm thử và chi phí lỗi phân loại TrongLing et al [2004], tổng chi phí phân loại sai và chi phí kiểm thử được sử dụng để chọnthuộc tính Chai et al [2004] áp dụng chi phí kiểm tra và chi phí phân loại sai để huấnluyện các bộ phân lớp Bayes Sử dụng các kết quả trên, Yang et al [2006] đề xuất cấutrúc Học nhạy cảm với chi phí kiểm thử, gồm xây dựng mô hình và chiến lược kiểmtra, để xem xét việc tích hợp chi phí kiểm thử với việc xử lý các giá trị còn thiếu vào

mô hình

Sheng and Ling [2006] nghiên cứu các ràng buộc về thời gian trễ trong việc lấy kếtquả xét nghiệm y tế Các tác giả phát triển một thuật toán để giảm thiểu chi phí phânloại sai và chi phí mua dịch vụ kiểm thử cũng như chi phí thời gian trễ Nghiên cứucủa Zhang [2010] cũng đề cập đến vấn đề tương tự Deng and Jeong-Young [2014] đềxuất khái niệm "lợi ích phân loại đúng" và xây dựng cây quyết định dựa trên quy trìnhlợi ích kép chi phí và lợi ích Hướng tiếp cận này xây dựng được cây quyết định phânloại tối ưu với chi phí thấp nhất và lợi ích cao nhất thông qua giảm thiểu chi phí kiểmtra và chi phí phân loại sai, đồng thời tối đa hóa lợi ích phân loại đúng

Chen et al [2016] đề xuất bài toán quy nạp cây quyết định nhạy cảm với chi phí vàgiới hạn thời gian Các tác giả đề xuất một thuật toán sử dụng lợi ích thay cho thôngtin làm tiêu chí để chọn thuộc tính tách khi xây dựng cây quyết định Qiu et al [2017]giới thiệu độ đo lựa chọn thuộc tính tương thích đáp ứng đa mục tiêu và một phươngpháp đơn giản để xây dựng và kiểm thử cây quyết định Thuật toán này sử dụng độ

đo lựa chọn thuộc tính ngẫu nhiên, thay vì lựa chọn tham lam, để tìm thuộc tính thíchhợp kiểm tra tại mỗi nút của cây Thuật toán cũng sử dụng tìm kiếm ngẫu nhiên giúpgiảm chi phí kiểm tra và duy trì độ chính xác cao hơn Gần đây, Wu et al [2019] đềxuất xây dựng cây quyết định nhạy cảm về chi phí với nhiều hạn chế về tài nguyên.Thuật toán Cost-Sensitive Associative Tree (CAT) được triển khai để trích xuất và giữlại các luật phân lớp kết hợp từ tập đào tạo, sau đó sử dụng các luật này để tạo câycuối cùng Kết quả thực nghiệm cho thấy thuật toán CAT vượt trội so với các phương

Copies for internal use only in Phenikaa University

Trang 19

pháp tiếp cận từ trên xuống truyền thống khác.

Mặc dù tối ưu hóa chi phí đã được xem xét trong nhiều nghiên cứu trước đây, nhưngbài toán kết hợp chi phí và ràng buộc về thời gian mới chỉ được đề cập trong Chen

et al [2016] Trong nghiên cứu này, các tác giả tập trung vào việc xây dựng cây quyếtđịnh với điều kiện tác vụ phân loại phải được hoàn thành trong một khoảng thời giancho trước Các tác giả đề xuất một thuật toán chọn thuộc tính có giá trị nhất khi có

đủ thời gian và chọn thuộc tính có hiệu suất thời gian cao nhất khi thời gian hạn chế.Thực nghiệm cho thấy thuật toán đáp ứng tốt các ràng buộc khác nhau về thời giantrong khi giảm thiểu chi phí phân loại sai và chi phí kiểm tra

Hầu hết các thuật toán được đề xuất cho việc xây dựng cây quyết định nhạy cảmvới chi phí đều dựa trên các phương pháp xấp xỉ Các mô hình MIP vẫn chưa được

sử dụng phổ biến cho các biến thể này Các mô hình tiên được đề cập trong bài báoLiittschwager and Wang [1978] vào cuối những năm 1970 Mô hình này chỉ xem xétcác phân lớp nhạy cảm với chi phí nhỏ với hai thuộc tính và không quá 50 điểm dữliệu Trong Pendharkar [2015], năm kỹ thuật nhạy cảm với chi phí được đề cập Trong

số đó, quy hoạch nguyên hỗn hợp chi phí phân loại sai bất đối xứng (AMC-MIP) vàmáy vectơ hỗ trợ lai với quy hoạch nguyên hỗn hợp (SVMIP) là hai cách tiếp cận dựatrên mô hình quy hoạch nguyên

Từ các nghiên cứu trước, chúng tôi nhận thấy bài toán xây dựng cây quyết địnhnhạy cảm với chi phí và ràng buộc về thời gian là một chủ đề hay, nhưng chưa được

đề cập đến nhiều Cho đến nay, chưa có một phương pháp chính xác nào để tìm ramột cây quyết định tối ưu cho bài toán này Mặc dù các mô hình quy nguyên có nhữnghạn chế về độ phức tạp tính toán, các nghiệm xấp xỉ do chúng đưa ra có những lợi íchnhất định Pendharkar [2015] Thứ nhất, khi các nghiệm tối ưu có xu hướng quá khớpvới tập đào tạo và có khả năng khái quát hóa kém thì các nghiệm xấp xỉ có thể đượcchấp nhận Thứ hai, các nghiệm xấp xỉ là có ích cho các ứng dụng thực tiễn chứa các

bộ dữ liệu lớn khi mà việc tính toán phức tạp Thứ ba, nghiệm xấp xỉ do phần mềmđưa ra vẫn có thể là một nghiệm tốt, tối ưu; nhưng do hạn chế thời gian nên chưa thểchứng minh được Vì vậy, khóa luận đề xuất một mô hình toán học mới được thiết kếđặc biệt cho bài toán này Bên cạnh đó, khóa luận cũng đề xuất điều chỉnh các ràngbuộc về thời gian và chi phí trên các mô hình hiện có để so sánh kết quả của các môhình với nhau

Copies for internal use only in Phenikaa University

Trang 20

Chương 3 Mô hình toán học mới cho

việc xây dựng cây quyết định tối ưu nhạy cảm với chi phí

và ràng buộc về thời gian

Cây quyết định tối ưu truyền thống (Optimal Decision Tree) là một mô hình họcmáy sử dụng cây quyết định, được thiết kế để phân loại hoặc dự đoán dựa trên các đặctính của dữ liệu đầu vào Các điểm dữ liệu được phân loại dựa trên một loạt các quyếtđịnh dựa trên các thuộc tính của chúng Mỗi quyết định này tạo thành một "nút" trongcây quyết định, và các nhánh của cây dẫn đến các quyết định tiếp theo hoặc các nhãnphân loại cuối cùng Để xây dựng một cây quyết định truyền thống, ta sẽ có các yêucầu cơ bản như sau:

• Phân bổ thuộc tính (1): Chọn gán một thuộc tính hay không ở mỗi nút trong.

Tức là ở mỗi nút trong ta cần chọn xem nút đó có được gán thuộc tính hay không

• Lựa chọn Giá trị Phân nhánh (2): Nếu một nút trong được chọn để gán thuộc

tính, phải chọn giá trị (khai triển) của thuộc tính này để phân nhánh mà tại đóđiểm dữ liệu khi đi qua sẽ được rẽ nhánh

• Tạo Nút Lá (3): Nếu không có phân nhánh nào xảy ra tại một nút trong, nút đó

Trang 21

• Đường Đi qua Cây (5): Mỗi điểm dữ liệu phải đi qua một đường dẫn qua cây,

đến một nút lá cụ thể, đảm bảo rằng cấu trúc của cây được tôn trọng

Trong phần này, chúng tôi sẽ đề xuất một mô hình MIP để xây dựng các cây phânloại tối ưu truyền thống ở một độ sâu nhất định Lấy cảm hứng từ công trình củaBertsimas and Dunn [2017], việc xây dựng cây quyết định này sẽ dựa trên một số yêucầu bổ sung như sau ngoài các điều kiện cơ bản:

• Không Phân nhánh tại Nút Trong (6): Nếu không phân nhánh tại một nút

trong, các nút con của nó cũng bắt buộc không được gán bất kỳ thuộc tính nào(xem Hình 3.1)

• Chia sẻ Nút Trống giữa hai đường dẫn (7): Hai đường dẫn có chung một tập

các nút trong "rỗng", chúng phải phân loại cùng nhãn (lớp) (xem Hình 3.1) Vìvậy, chúng phải được đi qua bởi cùng một điểm dữ liệu

• Một điểm có thể đi qua nhiều hơn một đường dẫn (8) : Điều này có nghĩa làmột điểm dữ liệu có thể đi qua nhiều hơn một đường dẫn trong cây quyết định.Các yêu cầu số 6,7,8 là một cách tiếp cận mới chúng tôi đưa ra Với các tiếp cậntruyền thống, ta sẽ có yêu cầu: Nếu không có phân nhánh nào xảy ra tại một nút trong,

nút đó trở thành một nút lá - là yêu cầu số (3) ở trên Yêu cầu này sẽ dùng để cắt tỉa

cây khi một nút không được phân thuộc tính Các yêu cầu số 6,7,8 được dùng thay thếcho yêu cầu trên với mục đích thay vì cắt tỉa cây, chúng tôi sẽ biến các nút cần cắt tỉathành các nút "rỗng", qua đó giữ nguyên hình thái của cây, nhằm cho bài toán dễ môhình hơn

Hình 3.1 trình bày cách mô hình xây dựng cây quyết định và sử dụng nó để phânloại ba điểm dữ liệu i1, i2, và i3 Yêu cầu thứ nhất và thứ hai được mô hình giải quyếttại các nút 1,3,7 được gán các thuộc tính (trong ngưỡng của chúng) trong khi nút2,4,5,6 là nút “trống” Yêu cầu số bốn đảm bảo việc các nút là từ 8 đến 15 sẽ được gán

1 trong 2 nhãn là k1 hoặc k2 Trong khi đó, yêu cầu số năm thể hiện trong việc tạocác đường đi từ nút gốc đến các lá của cây cho các điểm dữ liệu Theo như yêu cầuthứ sáu, các nút 4 và 5 cũng phải là nút “trống” vì nút 2, cha của chúng không đượcgán bất kỳ thuộc tính nào Yêu cầu thứ bảy đảm bảo rằng tất cả các lá tương ứng vớinút 2 phải dự đoán cùng một nhãn Sau đó, điểm dữ liệu i1, được phân nhánh sangcây con bên trái tại nút 1, có thể đi qua tất cả các đường dẫn tương ứng với các lá 8, 9,

10 và 11 theo như yêu cầu cuối cùng Trên cây con bên phải của nút 1, điểm dữ liệu

Copies for internal use only in Phenikaa University

Trang 22

Hình 3.1: Xây dựng cây quyết định

i2 có thể đi qua hai đường dẫn đến lá 12, 13, trong khi điểm dữ liệu i3 chỉ có thể điđến lá 15

Xây dựng bài toán này bằng MIP cho phép mô hình hóa tất cả các yêu cầu trongmột bài toán duy nhất và xem xét toàn bộ tác động của các quyết định được đưa ra từnút gốc, thay vì chỉ đưa ra một loạt các quyết định tối ưu cục bộ Ngoài ra, việc ápdụng các yêu cầu số 6,7,8 vào mô hình để cân nhắc cây không cân bằng mà không cầnđến cắt tỉa cây Với ý tưởng xây dựng cây quyết định tối ưu qua các đường dẫn, thay vìcắt tỉa cây, chúng tôi sẽ thay thế các nút đó thành các nút "trống" nhằm bảo bảo hìnhthái đầy đủ của cây Cụ thể hơn, chúng tôi chia tập các nút trong thành tập các đườngdẫn từ gốc đến các lá Bằng cách này, chúng ta có thể xem xét việc gán thuộc tính chotất cả các nút trên mỗi đường dẫn cùng lúc thay vì quyết định phân nhánh riêng lẻ tạimỗi nút trong Ngoài ra, kỹ thuật này dẫn đến việc áp dụng các ràng buộc liên quanđến giới hạn thời gian mà không có tham số M-lớn trong phần tiếp theo

Copies for internal use only in Phenikaa University

Trang 23

Từ các yêu cầu trên, chúng tôi sẽ đề xuất một mô hình toán học mới để xây dựngcây quyết định gọi là PathOCT Các tập hợp, tham số và biến sử dụng trong mô hìnhđược tóm tắt trong Bảng 3.1.

Trang 24

Hàm mục tiêu (3.1a) nhằm tối đa hóa số lượng điểm dữ liệu được phân loại chínhxác với biến cil bằng 1 khi điểm i được phân loại đúng lại lá l và giảm thiểu số lượngthuộc tính được sử dụng với biến bf n bằng 1 khi thuộc tính f tồn tại tại nút trong n.Tham số chính quy hóa α nhằm giúp giải quyết mức độ phức tạp của vấn đề phátsinh Ta có thể thấy rằng, khi muốn tăng mức độ quan trọng của số lượng điểm dữliệu phân loại đúng, ta sẽ tăng tham số α lên và ngược lại khi muốn giảm thiểu sốlượng thuộc tính sử dụng Ràng buộc (3.1b) đảm bảo rằng mỗi nút chỉ được gán nhiềunhất là một thuộc tính Ràng buộc (3.1c) đảm bảo rằng mỗi thuộc tính xuất hiện nhiềunhất một lần trên mỗi đường dẫn để tránh gán những thuộc tính không cần thiết Ràngbuộc (3.1d) đảm bảo rằng mỗi đường dẫn chỉ phân loại một lớp Ràng buộc (3.1e)đảm bảo mỗi điểm dữ liệu chỉ được đi qua nhiều nhất một đường dẫn có nhãn đượcgán cùng lớp với nhãn của nó Ràng buộc (3.1f) đảm bảo mỗi điểm dữ liệu phải điqua ít nhất một đường dẫn trong cây Các ràng buộc (3.1g), (3.1h) đảm bảo rằng cácđiểm dữ liệu được phân loại chính xác nếu các đường dẫn mà chúng đi qua được gáncho cùng một lớp.

Các ràng buộc (3.1i) và (3.1j) dùng để gán đường dẫn phù hợp cho mỗi điểm dữliệu dựa trên bitset thể hiện đường dẫn, sự phân tách của các thuộc tính đã chọn tạimỗi nút trên đường dẫn và các giá trị thuộc tính tương ứng của điểm dữ liệu được cânnhắc Với ràng buộc (3.1i), ta sẽ đảm bảo rằng nếu Pl là đường dẫn đúng của điểm ithì điểm i bắt buộc phải đi đến là l với zil bằng 1 Ràng buộc (3.1j) sẽ đảm bảo nếu

Pl là không phải đường dẫn đúng của điểm i thì vế trái sẽ lớn hơn 1 và suy ra zil phảibằng 0 tức là i sẽ không đến lá l Các ràng buộc (3.1k), (3.1l) và (3.1m) chính là cácyêu cầu số 6,7 ở trên cho phép chuyển các nút trong thành các nút "trống" và đảm bảorằng hai đường dẫn chia sẻ chung một tập hợp các nút "trống" sẽ có cùng một nhãn.Ràng buộc (3.1k) đảm bảo rằng nếu một nút trong không được gán thuộc tính thì núttrước đó không chứa bất kỳ thuộc tính nào Theo đó, tất cả các nút con của nút trongkhông được gán thuộc tính sẽ bị gán là nút "trống" Nếu các nút bị gán là nút "trống",tất cả các đường dẫn có chung các nút đó phải phân loại cùng lớp Điều kiện này đượcthể hiện với các ràng buộc (3.1l) và (3.1m) Các ràng buộc (3.1n), (3.1o), (3.1p) và(3.1q) thiết lập các miền của biến quyết định được sử dụng trong mô hình

Copies for internal use only in Phenikaa University

Trang 25

Hình 3.2: Bitset ωnPl tương ứng với các lá l của cây

Mô hình (3.1) được đề xuất có nhiều đặc điểm khác biệt so với các mô hình MIPhiện có:

• Mỗi đường dẫn Pl được thể hiện bởi một bitset tương ứng với lá của nó (xemHình 3.2) Theo đó, mô hình có thể xem xét gán một tập các thuộc tính cho mộttập các nút trên mỗi đường dẫn bằng cách so sánh các tham số φif với ωnPl, thay

vì phân nhánh tại mỗi nút trong

• Mỗi điểm dữ liệu có thể tự do đi qua nhiều đường dẫn và tiếp cận nhiều hơn một

Trang 26

Biến Định nghĩa

b f n Bằng 1 nếu khai triển f phân nhánh tại nút n n, nếu không thì bằng 0

zil Bằng 1 nếu điểm dữ liệu i đạt tới lá l, nếu không thì bằng 0

a lk Bằng 1 nếu lá l dự đoán lớp k, nếu không thì bằng 0

cil Bằng 1 nếu điểm dữ liệu i được phân loại chính xác khi đạt tới lá l, nếu không thì bằng 0

eik Bằng 1 nếu điểm dữ liệu i được phân loại sai tới lớp k, nếu không thì bằng 0

Tham số

φif Bằng 1 nếu điểm dữ liệu i thoả mãn phân nhánh f , nếu không thì bằng 0

λi ∈ {1, , k}: lớp chính xác của điểm dữ liệu i

H Độ sâu của cây

ω nPl ∈ {0, 1}: thể hiện từng vị trí của nút trong n của mỗi đường dẫn P l

α ∈ [0, 1]: tham số phức tạp

δ f Chi phí phân nhánh f

ψλi k Chi phí phân loại sai dữ liệu i thuộc lớp λithành lớp k

ρ k Giới hạn thời gian của lớp k

σ f Thời gian phân nhánh f

A(n) Tập các ancestors của nút trong n

a(n) Nút cha của nút trong n

Bảng 3.1: Các biến quyết định, tham số và các tập hợp trong mô hình

Copies for internal use only in Phenikaa University

Trang 27

3.2 Các biến thể nhạy cảm với chi phí và ràng buộc về

thời gian

Trong thực tế, một tác vụ phân loại thường phải được hoàn thành trong một khoảngthời gian nhất định Ví dụ, kết quả chẩn đoán y tế của bệnh nhân phải được công khaitrước các lần điều trị hoặc hẹn khám tiếp theo Các quyết định trong các tình huốngkhẩn cấp (ví dụ: phát hiện bệnh tim, xét nghiệm COVID-19, ), đặc biệt phải đượcđưa ra nhanh chóng để hạn chế những nguy cơ tiềm ẩn Tương tự, các ràng buộc vềthời gian trong tác vụ phân loại còn có thể thấy trong các trường hợp phát hiện gianlận, yêu cầu phản hồi nhanh nhất có thể Hơn nữa, trong các trường hợp này, chi phíkiểm tra và phân loại sai có thể được coi là đáng để quan tâm Để giảm nguy cơ lâynhiễm, chi phí phát hiện sai ca dương tính với COVID-19 phải cao hơn chi phí pháthiện sai ca âm tính Chi phí kiểm thử và sử dụng các loại tài nguyên khác cũng là cácyếu tố quan trọng cần được cân nhắc kỹ lưỡng Ví dụ, xét nghiệm máu đòi hỏi tiêu tốnnhiều tiền bạc, nhân lực và thiết bị y tế

Trong phần này, từ mô hình PathOCT ở trên, chúng tôi đề xuất hai biến thể cho

các cây quyết định tối ưu nhạy cảm với chi phí và ràng buộc về thời gian, gọi là

BCS-PathOCT đối với mô hình xây dựng cây cân bằng và ICS-BCS-PathOCT đối với mô hình

xây dựng cây không cân bằng Mô hình trong phần trước được sửa đổi bằng cách bổsung các ràng buộc giới hạn về thời gian và tham số chi phí Hơn nữa, các biến quyếtđịnh liên quan đến số lượng điểm dữ liệu được phân loại chính xác cũng được thaythế bằng các điểm biểu thị lỗi phân loại sai

Cụ thể hơn, chúng tôi giả định rằng các tham số ρk và δf tương ứng biểu thị thờigian giới hạn của nhãn k (thời hạn hoàn thành tác vụ phân loại) và thời gian sử dụng

để thực hiện kiểm tra thuộc tính f (hay thời gian có được kết quả kiểm tra) Tổng thờigian tiêu tốn của tất cả các thuộc tính trên mỗi đường dẫn phải nhỏ hơn hoặc bằngthời gian giới hạn của nhãn được gán trên đường dẫn này Mặc dù các ràng buộc giớihạn thời gian và tham số chi phí được nhắc đến lần đầu tiên trong Chen et al [2016],nhưng kể từ đó, không có mô hình toán học nào được đề xuất cho cây quyết định nhạycảm với chi phí và ràng buộc về thời gian, như đã đề cập trong Chương 2 Hàm mụctiêu của bài toán sẽ được thay đổi thành (3.2a)

Copies for internal use only in Phenikaa University

Trang 28

3.2.1 Cây quyết định cân bằng

Cây quyết định cân bằng ở đây được định nghĩa là cây mà các nút trong của nó luônđược gán thuộc tính Việc sử dụng cây quyết định cân bằng có một số nhược điểm dogiới hạn về thời gian của các nhãn Sự tồn tại thời gian giới hạn sẽ làm cho khả nănggán các thuộc tính cho các nút trong của cây quyết định cân bằng giảm đi Khi thờigian bị giới hạn, có thể sẽ không xây dựng được cây có tất cả các nút trong được gánthuộc tính Chúng ta có thể giải quyết vấn đề này bằng cách xây dựng các cây quyếtđịnh không cân bằng, luôn cho ra các nghiệm có thể dự đoán ngay lập tức các điểm

dữ liệu tại nút gốc Do đó, thời gian tính toán các thuộc tính và độ sâu của cây khôngảnh hưởng đến khả năng tìm ra nghiệm Tuy nhiên, do không gian tìm kiếm nhỏ hơn(ví dụ: không quyết định việc có gán các thuộc tính cho các nút hay không, không cóquá trình cắt tỉa, ), việc lập phương trình toán học xây dựng cây quyết định cân bằng

có thể đưa ra thời gian chạy ngắn hơn so với việc xây dựng cây không cân bằng Trongđiều kiện thời gian giới hạn và chi phí của các thuộc tính thấp, phương án cây quyếtđịnh cân bằng là hữu ích và có thể chấp nhận được

Tất cả các nút trong của cây quyết định cân bằng phải được gán các thuộc tính.Chính vì vậy ràng buộc (3.1b) được chuyển thành phương trình với tổng bf n của cácthuộc tính bằng 1 với mọi nút trong Hơn nữa, các ràng buộc (3.1c), (3.1k) và (3.1l)

sẽ bị loại bỏ vì cây không tồn tại các nút "trống" nên các ràng buộc dùng để chuyểnnút con thành nút "trống" và hợp nhất các lá không được sử dụng Do không có cácràng buộc trên, một thuộc tính có thời gian tiêu tốn ngắn có thể được sử dụng lại thay

vì chọn các thuộc tính khác có thời gian tiêu tốn lâu hơn Do đó, mô hình cho phépgán cùng một thuộc tính cho nhiều nút trên một đường dẫn để giảm khả năng khôngtìm thấy nghiệm nào Điều này có thể tránh rủi ro tồn tại một đường dẫn có giá trị tốithiểu của tổng thời gian tiêu tốn lớn hơn thời gian giới hạn của tất cả các nhãn Ngoài

ra, so với mô hình PathOCT, các ràng buộc liên quan đến biến cil cũng sẽ được loại bỏ

vì hàm mục tiêu đã được thay đổi sang biến eik Biến δf cũng được sử dụng trong hàmmục tiêu để tính toán chi phí tiêu tốn của các thuộc tính.Copies for internal use only in Phenikaa University

Ngày đăng: 17/07/2024, 11:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w