Khóa luận đề xuất xây dựng cây quyết định tối ưu trong đó xem xét các yếu tốchi phí và ràng buộc về thời gian thông qua phương pháp quy hoạch nguyên hỗn hợp.Khóa luận cải tiến cải tiến c
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC PHENIKAA
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC PHENIKAA
LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Vũ Đức MinhPGS.TS Hà Minh Hoàng
Hà Nội, 04/2024
Copies for internal use only in Phenikaa University
Trang 3Lời cảm ơn
Đầu tiên, em xin gửi lời cảm ơn chân thành tới TS Vũ Đức Minh và PGS.TS HàMinh Hoàng đã cho em cơ hội được học tập và nghiên cứu tại khoa Công nghệ thôngtin trường Đại học Phenikaa cũng như phòng thí nghiệm Tối ưu hóa các Hệ thống lớnOrlab Em cũng xin cảm ơn ThS Phạm Hoàng Giang đã giúp đỡ em rất nhiều trongquá trình làm luận văn Sự hướng dẫn, hỗ trợ, động viên và tạo điều kiện của các thầy
đã giúp em nghiên cứu hoàn thành khóa luận này
Em xin cảm ơn các thầy, cô trong khoa Công nghệ thông tin, các thầy cô trườngĐại học Phenikaa đã định hướng, giúp đỡ em trong suốt quá trình học tập và nghiêncứu tại trường
Bên cạnh đó, em xin cảm ơn bạn bè tại trường Đại học Phenikaa, các thành viênOrlab đã giúp đỡ, đồng hành cùng em suốt gần 2 năm qua Em xin chân thành cảm ơn!
Hà Nội, ngày tháng năm
Copies for internal use only in Phenikaa University
Trang 4Lời cam kết
Tôi xin cam đoan những kiến thức được trình bày trong khóa luận "Xây dựng câyquyết định có trọng số cho dự đoán sai với ràng buộc về tài nguyên bằng mô hình quyhoạch nguyên tuyến tính hỗn hợp" này là do tôi tìm hiểu và triển khai dưới sự hướngdẫn của TS Vũ Đức Minh và PGS.TS Hà Minh Hoàng và sự giúp đỡ của ThS PhạmHoàng Giang
Tất cả các tham khảo từ các tài liệu liên quan đều được tôi nêu ra một cách rõ ràngtrong danh mục tài liệu tham khảo Trong khóa luận không có việc sao chép tài liệu,công trình nghiên cứu của người khác mà không chỉ rõ về nguồn gốc của tài liệu.Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!
Hà Nội, ngày tháng năm
Copies for internal use only in Phenikaa University
Trang 5Tóm tắt
Khóa luận nghiên cứu bài toán xây dựng cây quyết định có trọng số cho dự đoán saivới các ràng buộc về tài nguyên bằng mô hình quy hoạch tuyến tính Bài toán này xuấthiện ở nhiều nơi, trong đó có thể kể đến bài toán thực hiện 1 dãy các xét nghiệm máunhằm xác định bệnh nhân có mắc một loại bệnh hay không dựa vào kết quả của xétnghiệm trước đó Việc thực hiện xét nghiệm không chỉ tiêu tốn nhiều loại tài nguyên(con người, trang thiết bị, ) mà còn phát sinh nhiều chi phí về tiền bạc, thời gian Bêncạnh đó, việc phân loại sai trường hợp dương tính thành trường hợp âm tính cần đượcgiảm thiểu nhằm hạn chế những ảnh hưởng nghiêm trọng do xét nghiệm sai đối vớibệnh nhân Mặc đã có nhiều nghiên cứu về cách xây dựng cây quyết định từ dữ liệuđào tạo để giảm thiểu chi phí (liên quan phân việc loại sai và chi phí kiểm thử), nhưngchưa có nghiên cứu nào về cách xây dựng cây quyết định tối ưu với các giới hạn thờigian, mà điều này rất cần thiết trong các trường hợp tài nguyên về thời gian bị hạnchế Khóa luận đề xuất xây dựng cây quyết định tối ưu trong đó xem xét các yếu tốchi phí và ràng buộc về thời gian thông qua phương pháp quy hoạch nguyên hỗn hợp.Khóa luận cải tiến cải tiến các mô hình đã có để có thể bổ sung được các ràng buộcthời gian, ràng buộc về chi phí phân loại sai và ràng buộc về chi phí các thuộc tínhđược lựa chọn Ngoài ra, khóa luận cũng đề xuất các mô hình toán học mới được thiết
kế riêng cho các bài toán nghiên cứu Chúng tôi báo cáo các kết quả thực nghiệm vềhiệu suất của các mô hình đề xuất; và chúng tôi đánh giá ảnh hưởng các ràng buộc vềthời gian và chi phí đối với quá trình xác định và chứng minh các nghiệm tối ưu
Copies for internal use only in Phenikaa University
Trang 6Mục lục
2.1 Cây quyết định tối ưu & phương pháp 14
2.2 Cây quyết định nhạy cảm với chi phí & phương pháp 17
3 Mô hình toán học mới cho việc xây dựng cây quyết định tối ưu nhạy cảm với chi phí và ràng buộc về thời gian 20 3.1 Cây quyết định tối ưu truyền thống 20
3.2 Các biến thể nhạy cảm với chi phí và ràng buộc về thời gian 27
3.2.1 Cây quyết định cân bằng 28
3.2.2 Cây quyết định không cân bằng 30
4 Sự điều chỉnh thời gian giới hạn và chi phí thuộc tính cho các mô hình hiện có 32 4.1 Sự điều chỉnh thời gian giới hạn và chi phí thuộc tính cho FlowOCT 32 4.1.1 Cây quyết định cân bằng 32
4.1.2 Cây quyết định không cân bằng 34
4.2 Sự điều chỉnh thời gian giới hạn và chi phí thuộc tính cho BinOCT 36
Copies for internal use only in Phenikaa University
Trang 75 Kết quả 39
5.1 So sánh cỡ của các mô hình MIP 39
5.2 Thiết lập thực nghiệm 40
5.3 So sánh hiệu suất của các mô hình MIP 42
5.4 Kết luận và hướng phát triển 44
Copies for internal use only in Phenikaa University
Trang 8Danh sách ký hiệu
OCT Optimal Classification Tree
BCS Balanced Cost Sensitive
ICS Imbalanced Cost Sensitive
CS Cost Sensitive
CAT Cost-Sensitive Associative Tree
MIP Mixed-Integer Programming
Copies for internal use only in Phenikaa University
Trang 9descent Kỹ thuật giảm độ dốc ngẫu nhiên
Column generation Phương pháp sinh cột
Copies for internal use only in Phenikaa University
Trang 10Danh sách hình vẽ
3.1 Xây dựng cây quyết định 223.2 Bitset ωnPl tương ứng với các lá l của cây 253.3 BCS-PathOCT v.s ICS-PathOCT 304.1 Mô hình ICS-PathOCT và ICS-FlowOCT xây dựng cây quyết địnhkhông cân bằng 345.1 Kết quả của các mô hình ICS 425.2 Kết quả của các mô hình BCS 43
Copies for internal use only in Phenikaa University
Trang 11Danh sách bảng
3.1 Các biến quyết định, tham số và các tập hợp trong mô hình 26
4.1 Các biến quyết định trong FlowOCT 34
4.2 Các biến quyết định, tham số và tập hợp trong BinOCT 38
5.1 Độ phức tạp của các mô hình toán học 39
5.2 Bộ dữ liệu sử dụng 40
6.1 Kết quả của mô hình ICS 51
6.2 Kết quả của mô hình ICS 52
6.3 Kết quả của mô hình ICS 53
6.4 Kết quả của mô hình BCS 54
6.5 Kết quả của mô hình BCS 55
6.6 Kết quả của mô hình BCS 56
Copies for internal use only in Phenikaa University
Trang 12Chương 1 Giới thiệu
Cây quyết định là một trong những kỹ thuật học máy quan trọng được sử dụng rộngrãi trong bài toán phân lớp dữ liệu Với cấu trúc là cây nhị phân, cây quyết định đượcxây dựng dựa trên các phân vùng dữ liệu đào tạo bằng cách đệ quy và gán nhãn chotừng phân vùng Sau đó, cây quyết định có thể phân loại một dữ liệu mới bằng cáchxuất phát từ gốc và đi xuống các nút con dựa vào kết quả so sánh giữa dữ liệu vào vàthông tin tại các nút Quá trình này lặp lại cho đến khi gặp nút lá và nhãn nút lá chính
là kết quả của việc phân lớp Một ưu điểm chính của cây quyết định là tính chính xáccủa việc phân lớp thông qua việc thiết kế các thông tin hiệu quả cho các nút trong củacây quyết định
Mục tiêu trong việc thiết kế các cây quyết định tối ưu là chọn ra các thuộc tính để
sử dụng tại mỗi nút trong và các nhãn để gán cho mỗi lá nhằm tối đa hóa độ chính xáccủa dự đoán hay nói một cách khác là giảm thiểu việc dự đoán sai Một trong nhữngcách xây dựng cây quyết định truyền thống là dựa vào thuật toán tham lam mà điểnhình là các thuật toán CART, C4.5 và ID3 Đây là cách tiếp cận đệ quy, xuất phát từmột nút gốc, sau đó giải bài toán tối ưu trên một tập con các bộ dữ liệu đào tạo tại
để xác định nhãn các nút con một cách tốt nhất theo một nghĩa đó Quá trình này kếtthúc khi một điều kiện dừng nào đó được thỏa mãn Thuật toán tham lam có ưu thếlớn về tốc độ thực thi nhưng các cây quyết định được tạo nên từ các thuật toán nàykhông đảm bảo tối ưu theo các tiêu chí của nó
Khóa luận đề xuất mô hình quy hoạch nguyên cho bài toán xây dựng cây quyếtđịnh tối ưu và sử dụng sử dụng công cụ giải bài toán quy hoạch nguyên như CPLEX
để hỗ trợ tìm ra cây quyết định như vậy Ưu điểm của việc sử dụng mô hình quy hoạchnguyên là cho phép mô hình hóa nhiều loại ràng buộc phức tạp của đề bài thông quacác ràng buộc tuyến tính Sau đó, trong phần thực nghiệm, khóa luận sử dụng cácphần mềm hiện đại như CPLEX để giúp tìm kiếm nhanh chóng cây quyết định tối ưuthông qua mô hình đề xuất
Copies for internal use only in Phenikaa University
Trang 13Nội dung của khóa luận bao gồm:
• Giới thiệu về bài toán xây dựng cây quyết định có ràng buộc về thời gian và nhạycảm với chi phí Trong phần này, khóa luận giới thiệu các ràng buộc về giới hạnthời gian và cũng như ràng buộc về chi phí của các thuộc tính trong quá trình xâydựng cây phân lớp
• Đề xuất mô hình quy hoạch nguyên mới (PathOCT) cho việc xây dựng cây quyết
định tối ưu nhạy cảm với chi phí và ràng buộc về thời gian với độ sâu cho trước
Mô hình chia tập hợp các nút trong thành tập hợp các đường dẫn từ gốc cây đếncác lá Thay vì tìm các hướng đi của từng điểm dữ liệu tại mỗi nút trong, các môhình xem xét một tập hợp các khai triển tương ứng với mỗi đường dẫn và kiểmtra tính khả thi của một điểm dữ liệu trong việc đi qua đường dẫn này Kỹ thuậtnày giúp giảm kích thước của mô hình toán học, đồng thời cho phép áp dụng cácràng buộc cắt tỉa đối để xây dựng các cây quyết định không cân bằng
• Thực nghiệm và báo cáo kết quả xây dựng cây quyết định cho bài toán đượcnghiên cứu trong khóa luận Bên cạnh đó, khóa luận cũng so sánh với các mô
hình hiện có như FlowOCT trong Aghaei et al [2020] và BinOCT trong Verwer
and Zhang [2019] thông qua việc điều chỉnh các tham số và ràng buộc của môhình đề xuất Từ việc phân tích kết quả các mô hình đưa ra, khóa luận đưa ranhận xét về những ưu và nhược điểm của các mô hình đề xuất khi bổ sung thêmràng buộc về thời gian và chi phí
Bên cạnh phần mở đầu, khóa luận gồm các chương chính như sau Chương 2 nêutổng quan các nghiên cứu có liên quan và thảo luận về các thuật toán trong việc xâydựng cây quyết định nhạy cảm với chi phí - ràng buộc về tài nguyên Chương 3 đềxuất mô hình toán học mới và các khái niệm quan trọng cho bài toán cây quyết địnhtối ưu Chương 4 trình bày về việc làm sao chúng tôi có thể thu được các mô hình
đã có thông qua việc điều chỉnh các giới hạn thời gian và chi phí của các thuộc tính.Chương 5 báo cáo kết quả thực nghiệm và kết luận; gồm có việc so sánh các kết quảgiữa các mô hình, kết luận và đề xuất các hướng phát triển trong tương lai
Copies for internal use only in Phenikaa University
Trang 14Chương 2 Tổng quan nghiên cứu
Phân lớp dữ liệu là một bài toán quan trọng trong lĩnh vực trí tuệ nhân tạo, trong
đó dữ liệu tương lai sẽ được dự đoán bởi các mô hình được tạo lập từ các dữ liệu huấnluyện Một số kỹ thuật phân lớp phổ biến có thể kể đến gồm có: phân lớp dựa vàocây quyết định, bộ phân lớp Bayesian, bộ phân lớp mạng Neural và lập luận theo tìnhhuống Trong các phương pháp này, cây quyết định là phương pháp có khả năng biểudiễn các cấu trúc phức tạp và có hiệu quả tính toán cao, cùng với khả năng tạo ra cácquy tắc phân lớp dễ hiểu Vì vậy, khóa luận lựa chọn xây dựng cây quyết định tối ưu
để phù hợp với các ràng buộc phức tạp thường xảy ra trong các bài toán y tế mà khóaluận hướng tới
Hyafil and Rivest [1976] chỉ ra rằng bài toán xây dựng cây quyết định tối ưu chính
là một bài toán tối ưu tổ hợp NP-khó với số biến quyết định theo cấp số nhân của dữliệu đầu vào Do là bài toán NP-khó, nhiều tác giả đã đề xuất các thuật toán xấp xỉ,tham lam hoặc tối ưu top-down trong đó có thể kể đến Breiman et al [1984]; Quinlan[1986, 1993] Breiman et al [1984]
Điểm yếu của phương pháp tham lam là việc phân tách nút trong của cây quyếtđịnh được xác định một cách độc lập và cục bộ mà không xem xét tác động có thể
có của các lần phân tách tiếp theo Vì yếu tố cục bộ, việc giảm thiểu độ sai lệch tạinút phân nhánh riêng lẻ không thể xem xét hết các các đặc điểm của bộ dữ liệu huấnluyện và do đó, có khả năng dẫn đến hiệu suất phân lớp kém với các dữ liệu thực tế.Một nhược điểm của phương pháp quy nạp từ trên xuống là cần có các quy tắc cắttỉa cây để bỏ đi những nhánh không hiệu quả Do các phương pháp này không thểxem xét đầy đủ các hình phạt (penalties) đối với độ phức tạp của cây, các phân táchmạnh có thể ẩn sau các phân tách yếu hơn trong khi phát triển cây Khi hình phạt độ
Copies for internal use only in Phenikaa University
Trang 15phức tạp (complexity penalty) quá cao, sự phân tách yếu hơn đầu tiên có thể bị ngănkhông cho chọn, từ đó không tạo được cây tốt hơn Để khắc phục nhược điểm này,quá trình huấn luyện diễn ra theo hai giai đoạn, phát triển cây càng sâu càng tốt thôngqua một loạt các quyết định tham lam, sau đó cắt tỉa cây bằng cách sử dụng hình phạt
độ phức tạp Để giải quyết vấn đề phân tách mạnh bị ẩn đằng sau phân tách yếu hơn,các phương pháp heuristic thường được sử dụng, chẳng hạn như một số thiết kế cảitiến của ID3: IDX đề xuất bởi Norton [1989], LSID3 và ID3-k đề xuất bởi Esmeir andMarkovitch [2007], nhằm tìm ra các phân tách mới dựa trên việc tối ưu hóa các câysâu hơn bắt nguồn từ lá hiện tại, thay vì chỉ tối ưu hóa phân tách đơn lẻ Tuy nhiên,trong Murthy and Salzberg [1995] các tác giả chỉ ra rằng các phương pháp này khôngđảm bảo sẽ tạo ra các cây có khả năng khái quát hóa tốt hơn và đồng thời tránh cáigọi là sự tiên đoán trong việc xây dựng cây quyết định
Mặc dù việc kết hợp giai đoạn xây dựng và cắt tỉa trong việc phát triển cây quyếtđịnh vốn dĩ có thể tốt hơn, nhưng điều này dẫn đến khó khăn trong việc tìm ra giảipháp tối ưu do những hạn chế thực tế về thời gian Một số phương pháp heuristic, baogồm tối ưu hóa tuyến tính trong Bennett [1992], tối ưu hóa liên tục trong Bennett andBlue [1996], quy hoạch động trong Cox et al [1989]; Payne and Meisel [1977], giảithuật di truyền trong Son [1998], và các phương pháp dựa trên kỹ thuật giảm độ dốcngẫu nhiên (stochastic gradient descent) trong Norouzi et al [2015], được áp dụng đểphát triển cây chỉ trong một bước Tuy nhiên, việc tạo ra các cây tối ưu được chứngnhận trong thời gian thực tế bằng cách sử dụng các phương pháp heuristic vẫn còn làthách thức chưa có lời giải
Sự phát triển của các thuật toán và phần mềm tối ưu nguyên gần đây đã dẫn đến
sự xuất hiện của nhiều nghiên cứu xây dụng mô hình toán học cho bài toán cây quyếtđịnh Các mô hình toán học cho phép linh hoạt trong việc mô hình hóa các mục tiêu
và ràng buộc khác nhau, như tính công bằng và diễn giải, cũng như các ràng buộc vềquy tắc phân nhánh tuyến tính Rất nhiều phương pháp MIP gần đây đã được đề xuấttrong các nghiên cứu Tuy nhiên, do số lượng biến thường là cấp số mũ của dữ liệuhuấn luyện, Các mô hình quy hoạch nguyên thường giới hạn độ sâu của cây để cácphần mềm giải chúng có thể hoạt động hiệu quả
Bertsimas and Dunn [2017] xem xét cả phân tách quyết định đơn biến và đa biếnkhi xây dựng cây phân loại tối ưu Cấu trúc của cây không cố định mà được điều khiểnbởi một tham số của hàm mục tiêu Khi giá trị các tham số tăng lên, có thể sẽ dẫn đếnnhiều nút lá không ứng với dữ liệu nào và một số nút trong cũng không được gán bất
Copies for internal use only in Phenikaa University
Trang 16kỳ thuộc tính nào Do đó, kỹ thuật cắt tỉa được kết hợp ngay trong quá trình xây dựngcây thông qua mô hình MIP, được gọi là OCT, thay vì thực hiện từng bước như trongcác phương pháp quy nạp từ trên xuống Kiểm thử cho thấy rằng OCT cung cấp mứccải thiện 1-2% về độ chính xác trên dữ liệu ngoài mẫu đối với các kiểm thử đơn biến
và cải thiện 3-5% đối với các kiểm thử đa biến
Gunluk et al [2016] đề xuất một mô hình MILP cho bài toán xây dựng cây phânloại dữ liệu có tính chất thuộc tính Bằng cách khai thác tính chất rời rạc của dữ liệu,các quyết định có thể được xác định dựa trên tổ hợp các kiểm tra tại mỗi nút Một lợithế của kỹ thuật này là số lượng biến số nguyên trong mô hình không phụ thuộc vàokích thước của dữ liệu đào tạo Bốn cấu hình cây được đề nghị và được đánh giá bằng
kỹ thuật xác thực chéo để tìm ra lựa chọn tốt nhất Các thử nghiệm chỉ ra rằng thuậttoán của họ vượt trội hơn CART về độ chính xác với các bộ dữ liệu nhỏ
Dash et al [2018] giới thiệu một mô hình ILP để học các quy tắc quyết địnhBoolean ở dạng chuẩn tắc tuyển hoặc dạng chuẩn tắc hội Mô hình được đề xuất hoạtđộng như một mô hình khả diễn để phân loại thông qua phương pháp sinh cột (columngeneration) Các tác giả xem xét sự đánh đổi giữa độ chính xác và tính đơn giản củacác quy tắc được chọn Kết quả tính toán cho thấy phương pháp sinh cột có khả năngcạnh tranh cao với các thuật toán hiện đại khác Áp dụng kỹ thuật tương tự, Firat et al.[2020] sử dụng lấy mẫu ngưỡng trên các nút quyết định để xây dựng cây phân lớp nhịphân đơn biến Cách tiếp cận của họ đánh đổi sự tối ưu để có được tốc độ xử lý cáctập dữ liệu lớn chứa hàng chục nghìn hàng dữ liệu
Verwer and Zhang [2017] đề xuất một cách mã hóa hiệu quả cho việc xây dựng cảcây phân loại và cây hồi quy của các phân tách đơn biến có độ sâu cho trước So vớiBertsimas and Dunn [2017], mô hình giảm số lượng biến quyết định từ hàm mũ sanghàm tuyến tính Phương pháp này thu được kết quả tốt trên các cây có độ sâu tối đa lànăm và các bộ dữ liệu nhỏ có kích thước tối đa 1000 Để tăng tốc quá trình học, cáctác giả đề xuất trong Verwer and Zhang [2019] mô hình quy hoạch nguyên nhị phân,
được gọi là BinOCT Kết quả thực nghiệm cho thấy BinOCT vượt trội hơn mô hình
toán học trong Bertsimas and Dunn [2017] trên các bộ dữ liệu mà có không quá 5000điểm dữ liệu cả về cả độ chính xác và thời gian tính toán
Gần đây, Aghaei et al [2020] đề xuất mô hình MIP FlowOCT dựa trên luồng để
học cây phân loại tối ưu với các thuộc tính nhị phân Cây được chuyển sang dạng đồthị bằng cách thêm nguồn, đích và các cạnh nối các nút của cây với đích Các điểm
dữ liệu có thể xem như luồng bắt đầu từ nguồn, đi qua nhiều nút trong và lá phù hợp,
Copies for internal use only in Phenikaa University
Trang 17sau đó đến đích Các tác giả chỉ ra rằng mô hình liên tục tương ứng của họ mạnh hơn
so với các mô hình hiện có Thực nghiệm cho thấy FlowOCT tốt hơn các mô hình đã
có cả về chất lượng nghiệm trong mẫu và ngoài mẫu
Verhaeghe et al [2020] đề xuất hướng tiếp cận quy hoạch ràng buộc (ConstraintProgramming) để giải bài toán xây dựng cây quyết định tối ưu Ràng buộc độ sâu tối
đa và ràng buộc hỗ trợ tối thiểu được áp dụng với tìm kiếm nhánh cận bound search) Tuy nhiên, phương pháp này chỉ thích hợp đối với các bài toán phânloại hai lớp Kết quả kiểm thử cho thấy phương pháp này cung cấp lời giải cạnh tranh
(branch-and-so với BinOCT
Thuật toán DL8 được giới thiệu trong Nijssen and Fromont [2007, 2010] dựa trênmột nhóm ý tưởng khác với các mô hình dựa trên MIP Các tác giả áp dụng kỹ thuậtkhai phá dữ liệu để tìm kiếm trong không gian các đường đi khả thi một cách hiệu quả
và thực hiện quy hoạch động trên các đường đi đó để xây dựng cây quyết định tối ưu
Mô hình này vượt trội đáng kể so với các mô hình dựa trên MIP Trong Aglin et al
[2020], DL8.5 - một phiên bản cải tiến của DL8 được đề xuất với kỹ thuật tìm kiếm
nhánh cận và kỹ thuật lưu trữ tạm thời Thuật toán giúp cắt giảm phần lớn không giantìm kiếm bổ sung, một phương pháp lưu trữ bộ đệm mới để lưu trữ thông tin của củacác đường đi, và một loạt các kỹ thuật phân nhánh Thuật toán cho phép tìm cây quyếtđịnh tối ưu giúp giảm thiểu lỗi phân loại và cho thấy mô hình dựa trên các đường đivượt trội hơn so với các mô hình dựa trên MIP và CP
pháp
Bên cạnh mục tiêu tối ưu tỉ lệ phân loại chính xác và giảm thiểu lỗi phân loại sai,công việc phân loại còn nhiều yếu tố khác để xem xét như vấn đề chi phí Từ nhữngnăm 1990, các mô hình học máy nhạy cảm với chi phí dựa trên cây quyết định đãđược đề xuất trong Mookerjee and Dos Santos [1993]; Murphy and Benaroch [1997];Turney [1995] Trong những năm gần đây, việc xây dựng cây quyết định nhạy cảmvới chi phí là một chủ đề thú vị Lomax and Vadera [2013]; Kao and Tang [2014] Hailoại chi phí được nghiên cứu phổ biến là chi phí phân loại sai và chi phí kiểm tra Ví
dụ, việc phân loại một bệnh nhân ốm yếu thành khỏe mạnh thường nguy hiểm hơn sovới việc phân loại một trường hợp khỏe mạnh là trường hợp ốm yếu Do đó, chi phícủa lỗi phân loại Chen et al [2009]; Pendharkar [2014, 2015]; Wang et al [2014] có
Copies for internal use only in Phenikaa University
Trang 18thể có độ mất cân bằng cao trong một số trường hợp thay vì được xử lý cân bằng nhưthường thấy của các tác vụ phân loại Ngoài ra, mỗi xét nghiệm có thể yêu cầu chiphí thực hiện liên quan Min et al [2014]; Yi et al [2011]., chẳng hạn như chi phí xétnghiệm máu, chụp X-quang hay chi phí siêu âm, v.v.
Nghiên cứu đầu tiên xem xét cả hai loại chi phí này là nghiên cứu của Turney[1995] Tác giả giới thiệu thuật toán di truyền có tên là Phân lớp ít tốn kém với kiểmthử đắt đỏ (Inexpensive Classification with Expensive Tests), cho phân loại nhạy cảmvới chi phí có hàm mục tiêu chứa cả chi phí kiểm thử và chi phí lỗi phân loại TrongLing et al [2004], tổng chi phí phân loại sai và chi phí kiểm thử được sử dụng để chọnthuộc tính Chai et al [2004] áp dụng chi phí kiểm tra và chi phí phân loại sai để huấnluyện các bộ phân lớp Bayes Sử dụng các kết quả trên, Yang et al [2006] đề xuất cấutrúc Học nhạy cảm với chi phí kiểm thử, gồm xây dựng mô hình và chiến lược kiểmtra, để xem xét việc tích hợp chi phí kiểm thử với việc xử lý các giá trị còn thiếu vào
mô hình
Sheng and Ling [2006] nghiên cứu các ràng buộc về thời gian trễ trong việc lấy kếtquả xét nghiệm y tế Các tác giả phát triển một thuật toán để giảm thiểu chi phí phânloại sai và chi phí mua dịch vụ kiểm thử cũng như chi phí thời gian trễ Nghiên cứucủa Zhang [2010] cũng đề cập đến vấn đề tương tự Deng and Jeong-Young [2014] đềxuất khái niệm "lợi ích phân loại đúng" và xây dựng cây quyết định dựa trên quy trìnhlợi ích kép chi phí và lợi ích Hướng tiếp cận này xây dựng được cây quyết định phânloại tối ưu với chi phí thấp nhất và lợi ích cao nhất thông qua giảm thiểu chi phí kiểmtra và chi phí phân loại sai, đồng thời tối đa hóa lợi ích phân loại đúng
Chen et al [2016] đề xuất bài toán quy nạp cây quyết định nhạy cảm với chi phí vàgiới hạn thời gian Các tác giả đề xuất một thuật toán sử dụng lợi ích thay cho thôngtin làm tiêu chí để chọn thuộc tính tách khi xây dựng cây quyết định Qiu et al [2017]giới thiệu độ đo lựa chọn thuộc tính tương thích đáp ứng đa mục tiêu và một phươngpháp đơn giản để xây dựng và kiểm thử cây quyết định Thuật toán này sử dụng độ
đo lựa chọn thuộc tính ngẫu nhiên, thay vì lựa chọn tham lam, để tìm thuộc tính thíchhợp kiểm tra tại mỗi nút của cây Thuật toán cũng sử dụng tìm kiếm ngẫu nhiên giúpgiảm chi phí kiểm tra và duy trì độ chính xác cao hơn Gần đây, Wu et al [2019] đềxuất xây dựng cây quyết định nhạy cảm về chi phí với nhiều hạn chế về tài nguyên.Thuật toán Cost-Sensitive Associative Tree (CAT) được triển khai để trích xuất và giữlại các luật phân lớp kết hợp từ tập đào tạo, sau đó sử dụng các luật này để tạo câycuối cùng Kết quả thực nghiệm cho thấy thuật toán CAT vượt trội so với các phương
Copies for internal use only in Phenikaa University
Trang 19pháp tiếp cận từ trên xuống truyền thống khác.
Mặc dù tối ưu hóa chi phí đã được xem xét trong nhiều nghiên cứu trước đây, nhưngbài toán kết hợp chi phí và ràng buộc về thời gian mới chỉ được đề cập trong Chen
et al [2016] Trong nghiên cứu này, các tác giả tập trung vào việc xây dựng cây quyếtđịnh với điều kiện tác vụ phân loại phải được hoàn thành trong một khoảng thời giancho trước Các tác giả đề xuất một thuật toán chọn thuộc tính có giá trị nhất khi có
đủ thời gian và chọn thuộc tính có hiệu suất thời gian cao nhất khi thời gian hạn chế.Thực nghiệm cho thấy thuật toán đáp ứng tốt các ràng buộc khác nhau về thời giantrong khi giảm thiểu chi phí phân loại sai và chi phí kiểm tra
Hầu hết các thuật toán được đề xuất cho việc xây dựng cây quyết định nhạy cảmvới chi phí đều dựa trên các phương pháp xấp xỉ Các mô hình MIP vẫn chưa được
sử dụng phổ biến cho các biến thể này Các mô hình tiên được đề cập trong bài báoLiittschwager and Wang [1978] vào cuối những năm 1970 Mô hình này chỉ xem xétcác phân lớp nhạy cảm với chi phí nhỏ với hai thuộc tính và không quá 50 điểm dữliệu Trong Pendharkar [2015], năm kỹ thuật nhạy cảm với chi phí được đề cập Trong
số đó, quy hoạch nguyên hỗn hợp chi phí phân loại sai bất đối xứng (AMC-MIP) vàmáy vectơ hỗ trợ lai với quy hoạch nguyên hỗn hợp (SVMIP) là hai cách tiếp cận dựatrên mô hình quy hoạch nguyên
Từ các nghiên cứu trước, chúng tôi nhận thấy bài toán xây dựng cây quyết địnhnhạy cảm với chi phí và ràng buộc về thời gian là một chủ đề hay, nhưng chưa được
đề cập đến nhiều Cho đến nay, chưa có một phương pháp chính xác nào để tìm ramột cây quyết định tối ưu cho bài toán này Mặc dù các mô hình quy nguyên có nhữnghạn chế về độ phức tạp tính toán, các nghiệm xấp xỉ do chúng đưa ra có những lợi íchnhất định Pendharkar [2015] Thứ nhất, khi các nghiệm tối ưu có xu hướng quá khớpvới tập đào tạo và có khả năng khái quát hóa kém thì các nghiệm xấp xỉ có thể đượcchấp nhận Thứ hai, các nghiệm xấp xỉ là có ích cho các ứng dụng thực tiễn chứa các
bộ dữ liệu lớn khi mà việc tính toán phức tạp Thứ ba, nghiệm xấp xỉ do phần mềmđưa ra vẫn có thể là một nghiệm tốt, tối ưu; nhưng do hạn chế thời gian nên chưa thểchứng minh được Vì vậy, khóa luận đề xuất một mô hình toán học mới được thiết kếđặc biệt cho bài toán này Bên cạnh đó, khóa luận cũng đề xuất điều chỉnh các ràngbuộc về thời gian và chi phí trên các mô hình hiện có để so sánh kết quả của các môhình với nhau
Copies for internal use only in Phenikaa University
Trang 20Chương 3 Mô hình toán học mới cho
việc xây dựng cây quyết định tối ưu nhạy cảm với chi phí
và ràng buộc về thời gian
Cây quyết định tối ưu truyền thống (Optimal Decision Tree) là một mô hình họcmáy sử dụng cây quyết định, được thiết kế để phân loại hoặc dự đoán dựa trên các đặctính của dữ liệu đầu vào Các điểm dữ liệu được phân loại dựa trên một loạt các quyếtđịnh dựa trên các thuộc tính của chúng Mỗi quyết định này tạo thành một "nút" trongcây quyết định, và các nhánh của cây dẫn đến các quyết định tiếp theo hoặc các nhãnphân loại cuối cùng Để xây dựng một cây quyết định truyền thống, ta sẽ có các yêucầu cơ bản như sau:
• Phân bổ thuộc tính (1): Chọn gán một thuộc tính hay không ở mỗi nút trong.
Tức là ở mỗi nút trong ta cần chọn xem nút đó có được gán thuộc tính hay không
• Lựa chọn Giá trị Phân nhánh (2): Nếu một nút trong được chọn để gán thuộc
tính, phải chọn giá trị (khai triển) của thuộc tính này để phân nhánh mà tại đóđiểm dữ liệu khi đi qua sẽ được rẽ nhánh
• Tạo Nút Lá (3): Nếu không có phân nhánh nào xảy ra tại một nút trong, nút đó
Trang 21• Đường Đi qua Cây (5): Mỗi điểm dữ liệu phải đi qua một đường dẫn qua cây,
đến một nút lá cụ thể, đảm bảo rằng cấu trúc của cây được tôn trọng
Trong phần này, chúng tôi sẽ đề xuất một mô hình MIP để xây dựng các cây phânloại tối ưu truyền thống ở một độ sâu nhất định Lấy cảm hứng từ công trình củaBertsimas and Dunn [2017], việc xây dựng cây quyết định này sẽ dựa trên một số yêucầu bổ sung như sau ngoài các điều kiện cơ bản:
• Không Phân nhánh tại Nút Trong (6): Nếu không phân nhánh tại một nút
trong, các nút con của nó cũng bắt buộc không được gán bất kỳ thuộc tính nào(xem Hình 3.1)
• Chia sẻ Nút Trống giữa hai đường dẫn (7): Hai đường dẫn có chung một tập
các nút trong "rỗng", chúng phải phân loại cùng nhãn (lớp) (xem Hình 3.1) Vìvậy, chúng phải được đi qua bởi cùng một điểm dữ liệu
• Một điểm có thể đi qua nhiều hơn một đường dẫn (8) : Điều này có nghĩa làmột điểm dữ liệu có thể đi qua nhiều hơn một đường dẫn trong cây quyết định.Các yêu cầu số 6,7,8 là một cách tiếp cận mới chúng tôi đưa ra Với các tiếp cậntruyền thống, ta sẽ có yêu cầu: Nếu không có phân nhánh nào xảy ra tại một nút trong,
nút đó trở thành một nút lá - là yêu cầu số (3) ở trên Yêu cầu này sẽ dùng để cắt tỉa
cây khi một nút không được phân thuộc tính Các yêu cầu số 6,7,8 được dùng thay thếcho yêu cầu trên với mục đích thay vì cắt tỉa cây, chúng tôi sẽ biến các nút cần cắt tỉathành các nút "rỗng", qua đó giữ nguyên hình thái của cây, nhằm cho bài toán dễ môhình hơn
Hình 3.1 trình bày cách mô hình xây dựng cây quyết định và sử dụng nó để phânloại ba điểm dữ liệu i1, i2, và i3 Yêu cầu thứ nhất và thứ hai được mô hình giải quyếttại các nút 1,3,7 được gán các thuộc tính (trong ngưỡng của chúng) trong khi nút2,4,5,6 là nút “trống” Yêu cầu số bốn đảm bảo việc các nút là từ 8 đến 15 sẽ được gán
1 trong 2 nhãn là k1 hoặc k2 Trong khi đó, yêu cầu số năm thể hiện trong việc tạocác đường đi từ nút gốc đến các lá của cây cho các điểm dữ liệu Theo như yêu cầuthứ sáu, các nút 4 và 5 cũng phải là nút “trống” vì nút 2, cha của chúng không đượcgán bất kỳ thuộc tính nào Yêu cầu thứ bảy đảm bảo rằng tất cả các lá tương ứng vớinút 2 phải dự đoán cùng một nhãn Sau đó, điểm dữ liệu i1, được phân nhánh sangcây con bên trái tại nút 1, có thể đi qua tất cả các đường dẫn tương ứng với các lá 8, 9,
10 và 11 theo như yêu cầu cuối cùng Trên cây con bên phải của nút 1, điểm dữ liệu
Copies for internal use only in Phenikaa University
Trang 22Hình 3.1: Xây dựng cây quyết định
i2 có thể đi qua hai đường dẫn đến lá 12, 13, trong khi điểm dữ liệu i3 chỉ có thể điđến lá 15
Xây dựng bài toán này bằng MIP cho phép mô hình hóa tất cả các yêu cầu trongmột bài toán duy nhất và xem xét toàn bộ tác động của các quyết định được đưa ra từnút gốc, thay vì chỉ đưa ra một loạt các quyết định tối ưu cục bộ Ngoài ra, việc ápdụng các yêu cầu số 6,7,8 vào mô hình để cân nhắc cây không cân bằng mà không cầnđến cắt tỉa cây Với ý tưởng xây dựng cây quyết định tối ưu qua các đường dẫn, thay vìcắt tỉa cây, chúng tôi sẽ thay thế các nút đó thành các nút "trống" nhằm bảo bảo hìnhthái đầy đủ của cây Cụ thể hơn, chúng tôi chia tập các nút trong thành tập các đườngdẫn từ gốc đến các lá Bằng cách này, chúng ta có thể xem xét việc gán thuộc tính chotất cả các nút trên mỗi đường dẫn cùng lúc thay vì quyết định phân nhánh riêng lẻ tạimỗi nút trong Ngoài ra, kỹ thuật này dẫn đến việc áp dụng các ràng buộc liên quanđến giới hạn thời gian mà không có tham số M-lớn trong phần tiếp theo
Copies for internal use only in Phenikaa University
Trang 23Từ các yêu cầu trên, chúng tôi sẽ đề xuất một mô hình toán học mới để xây dựngcây quyết định gọi là PathOCT Các tập hợp, tham số và biến sử dụng trong mô hìnhđược tóm tắt trong Bảng 3.1.
Trang 24Hàm mục tiêu (3.1a) nhằm tối đa hóa số lượng điểm dữ liệu được phân loại chínhxác với biến cil bằng 1 khi điểm i được phân loại đúng lại lá l và giảm thiểu số lượngthuộc tính được sử dụng với biến bf n bằng 1 khi thuộc tính f tồn tại tại nút trong n.Tham số chính quy hóa α nhằm giúp giải quyết mức độ phức tạp của vấn đề phátsinh Ta có thể thấy rằng, khi muốn tăng mức độ quan trọng của số lượng điểm dữliệu phân loại đúng, ta sẽ tăng tham số α lên và ngược lại khi muốn giảm thiểu sốlượng thuộc tính sử dụng Ràng buộc (3.1b) đảm bảo rằng mỗi nút chỉ được gán nhiềunhất là một thuộc tính Ràng buộc (3.1c) đảm bảo rằng mỗi thuộc tính xuất hiện nhiềunhất một lần trên mỗi đường dẫn để tránh gán những thuộc tính không cần thiết Ràngbuộc (3.1d) đảm bảo rằng mỗi đường dẫn chỉ phân loại một lớp Ràng buộc (3.1e)đảm bảo mỗi điểm dữ liệu chỉ được đi qua nhiều nhất một đường dẫn có nhãn đượcgán cùng lớp với nhãn của nó Ràng buộc (3.1f) đảm bảo mỗi điểm dữ liệu phải điqua ít nhất một đường dẫn trong cây Các ràng buộc (3.1g), (3.1h) đảm bảo rằng cácđiểm dữ liệu được phân loại chính xác nếu các đường dẫn mà chúng đi qua được gáncho cùng một lớp.
Các ràng buộc (3.1i) và (3.1j) dùng để gán đường dẫn phù hợp cho mỗi điểm dữliệu dựa trên bitset thể hiện đường dẫn, sự phân tách của các thuộc tính đã chọn tạimỗi nút trên đường dẫn và các giá trị thuộc tính tương ứng của điểm dữ liệu được cânnhắc Với ràng buộc (3.1i), ta sẽ đảm bảo rằng nếu Pl là đường dẫn đúng của điểm ithì điểm i bắt buộc phải đi đến là l với zil bằng 1 Ràng buộc (3.1j) sẽ đảm bảo nếu
Pl là không phải đường dẫn đúng của điểm i thì vế trái sẽ lớn hơn 1 và suy ra zil phảibằng 0 tức là i sẽ không đến lá l Các ràng buộc (3.1k), (3.1l) và (3.1m) chính là cácyêu cầu số 6,7 ở trên cho phép chuyển các nút trong thành các nút "trống" và đảm bảorằng hai đường dẫn chia sẻ chung một tập hợp các nút "trống" sẽ có cùng một nhãn.Ràng buộc (3.1k) đảm bảo rằng nếu một nút trong không được gán thuộc tính thì núttrước đó không chứa bất kỳ thuộc tính nào Theo đó, tất cả các nút con của nút trongkhông được gán thuộc tính sẽ bị gán là nút "trống" Nếu các nút bị gán là nút "trống",tất cả các đường dẫn có chung các nút đó phải phân loại cùng lớp Điều kiện này đượcthể hiện với các ràng buộc (3.1l) và (3.1m) Các ràng buộc (3.1n), (3.1o), (3.1p) và(3.1q) thiết lập các miền của biến quyết định được sử dụng trong mô hình
Copies for internal use only in Phenikaa University
Trang 25Hình 3.2: Bitset ωnPl tương ứng với các lá l của cây
Mô hình (3.1) được đề xuất có nhiều đặc điểm khác biệt so với các mô hình MIPhiện có:
• Mỗi đường dẫn Pl được thể hiện bởi một bitset tương ứng với lá của nó (xemHình 3.2) Theo đó, mô hình có thể xem xét gán một tập các thuộc tính cho mộttập các nút trên mỗi đường dẫn bằng cách so sánh các tham số φif với ωnPl, thay
vì phân nhánh tại mỗi nút trong
• Mỗi điểm dữ liệu có thể tự do đi qua nhiều đường dẫn và tiếp cận nhiều hơn một
Trang 26Biến Định nghĩa
b f n Bằng 1 nếu khai triển f phân nhánh tại nút n n, nếu không thì bằng 0
zil Bằng 1 nếu điểm dữ liệu i đạt tới lá l, nếu không thì bằng 0
a lk Bằng 1 nếu lá l dự đoán lớp k, nếu không thì bằng 0
cil Bằng 1 nếu điểm dữ liệu i được phân loại chính xác khi đạt tới lá l, nếu không thì bằng 0
eik Bằng 1 nếu điểm dữ liệu i được phân loại sai tới lớp k, nếu không thì bằng 0
Tham số
φif Bằng 1 nếu điểm dữ liệu i thoả mãn phân nhánh f , nếu không thì bằng 0
λi ∈ {1, , k}: lớp chính xác của điểm dữ liệu i
H Độ sâu của cây
ω nPl ∈ {0, 1}: thể hiện từng vị trí của nút trong n của mỗi đường dẫn P l
α ∈ [0, 1]: tham số phức tạp
δ f Chi phí phân nhánh f
ψλi k Chi phí phân loại sai dữ liệu i thuộc lớp λithành lớp k
ρ k Giới hạn thời gian của lớp k
σ f Thời gian phân nhánh f
A(n) Tập các ancestors của nút trong n
a(n) Nút cha của nút trong n
Bảng 3.1: Các biến quyết định, tham số và các tập hợp trong mô hình
Copies for internal use only in Phenikaa University
Trang 273.2 Các biến thể nhạy cảm với chi phí và ràng buộc về
thời gian
Trong thực tế, một tác vụ phân loại thường phải được hoàn thành trong một khoảngthời gian nhất định Ví dụ, kết quả chẩn đoán y tế của bệnh nhân phải được công khaitrước các lần điều trị hoặc hẹn khám tiếp theo Các quyết định trong các tình huốngkhẩn cấp (ví dụ: phát hiện bệnh tim, xét nghiệm COVID-19, ), đặc biệt phải đượcđưa ra nhanh chóng để hạn chế những nguy cơ tiềm ẩn Tương tự, các ràng buộc vềthời gian trong tác vụ phân loại còn có thể thấy trong các trường hợp phát hiện gianlận, yêu cầu phản hồi nhanh nhất có thể Hơn nữa, trong các trường hợp này, chi phíkiểm tra và phân loại sai có thể được coi là đáng để quan tâm Để giảm nguy cơ lâynhiễm, chi phí phát hiện sai ca dương tính với COVID-19 phải cao hơn chi phí pháthiện sai ca âm tính Chi phí kiểm thử và sử dụng các loại tài nguyên khác cũng là cácyếu tố quan trọng cần được cân nhắc kỹ lưỡng Ví dụ, xét nghiệm máu đòi hỏi tiêu tốnnhiều tiền bạc, nhân lực và thiết bị y tế
Trong phần này, từ mô hình PathOCT ở trên, chúng tôi đề xuất hai biến thể cho
các cây quyết định tối ưu nhạy cảm với chi phí và ràng buộc về thời gian, gọi là
BCS-PathOCT đối với mô hình xây dựng cây cân bằng và ICS-BCS-PathOCT đối với mô hình
xây dựng cây không cân bằng Mô hình trong phần trước được sửa đổi bằng cách bổsung các ràng buộc giới hạn về thời gian và tham số chi phí Hơn nữa, các biến quyếtđịnh liên quan đến số lượng điểm dữ liệu được phân loại chính xác cũng được thaythế bằng các điểm biểu thị lỗi phân loại sai
Cụ thể hơn, chúng tôi giả định rằng các tham số ρk và δf tương ứng biểu thị thờigian giới hạn của nhãn k (thời hạn hoàn thành tác vụ phân loại) và thời gian sử dụng
để thực hiện kiểm tra thuộc tính f (hay thời gian có được kết quả kiểm tra) Tổng thờigian tiêu tốn của tất cả các thuộc tính trên mỗi đường dẫn phải nhỏ hơn hoặc bằngthời gian giới hạn của nhãn được gán trên đường dẫn này Mặc dù các ràng buộc giớihạn thời gian và tham số chi phí được nhắc đến lần đầu tiên trong Chen et al [2016],nhưng kể từ đó, không có mô hình toán học nào được đề xuất cho cây quyết định nhạycảm với chi phí và ràng buộc về thời gian, như đã đề cập trong Chương 2 Hàm mụctiêu của bài toán sẽ được thay đổi thành (3.2a)
Copies for internal use only in Phenikaa University
Trang 283.2.1 Cây quyết định cân bằng
Cây quyết định cân bằng ở đây được định nghĩa là cây mà các nút trong của nó luônđược gán thuộc tính Việc sử dụng cây quyết định cân bằng có một số nhược điểm dogiới hạn về thời gian của các nhãn Sự tồn tại thời gian giới hạn sẽ làm cho khả nănggán các thuộc tính cho các nút trong của cây quyết định cân bằng giảm đi Khi thờigian bị giới hạn, có thể sẽ không xây dựng được cây có tất cả các nút trong được gánthuộc tính Chúng ta có thể giải quyết vấn đề này bằng cách xây dựng các cây quyếtđịnh không cân bằng, luôn cho ra các nghiệm có thể dự đoán ngay lập tức các điểm
dữ liệu tại nút gốc Do đó, thời gian tính toán các thuộc tính và độ sâu của cây khôngảnh hưởng đến khả năng tìm ra nghiệm Tuy nhiên, do không gian tìm kiếm nhỏ hơn(ví dụ: không quyết định việc có gán các thuộc tính cho các nút hay không, không cóquá trình cắt tỉa, ), việc lập phương trình toán học xây dựng cây quyết định cân bằng
có thể đưa ra thời gian chạy ngắn hơn so với việc xây dựng cây không cân bằng Trongđiều kiện thời gian giới hạn và chi phí của các thuộc tính thấp, phương án cây quyếtđịnh cân bằng là hữu ích và có thể chấp nhận được
Tất cả các nút trong của cây quyết định cân bằng phải được gán các thuộc tính.Chính vì vậy ràng buộc (3.1b) được chuyển thành phương trình với tổng bf n của cácthuộc tính bằng 1 với mọi nút trong Hơn nữa, các ràng buộc (3.1c), (3.1k) và (3.1l)
sẽ bị loại bỏ vì cây không tồn tại các nút "trống" nên các ràng buộc dùng để chuyểnnút con thành nút "trống" và hợp nhất các lá không được sử dụng Do không có cácràng buộc trên, một thuộc tính có thời gian tiêu tốn ngắn có thể được sử dụng lại thay
vì chọn các thuộc tính khác có thời gian tiêu tốn lâu hơn Do đó, mô hình cho phépgán cùng một thuộc tính cho nhiều nút trên một đường dẫn để giảm khả năng khôngtìm thấy nghiệm nào Điều này có thể tránh rủi ro tồn tại một đường dẫn có giá trị tốithiểu của tổng thời gian tiêu tốn lớn hơn thời gian giới hạn của tất cả các nhãn Ngoài
ra, so với mô hình PathOCT, các ràng buộc liên quan đến biến cil cũng sẽ được loại bỏ
vì hàm mục tiêu đã được thay đổi sang biến eik Biến δf cũng được sử dụng trong hàmmục tiêu để tính toán chi phí tiêu tốn của các thuộc tính.Copies for internal use only in Phenikaa University