Chương 3 của luận văn đã giới thiệu phương pháp phát hiện quá trình dựa trên vùng trạng thái một cách chi tiết từ cách tiếp cận, các khái niệm, định nghĩa liên quan cho đến tường bước thực hiện để tạo hệ thống chuyển từ nhật ký sự kiện và sau đó là chuyển đổi hệ thống chuyển sang lưới Petri. Chương này cũng đã chỉ ra các ưu nhược điểm chính của phương pháp đồng thời giới thiệu một số đề xuất mô hình cải tiến để có thể áp dụng tốt hơn phương pháp trong các bài toán thực tế.
Trong chương tiếp theo của luận văn, chúng ta sẽ tiến hành thực nghiệm để đánh giá được hiệu quả của phương pháp phát hiện quá trình dựa trên vùng trạng thái.
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Mô tả thực nghiệm
Để đánh giá mức độ hiệu quả của phương pháp vùng trạng thái, ta sẽ so sánh phương pháp này với thuật toán α, một thuật toán cơ bản nhất trong phát hiện quá trình. Như vậy với cùng một nhật ký sự kiện đầu vào ta sẽ đi xây dựng mô hình quá trình theo 2 phương pháp khác nhau từ đó đánh giá mô hình kết quả để so sánh tính hiệu quả của 2 phương pháp.
4.1.1. Công cụ:
Bộ công cụ sử dụng là ProM 6.4.1, phiên bản mới nhất.
4.1.2. Dữ liệu thực nghiệm:
- Nhật ký sự kiện ví dụ trong [1] có thể download tại:
http://www.processmining.org/_media/processminingbook/event-logs- process-mining-book.zip
- Dự liệu thật của trung tâm dữ liệu 3TU Datacentrum tại địa chỉ: http://data.3tu.nl/repository/collection:event_logs_real
4.1.3. Các bước thực hiện:
- Bước 1: Dùng Plugin “Mine for a Petri Net using Alpha-algorithm” để sinh mô hình quá trình từ nhật ký sự kiện dựa trên thuật toán Alpha
- Bước 2: Dùng Plugin “Mine Transition System” để sinh ra hệ thống chuyển từ nhật ký sự kiện. Có thể thay đổi các tham số tùy chọn cho hàm trạng thái theo các cách biểu diễn khác nhau như dãy, tập hợp hay tập bội. - Bước 3: Dùng Plugin “Convert to Petri Net using Regions” để sinh ra
mô hình quá trình từ hệ thống chuyển. - Bước 4: So sánh, đánh giá kết quả. 4.1.4. Tiến hành thực nghiệm:
Đầu tiên là tiến hành thực nghiệm với một vài ví dụ nhỏ:
Ví dụ 1:
Dễ thấy L6 bao gồm: 1 quá trình, 11 trường hợp, 7 lớp sự kiện (a, b, c, d, e, f, g), 44 sự kiện.
Trong đó 2 lớp sự kiện bắt đầu (start events) là a và b. Lớp sự kiện kết thúc (end events) là g.
Hình 4.1: Thông tin nhật ký sự kiện L6
Hình 4.2: Mô hình quá trình của L6 dựa trên thuật toán Alpha
- Kết quả bước 2 với việc lựa chọn mức trừu tượng trạng thái là kiểu dãy và không giới hạn từng phần:
- Kết quả bước 3:
Hình 4.4: Mô hình quá trình của L6 dựa trên vùng trạng thái
Nhận xét: kết quả tương đương. Chú ý là kết quả vẫn cho ra mô hình có 2
vị trí dư thừa giống trong thuật toán Alpha.
Ví dụ 2:
L9 = [〈a, c, d〉45, 〈b, c, e〉42]
L9 bao gồm: 1 quá trình, 87 trường hợp, 5 lớp sự kiện (a, b, c, d, e), 261 sự kiện. Trong đó 2 lớp sự kiện bắt đầu (start events) là a và b. 2 lớp sự kiện kết thúc (end events) là d và e.
Hình 4.5: Thông tin nhật ký sự kiện L9
- Kết quả bước 1:
- Kết quả bước 2 với việc lựa chọn mức trừu tượng trạng thái là kiểu dãy và không giới hạn từng phần:
Hình 4.7: Hệ thống chuyển trạng thái của L9
- Kết quả bước 3:
Nhận xét: Kết quả tốt hơn thuật toán Alpha. L9 phản ánh được quan hệ
nhân quả giữa a và d, b và e mặc dù a và d, b và e không bao giờ theo sau nhau. Như vậy thuật toán Alpha đã đưa ra mô hình quá khái quát trong trường hợp này trong khi nếu sử dụng phương pháp vùng trạng thái sẽ cho kết quả tốt hơn.
Sau đó tiến hành thực nghiệm trên bộ nhật ký sự kiện thực tế Hospital log tại: http://data.3tu.nl/repository/uuid:d9769f3d-0ab0-4fb8-803b-0d1120ffcf54
Đây là bộ dữ liệu sự kiện thực tế được ghi nhận tại một bệnh viện của Hà Lan trong khoảng thời gian từ 2005-01-03T00:00:00+01:00 đến 2008-03-
20T00:00:00+01:00 với mục đích ban đầu là để sử dụng trong BPIC (Business Process Intelligence Contest) 2011.
Hình 4.9: Thông tin nhật ký sự kiện Hospital log
Bộ dữ liệu sự kiện này bao gồm: 1 quá trình, 1143 trường hợp, 624 lớp sự kiện, 150291 sự kiện.
Trong đó có 29 lớp sự kiện bắt đầu (start events) và 35 lớp sự kiện kết thúc (end events). Trung bình có đến 131.488 sự kiện trên mỗi vết. Vết ngắn nhất có 1 sự kiện. Vết dài nhất có đến 1814 sự kiện.
Để xây dựng được mô hình cho nhật ký sự kiện lớn thế này thì chúng ta không thể lấy trực tiếp toàn bộ nhật ký ban đầu làm đầu vào cho thuật toán mà sẽ phải thực hiện chiến lược chia để trị để chia nhỏ bài toán như đã đề cập ở chương 3 mục 3.3.2.
Khó khăn: Với bộ dữ liệu sự kiện lớn hàng nghìn trường hợp với hàng trăm nghìn sự kiện sẽ cần nhiều thời gian phân tích để đưa ra được chiến lược chia để trị một cách phù hợp. Do thời gian hạn chế nên tạm thời chưa thể đưa ra được cách thức cụ thể cũng như kết quả thực nghiệm với bộ dữ liệu lớn này kịp thời.
4.2. Đánh giá và kết luận
Kết quả thực nghiệm trên cùng với các thực nghiệm trong các bài báo [3],[4] cho thấy rằng trong nhiều trường hợp phương pháp phát hiện quá trình dựa trên vùng trạng thái thường cho hiệu quả hơn so với thuật toán α.
KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP
Nhìn chung Khai phá quá trình là vấn đề mới, nóng và được nhiều nhà nghiên cứu quan tâm vì tính ứng dụng thực tiễn cao của nó. Việc giải quyết tốt bài toán có thể hỗ trợ nhiều cho quá trình kinh doanh, dịch vụ của các tổ chức, công ty, doanh nghiệp...
Luận văn đã mô tả tổng quan về vấn đề khai phá quá trình, bài toán phát hiện quá trình trên phương diện luồng điều khiển và các khái niệm liên quan. Luận văn đã trình bày khá chi tiết phương pháp phát hiện quá trình dựa trên vùng trạng thái qua cách tiếp cận hai bước. Cùng với đó là quá trình thực nghiệm cũng như đánh giá để thấy được mức độ hiệu quả và đúng đắn của phương pháp. Luận văn cũng đã tham khảo thêm một đề xuất mô hình cải tiến của hai tác giả Marc Sole´ và Josep Carmona để nâng cao hiệu quả của mô hình thu được từ phương pháp vùng trạng thái. Ngoài ra phương pháp tiếp cận chia để trị để giải quyết các bài toán với dữ liệu sự kiện đầu vào lớn cũng được mô tả một cách khái quát, mô hình cũng như ý nghĩa thực tiễn của phương pháp này.
Hướng nghiên cứu tiếp theo của tôi sau khi hoàn thành luận văn này là tiếp tục tìm hiểu kỹ hơn các cách tiếp cận cải tiến, các phương pháp và chiến lược cụ thể cho bài toán với nhật ký sự kiện đầu vào lớn. Tiến hành thực nghiệm với các phương pháp nâng cao này để có thể ứng dụng vào thực tế một cách tốt nhất có thể.
TÀI LIỆU THAM KHẢO
[1] W.M.P. van der Aalst. Process Mining: Discovery, Conformance and Enhancement of Business Processes. Springer, 2011.
[2] W.M.P. van der Aalst. Process Mining: Data science in Action course at https://class.coursera.org/procmin-002/lecture, 2015.
[3] W.M.P. van der Aalst, V. Rubin, B.F. van Dongen, E. Kindler, C.W. Günther. “A Two-Step Approach using Transition Systems and Regions”, BPM
Center Report BPM-06-30, 2006.
[4] W.M.P. van der Aalst, V. Rubin, H.M.W. Verbeek, B.F. van Dongen, E. Kindler, and C.W. Günther. “Process Mining: A Two-Step Approach to Balance Between Underfitting and Overfitting”, Software and Systems Modeling (SoSyM), Vol. 9(1), pp 87-111, 2010.
[5] Marc Solé, Josep Carmona. Region-Based Foldings in Process Discovery, IEEE Trans. Knowl. Data Eng. 25(1), pp 192-205, 2013.
[6] W.M.P. van der Aalst. A General Divide and Conquer Approach for Process Mining. In M. Ganzha, L. Maciaszek, and M. Paprzycki, editors, Federated
Conference on Computer Science and Information Systems (FedCSIS 2013), pp
1-10. IEEE Computer Society, 2013.
[7] W.M.P. van der Aalst. “Decomposing Petri Nets for Process Mining: A Generic Approach”. Distributed and Parallel Databases, 31(4): 471-507, 2013. [8] W.M.P. van der Aalst. “Decomposing Process Mining Problems Using Passages,” in Applications and Theory of Petri Nets 2012, ser. Lecture Notes in Computer Science, S. Haddad and L. Pomello, Eds., vol. 7347. Springer-Verlag, Berlin, pp. 72–91, 2012.
[9] J. Munoz-Gama, J. Carmona, and W.M.P. van der Aalst, “Conformance Checking in the Large: Partitioning and Topology,” in International Conference
on Business Process Management (BPM 2013), ser. Lecture Notes in Computer
Science, F. Daniel, J. Wang, and B. Weber, Eds., vol. 8094. Springer-Verlag, Berlin, pp. 130–145, 2013.
[10] Jorge Munoz-Gama, Josep Carmona, W.M. P. van der Aalst. “Hierarchical Conformance Checking of Process Models Based on Event Logs,” in
Applications and Theory of Petri Nets 2013, ser. Lecture Notes in Computer Science, J. Colom and J. Desel, Eds., vol. 7927. Springer-Verlag, Berlin, pp. 291–310, 2013.
[11] H. Verbeek and W.M.P. van der Aalst, “Decomposing Replay Problems: A Case Study,” BPM Center Report BPM-13-09, BPMcenter.org, 2013.
[12] W.M.P. van der Aalst, A. Weijters, and L. Maruster. Workow mining: Discovering process models from event logs. IEEE Transactions on Knowledge