Dựa trên cở sở những lý thuyết trình bày trong các chương, tôi xin phát biểu bài toán kiểm tra sự phù hợp của mô hình quá trình và nhật ký sự kiện bằng phương pháp phát lại như sau:
Đầu vào: Mô hình quá trình và nhật ký sự kiện đã có
Đầu ra: Những độ đo đánh giá sự phù hợp được tính toán dựa trên phương
3.3. Mô hình giải quyết bài toán
Từ cơ sở lý thuyết những độ đo và nội dung giải thuật phát lại trình bày trong chương này, khóa luận xây dựng mô hình giải quyết bài toán gồm 4 pha chính như sau:
Nhật ký sự
kiện Mô hình quátrình
Ánh xạ mô hình quá trình với nhật ký sự kiện
Xử lý
Phát lại nhật ký sự kiện trên mô hình Phân tích không gian
trạng thái Phân tích cấu trúc Tính fitness Tính Precision Tính Structure Đánh giá
Pha 1: Ánh xạ mô hình quá trình và nhật ký sự kiện. Tức là ánh xạ những tác vụ
trong mô hình quá trình với những sự kiện trong nhật ký sự kiện.
Ví dụ sau minh họa quá việc ánh xạ mô hình quá trình và nhật ký sự kiện
Bảng 3.1: Ví dụ ánh xạ mô hình quá trình và nhật ký sự kiện
Tác vụ trong mô hình Sự kiện trong nhật ký Nhãn sự kiện sau khi ánh xạ A1 A A B1 B B C1 C C D1 D D
Pha 2: Xử lý, trong pha này chúng ta thực hiện ba quá trình thành phần.
Quá trình phát lại nhật ký sự kiện trên mô hình quá trình, thực hiện phương pháp phát lại được giới thiệu ở mục 3.1, để tính độ đo fitness được trình bày trong mục 2.2.1.
Quá trình phân tích không gian trạng thái, thực hiện xây dựng tập quan hệ giữa các tác vụ trong mô hình quá trình và tập quan hệ giữa các sự kiện trong nhật ký sự kiện để tính độ đo precision nâng cao được trình bày trong mục 2.2.2.
Quá trình phân tích cấu trúc thực hiện phân tích những cấu trúc tác vụ ẩn và tác vụ trùng lặp trong mô hình để tính độ đo structure nâng cao được trình bày trong mục 2.2.3.
Pha 3: Tính toán các độ đo fitness, precision, structure theo những công thức đã
được đề cập trong mục 2.2.1, 2.2.2, và 2.2.3, dựa trên những kết quả thu được trong pha xử lý
Pha 4: Đánh giá, tức là dựa vào những độ đo thu được từ pha 3 để đánh giá sự phù hợp của mô hình quá trình và nhật ký sự kiện.
3.4. Tóm tắt chƣơng ba
Trong chương này, khóa luận đã trình bày chi tiết về giải thuật phát lại được dùng trong quá trình phát lại để tính toán các độ đo phù hợp được trình bày trong chương hai. Ngoài ra khóa luận đưa ra mô hình giải quyết bài toán. Trong đó, khóa luận tập trung vào thay đổi một khía cạnh trong phương thức phát lại, đó
là cố gắng sinh ra một không gian trạng thái đầy đủ hơn để tìm kiếm đường đi ngắn
nhất (chuỗi những thanh chuyển có thể cháy ngắn nhất) dẫn đến kích hoạt các thanh
chuyển không được kích hoạt trực tiếp đang được yêu cầu trong quá trình phát lại, nhằm hướng tới thu được kết quả phát lại chính xác hơn. Đồng thời, không gian trạng thái đó cũng được sử dụng trong quá trình phân tích không gian trạng thái để tính độ đo precision, do đó một không gian trạng thái đầy đủ hơn có thể sẽ cho kết quả độ đo precision chính xác hơn.
Trong chương tiếp theo, khóa luận trình bày về quá trình thực nghiệm với mô hình giải quyết bài toán và thực nghiệm với phương pháp phát lại thay đổi trên dữ liệu nhật ký sự kiện.
Chƣơng 4: THỰC NGHIỆM
Dựa vào mô hình đề xuất ở chương ba, chúng tôi tiến hành thực nghiệm mô hình giải quyết bài toán bằng cách sử dụng plugin Conformance Checker tích hợp trong bộ công cụ mã nguồn mở ProM 5.2. Bước 1 của thực nghiệm, chúng tôi thực nghiệm mô hình giải quyết bài toán với giải thuật phát lại và giải thuật phát lại thay đổi, trên bộ dữ liệu một - DL1 (gồm một nhật ký sự kiện và bốn mô hình quá trình tương ứng) được tạo ra một cách nhân tạo nhằm kiểm tra tính đúng đắn của mô hình giải quyết bài toán (trong bộ dữ liệu đó mức độ phù hợp của mỗi mô hình so với nhật ký sự kiện đã được biết trước). Bước 2 của thực nghiệm, chúng tôi thực nghiệm tương tự Bước 1 trên bộ dữ liệu hai – DL2 (gồm tập những cặp mô hình quá trình và nhật ký sự kiện tương ứng, trong đó số tác vụ trong mô hình quá trình và số sự kiện trong nhật ký sự kiện lớn hơn so với DL1) để đánh giá sự thay đổi trong giải thuật phát lại có ảnh hưởng như thế nào đến kết quả thu được của các độ đo. Lý do chúng tôi chọn tập dữ liệu này là bởi trong thay đổi đề xuất, chúng tôi mở rộng không gian trạng thái để có thể tăng độ chính xác trong quá trình phân tích và xử lý, do đó cần mô hình quá trình có kích thước tương đối lớn để có thể kiểm chứng sự thay đổi nếu có.
Môi trường và công cụ thực nghiệm
Cấu hình phần cứng:
Bảng 4.1: Cấu hình hệ thống thử nghiệm
Thành phần Chỉ số
CPU 2.0 GHz Core Duo Intel
RAM 2GB OS Windows7 Bộ nhớ ngoài 250GB Các phần mềm sử dụng: Bảng 4.2: Các phần mềm sử dụng STT Tên Phần mềm Nguồn 1 Eclipse – SDK 3.5
win32 http://w w w.eclips e .org / downloads 2 ProM 5.2 http://w w w.pr o m t ools . org/pr o m 5/
4.1. Dữ liệu thực nghiệm
4.1.1. Dữ liệu sử dụng trong bƣớc một của quá trình thực nghiệm (DL1)
Nguồn dữ liệu: Tải dữ liệu về từ trang web:
http://w w w.proce s s m i n ing.org/ _ media/pr o ces s m i ningbo o k/chapt e r_7 . zip Bộ dữ liệu này là bộ dữ liệu được sử dụng làm ví dụ trong chương bảy của tài liệu tham khảo [1]. Nó bao gồm một nhật ký sự kiện và bốn mô hình quá trình tương ứng:
Hình 4.2: Mô hình quá trình N1 của DL1
Hình 4.3: Mô hình quá trình N2 của DL1
Hình 4.4: Mô hình quá trình N3 của DL1
Hình 4.5: Mô hình quá trình N4 của DL1
Trong 4 mô hình quá trình trên, thì mô hình N1 là mô hình phù hợp nhất đối với nhật ký sự kiện L1. Dựa vào đó, quá trình thực nghiệm sẽ tiến hành kiểm tra sự phù hợp của các mô hình N1, N2, N3, N4 với nhật ký sự kiện L1 để kiểm chứng nhận thức trên.
4.1.2. Dữ liệu sử dụng trong bƣớc hai của quá trình thực nghiệm (DL2)
Nguồn dữ liệu: Tải dữ liệu về tại trang web:
http://data . 3tu.nl/r e pos i to r y /uuid : 44c327 83 -1 5 d0-4dbd - a f 8a- 78b97be3 d e49
Tên bộ dữ liệu: 'Conformance Checking in the Large' (BPM 2013)
Đây là bộ dữ liệu được cung cấp bởi Munoz-Gama, Jorge (Universitat Politecnica de Catalunya), ngày 27/3/2013 tại BPM 2013. Bộ dữ liệu này gồm một tập dữ liệu (nhật ký sự kiện và mô hình) được xây dựng cho bài toán kiểm tra sự phù hợp với kích thước mô hình quá trình lớn (trên 320 thanh chuyển).
Trong bộ dữ liệu này có 7 cặp dữ liệu (mô hình quá trình + nhật ký sự kiện): prAm6, prBm6, prCm6, prDm6, prEm6, prFm6, prGm6. Trong thực nghiệm này chúng tôi chọn 3 cặp dữ liệu để tiến hành thực nghiệm đó là: prAm6, prBm6 và prDm6.
4.2. Thực nghiệm
Các bước tiến hành thực nghiệm được tiến hành như sau:
Bƣớc 1: Thực nghiệm mô hình giải quyết bài toán với giải thuật phát lại và giải
thuật phát lại thay đổi trên bộ dữ liệu DL1 để kiểm chứng tính đúng đắn của mô hình.
Bƣớc 2: Thực nghiệm mô hình giải quyết bài toán với giải thuật phát lại và giải
thuật phát lại thay đổi trên bộ dữ liệu DL2 để đánh giá những thay đổi nếu có trong đề xuất thay đổi giải thuật phát lai.
4.3. Kết quả thực nghiệm 4.3.1. Kết quả thực nghiệm Bƣớc 1
Thực nghiệm với giải thuật phát lại chưa thay đổi:
Bảng 4.3: Kết quả thực nghiệm Bước 1, với giải thuật phát lại chưa thay đổi
Mô hình fitness precision structure
N1 1.0 0.97619045 1.0
N2 0.95039195 0.97619045 1.0
N3 0.8796777 1.0 1.0
N4 1.0 0.7756839 1.0
Thực nghiệm với giải thuật phát lại thay đổi:
Bảng 4.4: Kết quả thực nghiệm Bước 1, với giải thuật phát lại thay đổi
Mô hình fitness precision structure
N1 1.0 0.97619045 1.0
N2 0.95039195 0.97619045 1.0
N3 0.8796777 1.0 1.0
N4 1.0 0.7756839 1.0
Trong Bước 1, không có sự khác biệt khi thực nghiệm giữa hai giải thuật (vì mô hình quá trình có kích thước nhỏ, nên khó có sự thay đổi trong không gian trạng thái), và đây cũng là lý do chúng tôi thực nghiệm Bước 2 với mô hình quá trình có kích thước lớn hơn. Tổng hợp kết quả thực nghiệm Bước 1 ta có:
1.02 0.97 0.92 0.87 0.82 0.77 0.72 N1 N2 N3 N4 fitness precision structure
4.3.2. Kết quả thực nghiệm Bƣớc 2
Thực nghiệm với giải thuật phát lại chưa thay đổi:
Bảng 4.5: Kết quả thực nghiệm Bước 2, với giải thuật phát lại chưa thay đổi
Tập dữ liệu fitness precision structure
prAm6 0.94943047 0.73098 1.0
prBm6 1.0 0.9269284 1.0
prDm6 0.9664088 0.7181392 1.0
Thực nghiệm với giải thuật phát thay đổi:
Bảng 4.6: Kết quả thực nghiệm Bước 2, với giải thuật phát lại thay đổi
Tập dữ liệu fitness precision structure
prAm6 0.94943047 0.7484517 1.0
prBm6 1.0 0.918151 1.0
prDm6 0.9664088 0.732147 1.0
Trong Bước 2, kết quả thực nghiệm giữa hai giải thuật có sự khác nhau về chỉ số precision. Do đó ta gọi chỉ số precision của thực nghiệm với giải thuật phát lại ban đầu là precision1, và với giải thuật phát lại thay đổi là precision2. Tổng hợp kết quả thực nghiệm Bước 2 ta có: 1.02 0.97 0.92 0.87 0.82 0.77 0.72 0.67 0.62 prAm6 prBm6 prDm6 fitness precision1 precision2 structure
4.4. Đánh giá
Như trong thực nghiệm này, chúng tôi tiến hành thực nghiệm trên bộ dữ liệu một
– DL1 để kiểm chứng tính đúng đắn của mô hình giải quyết bài toán. Và tiến hành thực nghiệm trên bộ dữ liệu 2 – DL2 để đánh giá những thay đổi nếu có trong đề xuất thay đổi giải thuật phát lại. Chúng ta dựa vào những giá trị độ đo thu được để đánh giá kết quả thực nghiệm.
Như theo kết quả thực nghiệm Bước 1, thì những độ đo phù hợp đối với mô hình N1 (1, 0.97619045, 1.0) đều cao hơn so với các mô hình N2, N3, N4. Điều đó chứng tỏ mô hình N1 phù hợp với nhật ký sự kiện L1 hơn các mô hình khác, điều này trùng khớp với nhận thức ban đầu rằng mô hình N1 phù hợp hơn các mô hình còn lại. Kết quả này cho thấy phương pháp được tiến hành là đúng đắn. Tuy nhiên theo như kết quả thực nghiệm ta thấy rằng, do kích thước của mô hình nhỏ (chỉ gồm 8 tác vụ: được gán nhãn từ a đến h), nên khó có sự thay đổi trong không gian trạng thái. Do đó kết quả thực nghiệm Bước 1 không có gì khác nhau giữa hai phương pháp.
Theo kết quả thực nghiệm ở Bước 2, sau khi thực nghiệm với giải thuật phát lại thay đổi thì ta thấy rằng: giá trị của độ đo precision có thể thay đổi theo hai chiều hướng, có thể tăng (trường hợp với hai cặp dữ liệu prAm6 và prDm6) và cũng có thể giảm (trường hợp với cặp dữ liệu prBm6). Điều đó cho thấy rằng thay đổi trong phương pháp phát lại (mục đích nhằm mở rộng không gian trạng thái) có tác động làm thay đổi giá trị độ đo precision (điều này là hợp lý vì độ đo precision được tính dựa trên sự phân tích không gian trạng thái để tìm tập quan hệ giữa các tác vụ). Tuy nhiên tri phí thời gian cho quá trình xử lý và tài nguyên bộ nhớ cũng phải tốn nhiều hơn khi không gian trạng thái cần phân tích được mở rộng. Do đó cần xem xét, đánh giá đến góc độ thời gian để lựa chọn phương pháp cho phù hợp.
Kết luận và định hƣớng nghiên cứu tiếp theo
Khai phá quá trình kết hợp khai phá dữ liệu với mô hình hóa quá trình kinh doanh là chủ đề nghiên cứu thời sự, có ý nghĩa khoa học và thực tiễn. Khóa luận tập trung vào các giải phát phát lại giải quyết bài toán kiểm tra sự phù hợp, một trong ba bài toán cơ bản của khai phá quá trình.
Khóa luận đã trình bày các nội dung cơ bản bài toán kiểm tra sự phù hợp của mô hình quá trình và nhật ký sự kiện, nêu được quan hệ của nó trong hoạt động kinh doanh và kiểm toán của doanh nghiệp. Hơn nữa, các độ đo được sử dụng để đánh giá sự phù hợp được trình bày một cách tường minh.
Trong khóa luận, hướng giải quyết bài toán dựa trên phương pháp phát lại đã được giới thiệu và các giải thuật cụ thể trong phương pháp phát lại kiểm tra sự phù hợp được phân tích kỹ lưỡng.
Khóa luận đã đưa ra ý tưởng thay đổi, mở rộng không gian trạng thái của mô hình để tìm kiếm chuỗi thanh chuyển có thể cháy ngắn nhất mà có thể kích hoạt thanh chuyển không được kích hoạt trực tiếp đang được yêu cầu trong quá trình phát lại. Đồng thời, không gian trạng thái đó cũng được sử dụng trong quá trình
phân tích không gian trạng thái. Thi hành ý tưởng đó vào hệ thống PRoM. Kết quả
thực nghiệm cho thấy là hướng thay đổi đó có thể đem lại một kết quả tốt hơn trong quá trình phát lại. Tuy nhiên tri phí thời gian và tài nguyên bộ nhớ có thể sẽ cao hơn.
Trong thời gian tới, tôi sẽ tiếp tục mở rộng khóa luận bằng cách thay đổi một số thủ tục, cũng như thuật toán trong phương pháp phát lại, từ đó có thể thu được kết quả khả quan hơn. Ngoài ra tôi sẽ tiếp tục tìm hiểu, nghiên cứu để có thể ứng dụng kỹ thuật này vào một số doanh nghiệp kinh doanh ở Việt Nam.
Tài liệu tham khảo
[1] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer.
[2] A. Adriansyah, B.F. van Dongen, and W.M.P. van der Aalst (2010). Towards Robust Conformance Checking. Business Process Management Workshops 2010:122-133
[3] A.K.A de Medeiros, A.J.M.M. Weijters, and W.M.P. van der Aalst (2007). Genetic Process Mining: An Experimental Evaluation. Data Mining and Knowledge Discovery, 14 (2):245–304.
[4] A.K.A. de Medeiros, W.M.P. van der Aalst, and A.J.M.M. Weijters (2008). Quantifying Process Equivalence Based on Observed Behavior. Data and Knowledge Engineering, 64 (1):55–74.
[5] Michael Hammer (2010). What is Business Process Management?
Handbooks on business process management 1: 3-16.
[6] A. Rozinat and W.M.P. van der Aalst (2008). Conformance Checking of Processes Based on Moni-toring Real Behavior. Information Systems, 33
(1):64–95.
[7] J.E. Cook and A.L. Wolf (1999). Software Process Validation: Quantitatively Measuring the Correspondence of a Process to a Model. ACM Transactions on Software Engineering and Methodology, 8 (2):147–176.
[8] W.M.P. van der Aalst and A.K.A. de Medeiros (2004). Process Mining and Security: Detecting Anomalous Process Executions and Checking Process Conformance. WISP 2004: 69–84.
[9] W.M.P. van der Aalst, A.K.A. de Medeiros, and A.J.M.M. Weijters (2005). Genetic Process Mining. ICATPN 2005: 48-69.
[10] W.M.P. van der Aalst (2004). Business Alignment: Using Process Mining as a Tool for Delta Analysis. BPMDS‟04: 138–145.
[11] D. Grigori, F. Casati, U. Dayal, and M.C. Shan (2001). Improving Business Process Quality through Exception Understanding, Prediction, and Prevention. VLDB 2001: 159-168.
[12] M.zur MÄuhlen and M. Rosemann (2000). Workflow-based Process Monitoring and Controlling - Technical and Organizational Issues. HICSS 2000.
[13] A. Rozinat and W.M.P. van der Aalst (2005). Conformance Testing: Measuring the Alignment Between Event Logs and Process Models. BETA Working Paper Series (WP 144), Eindhoven University of Technology, Eindhoven, 2005.
[14] A. Rozinat and W.M.P. van der Aalst. Conformance Testing: Measuring the Fit and Appropriateness of Event Logs and Process Models. Business Process Management Workshops 2005:163-176.
[15] W. Reisig and G. Rozenberg (editors, 1998). Lectures on Petri Nets I: Basic Models, Lecture Notes in Computer Science, 1491, Springer-Verlag, Berlin. [16] A. Rozinat (2010). Process Mining: Conformance and Extension. PhD
Thesis, Eindhoven Univer-sity of Technology.
[17] A.K. Alves de Medeiros (2006). Genetic Process Mining. PhD Thesis, Eindhoven University of Technology, Eindhoven.
[18] C.W. Gunther (2009). Process Mining in Flexible Environments. PhD Thesis, Technical University Eindhoven.