Chương 3 PHÁT HIỆN QUÁ TRÌNH DỰA TRÊN VÙNG TRẠNG THÁI
3.3. Nhận xét đánh giá
3.3.1. Ưu nhược điểm của phương pháp
Ưu điểm:
- Kỹ thuật dựa trên vùng có thể được sử dụng để phát hiện các mẫu quá trình phức tạp.
- Cung cấp cái nhìn thấu đáo vào bản chất bên trong của phát hiện quá trình.
Nhược điểm:
- Không có khả năng phát hiện việc xây dựng quá trình đặc thù (có thể cải tiến bằng việc mở rộng thuật toán cơ bản).
- Không có khả năng cân bằng 4 đặc tính chất lượng (phù hợp, chính xác, tổng quát, đơn giản) tốt.
Sức mạnh của cách tiếp cận này chính là việc cho phép đa dạng các chiến lược biểu diễn trạng thái. Một trạng thái có thể biểu diễn rất chi tiết hoặc trừu tượng hơn. Việc lựa chọn đúng đắn cách biểu diễn trạng thái sẽ giúp cân bằng giữa “overfitting” và “underfitting” theo một cách có kiểm soát. Các cách tiếp cận hiện tại không cho phép người phân tích điều khiển độ đo này mà nó đã cố định theo phương pháp.
Chính tính đa dạng trong việc lựa chọn chiến lược biểu diễn trạng thái giúp người dùng có thể lực chọn các chiến lược phù hợp với đặc điểm của nhật ký sự kiện cũng như của kết quả mong đợi cuối cùng.
3.3.2. Giới thiệu một số đề xuất mô hình cải tiến
Bất chấp những lợi thế được đề cập bởi lý thuyết vùng, có 2 lý do chính cản trở việc ứng dụng rộng rãi phương pháp vào thực tế. Một là do tính nhạy
cảm với nhiễu, hai là độ phức tạp của thuật toán liên quan mà hiệu suất của nó phụ thuộc nhiều vào kích thước đầu vào.
Theo [5], Marc Sole´ và Josep Carmona đã có một cách tiếp cận để khắc phục vấn đề thứ 2. Trong nhật ký sự kiện nếu tồn tại hành động lặp thì hệ thống chuyển không tuần hoàn hay không có chu kỳ tương ứng sẽ phải chứa hoạt động mở (unfolded) bằng các mẫu (pattern) lặp. Điều này ý nói rằng cỡ của hệ thống chuyển kiểu này là lớn.
Hình 3.7 Sử dụng Foldings trong phát hiện quá trình dựa trên vùng [5]
Trong hình 3.7 tác giả đã đề xuất một bước trung gian là Folding (gấp lại). Bước Folding này được thực hiện ở giữa bước chuyển từ hệ thống chuyển sang lưới Petri. Bước này sẽ tìm ra các chu trình từ đó làm giảm kích thước của hệ thống chuyển. Chiến lược Folding cho phép giảm số lượng trạng thái và tăng tốc việc phát hiện quá trình.
Ngoài ra theo [6] van der Aalst, W.M.P cũng đã đề xuất cách tiếp cận chia để trị (divide-and-conquer) để giải quyết bài toán với đầu vào là nhật ký sự kiện lớn. Chia để trị dưa trên một phân mảnh hợp lệ các hoạt động. Các tập hoạt động nên gối lên nhau nếu nó có một sự phụ thuộc trực tiếp. Có hai nhiệm vụ khai phá quá trình chính trong các tiếp cận này:
Một là cho việc kiểm tra sự phù hợp, chúng ta phân chia mô hình quá trình thành các mô hình con thành phần nhỏ hơn gối đầu lên nhau sử dụng phép chiếu. Nhật ký sự kiện được phân chia thành các nhật ký con cũng sử dụng phép chiếu. Bất kỳ vết nào phù hợp với mô hình toàn thể cũng phù hợp với tất cả các mô hình con. Điều ngược lại chỉ đúng nếu việc phân chia là hợp lý. Độ đo tỷ lệ các trường hợp phù hợp có thể được tính bằng việc kiểm tra độ phù hợp của các mô hình con.
Hình 3.8 : Tổng quan mô hình phân chia trong kiểm tra độ phù hợp[6]
Hai là phân chia trong phát hiện quá trình, đầu tiên chúng ta tạo một phân mảnh hoạt động. Ví dụ chúng ta chia tập các hoạt động thành một bộ các tập hoạt động thành phần gối đầu nhau. Với mỗi tập hoạt động con chúng ta chiếu nhật ký lên trên một nhật ký con và phát hiện mô hình con cho nó. Các mô hình con khác nhau có thể được gộp thành mô hình tổng thể. Hơn nữa, việc phân chia này đảm bảo rằng toàn bộ các vết trong nhật ký mà phù hợp với mô hình tổng thể thì cũng phù hợp với các mô hình con và ngược lại.
Hình 3.9 : Tổng quan mô hình phân chtia trong phát hiện quá trình [6]
Như vậy nhìn chung cả hai bài toán kiểm tra độ phù hợp và phát hiện quá trình đều có thế được phân chia thành các bài toán nhỏ hơn, có thể được phân tán trên nhiều máy tính. Hơn nữa với hầu hết các kỹ thuật khai phá quá trình thì thời gian cần thiết để giải quyết “nhiều bài toán nhỏ hơn” là ít hơn thời gian cần để giải quyết “một bài toán lớn”. Vì vậy việc phân chia này là hữu ích nếu nhiệm vụ nhỏ hơn được hoàn thành trên một máy tính đơn. Ngoài ra việc phân chia bài toán khai phá quá trình không chỉ liên quan đến khía cạnh hiệu năng mà nó cũng được sử dụng để định vị chính xác hầu hết các phần mơ hồ của quá trình và cung cấp chuẩn đoán đã được giới hạn vào một nơi.