CHƯƠNG 2 MỘT SỐ THUẬT TỐN KHAI PHÁ QUY TRÌNH
3.3. Thực nghiệm khai phá quy trình thu thập cập nhật hệ thống minh chứng kiểm
chứng kiểm định chất lượng giáo dục tại trường Đại học Phạm Văn Đồng
3.3.1. Khai phá quy trình bằng thuật tốn Alpha
Bản ghi sự kiện ta sử dụng có hoạt đợng bắt đầu là hoạt đợng xác định yêu cầu và hoạt động kết thúc là cập nhật hệ thống minh chứng hoặc từ chối yêu cầu. Bản ghi sự kiện này không tồn tại các vấn đề về logic, sự kiện lỗi hay sự kiện không đầy đủ. Đầu vào của thuật toán Alpha là bản ghi sự kiện, đầu ra là mạng Petri có đợ phù hợp cao. Thực nghiệm phát hiện quy trình từ bản ghi sự kiện này bằng thuật tốn Alpha, ta được mơ hình quy trình ở hình 3.11
Hình 3.11: Kết quả khai phá quy trình xử lý quy trình bằng thuật tốn Alpha.
Sử dụng các kỹ thuật kiểm tra độ phù hợp của mơ hình quy trình trên với bản ghi sự kiện VFull, ta được kết quả phù hợp 100%.
Thử chỉnh sửa bản ghi bằng cách sửa 1 vết sự kiện (A,B,C,D,E,G) thành (B,A,C,D,E,G). Ta gọi bản ghi này là VFull’. Khi đó ta có mợt vết sự kiện lỗi. Dùng thuật toán Alpha để phát hiện quy trình với bản ghi có sự kiện lỗi này ta được mợt mơ hình mới (hình 3.12).
Hình 3.12: Kết quả nhận được khi khai phá với bản ghi sự kiện có lỗi.
Với mơ hình quy trình được phát hiện bằng thuật tốn alpha dựa trên bản ghi sự kiện có lỗi, thực hiện các kỹ thuật kiểm tra phù hợp, ta nhận được kết quả độ phù hợp 89%. Rõ ràng, chỉ với một sự kiện lỗi, độ phù hợp của mơ hình được phát hiện đã giảm 11%.
Như vậy, ta có thể thấy, đối với các bản ghi sự kiện đầy đủ, khơng có sự kiện lỗi thì thuật tốn alpha có thể phát hiện được quy trình mợt cách hiệu quả. Thuật tốn alpha khơng thể tự mình giải quyết các vấn đề về logic hay sự kiện lỗi, sự kiện khơng đầy đủ. Vì vậy, khi muốn sử dụng một bản ghi sự kiện để phát hiện quy trình bằng thuật toán alpha, ta nên kiểm tra và lọc lại bản ghi sự kiện để tránh các sự kiện lỗi và xử lý các sự kiện không đầy đủ trước.
3.3.2. Khai phá quy trình bằng thuật tốn Heuristic mining
Từ bản ghi sự kiện được mô tả trong bảng 3.2, ta sử dụng thuật toán HM, với các tham số được thiết lập một cách mặc định kết hợp với điều kiện All tasks connected, khi đó các kết nối tần suất thấp cụ thể ở đây là kết nối giữa bắt đầu lại yêu
cầu (F) và quyết định (C) sẽ khơng xuất hiện và mơ hình kết quả được biểu diễn như hình 3.13. Tuy nhiên, nếu thiết lập tham số ngưỡng phụ thuộc σa = 0.9 và tham số so với ngưỡng tốt nhất σr = 0.1 thì kết nối tần suất thấp từ bắt đầu lại yêu cầu (F) và quyết định (C) cũng được chấp nhận. Đồ thị kết quả đầy đủ, có kết hợp với tần suất thơng tin cho các cung được đưa ra trong hình 3.14.
Hình 3.13: Mơ hình kết quả khai phá quy trình bằng thuật tốn HM khi sử dụng các tham số mặc định
Kiểm tra độ phù hợp của mơ hình trên hình 3.13 khơng chứa các kết nối giữa bắt
đầu lại yêu cầu(F) và quyết định (C), ta nhận được độ phù hợp 94,1% do 6 kết nối giữa bắt đầu lại yêu cầu(F) và quyết định (C), khơng phù hợp với mơ hình
Hình 3.14: Mơ hình kết quả khai phá quy trình bằng thuật tốn HM khi thiết lập tham số σa = 0.90 và σr = 0.1 (Kết nối tần suất thấp giữa F và C cũng được chấp nhận)
Kiểm tra đợ phù hợp của mơ hình trên hình 3.14 ta nhận được kết quả phù hợp 100%. Tất cả các vết sự kiện đều có thể thực hiện lại trên mơ hình.
Hình 3.15: Kết quả khai phá với bản ghi có sự kiện lỗi và hoạt động trùng lặp
Kiểm tra đợ phù hợp của mơ hình ta nhận được kết quả phù hợp 88,9%. Một vết sự kiện lỗi khơng thể thực hiện lại trên mơ hình, cịn lại tất cả các vết sự kiện đều có thể thực hiện lại trên mơ hình. Chỉ với 21 vết lỗi sự kiện lỗi, đợ phù hợp của mơ hình được phát hiện đã giảm gần 11,1%. Điều đó cho thấy thuật tốn HM đối phó với sự kiện lỗi tốt hơn thuật tốn Alpha nhưng vẫn khơng thể giải quyết triệt để vấn đề này.
3.3.3. Khai phá quy trình bằng thuật tốn Di truyền.
Từ bản ghi sự kiện 3.2 , ta sử dụng thuật toán GPM với các tham số được mơ tả trong hình hình 3.16.
Khi đó kết quả của q trình khai phá là mợt tập quần thể (tương ứng mơ hình). Đây là các cá thể được đưa ra sau quá trình khai phá, bao gồm cả các cá thể có đợ phù hợp cao nhất và các cá thể có đợ phù hợp thấp ở các thế hệ đầu tiên.
Đánh giá các thuật toán
Sau khi thực nghiệm các thuật toán Alpha, Heuristic và GPM với bản ghi sự kiện 3.2 khơng có sự kiện lỗi và tồn tại sự kiện lỗi. Tôi đi đến các nhận định sau:
Bảng 3.3: So sánh, đánh giá các thuật toán đã thực nghiệm
Thuật tốn
Tiêu chí Alpha Heuristic mining
Genetic process mining (Di truyền) Thời gian thực
hiện
Nhanh Nhanh Chậm tùy thuộc vài thông số tùy chỉnh. Thông số càng cao thời gian thực hiện càng lâu Độ phù hợp của mơ hình kết quả - Mơ hình có được từ bản ghi tốt cho độ phù hợp cao. - Mơ hình từ bản
ghi tồn tại lỗi có đợ phù hợp bị sụt giảm nhiều
- Mơ hình có được từ bản ghi tốt, không lỗi có đợ phù hợp cao. - Đợ phù hợp ở mơ hình từ bản ghi có vết sự kiện lỗi bị giảm sút. - Mơ hình từ bản ghi có hoạt đợng trùng lặp có đồ phù hợp thấp.
Các cá thể mơ hình trong quần thể kết quả cho độ phù hợp cao.
Ưu điểm
- Phát hiện nhanh do thuật toán đơn giản.
- Bản ghi đầu vào tốt cho kết quả tốt.
- Thực hiện nhanh, không tốn nhiều thời gian do thuật tốn khơng phức tạp.
- Phát hiện tốt trên các bản ghi khơng có lỗi và có vết sự kiện lỗi.
- Phát hiện tốt, cho kết quả phù hợp cao đối với cả bản ghi không bị lỗi và bản ghi có lỗi, sự kiện trùng lặp. - Cho phép tùy chỉnh
linh hoạt các thông số để đạt hiệu quả phát hiện quy trình cao nhất.
Khuyết điểm Xử lý các vết sự lỗi kiện không tốt dẫn đến mơ hình kết quả có chất lượng thấp Xử lý sự kiện trùng lặp khơng tốt. Mơ hình kết quả với bản ghi có lỗi có đợ phù hợp bị giảm sút nhiều.
Thời gian thực hiện lâu do thuật toán phức tạp.
Theo bảng trên, ta có thể thấy rằng, thuật tốn Alpha và HM thực hiện nhanh hơn rất nhiều so với thuật toán GPM. Nhưng xét về chất lượng của kết quả đầu ra - ở đây là đợ phù hợp của mơ hình kết quả - thì thuật tốn GPM cho kết quả tốt nhất. Hai biểu đồ sau ở hình 3.17 thể hiện mợt cách trực quan nhận định trên:
Biểu đồ thời gian thực hiện của ba Biểu đồ độ phù hợp của mơ hình thuật
toán (đơn vị: giây) kết quả ở ba trường hợp (đơn vị: %)
Hình 3.17: So sánh thời gian thực hiện và độ phù hợp của mơ hình kết quả của ba thuật tốn Alpha, HM, GPM
Nhìn vào hình 3.17 ta có thể thấy được, mặc dù tốn nhiều thời gian hơn nhưng thuật tốn GPM đối phó tốt với các vấn đề sự kiện lỗi và hoạt động trùng lặp. Việc xây dựng khai phá mợt mơ hình quy trình tùy tḥc vào nhu cầu thực tế và chất lượng của bản ghi sự kiện đầu vào. Nếu mơ hình đơn giản, bản ghi sự kiện có chất lượng cao thì sử dụng thuật toán Alpha hoặc HM sẽ cho hiệu quả về thời gian và chất lượng cao hơn. Mặc khác, nếu mơ hình tương đối phức tạp hơn và bản ghi sự kiện có chất lượng khơng cao, thuật tốn GPM có thể trả về kết quả tối ưu hơn. Trong phần lớn trường hợp khai phá quy trình, đợ phù hợp là chỉ tiêu được xem trọng hơn vì thời gian tiêu tốn cho khai phá không quá nhiều nhờ vào hiệu năng xử lý của các hệ thống thông tin hiện nay.