1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu kỹ thuật biểu diễn và phân cụm vết trong phát hiện mô hình quy trình

139 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu kỹ thuật biểu diễn và phân cụm vết trong phát hiện mô hình quy trình
Tác giả Nguyễn Thị Thanh Thủy
Người hướng dẫn PGS.TS. Nguyễn Trí Thành, PGS.TS. Nguyễn Cẩm Tú
Trường học Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại Luận án tiến sĩ Công nghệ thông tin
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 139
Dung lượng 4 MB

Nội dung

Nghiên cứu kỹ thuật biểu diễn và phân cụm vết trong phát hiện mô hình quy trình Nghiên cứu kỹ thuật biểu diễn và phân cụm vết trong phát hiện mô hình quy trình Nghiên cứu kỹ thuật biểu diễn và phân cụm vết trong phát hiện mô hình quy trình

Trang 1

HÀ NỘI – 2022

NGHIÊN CỨU KỸ THUẬT BIỂU DIỄN

VÀ PHÂN CỤM VẾT TRONG PHÁT HIỆN

MÔ HÌNH QUY TRÌNH

Chuyên ngành: Hệ thống thông tin

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TS NGUYỄN TRÍ THÀNH

2 PGS.TS NGUYỄN CẨM TÚ

Trang 2

i

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung luận án này là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực

Nghiên cứu sinh

Trang 3

ii

LỜI CẢM ƠN

Thời gian học nghiên cứu sinh và thực hiện luận án tại Bộ môn Các Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS Nguyễn Trí Thành và PGS.TS Nguyễn Cẩm Tú là khoảng thời gian vô cùng quý báu và ý nghĩa đối với tôi Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Trí Thành và PGS.TS Nguyễn Cẩm Tú, những người Thầy đã đưa tôi tiếp cận và đạt được những thành công trong lĩnh vực nghiên cứu của mình Đặc biệt, tôi xin gửi lời cảm ơn tới PGS.TS Nguyễn Trí Thành, sự nghiêm khắc, nghiêm túc trong nghiên cứu khoa học cùng với sự động viên và chỉ bảo của Thầy đã giúp tôi có nhiều động lực vượt qua các giai đoạn nghiên cứu khó khăn, để ngày hôm nay tôi có thể hoàn thành được những nghiên cứu trong bản luận án này cũng như trưởng thành và tự tin hơn trên con đường nghiên cứu khoa học của mình

Tôi xin bày tỏ lòng biết ơn tới PGS.TS Hà Quang Thụy đã luôn nhiệt tình hướng dẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận

án Thầy đã cho chúng tôi một môi trường làm việc hiệu quả tại Phòng thí nghiệm Khoa học dữ liệu và Công nghệ tri thức - DS&KTLab Những buổi sinh hoạt chuyên môn của các thành viên trong DS&KTLab dưới sự dẫn dắt của Thầy đã không chỉ giúp chúng tôi có được sự kết nối tri thức phong phú giữa các chủ đề, lĩnh vực nghiên cứu khác nhau, mà còn giúp chúng tôi có khả năng hình thành được những ý tưởng nghiên cứu của mình Đối với riêng tôi, kết quả đạt được trong bản luận án này có nhiều ý tưởng nghiên cứu được khởi nguồn từ nơi đây Tôi xin trân trọng cảm ơn các Thầy Cô trong hội đồng chuyên môn bộ môn PGS.TS Hà Quang Thụy, PGS.TS Đỗ Trung Tuấn, PGS.TS Đặng Văn Đức, PGS.TS

Đỗ Văn Thành, PGS.TS Nguyễn Ngọc Hóa, PGS.TS Phan Xuân Hiếu, TS Trần Trọng Hiếu, TS Nguyễn Thị Hậu, TS Trần Mai Vũ, TS Đặng Thanh Hải, TS Ngô Xuân Bách, TS Lê Đức Trọng Các Thầy Cô trong hội đồng đánh giá cấp cơ sở PGS.TS Nguyễn Ngọc Hóa, PGS.TS Đỗ Trung Tuấn, PGS.TS Nguyễn Long Giang, PGS.TS Trần Đăng Hưng, TS Trần Trọng Hiếu, TS Nguyễn Thị Hậu, TS Trần Thị Oanh; Các Thầy Cô trong hội đồng đánh giá cấp Đại học Quốc gia PGS.TS Lê Sỹ Vinh, PGS.TS Trần Trọng Hiếu, PGS.TS Đỗ Văn Thành, PGS.TS Nguyễn Đình Hóa, PGS.TS Ngô Xuân Bách, PGS.TS Lê Thanh Hương, PGS.TS Nguyễn Hải Châu đã

Trang 4

iii

đóng góp các ý kiến chuyên môn vô cùng xác đáng và quý báu để tôi có thể hiểu

rõ hơn về nội dung nghiên cứu và hoàn thiện tốt nhất bản luận án của mình Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự NCS Vũ Trọng Sinh, NCS Nguyễn Thị Chăm và ThS Nguyễn Thị Hiền Hạnh đã hỗ trợ tôi thực hiện các công trình nghiên cứu Tôi cũng không bao giờ quên sự sẻ chia từ những đồng đội của tôi, các anh chị em nghiên cứu sinh Vũ Ngọc Trình, Nguyễn Thị Chăm, Lê Hoàng Quỳnh, Phạm Thanh Huyền, Nguyễn Thị Hồng Khánh, Nguyễn Thị Ngân, Nguyễn Thị Thanh Lưu, Nguyễn Văn Thẩm, Nguyễn Ngọc Vũ, Nguyễn Thọ Thông và các bạn giảng viên trẻ tại DS&KTLab Vương Thị Hải Yến, Vương Thị Hồng, Nguyễn Thị Cẩm Vân, Phạm Quỳnh Trang… Chúng tôi đã luôn ở bên nhau, chia sẻ với nhau những ý tưởng nghiên cứu, những khó khăn cũng như những niềm vui khi đạt được các kết quả mong muốn

Tôi xin chân thành cảm ơn tới Ban lãnh đạo, tập thể các Thầy Cô giáo, các Nhà khoa học thuộc Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, PGS.TS Lê

Sỹ Vinh, PGS.TS Nguyễn Phương Thái, PGS.TS Phạm Ngọc Hùng đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu Cảm ơn các chuyên viên Nguyễn Thị Minh Thanh, Nguyễn Thị Lan Hương, Phạm Thị Mai Bảo, Tạ Thị Hồng Hạnh, Nguyễn Khánh Ly đã luôn hỗ trợ tôi trong quá trình hoàn thiện hồ sơ bảo vệ các cấp

Tôi cũng bày tỏ lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Ngân hàng; Ban lãnh đạo Khoa Hệ thống thông tin Quản lý đã tạo mọi điều kiện thuận lợi cho tôi trong quá trình nghiên cứu; Cảm ơn các đồng nghiệp trong Khoa và trong Bộ môn Tin quản lý đã luôn ủng hộ, quan tâm và động viên tôi

Tôi xin được gửi lời cảm ơn tới người bạn đời TS Vũ Tùng Lâm đã yêu thương

và tạo mọi điều kiện thuận lợi cho tôi, không chỉ sắp xếp công việc cho tôi có toàn thời gian nghiên cứu mà còn giúp tôi làm rõ hơn những kiến thức toán học liên quan Cảm ơn hai con Vũ Bùi Lâm Anh, Vũ Đình Anh đã luôn thật tự giác và chủ động thực hiện các công việc của mình Sự cố gắng và kết quả xuất sắc trong học tập của các con cũng là nguồn động viên to lớn giúp tôi hoàn thành nhiệm vụ học tập của mình

Cuối cùng tôi luôn biết ơn những người thân trong gia đình, Bố Mẹ bên nội, Bố

Mẹ bên ngoại; Các Anh chị em và Bạn bè đã luôn chia sẻ khó khăn và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua

Trang 5

iv

Mục lục

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

Mục lục iv

Danh mục thuật ngữ và chữ viết tắt vii

Danh mục hình vẽ viii

Danh mục bảng biểu x

Mở đầu 1

Chương 1 Giới thiệu chung về phát hiện mô hình quy trình và phân cụm vết 12

1.1 Giới thiệu về Khai phá quy trình 12

1.1.1 Định nghĩa 12

1.1.2 Vai trò của Khai phá quy trình 13

1.1.3 Khai phá quy trình và Khoa học dữ liệu 14

1.2 Một số khái niệm cơ bản về nhật ký sự kiện 15

1.2.1 Hoạt động 15

1.2.2 Sự kiện 16

1.2.3 Trường hợp 17

1.2.4 Vết 18

1.2.5 Biểu diễn và lưu trữ nhật ký sự kiện 19

1.3 Bài toán Phát hiện mô hình quy trình 21

1.3.1 Phát biểu bài toán 21

1.3.2 Mô hình hóa quy trình trong Phát hiện mô hình quy trình 21

1.3.3 Biểu diễn mô hình quy trình bằng lưới Petri 24

1.3.4 Thuật toán  phát hiện mô hình quy trình 27

1.3.5 Đánh giá chất lượng mô hình quy trình 29

1.4 Thách thức của bài toán Phát hiện mô hình quy trình và Phân cụm vết 33

1.4.1 Thách thức từ dữ liệu nhật ký sự kiện 33

1.4.2 Giải pháp phân cụm vết nâng cao chất lượng mô hình quy trình 36

Kết luận chương 1 42

Chương 2 Phương pháp biểu diễn vết dựa trên đồ thị khoảng cách cho phân cụm vết 43

2.1 Các phương pháp biểu diễn vết truyền thống 43

Trang 6

v

2.1.1 Túi các hoạt động 44

2.1.2 k-gram 45

2.1.3 Lặp cực đại 46

2.2 Biểu diễn vết sử dụng đồ thị khoảng cách 47

2.2.1 Đồ thị khoảng cách 47

2.2.2 Ứng dụng đồ thị khoảng cách trong biểu diễn vết 49

2.3 Phát hiện mô hình quy trình sử dụng Đồ thị khoảng cách trong biểu diễn vết

51

2.3.1 Khung thực nghiệm 51

2.3.2 Thực nghiệm 53

2.3.3 Kết quả thực nghiệm 56

Kết luận chương 2 63

Chương 3 Độ đo khoảng cách vết dựa trên trọng số vết cho phân cụm vết 65

3.1 Các phương pháp tính khoảng cách truyền thống 65

3.1.1 Khoảng cách Euclid 66

3.1.2 Khoảng cách Hamming 66

3.1.3 Khoảng cách Jaccard 66

3.1.4 Hệ số tương quan – Correlation 67

3.1.5 Độ đo Cosine 67

3.1.6 Khoảng cách Levenshtein 68

3.2 Đo khoảng cách vết sử dụng độ đo Google chuẩn hóa 68

3.2.1 Độ đo Google chuẩn hóa 69

3.2.2 Ứng dụng độ đo Google chuẩn hóa tính khoảng cách giữa các vết 70

3.3 Phát hiện mô hình quy trình sử dụng Độ đo trọng số vết chuẩn hóa tính khoảng cách vết 72

3.3.1 Khung thực nghiệm 73

3.3.2 Thực nghiệm 74

3.3.3 Kết quả thực nghiệm 75

Kết luận chương 3 78

Chương 4 Thuật toán phân cụm vết mới theo ngữ cảnh ContextTracClus 79

4.1 Hướng tiếp cận ngữ cảnh trong phân cụm vết 80

4.1.1 Khái niệm ngữ cảnh trong khai phá quy trình 80

4.1.2 Khái niệm ngữ cảnh vết 80

4.1.3 Cây ngữ cảnh 81

Trang 7

vi

4.1.4 Xây dựng cây ngữ cảnh 81

4.1.5 Xác định ngữ cảnh vết 83

4.2 Giải pháp phân cụm vết mới dựa theo ngữ cảnh 84

4.2.1 Ý tưởng đề xuất 84

4.2.2 Thuật toán phân cụm vết mới ContextTracClus 85

4.3 Phát hiện mô hình quy trình sử dụng thuật toán ContextTracClus trong phân cụm vết 87

4.3.1 Khung thực nghiệm 87

4.3.2 Thực nghiệm 89

Kết luận chương 4 92

Chương 5 Các phương pháp biểu diễn vết dựa trên ứng dụng học sâu cho phân cụm vết 93

5.1 Mạng nơ-ron học sâu DNN trong bài toán biểu diễn vết 94

5.1.1 Mạng nơ-ron học sâu DNN 94

5.1.2 Biểu diễn vết cô đọng dựa trên mạng nơ-ron học sâu DNN 96

5.2 Ứng dụng mô hình CBÔW để sinh biểu diễn vết 98

5.2.1 Giới thiệu về mô hình CBOW 98

5.2.2 Phương pháp biểu diễn vết TraceEmbedding dựa trên mô hình CBOW 100

5.3 Mạng nơ-ron học sâu LSTM trong bài toán biểu diễn vết 102

5.3.1 Giới thiệu về mạng nơ-ron học sâu LSTM 102

5.3.2 Phương pháp biểu diễn vết TraceLSTM dựa trên mạng nơ-ron học sâu LSTM 104

5.4 Phát hiện mô hình quy trình sử dụng học sâu biểu diễn vết 106

5.4.1 Khung thực nghiệm 106

5.4.2 Kết quả thực nghiệm 109

Kết luận chương 5 115

Kết luận 116

Danh mục công trình khoa học của Tác giả liên quan tới luận án 119

Tài liệu tham khảo 120

Trang 8

vii

Danh mục thuật ngữ và chữ viết tắt

ANN Artificial Neural Networks Mạng nơ-ron nhân tạo

BI Bussiness intelligence Thông minh kinh doanh

BOA Bag-of-activities Túi các hoạt động

BPM Bussiness Process Management Quản lý quy trình nghiệp vụ

BPMN Business Process Modeling Notation Bộ chú giải mô hình quy trình nghiệp vụ

CBOW Continuous Bag of Words Túi từ liên tiếp

CRM Customer Relationship Management Quản lý quan hệ khách hàng

DG Distance Graph Đồ thị khoảng cách

DNN Deep Neural Networks Mạng nơ-ron học sâu

ERP Enterprise Resource Planning Hoạch định nguồn lực doanh nghiệp LSTM Long short-term memory Bộ nhớ dài-ngắn hạn

LTL Linear temporal logic Biểu thức logic thời gian tuyến tính

MP Maximal Repeats Lặp cực đại

NGD Normalized Google Distance Độ đo Google chuẩn hóa

NKSK Event log Nhật ký sự kiện

NTW Normalized Trace Weight Độ đo trọng số vết chuẩn hóa

NW Normalized Weight Độ đo trọng số chuẩn hóa

OLAP Online Analytical Processing Xử lý phân tích trực tuyến

Petri Petri net Lưới Petri

PI Process intelligence Thông minh quy trình

PM Process Mining Khai phá quy trình

SCM Supply Chain Management Quản lý chuỗi cung ứng

UML Unified Modeling Languge Ngôn ngữ mô hình hóa thống nhất WFM Workflow Management Quản lý luồng công việc

YAWL Yet Another Workflow Language Ngôn ngữ luồng công việc

Trang 9

viii

Danh mục hình vẽ

Hình 0.1 Cây chủ đề nghiên cứu của luận án 9

Hình 0.2 Phân bố các chủ đề trong các chương của luận án 10

Hình 1.1 Một khung nhìn về ba bài toán trong khai phá quy trình [46] 14

Hình 1.2 Mối quan hệ giữa khoa học dữ liệu và Khai phá quy trình 15

Hình 1.3 Cấu trúc file MXML biểu diễn nhật ký sự kiện Lfull [124] 20

Hình 1.4 Bài toán Phát hiện mô hình quy trình 21

Hình 1.5 Các kiểu mẫu thành phần mô hình quy trình cơ bản 26

Hình 1.6 Mô hình quy trình NKSK Lfull sử dụng lưới Petri [124] 26

Hình 1.7 Thuật toán  phát hiện mô hình quy trình (NKSK Lfull) 28

Hình 1.8 Vị trí P(A, B) nối các hoạt động thuộc tập A và tập B 29

Hình 1.9 Quá trình phát lại vết trong mô hình quy trình 31

Hình 1.10 Thách thức mô hình quy trình với NKSK lớn và đa dạng [33] 34

Hình 1.11 Mô hình quy trình với NKSK nguyên gốc và NKSK trừu tượng 35

Hình 1.12 Mô hình quy trình thành phần từ nhật ký sự kiện trôi khái niệm 36

Hình 1.13 Phân cụm vết trong khai phá quy trình [128] 37

Hình 1.14 Hồ sơ đặc trưng cho các trường hợp trong nhật ký sự kiện [80] 38

Hình 2.1 Biểu diễn đồ thị khoảng cách [25] 48

Hình 2.2 Đồ thị khoảng cách của vết T = acdefdbeh 50

Hình 2.3 Khung thực nghiệm Phát hiện mô hình quy trình 52

Hình 2.4 So sánh thời gian thực hiện và số chiều của không gian đặc trưng 58

Hình 2.5 So sánh độ đo F1 giữa các phương pháp biểu diễn vết trên tập dữ liệu Lfull. 62

Hình 3.1 Khung thực nghiệm Phát hiện mô hình quy trình sử dụng độ đo trọng số vết 73

Hình 4.2 Khung thực nghiệm ứng dụng thuật toán ContextTracClus trong phân cụm vết 88

Hình 5.1 Cấu trúc mạng nơ-ron học sâu DNN 95

Hình 5.2 Mạng nơ-ron học sâu DNN trong biểu diễn vết 97

Trang 10

ix

Hình 5.3 Mô hình CBOW với một từ đơn 99

Hình 5.4 Mô hình CBOW trong biểu diễn vết 101

Hình 5.5 Cấu trúc mạng nơ-ron hồi quy 102

Hình 5.6 Cấu trúc một mô-đun trong LSTM 103

Hình 5.7 Mạng nơ-ron học sâu LSTM trong biểu diễn vết 105

Hình 5.8 Khung thực nghiệm ứng dụng học sâu trong biểu diễn vết 107

Trang 11

x

Danh mục bảng biểu

Bảng 1.1 Hoạt động trong nhật ký sự kiện Lfull 16

Bảng 1.2 Sự kiện trong nhật ký sự kiện Lfull 17

Bảng 1.3 Trường hợp trong nhật ký sự kiện Lfull 18

Bảng 1.4 Một phần các vết nhật ký sự kiện Lfull 19

Bảng 1.5 Bảng khảo sát về phân cụm vết 40

Bảng 2.1 Minh họa biểu diễn k-gram và véc-tơ đặc trưng 46

Bảng 2.2 Biểu diễn Đồ thị khoảng cách và tập đặc trưng 50

Bảng 2.3 Dữ liệu thực nghiệm 54

Bảng 2.4 So sánh thời gian thực hiện và số chiều không gian đặc trưng 57

Bảng 2.5 Các phương pháp biểu diễn vết và chất lượng mô hình quy trình sử dụng thuật toán K-means 60

Bảng 2.6 Các phương pháp biểu diễn vết và chất lượng mô hình quy trình sử dụng thuật toán DBSCAN 61

Bảng 3.1 Kết quả thực nghiệm số cụm k với các thang đo khác nhau 75

Bảng 3.2 Thời gian thực nghiệm trung bình trên các cụm nhật ký sự kiện prAm6 76

Bảng 3.3 Kết quả độ đo mô hình sử dụng thang đo truyền thống và NTW 76

Bảng 4.1 Kết quả thực nghiệm sử dụng thuật toán ContextTracClus 90

Bảng 5.1 Tham số học của mô hình 108

Bảng 5.2 Minh họa giá trị vết sử dụng các phương pháp biểu diễn theo học sâu 110

Bảng 5.3 Kết quả thực nghiệm hiệu quả các phương pháp biểu diễn vết 111

Trang 12

1

Mở đầu

Quy trình nghie ̣p vụ ngày càng đóng vai trò quan trọng đối với các doanh nghiệp, trở thành mo ̣t thành phàn tài nguyên chién lược then chốt tạo lợi thé cạnh tranh Theo các báo cáo cạnh tranh toàn càu hàng năm của Diẽn đàn kinh té thé giới

economy), các doanh nghie ̣p tạo lập lợi thé cạnh tranh bàng cách sản xuất ra các sản phảm đo ̣c đáo dựa trên các công nghe ̣ tiên tién nhát và/hoa ̣c các quy trình

nghiệp tại các nước kinh tế phát triển cần không ngừng đổi mới việc thiết kế và phát triển các sản phẩm và các quy trình tiên tiến để duy trì lợi thế cạnh tranh

và tiến tới các hoạt động có giá trị gia tăng cao hơn Mike Loukides cũng nhận định tương lai thuộc về các công ty và các cá nhân chuyển đổi được dữ liệu thành

cấp” liên quan tới các bí quyết được tích hợp vào các quy trình nghiệp vụ của doanh nghiệp Tại Việt Nam cũng không nằm ngoài xu hướng phát triển của thế giới, cải tién quy trình nghie ̣p vụ nhàm rút ngán thời gian hoàn thành dịch vụ công là mo ̣t mục tiêu được đa ̣t ra trong các nghị quyét của Chính phủ ta trong nhiều năm gần đây vè cải thiện môi trường kinh doanh, nâng cao năng lực cạnh

Các hệ thống thông tin hiện đại ngày nay đã và đang tạo ra một lượng dữ liệu khổng lồ khi ghi lại các sự kiện xảy ra trong quá trình thực hiện các quy trình nghiệp vụ khác nhau của doanh nghiệp Các dữ liệu này được thu thập và lưu trữ

vực cho phép sử dụng dữ liệu trong nhật ký sự kiện để phân tích và cải tiến các

là một lĩnh vực nghiên cứu liên kết giữa học máy và khai phá dữ liệu với mô hình hóa và phân tích quy trình, nhằm chiết xuất các tri thức có giá trị liên quan đến quy trình nghiệp vụ từ các tệp bản ghi trong quá khứ, bổ sung cho các phương pháp quản lý quy trình nghiệp vụ

1 http://radar.oreilly.com/2010/06/what-is-data-science.html

2 https://www.youtube.com/watch?v=jOOI2NBsHd0 : "Process Mining: Data science in Action"

Trang 13

2

triển R Agrawal, D Gunopulos và F Leymann được coi là một trong những người đặt viên gạch đầu tiên cho lĩnh vực Khai phá quy trình khi vào năm 1998

họ giới thiệu một cách tiếp cận cho phép xây dựng các mô hình quy trình dưới dạng một đồ thị có hướng từ các bản ghi trong quá khứ của hệ thống quản lý

nghiên cứu sử dụng mô hình Markov vào việc khai phá các mô hình quy trình phần mềm từ dữ liệu có trong các tệp bản ghi Các năm tiếp theo, chủ đề trọng tâm gồm các phương pháp xây dựng mô hình quy trình sử dụng các kỹ thuật thống kê, mạng nơ-ron, giải thuật di truyền… thuộc khai phá quy trình đã thu hút

115, 126, 127, 135] Trải qua hơn một thập kỷ (vào năm 2009), khai phá quy trình mới nhận được sự quan tâm rộng rãi của cộng đồng đông đảo các nhà nghiên

Task Force on Process Mining: IEEE-TFPM4) được Van der Aalst và 77 chuyên gia

Technische Universiteit Eindhoven (TU/e) đã có nhiều đóng góp quan trọng cho

sự phát triển của cộng đồng nghiên cứu về khai phá quy trình

Có hai yếu tố chính làm cho khai phá quy trình ngày càng thu hút sự quan

tâm của các nhà nghiên cứu trong hai khu vực hàn lâm và công nghiệp Thứ nhất,

ngày càng có nhiều dữ liệu sự kiện được ghi nhận lại trong các hệ thống thông tin (như các hệ thống Hoạch định nguồn lực doanh nghiệp - ERP; Quản lý luồng công việc - WFM; Quản lý quan hệ khách hàng - CRM; Quản lý chuỗi cung ứng - SCM; Quản lý

dữ liệu sản phẩm – PDM…) giúp cung cấp tốt hơn các thông tin chi tiết về quy trình

càng cao với nhiều thay đổi nhanh chóng ngày nay, các nhà quản lý cần có được

cho các nhà quản lý, tuy nhiên, chúng chưa đáp ứng được kỳ vọng của các nhà quản lý trong môi trường kinh doanh hiện nay Các công cụ BI tập trung vào truy vấn và báo cáo các thông tin tổng hợp của doanh nghiệp dưới dạng bảng điều

3 https://icpmconference.org/2019/wp-content/uploads/sites/6/2019/06/ICPM2019-keynote-WvdA final.pdf

-4 https://www.tf-pm.org/

5 http://www.padsweb.rwth-aachen.de/wvdaalst/

Trang 14

3

sắc về bản chất thực sự của quy trình khi được đưa vào thực thi trong thực tế

xử lý phân tích trực tuyến (Online Analytical Processing - OLAP), nhưng công cụ BI vẫn thiếu khả năng cung cấp cái nhìn về nguyên nhân gốc rễ của tính không hiệu quả hoặc sai sót của quy trình Được xây dựng dựa trên việc kết hợp giữa học máy và mô hình hóa quy trình, cùng với sự kết hợp chặt chẽ các kỹ thuật, công

cụ và phương pháp riêng nhằm thu nhận tri thức từ tập nhật ký sự kiện, khai phá quy trình cho phép phân tích quy trình, phát hiện những vấn đề sai lệch để từ đó

đề xuất các điều chỉnh, thiết kế lại quy trình một cách chính xác hơn nhằm mang lại hiệu quả cao hơn Hơn nữa, khai phá quy trình có thể được nhúng vào các công cụ BI để cung cấp cái nhìn sâu sắc về ngữ nghĩa hoạt động thực sự của các quy trình nghiệp vụ trong thực tế, góp phần mang sự sống vào các mô hình quy trình tĩnh với lượng dữ liệu sự kiện khổng lồ Do đó, các xu hướng quản lý liên quan đến cải tiến quy trình hay tạo ra các quy trình thông minh có thể được giải quyết bằng khai phá quy trình Với những lợi ích mà nó mang lại, khai phá quy trình đang trở thành một trong những hướng nghiên cứu hấp dẫn thu hút được

sự quan tâm của cộng đồng nghiên cứu, các công bố khoa học đang theo xu thế

Comprehend, Futura Reflect, ARIS Process Performance Manager, Fujitsu Automated Process Discovery Service… ) [3, 27, 91]

Ba bài toán chính trong khai phá quy trình là phát hiện mô hình quy trình,

kiểm tra sự phù hợp và các tiến mô hình quy trình Phát hiện mô hình quy trình

là bài toán đầu tiên trong Khai phá quy trình và có những ảnh hưởng quan trọng trực tiếp tới hai bài toán Kiểm tra sự phù hợp và Cải tiến mô hình nói riêng và bài toán lớn Khai phá quy trình nói chung Với đầu vào là tập nhật ký sự kiện lưu vết các thông tin hoạt động của người dùng khi tương tác với hệ thống thông tin của doanh nghiệp, phát hiện mô hình có khả năng tự động sinh một mô hình quy trình phản ánh chính xác lại những hoạt động nghiệp vụ đang diễn ra trong thực

tế tại doanh nghiệp Đây cũng là thông tin đầu vào của bài toán thứ hai Kiểm tra

sự phù hợp với nhiệm vụ chẩn đoán và định lượng sự không phù hợp giữa các

hoạt động được mô hình hóa trong mô hình quy trình và các hoạt động được quan sát trong nhật ký sự kiện Giữa mô hình quy trình và thực tế khi thực hiện

6 Chẳng hạn, https://www.sciencedirect.com/search?qs=%22process%20mining%22

Trang 15

4

quy trình có thể xảy ra sự mâu thuẫn hoặc không ăn khớp vì các nguyên nhân như: con người không thể nghĩ tới tất cả các trường hợp có thể xảy ra khi triển khai mô hình, cách làm việc của nhân viên có thể thay đổi theo thời gian nhưng

mô hình quy trình đã triển khai không theo kịp các thay đổi đó hoặc nhân viên không thực hiện đúng các bước có trong quy trình Kiểm tra sự phù hợp với kỹ

những hiểu biết thú vị về quy trình nghiệp vụ thực tế của mình, biết được các sai lệch có gây ra sự chậm trễ và làm tăng chi phí thực hiện? Kinh nghiệm của nhân

sự phù hợp giữa nhật ký sự kiện và mô hình quy trình, cũng như kiểm soát được

sự tuân thủ các luật kinh doanh trong khi thực hiện quy trình nghiệp vụ của nhân

hợp cho thấy mô hình quy trình không phản ánh đúng thực tế thì bài toán thứ ba

Cải tiến mô hình quy trình được thực hiện Mô hình có thể được cải tiến hay mở

rộng nhằm tạo ra một mô hình mới tốt hơn giải quyết được những sai lệch đang

tồn tại trong nó Cải tiến có hai loại, “sửa” mô hình để phản ánh đúng thực tế hơn

và “mở rộng” mô hình thêm các khía cạnh bổ sung để có cái nhìn rộng hơn về quy

chèn vào mô hình một/một tập hoạt động Các hoạt động bị bỏ qua đề cập đến các hoạt động được thực hiện theo mô hình nhưng không nên xảy ra trong nhật

ký sự kiện Ngược lại, các hoạt động được chèn bổ sung đề cập đến các hoạt động xảy ra trong nhật ký sự kiện nhưng không xảy ra theo mô hình Cách tiếp cận này đảm bảo một mô hình được sửa chữa phù hợp với nhật ký một cách hoàn hảo

[10, 21, 22, 31] Các phương pháp mở rộng mô hình nhằm mục đích làm phong

phú mô hình hiện có bằng cách bổ sung các khía cạnh được trích xuất từ các bản

Khía cạnh tổ chức, khía cạnh thời gian và khía cạnh trường hợp Khía cạnh tổ

chức: tập trung vào các thông tin về các tài nguyên thực hiện các hoạt động, khai

thác mạng xã hội cung cấp cái nhìn sâu sắc về sự hợp tác giữa các nhân viên, công việc chuyển giao trực tiếp giữa mọi người, khai phá vai trò của mỗi cá nhân cũng

125, 132] Khía cạnh thời gian: sử dụng thông tin trong nhãn thời gian để phân

tích thời gian chờ giữa các hoạt động cũng như xác định các tắc nghẽn hoặc dự

cạnh trường hợp: tập trung tìm hiểu, phân tích và ứng dụng về vai trò của các

thuộc tính khác ngoài khía cạnh tổ chức và thời gian như luồng điều khiển, luồng

Trang 16

5

dữ liệu, chi phí, tuân thủ,… trong các trường hợp, bổ sung kỹ thuật giải quyết các

Nhóm nghiên cứu chuyên sâu về khai phá quy trình (Task Force on Process

Mining, sau đây viết tắt là IEEE-TFPM)7 thuộc Ủy ban kỹ thuật khai phá dữ liệu

(Data Mining Technical Committee) của IEEE (Institute of Electrical and

Electronic Engineers) ngày càng thu hút được tham gia đông đảo của cộng đồng

hàn lâm – công nghiệp từ nhiều quốc gia, bao gồm nhiều nhà cung cấp phần mềm cũng như nhiều cơ sở nghiên cứu hàn lâm Các hoạt động nổi bật nhất của IEEE-

TFPM là tổ chức hội nghị thường niên về khai phá quy trình (Process Mining

Conference) bao gồm các hội nghị khoa học về thông minh quy trình nghiệp vụ

(Business Process Intelligence–BPI) và các hội nghị chính thường niên IEEE

các đội tham gia phải trích xuất được những thông tin hữu ích từ lượng lớn những nhật ký sự kiện phức tạp [1]

Nhóm nghiên cứu chuyên sâu IEEE đã ra Tuyên ngôn khai phá quy trình vào năm 2011 với các nội dung chính như sau [46]:

quy trình không hạn chế chỉ là phát hiện mô hình dạng dòng điều khiển

discovery), Kiểm tra phù hợp (process conformance), Cải tiến mô hình quy trình (model enhancement)và một số bài toán liên quan khác, đồng thời, mục tiêu khai phá quy trình không chỉ dòng điều khiển mà còn các kiểu

thông tin khác Thứ hai, khai phá quy trình không phải là một dạng cụ thể

của khai phá dữ liệu do đó cần phải đề xuất các phương pháp và thuật toán

riêng cho khai phá quy trình Thứ ba, khai phá quy trình không chỉ được

thực hiện ngoại tuyến mà còn được thực hiện trực tuyến để cải tiến quy trình nghiệp vụ có tính thời gian thực

Sáu nguyên lý hướng dẫn là: (i) Dữ liệu sự kiện nên được đối xử như “công

dân hạng nhất”; (ii) Trích xuất nhật ký sự kiện nên được điều khiển bằng truy vấn; (iii) Truy nhập đồng thời, chọn lọc và cấu trúc dòng điều khiển

cơ bản đa dạng nên được hỗ trợ; (iv) Sự kiện nên liên quan tới các yếu tố

7 https://www.tf-pm.org/

8 https://icpmconference.org/ và https://icpmconference.org/2020/bpi-challenge/

Trang 17

6

mô hình; (v) Mô hình nên được xử lý trừu tượng hóa một cách có mục đích của thực tiễn; (vi) Khai phá quy trình nên là một quá trình liên tục

Mười một thách thức trong khai phá quy trình gồm (i) Tìm kiếm, hợp nhất

và làm sạch dữ liệu sự kiện; (ii) Xử lý nhật ký sự kiện phức tạp có đặc điểm

đa dạng; (iii) Sinh các tiêu chuẩn đại diện; (iv) Xử lý trôi khái niệm; (v) Cải thiện sự thiên lệch trong biểu diễn mô hình quy trình; (vi) Cân bằng các tiêu chí đánh giá chất lượng gồm Phù hợp, Đơn giản, Chính xác và Tổng quát hóa; (vii) Khai phá quy trình đa tổ chức; (viii) Cung cấp các hoạt động

hỗ trợ trong quá trình thực hiện quy trình; (ix) Kết hợp khai phá quy trình với các lĩnh vực khác; (x) Cải thiện khả năng sử dụng cho người dùng cuối; (xi) Cải thiện khả năng hiểu cho người dùng cuối

Động lực nghiên cứu

Các tuyên bố trong Tuyên ngôn khai phá quy trình đã mở ra những hướng nghiên cứu triển vọng về khai phá quy trình, trong đó có một số luận án tiến sỹ như [33, 55, 89] Luận án của R.P Jagadeesh Chandra Bose [89] đề xuất các kỹ thuật trong nhóm các giải pháp Trừu tượng hóa sự kiện, Phân cụm vết, Phát hiện trôi khái niệm nhằm giải quyết vấn đề phát sinh khi nhật ký sự kiện của các quy trình có kích thước lớn và/hoặc cấu trúc phức tạp trong bài toán Phát hiện mô

hình quy trình với đề xuất một thuật toán ba pha phân cụm vết giúp cải thiện chất lượng mô hình quy trình được cộng đồng nghiên cứu đánh giá cao và nhận

nghiên cứu về bài toán Kiểm tra sự phù hợp và đề xuất các kỹ thuật liên quan Những năm gần đây, sự tăng trưởng của kích thước và cấu trúc tập nhật ký

sự kiện đã trở thành chủ đề đầy thách thức và là tiền đề phát triển các kỹ thuật phát hiện mô hình thông minh [55] Nhật ký sự kiện quá lớn với mức trừu tượng thấp có thể không sinh ra được mô hình quy trình hoặc nếu có thì mô hình cũng

pháp phát hiện mẫu tiền xử lý nhật ký sự kiện gồm ba bài toán Trừu tượng hóa

hoạt động (Abstraction of Events); Trôi khái niệm (Concept Drift); Phân cụm vết

(Trace Clustering) được áp dụng với mục đích giúp tạo ra các mô hình quy trình chất lượng, đơn giản dễ hiểu dễ phân tích Nhiều công trình nghiên cứu liên quan

Trang 18

7

hình bao gói nhiều giải pháp trong vấn đề này Mỗi bài toán có cách tiếp cận và hướng giải quyết khác nhau tùy vào các đặc điểm thực tế của nhật ký sự kiện, tạo nên một nhóm các giải pháp tương đối trọn vẹn cho bài toán tiền xử lý nhật ký

sự kiện Bài toán thứ nhất Trừu tượng hóa hoạt động giữ nguyên nhật ký sự kiện

và rút gọn độ dài của các vết bằng cách thay một chuỗi các hoạt động liên tiếp xuất hiện nhiều lần trong một vết hoặc trong nhật ký sự kiện bằng một hoạt động trừu tượng Bài toán này phù hợp với nhật ký sự kiện có các chuỗi hoạt động

chung lặp lại nhiều lần Bài toán thứ hai Trôi khái niệm chia nhỏ nhật ký sự kiện

ban đầu thành các nhật ký sự kiện sao cho mỗi nhật ký sự kiện con tương ứng với một quy trình con riêng biệt, phù hợp với nhật ký sự kiện có sự thay đổi của

các quy trình theo quy luật Bài toán thứ ba Phân cụm vết cũng chia nhỏ nhật ký

sự kiện ban đầu thành các cụm sự kiện với các vết trong mỗi cụm có sự tương đồng cao, phù hợp với mọi nhật ký sự kiện

Tương ứng với các tuyên bố trong Tuyên ngôn khai phá quy trình, luận án

tố đặc trưng thứ hai) cũng như ứng dụng các kết quả tiên tiến nhất từ học máy và

lượng phát hiện mô hình quy trình Cụ thể, luận án quan tâm phát triển các kỹ thuật tiên tiến liên quan đến bài toán Phân cụm vết với mục đích tiền xử lý dữ liệu sự kiện nâng cao chất lượng mô hình quy trình Phân cụm vết được các nhà nghiên cứu xem xét theo ba khía cạnh gồm Các phương pháp biểu diễn vết; Các

độ đo khoảng cách/sự tương đồng giữa các vết; Các thuật toán phân cụm vết

Khoảng trống nghiên cứu

Luận án nhận thấy rằng các kết quả nghiên cứu đã có vẫn còn tồn tại một số khoảng trống cần được tiếp tục nghiên cứu bổ sung Các phương pháp biểu diễn vết đã có mô tả mối quan hệ giữa các hoạt động liên tiếp với khoảng cách gần mà chưa xem xét mối quan hệ giữa các hoạt động không liền kề và các hoạt động cách xa nhau Ngoài ra trong quá trình biểu diễn việc ánh xạ vết từ chuỗi các hoạt động theo không gian đặc trưng về các véc-tơ số nhị phân tương ứng sử dụng hai chữ số 0 và 1 hoặc véc-tơ số tuần suất cho mọi hoạt động sẽ gây ra vấn đề mất mát thông tin và không gian lưu trữ lớn Về độ đo sự tương đồng giữa các vết, các nghiên cứu đã có tính toán sự tương đồng cục bộ trực tiếp giữa hai vết

mà chưa xem xét mối tương quan của hai vết đó với các vết còn lại Các thuật

Trang 19

8

toán phân cụm vết cũng thường sử dụng các thuật toán phân cụm trong lĩnh vực Khai phá dữ liệu mà ít có những đề xuất các thuật toán phân cụm dành riêng cho lĩnh vực Khai phá quy trình Hơn nữa những nghiên cứu tiên tiến trong Khoa học

dữ liệu như học sâu cũng nên được cập nhật áp dụng trong các nghiên cứu của Khai phá quy trình

Mục tiêu nghiên cứu

Theo định hướng trên đây, nghiên cứu của luận án hướng tới một số mục

tiêu sau đây Thứ nhất, luận án đề xuất các phương pháp biểu diễn vết giải quyết

vấn đề chỉ xem xét mối quan hệ liền kề giữa các hoạt động ở khoảng cách gần

Thứ hai, lua ̣n án đề xuất phương pháp tính khoảng cách giữa các vết dựa trên

mối quan hệ toàn cục của chúng với các vết còn lại Thứ ba, luận án nghiên cứu,

đề xuất thuật toán phân cụm vết khai thác được các đặc trưng riêng trong lĩnh

vực khai phá quy trình Cuối cùng, luận án nghiên cứu việc áp dụng các kết quả

tiên tiến đạt được trong học sâu vào bài toán biểu diễn vết giải quyết vấn đề không gian lưu trữ và mất mát thông tin

Đối tượng nghiên cứu

Luận án nghiên cứu các phương pháp biểu diễn vết, các phương pháp tính khoảng cách giữa các vết và các thuật toán phân cụm vết

Phương pháp nghiên cứu

Luận án sử dụng kết hợp phương pháp nghiên cứu lý thuyết trong tổng hợp, phân tích những hạn chế của các nghiên cứu liên quan từ đó xác định vấn đề nghiên cứu và đề xuất các giải pháp khắc phục với phương pháp thực nghiệm để đánh giá hiệu quả các giải pháp đề xuất

Phạm vi nghiên cứu

Luận án tập trung vào giải pháp Phân cụm vết nhằm nâng cao chất lượng mô hình quy trình trong bài toán Phát hiện mô hình quy trình với ba vấn đề gồm: (i) Các phương pháp biểu diễn vết; (ii) Các độ đo trong phân cụm vết; (iii) Các thuật

0.1)

Trang 20

Thứ nhất, luận án đề xuát năm phương pháp biểu diễn vết gồm: phương pháp

quan hệ giữa các hoạt động không liền kề; ba phương pháp biểu diễn vết sử dụng

học sâu gồm phương pháp biểu diễn vết cô đọng CompactTrace sử dụng mạng

hình nhúng từ CBOW và phương pháp biểu diễn vết TraceLSTM sử dụng mô hình

mối quan hệ giữa các hoạt động ở khoảng cách xa và nguy cơ mất mát thông tin (S Luettgen và cộng sự coi TraceEmbedding như một tham chiếu cho mô hình học biểu diễn vết Case2vec của họ [111])

Thứ hai, trên cơ sở phát triẻn độ đo Google, luận án đề xuát bốn độ đo trong

đó có ba độ đo đo trọng số chuẩn hóa của các hoạt động đối với toàn bộ nhật ký

sự kiện gồm các trường hợp: độ đo một hoạt động 𝑁𝑊(𝑥), độ đo cặp hai hoạt

động 𝑁𝑊(𝑥, 𝑦) và độ đo cặp ba hoạt động 𝑁𝑊(𝑥, 𝑦, 𝑧) Và một độ đo đo trọng số

Trang 21

10

Kết quả đã giải quyết được vấn đề tính sự tương đồng giữa các vết trên mối quan

hệ toàn cục với các vết khác

Thứ ba, luận án đề nghị một thuật toán phân cụm vết mới ContextTracClus

dựa trên ngữ cảnh thực hiện của các vết Giải quyết vấn đề cần bổ sung các thuật

Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các mô hình đè xuát, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của các thuật toán và mô hình được luận án đề xuát Két quả thực nghiệm cho thấy tiềm năng ứng dụng cao các kết quả nghiên cứu từ luận án

Bố cục của luận án gồm phần mở đầu và năm chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo Hình 0.2 cung cấp một khung nhìn sơ

bộ về phân bố các chủ đề trong năm chương nội dung của luận án

Hình 0.2 Phân bố các chủ đề trong các chương của luận án

Chương 1 của luận án cung cấp một nghiên cứu khảo sát khái quát về Khai phá quy trình, bài toán phát hiện mô hình quy trình và các khái niệm liên quan Chương này cũng trình bày các thách thức trong nghiên cứu và giải pháp phân cụm vết nâng cao chất lượng mô hình

Khái quát về Khai phá quy trình, bài toán phát hiện

mô hình quy trình và giải pháp phân cụm vết

CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ PHÁT HIỆN MÔ HÌNH

CHƯƠNG 3: ĐỘ

ĐÔ KHÔẢNG CÁCH VẾT DỰA TRÊN TRỌNG

SỐ VẾT CHO PHÂN CỤM VẾT

Thuật toán phân cụm vết

CHƯƠNG 4:

THUẬT TOÁN PHÂN CỤM VẾT MỚI THEO NGỮ CẢNH ContextTracClus

Phương pháp biểu diễn vết

CHƯƠNG 5: CÁC PHƯƠNG PHÁP BIỂU DIỄN VẾT DỰA TRÊN ỨNG DỤNG HỌC SÂU CHO PHÂN CỤM VẾT

Trang 22

11

Chương 2 luận án đề xuất một phương pháp biểu diễn vết sử dụng đồ thị khoảng cách Phương pháp này mô tả mối quan hệ giữa hai hoạt động trong một vết với một khoảng cách 𝑘 nhất định, do đó có thể nắm bắt cấu trúc tổng thể của

Trang 23

learning and data mining) với mô hình hóa và phân tích quy trình (process modeling and analysing), nhằm chiết xuất các tri thức có giá trị liên quan đến quy trình

nghiệp vụ được thể hiện theo hai phương diện là quản lý và công nghệ Về

phương diện quản lý, quản lý quy trình nghiệp vụ là cách tiếp cận một cách hệ thống nhằm giúp các tổ chức, doanh nghiệp tiêu chuẩn hóa và tối ưu hóa các quy trình hoạt động với mục đích giảm thiểu chi phí, cải tiến chất lượng hoạt động nhằm đạt được các mục tiêu cần thiết Về phương diện công nghệ, quản lý quy trình nghiệp vụ là một bộ công cụ trợ giúp các tổ chức, doanh nghiệp trong việc thiết kế, mô hình hóa, triển khai, giám sát, vận hành và cải tiến các quy trình nghiệp vụ linh hoạt Có thể coi quản lý quy trình nghiệp vụ là công nghệ thúc đẩy

sự hợp tác giữa công nghệ thông tin và người dùng nhằm xây dựng các ứng dụng

có khả năng tích hợp con người, quy trình và thông tin trong tổ chức, doanh nghiệp Khai phá quy trình là một nhóm kỹ thuật trong quản lý quy trình nghiệp

vụ hỗ trợ phân tích và hiểu các quy trình nghiệp vụ dựa trên nhật ký sự kiện Ngày nay, hầu hết các quy trình nghiệp vụ của các tổ chức doanh nghiệp đều được hỗ trợ thực hiện trong các hệ thống thông tin Kết quả vô số các sự kiện

Trang 24

13

được ghi lại bởi các hệ thống này, tuy nhiên, các tổ chức doanh nghiệp gặp phải vấn đề trích xuất giá trị từ những sự kiện khi thực thi hệ thống Mục tiêu của khai phá quy trình là phân tích dữ liệu sự kiện để trích xuất thông tin liên quan đến quy trình, tức là tự động khai phá mô hình quy trình bằng cách quan sát các sự kiện Ý tưởng cốt lõi của khai phá quy trình là khai phá, giám sát và cải tiến các quy trình thực (không phải giả định) bằng cách trích xuất tri thức từ nhật ký sự

kiện thông qua ba bài toán Phát hiện mô hình quy trình, Kiểm tra sự phù hợp quy

trình và Cải tiến mô hình

1.1.2 Vai trò của Khai phá quy trình

Hệ thống thông tin ngày nay phải đối mặt với sự gia tăng không ngừng cả về mặt quy mô lẫn dữ liệu, hầu hết các doanh nghiệp (đặc biệt là các doanh nghiệp vừa

và lớn) trong mọi lĩnh vực như sản xuất kinh doanh, tài chính ngân hàng, vận tải, hậu cần, y tế, thương mại… đều triển khai các hệ thống thông tin quản lý và vận hành các quy trình nghiệp vụ của doanh nghiệp Những thông tin về các hoạt động, phiên giao dịch của người dùng khi thao tác trên hệ thống phần mềm được lưu vết tự động trong các nhật ký sự kiện cung cấp một lượng thông tin chi tiết rất lớn về các hoạt động đã được thực hiện trong quy trình sản xuất kinh doanh

Từ xa xưa các nhà quản lý đã đặt ra câu hỏi “Lượng dữ liệu này có ích không?

Khai phá quy trình với ba bài toán Phát hiện mô hình quy trình, Kiểm tra sự

phù hợp quy trình và Cải tiến mô hình thiết lập các liên kết giữa một bên là các

quy trình thực tế và dữ liệu; bên kia là các mô hình quy trình sử dụng lượng thông tin chứa nhiều tri thức hữu ích đó để xây dựng mô hình quy trình, phân tích nhận biết được thói quen và sự tuân thủ quy trình của nhân viên, xác định được các mối quan hệ phát sinh ngầm hoặc những nút thắt cố chai trong các quy trình,… từ đó có thể điều chỉnh quy trình nghiệp vụ sao cho hoạt động tốt hơn,

hệ thống phần mềm, tạo thành một chu trình sống liên tục ngày càng hoàn thiện

có giá trị đóng góp vào hoạt động bổ sung tài nguyên quy trình doanh nghiệp

(Hình 1.1)

Khai phá quy trình cũng giúp các nhà quản lý có thể phát hiện ra rằng con người trong các tổ chức không hoạt động như "cái máy" Một mặt, nó có thể chỉ

9 http://processminingbook.com/intro.html#big-data-150-years-ago

Trang 25

14

ra những hoạt động sai lệch khỏi quy trình của nhân viên Mặt khác, nó có thể trực quan hóa tính linh hoạt trong giải quyết công việc của nhân viên khi đối phó

Hình 1.1 Một khung nhìn về ba bài toán trong khai phá quy trình [46]

Luận án tập trung nghiên cứu chuyên sâu về bài toán Phát hiện mô hình quy trình với các phương pháp cải tiến chất lượng của mô hình quy trình được sinh

ra Đây là bài toán có vai trò quan trọng, là đầu vào và cũng là yếu tố quyết định tới chất lượng cũng như hiệu quả của hai bài toán Kiểm tra sự phù hợp và Cải tiến mô hình Nếu ngay từ đầu mô hình quy trình được sinh ra không có độ chính xác cao thì việc đánh giá sự phù hợp cũng như cải tiến mô hình quy trình đều không có giá trị thực tiễn

1.1.3 Khai phá quy trình và Khoa học dữ liệu

Theo WMP van der Aalst, khoa học dữ liệu là nghề nghiệp của tương lai, các tổ chức không có năng lực sử dụng dữ liệu (lớn) một cách thông minh thì sẽ không tồn tại Có thể nói khoa học dữ liệu là việc ghi nhận, phân tích và giải thích dữ

thông minh quy trình nghiệp vụ và khai phá quy trình là một trong những thành

10 http://www.cursor.tue.nl/en/news-article/artikel/tue-to-start-data-science-center/

Trang 26

15

Hình 1.2 Mối quan hệ giữa khoa học dữ liệu và Khai phá quy trình

Khoa học dữ liệu không chỉ tập trung vào lưu trữ và phân tích dữ liệu mà các nhà khoa học dữ liệu còn cần phải kết nối dữ liệu tới phân tích quy trình nhằm tìm kiếm sự đối chiếu giữa các dữ liệu sự kiện (các hoạt động quan sát được) và các mô hình quy trình (thủ công hoặc được tự động phát hiện) và có thể được áp dụng vào mọi loại quy trình tác nghiệp của các tổ chức và các hệ thống

hệ này cho thấy vai trò cốt lõi của khai phá quy trình trong bài toán xây dựng các quy trình thông minh đáp ứng nhu cầu sống còn của doanh nghiệp và các tổ chức Một càu nói giữa quản lý quy trình nghiệp vụ và khoa học dữ lie ̣u, là mảng ghép cuói cùng để hoàn thiện toàn bộ chu trình tự đo ̣ng hóa quản lý quy trình nghie ̣p vụ, được coi như “đưa khoa học dữ liệu tới hành đo ̣ng”

1.2 Một số khái niệm cơ bản về nhật ký sự kiện

1.2.1 Hoạt động

Hoạt động (activity, còn được gọi là hành động) là một bước xử lý nghiệp vụ đã

được xác định cụ thể, rõ ràng, không gây nhập nhằng trong một tổ chức Khi đề cập tới một hoạt động (chẳng hạn, tiếp nhận đơn yêu cầu: Tiếp nhận) thì mọi người có liên quan trong tổ chức đều có thể hiểu rõ và thi hành được nội dung

Trang 27

nguyên

Chi … phí

1 4423 12-30-2010:11.02 Tiếp nhận Pete 50

1 4424 12-31-2010:10.06 Kiểm tra kỹ Sue 400

1 4425 01-06-2011:15.12 Kiểm tra vé Mike 100

1 4426 01-07-2011:11.18 Quyết định Sara 200

1 4427 01-07-2011:14.24 Từ chối yêu cầu Pete 200

2 4483 12-30-2010:11.32 Tiếp nhận Mike 50

2 4485 12-30-2010:12.12 Kiểm tra vé Mike 100

2 4487 12-30-2010:14.16 Xác định nguyên nhân Pete 400

2 4488 01-06-2011:11.22 Quyết định Sara 200

2 4489 01-08-2011:12.06 Trả tiền bồi thường Ellen 200

3 4521 12-30-2010:14.32 Tiếp nhận Pete 50

3 4522 12-30-2010:15.06 Xác định nguyên nhân Mike 400

Xét tập các hoạt động trong một tổ chức, khi đó một hoạt động bất kỳ luôn phải thuộc ít nhất một nghiệp vụ cụ thể và một nghiệp vụ cụ thể phải bao gồm một tập con các hoạt động có mối quan hệ ràng buộc với nhau Bảng 1.1 biểu

diễn một phần của nhật ký sự kiện có tên Lfull liên quan đến việc xử lý các yêu

khung hình chữ nhật đen: tiếp nhận (đơn yêu cầu); kiểm tra kỹ (lưỡng); kiểm tra

vé…

1.2.2 Sự kiện

Sự kiện (event) là một lần thi hành một hoạt động trong thực tế cùng với các

thông tin liên quan Ví dụ khi một khách hàng cụ thể nộp đơn yêu cầu bồi thường hàng không, một sự kiện tương ứng với hoạt động tiếp nhận đơn yêu cầu được

thi hành trong một nhãn thời gian cụ thể (timestamp), do một tài nguyên cụ thể thực hiện (resource), với một chi phí cụ thể (cost), và là một bước cụ thể trong

Các thông tin liên quan tới một sự kiện được gọi là thuộc tính (attribute) của

Trang 28

nguyên

Chi … phí

1 4423 30-12-2010:11.02 Tiếp nhận Pete 50

1 4424 31-12-2010:10.06 Kiểm tra kỹ Sue 400

1 4425 06-01-2011:15.12 Kiểm tra vé Mike 100

Định nghĩa 1.1 (Sự kiện) [124] Gọi 𝐴 = {𝑎1, 𝑎2, , 𝑎𝑛} là tập hữu hạn gồm 𝑛

{𝑟1, 𝑟2, , 𝑟k} là tập hữu hạn 𝑘 tài nguyên; 𝐷 = {𝑑1, 𝑑2, , 𝑑ℎ} là tập hữu hạn ℎ

(𝑐, 𝑎, 𝑠, 𝑟, 𝑑) mang ý nghĩa như sau: Mỗi sự kiện 𝑒 là một phần của trường hợp (case) 𝑐 thực hiện một hoạt động 𝑎 ∈ 𝐴 tại thời điểm 𝑠 ∈ 𝑆 bởi tài nguyên 𝑟 ∈ 𝑅 với một số dữ kiện khác 𝑑 ∈ 𝐷

1.2.3 Trường hợp

Trường hợp (case) là dãy bao gồm tất cả các sự kiện được thi hành trong một lần

nghị bồi thường của một hãng hàng không, khi một khách hàng nộp đơn đề nghị bồi thường thì toàn bộ các sự kiện mà hãng hàng không đó tiến hành trong quá trình xử lý đơn đề nghị bồi thường của khách hàng đó là một trường hợp

Mỗi trường hợp được định danh bằng mã trường hợp (case id) và các sự kiện

xuất hiện được sắp xếp theo thứ tự tăng dần của nhãn thời gian Trong Bảng 1.3, tập hợp các sự kiện có cùng định danh là 1 tạo thành một trường hợp, trường

Trang 29

18

hợp này gồm năm sự kiện có mã từ 4423 đến 4427 được sắp xếp tăng dần theo

thời gian thực hiện Ví dụ, sự kiện 4423 thực thi hoạt động "Tiếp nhận" lúc 12-2010:11.02" xảy ra trước sự kiện 4424 thực hiện hoạt động "Kiểm tra kỹ" lúc

nguyên

Chi … phí

1 4423 30-12-2010:11.02 Tiếp nhận Pete 50

1 4424 31-12-2010:10.06 Kiểm tra kỹ Sue 400

1 4425 06-01-2011:15.12 Kiểm tra vé Mike 100

Định nghĩa 1.2 (Trường hợp) [123] Một trường hợp 𝑐 là một dãy hữu hạn 𝑝

các sự kiện 〈𝑒1, 𝑒2, , 𝑒p〉 sao cho: ⋕𝑐 (𝑒𝑖) ≡ ⋕𝑐 (𝑒𝑗) với 1 ≤ 𝑖, 𝑗 ≤ p và ⋕𝑠 (𝑒𝑖) < ⋕𝑠 (𝑒𝑗) với 1 ≤ 𝑖 < 𝑗 ≤ p

1.2.4 Vết

Trong khai phá quy trình, khi khai phá khía cạnh liên quan đến hoạt động, các

trường hợp có thể được mô tả cô đọng dưới dạng tập các vết (trace) Với vết là một chuỗi các hoạt động có chung mã trường hợp (case id) và được sắp xếp theo thứ tự tăng dần của nhãn thời gian Ví dụ, theo bảng 1.3 ta có trường hợp 1 được

Quyết định, Từ chối yêu cầu

Định nghĩa 1.3 (Vết) [123] Gọi 𝐶 = {𝑐1, 𝑐2, , 𝑐𝑙} là tập 𝑙 trường hợp trong một

Để đơn giản trong tính toán, tên mỗi hoạt động được biểu diễn bằng một ký hiệu thu gọn (thường là các chữ cái trong bảng chữ cái), ví dụ các hoạt động trong

Trang 30

19

c = “Xác định nguyên nhân”, d = “Kiểm tra vé”, e = “Quyết định”, f = “Tiếp nhận lại”, g =

“Trả tiền bồi thường”, h = “Từ chối yêu cầu” Khi đó vết tương ứng với trường hợp

Định nghĩa 1.4 (Nhật ký sự kiện đơn giản) [123] Gọi 𝑇 là tập hữu hạn các vết

Nhật ký sự kiện đơn giản 𝐿 được định nghĩa là một tập hợp các vết 𝜎 ∈ 𝑇, trong

đó mỗi vết 𝜎 được thể hiện kèm chỉ số số lần vết đó được thực thi

1.2.5 Biểu diễn và lưu trữ nhật ký sự kiện

Nhật ký sự kiện của các tổ chức và hệ thống khác nhau có thể được lưu trữ dưới nhiều định dạng khác nhau như cơ sở dữ liệu, csv, excel, XES, MXML,… Trong khai phá quy trình các nhà nghiên cứu thường sử dụng định dạng MXML bởi tính

MXML là một file có cấu trúc dạng chuẩn bao gồm các cặp thẻ ánh xạ tương ứng với các thuộc tính trong nhật ký sự kiện Hình 1.3 mô tả một nhật ký sự kiện được ánh xạ sang file MXML với cấu trúc như sau:

theo mã 𝑖𝑑 đánh dấu điểm bắt đầu và kết thúc của một nhật ký sự kiện

<ProcessInstance> … </ProcessInstance> trong đó chứa một chuỗi các sự kiện được sắp xếp theo thời gian tăng dần thuộc trường hợp đó

Trang 31

20

gồm nhiều thuộc tính Trong đó tên hoạt động là thuộc tính bắt buộc được

</Timestamp> cho biết ngày và thời gian khi sự kiện xảy ra; <Ôriginator> …

</Originator> cho biết tài nguyên đã thực hiện sự kiện;

<EventType>…<EventType> cho biết loại sự kiện (bắt đầu, kết thúc…)

Hình 1.3 Cấu trúc file MXML biểu diễn nhật ký sự kiện Lfull [124]

Trang 32

21

1.3 Bài toán Phát hiện mô hình quy trình

1.3.1 Phát biểu bài toán

Phát hiện mô hình quy trình là bài toán đầu tiên trong Khai phá quy trình và có những ảnh hưởng quan trọng trực tiếp tới hai bài toán Kiểm tra sự phù hợp và Cải tiến mô hình nói riêng và bài toán lớn Khai phá quy trình nói chung Với đầu vào là tập nhật ký sự kiện lưu vết các thông tin hoạt động của người dùng khi tương tác với hệ thống thông tin của doanh nghiệp, phát hiện mô hình có khả năng tự động sinh một mô hình quy trình phản ánh chính xác lại những hoạt động nghiệp vụ đang diễn ra trong thực tế tại doanh nghiệp thông qua các thuật

Đầu vào: Nhật ký sự kiện 𝐿

Đầu ra: Mô hình quy trình mô tả các hoạt động trong 𝐿

Phương pháp thực hiện: Sử dụng các thuật toán phát hiện mô hình , +,

++ [5, 69, 89, 124, 127]) như hàm ánh xạ nhật ký sự kiện 𝐿 sang một mô hình quy trình sao cho mô hình đó có khả năng đại diện cho các hoạt động thấy được trong 𝐿 Thuật toán phát hiện mô hình có thể sinh ra một quy trình thực chỉ đơn thuần dựa trên những dữ liệu hoạt động được lưu trữ trong nhật ký sự kiện mà không cần thêm bất kỳ thông tin tiền nghiệm nào khác

Hình 1.4 Bài toán Phát hiện mô hình quy trình

1.3.2 Mô hình hóa quy trình trong Phát hiện mô hình quy trình

Mô hình quy trình đóng vai trò quan trọng trong Khai phá quy trình, là đầu ra của bài toán Phát hiện mô hình quy trình và là đầu vào của hai bài toán Kiểm tra

sự phù hợp và Cải tiến mô hình Mô hình quy trình là một biểu diễn trừu tượng của một hệ thống thực dưới dạng đồ họa trực quan sinh động thông qua mô hình

hóa quy trình Đây là hoạt động xây dựng một mô hình quy trình từ tập danh

Trang 33

có thể được thực hiện lặp lại, có thể có rất nhiều kết nối với các hoạt động khác

và có các bước nhỏ chi tiết cần phải làm Mô hình hóa quy trình giúp giải quyết được vấn đề này cho phép doanh nghiệp nắm bắt được cách thức hoạt động của quy trình nghiệp vụ một cách trực quan và chính xác Mô hình hóa quy trình có thể được thực hiện thủ công hoặc tự động hóa Trước khi xuất hiện khai phá quy trình, hầu hết các mô hình quy trình được tạo ra một cách thủ công gồm các bước như sau:

trong các nghiệp vụ cùng tập các quy tắc về mối liên hệ giữa chúng

(Petri net), bộ chú giải mô hình quy trình nghiệp vụ (Business Process Modeling Notation- BPMN), ngôn ngữ luồng công việc (Yet Another Workflow Language-YAWL), ngôn ngữ mô hình hóa thống nhất (Unified Modeling Languge-UML), sơ đồ Gantt, sơ đồ Pert, … để vẽ mô hình quy trình cho

nghiệp vụ đó

đổi của môi trường, công nghệ, phản ánh của người sử dụng, phản hồi của khách hàng từ đó xây dựng một quy trình hoạt động mới với mong muốn tốt hơn quy trình cũ Quay lại bước 2 để thực hiện các công việc tiếp theo

Mô hình hóa quy trình một cách thủ công cũng như việc hiệu chỉnh, cải tiến

mô hình quy trình là một bài toán khó và dễ bị lỗi Theo Aalst, một số lỗi điển

(i) Mô hình quy trình thủ công mô tả một phiên bản lý tưởng hóa của thực tại Khi mô hình hóa quy trình, người thiết kế có xu hướng tập trung vào hoạt động "chuẩn" hoặc hoạt động "mong muốn" Các nhà thiết kế và quản lý có thể không nhận thức được những lệch lạc xảy ra Hơn nữa, nhận thức của con người

dễ bị thiên vị, tùy thuộc vào vai trò của họ trong tổ chức Các mô hình thủ công

có khuynh hướng chủ quan và thường có xu hướng làm những mô hình quá đơn giản chỉ vì lợi ích là làm cho chúng dễ hiểu

Trang 34

23

(ii) Mô hình quy trình thủ công không có khả năng nắm bắt đầy đủ hoạt động của con người Mặc dù các mô hình toán học đơn giản có thể đủ để mô hình hóa máy móc hoặc con người làm việc trong một dây chuyền lắp ráp, chúng không

đủ để mô hình hóa sự tham gia của con người vào các quy trình phức tạp và tiếp xúc với các quyền ưu tiên phức tạp Trong hầu hết các quy trình, dễ dàng quan sát rằng con người mất nhiều thời gian để hoàn thành một tác vụ và làm việc hiệu quả ít giờ hơn trong ngày nếu hầu hết các việc là khó làm Tuy nhiên, hầu hết các mô hình mô phỏng lấy mẫu thời gian phục vụ từ một phân bố xác suất cố định và sử dụng một khung nhìn thời gian cố định cho độ sẵn sàng tài nguyên (iii) Mô hình quy trình thủ công thường ở một độ trừu tượng sai Tùy thuộc

dữ liệu vào và các câu hỏi cần được trả lời, một mức độ trừu tượng phù hợp cần phải được lựa chọn Mô hình có thể là quá trừu tượng và do đó không thể trả lời được các câu hỏi liên quan hoặc có thể là quá chi tiết, nghĩa là, đầu vào được yêu cầu là không thể đạt được hoặc mô hình trở nên quá phức tạp để hiểu đầy đủ Trong vòng đời thực hiện các quy trình nghiệp vụ cần được cải tiến liên tục

để đảm bảo việc thích nghi với sự thay đổi của môi trường và tạo lợi thế cạnh tranh cho doanh nghiệp Tuy nhiên, hoạt động khởi tạo và cải tiến mô hình quy trình một cách thủ công sẽ thiếu tính khoa học và luôn gắn với các lỗi như trên Khai phá quy trình nói chung và Phát hiện mô hình quy trình nói riêng với các kỹ thuật tự động phát hiện và cải tiến quy trình dựa trên tập dữ liệu thực tế từ nhật

ký sự kiện là một giải pháp hữu hiệu cho vấn đề này

Phát hiện mô hình quy trình là bài toán chiết xuất thông tin có giá trị liên quan đến các hoạt động của một quy trình lưu vết nhật ký sự kiện và tự động đưa

ra một mô hình quy trình nghiệp vụ phản ánh chính xác những thông tin chứa trong nhật ký sự kiện đó Khác với phương pháp thủ công, phát hiện mô hình quy trình không dùng tập các hoạt động và mối liên hệ của chúng về mặt lý thuyết từ các nhà phân tích mà sinh mô hình quy trình một cách tự động dựa trên tập dữ liệu khách quan mô tả cách thức mà quy trình đã triển khai thực hiện trong thực

tế được lưu vết trong nhật ký sự kiện, giúp giải quyết các hạn chế từ mô hình hóa quy trình nghiệp vụ thủ công Khai phá quy trình đã bổ sung một phương pháp quản lý hiện đại cho bài toán quản lý quy trình nghiệp vụ Trong nghiên cứu của mình, luận án sử dụng lưới Petri làm ngôn ngữ biểu diễn mô hình, nội dung này

sẽ được trình bày trong phần tiếp theo sau đây

Trang 35

24

1.3.3 Biểu diễn mô hình quy trình bằng lưới Petri

Lưới Petri là một trong các ngôn ngữ mô tả mô hình quy trình nghiệp vụ điển hình, nhiều thuật toán phát hiện quy trình cho đầu ra là một lưới Petri mô tả mô hình quy trình tương ứng với nhật ký sự kiện đầu vào Lưới Petri cũng là một lĩnh vực nghiên cứu liên quan đến các hệ tương tranh có quá trình phát triển

trong nhiều thập kỷ Chẳng hạn, Hội nghị lưới Petri quốc tế thường niên lần thứ

40 (The 40th annual international Petri Nets conference) năm 2019 được tổ chức tại

chỉ xin đề cập tới một phần rất nhỏ về lưới Petri trong khai phá quy trình

Định nghĩa 1.5 (Lưới Petri) [123] Lưới Petri là một bộ ba 𝑁 = (𝑃, 𝑇, 𝐹) trong

đó 𝑃 là tập hữu hạn các vị trí, 𝑇 là tập hữu hạn các thanh chuyển, sao cho 𝑃 ∩ 𝑇 =

hệ luồng (flow relation)

các chấm đen Các vị trí và thanh chuyển trong mạng Petri được kết nối với nhau bởi các cung có hướng và không được phép nối tới nút cùng loại Vị trí 𝑝 được gọi là vị trí đầu vào của thanh chuyển 𝑡 khi và chỉ khi có một cung được định hướng từ 𝑝 đến 𝑡 Ngược lại vị trí 𝑝 được gọi là vị trí đầu ra của thanh chuyển 𝑡 khi và chỉ khi có một cung được định hướng từ 𝑡 đến 𝑝 Việc phân phối thẻ thông báo qua các vị trí cho biết trạng thái của lưới Petri Một thanh chuyển 𝑡 được cho

chuyển kích hoạt, thì thẻ thông báo được tiêu thụ từ mỗi vị trí đầu vào của nó và

được tạo ra ở mỗi vị trí đầu ra của nó, được gọi là được thực thi Do đó, việc thanh

trực quan và đơn giản, nhưng lưới Petri có thể thực hiện được nhiều kỹ thuật

Mô hình quy trình được biểu diễn bằng lưới Petri bao gồm các mẫu thành phần mô hình mô tả mối quan hệ giữa các hoạt động trong nhật ký sự kiện Xét nghiệp vụ 𝑁𝑉 trong một tổ chức và một tập hữu hạn 𝑛 hoạt động 𝐴 =

11 http://www.petrinets2019.de/

Trang 36

25

các trường hợp thuộc 𝐿 Mối quan hệ giữa các hoạt động trong các vết thuộc 𝐿

Quan hệ đi trước >𝐿: ∀𝑎, 𝑏 ∈ 𝐴 ta có 𝑎 đi ngay trước 𝑏, ký hiệu: 𝑎 >𝐿 𝑏 khi

Quan hệ nhân quả →𝐿: ∀𝑎, 𝑏 ∈ 𝐴 ta có 𝑎 có quan hệ nhân quả với 𝑏, ký hiệu:

Quan hệ đồng thời ∥𝐿: ∀𝑎, 𝑏 ∈ 𝐴 ta có 𝑎 có quan hệ đồng thời với 𝑏, ký hiệu:

Quan hệ không liền kề ⋕𝐿: ∀𝑎, 𝑏 ∈ 𝐴 ta có 𝑎 có quan hệ không liền kề với 𝑏,

Theo các định nghĩa trên với ∀𝑎, 𝑏 ∈ 𝐴, luôn tồn tại duy nhất một quan hệ trong ba quan hệ nhân quả, đồng thời và không liền kề Trong ngữ cảnh một nhật

ký sự kiện 𝐿 đã được ngầm định thì các chỉ dẫn nhật ký sự kiện trong các ký hiệu quan hệ trên đây được bỏ qua, khi đó chúng ta viết ngắn gọn là >, ≯, →, ←, ||, #

Dựa trên các quan hệ cơ bản giữa các hoạt động gồm đi trước; nhân quả; đồng

thời và không liền kề, tồn tại ba kiểu mẫu thành phần mô hình cơ bản là: (i) mẫu tuần tự (sequence pattern) còn được là mẫu nhân quả (causal pattern); (ii) mẫu

thành phần mô hình cơ bản đó được biểu diễn trong Hình 1.5 dưới đây, trong đó hình vuông biểu thị các thanh chuyển với nhãn là một hoạt động, hình tròn biểu thị các vị trí, các đường mũi tên có hướng biểu thị hướng di chuyển của các hoạt động trong quá trình thực thi nghiệp vụ

Trang 37

26

thanh chuyển đều được thực thi và điều khiển đi tới cả hai vị trí phía sau

(Hình 1.5d)

Hình 1.5 Các kiểu mẫu thành phần mô hình quy trình cơ bản

Hình 1.6 dưới đây mô tả mô hình quy trình nghiệp vụ xử lý đơn đề nghị bồi thường hàng không sử dụng lưới Petri

Hình 1.6 Mô hình quy trình NKSK Lfull sử dụng lưới Petri [124]

{𝑎, 𝑏, 𝑐, 𝑑, 𝑒, 𝑓, 𝑔, ℎ}và tập các cung F={(start, a), (a, c1), (a,c2), (c1, b), (c1, c), (c2, d),

Trang 38

1.3.4 Thuật toán phát hiện mô hình quy trình

một khảo sát về kỹ thuật phát hiện mô hình quy trình Tác giả nhận định kỹ thuật phát hiện quy trình đã trải qua quá trình phát triển trong khoảng 15 năm trở lại đây và được chia thành bốn nhóm chính gồm: Nhóm thuật toán khởi điểm; Nhóm thuật toán 𝛼 và cải tiến; Nhóm thuật toán dựa trên kỹ thuật học máy và Nhóm

sự quan tâm, ứng dụng của các nhà nghiên cứu và đã được tích hợp trong các

trình trong những nghiên cứu của mình

trường hợp nhật ký sự kiện xuất hiện các chu trình, ví dụ chu trình độ dài 1 với hoạt động 𝑏 được lặp lại liên tiếp nhiều lần 𝑏𝑏𝑏𝑏…, hay chu trình độ dài 2 với

hình quy trình

Ý tưởng chung của nhóm thuật toán 𝛼: Với đầu vào gồm dữ liệu nhật ký sự

mẫu AND-tách và mẫu AND-hội), và sau đó kết nối các mẫu thành phần mô hình

Đầu vào: Nhật ký sự kiện 𝐿

Trang 39

28

Đầu ra: Mô hình quy trình 𝛼(𝐿) = (𝑃𝐿, 𝑇𝐿, 𝐹𝐿) là một lưới Petri

Nội dung: Nội dung thuật toán bao gồm 8 bước:

(7) 𝐹𝐿 = {(𝑎, 𝑝(𝐴, 𝐵))|(𝐴, 𝐵) ∈ 𝑌𝐿 ∧ 𝑎 ∈ 𝐴} ∪

{(𝑝(𝐴, 𝐵), 𝑏)|(𝐴, 𝐵) ∈ 𝑌𝐿∧ 𝑏 ∈ 𝐵} ∪ {(𝑖𝐿, 𝑡)|𝑡 ∈ 𝑇𝑖} ∪ {(𝑡, 𝑜𝐿)|𝑡 ∈ 𝑇𝑂} (8) 𝛼(𝐿) = (𝑃𝐿, 𝑇𝐿, 𝐹𝐿)

Hình 1.7 Thuật toán  phát hiện mô hình quy trình (NKSK Lfull)

Giải thích thuật toán:

vào của lưới dòng công việc kết quả

Trang 40

29

của lưới dòng công việc kết quả

bất kỳ thuộc 𝐴 đi trước trực tiếp hoạt động bất kỳ thuộc 𝐵 và mọi cặp hai hoạt động trong mỗi tập 𝐴 và 𝐵 đều không liền kề trong 𝐿 Như nhận xét đối với quan

hệ không liền kề #, cặp hai tập nút trong mô hình quy trình kết quả liên quan của cặp hai hoạt động bất kỳ trong 𝐴 (và trong 𝐵) đều có giao là tập rỗng

vị trí vào và một vị trí ra cho lưới Petri kết quả

Hình 1.8 Vị trí 𝑃(𝐴, 𝐵) nối các hoạt động thuộc tập 𝐴 và tập 𝐵

1.3.5 Đánh giá chất lượng mô hình quy trình

Việc ứng dụng ngày càng tăng của các mô hình quy trình trong phân tích kinh doanh và phát triển hệ thống thông tin đã đặt ra một số vấn đề liên quan đến các

Ngày đăng: 20/08/2024, 21:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Quang-Thuy Ha, Hoang-Quynh Le, Mai-Vu Tran, Tri-Thanh Nguyen, Hong-Nhung Bui; “Phát triển các kỹ thuật tiên tiến khai phá mẫu từ nhật ký sự kiện, xây dựng phần mềm và khung ứng dụng thử nghiệm tại doanh nghiệp Việt Nam”; Đề tài KH&amp;CN cấp Đại học Quốc gia, QG.15.22, 2017 Sách, tạp chí
Tiêu đề: “Phát triển các kỹ thuật tiên tiến khai phá mẫu từ nhật ký sự kiện, xây dựng phần mềm và khung ứng dụng thử nghiệm tại doanh nghiệp Việt Nam”
[3]. Schoknecht, T. Thaler, P. Fettke, A. Oberweis, R. Laue; Similarity of Business Process Models-A State-of-the-Art Analysis; ACM Computing Surveys, 50(4), pp.1–33, 2017 Sách, tạp chí
Tiêu đề: Similarity of Business Process Models-A State-of-the-Art Analysis
[4]. A.K. Alves de Medeiros, A.J.M.M. Weijters, W.M.P. van der Aalst; Genetic process mining: a basic approach and its challenges; Business Process Management Workshops, Springer, pp. 203-215, 2005 Sách, tạp chí
Tiêu đề: Genetic process mining: a basic approach and its challenges
[5]. A.K.A. de Medeiros, B.F. van Dongen, W.M.P. van der Aalst, A.J.M.M. Weijters; Process mining: extending the a-algorithm to mine short loops; Beta Working Paper Series, WP 113, Eindhoven University of Technology, pp. 1-25, 2004 Sách, tạp chí
Tiêu đề: Process mining: extending the a-algorithm to mine short loops
[6]. A.K.A. de Medeiros, W.M.P. van der Aalst, and A.J.M.M. Weijters; Workflow mining: current status and future directions; CoopIS/DOA/ODBASE, Springer Verlag, pp. 389-406, 2003 Sách, tạp chí
Tiêu đề: Workflow mining: current status and future directions
[7]. Abderrahman Maaradji, Marlon Dumas, Marcello Rosa, Alireza Ostovar; Fast and Accurate Business Process Drift Detection; BPM, pp. 406-422, 2015 Sách, tạp chí
Tiêu đề: Fast and Accurate Business Process Drift Detection
[8]. Abel Armas Cervantes, Nick R.T.P. van Beest, Marcello La Rosa, Marlon Dumas, Luciano Garcớa-Baủuelos; Interactive and incremental business process model repair; OTM Conferences, pp. 53-74, 2017 Sách, tạp chí
Tiêu đề: Interactive and incremental business process model repair
[9]. Alessandro Marchetto, Chiara Di Francescomarino; Parameterised trace selection technique for process model recovering, Software IET 5, pp. 563-575, 2011 Sách, tạp chí
Tiêu đề: Parameterised trace selection technique for process model recovering
[10]. Alexey A. Mitsyuk, Irina A. Lomazova, Ivan S. Shugurov, W.M.P. van der Aalst; Process Model Repair by Detecting Unfitting Fragment; AIST (Supplement), pp.301-313, 2017 Sách, tạp chí
Tiêu đề: Process Model Repair by Detecting Unfitting Fragment
[11]. Álvaro Rebuge, Diogo R. Ferreira; Business process analysis in healthcare environments: A methodology based on process mining; Information Systems 37, pp.99-116, 2012 Sách, tạp chí
Tiêu đề: Business process analysis in healthcare environments: A methodology based on process mining
[14]. Andrea Burattin; Applicability of Process Mining Techniques in Business Environments; PhD Thesis, University of Bologna, Italy, pp. 31-54, 2013. (“Best Process Mining Dissertation Award 2014”) Sách, tạp chí
Tiêu đề: Applicability of Process Mining Techniques in Business Environments"; PhD Thesis, University of Bologna, Italy, pp. 31-54, 2013. (“Best Process Mining Dissertation Award 2014
[15]. Andrea Burattin, Josep Carmona; A Framework for Online Conformance Checking; Business Process Management Workshops, pp. 165-177, 2017 Sách, tạp chí
Tiêu đề: A Framework for Online Conformance Checking
[16]. Andrew R. Cohen, Paul M. B. Vitányi; Normalized Google Distance of Multisets with Applications; IEEE Trans. Pattern Anal. Mach. Intell, pp. 1602-1614, 2015 Sách, tạp chí
Tiêu đề: Normalized Google Distance of Multisets with Applications
[17]. Anind K. Dey; Context-Aware Computing: The CyberDeskProject; Proceedings of the AAAI, pp. 51–54, 1998 Sách, tạp chí
Tiêu đề: Context-Aware Computing: The CyberDeskProject
[18]. Anne Baumgrass, Thomas Baier, Jan Mendling, Mark Strembeck; Conformance Checking of RBAC Policies in Process-Aware Information Systems; Business Process Management Workshops, pp. 435-446, 2011 Sách, tạp chí
Tiêu đề: Conformance Checking of RBAC Policies in Process-Aware Information Systems
[19]. Anne Rozinat, W.M.P. van der Aalst; Conformance checking of processes based on monitoring real behavior; Inf. Syst. (IS) 33(1), pp. 64-95, 2008 Sách, tạp chí
Tiêu đề: Conformance checking of processes based on monitoring real behavior
[20]. Anton, Howard; Elementary Linear Algebra (7th ed.); John Wiley &amp; Sons, pp. 170–171, 1994 Sách, tạp chí
Tiêu đề: Elementary Linear Algebra
[21]. Artem Polyvyanyy, W.M.P. van der Aalst, Arthur H. M. ter Hofstede, Moe Thandar Wynn; Impact-driven process model repair; ACM Trans. Softw. Eng. Methodol.25(4), pp. 1-18, 2017 Sách, tạp chí
Tiêu đề: Impact-driven process model repair
[22]. Arya Adriansyah, Boudewijn F. van Dongen, W.M.P. van der Aalst; Conformance Checking Using Cost-Based Fitness Analysis; EDOC, pp. 55-64, 2011 Sách, tạp chí
Tiêu đề: Conformance Checking Using Cost-Based Fitness Analysis
[23]. Ashutosh Tiwari, Chris Turner, Basim Majeed; A review of business process mining: State of the art and future trends; Business Process Management Journal, Vol. 14, pp. 5-22, 2008 Sách, tạp chí
Tiêu đề: A review of business process mining: State of the art and future trends

HÌNH ẢNH LIÊN QUAN

Hình 0.1  Cây chủ đề nghiên cứu của luận án - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 0.1 Cây chủ đề nghiên cứu của luận án (Trang 20)
Hình 1.1  Một khung nhìn về ba bài toán trong khai phá quy trình [46] - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.1 Một khung nhìn về ba bài toán trong khai phá quy trình [46] (Trang 25)
Hình 1.2  Mối quan hệ giữa khoa học dữ liệu và Khai phá quy trình. - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.2 Mối quan hệ giữa khoa học dữ liệu và Khai phá quy trình (Trang 26)
Hình 1.3   Cấu trúc file MXML biểu diễn nhật ký sự kiện Lfull [124] - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.3 Cấu trúc file MXML biểu diễn nhật ký sự kiện Lfull [124] (Trang 31)
Hình 1.5  Các kiểu mẫu thành phần mô hình quy trình cơ bản - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.5 Các kiểu mẫu thành phần mô hình quy trình cơ bản (Trang 37)
Hình 1.6 dưới đây mô tả mô hình quy trình nghiệp vụ xử lý đơn đề nghị bồi  thường hàng không sử dụng lưới Petri - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.6 dưới đây mô tả mô hình quy trình nghiệp vụ xử lý đơn đề nghị bồi thường hàng không sử dụng lưới Petri (Trang 37)
Hình 1.7  Thuật toán  phát hiện mô hình quy trình (NKSK Lfull) - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.7 Thuật toán  phát hiện mô hình quy trình (NKSK Lfull) (Trang 39)
Hình 1.8 Vị trí ?(?, ?) nối các hoạt động thuộc tập ? và tập ? - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.8 Vị trí ?(?, ?) nối các hoạt động thuộc tập ? và tập ? (Trang 40)
Hình 1.9  Quá trình phát lại vết trong mô hình quy trình - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.9 Quá trình phát lại vết trong mô hình quy trình (Trang 42)
Hình 1.11  Mô hình quy trình với NKSK nguyên gốc và NKSK trừu tượng. - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 1.11 Mô hình quy trình với NKSK nguyên gốc và NKSK trừu tượng (Trang 46)
Hình 2.1  Biểu diễn đồ thị khoảng cách [25] - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 2.1 Biểu diễn đồ thị khoảng cách [25] (Trang 59)
Hình 2.2  Đồ thị khoảng cách của vết ? = 〈????????ℎ〉 - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 2.2 Đồ thị khoảng cách của vết ? = 〈????????ℎ〉 (Trang 61)
Đồ thị khoảng cách bậc 1, 2 như sau (bậc 0 được biểu diễn tương tự phương pháp  ???)  (Bảng 2.2) : - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
th ị khoảng cách bậc 1, 2 như sau (bậc 0 được biểu diễn tương tự phương pháp ???) (Bảng 2.2) : (Trang 61)
Hình 2.3  Khung thực nghiệm Phát hiện mô hình quy trình - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 2.3 Khung thực nghiệm Phát hiện mô hình quy trình (Trang 63)
Bảng 2.4  So sánh thời gian thực hiện và số chiều không gian đặc trưng - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Bảng 2.4 So sánh thời gian thực hiện và số chiều không gian đặc trưng (Trang 68)
Hình 2.4  So sánh thời gian thực hiện và số chiều của không gian đặc trưng - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 2.4 So sánh thời gian thực hiện và số chiều của không gian đặc trưng (Trang 69)
Hình 2.5  So sánh độ đo ?1 giữa các phương pháp biểu diễn vết trên tập dữ liệu Lfull. - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 2.5 So sánh độ đo ?1 giữa các phương pháp biểu diễn vết trên tập dữ liệu Lfull (Trang 73)
Hình 4.1  Cây ngữ cảnh  a) Bảng tiêu đề; b) Cây ngữ cảnh nhật ký sự kiện ? - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 4.1 Cây ngữ cảnh a) Bảng tiêu đề; b) Cây ngữ cảnh nhật ký sự kiện ? (Trang 94)
Hình 4.2  Khung thực nghiệm ứng dụng thuật toán ContextTracClus trong phân cụm - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 4.2 Khung thực nghiệm ứng dụng thuật toán ContextTracClus trong phân cụm (Trang 99)
Hình 5.1  Cấu trúc mạng nơ-ron học sâu DNN - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.1 Cấu trúc mạng nơ-ron học sâu DNN (Trang 106)
Hình 5.2  Mạng nơ-ron học sâu DNN trong biểu diễn vết - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.2 Mạng nơ-ron học sâu DNN trong biểu diễn vết (Trang 108)
Hình 5.3  Mô hình CBOW với một từ đơn - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.3 Mô hình CBOW với một từ đơn (Trang 110)
Hình 5.4  Mô hình CBOW trong biểu diễn vết - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.4 Mô hình CBOW trong biểu diễn vết (Trang 112)
Hình 5.5  Cấu trúc mạng nơ-ron hồi quy - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.5 Cấu trúc mạng nơ-ron hồi quy (Trang 113)
Hình 5.6  Cấu trúc một mô-đun trong LSTM - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.6 Cấu trúc một mô-đun trong LSTM (Trang 114)
Hình 5.7  Mạng nơ-ron học sâu LSTM trong biểu diễn vết - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.7 Mạng nơ-ron học sâu LSTM trong biểu diễn vết (Trang 116)
Hình 5.8  Khung thực nghiệm ứng dụng học sâu trong biểu diễn vết - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Hình 5.8 Khung thực nghiệm ứng dụng học sâu trong biểu diễn vết (Trang 118)
Bảng 5.3  Kết quả thực nghiệm hiệu quả các phương pháp biểu diễn vết - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
Bảng 5.3 Kết quả thực nghiệm hiệu quả các phương pháp biểu diễn vết (Trang 122)
Đồ thị khoảng cách (DG2)  1478  40s  0.968  0.809  0.881 - Nghiên cứu kỹ thuật biểu diễn  và phân cụm vết trong phát hiện mô hình quy trình
th ị khoảng cách (DG2) 1478 40s 0.968 0.809 0.881 (Trang 123)

TỪ KHÓA LIÊN QUAN

w