Hệ thống có thể hỗ trợ tra cứu các khái niệm, hành vi vi phạm cũng như mức phạt tương ứng theo quy định của các văn bản quy phạm pháp luật trong luật giao thông đường bộ.. Để biểudiễn ki
Trang 1ĐẠI HỌC QUOC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BIKER
DANG VIET DUNG
XÂY DỰNG HE HỖ TRỢ TO CHỨC CƠ SO TRI THỨC
TRONG VĂN BẢN LUẬT
VÀ TRUY VAN KIÊN THỨC TREN VĂN BẢN LUẬT
-NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 8.48.01.01
TP HO CHÍ MINH - NĂM 2023
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
&›»#Q@8
@\
DANG VIỆT DŨNG
XÂY DỰNG HE HỖ TRỢ TO CHỨC CƠ SỞ TRI THỨC
TRONG VĂN BẢN LUẬT
VÀ TRUY VAN KIEN THUC TREN VĂN BẢN LUAT
LUẬN VAN THAC SĨ
NGANH: KHOA HOC MAY TINH
Mã số: 8.48.01.01
Trang 3LỜI CÁM ƠN
Kính gửi các quý thầy cô của Trường Đại học Công nghệ Thông tin,
Tôi xin gửi đến quý thầy cô lời cảm ơn chân thành nhất về sự truyền đạt kiến thức
và quá trình giảng dạy tận tình trong suốt thời gian tôi đã học tập tại đây Tôi muốn đặc
biệt bay tỏ lòng biết ơn đến TS Nguyễn Đình Hiền và TS Ngô Quốc Hưng, những ngườithầy đã tận tình chỉ dẫn và động viên tôi trong suốt thời gian thực hiện luận văn
Tôi cũng xin gửi lời cảm ơn đến các tác giả của các nghiên cứu và khóa học mà tôi
đã tham khảo dé ứng dụng vào việc nghiên cứu và hoàn thành luận văn của mình
Luận văn của tôi đã hoàn thành và đạt được một số kết quả nhất định Tuy nhiên,
việc tồn tại những thiếu sót là điều không thé tránh khỏi Tôi rat mong được nhận được sựcảm thông và đóng góp ý kiến xây dựng từ quý thầy cô và các bạn dé hoàn thiện hơn nữa
Một lần nữa tôi xin chân thành cảm ơn
Tp Hồ Chí Minh, ngày 9 tháng 5 năm 2023
Người thực hiện
Đặng Việt Dũng
Trang 4LOI CẢM Ơi
DANH MỤC CÁC ĐỊNH NGHĨA 22222+£22222E2+2++t2E222221322.EEEEEEExrrrrrrrrrrkx 4
DANH MỤC CÁC BẢNG 22222222222 22221112222111122221111221111122111112221112 2.111 ce 5DANH MỤC CÁC HÌNH ẢNH
Chương 1: TONG QUAN VE DE TÀI 22222-222222222211212222112227111 222111 cee 7
1.1 Giới thiệu để tài - ¿5c tt t2 E11 21121112112111711121711121121111111111111121121 11111 7
1.2 Các nghiên cứu liên quan - - ¿- + c1 3% 9321 E121 E3 11 11 H1 HH Hit 9
1.3 Mục tiêu đề tài và phạm vi nghiên Cứu -¿- + + 5 1t 2x HH nưc 11 1.3.1 Mục tiêu đề tài
1.3.2 Đối tượng nghiên cứu ¿2:22 2t t2E1121E1112112712112112211111111211111111211111111 111 11
1.3.3 Phạm vi nghiên cứu + 6 E11E1E 1n no HH TH HH TT tr 12
1.4 Đóng góp của luận văn ¿cành nàn HH HH Hà HT HT TH TH Tư 13
1.5 Bố cục luận văn «««c+s<xxx+
Chương 2: THU THẬP KIEN THỨC VE LUAT GIAO THONG DUONG BỘ 15
2.1 Cấu trúc văn bản Iat csssssccsssssesesostsnvsessssssesscectvssessssssssseccesssseesesssssseseessssvsseesssnsessesssneeees 15 2.2 Giới thiệu về văn bản luật giao thông đường bộ - 5:55:22 Sv22vEttExrtrtrrrrrtrsrrrrrrrrrrrer 16 2.3 Thu thập kiến thức trong văn bản luật giao thông đường bộ -2- 2 2s =++=+zxzzxzzzz+e 16 2.3.1 Nguồn tri thức và phạm vi + tt + tt E2 2111111 111.111.1111 16
2.3.2 Phân loại tri thức
2.4 Thu thập câu hỏi và các vấn đề ¿22t tt 921221 21122121121121111112111211111111211111 11111111 20
2.4.1 Thu thập câu hỏi
2.4.2 Phân loại câu hỏi: + +21 1E 1 vn TT TH HT TT TH Hà TH ng Hư
2.5 Kếtchương
Trang 53.4 KGt CHUONG nh 51344H., à.),)HAHẬHẬ, Ô 36
Chương 4: MÔ HÌNH TRUY VAN KIÊN THUC TREN VĂN BẢN LUẬT 37
4.1 Thu thập và phân tích yêu cầu truy van từ câu hỏi thực Ế - ¿+ ++c+2xecxzcxzxrzrzxrrxccvel 37 4.2 Xác định bài toán cần giải quyt c2 tt ty tri 37 4.3 Thiết kế giải thuật truy van trên cơ sở tri thức ¿+ xsvt+EtcExtEkttEtettrrtrrtrrrrrrrrrrrrrrrrrid 38 4.4 Thiết kế kiến trúc cho chức năng truy vấn ‹:- 5: 2t t221112211 2112112111111 43 4.5 Kết chương ct tt E22 122112212211211171211211111112111111112111211111111211211.11121111 11 44
Chương 5: HE THONG HO TRỢ TRUY VAN KIEN THỨC LUẬT
5.1 Yêu cầu của hệ thống.
5.2 Chức năng của hệ thống
5.3 Kiến trúc của hệ thống ¿2-5 22t‡2t2EY92tE212112711211211271172121111112111171111111171111 TL te 46
5.4 Thử nghiệm - +5 + +22 3n vn TH ni ng HH 49
5.4.1 Tô chức cơ SỞ tri thỨC cc Ăn nh 49
5.4.2 Thử nghiệm câu truy vân - - + St 2222121211212 1 1211232118121 111 E181 11011 1H ru 51
ca -C‹.ŒdA 52
Chương 6: KET LUẬN VÀ HƯỚNG PHÁT TRIEN ¿ 22cz2225scczccsscee 53
6.1 Kết quả của đề tài
TÀI LIEU THAM KHẢO 22222:2 2222222222+22E2E2E222+2222222311222222EErrrrrrrrrrer 55
PHỤ LỤC
Trang 6Cấu trúc của khái niệm(C).
Cấu trúc của mối quan hệ(R)Doan văn ban (Documentltem)
Keyphrase đồng nghĩa
Triples tương đương
Trang 7DANH MỤC CÁC BẢNG
Bảng 2.1: Mô ta một số ví dụ về khái niệm đã thu thập ¿22sccz+ccssce2
Bảng 2.2: Mô tả một số ví dụ về lỗi vi phạm trong cơ sở tri thức
Bảng 3.1: Ví dụ về khái niệm “xe máy”
Bảng 3.2: Ví dụ về quan hệ “sử dụng”
Bảng 3.3: Danh sách các key phrases
Bảng 5.1: Kết quả kiểm tra truy vấn về Luật Giao thông đường bộ
Trang 8Cấu trúc của Legal Rela-model ¿-2++2222++++22E++++et2vvretrrvvrrrrrxer
Minh họa việc xây dựng sơ đồ tri thức
Mô phỏng quá trình phân tách dữ liệu
Mô phỏng quá trình xây dựng đồ thị tri thức từ đoạn văn bản
Ví dụ mô phỏng quá trình trích xuất các nút của đồ thị
Ví dụ mô phỏng quá trình tạo các cung của đồ thịMinh hoạ của bộ ba tri thức liên quan "người-sử dụng-
Mô phỏng quá trình lưu trữ triples vào cơ sở tri thứcKiến trúc của mô hình hỗ trợ biéu diễn tri thức từ văn ban luật 36
Trang 9Chương 1: TONG QUAN VE DE TÀI
1.1 Giới thiệu đề tài
Luật là tập hợp các quy định pháp luật được nhà nước ban hành nhằm điều chỉnh
các hoạt động trong xã hội, bảo vệ quyền lợi và trách nhiệm của các thành viên trong xãhội Luật có tam quan trọng to lớn trong việc duy trì trật tự và an ninh trong xã hội, đồng
thời là công cụ quan trọng để giải quyết các tranh chấp, vi phạm pháp luật Tính pháp lý là
một trong những yếu tố quyết định giá trị của một quy định pháp luật Vì vậy, việc tra cứuthông tin về các quy định của pháp luật luôn luôn có nhu cầu và vai trò rất to lớn đối với
xã hội để đảm bảo việc thực thi các quy định pháp luật một cách hiệu quả Để đáp ứng nhucầu này, cần phải có các hệ thống tra cứu pháp luật để mọi người dễ dàng tiếp cận và tra
cứu thông tin chính xác về các quy định pháp luật trong nhiều lĩnh vực khác nhau
Hiện nay, Trí tuệ Nhân tạo (AI) đã được nghiên cứu và ứng dụng rộng rãi để hỗ trợnhững người làm việc trong lĩnh vực pháp luật [1, 2] Trong ba thập kỷ qua, đã có một sự
gia tăng đáng kể về việc sử dụng các kỹ thuật học máy dé giải quyết các vấn đề liên quan
đến AI và Luật pháp [24] Và đặc biệt là trong khoảng mười năm trở lại đây, việc sử dụng
các kỹ thuật học máy để xử lý các nhiệm vụ trong lĩnh vực này càng trở nên phổ biến hơn
và có sự gia tăng một cách đáng kể Những nhiệm vụ này bao gồm việc sử đụng học máy
đề dự đoán kết quả các vụ án, nhận dạng và gắn nhãn cho các thành phan trong các tai liệupháp lý, và phân tích các điều khoản trong hợp đồng dé phát hiện các điều khoản có thé
dẫn đến tranh chấp Bên cạnh đó, AI cũng có thé hỗ trợ con người trong việc dự đoán kết
quả pháp lý thông qua việc cung cấp các tài liệu pháp lý và thậm chí có thé đưa ra các quyết
định cho tòa án [3, 4] Các nghiên cứu này đã cho thấy rằng tiềm năng và lợi ích của AItrong lĩnh vực pháp luật là thực sự to lớn và chúng ta nên tiến hành nghiên cứu và pháttriển sâu hơn đề tận dụng những khả năng đó Trong thực tế nó đã được ứng dụng và đã hỗtrợ con người trong nhiều lĩnh vực pháp lý, giúp cho con người có thê tiết kiệm thời giancũng như công sức khi tìm hiểu về van đề pháp lý [5] Trong đó tìm kiếm thông tin về phápluật luôn có nhu cầu và vai trò đặc biệt quan trọng và to lớn đối với toàn xã hội [3, 6] Tuy
Trang 10nhiên, các hệ thống truy vấn pháp lý hiện nay vẫn còn những hạn chế như chưa thể cung
cấp những câu trả lời chính xác nhất cho người dùng Việc trích xuất ngữ nghĩa của vănbản pháp luật đề đưa ra câu trả lời cho các truy van là một van đề khó khăn Trong lĩnh vựcpháp ly, cơ sở tri thức cần được tô chức dé lập luận và truy xuất tri thức trong lĩnh vực này{6 7] Mô hình Legal-Onto là một phương pháp phù hợp đề có thé tổ chức, biểu diễn chocác tri thức trong lĩnh vực pháp luật [8,9] Đây là mô hình được phat triển từ sự kết hopgiữa mô hình quan hệ, Rela-model [10] và trí tuệ nhân tạo theo hướng tiếp cận Ontology
và phương pháp này đã được áp dụng và tổ chức thành công cơ sở tri thức cho Luật Đất
đai.
Luận văn này sẽ xây dựng một mô hình hỗ trợ người dùng việc truy vấn kiến thứcvăn bản pháp luật Đề tải sẽ nghiên cứu phương pháp rút trích các kiến thức từ văn bản luậttheo các loại kiến thức về khái niệm, quan hệ và luật Việc rút trích này hướng đến tổ chứcién thức theo mô hình biéu diễn tri thức văn bản luật Legal-Onto [4] Đề tài nghiên cứuviệc rút trích kiến thức này trên cơ sở xây dựng các quy trình thiết lập và tổ chức cáceyphrases cùng với các quan hệ giữa chúng, biểu diễn quan hệ ngữ nghĩa giữa các
eyphrases theo tiếp cận đồ thị tri thức
Sau khi rút trích được kiến thức từ văn bản luật, nghiên cứu sẽ xây dựng chức năng
hỗ trợ người quản lý ứng dụng có thé tổ chức và biểu diễn tri thức đó và đưa vào hệ thống
Từ đó, đề tài sẽ nghiên cứu phương pháp giải quyết các vẫn đề truy vấn luật theo tiếng việt
và hệ thông sẽ đưa ra câu trả lời cho truy van đó dựa trên những quy định trong văn bảnuật đã được biểu diễn
Luật giao thông đường bộ là điều luật thông dụng và được nhiều người quan tâm
Trang 11- Nghị định 46/2016/NĐ-CP của Chính phủ: Quy định xử phạt vi phạm hành chính
trong lĩnh vực giao thông đường bộ và đường sắt
-_ Nghị định Nghị định 123/2021/NĐ-CP của Chính phủ: Sửa đồi, bồ sung một số điều
của các Nghị định quy định xử phạt vi phạm hành chính trong lĩnh vực hàng hải;
giao thông đường bộ, đường sắt; hàng không dân dụng
- Luật số 23/2008/QH12 của Quốc hội: Luật Giao thông đường bộ
- Quy chuẩn kỹ thuật Quốc gia QCVN 41:2019/BGTVT
1.2 Các nghiên cứu liên quan
Hiện nay trên thế giới đã có nhiều chủ đề nghiên cứu và hệ thống được xây dựng đề
ứng dụng trí tuệ nhân tạo vào việc quản lý tài liệu pháp lý [11, 12] Nó được tạo ra dé hỗ
trợ nhu cầu tìm kiếm và trả lời câu hỏi về luật, thậm chí nó đã có thể hỗ trợ đưa ra các quyết
định trong quyết định tư pháp [13] Các công trình này sử dụng các công nghệ hiện đại,
chẳng hạn như Xử lý Ngôn ngữ Tự nhiên (NLP) [14, 15] hoặc ánh xạ tri thức, dé giải quyếtcác vấn đề [16, 17, 25, 26]
Ontology là một phương pháp hiệu quả dé đại diện cho tri thức trong nhiều lĩnh vực
để tìm kiếm thông tin [18, 19], đặc biệt là trong lĩnh vực pháp luật [1, 4, 20] LIDO là một
phương pháp đói tượng hóa cho các tài liệu tin tức pháp lý [20] Ontology này có thê đạidiện cho các hoạt động pháp lý ảnh hưởng đến tài liệu, các sự kiện thời gian pháp lý, cầu
trúc tài nguyên pháp lý và cấu trúc ngữ nghĩa của tổ chức các tài liệu pháp lý LegalKnowledge Graph và ontology được tổ chức và kết nối bởi Lynx Service Platform sử dung
một mô hình đữ liệu [4] Nó cho phép sắp xếp linh hoạt nhiều dịch vụ Xử lý Ngôn ngữ Tựnhiên và truy xuất thông tin xử lý tài liệu pháp lý
Các tác giả trong bài báo [22] đã đề xuất một phương pháp đo lường mức độ tương
tự giữa các tài liệu pháp lý của tòa án Phương pháp này có thể giúp so khớp kết quả của
vụ việc hiện tại với các vụ việc đã được xử lý trước đó, nhằm đưa ra kết luận cho vụ việcnày Tuy nhiên, phương pháp này chỉ hoạt động hiệu quả trong các vụ việc đã có sẵn trong
kho lưu trữ và không đáp ứng tốt với các trường hợp mới và chưa được xác định hay có
những tình tiết mới mẻ trong vụ viéc
Trang 12Nghiên cứu trong [21] đã trình bày một kỹ thuật học sâu về luật Nhóm tác giả đã
áp dụng học sâu dé phân loại tài liệu, trích xuất và truy van thông tin kiến thức pháp luật
Tuy nhiên, phương pháp này không cho kết quả chính xác cao đối với các câu hỏi pháp lýngữ nghĩa và phương pháp này tốn kém về mặt đào tạo Trong một nghiên cứu khác, Zhong
et al đã tóm tắt các lợi ích của NLP trong việc xử lý các hệ thống trí tuệ nhân tạo trong
lĩnh vực pháp luật [15] Các hệ thống đó đã xây dựng được giải pháp tốt dé ứng dung trituệ nhân tạo trong lĩnh vực pháp lý Chúng có thé hỗ trợ người dùng dự đoán các phán
quyết pháp lý bằng cách so sánh các trường hợp tương tự trong quá khứ và trả lời các câu
hỏi pháp lý [22] Tuy nhiên, việc xây dựng mô hình tri thức và xây dựng cơ sở tri thức cho
hệ thống vẫn được thực hiện thủ công, đòi hỏi người xây dựng tri thức cho hệ thống phải
có kiến thức pháp luật nên những việc này tốn rất nhiều thời gian và công sức của con
tiền huấn luyện sâu (Deep pre-trained language model) LamBERTa đề xây dựng hệ thống
khai thác thông tin từ văn bản pháp lý tiếng Ý, được gọi là Unsupervised law article miningsystem (ULAMS) Bằng cách sử dụng kỹ thuật học không giám sát, hệ thống này tự động
tìm ra các chủ đề quan trọng trong các điều khoản của Bộ luật dân sự Ý Mô hình đã được
Trang 131.3 Mục tiêu đề tài và phạm vi nghiên cứu
1.3.1 Mục tiêu đề tài
Luận văn này thực hiện nghiên cứu và giải quyết các vấn đề sau:
- Nghiên cứu giải pháp rút trích kiến thức văn bản luật va các quy trình cho việc rút
trích này để hướng đến tô chức cở sở tri thức được rút trích theo cấu trúc mô hình trithức Legal-Onto.
- Nghiên cứu tập trung vào phát triển phương pháp giải quyết các van đề truy van từ
các câu hỏi thường gặp từ người dùng Phương pháp này sẽ tìm ra câu trả lời cho các
truy vấn dựa trên quy định trong văn bản luật đã được biểu diễn
- Từ các kết quả nghiên cứu trên, nghiên cứu xây dựng mô hình hỗ trợ người dùng tô
chức cơ sở tri thức trong nội dung các văn bản luật, chẳng hạn như các Luật, Nghị
định và Thông tư có liên quan Mô hình này có thể thực hiện các chức năng sau:
o Hỗ trợ người dùng tô chức tri thức một cách bán tự động, nhằm tạo ra một bộ
cơ sở tri thức day đủ về các kiến thức trong văn bản luật
o Cho phép người quản lý cập nhật lại các quy định pháp luật trong cơ sở tri
thức khi có sự cập nhật, sửa đồi hoặc bổ sung đối với văn bản luật
- Ngoài ra, nghiên cứu cũng thực hiện việc xây dựng hệ thống truy van kiến thức pháp
luật trong lĩnh vực luật giao thông đường bộ Hệ thống này sẽ:
o Cho phép kỹ sư tri thức quản lý và cập nhật tri thức dé dam bảo tính đúng đắn
và tính cập nhật cho cơ sở tri thức.
o Hỗ trợ trả lời các câu truy vấn của người dùng về khái niệm, lỗi vi phạm cũng
như các mức phạt tương ứng dựa trên quy định trong văn bản luật đã đượcbiểu diễn
1.3.2 Đối twong nghiên cứu
Nghiên cứu này tập trung vào việc tổ chức tri thức từ các văn bản pháp luật về luật
giao thông đường bộ đề xây dựng một hệ thống tra cứu và truy vấn kiến thức về luật giao
Trang 14thông đường bộ, cho phép người đùng tra cứu các lỗi vi phạm và các mức phạt tương ứng
theo quy định trong các văn bản pháp luật đã ban hành Nghiên cứu này hướng đến đối
tượng là những người cần tra cứu thông tin này
1.3.3 Phạm vi nghiên cứu
Pham vi cơ sở tri thức:
Đề tài này chỉ thực hiện với các văn bản luật có cấu trúc Chương, mục, điều, khoản,điểm được trích xuất tử các Nghị định Chính phủ, và Thông tư của Bộ trưởng, chăng hạn
như:
- _ Luật Giao thông Đường bộ số 23/2008/QH12 ngày 13/11/2008
- Nghị định 100/2019/NĐ-CP ngày 30/12/2019 v/v Quy định xử phạt vi phạm hành
chính trong lĩnh vực giao thông đường bộ.
- Quy chuân kỹ thuật Quốc gia Việt Nam QCVN 41:2019/BGTVT Báo hiệu đường
bộ.
- Nghị định 123/2021/ ND — CP sửa đổi, bổ sung một số điều của các nghị định quy
định xử phạt vi phạm hành chính trong lĩnh vực hàng hải; giao thông đường bộ,
đường sắt; hàng không dân dụng
Pham vi câu truy van
Nghiên cứu này tập trung vào việc xử lý và giải quyết các loại câu hỏi thường gặp
trong lĩnh vực luật pháp Hệ thống đã xử lý thành công các câu truy vấn như tra cứu kháiniệm, tìm hiểu về lỗi vi phạm, và xác định các mức phạt tương ứng theo quy định trongvăn bản luật Cụ thể về các câu truy vấn như sau:
Trang 151.4 Đóng góp của luận văn
Luận văn này đã thiết kế một giải pháp để trích xuất tri thức từ văn bản pháp luật và
t6 chức thành cơ sở tri thức thông qua cấu trúc ontology Legal-Onto Nghiên cứu này cũng
đề xuất một phương pháp tạo ra đồ thị tri thức thé hiện các khái niệm và mối quan hệ của
chúng Bên cạnh đó luận văn cũng giới thiệu phương pháp đề truy vấn kiến thức dựa trên
đồ thị tri thức đã xây dựng
Nghiên cứu này còn xây dựng mô hình hỗ trợ tổ chức và truy vấn kiến thức phápluật đã được xây dựng và ứng dụng trong lĩnh vực luật giao thông đường bộ dé đánh giá
hiệu quả của phương pháp đề xuất Hệ thống có thể hỗ trợ tra cứu các khái niệm, hành vi
vi phạm cũng như mức phạt tương ứng theo quy định của các văn bản quy phạm pháp luật trong luật giao thông đường bộ.
F$ A x
1.5 Bô cục luận văn
Bố cục của luận văn bao gồm 6 chương với các nội dung như sau:
Chương 1: Tổng Quan Về Đề Tài Trong chương này, luận văn giới thiệu về đề tài,trình bày các nghiên cứu liên quan và nêu lên mục tiêu cũng như phạm vi của nghiên cứu.
Chương 2: Thu Thập Kiến Thức Về Luật Giao Thông Đường Bộ Tại chương này,luận văn trình bày về cấu trúc của hệ thống văn bản luật của Việt Nam cũng như giới thiệu
về các văn bản quy định về luật giao thông đường bộ Sau đó, luận văn sẽ trình bày về quátrình thu thập về các văn bản luật giao thông đường bộ cũng như các câu hỏi thực tế và các
van đề liên quan và phân loại tri thức nay
Chương 3: Cơ Sở Biéu Diễn Tri Thức Luật Trong phan này luận văn trình bay quá
trình thiết kế cấu trúc và phương pháp phù hợp cho việc biéu diễn tri thức Từ đó xây dựng
mô hình đề hỗ trợ việc biểu diễn tri thức từ văn bản luật
Chương 4: Mô Hình Truy Vấn Kiến Thức Trên Văn Bản Luật Trong chương này,
quá trình phân tích các yêu cầu truy van từ những câu hỏi thực tế về luật giao thông đường
bộ sẽ được trình bày rõ và xác định bài toán cần giải quyết Từ đó thiết kế giải thuật phù
Trang 16hop dé xử lý các truy van này và tiến hành thiết kế kiến trúc cho chức năng truy vấn của
một hệ thống
Chương 5: Hệ Thống Hỗ Trợ Truy Van Kiến Thức Luật Sau khi đã trình bày quátrình giải quyết được các bài toán về truy vấn tại chương 4, luận văn tiến hành xây dựngmột hệ thống truy van kiến thức luật giao thông đường bộ trên ngữ nghĩa Tai chương này,luận văn trình bày chỉ tiết về quá trình xây dựng chương trình hỗ trợ truy vấn kiến thức,bao gồm thiết kế kiến trúc của hệ thống, quá trình xử lý và truy vắn dữ liệu, cũng như đánh
giá hiệu suất của hệ thống thông qua các thử nghiệm
Chương 6: Kết luận và Hướng phát triển Trong chương kết luận và hướng phát
triển, luận văn sẽ tổng kết lại các kết quả đã đạt được từ việc tiến hành nghiên cứu và xâydựng hệ thống truy vấn kiến thức luật giao thông đường bộ Nghiên cứu sẽ trình bày vềnhững hạn chế và giới hạn của hệ thống hiện tại, cũng như dé xuất các hướng phát triểntrong tương lai dé nâng cao hiệu suất và độ chính xác của hệ thống
Trang 17Chương 2: THU THẬP KIÊN THUC VE LUẬT GIAO THONG
DUONG BO
Trong chương 2 này, luận văn trình bay về quá trình tim hiểu cấu trúc của hệ thong
văn bản luật của Việt Nam và giới thiệu các văn bản quy định về luật giao thông đường
bộ Sau đó, luận văn sẽ tập trung vào quá trình thu thập và phân tích các đặc trưng chung
và đặc trưng riêng của các văn bản luật giao thông đường bộ, cũng như xem xét các câuhỏi thực tế trong lĩnh vực này Đồng thời, luận văn sẽ tiến hành phân loại các tri thức đãthu thập được.
2.1 Cấu trúc văn ban luật
Tại Việt Nam, hệ thống các văn bản pháp luật hiện hành được quy định trong Luật
số 80/2015/QH13 của Quốc hội: LUẬT BAN HÀNH VĂN BẢN QUY PHẠM PHÁP
LUẬT Mặc dù các văn bản pháp luật có sự thay đổi va cập nhật liên tục theo sự phát triển
kinh tế và xã hội, nhưng hệ thống văn bản pháp luật của Việt Nam có các cấp độ sau đây:
- Hiến pháp là luật cơ bản của nước Cộng hòa xã hội chủ nghĩa Việt Nam Được Ban
Tổng thư ký ban hành và là văn bản có hiệu lực pháp lý cao nhất
- Bộ luật/ Luật là các văn bản pháp luật được Ban Tổng thư ký ban hành đề cụ thé
hóa Hiến pháp và quy định các loại quan hệ xã hội trong các lĩnh vực hoạt động của
xã hội.
- Văn bản dưới luật được quy định là các văn bản pháp lệnh, nghị quyết, thông tư,
quyết định và chỉ thị
Nội dung và cầu trúc của một văn bản pháp luật có thể được sắp xếp dưới dạng các
phần, chương, mục, điều, khoản và điêm tùy thuộc vào nội dung của văn bản đó Để biểudiễn kiến thức của một văn bản pháp luật cụ thể, Rela-model là một mô hình được sử dung
va phủ hợp đề biểu diễn kiến thức về các mối quan hệ trong lĩnh vực này Mô hình này bao
gồm các thành phần khái niệm và các mối quan hệ giữa các khái niệm Các khái niệm được
đề cập đến trong các văn bản pháp luật, và các mối quan hệ giữa các khái niệm là các hành
Trang 18động hoặc sự kiện, từ đó, với mỗi mối quan hệ, có thể xác định đầy đủ nội dung và ý nghĩa
của hành vi hoặc sự kiện trong các văn bản pháp luật.
2.2 Giới thiệu về văn ban luật giao thông đường bộ
Việt Nam hiện nay đã có các văn bản quy định về các lỗi vi phạm trong lĩnh vực
giao thông đường bộ, bao gồm:
- Nghi định 100/2019/NĐ-CP của Chính phủ: Quy định xử phạt vi phạm hành chính
trong lĩnh vực giao thông đường bộ và đường sắt
- Nghi định 46/2016/NĐ-CP của Chính phủ: Quy định xử phạt vi phạm hành chính
trong lĩnh vực giao thông đường bộ và đường sắt
- Nghi định Nghị định 123/2021/NĐ-CP của Chính phủ: Sửa đồi, bổ sung một số điều
của các Nghị định quy định xử phạt vi phạm hành chính trong lĩnh vực hàng hải;
giao thông đường bộ, đường sắt; hàng không dân dụng
- Luật số 23/2008/QH12 của Quốc hội: Luật Giao thông đường bộ
- Quy chuẩn kỹ thuật Quốc gia QCVN 41:2019/BGTVT
Trong đó, Nghị định 100/2019/NĐ-CP đã được ban hành dé thay thé cho Nghị định
46/2016/NĐ-CP Chương 2 của Nghị định 100 đã đưa ra các quy định chỉ tiết về các hành
vi vi phạm, hình thức xử phạt và biện pháp khắc phục hậu quả vi phạm hành chính tronglĩnh vực giao thông đường bộ Ngoài ra, Nghị định 123/2021/NĐ-CP đã được ban hành để
sửa đổi, bổ sung một số điều của các Nghị định (trong đó bao gồm cả Nghị định
100/2019/NĐ-CP) quy định xử phạt vi phạm hành chính trong lĩnh vực giao thông đường
bộ.
Trang 19123/2021/NĐ-CP của Chính phủ: Sửa đồi, bổ sung một số điều của các Nghị định quy định
xử phạt vi phạm hành chính trong lĩnh vực giao thông đường bộ.
Các van đề liên quan đến lĩnh vực luật giao thông:
Điều kiện kỹ thuật và an toàn kỹ thuật của phương tiện giao thông
Trách nhiệm của người lái xe và người điều khiển phương tiện giao thông khác
Quy định về tốc độ và khoảng cách giữa các phương tiện giao thông
Quy định về trang bị phương tiện và các biển báo giao thông
Các quy định liên quan đến vụ tai nan giao thông, bảo hiểm giao thông và các van
đề liên quan đến tài xế và hành khách
Bảng 2.1: Mô tả một số ví dụ về khái niệm đã thu thập
STT | Khái Khoản - Điều Nội dung Keyphrase
niệm tưởng ứng s
1 Xe may | Khoản 3.31 Điều | là xe co giới hai hoặc ba bánh và | xe mô tô,
3, QCVN các loại xe tương tự, di chuyển | xe máy41:2019/BGTVT bang động cơ có dung tích xy lanh
từ 50 cm3 trở lên, trọng tải ban
thân xe không quá 400 kg.
2 |Tốcđộ |Khoản 3.47 Điều | là tốc độ lớn nhất trên một tuyến | tốc độ tối
tối đa cho | 3, QCVN đường, đoạn đường hoặc làn | đa chophép 41:2019/BGTVT | đường được cấp có tham quyên | phép, tốc
quy định Người điều khiển | độ tối đa,
phương tiện không được phép vận | vận tốc tôi
hành xe ở tốc độ cao hơn đa
3 | Đường Khoản 12, Điều | là đường dành cho xe cơ giới, có | đường cao
cao tốc 3, Luật dai phân cách chia đường cho xe tốc, xa lộ
23/2008/QH12 chạy hai chiều riêng biệt; không
giao nhau cùng mức với một hoặc
các đường khác; được bố trí đầy đủtrang thiết bị phục vụ, bảo đảm
giao thông liên tục, an toàn, rút
ngắn thời gian hành trình và chỉ
cho xe ra, vào ở những điểm nhấtđịnh.
Trang 202.3.2 Phân loại tri thức
Sau khi thu thập tri thức luật giao thông đường bộ được phân loại như sau:
- Tri thức về các khái niệm: Tri thức về các khái niệm bao gồm các thuật ngữ, định
nghĩa và các yếu tố khác liên quan đến lĩnh vực giao thông đường bộ, chẳng hạn như
khái niệm về đường phó, đèn tín hiệu, vạch kẻ đường,
Vi dụ về một số khái niệm đã thu thập va phân loại tại bảng 2.1:
- _ Tri thức về các lỗi vi phạm: Là những quy định về hành vi lỗi vi phạm và quy trình
xử lý vi phạm.
Ví dụ về một số lỗi vi phạm đã thu thập và phân loại tại bảng 2.2 như sau:
Bảng 2.2: Mô tả một số ví dụ về lỗi vi phạm trong cơ sở tri thức
STT | Lỗi vi Phương | Điều - Khoản Nội dung Keyphrases
phạm tiện tưởng ứng
1 |Khôngcó | Xe máy Điểm a, Khoản 1, | Phat tiền từ - Người
gương Điều 17, Nghị 100.000 đồng - Điều Khiển
chiếu hậu định đến 200.000 - Xe máy
100/2019/NĐ-CP | đồng - Gương chiều
hậu
- Gương chiếu
hậu bên trái
Xe ôtô _ | Điểm a, Khoản 2, | Phat tiền từ - Người
Điều 16, Nghị 300.000 đồng - Điều Khién
định đến 400.000 - Xe ôtô100/2019/NĐ-CP | đồng - Gương chiều
hậu
2 |Khôngcó |Xemáy |ĐiểmaKhoản2 | Phạt tiền từ - Người
hoặc không Điều 21 Nghị 100.000 đồng - Điều Khiển
Trang 21- Điểm b Khoản
11 Điêu 5 Nghị định 100
còn hiệu Xe ôtô Điểm b Khoản 4 | Phat tiền từ - Người
Điều 21 Nghị 400.000 đồng - Điều Khién
dân sự
Sử dụng Xe đạp Điểm h khoản I | Phat tiền từ - Người
điện thoại Điều 8 Nghị định | 80.000 đồng đến | - Điều Khién
100/2019/NĐ-CP | 100.000 - Xe đạp
- Sử dụng
- Điện thoại
Xe náy - Điểm h Khoản | - Phat tiền từ - Người
4 Điều 6 Nghị §00.000 đồng - Điều Khiénđịnh 100(sửa đổi | đến 1.000.000 - Xe máy
bởi Điểm g đồng - Sử dụng
Khoản 34 Điều 2 | - Tước quyền sử | - Điện thoạiNghị định dụng Giấy phép
123/2021/NĐ- _ | Iai xe từ 01 thángCP) đến 03 tháng
- Điểm b Khoản
10 Điều 6 Nghị
định 100
Xeôt - Điểm a Khoản | - Phat tiền từ - Người
4 Điều 5 Nghị 2.000.000 đồng |- Điều Khiénđịnh 100 (sửa đổi | đến 3.000.000 |- Xe ôtô
bởi Điểm d đồng - Sử dụngKhoản 34 Điều 2 | - Tước quyền sử | - Điện thoạiNghị định dụng Giấy phép
123/2021/NĐ- |Hái xe từ 01 tháng
CP) đến 03 tháng
Trang 222.4 Thu thập câu hói và các vấn đề
'Việc thu thập câu hỏi thực tế, phân tích và phân loại chúng theo các danh mục giúp
hiểu rõ hơn về các câu hỏi mà người dùng có thé đặt ra khi sử dụng hệ thống Điều này
giúp hệ thống trả lời một cách nhanh chóng, hiệu quả và trả về kết quả chính xác và phùhợp với yêu cầu của người sử dụng Đây là một công đoạn luôn cần thực hiện thường xuyên
để giúp cho việc phát triển và cải tiến hệ thống tìm kiếm theo ngữ nghĩa trong tương lai,
nhằm đáp ứng được nhu cầu của người dùng một cách tốt nhất
2.4.1 Thu thập câu hỏi
Để thu thập câu hỏi cho hệ thống tìm kiếm theo ngữ nghĩa liên quan đến luật giaothông, nghiên cứu đã sử dụng các phương pháp sau:
- Tim kiếm trên các trang web liên quan đến luật giao thông như trang web của cục
đăng kiểm Việt Nam, trang web của các trung tâm đào tạo lái xe, hay các cộng đồng
chia sẻ kiến thức lái xe trên mạng xã hội
- Phỏng van các chuyên gia về luật giao thông như cảnh sát giao thông hoặc luật sư
chuyên về luật giao thông
- Tìm kiếm các tài liệu, văn bản pháp luật và sách liên quan đến luật giao thông dé tìm
kiếm các câu hỏi phổ biến được đặt ra về lĩnh vực này
2.4.2 Phân loại câu hỏi:
Sau khi đã thu thập các câu hỏi, nghiên cứu tiến hành phân loại chúng theo các danhmục như sau:
Trang 232.5 Kết chương
Trong chương này luận văn đã nghiên cứu quá trình thu thập kiến thức về luật giao
thông đường bộ Qua quá trình tìm hiểu cấu trúc hệ thống văn bản luật của Việt Nam va
giới thiệu về các văn bản quy định về luật giao thông, đề tài đã xác định được các đặc trưngchung và riêng của các văn bản luật trong lĩnh vực này Kết hợp với việc phân tích các câuhỏi thực tế đề tài đã thu thập thành công kiến thức quan trọng
Trong chương tiếp theo, những kiến thức đã thu thập và phân tích sẽ được sử dụng
dé làm cơ sở cho việc biéu diễn tri thức trong miền luật giao thông đường bộ
Trang 24Chương 3: CO SỞ BIEU DIEN TRI THUC LUẬT
Tại chương này, luận văn tiến hành thiết kế cấu trúc và phương pháp biểu diễn tri
thức phù hợp với miễn tri thức pháp luật Từ đó xây dựng mô hình hỗ trợ tổ chức và biểudiễn tri thức từ văn bản luật thành đô thị tri thức một cách bán tự động, giúp tiết kiệm thờigian và công sức của con người.
3.1 Thiết kế cấu trúc biếu diễn tri thức
Định nghĩa 3.1: Triple (bộ ba tri thức)Triple là một bộ ba tri thức bao gồm subject (chủ thé), relation (quan hé) va object
(đối tượng) Relation trong triple là phan kết nối giữa chủ thé va đối tượng Nó mô tả mối
quan hệ giữa chủ thể và đối tượng trong một câu hoặc một ngữ cảnh nào đó và được địnhnghĩa theo cú pháp: subject-relation-object.
Định nghĩa 3.2: Đồ thị tri thức
Đề thị tri thức là tập hợp một danh sách bao gồm các triples trong đó các nút daidiện cho các đối tượng (Subject va Object) và các cạnh đại diện cho các mối quan hệ giữachúng (Relation).
Cấu trúc Ontology bao gồm các khái niệm và quan hệ giữa chúng, được sử dụng dé
thể hiện ý nghĩa của các văn bản quy phạm pháp luật Trong hệ thống pháp luật Việt Nam,việc sử dụng Ontology Rela-model là rất thích hợp, vì nó cung cấp một mô hình tri thức về
các quan hệ Ontology Legal-Onto được xây dựng dựa trên mô hình Rela, và được cải tiến
dé đáp ứng nhu cầu biểu diễn tri thức Luật Câu trúc của ontology Legal-Onto bao gồm các
Trang 25(C, R, Rules) là một cấu trúc của mô hình Rela-model được sử dụng để tổ chức thông tin.
Trong đó:
C là tập hợp các khái niệm trong lĩnh vực nghiên cứu, với mỗi khái niệm trong C
đã được cải tiến cấu trúc bên trong để phù hợp với việc tổ chức, lưu trữ thông tincủa nó Với cấu trúc của mỗi khái niệm c € C như sau:
Định nghĩa 3.4: Cấu trúc của khái niệm(C)
c = (Name, Meaning, Attrs, Keyphrases, Similar)
Trong do:
e Name là tên định danh của khái niệm
e Meaning đưa ra ý nghĩa của khái niệm
e Atfrs chứa danh sách các thuộc tính của khái niệm
e Keyphrases là một tập hợp các cụm từ chính được xác định hoặc liên quan
đến khái niệm Những cụm từ này đã được khai báo trong một danh sách vớiloại = "N".
© Similar là cụm từ phố biến nhất khi nói về khái niệm này
R là tập các quan hệ giữa các khái niệm, cụm từ khóa và co sở dữ liệu lưu trữ nộidung của văn bản luật Mỗi quan hệ này có thê là sự kết nói giữa các khái niệm trong
C hoặc giữa khái niệm và nội dung của văn bản Với cấu trúc của mỗi mối quan hệ
re Rnhư sau:
Định nghĩa 3.5: Cầu trúc của mối quan hệ(R)
r = (Name, Meaning, ConckeyS, ConckeyO, Prop, Keywords) Trong do:
e Name là tên hoặc ký hiệu của mối quan hệ.
© Meaning trình bày ý nghĩa của mối quan hệ
© ConckeyS và ConckeyO là các khái niệm trong mối quan hệ
o ConckeyS được sử dụng cho chủ ngữ.
o ConekeyO được sử dụng cho đối tượng
Trang 26e Prop trình bày một tập hợp các thuộc tính của mối quan hệ Nghiên cứu nay
chỉ đề cập đến hai thuộc tính chính của một mối quan hệ nhị phân, bao gồm
đối xứng và bắc cầu
e Keywords chứa một tập hợp các từ khóa cho mối quan hệ
- Rules là tập hợp các luật suy diễn của miền tri thức Tập rules trong hệ thông
Rela-model thể hiện mối quan hệ ràng buộc và suy luận giữa các cụm từ khóa và kháiniệm trong văn bản pháp luật Nó giúp giảm công việc xây dựng cơ sở tri thức vàsuy diễn thông tin Các luật suy diễn trong rules-set suy ra mối quan hệ ngữ nghĩagiữa các cụm từ và khái niệm, tìm sự tương đồng ngữ nghĩa Các luật này dựa trên
quy tắc logic, kiến thức chuyên gia và ngữ nghĩa, giúp tổ chức và phân tích thông
tin pháp luật một cách linh hoạt và hiệu quả.
(Cone, Rel) là đồ thị tri thức biêu thị mối quan hệ giữa các cụm từ khóa của văn bản quyphạm pháp luật Trong đó:
- Conc là tập hợp các thuật ngữ đại diện cho các khái niệm cụ thể trong lĩnh vực pháp
lý được tìm thay trong văn bản, thé hiện ý nghĩa và thông tin về các khái niệm tronglĩnh vực pháp lý.
- Rel là tập hợp các cung với mỗi cung luôn có hướng, biểu thị một quan hệ ngữ nghĩa
giữa hai khái niệm Các cung này cho phép phân tích và xác định mối quan hệ giữacác thuật ngữ trong văn bản, giúp hiểu rõ hơn về sự tương quan giữa chúng
Trang 27(C, R, Rule) 7
Co đo + Set of relations between entities
(concepts or key phrases)
-* Relation >
RULES
[Hypothesis facts(f) ————> Goal facts(g)
+ Constraint and inferring relation between
keyphrases and concepts
Phrases Attributes
Representative key —_ >| key2 | Rel1 > key 1
H *
Knowledge Graph
Hình 3.1: Cấu trúc của Legal Rela-model
Cấu trúc của Legal-Onto Ontology được hiên thị trong hình 3.1 Trong mô hình nay,
đồ thị tri thức được sử dụng dé đại diện cho các cụm từ chính đã được trích xuất thông qua
khái niệm trong tài liệu và mối quan hệ giữa các cụm từ này thông qua mối liên hệ để dễdàng tổ chức và quản lý tri thức Sử dung đồ thị tri thức có thé liên kết các dữ liệu bi phân
tán, biến chúng thành tri thức Ngoài ra, nó cũng hỗ trợ người dùng giải quyết các truy vanngữ nghĩa.
3.2 Phương pháp tổ chức tri thức theo mô hình legal-onto từ văn ban
luật
Xây dựng đồ thị tri thức là quá trình biến những văn bản pháp luật mà người dùng
nhập vào thành các đồ thi tri thức, nó giúp việc thé hiện nội dung một cách trực quan và déhiểu hơn Đồ thị tri thức được tạo thành từ một tập hợp các triple biêu diễn các khái niệm
và mối quan hệ giữa chúng, giúp cho việc phân tích và xử lý thông tin trở nên nhanh gọn
và chính xác hơn.
Trang 28a) Văn bản luật b) Đồ thị tr thức
Hình 3.2: Minh họa việc xây dựng sơ đồ tri thứcXây dựng một đồ thị tri thức là quá trình chuyền đổi tài liệu pháp lý do người dùngcung cấp thành các đồ thị tri thức đề đại điện cho nội dung của tài liệu pháp lý được minh
họa tại hình 3.2 Đồ thi tri thức đại diện cho tập hợp các khái niệm và mối quan hệ giữa
chúng Mỗi khái niệm được đại điện bởi đồ thị tri thức có cấu trúc như Định nghĩa 3.4
Trang 293.2.1 Xây dung ontology
Xây dung ontology đại diện cho nội dung cua tai liệu pháp luật dựa trên Legal-Onto Bước này được thực hiện trong hai bước như sau:
Bước 1: Trích xuất cụm từ khóa từ tài liệu pháp luật
Đầu tiên sẽ tiến hành phân tích ngôn ngữ tự nhiên của các tài liệu pháp luật dé thu thập và trích xuất ra các cụm từ khóa trong tài liệu.
Sau đó, các cụm từ khóa này sẽ được phân loại thành hai nhóm: nhóm đầu tiên là nhóm thể hiện cho các khái niệm trong tài liệu (ký hiệu là "C" viết tắt cho chữ Concept) và nhóm tiếp theo là nhóm các cụm từ khóa thê hiện các hành động hay các mối quan hệ giữa
các khái niệm
Vi dụ 3.1: Trong luật giao thông đường bộ, có 3 tài liệu pháp lý trong lĩnh vực giao
thông đường bộ quy định về các hành vi hành vi (Luật giao thông đường bộ 2008; Nghị định 100/2019/NĐ-CP; Nghị định 123/2021/NĐ-CP) Các tài liệu này được quét để trích
xuất các cụm từ khóa về khái niệm và quan hệ, chăng hạn như "xe máy", "điện thoại" là
các khái niệm, và "điều khiển" là một quan hệ Bảng 3.3 sau đây cho thấy một số cụm từ
khóa và loại của chúng.
Bảng 3.3: Danh sách các key phrases
Cac cụm từ khóa này được sử dung dé tao ra các chỉ mục hoặc trích xuât thông tin
từ tài liệu pháp luật, giúp cho việc quản lý và sử dụng các tài liệu này trở nên hiệu quả hơn.
27
Trang 30Bước 2: Xây dung ontology cho tài liệu pháp luật
Sau khi đã trích xuất được các cụm từ khóa và phân nhóm chúng, nghiên cứu sẽ tiến hành xây dựng ontology cho tài liệu này Ontology được xây dựng dựa trên hai thành phần chính là tập hợp các khái niệm và tập hợp các mối quan hệ giữa các khái niệm trong tập hợp đó cụ thé qua các bước như sau:
Bước 2.1: Xây dựng các khái nệm (C)
Nghiên cứu tiến hành xây dựng một tập hợp C(Concept) là tập hợp các khái niệm được trích xuất từ tài liệu pháp lý Cụ thể trong lĩnh vực luật giao thông được bộ đã xây
dựng được các khái niệm như “xe máy”, “xe ô tô”, “người”, “đèn tín hiệu giao thông”,
với mỗi khái niệm sẽ được biéu dién với câu trúc tại Dinh nghĩa 3.4.
Vĩ dụ 3.2: Khái niệm “xe máy”:
e Khái niệm "xe máy" được hình thành dé đại diện cho các cụm từ khóa "Xe ga",
"xe mô tô", va được su dụng dé chỉ "Id xe cơ giới hai hoặc ba bánh và các loại xe tương tự, di chuyển bằng động cơ có dung tích xy lanh từ 50 cm3 trở lên,
trọng tải bản thân xe không quá 400 kg." Day là một phương tiện giao thông
đường bộ và được quy định tại Mục 3.31, Điều 3 của (Bộ Giao thông Vận tải, 2019) Bảng 3.1 cho thấy khái niệm "xe máy" được mô tả như sau.
Attrs Dict -kind: phuong tién giao thong
-legal: Khoan 3.31, Diém 3, QCVN 41:2019/BGTVT
Keyphrases Xe gắn may, mô tô, xe ga
Trang 31Bước 2.2: Xây dựng các quan hệ (R)
Đồng thời, nghiên cứu cũng xây dựng một tập hợp R(Relation) là tập hợp các quan
hệ giữa các khái niệm trong tập hợp C Thông qua việc này có thé mô tả được các mối quan
hệ giữa các khái niệm trong tài liệu pháp lý và sử dung ontology này dé hỗ trợ cho việc phân tích và trích xuất thông tin từ tài liệu pháp lý một cách chính xác và hiệu quả Trong
lĩnh vực luật giao thông đường bộ, nghiên cứu đã xây dựng được các quan hệ như “sử
dụng”, “điều khiển”, VỚI mỖi quan hệ sẽ được biểu diễn với câu trúc tại Định nghĩa 3.5.
Ví dụ 3.4: Quan hệ “sử dụng”
e Quan hệ "sử dung" đại diện cho các cụm từ khóa đã được rút trích từ bảng 3.1
vi dụ như “sứ dung”, “làm”, “thực hiện” được trích xuất từ các bài viết trong
(Luật giao thông đường bộ 2008; Nghị định 100/2019/NĐ-CP; QCVN
41:2019/BGTVT) Mối quan hệ này mô tả việc người tham gia giao thông sử dụng một công cụ cụ thé dé thực hiện các hoạt động của họ (được mô tả trong
bảng 3.2).
29
Trang 32Bước 2.3: Xây dựng các rules Sau khi đã xây dựng các khái niệm và quan hệ, nghiên cứu cũng thực hiện xây dựng
tập rules Các rules thé hiện mối quan hệ ràng buộc và suy luận giữa các cụm từ khóa và
khái niệm Các rules này được sử dụng dé áp dụng quy tắc suy diễn và tiễn hành suy luận
thông tin từ cấu trúc ontology (C, R) Các luật suy dién trong tập rules-set giúp suy ra các
mối quan hệ trực tiếp hoặc gián tiếp giữa các cụm từ hoặc khái niệm chính, xác định sự
tương đồng ngữ nghĩa giữa chúng.
3.2.2 Xây dựng đồ thị tri thức
Xây dựng biểu đồ tri thức để làm cơ sở tri thức cho hệ thống Giai đoạn này bao gồm bốn bước như sau:
Bước 1: Phân tách và lưu trữ tài liệu pháp lý vào cơ sở dữ liệu
Định nghĩa 3.6: Đoạn văn bản (Documentltem)
Đoạn văn bản (Documentltem) là một thành phan trong một tài liệu được sử dụng
dé biểu diễn một nội dung (Điểm hoặc Khoản mà không chứa các điểm con bên trong) trong tai liệu đó Một đối tượng đoạn văn bản bao gồm hai thuộc tính: Docltemld (định
danh của đoạn văn bản) và Text (nội dung).
h 8— Docltems = [{
—==_- -Doclemid,
E o> Oe text
Nà ——
Văn bản luật Danh sách các đoạn văn bản
Hình 3.3: Mô phỏng quá trình phân tách dữ liệu
Sau khi nhận văn bản luật từ người dùng, dé việc xử lý rút trích và biểu diễn thông tin từ tài liệu dễ dàng hơn nghiên cứu cần tiễn hành Tiền xử lý tài liệu pháp lý đề chuẩn bị cho việc xử lý và phân tích thông tin Quá trình này bao gồm hai bước chính.
Đầu tiên nghiên cứu sẽ xây dựng các bảng quan hệ và sử dụng khóa ngoại để liên
Trang 33Tiếp theo là phân tách tài liệu thành các đoạn đoạn văn bản như hình 3.3 và tiến
hành lưu trữ vào các bảng đã tạo.
Bước 2: Xây dựng đồ thị tri thức cho các đoạn văn bản
{ key 3
-ID Key1 -> Rel1 -> Key2 [id, ]
- Text CRel2) Key1 -> Rel2 -> Key3 [id, ]
Doan van ban Đồ thi tri thức Danh sach triples
Hình 3.4: Mô phỏng quá trình xây dựng đồ thị tri thức từ đoạn văn ban Bước 2.1: Thực hiện việc trích xuất các nút của đồ thị tri thức băng các cụm từ chính được trích xuất như hình 3.5 sau đây:
-Người
-Môtô
— ens Ủy Rượu - — Khái niém> =
- Text Keyphrase -Diéu khién Người
} -Trong máu có
-Trong hơi thở có
Đoạn văn bản Danh sách cụm từ khóa Các nút của dé thị
Hình 3.5: Ví dụ mô phỏng quá trình trích xuất các nút của đồ thị
- Thực hiện việc trích xuất dua trên các cum từ đã được khai báo trong bảng
KeyPhrase.
- _ Đối với mỗi cum từ đã trích xuất, xác định khái niệm chứa cụm từ này băng cách
sử dụng tập hợp các cụm từ chính trong cột KeyPhrase của bang Concept.
- Truy xuất từ khóa đại diện của mỗi khái niệm.
- _ Đối với những cụm từ không tìm được khái niệm của nó sẽ được giữ nguyên.
- Sau khi chuẩn hóa danh sách các cụm từ, các cụm từ khóa trùng lặp sẽ bị loại bỏ.
Như vậy, có thể xác định các nút trong đồ thị tri thức dua trên các cụm từ chính được
trích xuất từ văn bản đầu vào.
Bước 2.2: Tạo các cung của đồ thị tri thức thông qua các mối quan hệ giữa các nút
- Tw các nút trong đồ thị được trích xuất, tiến hành xác định các mối quan hệ được
khai báo trong bảng Relation bằng cách so khớp các nút trong đồ thị với các giá trị
31
Trang 34trong các cột ConcKeyS và ConcKeyO (đối với cột ConcKeyO, so khớp một giá tri
trong danh sách đã khai báo).
- _ Xác định các mối quan hệ cụ thể giữa các nút trong đồ thị Đối với mỗi mối quan
hệ, có thể xác định Subject-Relation-Object và vi tri trong tải liệu để diễn đạt tri
thức của cau(id của đoạn văn bản) Quá trình này được mô phỏng tại hình 3.6.
[Nove |
Các nut của đồ thị Đồ thị sau khi xác định cung và nút
—Quan hệ—>
Hình 3.6: Ví dụ mô phỏng quá trình tạo các cung của đồ thị
Ví dụ 3.5: Mối quan hệ (người-sử dụng-ô) giữa hai cụm từ chính "người" và "ô" tại
Điểm h Khoản 4 Điều 6 của Nghị định 100/2019/NĐ-CP được minh họa tại hình 3.7:
na."
Hình 3.7: Minh hoa của bộ ba tri thức liên quan "người-sử dung-6"
Bước 2.3 Rút trích triple tự động từ đoạn văn bản
Đầu tiên sẽ tiến hành phân tích cấu trúc ngữ pháp đoạn văn bản đầu với các hành động phân đoạn từ, gắn thẻ từ loại(POS tag), nhận dạng thực thể từ(NER label) và phân tích cú pháp phụ thuộc(head index) Việc thực hiện phân tích cú pháp sẽ có sự hỗ trợ của
thư viện VnCoreNLP.
Sau khi đã xác định được các thành phan của các từ trong câu nghiên cứu sẽ tiến
hành rút trích ra các từ khóa có nhãn là chủ ngữ, động từ, danh từ, và dựa vào head Index
xác định sự liên kết, phụ thuộc giữa các key phrase, từ đó xây dựng các triple bao gồm subject - relation - object với relation là những cụm động từ trong thê hiện hành động trong đoạn văn, và subject và object là những cụm từ khóa liên kết với động từ thông qua head
Trang 35Bước 3: Lưu trữ triple vào cơ sở tri thức
Sau khi đã xây dựng danh sách các triples, sẽ tiến hành kiểm tra xem những triples này đã xuất hiện trong cơ sở tri thức hay chưa.
Nếu chưa xuất hiện sẽ lưu chúng vào co sở dir liệu tri thức với giá tri mã định danh
tương ứng của đoạn văn bản đã được gán trước đó Thông tin khi lưu trữ của mỗi triples sẽ
bao gồm các trường thuộc tính Subject, Relation, Object, ListID Với trường thuộc tính
ListID thi sẽ lưu lại các mã định danh của các đoạn văn bản có chứa triple này.
Nếu như trong cơ sở tri thức đã có triple đó rồi thì chỉ cần thêm giá trị mã định danh
của đoạn văn bản đó vào trường thuộc tính ListID cua triple đã có Việc này giúp giảm tải
cho quá trình lưu trữ và tìm kiếm, vì hệ thống không cần lưu lại nhiều bản sao của các triple giống nhau trong cơ sở tri thức như minh họa tại hình 3.8 như sau.
Key1 -> Rel1 -> Key2[id2]
Triple được tạo ra từ đoạn văn bản mới
¬ Key1 -> Rel1 -> Key2[id1, id2, ]
Key1 -> Rel1 -> Key2[id1, ] Cơ sở trí thức
Triple trong cơ sở tri thức
Hình 3.8: Mô phỏng quá trình lưu trữ triples vào cơ sở tri thức
Vi dụ 3.6: Sau khi xử lý đoạn văn bản luật có id là 481 và trong đoạn văn này đã rút
trích ra được 2 triples là người -> điều khiển -> xe máy và người -> sử dụng -> điện thoại Tuy nhiên trong cơ sở tri thức đã lưu trữ triple người -> điều khiến -> xe máy với danh sách các id đã chứa triple này là: ListID = [87, 283] (tức là triple này đã xuất hiện
trước đó tại 2 đoạn văn bản có id là 87 và 283) thì chỉ cần thêm giá trị 481 vào ListID của
triple này trong cơ sở tri thức Còn triple người -> sử dụng -> điện thoại chưa xuất hiện
trong cơ sở tri thức sẽ được lưu mới với listID = [481].
3.2.3 Tối ưu đồ thị tri thức
Tối ưu đồ thị tri thức là quá trình tối ưu hóa đồ thị, giúp giảm độ phức tạp cũng như
độ lớn của độ thi bằng xóa đi những triples vô nghĩa đối với đoạn văn bản chứa nó Cùng với đó sẽ tiễn hành tìm kiếm những triples có ý nghĩa giống nhau dé tiến hành tinh giảm.
33
Trang 36Bước 1: Tìm kiếm những triples vô nghĩa
Trong quá trình xây dựng các triples đặc biệt là bằng cách rút trích tự động sẽ có nhiều triples có giá trị tf-idf thấp, xuất hiện ở nhiều đoạn văn bản nhưng không có giá trị
quyết định nội dung đặc trưng của đoạn văn bản Thì sẽ được người quản trị hệ thống xóa
đi khỏi đồ thị biểu diễn ý nghĩa của đoạn văn Nếu như có những triples người quản lý thay không nên xuất hiện ở bất kỳ đồ thị nao trong đoạn văn sẽ thực hiện đưa vào danh sách đen thì những triples như vậy sẽ không xuất hiện ở trong đồ thị nữa.
Ví dụ 3.7: Triple “người -> thực hiện -> hành vi” là một triple xuất hiện ở rất nhiều
đoạn văn những không có giá trị quyết định đến nội dung đặc trưng của đoạn văn Vậy nên
triple này sẽ được bỏ đi dé giảm đi độ lớn của đồ thị.
Bước 2: Tối ưu hóa những triples trong đương
Định nghĩa 3.7: Keyphrase đồng nghĩa
Keyphrase đồng nghĩa là những cụm từ có nghĩa tương đương hoặc gần giống nhau.
- Dé kiểm tra xem hai keyphrases có đồng nghĩa với nhau hay không, nghiên cứu
thực hiện hai bước như sau Nếu bước | trả về kết quả là đồng nghĩa thì không cần
thực hiện bước 2.
o Bước 2.1: Kiểm tra xem hai keyphrases có thuộc cùng một trường giá tri
trong từ điển đồng nghĩa LDOCE phiên bản Tiếng Việt hay không Nếu có hai keyphrases đó sẽ được xem là đồng nghĩa.
o_ Bước 2.2: Nếu hai keyphrases không cùng thuộc vào bat kỳ trường giá trị
nào trong từ điển đồng nghĩa, giải thuật sẽ sử dụng Phobert dé chuyền đổi hai keyphrases thành vector và tính độ đo cosine similarity để xác định sự tương đồng về mặt ngữ nghĩa Nếu độ tương đương lớn hơn hoặc bằng 0.6,
sẽ xem hai keyphrases là đồng nghĩa với nhau.
Định nghĩa 3.8: Triples trong đương
Triples tương đương là những cụm ba từ được xem là tương đương khi so khớp từng
Trang 37chủ ngữ, quan hệ và tân ngữ giá trị đều phải trùng nhau hoặc đồng nghĩa Nếu như
có một trong ba thành phần không có giá trị đồng nghĩa, việc so sánh sẽ dừng lại và
2 triples sẽ không được xem là tương đương.
Nếu như trong cùng một đồ thị mô tả về ý nghĩa của đoạn văn bản mà có những
triples có nội dung tương đương sẽ tiến hành lược bỏ dé giảm đi độ lớn cũng như độ công kénh của đồ thị.
Ví dụ 3.8: 2 triples “người-lái-mô tô” và “người-điều khién-xe máy” được xem là 2
triples tương đương nhau về mặt nội dung Nên bước này sẽ lược bỏ di triple
“người-lái-mô tô” dé giảm đi độ lớn của đồ thị.
3.3 Xây dựng mô hình hỗ trợ biểu diễn tri thức từ văn bản luật
Với phương pháp tô chức và mô hình biéu diễn tri thức được thiết kế trong nội dung trước, nghiên cứu đã tiến hành xây dựng một mô hình hỗ trợ tô chức cơ sở tri thức từ các
văn bản luật được người dùng nhập vảo, với cấu trúc được xác định trước (bao gồm chương,
mục, điều, khoản, điểm) được trích xuất từ các N ghi định Chính phủ và Thông tư của Bộ trưởng, như đã đề cập trước đó.
Mô hình này sẽ sử dụng tài liệu pháp luật do người dùng nhập vào làm đầu vào và trả
ra đồ thị tri thức biểu diễn ý nghĩa của tài liệu đó Các chức năng chính của mô hình bao gồm:
- StoreLegalDocsDB: Chức năng này phân tích tài liệu nhập vào thành các mục biêu
diễn ý nghĩa của chương, điều, khoản và điểm trong văn bản luật, sau đó lưu trữ chúng vào cơ sở dữ liệu Các bước chi tiết để thực hiện chức năng này được mô tả tai Bước 1 mục 3.3.2 phan 3.3 chương này.
- Generate graph: Chức năng này thực hiện biéu diễn tài liệu pháp lý thành đồ thị
tri thức, thể hiện ý nghĩa của văn bản Tại bước này, tiễn hành trích xuất các nút trên
đồ thị và xác định các cung của nó một cách tự động Quá trình xác định và trích xuất sẽ được thực hiện dựa trên mô hình Rela-model và sự hỗ trợ của thư viện
VNCoreNLP Các bước chi tiết dé thực hiện chức năng này được mô tả tại Bước 2 mục 3.3.2 phần 3.3 chương này.
35
Trang 38- Graph optimization: Chức năng này tối ưu hóa đồ thị bang cách giảm độ phức tạp
Graph optimization
StoreLegalDocsDB
Legal documents - Docltemld,
- Text
el PhoBERT LDOCE Thesaurus
Transformers Vietnamese version
N Knowledge Representation Model yy
Hình 3.9: Kiến trúc của mô hình hỗ trợ biểu diễn tri thức từ văn ban luật Với việc thiết kế và triển khai mô hình, nghiên cứu đã tạo ra một công cụ hữu ích cho việc tô chức và trích xuất tri thức từ các tài liệu pháp lý Các bước xử lý từ việc phân tích tài liệu, xây dựng đồ thị tri thức và tối ưu hóa đồ thị được thực hiện một cách bán tự động giúp tiết kiệm thời gian và công sức cho người sử dụng Vai trò của người quản lý tri thức là phải kiểm tra và cập nhật thường xuyên đồ thị tri thức dé đảm bao tính chính xác
và độ tin cậy khi lưu vào cơ sở tri thức của hệ thông.
Trang 39Chương 4: MÔ HÌNH TRUY VAN KIÊN THỨC TREN VĂN BẢN
4.1 Thu thập và phân tích yêu cầu truy van từ câu hỏi thực tế
Dé có một hệ thống trả lời chính xác các câu hỏi từ người dùng, nghiên cứu cần thu thập các câu hỏi thực tế được đưa ra bởi người tham gia giao thông Sau đó, nghiên cứu sẽ tiến hành phân tích ngữ nghĩa của các câu hỏi đó dé xác định yêu cầu truy van trên cơ sở tri thức Việc phân tích ngữ nghĩa có thể được thực hiện bằng các phương pháp khác nhau,
bao gồm sử dụng các công cụ xử lý ngôn ngữ tự nhiên (NLP) để rút trích các từ khóa, quan
hệ và thông tin liên quan trong câu hỏi, hoặc sử dụng các kỹ thuật máy học dé phan loai va phân tích câu hỏi Nhờ đó, nghiên cứu có thê đánh giá chính xác đặc điểm của các câu hỏi
và đưa ra giải pháp cụ thê đề trả lời chính xác các câu hỏi từ người dùng.
4.2 Xác định bài toán cần giải quyết
Sau khi đã sử dụng mô hình Rela-Model dé tổ chức và biểu diễn tri thức cho miền tri thức K, hệ thống cần xác định các vấn dé cần giải quyết dé trả lời chính xác các câu hỏi
của người dùng Dé đưa ra câu trả lời chính xác, hệ thống cần hiểu mong muốn của người
dùng thông qua câu truy van Dé làm điều này, câu truy vấn cần được phân loại và xác định
ngữ nghĩa của nó, giúp hệ thống hiểu rõ yêu cầu của người dùng Khi đã xác định được ngữ nghĩa của câu hỏi, hệ thống sẽ tìm kiếm và so khớp với các thông tin đã được biểu diễn trong cơ sở tri thức để đưa ra câu trả lời chính xác cho người dùng Cụ thể, hai bài toán cần giải quyết bao gồm:
37
Trang 40- Bài toán 1: Phân loại và xác định ngữ nghĩa của câu truy vấn: Hệ thống sẽ xác định
loại câu hỏi và truy xuất thông tin về ý nghĩa, ngữ nghĩa của câu truy vấn đề hiểu rõ
yêu cầu của người ding.
- Bài toán 2: Tìm kiếm tri thức phù hop: Dựa trên ngữ nghĩa của câu truy van, hệ
thống sẽ tìm kiếm và so khớp với các thông tin đã được biéu diễn trong cơ sở tri thức K, dé đưa ra câu trả lời cho người dùng.
Đây là hai bài toán quan trọng cần giải quyết đề trả lời câu hỏi của người dùng trong
hệ thống truy vấn kiến thức dé dé hệ thống có có khả năng cung cấp các câu trả lời chính
xác và phù hợp với yêu câu của người dùng.
4.3 Thiết kế giải thuật truy van trên cơ sở tri thức
Đây là quá trình tim ra cau trả lời băng các bước biéu diễn câu truy vấn thành đồ thị tri thức, sau đó sẽ tiền hành tìm kiếm và so khớp đồ thị tri thức của câu truy vấn với phần
đồ thị con bên trong cơ sở tri thức đề đưa ra câu trả lời.
Giải thuật 1: Phân loại và xác định ngữ nghĩa của câu truy vấn:
Input: Truy vấn Q
Output:
- Loại câu hỏi
- D6 thị tri thức biểu diễn ngữ nghĩa của câu hỏi