1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Xây dựng hệ hỗ trợ tổ chức cơ sở tri thức trong văn bản luật và truy vấn kiến thức trên văn bản luật

101 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ hỗ trợ tổ chức cơ sở tri thức trong văn bản luật và truy vấn kiến thức trên văn bản luật
Tác giả Dang Viet Dung
Người hướng dẫn TS. Nguyen Denh Hien
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 101
Dung lượng 60,37 MB

Nội dung

Hệ thống có thể hỗ trợ tra cứu các khái niệm, hành vi vi phạm cũng như mức phạt tương ứng theo quy định của các văn bản quy phạm pháp luật trong luật giao thông đường bộ.. Để biểudiễn ki

Trang 1

ĐẠI HỌC QUOC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BIKER

DANG VIET DUNG

XÂY DỰNG HE HỖ TRỢ TO CHỨC CƠ SO TRI THỨC

TRONG VĂN BẢN LUẬT

VÀ TRUY VAN KIÊN THỨC TREN VĂN BẢN LUẬT

-NGÀNH: KHOA HỌC MÁY TÍNH

Mã số: 8.48.01.01

TP HO CHÍ MINH - NĂM 2023

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

&›»#Q@8

@\

DANG VIỆT DŨNG

XÂY DỰNG HE HỖ TRỢ TO CHỨC CƠ SỞ TRI THỨC

TRONG VĂN BẢN LUẬT

VÀ TRUY VAN KIEN THUC TREN VĂN BẢN LUAT

LUẬN VAN THAC SĨ

NGANH: KHOA HOC MAY TINH

Mã số: 8.48.01.01

Trang 3

LỜI CÁM ƠN

Kính gửi các quý thầy cô của Trường Đại học Công nghệ Thông tin,

Tôi xin gửi đến quý thầy cô lời cảm ơn chân thành nhất về sự truyền đạt kiến thức

và quá trình giảng dạy tận tình trong suốt thời gian tôi đã học tập tại đây Tôi muốn đặc

biệt bay tỏ lòng biết ơn đến TS Nguyễn Đình Hiền và TS Ngô Quốc Hưng, những ngườithầy đã tận tình chỉ dẫn và động viên tôi trong suốt thời gian thực hiện luận văn

Tôi cũng xin gửi lời cảm ơn đến các tác giả của các nghiên cứu và khóa học mà tôi

đã tham khảo dé ứng dụng vào việc nghiên cứu và hoàn thành luận văn của mình

Luận văn của tôi đã hoàn thành và đạt được một số kết quả nhất định Tuy nhiên,

việc tồn tại những thiếu sót là điều không thé tránh khỏi Tôi rat mong được nhận được sựcảm thông và đóng góp ý kiến xây dựng từ quý thầy cô và các bạn dé hoàn thiện hơn nữa

Một lần nữa tôi xin chân thành cảm ơn

Tp Hồ Chí Minh, ngày 9 tháng 5 năm 2023

Người thực hiện

Đặng Việt Dũng

Trang 4

LOI CẢM Ơi

DANH MỤC CÁC ĐỊNH NGHĨA 22222+£22222E2+2++t2E222221322.EEEEEEExrrrrrrrrrrkx 4

DANH MỤC CÁC BẢNG 22222222222 22221112222111122221111221111122111112221112 2.111 ce 5DANH MỤC CÁC HÌNH ẢNH

Chương 1: TONG QUAN VE DE TÀI 22222-222222222211212222112227111 222111 cee 7

1.1 Giới thiệu để tài - ¿5c tt t2 E11 21121112112111711121711121121111111111111121121 11111 7

1.2 Các nghiên cứu liên quan - - ¿- + c1 3% 9321 E121 E3 11 11 H1 HH Hit 9

1.3 Mục tiêu đề tài và phạm vi nghiên Cứu -¿- + + 5 1t 2x HH nưc 11 1.3.1 Mục tiêu đề tài

1.3.2 Đối tượng nghiên cứu ¿2:22 2t t2E1121E1112112712112112211111111211111111211111111 111 11

1.3.3 Phạm vi nghiên cứu + 6 E11E1E 1n no HH TH HH TT tr 12

1.4 Đóng góp của luận văn ¿cành nàn HH HH Hà HT HT TH TH Tư 13

1.5 Bố cục luận văn «««c+s<xxx+

Chương 2: THU THẬP KIEN THỨC VE LUAT GIAO THONG DUONG BỘ 15

2.1 Cấu trúc văn bản Iat csssssccsssssesesostsnvsessssssesscectvssessssssssseccesssseesesssssseseessssvsseesssnsessesssneeees 15 2.2 Giới thiệu về văn bản luật giao thông đường bộ - 5:55:22 Sv22vEttExrtrtrrrrrtrsrrrrrrrrrrrer 16 2.3 Thu thập kiến thức trong văn bản luật giao thông đường bộ -2- 2 2s =++=+zxzzxzzzz+e 16 2.3.1 Nguồn tri thức và phạm vi + tt + tt E2 2111111 111.111.1111 16

2.3.2 Phân loại tri thức

2.4 Thu thập câu hỏi và các vấn đề ¿22t tt 921221 21122121121121111112111211111111211111 11111111 20

2.4.1 Thu thập câu hỏi

2.4.2 Phân loại câu hỏi: + +21 1E 1 vn TT TH HT TT TH Hà TH ng Hư

2.5 Kếtchương

Trang 5

3.4 KGt CHUONG nh 51344H., à.),)HAHẬHẬ, Ô 36

Chương 4: MÔ HÌNH TRUY VAN KIÊN THUC TREN VĂN BẢN LUẬT 37

4.1 Thu thập và phân tích yêu cầu truy van từ câu hỏi thực Ế - ¿+ ++c+2xecxzcxzxrzrzxrrxccvel 37 4.2 Xác định bài toán cần giải quyt c2 tt ty tri 37 4.3 Thiết kế giải thuật truy van trên cơ sở tri thức ¿+ xsvt+EtcExtEkttEtettrrtrrtrrrrrrrrrrrrrrrrrid 38 4.4 Thiết kế kiến trúc cho chức năng truy vấn ‹:- 5: 2t t221112211 2112112111111 43 4.5 Kết chương ct tt E22 122112212211211171211211111112111111112111211111111211211.11121111 11 44

Chương 5: HE THONG HO TRỢ TRUY VAN KIEN THỨC LUẬT

5.1 Yêu cầu của hệ thống.

5.2 Chức năng của hệ thống

5.3 Kiến trúc của hệ thống ¿2-5 22t‡2t2EY92tE212112711211211271172121111112111171111111171111 TL te 46

5.4 Thử nghiệm - +5 + +22 3n vn TH ni ng HH 49

5.4.1 Tô chức cơ SỞ tri thỨC cc Ăn nh 49

5.4.2 Thử nghiệm câu truy vân - - + St 2222121211212 1 1211232118121 111 E181 11011 1H ru 51

ca -C‹.ŒdA 52

Chương 6: KET LUẬN VÀ HƯỚNG PHÁT TRIEN ¿ 22cz2225scczccsscee 53

6.1 Kết quả của đề tài

TÀI LIEU THAM KHẢO 22222:2 2222222222+22E2E2E222+2222222311222222EErrrrrrrrrrer 55

PHỤ LỤC

Trang 6

Cấu trúc của khái niệm(C).

Cấu trúc của mối quan hệ(R)Doan văn ban (Documentltem)

Keyphrase đồng nghĩa

Triples tương đương

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2.1: Mô ta một số ví dụ về khái niệm đã thu thập ¿22sccz+ccssce2

Bảng 2.2: Mô tả một số ví dụ về lỗi vi phạm trong cơ sở tri thức

Bảng 3.1: Ví dụ về khái niệm “xe máy”

Bảng 3.2: Ví dụ về quan hệ “sử dụng”

Bảng 3.3: Danh sách các key phrases

Bảng 5.1: Kết quả kiểm tra truy vấn về Luật Giao thông đường bộ

Trang 8

Cấu trúc của Legal Rela-model ¿-2++2222++++22E++++et2vvretrrvvrrrrrxer

Minh họa việc xây dựng sơ đồ tri thức

Mô phỏng quá trình phân tách dữ liệu

Mô phỏng quá trình xây dựng đồ thị tri thức từ đoạn văn bản

Ví dụ mô phỏng quá trình trích xuất các nút của đồ thị

Ví dụ mô phỏng quá trình tạo các cung của đồ thịMinh hoạ của bộ ba tri thức liên quan "người-sử dụng-

Mô phỏng quá trình lưu trữ triples vào cơ sở tri thứcKiến trúc của mô hình hỗ trợ biéu diễn tri thức từ văn ban luật 36

Trang 9

Chương 1: TONG QUAN VE DE TÀI

1.1 Giới thiệu đề tài

Luật là tập hợp các quy định pháp luật được nhà nước ban hành nhằm điều chỉnh

các hoạt động trong xã hội, bảo vệ quyền lợi và trách nhiệm của các thành viên trong xãhội Luật có tam quan trọng to lớn trong việc duy trì trật tự và an ninh trong xã hội, đồng

thời là công cụ quan trọng để giải quyết các tranh chấp, vi phạm pháp luật Tính pháp lý là

một trong những yếu tố quyết định giá trị của một quy định pháp luật Vì vậy, việc tra cứuthông tin về các quy định của pháp luật luôn luôn có nhu cầu và vai trò rất to lớn đối với

xã hội để đảm bảo việc thực thi các quy định pháp luật một cách hiệu quả Để đáp ứng nhucầu này, cần phải có các hệ thống tra cứu pháp luật để mọi người dễ dàng tiếp cận và tra

cứu thông tin chính xác về các quy định pháp luật trong nhiều lĩnh vực khác nhau

Hiện nay, Trí tuệ Nhân tạo (AI) đã được nghiên cứu và ứng dụng rộng rãi để hỗ trợnhững người làm việc trong lĩnh vực pháp luật [1, 2] Trong ba thập kỷ qua, đã có một sự

gia tăng đáng kể về việc sử dụng các kỹ thuật học máy dé giải quyết các vấn đề liên quan

đến AI và Luật pháp [24] Và đặc biệt là trong khoảng mười năm trở lại đây, việc sử dụng

các kỹ thuật học máy để xử lý các nhiệm vụ trong lĩnh vực này càng trở nên phổ biến hơn

và có sự gia tăng một cách đáng kể Những nhiệm vụ này bao gồm việc sử đụng học máy

đề dự đoán kết quả các vụ án, nhận dạng và gắn nhãn cho các thành phan trong các tai liệupháp lý, và phân tích các điều khoản trong hợp đồng dé phát hiện các điều khoản có thé

dẫn đến tranh chấp Bên cạnh đó, AI cũng có thé hỗ trợ con người trong việc dự đoán kết

quả pháp lý thông qua việc cung cấp các tài liệu pháp lý và thậm chí có thé đưa ra các quyết

định cho tòa án [3, 4] Các nghiên cứu này đã cho thấy rằng tiềm năng và lợi ích của AItrong lĩnh vực pháp luật là thực sự to lớn và chúng ta nên tiến hành nghiên cứu và pháttriển sâu hơn đề tận dụng những khả năng đó Trong thực tế nó đã được ứng dụng và đã hỗtrợ con người trong nhiều lĩnh vực pháp lý, giúp cho con người có thê tiết kiệm thời giancũng như công sức khi tìm hiểu về van đề pháp lý [5] Trong đó tìm kiếm thông tin về phápluật luôn có nhu cầu và vai trò đặc biệt quan trọng và to lớn đối với toàn xã hội [3, 6] Tuy

Trang 10

nhiên, các hệ thống truy vấn pháp lý hiện nay vẫn còn những hạn chế như chưa thể cung

cấp những câu trả lời chính xác nhất cho người dùng Việc trích xuất ngữ nghĩa của vănbản pháp luật đề đưa ra câu trả lời cho các truy van là một van đề khó khăn Trong lĩnh vựcpháp ly, cơ sở tri thức cần được tô chức dé lập luận và truy xuất tri thức trong lĩnh vực này{6 7] Mô hình Legal-Onto là một phương pháp phù hợp đề có thé tổ chức, biểu diễn chocác tri thức trong lĩnh vực pháp luật [8,9] Đây là mô hình được phat triển từ sự kết hopgiữa mô hình quan hệ, Rela-model [10] và trí tuệ nhân tạo theo hướng tiếp cận Ontology

và phương pháp này đã được áp dụng và tổ chức thành công cơ sở tri thức cho Luật Đất

đai.

Luận văn này sẽ xây dựng một mô hình hỗ trợ người dùng việc truy vấn kiến thứcvăn bản pháp luật Đề tải sẽ nghiên cứu phương pháp rút trích các kiến thức từ văn bản luậttheo các loại kiến thức về khái niệm, quan hệ và luật Việc rút trích này hướng đến tổ chứcién thức theo mô hình biéu diễn tri thức văn bản luật Legal-Onto [4] Đề tài nghiên cứuviệc rút trích kiến thức này trên cơ sở xây dựng các quy trình thiết lập và tổ chức cáceyphrases cùng với các quan hệ giữa chúng, biểu diễn quan hệ ngữ nghĩa giữa các

eyphrases theo tiếp cận đồ thị tri thức

Sau khi rút trích được kiến thức từ văn bản luật, nghiên cứu sẽ xây dựng chức năng

hỗ trợ người quản lý ứng dụng có thé tổ chức và biểu diễn tri thức đó và đưa vào hệ thống

Từ đó, đề tài sẽ nghiên cứu phương pháp giải quyết các vẫn đề truy vấn luật theo tiếng việt

và hệ thông sẽ đưa ra câu trả lời cho truy van đó dựa trên những quy định trong văn bảnuật đã được biểu diễn

Luật giao thông đường bộ là điều luật thông dụng và được nhiều người quan tâm

Trang 11

- Nghị định 46/2016/NĐ-CP của Chính phủ: Quy định xử phạt vi phạm hành chính

trong lĩnh vực giao thông đường bộ và đường sắt

-_ Nghị định Nghị định 123/2021/NĐ-CP của Chính phủ: Sửa đồi, bồ sung một số điều

của các Nghị định quy định xử phạt vi phạm hành chính trong lĩnh vực hàng hải;

giao thông đường bộ, đường sắt; hàng không dân dụng

- Luật số 23/2008/QH12 của Quốc hội: Luật Giao thông đường bộ

- Quy chuẩn kỹ thuật Quốc gia QCVN 41:2019/BGTVT

1.2 Các nghiên cứu liên quan

Hiện nay trên thế giới đã có nhiều chủ đề nghiên cứu và hệ thống được xây dựng đề

ứng dụng trí tuệ nhân tạo vào việc quản lý tài liệu pháp lý [11, 12] Nó được tạo ra dé hỗ

trợ nhu cầu tìm kiếm và trả lời câu hỏi về luật, thậm chí nó đã có thể hỗ trợ đưa ra các quyết

định trong quyết định tư pháp [13] Các công trình này sử dụng các công nghệ hiện đại,

chẳng hạn như Xử lý Ngôn ngữ Tự nhiên (NLP) [14, 15] hoặc ánh xạ tri thức, dé giải quyếtcác vấn đề [16, 17, 25, 26]

Ontology là một phương pháp hiệu quả dé đại diện cho tri thức trong nhiều lĩnh vực

để tìm kiếm thông tin [18, 19], đặc biệt là trong lĩnh vực pháp luật [1, 4, 20] LIDO là một

phương pháp đói tượng hóa cho các tài liệu tin tức pháp lý [20] Ontology này có thê đạidiện cho các hoạt động pháp lý ảnh hưởng đến tài liệu, các sự kiện thời gian pháp lý, cầu

trúc tài nguyên pháp lý và cấu trúc ngữ nghĩa của tổ chức các tài liệu pháp lý LegalKnowledge Graph và ontology được tổ chức và kết nối bởi Lynx Service Platform sử dung

một mô hình đữ liệu [4] Nó cho phép sắp xếp linh hoạt nhiều dịch vụ Xử lý Ngôn ngữ Tựnhiên và truy xuất thông tin xử lý tài liệu pháp lý

Các tác giả trong bài báo [22] đã đề xuất một phương pháp đo lường mức độ tương

tự giữa các tài liệu pháp lý của tòa án Phương pháp này có thể giúp so khớp kết quả của

vụ việc hiện tại với các vụ việc đã được xử lý trước đó, nhằm đưa ra kết luận cho vụ việcnày Tuy nhiên, phương pháp này chỉ hoạt động hiệu quả trong các vụ việc đã có sẵn trong

kho lưu trữ và không đáp ứng tốt với các trường hợp mới và chưa được xác định hay có

những tình tiết mới mẻ trong vụ viéc

Trang 12

Nghiên cứu trong [21] đã trình bày một kỹ thuật học sâu về luật Nhóm tác giả đã

áp dụng học sâu dé phân loại tài liệu, trích xuất và truy van thông tin kiến thức pháp luật

Tuy nhiên, phương pháp này không cho kết quả chính xác cao đối với các câu hỏi pháp lýngữ nghĩa và phương pháp này tốn kém về mặt đào tạo Trong một nghiên cứu khác, Zhong

et al đã tóm tắt các lợi ích của NLP trong việc xử lý các hệ thống trí tuệ nhân tạo trong

lĩnh vực pháp luật [15] Các hệ thống đó đã xây dựng được giải pháp tốt dé ứng dung trituệ nhân tạo trong lĩnh vực pháp lý Chúng có thé hỗ trợ người dùng dự đoán các phán

quyết pháp lý bằng cách so sánh các trường hợp tương tự trong quá khứ và trả lời các câu

hỏi pháp lý [22] Tuy nhiên, việc xây dựng mô hình tri thức và xây dựng cơ sở tri thức cho

hệ thống vẫn được thực hiện thủ công, đòi hỏi người xây dựng tri thức cho hệ thống phải

có kiến thức pháp luật nên những việc này tốn rất nhiều thời gian và công sức của con

tiền huấn luyện sâu (Deep pre-trained language model) LamBERTa đề xây dựng hệ thống

khai thác thông tin từ văn bản pháp lý tiếng Ý, được gọi là Unsupervised law article miningsystem (ULAMS) Bằng cách sử dụng kỹ thuật học không giám sát, hệ thống này tự động

tìm ra các chủ đề quan trọng trong các điều khoản của Bộ luật dân sự Ý Mô hình đã được

Trang 13

1.3 Mục tiêu đề tài và phạm vi nghiên cứu

1.3.1 Mục tiêu đề tài

Luận văn này thực hiện nghiên cứu và giải quyết các vấn đề sau:

- Nghiên cứu giải pháp rút trích kiến thức văn bản luật va các quy trình cho việc rút

trích này để hướng đến tô chức cở sở tri thức được rút trích theo cấu trúc mô hình trithức Legal-Onto.

- Nghiên cứu tập trung vào phát triển phương pháp giải quyết các van đề truy van từ

các câu hỏi thường gặp từ người dùng Phương pháp này sẽ tìm ra câu trả lời cho các

truy vấn dựa trên quy định trong văn bản luật đã được biểu diễn

- Từ các kết quả nghiên cứu trên, nghiên cứu xây dựng mô hình hỗ trợ người dùng tô

chức cơ sở tri thức trong nội dung các văn bản luật, chẳng hạn như các Luật, Nghị

định và Thông tư có liên quan Mô hình này có thể thực hiện các chức năng sau:

o Hỗ trợ người dùng tô chức tri thức một cách bán tự động, nhằm tạo ra một bộ

cơ sở tri thức day đủ về các kiến thức trong văn bản luật

o Cho phép người quản lý cập nhật lại các quy định pháp luật trong cơ sở tri

thức khi có sự cập nhật, sửa đồi hoặc bổ sung đối với văn bản luật

- Ngoài ra, nghiên cứu cũng thực hiện việc xây dựng hệ thống truy van kiến thức pháp

luật trong lĩnh vực luật giao thông đường bộ Hệ thống này sẽ:

o Cho phép kỹ sư tri thức quản lý và cập nhật tri thức dé dam bảo tính đúng đắn

và tính cập nhật cho cơ sở tri thức.

o Hỗ trợ trả lời các câu truy vấn của người dùng về khái niệm, lỗi vi phạm cũng

như các mức phạt tương ứng dựa trên quy định trong văn bản luật đã đượcbiểu diễn

1.3.2 Đối twong nghiên cứu

Nghiên cứu này tập trung vào việc tổ chức tri thức từ các văn bản pháp luật về luật

giao thông đường bộ đề xây dựng một hệ thống tra cứu và truy vấn kiến thức về luật giao

Trang 14

thông đường bộ, cho phép người đùng tra cứu các lỗi vi phạm và các mức phạt tương ứng

theo quy định trong các văn bản pháp luật đã ban hành Nghiên cứu này hướng đến đối

tượng là những người cần tra cứu thông tin này

1.3.3 Phạm vi nghiên cứu

Pham vi cơ sở tri thức:

Đề tài này chỉ thực hiện với các văn bản luật có cấu trúc Chương, mục, điều, khoản,điểm được trích xuất tử các Nghị định Chính phủ, và Thông tư của Bộ trưởng, chăng hạn

như:

- _ Luật Giao thông Đường bộ số 23/2008/QH12 ngày 13/11/2008

- Nghị định 100/2019/NĐ-CP ngày 30/12/2019 v/v Quy định xử phạt vi phạm hành

chính trong lĩnh vực giao thông đường bộ.

- Quy chuân kỹ thuật Quốc gia Việt Nam QCVN 41:2019/BGTVT Báo hiệu đường

bộ.

- Nghị định 123/2021/ ND — CP sửa đổi, bổ sung một số điều của các nghị định quy

định xử phạt vi phạm hành chính trong lĩnh vực hàng hải; giao thông đường bộ,

đường sắt; hàng không dân dụng

Pham vi câu truy van

Nghiên cứu này tập trung vào việc xử lý và giải quyết các loại câu hỏi thường gặp

trong lĩnh vực luật pháp Hệ thống đã xử lý thành công các câu truy vấn như tra cứu kháiniệm, tìm hiểu về lỗi vi phạm, và xác định các mức phạt tương ứng theo quy định trongvăn bản luật Cụ thể về các câu truy vấn như sau:

Trang 15

1.4 Đóng góp của luận văn

Luận văn này đã thiết kế một giải pháp để trích xuất tri thức từ văn bản pháp luật và

t6 chức thành cơ sở tri thức thông qua cấu trúc ontology Legal-Onto Nghiên cứu này cũng

đề xuất một phương pháp tạo ra đồ thị tri thức thé hiện các khái niệm và mối quan hệ của

chúng Bên cạnh đó luận văn cũng giới thiệu phương pháp đề truy vấn kiến thức dựa trên

đồ thị tri thức đã xây dựng

Nghiên cứu này còn xây dựng mô hình hỗ trợ tổ chức và truy vấn kiến thức phápluật đã được xây dựng và ứng dụng trong lĩnh vực luật giao thông đường bộ dé đánh giá

hiệu quả của phương pháp đề xuất Hệ thống có thể hỗ trợ tra cứu các khái niệm, hành vi

vi phạm cũng như mức phạt tương ứng theo quy định của các văn bản quy phạm pháp luật trong luật giao thông đường bộ.

F$ A x

1.5 Bô cục luận văn

Bố cục của luận văn bao gồm 6 chương với các nội dung như sau:

Chương 1: Tổng Quan Về Đề Tài Trong chương này, luận văn giới thiệu về đề tài,trình bày các nghiên cứu liên quan và nêu lên mục tiêu cũng như phạm vi của nghiên cứu.

Chương 2: Thu Thập Kiến Thức Về Luật Giao Thông Đường Bộ Tại chương này,luận văn trình bày về cấu trúc của hệ thống văn bản luật của Việt Nam cũng như giới thiệu

về các văn bản quy định về luật giao thông đường bộ Sau đó, luận văn sẽ trình bày về quátrình thu thập về các văn bản luật giao thông đường bộ cũng như các câu hỏi thực tế và các

van đề liên quan và phân loại tri thức nay

Chương 3: Cơ Sở Biéu Diễn Tri Thức Luật Trong phan này luận văn trình bay quá

trình thiết kế cấu trúc và phương pháp phù hợp cho việc biéu diễn tri thức Từ đó xây dựng

mô hình đề hỗ trợ việc biểu diễn tri thức từ văn bản luật

Chương 4: Mô Hình Truy Vấn Kiến Thức Trên Văn Bản Luật Trong chương này,

quá trình phân tích các yêu cầu truy van từ những câu hỏi thực tế về luật giao thông đường

bộ sẽ được trình bày rõ và xác định bài toán cần giải quyết Từ đó thiết kế giải thuật phù

Trang 16

hop dé xử lý các truy van này và tiến hành thiết kế kiến trúc cho chức năng truy vấn của

một hệ thống

Chương 5: Hệ Thống Hỗ Trợ Truy Van Kiến Thức Luật Sau khi đã trình bày quátrình giải quyết được các bài toán về truy vấn tại chương 4, luận văn tiến hành xây dựngmột hệ thống truy van kiến thức luật giao thông đường bộ trên ngữ nghĩa Tai chương này,luận văn trình bày chỉ tiết về quá trình xây dựng chương trình hỗ trợ truy vấn kiến thức,bao gồm thiết kế kiến trúc của hệ thống, quá trình xử lý và truy vắn dữ liệu, cũng như đánh

giá hiệu suất của hệ thống thông qua các thử nghiệm

Chương 6: Kết luận và Hướng phát triển Trong chương kết luận và hướng phát

triển, luận văn sẽ tổng kết lại các kết quả đã đạt được từ việc tiến hành nghiên cứu và xâydựng hệ thống truy vấn kiến thức luật giao thông đường bộ Nghiên cứu sẽ trình bày vềnhững hạn chế và giới hạn của hệ thống hiện tại, cũng như dé xuất các hướng phát triểntrong tương lai dé nâng cao hiệu suất và độ chính xác của hệ thống

Trang 17

Chương 2: THU THẬP KIÊN THUC VE LUẬT GIAO THONG

DUONG BO

Trong chương 2 này, luận văn trình bay về quá trình tim hiểu cấu trúc của hệ thong

văn bản luật của Việt Nam và giới thiệu các văn bản quy định về luật giao thông đường

bộ Sau đó, luận văn sẽ tập trung vào quá trình thu thập và phân tích các đặc trưng chung

và đặc trưng riêng của các văn bản luật giao thông đường bộ, cũng như xem xét các câuhỏi thực tế trong lĩnh vực này Đồng thời, luận văn sẽ tiến hành phân loại các tri thức đãthu thập được.

2.1 Cấu trúc văn ban luật

Tại Việt Nam, hệ thống các văn bản pháp luật hiện hành được quy định trong Luật

số 80/2015/QH13 của Quốc hội: LUẬT BAN HÀNH VĂN BẢN QUY PHẠM PHÁP

LUẬT Mặc dù các văn bản pháp luật có sự thay đổi va cập nhật liên tục theo sự phát triển

kinh tế và xã hội, nhưng hệ thống văn bản pháp luật của Việt Nam có các cấp độ sau đây:

- Hiến pháp là luật cơ bản của nước Cộng hòa xã hội chủ nghĩa Việt Nam Được Ban

Tổng thư ký ban hành và là văn bản có hiệu lực pháp lý cao nhất

- Bộ luật/ Luật là các văn bản pháp luật được Ban Tổng thư ký ban hành đề cụ thé

hóa Hiến pháp và quy định các loại quan hệ xã hội trong các lĩnh vực hoạt động của

xã hội.

- Văn bản dưới luật được quy định là các văn bản pháp lệnh, nghị quyết, thông tư,

quyết định và chỉ thị

Nội dung và cầu trúc của một văn bản pháp luật có thể được sắp xếp dưới dạng các

phần, chương, mục, điều, khoản và điêm tùy thuộc vào nội dung của văn bản đó Để biểudiễn kiến thức của một văn bản pháp luật cụ thể, Rela-model là một mô hình được sử dung

va phủ hợp đề biểu diễn kiến thức về các mối quan hệ trong lĩnh vực này Mô hình này bao

gồm các thành phần khái niệm và các mối quan hệ giữa các khái niệm Các khái niệm được

đề cập đến trong các văn bản pháp luật, và các mối quan hệ giữa các khái niệm là các hành

Trang 18

động hoặc sự kiện, từ đó, với mỗi mối quan hệ, có thể xác định đầy đủ nội dung và ý nghĩa

của hành vi hoặc sự kiện trong các văn bản pháp luật.

2.2 Giới thiệu về văn ban luật giao thông đường bộ

Việt Nam hiện nay đã có các văn bản quy định về các lỗi vi phạm trong lĩnh vực

giao thông đường bộ, bao gồm:

- Nghi định 100/2019/NĐ-CP của Chính phủ: Quy định xử phạt vi phạm hành chính

trong lĩnh vực giao thông đường bộ và đường sắt

- Nghi định 46/2016/NĐ-CP của Chính phủ: Quy định xử phạt vi phạm hành chính

trong lĩnh vực giao thông đường bộ và đường sắt

- Nghi định Nghị định 123/2021/NĐ-CP của Chính phủ: Sửa đồi, bổ sung một số điều

của các Nghị định quy định xử phạt vi phạm hành chính trong lĩnh vực hàng hải;

giao thông đường bộ, đường sắt; hàng không dân dụng

- Luật số 23/2008/QH12 của Quốc hội: Luật Giao thông đường bộ

- Quy chuẩn kỹ thuật Quốc gia QCVN 41:2019/BGTVT

Trong đó, Nghị định 100/2019/NĐ-CP đã được ban hành dé thay thé cho Nghị định

46/2016/NĐ-CP Chương 2 của Nghị định 100 đã đưa ra các quy định chỉ tiết về các hành

vi vi phạm, hình thức xử phạt và biện pháp khắc phục hậu quả vi phạm hành chính tronglĩnh vực giao thông đường bộ Ngoài ra, Nghị định 123/2021/NĐ-CP đã được ban hành để

sửa đổi, bổ sung một số điều của các Nghị định (trong đó bao gồm cả Nghị định

100/2019/NĐ-CP) quy định xử phạt vi phạm hành chính trong lĩnh vực giao thông đường

bộ.

Trang 19

123/2021/NĐ-CP của Chính phủ: Sửa đồi, bổ sung một số điều của các Nghị định quy định

xử phạt vi phạm hành chính trong lĩnh vực giao thông đường bộ.

Các van đề liên quan đến lĩnh vực luật giao thông:

Điều kiện kỹ thuật và an toàn kỹ thuật của phương tiện giao thông

Trách nhiệm của người lái xe và người điều khiển phương tiện giao thông khác

Quy định về tốc độ và khoảng cách giữa các phương tiện giao thông

Quy định về trang bị phương tiện và các biển báo giao thông

Các quy định liên quan đến vụ tai nan giao thông, bảo hiểm giao thông và các van

đề liên quan đến tài xế và hành khách

Bảng 2.1: Mô tả một số ví dụ về khái niệm đã thu thập

STT | Khái Khoản - Điều Nội dung Keyphrase

niệm tưởng ứng s

1 Xe may | Khoản 3.31 Điều | là xe co giới hai hoặc ba bánh và | xe mô tô,

3, QCVN các loại xe tương tự, di chuyển | xe máy41:2019/BGTVT bang động cơ có dung tích xy lanh

từ 50 cm3 trở lên, trọng tải ban

thân xe không quá 400 kg.

2 |Tốcđộ |Khoản 3.47 Điều | là tốc độ lớn nhất trên một tuyến | tốc độ tối

tối đa cho | 3, QCVN đường, đoạn đường hoặc làn | đa chophép 41:2019/BGTVT | đường được cấp có tham quyên | phép, tốc

quy định Người điều khiển | độ tối đa,

phương tiện không được phép vận | vận tốc tôi

hành xe ở tốc độ cao hơn đa

3 | Đường Khoản 12, Điều | là đường dành cho xe cơ giới, có | đường cao

cao tốc 3, Luật dai phân cách chia đường cho xe tốc, xa lộ

23/2008/QH12 chạy hai chiều riêng biệt; không

giao nhau cùng mức với một hoặc

các đường khác; được bố trí đầy đủtrang thiết bị phục vụ, bảo đảm

giao thông liên tục, an toàn, rút

ngắn thời gian hành trình và chỉ

cho xe ra, vào ở những điểm nhấtđịnh.

Trang 20

2.3.2 Phân loại tri thức

Sau khi thu thập tri thức luật giao thông đường bộ được phân loại như sau:

- Tri thức về các khái niệm: Tri thức về các khái niệm bao gồm các thuật ngữ, định

nghĩa và các yếu tố khác liên quan đến lĩnh vực giao thông đường bộ, chẳng hạn như

khái niệm về đường phó, đèn tín hiệu, vạch kẻ đường,

Vi dụ về một số khái niệm đã thu thập va phân loại tại bảng 2.1:

- _ Tri thức về các lỗi vi phạm: Là những quy định về hành vi lỗi vi phạm và quy trình

xử lý vi phạm.

Ví dụ về một số lỗi vi phạm đã thu thập và phân loại tại bảng 2.2 như sau:

Bảng 2.2: Mô tả một số ví dụ về lỗi vi phạm trong cơ sở tri thức

STT | Lỗi vi Phương | Điều - Khoản Nội dung Keyphrases

phạm tiện tưởng ứng

1 |Khôngcó | Xe máy Điểm a, Khoản 1, | Phat tiền từ - Người

gương Điều 17, Nghị 100.000 đồng - Điều Khiển

chiếu hậu định đến 200.000 - Xe máy

100/2019/NĐ-CP | đồng - Gương chiều

hậu

- Gương chiếu

hậu bên trái

Xe ôtô _ | Điểm a, Khoản 2, | Phat tiền từ - Người

Điều 16, Nghị 300.000 đồng - Điều Khién

định đến 400.000 - Xe ôtô100/2019/NĐ-CP | đồng - Gương chiều

hậu

2 |Khôngcó |Xemáy |ĐiểmaKhoản2 | Phạt tiền từ - Người

hoặc không Điều 21 Nghị 100.000 đồng - Điều Khiển

Trang 21

- Điểm b Khoản

11 Điêu 5 Nghị định 100

còn hiệu Xe ôtô Điểm b Khoản 4 | Phat tiền từ - Người

Điều 21 Nghị 400.000 đồng - Điều Khién

dân sự

Sử dụng Xe đạp Điểm h khoản I | Phat tiền từ - Người

điện thoại Điều 8 Nghị định | 80.000 đồng đến | - Điều Khién

100/2019/NĐ-CP | 100.000 - Xe đạp

- Sử dụng

- Điện thoại

Xe náy - Điểm h Khoản | - Phat tiền từ - Người

4 Điều 6 Nghị §00.000 đồng - Điều Khiénđịnh 100(sửa đổi | đến 1.000.000 - Xe máy

bởi Điểm g đồng - Sử dụng

Khoản 34 Điều 2 | - Tước quyền sử | - Điện thoạiNghị định dụng Giấy phép

123/2021/NĐ- _ | Iai xe từ 01 thángCP) đến 03 tháng

- Điểm b Khoản

10 Điều 6 Nghị

định 100

Xeôt - Điểm a Khoản | - Phat tiền từ - Người

4 Điều 5 Nghị 2.000.000 đồng |- Điều Khiénđịnh 100 (sửa đổi | đến 3.000.000 |- Xe ôtô

bởi Điểm d đồng - Sử dụngKhoản 34 Điều 2 | - Tước quyền sử | - Điện thoạiNghị định dụng Giấy phép

123/2021/NĐ- |Hái xe từ 01 tháng

CP) đến 03 tháng

Trang 22

2.4 Thu thập câu hói và các vấn đề

'Việc thu thập câu hỏi thực tế, phân tích và phân loại chúng theo các danh mục giúp

hiểu rõ hơn về các câu hỏi mà người dùng có thé đặt ra khi sử dụng hệ thống Điều này

giúp hệ thống trả lời một cách nhanh chóng, hiệu quả và trả về kết quả chính xác và phùhợp với yêu cầu của người sử dụng Đây là một công đoạn luôn cần thực hiện thường xuyên

để giúp cho việc phát triển và cải tiến hệ thống tìm kiếm theo ngữ nghĩa trong tương lai,

nhằm đáp ứng được nhu cầu của người dùng một cách tốt nhất

2.4.1 Thu thập câu hỏi

Để thu thập câu hỏi cho hệ thống tìm kiếm theo ngữ nghĩa liên quan đến luật giaothông, nghiên cứu đã sử dụng các phương pháp sau:

- Tim kiếm trên các trang web liên quan đến luật giao thông như trang web của cục

đăng kiểm Việt Nam, trang web của các trung tâm đào tạo lái xe, hay các cộng đồng

chia sẻ kiến thức lái xe trên mạng xã hội

- Phỏng van các chuyên gia về luật giao thông như cảnh sát giao thông hoặc luật sư

chuyên về luật giao thông

- Tìm kiếm các tài liệu, văn bản pháp luật và sách liên quan đến luật giao thông dé tìm

kiếm các câu hỏi phổ biến được đặt ra về lĩnh vực này

2.4.2 Phân loại câu hỏi:

Sau khi đã thu thập các câu hỏi, nghiên cứu tiến hành phân loại chúng theo các danhmục như sau:

Trang 23

2.5 Kết chương

Trong chương này luận văn đã nghiên cứu quá trình thu thập kiến thức về luật giao

thông đường bộ Qua quá trình tìm hiểu cấu trúc hệ thống văn bản luật của Việt Nam va

giới thiệu về các văn bản quy định về luật giao thông, đề tài đã xác định được các đặc trưngchung và riêng của các văn bản luật trong lĩnh vực này Kết hợp với việc phân tích các câuhỏi thực tế đề tài đã thu thập thành công kiến thức quan trọng

Trong chương tiếp theo, những kiến thức đã thu thập và phân tích sẽ được sử dụng

dé làm cơ sở cho việc biéu diễn tri thức trong miền luật giao thông đường bộ

Trang 24

Chương 3: CO SỞ BIEU DIEN TRI THUC LUẬT

Tại chương này, luận văn tiến hành thiết kế cấu trúc và phương pháp biểu diễn tri

thức phù hợp với miễn tri thức pháp luật Từ đó xây dựng mô hình hỗ trợ tổ chức và biểudiễn tri thức từ văn bản luật thành đô thị tri thức một cách bán tự động, giúp tiết kiệm thờigian và công sức của con người.

3.1 Thiết kế cấu trúc biếu diễn tri thức

Định nghĩa 3.1: Triple (bộ ba tri thức)Triple là một bộ ba tri thức bao gồm subject (chủ thé), relation (quan hé) va object

(đối tượng) Relation trong triple là phan kết nối giữa chủ thé va đối tượng Nó mô tả mối

quan hệ giữa chủ thể và đối tượng trong một câu hoặc một ngữ cảnh nào đó và được địnhnghĩa theo cú pháp: subject-relation-object.

Định nghĩa 3.2: Đồ thị tri thức

Đề thị tri thức là tập hợp một danh sách bao gồm các triples trong đó các nút daidiện cho các đối tượng (Subject va Object) và các cạnh đại diện cho các mối quan hệ giữachúng (Relation).

Cấu trúc Ontology bao gồm các khái niệm và quan hệ giữa chúng, được sử dụng dé

thể hiện ý nghĩa của các văn bản quy phạm pháp luật Trong hệ thống pháp luật Việt Nam,việc sử dụng Ontology Rela-model là rất thích hợp, vì nó cung cấp một mô hình tri thức về

các quan hệ Ontology Legal-Onto được xây dựng dựa trên mô hình Rela, và được cải tiến

dé đáp ứng nhu cầu biểu diễn tri thức Luật Câu trúc của ontology Legal-Onto bao gồm các

Trang 25

(C, R, Rules) là một cấu trúc của mô hình Rela-model được sử dụng để tổ chức thông tin.

Trong đó:

C là tập hợp các khái niệm trong lĩnh vực nghiên cứu, với mỗi khái niệm trong C

đã được cải tiến cấu trúc bên trong để phù hợp với việc tổ chức, lưu trữ thông tincủa nó Với cấu trúc của mỗi khái niệm c € C như sau:

Định nghĩa 3.4: Cấu trúc của khái niệm(C)

c = (Name, Meaning, Attrs, Keyphrases, Similar)

Trong do:

e Name là tên định danh của khái niệm

e Meaning đưa ra ý nghĩa của khái niệm

e Atfrs chứa danh sách các thuộc tính của khái niệm

e Keyphrases là một tập hợp các cụm từ chính được xác định hoặc liên quan

đến khái niệm Những cụm từ này đã được khai báo trong một danh sách vớiloại = "N".

© Similar là cụm từ phố biến nhất khi nói về khái niệm này

R là tập các quan hệ giữa các khái niệm, cụm từ khóa và co sở dữ liệu lưu trữ nộidung của văn bản luật Mỗi quan hệ này có thê là sự kết nói giữa các khái niệm trong

C hoặc giữa khái niệm và nội dung của văn bản Với cấu trúc của mỗi mối quan hệ

re Rnhư sau:

Định nghĩa 3.5: Cầu trúc của mối quan hệ(R)

r = (Name, Meaning, ConckeyS, ConckeyO, Prop, Keywords) Trong do:

e Name là tên hoặc ký hiệu của mối quan hệ.

© Meaning trình bày ý nghĩa của mối quan hệ

© ConckeyS và ConckeyO là các khái niệm trong mối quan hệ

o ConckeyS được sử dụng cho chủ ngữ.

o ConekeyO được sử dụng cho đối tượng

Trang 26

e Prop trình bày một tập hợp các thuộc tính của mối quan hệ Nghiên cứu nay

chỉ đề cập đến hai thuộc tính chính của một mối quan hệ nhị phân, bao gồm

đối xứng và bắc cầu

e Keywords chứa một tập hợp các từ khóa cho mối quan hệ

- Rules là tập hợp các luật suy diễn của miền tri thức Tập rules trong hệ thông

Rela-model thể hiện mối quan hệ ràng buộc và suy luận giữa các cụm từ khóa và kháiniệm trong văn bản pháp luật Nó giúp giảm công việc xây dựng cơ sở tri thức vàsuy diễn thông tin Các luật suy diễn trong rules-set suy ra mối quan hệ ngữ nghĩagiữa các cụm từ và khái niệm, tìm sự tương đồng ngữ nghĩa Các luật này dựa trên

quy tắc logic, kiến thức chuyên gia và ngữ nghĩa, giúp tổ chức và phân tích thông

tin pháp luật một cách linh hoạt và hiệu quả.

(Cone, Rel) là đồ thị tri thức biêu thị mối quan hệ giữa các cụm từ khóa của văn bản quyphạm pháp luật Trong đó:

- Conc là tập hợp các thuật ngữ đại diện cho các khái niệm cụ thể trong lĩnh vực pháp

lý được tìm thay trong văn bản, thé hiện ý nghĩa và thông tin về các khái niệm tronglĩnh vực pháp lý.

- Rel là tập hợp các cung với mỗi cung luôn có hướng, biểu thị một quan hệ ngữ nghĩa

giữa hai khái niệm Các cung này cho phép phân tích và xác định mối quan hệ giữacác thuật ngữ trong văn bản, giúp hiểu rõ hơn về sự tương quan giữa chúng

Trang 27

(C, R, Rule) 7

Co đo + Set of relations between entities

(concepts or key phrases)

-* Relation >

RULES

[Hypothesis facts(f) ————> Goal facts(g)

+ Constraint and inferring relation between

keyphrases and concepts

Phrases Attributes

Representative key —_ >| key2 | Rel1 > key 1

H *

Knowledge Graph

Hình 3.1: Cấu trúc của Legal Rela-model

Cấu trúc của Legal-Onto Ontology được hiên thị trong hình 3.1 Trong mô hình nay,

đồ thị tri thức được sử dụng dé đại diện cho các cụm từ chính đã được trích xuất thông qua

khái niệm trong tài liệu và mối quan hệ giữa các cụm từ này thông qua mối liên hệ để dễdàng tổ chức và quản lý tri thức Sử dung đồ thị tri thức có thé liên kết các dữ liệu bi phân

tán, biến chúng thành tri thức Ngoài ra, nó cũng hỗ trợ người dùng giải quyết các truy vanngữ nghĩa.

3.2 Phương pháp tổ chức tri thức theo mô hình legal-onto từ văn ban

luật

Xây dựng đồ thị tri thức là quá trình biến những văn bản pháp luật mà người dùng

nhập vào thành các đồ thi tri thức, nó giúp việc thé hiện nội dung một cách trực quan và déhiểu hơn Đồ thị tri thức được tạo thành từ một tập hợp các triple biêu diễn các khái niệm

và mối quan hệ giữa chúng, giúp cho việc phân tích và xử lý thông tin trở nên nhanh gọn

và chính xác hơn.

Trang 28

a) Văn bản luật b) Đồ thị tr thức

Hình 3.2: Minh họa việc xây dựng sơ đồ tri thứcXây dựng một đồ thị tri thức là quá trình chuyền đổi tài liệu pháp lý do người dùngcung cấp thành các đồ thị tri thức đề đại điện cho nội dung của tài liệu pháp lý được minh

họa tại hình 3.2 Đồ thi tri thức đại diện cho tập hợp các khái niệm và mối quan hệ giữa

chúng Mỗi khái niệm được đại điện bởi đồ thị tri thức có cấu trúc như Định nghĩa 3.4

Trang 29

3.2.1 Xây dung ontology

Xây dung ontology đại diện cho nội dung cua tai liệu pháp luật dựa trên Legal-Onto Bước này được thực hiện trong hai bước như sau:

Bước 1: Trích xuất cụm từ khóa từ tài liệu pháp luật

Đầu tiên sẽ tiến hành phân tích ngôn ngữ tự nhiên của các tài liệu pháp luật dé thu thập và trích xuất ra các cụm từ khóa trong tài liệu.

Sau đó, các cụm từ khóa này sẽ được phân loại thành hai nhóm: nhóm đầu tiên là nhóm thể hiện cho các khái niệm trong tài liệu (ký hiệu là "C" viết tắt cho chữ Concept) và nhóm tiếp theo là nhóm các cụm từ khóa thê hiện các hành động hay các mối quan hệ giữa

các khái niệm

Vi dụ 3.1: Trong luật giao thông đường bộ, có 3 tài liệu pháp lý trong lĩnh vực giao

thông đường bộ quy định về các hành vi hành vi (Luật giao thông đường bộ 2008; Nghị định 100/2019/NĐ-CP; Nghị định 123/2021/NĐ-CP) Các tài liệu này được quét để trích

xuất các cụm từ khóa về khái niệm và quan hệ, chăng hạn như "xe máy", "điện thoại" là

các khái niệm, và "điều khiển" là một quan hệ Bảng 3.3 sau đây cho thấy một số cụm từ

khóa và loại của chúng.

Bảng 3.3: Danh sách các key phrases

Cac cụm từ khóa này được sử dung dé tao ra các chỉ mục hoặc trích xuât thông tin

từ tài liệu pháp luật, giúp cho việc quản lý và sử dụng các tài liệu này trở nên hiệu quả hơn.

27

Trang 30

Bước 2: Xây dung ontology cho tài liệu pháp luật

Sau khi đã trích xuất được các cụm từ khóa và phân nhóm chúng, nghiên cứu sẽ tiến hành xây dựng ontology cho tài liệu này Ontology được xây dựng dựa trên hai thành phần chính là tập hợp các khái niệm và tập hợp các mối quan hệ giữa các khái niệm trong tập hợp đó cụ thé qua các bước như sau:

Bước 2.1: Xây dựng các khái nệm (C)

Nghiên cứu tiến hành xây dựng một tập hợp C(Concept) là tập hợp các khái niệm được trích xuất từ tài liệu pháp lý Cụ thể trong lĩnh vực luật giao thông được bộ đã xây

dựng được các khái niệm như “xe máy”, “xe ô tô”, “người”, “đèn tín hiệu giao thông”,

với mỗi khái niệm sẽ được biéu dién với câu trúc tại Dinh nghĩa 3.4.

Vĩ dụ 3.2: Khái niệm “xe máy”:

e Khái niệm "xe máy" được hình thành dé đại diện cho các cụm từ khóa "Xe ga",

"xe mô tô", va được su dụng dé chỉ "Id xe cơ giới hai hoặc ba bánh và các loại xe tương tự, di chuyển bằng động cơ có dung tích xy lanh từ 50 cm3 trở lên,

trọng tải bản thân xe không quá 400 kg." Day là một phương tiện giao thông

đường bộ và được quy định tại Mục 3.31, Điều 3 của (Bộ Giao thông Vận tải, 2019) Bảng 3.1 cho thấy khái niệm "xe máy" được mô tả như sau.

Attrs Dict -kind: phuong tién giao thong

-legal: Khoan 3.31, Diém 3, QCVN 41:2019/BGTVT

Keyphrases Xe gắn may, mô tô, xe ga

Trang 31

Bước 2.2: Xây dựng các quan hệ (R)

Đồng thời, nghiên cứu cũng xây dựng một tập hợp R(Relation) là tập hợp các quan

hệ giữa các khái niệm trong tập hợp C Thông qua việc này có thé mô tả được các mối quan

hệ giữa các khái niệm trong tài liệu pháp lý và sử dung ontology này dé hỗ trợ cho việc phân tích và trích xuất thông tin từ tài liệu pháp lý một cách chính xác và hiệu quả Trong

lĩnh vực luật giao thông đường bộ, nghiên cứu đã xây dựng được các quan hệ như “sử

dụng”, “điều khiển”, VỚI mỖi quan hệ sẽ được biểu diễn với câu trúc tại Định nghĩa 3.5.

Ví dụ 3.4: Quan hệ “sử dụng”

e Quan hệ "sử dung" đại diện cho các cụm từ khóa đã được rút trích từ bảng 3.1

vi dụ như “sứ dung”, “làm”, “thực hiện” được trích xuất từ các bài viết trong

(Luật giao thông đường bộ 2008; Nghị định 100/2019/NĐ-CP; QCVN

41:2019/BGTVT) Mối quan hệ này mô tả việc người tham gia giao thông sử dụng một công cụ cụ thé dé thực hiện các hoạt động của họ (được mô tả trong

bảng 3.2).

29

Trang 32

Bước 2.3: Xây dựng các rules Sau khi đã xây dựng các khái niệm và quan hệ, nghiên cứu cũng thực hiện xây dựng

tập rules Các rules thé hiện mối quan hệ ràng buộc và suy luận giữa các cụm từ khóa và

khái niệm Các rules này được sử dụng dé áp dụng quy tắc suy diễn và tiễn hành suy luận

thông tin từ cấu trúc ontology (C, R) Các luật suy dién trong tập rules-set giúp suy ra các

mối quan hệ trực tiếp hoặc gián tiếp giữa các cụm từ hoặc khái niệm chính, xác định sự

tương đồng ngữ nghĩa giữa chúng.

3.2.2 Xây dựng đồ thị tri thức

Xây dựng biểu đồ tri thức để làm cơ sở tri thức cho hệ thống Giai đoạn này bao gồm bốn bước như sau:

Bước 1: Phân tách và lưu trữ tài liệu pháp lý vào cơ sở dữ liệu

Định nghĩa 3.6: Đoạn văn bản (Documentltem)

Đoạn văn bản (Documentltem) là một thành phan trong một tài liệu được sử dụng

dé biểu diễn một nội dung (Điểm hoặc Khoản mà không chứa các điểm con bên trong) trong tai liệu đó Một đối tượng đoạn văn bản bao gồm hai thuộc tính: Docltemld (định

danh của đoạn văn bản) và Text (nội dung).

h 8— Docltems = [{

—==_- -Doclemid,

E o> Oe text

Nà ——

Văn bản luật Danh sách các đoạn văn bản

Hình 3.3: Mô phỏng quá trình phân tách dữ liệu

Sau khi nhận văn bản luật từ người dùng, dé việc xử lý rút trích và biểu diễn thông tin từ tài liệu dễ dàng hơn nghiên cứu cần tiễn hành Tiền xử lý tài liệu pháp lý đề chuẩn bị cho việc xử lý và phân tích thông tin Quá trình này bao gồm hai bước chính.

Đầu tiên nghiên cứu sẽ xây dựng các bảng quan hệ và sử dụng khóa ngoại để liên

Trang 33

Tiếp theo là phân tách tài liệu thành các đoạn đoạn văn bản như hình 3.3 và tiến

hành lưu trữ vào các bảng đã tạo.

Bước 2: Xây dựng đồ thị tri thức cho các đoạn văn bản

{ key 3

-ID Key1 -> Rel1 -> Key2 [id, ]

- Text CRel2) Key1 -> Rel2 -> Key3 [id, ]

Doan van ban Đồ thi tri thức Danh sach triples

Hình 3.4: Mô phỏng quá trình xây dựng đồ thị tri thức từ đoạn văn ban Bước 2.1: Thực hiện việc trích xuất các nút của đồ thị tri thức băng các cụm từ chính được trích xuất như hình 3.5 sau đây:

-Người

-Môtô

— ens Ủy Rượu - — Khái niém> =

- Text Keyphrase -Diéu khién Người

} -Trong máu có

-Trong hơi thở có

Đoạn văn bản Danh sách cụm từ khóa Các nút của dé thị

Hình 3.5: Ví dụ mô phỏng quá trình trích xuất các nút của đồ thị

- Thực hiện việc trích xuất dua trên các cum từ đã được khai báo trong bảng

KeyPhrase.

- _ Đối với mỗi cum từ đã trích xuất, xác định khái niệm chứa cụm từ này băng cách

sử dụng tập hợp các cụm từ chính trong cột KeyPhrase của bang Concept.

- Truy xuất từ khóa đại diện của mỗi khái niệm.

- _ Đối với những cụm từ không tìm được khái niệm của nó sẽ được giữ nguyên.

- Sau khi chuẩn hóa danh sách các cụm từ, các cụm từ khóa trùng lặp sẽ bị loại bỏ.

Như vậy, có thể xác định các nút trong đồ thị tri thức dua trên các cụm từ chính được

trích xuất từ văn bản đầu vào.

Bước 2.2: Tạo các cung của đồ thị tri thức thông qua các mối quan hệ giữa các nút

- Tw các nút trong đồ thị được trích xuất, tiến hành xác định các mối quan hệ được

khai báo trong bảng Relation bằng cách so khớp các nút trong đồ thị với các giá trị

31

Trang 34

trong các cột ConcKeyS và ConcKeyO (đối với cột ConcKeyO, so khớp một giá tri

trong danh sách đã khai báo).

- _ Xác định các mối quan hệ cụ thể giữa các nút trong đồ thị Đối với mỗi mối quan

hệ, có thể xác định Subject-Relation-Object và vi tri trong tải liệu để diễn đạt tri

thức của cau(id của đoạn văn bản) Quá trình này được mô phỏng tại hình 3.6.

[Nove |

Các nut của đồ thị Đồ thị sau khi xác định cung và nút

—Quan hệ—>

Hình 3.6: Ví dụ mô phỏng quá trình tạo các cung của đồ thị

Ví dụ 3.5: Mối quan hệ (người-sử dụng-ô) giữa hai cụm từ chính "người" và "ô" tại

Điểm h Khoản 4 Điều 6 của Nghị định 100/2019/NĐ-CP được minh họa tại hình 3.7:

na."

Hình 3.7: Minh hoa của bộ ba tri thức liên quan "người-sử dung-6"

Bước 2.3 Rút trích triple tự động từ đoạn văn bản

Đầu tiên sẽ tiến hành phân tích cấu trúc ngữ pháp đoạn văn bản đầu với các hành động phân đoạn từ, gắn thẻ từ loại(POS tag), nhận dạng thực thể từ(NER label) và phân tích cú pháp phụ thuộc(head index) Việc thực hiện phân tích cú pháp sẽ có sự hỗ trợ của

thư viện VnCoreNLP.

Sau khi đã xác định được các thành phan của các từ trong câu nghiên cứu sẽ tiến

hành rút trích ra các từ khóa có nhãn là chủ ngữ, động từ, danh từ, và dựa vào head Index

xác định sự liên kết, phụ thuộc giữa các key phrase, từ đó xây dựng các triple bao gồm subject - relation - object với relation là những cụm động từ trong thê hiện hành động trong đoạn văn, và subject và object là những cụm từ khóa liên kết với động từ thông qua head

Trang 35

Bước 3: Lưu trữ triple vào cơ sở tri thức

Sau khi đã xây dựng danh sách các triples, sẽ tiến hành kiểm tra xem những triples này đã xuất hiện trong cơ sở tri thức hay chưa.

Nếu chưa xuất hiện sẽ lưu chúng vào co sở dir liệu tri thức với giá tri mã định danh

tương ứng của đoạn văn bản đã được gán trước đó Thông tin khi lưu trữ của mỗi triples sẽ

bao gồm các trường thuộc tính Subject, Relation, Object, ListID Với trường thuộc tính

ListID thi sẽ lưu lại các mã định danh của các đoạn văn bản có chứa triple này.

Nếu như trong cơ sở tri thức đã có triple đó rồi thì chỉ cần thêm giá trị mã định danh

của đoạn văn bản đó vào trường thuộc tính ListID cua triple đã có Việc này giúp giảm tải

cho quá trình lưu trữ và tìm kiếm, vì hệ thống không cần lưu lại nhiều bản sao của các triple giống nhau trong cơ sở tri thức như minh họa tại hình 3.8 như sau.

Key1 -> Rel1 -> Key2[id2]

Triple được tạo ra từ đoạn văn bản mới

¬ Key1 -> Rel1 -> Key2[id1, id2, ]

Key1 -> Rel1 -> Key2[id1, ] Cơ sở trí thức

Triple trong cơ sở tri thức

Hình 3.8: Mô phỏng quá trình lưu trữ triples vào cơ sở tri thức

Vi dụ 3.6: Sau khi xử lý đoạn văn bản luật có id là 481 và trong đoạn văn này đã rút

trích ra được 2 triples là người -> điều khiển -> xe máy và người -> sử dụng -> điện thoại Tuy nhiên trong cơ sở tri thức đã lưu trữ triple người -> điều khiến -> xe máy với danh sách các id đã chứa triple này là: ListID = [87, 283] (tức là triple này đã xuất hiện

trước đó tại 2 đoạn văn bản có id là 87 và 283) thì chỉ cần thêm giá trị 481 vào ListID của

triple này trong cơ sở tri thức Còn triple người -> sử dụng -> điện thoại chưa xuất hiện

trong cơ sở tri thức sẽ được lưu mới với listID = [481].

3.2.3 Tối ưu đồ thị tri thức

Tối ưu đồ thị tri thức là quá trình tối ưu hóa đồ thị, giúp giảm độ phức tạp cũng như

độ lớn của độ thi bằng xóa đi những triples vô nghĩa đối với đoạn văn bản chứa nó Cùng với đó sẽ tiễn hành tìm kiếm những triples có ý nghĩa giống nhau dé tiến hành tinh giảm.

33

Trang 36

Bước 1: Tìm kiếm những triples vô nghĩa

Trong quá trình xây dựng các triples đặc biệt là bằng cách rút trích tự động sẽ có nhiều triples có giá trị tf-idf thấp, xuất hiện ở nhiều đoạn văn bản nhưng không có giá trị

quyết định nội dung đặc trưng của đoạn văn bản Thì sẽ được người quản trị hệ thống xóa

đi khỏi đồ thị biểu diễn ý nghĩa của đoạn văn Nếu như có những triples người quản lý thay không nên xuất hiện ở bất kỳ đồ thị nao trong đoạn văn sẽ thực hiện đưa vào danh sách đen thì những triples như vậy sẽ không xuất hiện ở trong đồ thị nữa.

Ví dụ 3.7: Triple “người -> thực hiện -> hành vi” là một triple xuất hiện ở rất nhiều

đoạn văn những không có giá trị quyết định đến nội dung đặc trưng của đoạn văn Vậy nên

triple này sẽ được bỏ đi dé giảm đi độ lớn của đồ thị.

Bước 2: Tối ưu hóa những triples trong đương

Định nghĩa 3.7: Keyphrase đồng nghĩa

Keyphrase đồng nghĩa là những cụm từ có nghĩa tương đương hoặc gần giống nhau.

- Dé kiểm tra xem hai keyphrases có đồng nghĩa với nhau hay không, nghiên cứu

thực hiện hai bước như sau Nếu bước | trả về kết quả là đồng nghĩa thì không cần

thực hiện bước 2.

o Bước 2.1: Kiểm tra xem hai keyphrases có thuộc cùng một trường giá tri

trong từ điển đồng nghĩa LDOCE phiên bản Tiếng Việt hay không Nếu có hai keyphrases đó sẽ được xem là đồng nghĩa.

o_ Bước 2.2: Nếu hai keyphrases không cùng thuộc vào bat kỳ trường giá trị

nào trong từ điển đồng nghĩa, giải thuật sẽ sử dụng Phobert dé chuyền đổi hai keyphrases thành vector và tính độ đo cosine similarity để xác định sự tương đồng về mặt ngữ nghĩa Nếu độ tương đương lớn hơn hoặc bằng 0.6,

sẽ xem hai keyphrases là đồng nghĩa với nhau.

Định nghĩa 3.8: Triples trong đương

Triples tương đương là những cụm ba từ được xem là tương đương khi so khớp từng

Trang 37

chủ ngữ, quan hệ và tân ngữ giá trị đều phải trùng nhau hoặc đồng nghĩa Nếu như

có một trong ba thành phần không có giá trị đồng nghĩa, việc so sánh sẽ dừng lại và

2 triples sẽ không được xem là tương đương.

Nếu như trong cùng một đồ thị mô tả về ý nghĩa của đoạn văn bản mà có những

triples có nội dung tương đương sẽ tiến hành lược bỏ dé giảm đi độ lớn cũng như độ công kénh của đồ thị.

Ví dụ 3.8: 2 triples “người-lái-mô tô” và “người-điều khién-xe máy” được xem là 2

triples tương đương nhau về mặt nội dung Nên bước này sẽ lược bỏ di triple

“người-lái-mô tô” dé giảm đi độ lớn của đồ thị.

3.3 Xây dựng mô hình hỗ trợ biểu diễn tri thức từ văn bản luật

Với phương pháp tô chức và mô hình biéu diễn tri thức được thiết kế trong nội dung trước, nghiên cứu đã tiến hành xây dựng một mô hình hỗ trợ tô chức cơ sở tri thức từ các

văn bản luật được người dùng nhập vảo, với cấu trúc được xác định trước (bao gồm chương,

mục, điều, khoản, điểm) được trích xuất từ các N ghi định Chính phủ và Thông tư của Bộ trưởng, như đã đề cập trước đó.

Mô hình này sẽ sử dụng tài liệu pháp luật do người dùng nhập vào làm đầu vào và trả

ra đồ thị tri thức biểu diễn ý nghĩa của tài liệu đó Các chức năng chính của mô hình bao gồm:

- StoreLegalDocsDB: Chức năng này phân tích tài liệu nhập vào thành các mục biêu

diễn ý nghĩa của chương, điều, khoản và điểm trong văn bản luật, sau đó lưu trữ chúng vào cơ sở dữ liệu Các bước chi tiết để thực hiện chức năng này được mô tả tai Bước 1 mục 3.3.2 phan 3.3 chương này.

- Generate graph: Chức năng này thực hiện biéu diễn tài liệu pháp lý thành đồ thị

tri thức, thể hiện ý nghĩa của văn bản Tại bước này, tiễn hành trích xuất các nút trên

đồ thị và xác định các cung của nó một cách tự động Quá trình xác định và trích xuất sẽ được thực hiện dựa trên mô hình Rela-model và sự hỗ trợ của thư viện

VNCoreNLP Các bước chi tiết dé thực hiện chức năng này được mô tả tại Bước 2 mục 3.3.2 phần 3.3 chương này.

35

Trang 38

- Graph optimization: Chức năng này tối ưu hóa đồ thị bang cách giảm độ phức tạp

Graph optimization

StoreLegalDocsDB

Legal documents - Docltemld,

- Text

el PhoBERT LDOCE Thesaurus

Transformers Vietnamese version

N Knowledge Representation Model yy

Hình 3.9: Kiến trúc của mô hình hỗ trợ biểu diễn tri thức từ văn ban luật Với việc thiết kế và triển khai mô hình, nghiên cứu đã tạo ra một công cụ hữu ích cho việc tô chức và trích xuất tri thức từ các tài liệu pháp lý Các bước xử lý từ việc phân tích tài liệu, xây dựng đồ thị tri thức và tối ưu hóa đồ thị được thực hiện một cách bán tự động giúp tiết kiệm thời gian và công sức cho người sử dụng Vai trò của người quản lý tri thức là phải kiểm tra và cập nhật thường xuyên đồ thị tri thức dé đảm bao tính chính xác

và độ tin cậy khi lưu vào cơ sở tri thức của hệ thông.

Trang 39

Chương 4: MÔ HÌNH TRUY VAN KIÊN THỨC TREN VĂN BẢN

4.1 Thu thập và phân tích yêu cầu truy van từ câu hỏi thực tế

Dé có một hệ thống trả lời chính xác các câu hỏi từ người dùng, nghiên cứu cần thu thập các câu hỏi thực tế được đưa ra bởi người tham gia giao thông Sau đó, nghiên cứu sẽ tiến hành phân tích ngữ nghĩa của các câu hỏi đó dé xác định yêu cầu truy van trên cơ sở tri thức Việc phân tích ngữ nghĩa có thể được thực hiện bằng các phương pháp khác nhau,

bao gồm sử dụng các công cụ xử lý ngôn ngữ tự nhiên (NLP) để rút trích các từ khóa, quan

hệ và thông tin liên quan trong câu hỏi, hoặc sử dụng các kỹ thuật máy học dé phan loai va phân tích câu hỏi Nhờ đó, nghiên cứu có thê đánh giá chính xác đặc điểm của các câu hỏi

và đưa ra giải pháp cụ thê đề trả lời chính xác các câu hỏi từ người dùng.

4.2 Xác định bài toán cần giải quyết

Sau khi đã sử dụng mô hình Rela-Model dé tổ chức và biểu diễn tri thức cho miền tri thức K, hệ thống cần xác định các vấn dé cần giải quyết dé trả lời chính xác các câu hỏi

của người dùng Dé đưa ra câu trả lời chính xác, hệ thống cần hiểu mong muốn của người

dùng thông qua câu truy van Dé làm điều này, câu truy vấn cần được phân loại và xác định

ngữ nghĩa của nó, giúp hệ thống hiểu rõ yêu cầu của người dùng Khi đã xác định được ngữ nghĩa của câu hỏi, hệ thống sẽ tìm kiếm và so khớp với các thông tin đã được biểu diễn trong cơ sở tri thức để đưa ra câu trả lời chính xác cho người dùng Cụ thể, hai bài toán cần giải quyết bao gồm:

37

Trang 40

- Bài toán 1: Phân loại và xác định ngữ nghĩa của câu truy vấn: Hệ thống sẽ xác định

loại câu hỏi và truy xuất thông tin về ý nghĩa, ngữ nghĩa của câu truy vấn đề hiểu rõ

yêu cầu của người ding.

- Bài toán 2: Tìm kiếm tri thức phù hop: Dựa trên ngữ nghĩa của câu truy van, hệ

thống sẽ tìm kiếm và so khớp với các thông tin đã được biéu diễn trong cơ sở tri thức K, dé đưa ra câu trả lời cho người dùng.

Đây là hai bài toán quan trọng cần giải quyết đề trả lời câu hỏi của người dùng trong

hệ thống truy vấn kiến thức dé dé hệ thống có có khả năng cung cấp các câu trả lời chính

xác và phù hợp với yêu câu của người dùng.

4.3 Thiết kế giải thuật truy van trên cơ sở tri thức

Đây là quá trình tim ra cau trả lời băng các bước biéu diễn câu truy vấn thành đồ thị tri thức, sau đó sẽ tiền hành tìm kiếm và so khớp đồ thị tri thức của câu truy vấn với phần

đồ thị con bên trong cơ sở tri thức đề đưa ra câu trả lời.

Giải thuật 1: Phân loại và xác định ngữ nghĩa của câu truy vấn:

Input: Truy vấn Q

Output:

- Loại câu hỏi

- D6 thị tri thức biểu diễn ngữ nghĩa của câu hỏi

Ngày đăng: 08/11/2024, 17:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w