Tập dữ liệu chúng tơi sử dụng để xác thực tính đúng đắn của phương pháp gồm 383 văn bản và 766 quan hệ giữa chúng được biểu diễn như đã mơ tả. Sau q trình suy luận, hệ thống trả lại những văn bản có hiệu lực tại một mốc thời gian ấn định trước. Dựa trên kết quả trả về của hệ thống, các phép đo như độ chính xác, độ
hồi tưởng, độ đo F1 được tính để làm cơ sở phân tích và chứng minh tính đúng đắn của phương pháp.
Về nguồn dữ liệu, trong quá trình tiến hành thực nghiệm, chúng tôi nhận thấy có 3 trang web cung cấp dữ liệu về các văn bản luật có độ tin cậy cao:
- Cơ sở dữ liệu quốc gia về văn bản pháp luật (http://vbpl.vn/pages/portal.aspx): Cơ sở dữ liệu quốc gia về pháp luật được xây dựng thực hiện Nghị quyết 48-NQ/TW ngày 24/05/2005 của Bộ Chính trị về Chiến lược xây dựng và hoàn thiện hệ thống pháp luật Việt Nam đến năm 2010, định hướng đến năm 2020.
- Hệ thống văn bản pháp luật của Bộ Tư pháp (http://moj.gov.vn/vbpq): Trang web chính thống được xây dựng bởi Cục Cơng nghệ thông tin, Bộ Tư pháp cung cấp dữ liệu về các văn bản pháp luật.
- Trang thông tin Thư viện pháp luật (https://thuvienphapluat.vn/): Trang web cung cấp thông tin về các văn bản pháp luật của công ty cổ phần LawSoft với mục đích thương mại.
Đối với nội dung của các văn bản, cả 3 trang web đều cung cấp một cách chính xác, mặc dù vậy chúng có cách bố trí thơng tin khác nhau, phù hợp với từng nhu cầu trích xuất thơng tin cụ thể vì thế chúng tơi kết hợp sử dụng cả 3 trang web này. Trang thơng tin Thư viện pháp luật có tốc độ truy cập tốt, các văn bản đã được gõ lại theo định dạng text, điều này giúp chúng tôi dễ dàng lấy và lưu được nội dung đầy đủ của các văn bản. Hệ thống văn bản pháp luật của Bộ Tư pháp có thiết kế trực quan, dễ dàng bóc tách các quan hệ giữa các văn bản pháp luật. Cơ sở dữ liệu quốc gia về văn bản pháp luật chứa thơng tin về ngày có hiệu lực và hết hiệu lực, đây là những thông tin quan trọng sử dụng trong việc xác thực tính đúng đắn của phương pháp. Thống kê dữ liệu theo loại văn bản và năm ban hành được sử dụng để kiểm thử được thể hiện trong Bảng 4.1 và Bảng 4.2.
Bảng 4.1. Thống kê dữ liệu theo loại văn bản Loại văn bản Số lượng Phần trăm Loại văn bản Số lượng Phần trăm
Nghị định 123 32.11%
Luật 70 18.28%
Thông tư liên tịch 42 10.97%
Nghị quyết 47 12.27% Công văn 6 1.57% Pháp lệnh 23 6.01% Lệnh 1 0.26% Quyết định 6 1.57% Chỉ thị 1 0.26% Quy định 1 0.26%
Bảng 4.2. Thống kê dữ liệu theo năm ban hành Năm Số lượng Phần Năm Số lượng Phần
trăm Năm Số lượng Phần trăm
1982 1 0.26% 2003 18 4.70% 1985 1 0.26% 2004 6 1.57% 1988 1 0.26% 2005 20 5.22% 1990 3 0.78% 2006 33 8.62% 1992 1 0.26% 2007 20 5.22% 1993 2 0.52% 2008 21 5.48% 1994 4 1.04% 2009 28 7.31% 1995 1 0.26% 2010 17 4.44% 1996 4 1.04% 2011 17 4.44% 1997 3 0.78% 2012 36 9.40% 1998 4 1.04% 2013 27 7.05% 1999 8 2.09% 2014 21 5.48% 2000 14 3.66% 2015 16 4.18% 2001 18 4.70% 2016 15 3.92% 2002 20 5.22% 2017 3 0.78%
4.2. Kết quả thực nghiệm và phân tích
Để xác minh tính chính xác của phương pháp, sau khi biểu diễn dữ liệu thu thập được với mơ hình tri thức đã trình bày, chúng tơi tiến hành truy vấn để có được tập hợp các văn bản đang có hiệu lực trong các mốc thời gian cụ thể sau đó thống kê lại. Thơng tin ngày có hiệu lực, hết hiệu lực được lấy từ Cơ sở dữ liệu quốc gia về văn bản pháp luật (http://vbpl.vn/pages/portal.aspx) để làm dữ liệu đối chứng. Kết quả thực nghiệm với từng mốc thời gian được thể hiện trong Bảng 4.3.
Bảng 4.3. Kết quả thực nghiệm Mốc thời Mốc thời gian Số văn bản có hiệu lực (theo CSDLQG) Số văn bản có hiệu lực (theo hệ tri thức) Độ chính xác Độ hồi tưởng Độ đo F1 1/1/1995 12 12 100.00% 100.00% 100.00% 1/1/2000 33 32 100.00% 96.97% 98.46% 1/1/2005 99 102 93.14% 95.96% 94.53% 1/1/2010 203 210 92.86% 96.06% 94.43% 1/1/2017 251 260 92.31% 95.62% 93.93%
Từ kết quả thực nghiệm thể hiện trong Bảng 4.3, chúng ta có thể thấy độ chính xác và độ đo F1 của thực nghiệm cao nhất vào mốc thời gian 1/1/1995 và 1/1/2000, giảm dần trong các năm tiếp theo. Độ hồi tưởng của phương pháp đạt 100% tại các mốc 1/1/1995, con số này đạt khoảng 96% đến 97% tại các mốc thời gian còn lại.
Hệ tri thức trùng khớp với thông tin mà cơ sở dữ liệu quốc gia về văn bản pháp luật cung cấp tại mốc thời gian kiểm thử 1/1/1995. Nguyên nhân của kết quả này là do các văn bản trong cơ sở dữ liệu mà chúng tôi thu thập được ban hành trước mốc thời gian này khơng nhiều và tất cả đều có thời điểm hết hiệu lực đến sau ngày 1/1/1995. Mặc dù là kết quả tuyệt đối nhưng độ chính xác 100% và độ hồi
tưởng 100% không cho ta nhiều thơng tin hữu ích trong việc đánh giá điểm mạnh, điểm yếu của phương pháp được đề xuất.
Tại mốc thời gian 1/1/2000, thông tin của cơ sở dữ liệu quốc gia cho ta biết có 33 văn bản có hiệu lực tại mốc thời gian này, trong khi đó hệ tri thức đưa ra kết quả là 32. Khảo sát kỹ kết quả này, chúng tôi phát hiện ra văn bản mà hệ tri thức đã trả lại kết quả khác với thông tin của cơ sở dữ liệu quốc gia là văn bản 117/CP ngày 7/9/1994 về án phí, lệ phí. Nguyên nhân của việc này là do cơ sở dữ liệu quốc gia về văn bản pháp luật (http://vbpl.vn/pages/portal.aspx) khơng có dữ liệu về văn bản này nên khơng có thơng tin về ngày hết hiệu lực.
Tại các mốc thời gian 1/1/2005, 1/1/2010 và 1/1/2017, ta có thể thấy kết quả mà hệ tri thức trả lại có độ sai lệch lớn hơn so với mốc thời gian trước, cụ thể là độ đo F1 chỉ đạt lần lượt 94.53%, 94.43%, 93.93%. Sau khi khảo sát kỹ các trường hợp sai lệch giữa hai nguồn kết quả, chúng tơi tìm ra được một số nguyên nhân chính.
Thứ nhất, cơ sở dữ liệu quốc gia về văn bản pháp luật chỉ là một trong ba nguồn mà chúng tôi sử dụng để thu thập dữ liệu, một số văn bản không tồn tại trong cơ sở dữ liệu quốc gia nên khơng có thơng tin về ngày hết hiệu lực. Ngược lại, hệ tri thức của chúng tôi sử dụng cơ chế suy diễn để xác định tính có hiệu lực của văn bản tại mốc thời gian cụ thể và khơng dùng tới thuộc tính ngày hết hiệu lực. Sự khác biệt về kết quả giữa hai nguồn cho thấy khả năng mà hệ thống của chúng tôi có thể bổ sung những thiếu sót của cơ sở dữ liệu quốc gia về văn bản pháp luật.
Thứ hai, hệ tri thức của chúng tơi trả lại kết quả khơng chính xác khi thiếu thơng tin về văn bản hoặc các quan hệ giữa chúng. Như vậy có thể thấy để hệ thống tri thức có thể hoạt động chính xác thì pha lấy thơng tin là rất quan trọng. Chúng tôi kỳ vọng sẽ có một cơ chế phù hợp để lấy và xác thực thơng tin nhanh chóng và chính xác trong các nghiên cứu tiếp theo.
Thứ ba, một số trường hợp sai lệch giữa hệ tri thức của chúng tôi và cơ sở dữ liệu quốc gia về văn bản pháp luật góp phần chứng minh điểm mạnh của phương pháp khi áp dụng suy diễn tự động so với việc thủ công nhập liệu bằng tay. Ví dụ, trong số các luật sinh mà chúng tơi sử dụng trong hệ tri thức, có một luật như sau: “Nếu văn bản A hướng dẫn chi tiết văn bản B” và “Văn bản B hết hiệu lực” thì “Văn bản A hết hiệu lực”. Do đó, theo hệ tri thức thì văn bản 01/2000/NQ-HĐTP
Hướng dẫn áp dụng một số quy định trong phần chung của Bộ luật Hình sự năm 1999 khơng có hiệu lực tại thời điểm 1/1/2017, đây là kết quả chính xác hơn kết quả của cơ sở dữ liệu quốc gia về văn bản pháp luật (Hình 4.2).