Các dữ liệu dùng để thực nghiệm được thu thập từ hai trang web là http://vnexpress.net/tin-tuc/phap-luat và http://baophapluat.vn/xa-lo-phap-luat/đây là hai trang web cĩ số lượng tin bài lớn, cập nhật thường xuyên và cĩ uy tín. Cơng cụ tác giả sử dụng để lấy tin là Teleport Pro. Sau khi sử dụng phần mềm Teleport Pro để lấy
tin, các bài báo sẽ được lưu ở dạng file .html, các file .html cần được tổ chức lại dưới dạng dữ liệu text. Dữ liệu text là các file .text, nội dung các file này gồm hai trường,
trường thứ nhất lưu nội dụng các bài báo, trường thứ hai là nhãn, các nhãn tương ứng với từng nội dung bài báo.
Tập dữ liệu text được chia làm hai, tập dữ liệu thứ nhất liên quan đến miền phạm tội gồm 500 bài, và tập dữ liệu thứ hai khơng liên quan đến miền tội phạm gồm 200 bài. Tất cả đều được gán nhãn bằng tay. Các tập dữ liệu này lại được chia thành hai tập con là tập dữ liệu training và tập dữ liệu test theo tỉ lệ 70/30, tùy vào mỗi pha và mỗi giai đoạn trong quá trình thực hiện phân lớp. Luận văn đi vào thử nghiệm hai mơ hình, bao gồm:
42
Mơ hình 1:Chia làm hai giai đoạn gồm giai đoạn phát hiện và giai đoạn phân
lớp. Ở mơ hình này, đối với giai đoạn phát hiện, tập dữ liệu chỉ được gán hai nhãn là 0 và 1 tương đương với nhãn 0 là bài báo khơng liên quan, và nhãn 1 là bài báo thuộc miền dữ liệu đang xét. Đối với giai phân lớp, lúc này dữ liệu chỉ cịn tồn bộ các bài báo thuộc miền đang xét, do vậy tập dữ liệu sẽ được gán nhãn từ 1 đến 6 tương đương với các tội danh giết người, cướp giật, lừa đảo, ma túy, mại dâm, trộm cắp.
Mơ hình 2:Phân lớp trực tiếp. Ở mơ hình này, khi phân lớp trực tiếp, sẽ cĩ
thêm dữ liệu của miền khơng liên quan, do vậy tập dữ liệu được gán thêm nhãn 0 cho các bài báo thuộc vào miền khơng liên quan. Như vậy tổng số nhãn được gán gồm từ 0 đến 6, tương đương 6 tội danh như trên và nhãn 0 là dành cho
(miền) Khác.
Hai giai đoạn của mơ hình 1 và mơ hình 2 sẽ cho ra tổng cộng 3 kết quả với mỗi lần thực nghiệm. Ngồi ra tác giả cĩ 2 lần chạy thử nghiệm thực tế khác nhau, một lần dữ liệu đầu vào của các bài báo tác giả chỉ gồm mình phần tĩm tắt (abstract) và một lần dữ liệu đầu vào của các bài báo, tác giả đưa tồn bộ nội dung (content). Do vậy chúng ta sẽ cĩ tổng cộng 6 kết quả thực nghiệm.
Tác giả sử dụng độ đo chính xác A(Accuracy) để đánh giá hiệu quả của bộ phân lớp, được tính bằng cơng thức:
Độ chính xác (A) = ∑ ườ ợ â ớ í á
∑ à ệ
Trong đĩ:
- Tổng số trường hợp phân lớp chính xác là số bài báo được bộ phân lớp đúng
với nhãn đã được gán từ trước.
- Tlà số bài báo đ là ts bài báo được bộ phân lớp đúng với nhãn
Các cơng cụ và phần mềm tác giả sử dụng trong quá trình xây dựng dữ liệu và thực nghiệm được trình bày trong bảng sau:
43
STT Tên phần mềm Tác giả Thơng tin phần mềm
1 Eclipse IDE for
Java Developers - Luna SR 2 (4.4.2)
ApacheSoftware Foundation
http://eclipse.org/eclipse
2 JVnTextPro-v.2.1 Cam-Tu Nguyen http://jvntextpro.sourceforge.net
3 Module
classification
Minh – Tien Nguyen
Nguyễn Minh Tiến (2014), Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến, Luận văn thạc sĩ Cơng nghệ
Thơng tin, Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội
4 maxent-2.5.2 Mã nguồn mở,
phân phối bởi Apache
http://opennlp.sourceforge.net/maven2/ opennlp/maxent/2.5.2/
5 opennlp-tools-1.4.3 Mã nguồn mở http://sourceforge.net/projects/opennlp/
files/OpenNLP%20Tools/1.4.3/ 6 vn.hus.nlp.utils -1.0.0 Mã nguồn mở https://code.google.com/p/vntagger- gate-plugin/source/browse/lib/vn.hus .nlp.utils1.0.0.jar?r=85418c90bafeec89 da9203f9a7f10338d2cff40c
7 vn.hus.nlp.sd-2.0.0 Mã nguồn mở https://code.google.com/p/vntagger-gate
plugin/source/browse/lib/vn.hus.nlp.sd2. 0.0.jar?r=7af0fda73f97b7f9fd50a3793 79b84b8404989c2 8 vn.hus.nlp.tokenizer- 4.1.1 Mã nguồn mở https://code.google.com/p/vntagger-gate plugin/source/browse/lib/vn.hus.nlp. tokenizer4.1.1.jar?r=85418c90bafeec89d a9203f9a7f10338d2cff40c
44
9 vn.hus.nlp.fsm-1.0.0 Mã nguồn mở https://code.google.com/p/vntagger-
gateplugin/source/browse/lib/vn.hus.nlp. fsm1.0.0.jar?r=85418c90bafeec89da920 3f9a7f10338d2cff40c
Bảng 1: Các cơng cụ và phần mềm