Nhƣ phân tích ở trên, trong hồ sơ vụ án sẽ chứa rất nhiều thơng tin hữu ích. Trong khuơn khổ luận văn này, tác giả tập trung vào việc xác định những thực thể quan tâm cĩ trong hồ sơ. Việc xác định các thực thể này là tạo cơ sở cho các bài tốn hay yêu cầu cao hơn nhƣ hệ thớng trả lời tự động, thớng kê, dự báo… Bài tốn mà luận văn sẽ giải quyết đƣợc phát biểu đơn giản nhƣ sau:
Đầu vào: Các hồ sơ vụ án.
Yêu cầu: Xác định các thực thể cĩ trong hồ sơ.
Tuy nhiên, do yêu cầu chính trị và yêu cầu nghiệp vụ, các hồ sơ vụ án là các tài liệu mật, khơng đƣợc sử dụng rộng rãi. Vì lý do đĩ, nên trong khuơn khổ luận văn này tơi khơng sử dụng hồ sơ vụ án làm dữ liệu, thay vào đĩ tơi sử dụng các bài báo là các phĩng sự điều tra, ghi chép về các vụ án đƣợc đăng tải cơng khai trên website chính thức của Bộ Cơng an là http://www.cand.com.vn.
3.2. Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật tiếng Việt luật tiếng Việt
3.2.1. Một sớ phân tích
Bài tốn gán nhãn tên thực thể này bản chất là gán nhãn tên thực thể cho mỗi từ sau khi đƣợc phân tách. Các loại thực thể đƣợc xác định trong luận văn dựa theo các thực thể trong tác vụ CoNLL2003 bao gồm: LOC (Location), PER (Person), ORG (Organization) và MISC (Miscellaneous). Do đĩ, các nhãn thực thể đƣợc sử dụng ở đây là:
- B-TYPE: nhãn đánh dấu từ bắt đầu của nhãn NER
- I-TYPE: nhãn đánh dấu cho từ tiếp theo trong nhãn NER
- O: nhãn đánh dấu cho từ khơng thuộc nhĩm thực thể nào. (nhãn TYPE sẽ thuộc vào một trong bớn loại thực thể trên) Ví dụ: Thủy_thủ O Nguyễn_Ngọc_Hới B-PER xã B-LOC Quảng_Phúc I-LOC , O Quảng_Trạch B-LOC từng O là O bộ_đội O đi O chiến_trƣờng O B B-MISC năm O 1968 O . O
Để nâng cao kết quả, ngƣời ta đƣa thêm đặc trƣng từ loại nên với mỗi từ đƣợc gán thêm nhãn từ loại POS (Part of Speech). Do đĩ tập dữ liệu huấn luyện - training và dữ liệu kiểm tra – testing phải đƣợc xây dựng theo cùng định dạng: Mỗi từ nằm trên một dịng; Một dịng trớng đƣợc thêm vào sau mỗi dấu kết thúc câu; Mỗi dịng (token) bao gồm các thành phần:
<Từ hiện tại> <nhãn từ loại POS> <nhãn thực thể NER>. 3.2.2. Mơ hình đề nghị
Từ những phân tích trên đây, tác giả đề xuất xây dựng mơ hình các bƣớc trong quá trình nhận dạng thực thể nhƣ sau:
Hình 3/4. Mơ hình đề xuất giải quyết bài tốn Giai đoạn 1. Các bước tiền xử lý dữ liệu Mơ hình CRFs
Dữ liệu kiểm tra
Kết quả đánh giá mơ hình
Mơ hình CRFs với GEC
(được hiệu chỉnh sau mỗi bước)
Dữ liệu cĩ nhãn và dữ liệu khơng cĩ nhãn
(cập nhật sau mỗi bước học)
S Kết thúc học ? Đ Giai đoạn 2. Hoc bán giám sát CRFs voi GEC
Tập các văn bản đầu vào chứa các đoạn văn
Tập dữ liệu ra với định dạng <từ> <pos><ner>
Module tách từ Tiếng Việt
Gán nhãn POS
Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bƣớc tiền xử lý tự bán tự động đĩ là tách từ, gán nhãn từ loại POS (Part Of Speech), gán nhãn thực thể NER (Named Entities Recognition).
Bƣớc 1: Sử dụng phần mềm tách từ tự động JvnSegmenter của NCS Nguyễn Cẩm Tú tại trang web http://jvnsegmenter.sourceforge.net . Đây là phần mềm tách từ tự động dựa trên phƣơng pháp trƣờng điều kiện ngẫu nhiên CRFs [1], phƣơng pháp này chứng tỏ hiệu lực tớt trong nhiều bài tốn xử lý văn bản, đặc biệt là các bài tốn trích chọn thơng tin trên Web. Sau bƣớc này ta thu đƣợc tập dữ liệu gồm mỗi từ nằm trên một dịng. Và giữa mỗi câu cĩ một dịng trớng.
Bƣớc 2: Tiến hành gán nhãn POS cho mỗi từ. Việc gán nhãn POS tơi cĩ sử dụng tool vnTagger của tác giả Lê Hồng Phƣơng tại trang web
http://www.loria.fr/~lehong/tools/vnTagger.php . Đây là phần mềm gán nhãn từ loại POS cho tiếng Việt cĩ độ chính xác cao (khoảng 95%), phần mềm đƣợc viết dựa trên phƣơng pháp maximum entropy. Sau đĩ tiến hành kiểm tra nhãn POS lại một cách thủ cơng.
Bƣớc 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ cơng. Sau bƣớc này sẽ thu đƣợc tập dữ liệu với định dạng mong muớn.
Giai đoạn 2: Tiến hành nhận dạng tên thực thể bằng Mallet Tool.
Mallet là bộ cơng cụ đƣợc xây dựng bởi Andrew McCallum và đồng nghiệp năm 2002 và ngày càng đƣợc cải tiến và nâng cấp phiên bản. Đây là một bộ cơng cụ với nhiều chức năng xử lý ngơn ngữ tự nhiên nhƣ: Phân lớp, phân cụm, triết lọc thơng tin và những ứng dụng học máy khác. Bộ cơng cụ này đƣợc cơng bớ rộng rãi tại website http://mallet.cs.umass.edu/. Trong đĩ, Andrew McCallum và đồng nghiệp xây dựng rất nhiều cơng cụ gán nhãn dữ liệu cho những ứng dụng nhƣ trích chọn tên thực thể. Những thuật tốn gán nhãn bao gồm: mơ hình Markov ẩn, mơ hình Markov entropy cực đại và mơ hình trƣờng điều kiện ngẫu nhiên CRFs. Nhĩm phát triển Mallet xây dựng nhiều phƣơng pháp học máy nhƣ học bán giám sát và học cĩ giám sát. Trên cơ sở đĩ, tác giả đã phát triển thành cơng cụ gán nhãn cho tiếng Việt dựa trên phƣơng pháp học bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát.
Nhƣ phân tích ở 2.2, mơ hình học bán giám sát CRFs này sử dụng tiêu chuẩn kỳ vọng tổng quát, tác giả tiến hành xây dựng ràng buộc (Constraint) thể hiện mới quan hệ giữa từ và nhãn. Định dạng tổng quát của tập ràng buộc Constraint đƣợc xác định nhƣ sau:
Sớ xác suất (probability) phải bằng với sớ nhãn. Các đặc trƣng và tên nhãn phải khớp chính xác với các đặc trƣng và tên nhãn trong dữ liệu và bảng mẫu tự đích (target alphabets).
Do đĩ để xây dựng tập Constraint, cĩ thể làm theo hai cách:
Cách 1: xây dựng thủ cơng, lựa chọn những đặc trƣng và xác định xác suất cĩ thể cho mỗi đặc trƣng theo từng nhãn. Việc ƣớc lƣợng những xác suất này dựa trên kinh nghiệm chủ quan của ngƣời thực hiện.
Cách 2: xây dựng tập Constraint dựa theo phƣơng pháp LDA (Latent Dirichlet allocation). LDA [BNJ03] là mơ hình xác suất sinh cho những tập dữ liệu rời rạc, cho phép xác định tập dữ liệu quan sát dựa trên tập dữ liệu khơng quan sát dựa trên tính tƣơng đồng. Từ đĩ, cho phép xác định xác suất một từ, một đặc trƣng cĩ mặt trong các chủ đề là các nhĩm thực thể cho trƣớc.
Trong khuơn khổ luận văn, tác giả tiến hành xây dựng tập ràng buộc Constraint theo cả 2 phƣơng pháp. Tiến hành xây dựng một tập các đặc trƣng là các từ thƣờng xuất hiện trong các tài liệu điều tra chia theo các nhĩm thực thể. Sử dụng phƣơng pháp LDA để xác định ràng buộc về xác suất thuộc về các nhĩm thực thể khác nhau. Sau đĩ tác giả tiến hành kiểm tra, chỉnh sửa các ràng buộc một cách thủ cơng nhằm xây dựng đƣợc một tập ràng buộc Constraint tớt nhất.
Do thời gian và kinh nghiệm cĩ hạn, nên tập ràng buộc đƣợc xây dựng theo chủ quan và kiến thức nghiên cứu đƣợc của tác giả cĩ thể chƣa hồn thiện và sẽ ảnh hƣởng phần nào đến kết quả mơ hình.
3.2.3. Lựa chọn thuộc tính
Các thuộc tính đƣợc chọn theo mẫu ngữ cảnh từ vựng (kích thƣớc cửa sổ trƣợt bằng 5):
Mẫu ngữ cảnh Ý nghĩa
S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại
S-1 Âm tiết quan sát tại vị trí liền trƣớc so với vị trí hiện tại S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S-1S0 Âm tiết quan sát tại vị trí liền trƣớc và vị trí hiện tại S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trƣớc
S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau
S-1S0S1 Âm tiết quan sát tại vị trí liền trƣớc, hiện tại và liền sau S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trƣớc và hiện tại
S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại
Bảng 1. Mẫu ngữ cảnh từ vựng
Các tên thực thể thƣờng đƣợc viết hoa ký tự đầu tiên, vì thế ta cĩ thể thêm thuộc tính viết hoa vào mơ hình. Nếu tất cả các ký tự đều viết hoa thì khả năng đĩ là tên viết tắt của tổ chức. Đơi khi tên thực thể cĩ thể đi cùng với các ký tự sớ. Việc lựa chọn thuộc tính cịn đƣợc dựa trên ngữ cảnh phát hiện tên thực thể:
Mẫu ngữ cảnh Ý nghĩa
InitialCap Viết hoa chữ cái đầu
AllCaps Viết hoa tất cả các chữ cái
CapsMix Chữ cái thƣờng và hoa lẫn lộn
SingleDigit Sớ 1 chữ sớ
HasDigit Cĩ chứa sớ
DoubleDigits Sớ 2 chữ sớ
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể
3.2.4. Cách đánh giá
Cĩ nhiều cách đánh giá độ chính xác của mơ hình, nhƣng cách phổ biến nhất hiện nay là sử dụng các độ đo nhƣ độ chính xác (precision), độ hồi tƣởng (recall) và độ đo F1. Độ đo F1 là một chỉ sớ cân bằng giữa độ chính xác và độ
hồi tƣởng. Nếu độ chính xác và độ hồi tƣởng cao và cân bằng thì độ đo F1 lớn, cịn độ chính xác và hồi tƣởng nhỏ và khơng cân bằng thì độ đo F1 nhỏ. Mục tiêu của ta là xây dựng mơ hình phân đoạn từ cĩ chỉ sớ F1 cao.
Độ đo dựa theo từ đƣợc tính theo các cơng thức sau:
(3.1) (3.2) (3.3) Trong đĩ: a là sớ thực thể gán đúng b là sớ thực thể mơ hình gán c là sớ thực thể do ngƣời gán 3.3. Kết luận chƣơng 3
Chƣơng 3 tập trung phân tích bài tốn trích chọn thơng tin trên tập văn bản pháp luật trên cơ sở phân tích các đặc trƣng miền dữ liệu. Từ đĩ đề xuất mơ hình giải quyết bài tốn bao gồm 2 giai đoạn: Giai đoạn 1 là tiền xử lý dữ liệu và Giai đoạn 2 là đƣa tập dữ liệu và các ràng buộc tự thiết lập vào huấn luyện mơ hình theo tiêu chuẩn kỳ vọng tổng quát.
b a ecision Pr c a call Re call ecision call ecision measure F Re (Pr Re * Pr * 2
CHƢƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Mơ hình thực nghiệm
4.1.1. Dữ liệu thực nghiệm
Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên dữ liệu thực nghiệm đƣợc thu thập từ trang web http://www.cand.com.vn. Trang web này chứa nhiều thơng tin pháp luật về những vụ án, những tình tiết sự việc vi phạm pháp luật đƣợc cơng khai, khá gần với tài liệu hồ sơ vụ án cần khai thác. Tiến hành thu thập hơn 400 bài viết điều tra, ghi chép các vụ án về an ninh trật tự, an ninh kinh tế…
Sau khi tiến hành bƣớc tiền xử lý thu đƣợc tập dữ liệu huấn luyện training với hơn 50.000 dịng và tập dữ liệu kiểm tra testing với hơn 30000 dịng.
Tác giả đã xây dựng một tập constraint với hơn 800 ràng buộc về xác suất cĩ thể cĩ của
4.1.2. Bộ cơng cụ Mallet
Tác giả sử dụng bộ cơng cụ Mallet 2.0.6 phiên bản mới nhất. Dữ liệu đầu vào cho cơng cụ bao gồm:
- File huấn luyện (training).
- File constraint
- File kiểm tra (testing)
4.2. Thực nghiệm và đánh giá 4.2.1. Mơi trƣờng thực nghiệm 4.2.1. Mơi trƣờng thực nghiệm
Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB
Phần mềm: Sử dụng tool Mallet đƣợc viết bởi Andrew McCallum và đồng nghiệp. Ngồi ra cịn sử dụng các cơng cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ.
4.2.2. Mơ tả quy trình thực nghiệm
Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hƣởng của tập dữ liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện lớn (hơn 50.000 dịng) thành các tập huấn luyện nhƣ sau:
- Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn luyện gớc.
- Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn luyện gớc.
- Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn luyện gớc.
- Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn luyện gớc.
- Tập dữ liệu huấn luyện 100%: Lấy tồn bộ tập dữ liệu huấn luyện gớc. Nhƣ vậy, tác giả sẽ tiến hành 5 nhĩm thực nghiệm, mỗi nhĩm thực nghiệm sử dụng một tập dữ liệu huấn luyện phân chia nhƣ trên và tiến hành gán nhãn dữ liệu theo 3 mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization và Mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.
4.2.3. Kết quả thực nghiệm
Nhĩm thực nghiệm 1: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 10% và tập dữ liệu kiểm tra.
Bảng 3. Kết quả nhĩm thực nghiệm 1
Hình 6. Kết quả nhĩm thực nghiệm 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER CRFs.GE Precision Recall F-measure CRF CRF.ER CRF.GE Precision Recall F-
measure Precision Recall F-
measure Precision Recall
F- measure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596
PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000
Nhĩm thực nghiệm 2: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 20% và tập dữ liệu kiểm tra.
CRFs CRFs.ER CRFs.GE
Precision Recall F-
measure Precision Recall F-
measure Precision Recall
F- measure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536
Bảng 4. Kết quả nhĩm thực nghiệm 2
Hình 7. Kết quả nhĩm thực nghiệm 2
Nhĩm thực nghiệm 3: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 40% và tập dữ liệu kiểm tra.
Trong nhĩm thực nghiệm này, tác giả mới chỉ đƣa ra đƣợc kết quả của việc gán nhãn theo mơ hình CRFs đơn thuần và mơ hình bán giám sát CRFs sử dụng Entropy Regularization. Việc gán nhãn theo mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực hiện đƣợc do việc sử dụng mơ hình này cần bộ nhớ rất lớn, vƣợt quá khả năng đáp ứng của máy tính
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER CRFs.GE Precision Recall F-measure
32bit của tác giả. Nên trong nhĩm thực nghiệm này và 2 nhĩm thực nghiệm sau tác giả chỉ báo cáo kết quả của 2 mơ hình CRFs đơn thuần và CRFs sử dụng Entropy Regularization.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577
PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272
LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959
MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760
OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500
Bảng 5. Kết quả nhĩm thực nghiệm 3
Hình 8. Kết quả nhĩm thực nghiệm 3
Nhĩm thực nghiệm 4: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ liệu huấn luyện 80% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873
PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912
LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993
MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120