Như phân tích ở trên, trong hồ sơ vụ án sẽ chứa rất nhiều thông tin hữu ích. Trong khuôn khổ luận văn này, tác giả tập trung vào việc xác định những thực thể quan tâm có trong hồ sơ. Việc xác định các thực thể này là tạo cơ sở cho các bài toán hay yêu cầu cao hơn như hệ thống trả lời tự động, thống kê, dự báo… Bài toán mà luận văn sẽ giải quyết được phát biểu đơn giản như sau:
Đầu vào: Các hồ sơ vụ án.
Yêu cầu: Xác định các thực thể có trong hồ sơ.
Tuy nhiên, do yêu cầu chính trị và yêu cầu nghiệp vụ, các hồ sơ vụ án là các tài liệu mật, không được sử dụng rộng rãi. Vì lý do đó, nên trong khuôn khổ luận văn này tôi không sử dụng hồ sơ vụ án làm dữ liệu, thay vào đó tôi sử dụng các bài báo là các phóng sự điều tra, ghi chép về các vụ án được đăng tải công khai trên website chính thức của Bộ Công an là http://www.cand.com.vn.
3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật tiếng Việt luật tiếng Việt
3.2.1. Một số phân tích
Bài toán gán nhãn tên thực thể này bản chất là gán nhãn tên thực thể cho mỗi từ sau khi được phân tách. Các loại thực thể được xác định trong luận văn
(Person), ORG (Organization) và MISC (Miscellaneous). Do đó, các nhãn thực thể được sử dụng ở đây là:
- B-TYPE: nhãn đánh dấu từ bắt đầu của nhãn NER - I-TYPE: nhãn đánh dấu cho từ tiếp theo trong nhãn NER - O: nhãn đánh dấu cho từ không thuộc nhóm thực thể nào.
(nhãn TYPE sẽ thuộc vào một trong bốn loại thực thể trên) Ví dụ: Thủy_thủ O Nguyễn_Ngọc_Hới B-PER xã B-LOC Quảng_Phúc I-LOC , O Quảng_Trạch B-LOC từng O là O bộ_đội O đi O chiến_trường O B B-MISC năm O 1968 O . O
Để nâng cao kết quả, người ta đưa thêm đặc trưng từ loại nên với mỗi từ được gán thêm nhãn từ loại POS (Part of Speech). Do đó tập dữ liệu huấn luyện - training và dữ liệu kiểm tra – testing phải được xây dựng theo cùng định dạng: Mỗi từ nằm trên một dòng; Một dòng trống được thêm vào sau mỗi dấu kết thúc câu; Mỗi dòng (token) bao gồm các thành phần:
<Từ hiện tại> <nhãn từ loại POS> <nhãn thực thể NER>. 3.2.2. Mô hình đề nghị
Từ những phân tích trên đây, tác giả đề xuất xây dựng mô hình các bước trong quá trình nhận dạng thực thể như sau:
Giai đoạn 1. Các bước tiền xử lý dữ liệu Mô hình CRFs
Dữ liệu kiểm tra
Kết quả đánh giá
mô hình
Mô hình CRFs với GEC
(được hiệu chỉnh sau mỗi bước)
Dữ liệu có nhãn và dữ liệu không có nhãn
(cập nhật sau mỗi bước học)
Kết thúc học ? Giai đoạn 2. Hoc bán giám sát CRFs voi GEC
Tập các văn bản đầu vào chứa các đoạn văn
Tập dữ liệu ra vớ i định dạng <từ> <pos>< ner>
Module tách từ Tiếng Việt
Gán nhãn POS
Hình 3/4. Mô hình đề xuất giải quyết bài toán
Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý tự bán tự động đó là tách từ, gán nhãn từ loại POS (Part Of Speech), gán nhãn thực thể NER (Named Entities Recognition).
Bước 1: Sử dụng phần mềm tách từ tự động JvnSegmenter của NCS Nguyễn Cẩm Tú tại trang web http://jvnsegmenter.sourceforge.net . Đây là phần mềm tách từ tự động dựa trên phương pháp trường điều kiện ngẫu nhiên CRFs [1], phương pháp này chứng tỏ hiệu lực tốt trong nhiều bài toán xử lý văn bản, đặc biệt là các bài toán trích chọn thông tin trên Web. Sau bước này ta thu được tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống.
Bước 2: Tiến hành gán nhãn POS cho mỗi từ. Việc gán nhãn POS tôi có sử dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web http://www.loria.fr/~lehong/tools/vnTagger.php . Đây là phần mềm gán nhãn từ loại POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm được viết dựa trên phương pháp maximum entropy. Sau đó tiến hành kiểm tra nhãn POS lại một cách thủ công.
Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công. Sau bước này sẽ thu được tập dữ liệu với định dạng mong muốn.
Giai đoạn 2: Tiến hành nhận dạng tên thực thể bằng Mallet Tool.
Mallet là bộ công cụ được xây dựng bởi Andrew McCallum và đồng nghiệp năm 2002 và ngày càng được cải tiến và nâng cấp phiên bản. Đây là một bộ công cụ với nhiều chức năng xử lý ngôn ngữ tự nhiên như: Phân lớp, phân cụm, triết lọc thông tin và những ứng dụng học máy khác. Bộ công cụ này được công bố rộng rãi tại website http://mallet.cs.umass.edu/. Trong đó, Andrew McCallum và đồng nghiệp xây dựng rất nhiều công cụ gán nhãn dữ liệu cho những ứng dụng như trích chọn tên thực thể. Những thuật toán gán nhãn bao gồm: mô hình Markov ẩn, mô hình Markov entropy cực đại và mô hình trường điều kiện ngẫu nhiên CRFs. Nhóm phát triển Mallet xây dựng nhiều phương pháp học máy như học bán giám sát và học có giám sát. Trên cơ sở đó, tác giả đã phát triển thành công cụ gán nhãn cho tiếng Việt dựa trên phương pháp học bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát.
Như phân tích ở 2.2, mô hình học bán giám sát CRFs này sử dụng tiêu chuẩn kỳ vọng tổng quát, tác giả tiến hành xây dựng ràng buộc (Constraint) thể hiện mối quan hệ giữa từ và nhãn. Định dạng tổng quát của tập ràng buộc Constraint được xác định như sau:
Số xác suất (probability) phải bằng với số nhãn. Các đặc trưng và tên nhãn phải khớp chính xác với các đặc trưng và tên nhãn trong dữ liệu và bảng mẫu tự đích (target alphabets).
Do đó để xây dựng tập Constraint, có thể làm theo hai cách:
Cách 1: xây dựng thủ công, lựa chọn những đặc trưng và xác định xác suất có thể cho mỗi đặc trưng theo từng nhãn. Việc ước lượng những xác suất này dựa trên kinh nghiệm chủ quan của người thực hiện.
Cách 2: xây dựng tập Constraint dựa theo phương pháp LDA (Latent Dirichlet allocation). LDA [BNJ03] là mô hình xác suất sinh cho những tập dữ liệu rời rạc, cho phép xác định tập dữ liệu quan sát dựa trên tập dữ liệu không quan sát dựa trên tính tương đồng. Từ đó, cho phép xác định xác suất một từ, một đặc trưng có mặt trong các chủ đề là các nhóm thực thể cho trước.
Trong khuôn khổ luận văn, tác giả tiến hành xây dựng tập ràng buộc Constraint theo cả 2 phương pháp. Tiến hành xây dựng một tập các đặc trưng là các từ thường xuất hiện trong các tài liệu điều tra chia theo các nhóm thực thể. Sử dụng phương pháp LDA để xác định ràng buộc về xác suất thuộc về các nhóm thực thể khác nhau. Sau đó tác giả tiến hành kiểm tra, chỉnh sửa các ràng buộc một cách thủ công nhằm xây dựng được một tập ràng buộc Constraint tốt nhất.
Do thời gian và kinh nghiệm có hạn, nên tập ràng buộc được xây dựng theo chủ quan và kiến thức nghiên cứu được của tác giả có thể chưa hoàn thiện và sẽ ảnh hưởng phần nào đến kết quả mô hình.
3.2.3. Lựa chọn thuộc tính
Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ trượt bằng 5):
Mẫu ngữ cảnh Ý nghĩa
S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại
S-1 Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S-1S0 Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trước
S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau
S-1S0S1 Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại
S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại
Bảng 1. Mẫu ngữ cảnh từ vựng
Các tên thực thể thường được viết hoa ký tự đầu tiên, vì thế ta có thể thêm thuộc tính viết hoa vào mô hình. Nếu tất cả các ký tự đều viết hoa thì khả năng đó là tên viết tắt của tổ chức. Đôi khi tên thực thể có thể đi cùng với các ký tự số. Việc lựa chọn thuộc tính còn được dựa trên ngữ cảnh phát hiện tên thực thể:
Mẫu ngữ cảnh Ý nghĩa
InitialCap Viết hoa chữ cái đầu
AllCaps Viết hoa tất cả các chữ cái
CapsMix Chữ cái thường và hoa lẫn lộn
SingleDigit Số 1 chữ số
HasDigit Có chứa số
DoubleDigits Số 2 chữ số
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể
3.2.4. Cách đánh giá
Có nhiều cách đánh giá độ chính xác của mô hình, nhưng cách phổ biến nhất hiện nay là sử dụng các độ đo như độ chính xác (precision), độ hồi tưởng (recall) và độ đo F1. Độ đo F1 là một chỉ số cân bằng giữa độ chính xác và độ
hồi tưởng. Nếu độ chính xác và độ hồi tưởng cao và cân bằng thì độ đo F1 lớn, còn độ chính xác và hồi tưởng nhỏ và không cân bằng thì độ đo F1 nhỏ. Mục tiêu của ta là xây dựng mô hình phân đoạn từ có chỉ số F1 cao.
Độ đo dựa theo từ được tính theo các công thức sau:
(3.1) (3.2) (3.3) Trong đó: a là số thực thể gán đúng b là số thực thể mô hình gán c là số thực thể do người gán 3.3. Kết luận chương 3
Chương 3 tập trung phân tích bài toán trích chọn thông tin trên tập văn bản pháp luật trên cơ sở phân tích các đặc trưng miền dữ liệu. Từ đó đề xuất mô hình giải quyết bài toán bao gồm 2 giai đoạn: Giai đoạn 1 là tiền xử lý dữ liệu và Giai đoạn 2 là đưa tập dữ liệu và các ràng buộc tự thiết lập vào huấn luyện mô hình theo tiêu chuẩn kỳ vọng tổng quát.
b a ecision Pr c a call Re call ecision call ecision measure F Re (Pr Re * Pr * 2
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ