Một mô hình học máy bán giám sát CRFs trích chọn t- 123docz.net

Nhƣ phân tích ở trên, trong hồ sơ vụ án sẽ chứa rất nhiều thông tin hữu ích. Trong khuôn khổ luận văn này, tác giả tập trung vào việc xác định những thực thể quan tâm có trong hồ sơ. Việc xác định các thực thể này là tạo cơ sở cho các bài toán hay yêu cầu cao hơn nhƣ hệ thống trả lời tự động, thống kê, dự báo… Bài toán mà luận văn sẽ giải quyết đƣợc phát biểu đơn giản nhƣ sau:

Đầu vào: Các hồ sơ vụ án.

Yêu cầu: Xác định các thực thể có trong hồ sơ.

Tuy nhiên, do yêu cầu chính trị và yêu cầu nghiệp vụ, các hồ sơ vụ án là các tài liệu mật, không đƣợc sử dụng rộng rãi. Vì lý do đó, nên trong khuôn khổ luận văn này tôi không sử dụng hồ sơ vụ án làm dữ liệu, thay vào đó tôi sử dụng các bài báo là các phóng sự điều tra, ghi chép về các vụ án đƣợc đăng tải công khai trên website chính thức của Bộ Công an là http://www.cand.com.vn.

3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật tiếng Việt luật tiếng Việt

3.2.1. Một số phân tích

Bài toán gán nhãn tên thực thể này bản chất là gán nhãn tên thực thể cho mỗi từ sau khi đƣợc phân tách. Các loại thực thể đƣợc xác định trong luận văn dựa theo các thực thể trong tác vụ CoNLL2003 bao gồm: LOC (Location), PER (Person), ORG (Organization) và MISC (Miscellaneous). Do đó, các nhãn thực thể đƣợc sử dụng ở đây là:

- B-TYPE: nhãn đánh dấu từ bắt đầu của nhãn NER

- I-TYPE: nhãn đánh dấu cho từ tiếp theo trong nhãn NER

- O: nhãn đánh dấu cho từ không thuộc nhóm thực thể nào. (nhãn TYPE sẽ thuộc vào một trong bốn loại thực thể trên) Ví dụ: Thủy_thủ O Nguyễn_Ngọc_Hới B-PER xã B-LOC Quảng_Phúc I-LOC , O Quảng_Trạch B-LOC từng O là O bộ_đội O đi O chiến_trƣờng O B B-MISC năm O 1968 O . O

Để nâng cao kết quả, ngƣời ta đƣa thêm đặc trƣng từ loại nên với mỗi từ đƣợc gán thêm nhãn từ loại POS (Part of Speech). Do đó tập dữ liệu huấn luyện - training và dữ liệu kiểm tra – testing phải đƣợc xây dựng theo cùng định dạng: Mỗi từ nằm trên một dòng; Một dòng trống đƣợc thêm vào sau mỗi dấu kết thúc câu; Mỗi dòng (token) bao gồm các thành phần:

<Từ hiện tại> <nhãn từ loại POS> <nhãn thực thể NER>. 3.2.2. Mô hình đề nghị

Từ những phân tích trên đây, tác giả đề xuất xây dựng mô hình các bƣớc trong quá trình nhận dạng thực thể nhƣ sau:

Hình 3/4. Mô hình đề xuất giải quyết bài toán Giai đoạn 1. Các bước tiền xử lý dữ liệu Mô hình CRFs

Dữ liệu kiểm tra

Kết quả đánh giá mô hình

Mô hình CRFs với GEC

(được hiệu chỉnh sau mỗi bước)

Dữ liệu có nhãn và dữ liệu không có nhãn

(cập nhật sau mỗi bước học)

S Kết thúc học ? Đ Giai đoạn 2. Hoc bán giám sát CRFs voi GEC

Tập các văn bản đầu vào chứa các đoạn văn

Tập dữ liệu ra với định dạng <từ> <pos><ner>

Module tách từ Tiếng Việt

Gán nhãn POS

Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bƣớc tiền xử lý tự bán tự động đó là tách từ, gán nhãn từ loại POS (Part Of Speech), gán nhãn thực thể NER (Named Entities Recognition).

Bƣớc 1: Sử dụng phần mềm tách từ tự động JvnSegmenter của NCS Nguyễn Cẩm Tú tại trang web http://jvnsegmenter.sourceforge.net . Đây là phần mềm tách từ tự động dựa trên phƣơng pháp trƣờng điều kiện ngẫu nhiên CRFs [1], phƣơng pháp này chứng tỏ hiệu lực tốt trong nhiều bài toán xử lý văn bản, đặc biệt là các bài toán trích chọn thông tin trên Web. Sau bƣớc này ta thu đƣợc tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống.

Bƣớc 2: Tiến hành gán nhãn POS cho mỗi từ. Việc gán nhãn POS tôi có sử dụng tool vnTagger của tác giả Lê Hồng Phƣơng tại trang web

http://www.loria.fr/~lehong/tools/vnTagger.php . Đây là phần mềm gán nhãn từ loại POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm đƣợc viết dựa trên phƣơng pháp maximum entropy. Sau đó tiến hành kiểm tra nhãn POS lại một cách thủ công.

Bƣớc 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công. Sau bƣớc này sẽ thu đƣợc tập dữ liệu với định dạng mong muốn.

Giai đoạn 2: Tiến hành nhận dạng tên thực thể bằng Mallet Tool.

Mallet là bộ công cụ đƣợc xây dựng bởi Andrew McCallum và đồng nghiệp năm 2002 và ngày càng đƣợc cải tiến và nâng cấp phiên bản. Đây là một bộ công cụ với nhiều chức năng xử lý ngôn ngữ tự nhiên nhƣ: Phân lớp, phân cụm, triết lọc thông tin và những ứng dụng học máy khác. Bộ công cụ này đƣợc công bố rộng rãi tại website http://mallet.cs.umass.edu/. Trong đó, Andrew McCallum và đồng nghiệp xây dựng rất nhiều công cụ gán nhãn dữ liệu cho những ứng dụng nhƣ trích chọn tên thực thể. Những thuật toán gán nhãn bao gồm: mô hình Markov ẩn, mô hình Markov entropy cực đại và mô hình trƣờng điều kiện ngẫu nhiên CRFs. Nhóm phát triển Mallet xây dựng nhiều phƣơng pháp học máy nhƣ học bán giám sát và học có giám sát. Trên cơ sở đó, tác giả đã phát triển thành công cụ gán nhãn cho tiếng Việt dựa trên phƣơng pháp học bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát.

Nhƣ phân tích ở 2.2, mô hình học bán giám sát CRFs này sử dụng tiêu chuẩn kỳ vọng tổng quát, tác giả tiến hành xây dựng ràng buộc (Constraint) thể hiện mối quan hệ giữa từ và nhãn. Định dạng tổng quát của tập ràng buộc Constraint đƣợc xác định nhƣ sau:

Số xác suất (probability) phải bằng với số nhãn. Các đặc trƣng và tên nhãn phải khớp chính xác với các đặc trƣng và tên nhãn trong dữ liệu và bảng mẫu tự đích (target alphabets).

Do đó để xây dựng tập Constraint, có thể làm theo hai cách:

Cách 1: xây dựng thủ công, lựa chọn những đặc trƣng và xác định xác suất có thể cho mỗi đặc trƣng theo từng nhãn. Việc ƣớc lƣợng những xác suất này dựa trên kinh nghiệm chủ quan của ngƣời thực hiện.

Cách 2: xây dựng tập Constraint dựa theo phƣơng pháp LDA (Latent Dirichlet allocation). LDA [BNJ03] là mô hình xác suất sinh cho những tập dữ liệu rời rạc, cho phép xác định tập dữ liệu quan sát dựa trên tập dữ liệu không quan sát dựa trên tính tƣơng đồng. Từ đó, cho phép xác định xác suất một từ, một đặc trƣng có mặt trong các chủ đề là các nhóm thực thể cho trƣớc.

Trong khuôn khổ luận văn, tác giả tiến hành xây dựng tập ràng buộc Constraint theo cả 2 phƣơng pháp. Tiến hành xây dựng một tập các đặc trƣng là các từ thƣờng xuất hiện trong các tài liệu điều tra chia theo các nhóm thực thể. Sử dụng phƣơng pháp LDA để xác định ràng buộc về xác suất thuộc về các nhóm thực thể khác nhau. Sau đó tác giả tiến hành kiểm tra, chỉnh sửa các ràng buộc một cách thủ công nhằm xây dựng đƣợc một tập ràng buộc Constraint tốt nhất.

Do thời gian và kinh nghiệm có hạn, nên tập ràng buộc đƣợc xây dựng theo chủ quan và kiến thức nghiên cứu đƣợc của tác giả có thể chƣa hoàn thiện và sẽ ảnh hƣởng phần nào đến kết quả mô hình.

3.2.3. Lựa chọn thuộc tính

Các thuộc tính đƣợc chọn theo mẫu ngữ cảnh từ vựng (kích thƣớc cửa sổ trƣợt bằng 5):

Mẫu ngữ cảnh Ý nghĩa

S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại

S-1 Âm tiết quan sát tại vị trí liền trƣớc so với vị trí hiện tại S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S-1S0 Âm tiết quan sát tại vị trí liền trƣớc và vị trí hiện tại S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trƣớc

S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau

S-1S0S1 Âm tiết quan sát tại vị trí liền trƣớc, hiện tại và liền sau S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trƣớc và hiện tại

S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại

Bảng 1. Mẫu ngữ cảnh từ vựng

Các tên thực thể thƣờng đƣợc viết hoa ký tự đầu tiên, vì thế ta có thể thêm thuộc tính viết hoa vào mô hình. Nếu tất cả các ký tự đều viết hoa thì khả năng đó là tên viết tắt của tổ chức. Đôi khi tên thực thể có thể đi cùng với các ký tự số. Việc lựa chọn thuộc tính còn đƣợc dựa trên ngữ cảnh phát hiện tên thực thể:

Mẫu ngữ cảnh Ý nghĩa

InitialCap Viết hoa chữ cái đầu

AllCaps Viết hoa tất cả các chữ cái

CapsMix Chữ cái thƣờng và hoa lẫn lộn

SingleDigit Số 1 chữ số

HasDigit Có chứa số

DoubleDigits Số 2 chữ số

Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể

3.2.4. Cách đánh giá

Có nhiều cách đánh giá độ chính xác của mô hình, nhƣng cách phổ biến nhất hiện nay là sử dụng các độ đo nhƣ độ chính xác (precision), độ hồi tƣởng (recall) và độ đo F1. Độ đo F1 là một chỉ số cân bằng giữa độ chính xác và độ

hồi tƣởng. Nếu độ chính xác và độ hồi tƣởng cao và cân bằng thì độ đo F1 lớn, còn độ chính xác và hồi tƣởng nhỏ và không cân bằng thì độ đo F1 nhỏ. Mục tiêu của ta là xây dựng mô hình phân đoạn từ có chỉ số F1 cao.

Độ đo dựa theo từ đƣợc tính theo các công thức sau:

(3.1) (3.2) (3.3) Trong đó: a là số thực thể gán đúng b là số thực thể mô hình gán c là số thực thể do ngƣời gán 3.3. Kết luận chƣơng 3

Chƣơng 3 tập trung phân tích bài toán trích chọn thông tin trên tập văn bản pháp luật trên cơ sở phân tích các đặc trƣng miền dữ liệu. Từ đó đề xuất mô hình giải quyết bài toán bao gồm 2 giai đoạn: Giai đoạn 1 là tiền xử lý dữ liệu và Giai đoạn 2 là đƣa tập dữ liệu và các ràng buộc tự thiết lập vào huấn luyện mô hình theo tiêu chuẩn kỳ vọng tổng quát.

b a ecision Pr c a call  Re call ecision call ecision measure F Re (Pr Re * Pr * 2   

CHƢƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Mô hình thực nghiệm

4.1.1. Dữ liệu thực nghiệm

Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên dữ liệu thực nghiệm đƣợc thu thập từ trang web http://www.cand.com.vn. Trang web này chứa nhiều thông tin pháp luật về những vụ án, những tình tiết sự việc vi phạm pháp luật đƣợc công khai, khá gần với tài liệu hồ sơ vụ án cần khai thác. Tiến hành thu thập hơn 400 bài viết điều tra, ghi chép các vụ án về an ninh trật tự, an ninh kinh tế…

Sau khi tiến hành bƣớc tiền xử lý thu đƣợc tập dữ liệu huấn luyện training với hơn 50.000 dòng và tập dữ liệu kiểm tra testing với hơn 30000 dòng.

Tác giả đã xây dựng một tập constraint với hơn 800 ràng buộc về xác suất có thể có của

4.1.2. Bộ công cụ Mallet

Tác giả sử dụng bộ công cụ Mallet 2.0.6 phiên bản mới nhất. Dữ liệu đầu vào cho công cụ bao gồm:

- File huấn luyện (training).

- File constraint

- File kiểm tra (testing)

4.2. Thực nghiệm và đánh giá 4.2.1. Môi trƣờng thực nghiệm 4.2.1. Môi trƣờng thực nghiệm

Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB

Phần mềm: Sử dụng tool Mallet đƣợc viết bởi Andrew McCallum và đồng nghiệp. Ngoài ra còn sử dụng các công cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ.

4.2.2. Mô tả quy trình thực nghiệm

Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hƣởng của tập dữ liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện lớn (hơn 50.000 dòng) thành các tập huấn luyện nhƣ sau:

- Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn luyện gốc.

- Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn luyện gốc.

- Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn luyện gốc.

- Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn luyện gốc.

- Tập dữ liệu huấn luyện 100%: Lấy toàn bộ tập dữ liệu huấn luyện gốc. Nhƣ vậy, tác giả sẽ tiến hành 5 nhóm thực nghiệm, mỗi nhóm thực nghiệm sử dụng một tập dữ liệu huấn luyện phân chia nhƣ trên và tiến hành gán nhãn dữ liệu theo 3 mô hình: Mô hình CRFs đơn thuần; Mô hình bán giám sát CRFs sử dụng Entropy Regularization và Mô hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.

4.2.3. Kết quả thực nghiệm

Nhóm thực nghiệm 1: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 10% và tập dữ liệu kiểm tra.

Bảng 3. Kết quả nhóm thực nghiệm 1

Hình 6. Kết quả nhóm thực nghiệm 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER CRFs.GE Precision Recall F-measure CRF CRF.ER CRF.GE Precision Recall F-

measure Precision Recall F-

measure Precision Recall

F- measure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596

PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000

Nhóm thực nghiệm 2: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 20% và tập dữ liệu kiểm tra.

CRFs CRFs.ER CRFs.GE

Precision Recall F-

measure Precision Recall F-

measure Precision Recall

F- measure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536

Bảng 4. Kết quả nhóm thực nghiệm 2

Hình 7. Kết quả nhóm thực nghiệm 2

Nhóm thực nghiệm 3: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 40% và tập dữ liệu kiểm tra.

Trong nhóm thực nghiệm này, tác giả mới chỉ đƣa ra đƣợc kết quả của việc gán nhãn theo mô hình CRFs đơn thuần và mô hình bán giám sát CRFs sử dụng Entropy Regularization. Việc gán nhãn theo mô hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực hiện đƣợc do việc sử dụng mô hình này cần bộ nhớ rất lớn, vƣợt quá khả năng đáp ứng của máy tính

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 CRFs CRFs.ER CRFs.GE Precision Recall F-measure

32bit của tác giả. Nên trong nhóm thực nghiệm này và 2 nhóm thực nghiệm sau tác giả chỉ báo cáo kết quả của 2 mô hình CRFs đơn thuần và CRFs sử dụng Entropy Regularization.

CRF CRF.ER

Precision Recall F-measure Precision Recall F-measure

ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577

PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272

LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959

MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760

OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500

Bảng 5. Kết quả nhóm thực nghiệm 3

Hình 8. Kết quả nhóm thực nghiệm 3

Nhóm thực nghiệm 4: Tiến hành gán nhãn theo 3 mô hình trên sử dụng tập dữ liệu huấn luyện 80% và tập dữ liệu kiểm tra.

CRF CRF.ER

Precision Recall F-measure Precision Recall F-measure

ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873

PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912

LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993

MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120