Dữ liệu huấn luyện

Một phần của tài liệu Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân (Trang 45)

Dữ liệu huấn luyện cho mơ hình học máy sử dụng tập dữ liệu gán nhãn thực thể do tác giả Nguyễn Cẩm Tú cung cấp (gọi tắt là tập NCT). Tập dữ liệu này gồm 294 bài

báo đƣợc lấy từ các trang Web điện tử gồm nhiều miền dữ liệu khác nhau. Tập dữ liệu gốc đƣợc gán nhãn 7 loại thực thể: ngƣời (per), địa danh (loc), tổ chức (org), thời gian (time), số (num), tiền tệ (cur), loại khác (misc), để phục vụ cho bài tốn của luận văn, tơi chỉ sử dụng các nhãn: ngƣời, địa danh, thời gian; các nhãn cịn loại sẽ đƣợc loại bỏ. Số lƣợng dữ liệu đƣợc thống kê tại bảng dƣới đây.

ảng 5.2: Thống kê dữ liệu tập NCT Số lƣợng tài liệu 294 Số lƣợng câu 1980 Số lƣợng từ vựng tiếng Việt 37334 Số lƣợng thực thể ngƣời 541 Số lƣợng thực thể địa danh 492 Số lƣợng thực thể thời gian 642 5.2.2. Dữ liệu đánh giá

Để phục vụ cho việc nhận dạng thực thể trong hồ sơ nghiệp vụ CAND cần cĩ một tập các văn bản dữ liệu mơ tả về vụ án đƣợc trích từ các hồ sơ nghiệp vụ CAND. Do yếu tố bảo mật thơng tin nên việc cĩ đƣợc các dữ liệu này là rất hạn chế, tơi sử dụng 10 văn bản mơ tả các vụ án đƣợc lấy ra từ hồ sơ nghiệp vụ CAND (Bản kết luận điều tra vụ án hình sự) và kết hợp tìm kiếm trên các trang Web về pháp luật thêm 12 các bài viết mơ tả vụ án khác. Sau khi thu thập các văn bản, tơi tiến hành gán nhãn các thực thể đã đƣợc lựa chọn là: ngƣời, địa danh, thời gian, vụ việc tham gia. Dƣới đây là thống kê số lƣợng dữ liệu trong tập dữ liệu đánh giá (gọi tắt là tập DG).

ảng 5.3: So sánh dữ liệu tập NCT và tập DG

Tập NCT Tập DG

Số lƣợng tài liệu 294 22

Số lƣợng câu 1980 782

Số lƣợng câu trung bình trong 1 tài liệu 6,73 35,55 Số lƣợng từ vựng tiếng Việt 37334 21230 Số lƣợng từ vựng trung bình trong 1 tài liệu 126.99 965

Số lƣợng thực thể ngƣời 541 1301

Số lƣợng thực thể địa danh 492 651

Số lƣợng thực thể thời gian 642 249 Số lƣợng thực thể vụ việc tham gia - 202

So sánh với tập của Nguyễn Cẩm Tú, ta cĩ thể thấy tập đánh giá cĩ số lƣợng tài liệu chỉ gần bằng 10% (22 so với 294) tuy nhiên cĩ số lƣợng trung bình câu và tự vựng trong 1 văn bản là khá cao (35.55 và 6.73 đối với câu và 965 và 126.99 đối với từ vựng). Điều này cĩ thể giải thích đƣợc là do các văn bản trong tập đánh giá là các tài liệu mơ tả chi tiết về sự việc. Dƣới đây là ví dụ trích đoạn một văn bản trong tập đánh giá đã đƣợc gán nhãn. Nhãn “per” chỉ ngƣời, nhãn “crime” chỉ vụ việc tham gia, nhãn “time” chỉ thời gian và nhãn “loc” chỉ địa danh.

<per>Cao_Xuân_Hải</per>can_tội : <crime>Trộm_cắp tài_sản</crime> Khoảng <time>22h50’</time><time>ngày 20/12/2013</time>, anh <per>Nguyễn_Mạnh_Hùng</per>sinh <time>năm 1995</time>, HKTT: <loc>Đồng_Lƣơng</loc>– <loc>Cẩm_Khê</loc>– <loc>Phú_Thọ</loc>, là

cơng_nhân tại xƣởng may của nhà chị <per>Nguyễn_Thị_Thu</per>sinh <time>năm 1989</time>, HKTT: <loc>Thơn_Đặng</loc>– <loc>Đặng_Xá</loc>–

<loc>Gia_Lâm</loc>– <loc>Hà_Nội</loc>, khi đi chơi về đến xƣởng may của nhà chị <per>Thu</per>đã phát_hiện cửa xƣởng may bị mở, trong xƣởng bị mất tài_sản là 02(hai) đầu máy_khâu cơng_nghiệp, anh <per>Hùng</per>đã báo cho chị

<per>Thu</per>biết,sau đĩ chị <per>Thu</per>đã làm đơn trình_báo cơ_quan cơng_an.

Tài_sản bị trộm_cắp bao_gồm:

- 01 (một) đầu máy_khâu cơng_nghiệp nhãn_hiệu JUKI_SUPCLASS5, đời máy 1850 (đã qua sử_dụng)

- 01 (một) đầu máy_khâu cơng_nghiệp nhãn_hiệu KANSAI, Model: DLK 1503PTS, số máy 3070291 (đã qua sử_dụng) …

Hình 5.1: Kết quả thực nghiệm và đánh giá nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân.

5.3. Kết quả thực nghiệm và đánh giá nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân

5.3.1.Kết quả thực nghiệm đánh giá trên từng thành phần nhận dạng

Tại thực nghiệm này tơi tiến hành đánh giá các thành phần nhận dạng thực thể riêng biệt. Cĩ 4 thành phần nhận dạng sẽ đƣợc đánh giá là: thành phần nhận dạng bằng luật, thành phần nhận dạng bằng từ điển, thành phần nhận dạng bằng mơ hình học máy Markov ẩn và thành phần nhận dạng bằng mơ hình học máy CRF. Dữ liệu huấn luyện cho 2 mơ hình học máy sử dụng tập dữ liệu NCT. Tất cả 4 thành phần sẽ đƣợc đánh giá trên tập dữ liệu liệu DG và sử dụng 3 độ đo là chính xác (P), hồi tƣởng (R) và F cho từng loại thực thể.

ảng 5.4: Kết quả đánh giá trên từng thành phần nhận dạng. Luật Từ điển P R F P R F Ngƣời 93,47% 29,84% 45,24% - - - Địa danh 68,56% 27,51% 39,26% 79,54% 35,19% 48,79% Thời gian 100% 18,37% 31,04% - - -

Vụ việc tham gia - - - 100% 74,29% 85,25%

Markov ẩn CRF

P R F P R F

Ngƣời 78,09% 80,33% 79,19% 83,21% 80,48% 81,82%

Địa danh 64,75% 71,46% 67,94% 66,17% 70,59% 68,31%

Thời gian 76,92% 82,93% 79,81% 79,14% 83,28% 81,16%

Vụ việc tham gia - - - -

Nhƣ đã mơ tả trong chƣơng 4, thành phần nhận dạng bằng luật chỉ nhận dạng 3 thực thể: ngƣời, địa danh, thời gian; thành phần từ điển chỉ nhận dạng: địa danh và vụ việc tham gia; thành phần nhận dạng bằng học máy nhận dạng 3 loại thực thể: ngƣời, địa danh, thời gian do đƣợc huấn luyện trên tập dữ liệu NCT (dữ liệu khơng gán nhãn vụ việc tham gia).

Trong bảng kết quả trên ta thấy đối với loại thực thể ngƣời, thành phần sử dụng mơ hình học máy nhƣ Markov ẩn và CRF cho kết quả tƣơng đối tốt 79,19% và 81,82%, CRF tốt hơn khoảng 2%. Mặc dù thành phần sử dụng luật chỉ đạt 45,24%, tuy nhiên độ chính xác là khá tốt 93,47%. Đối với thực thể địa danh, 2 mơ hình học máy cũng làm việc hiệu quả hơn dùng luật và từ điển, tuy nhiên kết quả khơng vƣợt quá 70%, nguyên nhân cĩ thể là do sự nhập nhằng của các từ chỉ địa danh xuất hiện trong tên các tổ chức. Thực thể thời gian kết quả cũng khá khả quan với HMM và CRF, độ đo F tƣơng ứng hai mơ hình là 79,81 và 81,16%. Cịn thực thể vụ việc tham gia đạt kết quả F là 85,25% bằng việc sử dụng nhận dạng bằng từ điển.

Thơng qua thực nghiệm này, ta cĩ thể thấy thành phần sử dụng học máy cho kết quả khá khả quan đối với việc nhận dạng các loại thực thể: ngƣời, địa danh, thời gian. Mơ hình học máy CRF cho thấy sự hiệu quả hơn mơ hình Markov ẩn cải tiến trong cơng cụ LingPipe. Trong thực nghiệm tiếp theo, tơi tiến hành kết hợp thêm các thành phần

nhận dạng bằng luật và từ điển với thành phần nhận dạng bằng mơ hình học máy CRF nhằm làm tăng hiệu quả nhận dạng thực thể.

5.3.2. Kết quả thực nghiệm sử dụng mơ hình kết hợp

Trong thực nghiệm này, tơi sử dụng phƣơng pháp kết hợp kết quả các thành phần nhận dạng đã đƣợc nêu tại mục 4.6 nhằm làm tăng kết quả của hệ thống. Từ những kết quả ở thực nghiệm trên, chúng ta đã thấy mơ hình CRF cho hiệu quả tốt hơn HMM, nên trong thực nghiệm này, tơi chỉ sử dụng mơ hình CRF trong pha kết hợp kết quả. Một vấn đề khác đĩ chính là độ chính xác nhận dạng thực thể địa danh đối với thành phần sử dụng luật là khơng đƣợc tốt (68,56%), điều này cĩ thể ảnh hƣởng đến kết quả của mơ hình kết hợp. Để đánh giá điều này, bên cạnh thực nghiệm kết hợp cả 3 thành phần (mã thực nghiệm TN1), tơi đƣa ra một thực nghiệm tƣơng tự nhƣng loại bỏ việc nhận dạng thực thể địa danh trong thành phần sử dụng luật (TN2). Dữ liệu huấn luyện vẫn sử dụng bộ dữ liệu NCT và đánh giá trên bộ DG. Kết quả đƣợc thể hiện trong bảng sau.

ảng 5.5: Kết quả đánh giá trên mơ hình kết hợp

TN 1 TN 2

P R F P R F

Ngƣời 83,27% 81,72% 82,49% 83,27% 81,72% 82,49%

Địa danh 64,02% 70,86% 67,27% 66,23% 71,04% 68,55%

Thời gian 79,14% 83,59% 81,30% 79,14% 83,59% 81,30%

Vụ việc tham gia 100% 74,29% 85,25% 100% 74,29% 85,25% Tồn bộ thực thể 79,03% 78,35% 78,69% 79,63% 78,40% 79,01%

Kết quả thực nghiệm cho thấy, khi loại bỏ chức năng nhận dạng thực thể địa danh khỏi thành phần dùng luật kết quả đã tăng khoảng hơn 1% (từ 67,27% lên 68,55%). Các kết quả khi kết hợp cũng cho thấy hiệu quả khi tại thực thể ngƣời tăng khoảng 0,67%, thực thể địa danh tăng 0,24%, thực thể thời gian tăng 0,15% so với mơ hình CRF ở phần trên. Bên cạnh đấy kết quả cũng hồn thiện hơn khi bổ sung thêm thực thể vụ việc tham gia.

5.3.3. Kết quả thực nghiệm kiểm thử chéo với chính tập dữ liệu đánh giá

Với việc số lƣợng dữ liệu tập DG là tƣơng đối tốt (bảng 4-3) nên trong thực nghiệm này, tơi đề xuất việc sử dụng chính tập dữ liệu đánh giá DG làm tập học cho

mơ hình học máy. Để đánh giá mơ hình, tơi sử dụng phƣơng pháp kiểm thử chéo 10 folds (10 folds cross validation).

Phƣơng pháp kiểm thử chéo đƣợc mơ tả nhƣ sau:

- Dữ liệu sẽ đƣợc chia thành ngẫu nhiên thành 10 phần cĩ số lƣợng câu bằng hoặc gần bằng nhau.

- Cĩ 10 lần thực nghiệm, mỗi lần thực nghiệm sẽ lấy 9 phần dữ liệu làm dữ liệu huấn luyện và phần cịn lại làm dữ liệu đánh giá.

- Kết quả cuối cùng sẽ tổng hợp lại từ 10 lần thực nghiệm trên.

Trong thực nghiệm này tơi cũng sử dụng mơ hình kết hợp học máy và luật cùng từ điển nhƣ thực nghiệm TN 2 ở mục trên. Kết quả thực nghiệm đƣợc mơ tả ở bảng dƣới:

ảng 5.6: Kết quả kiểm thử chéo đối với tập dữ liệu DG.

P R F

Ngƣời 86,94% 87,54% 87,24% Địa danh 74,69% 78,05% 76,33% Thời gian 81,04% 85,29% 83,11% Vụ việc tham gia 84,17% 87,72% 85,91%

Tồn bộ thực thể 86,94% 87,54% 87,24%

Kết quả thực nghiệm cho thấy mơ hình đƣợc xây dựng trên chính tập DG cho kết quả cao hơn với các thực nghiệm trƣớc, đánh giá trên tồn bộ thực thể tăng hơn 8%. Mặc dù việc so sánh này hơi khập khiễng khi các thực nghiệm trƣớc đánh giá trên tồn bộ tập DG cịn thực nghiệm này đánh giá trên 10 folds của tập DG, tuy nhiên kết quả cũng cho thấy tính khả quan của mơ hình thực nghiệm đƣợc đề xuất.

Kết quả vẫn cịn xuất hiện một số nhƣ nhận diện sai và nhận diện thiếu thực thể. Dƣới đây là một số ví dụ tơi đã phân tích đƣợc từ kết quả nhận diện:

- Nhận diện nhầm thực thể. Ví dụ:

o Nhầm thực thể địa danh: “phĩ cơng_an phƣờng <loc>Bắc_Sơn</loc>”, trong trƣờng hợp này từ Bắc_Sơn nằm trong cả 1 cụm chỉ về tên một chức danh là “phĩ cơng an phƣờng Bắc Sơn” khơng phải là địa danh.

o Nhầm thực thể vụ việc tham gia: “triệt_phá băng_nhĩm <crime>trộm_cắp</crime>” do sử dụng từ điển nên các cụm từ liên quan

đến các tội danh sẽ đƣợc gán nhãn, tuy nhiên nhiều trƣờng hợp lại nằm trong 1 cụm chỉ về thơng tin khác.

- Nhận diện thiếu thực thể:

o Một số cụm thực thể dài cĩ thể nhận diện thiếu nhƣ: tại <loc> nhà_nghỉ và karaoke Bắc Hà </loc> chỉ nhận dạng đƣợc “karaoke ắc Hà” là địa danh. Trƣờng hợp này xảy ra khi các cụm cĩ cấu trúc ngữ pháp phức tạp.

o Một số khơng nhận diện đƣợc do thiếu từ điển nhƣ: <crime> giết chết nhiều ngƣời </crime> hay < crime> trộm chim cảnh </crime>.

5.3.4. Giao diện chƣơng trình nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân

Chƣơng trình cho phép ngƣời dùng cĩ thể nhập các văn bản, tài liệu từ hồ sơ nghiệp vụ Cơng an nhân dân vào khung nhập liệu. Sau khi nhập sau, ngƣời sử dụng nhấn nút “Nhận diện thực thể” để tiến hành nhận dạng các thực thể liên quan đến hồ sơ nghiệp Cơng an nhân dân. Kết quả nhận dạng sẽ xuất hiện ở hộp thoại dƣới.

Đầu ra của chƣơng trình sẽ đƣợc dƣới dạng file văn bản (text file), ngƣời sử dụng cĩ thể dựa trên các thơng tin đã đƣợc nhận dạng ra nhƣ: ngƣời, địa danh, thời gian và vụ việc tham gia để tiến hành xây dựng các cơ sở dữ liệu hỗ trợ cho việc tìm kiếm mở rộng trong hồ sơ nghiệp vụ Cơng an nhân dân. Một vấn đề đặt ra đĩ chính là cĩ nhiều thực thể chỉ về cùng một đối tƣợng nhƣng thể hiện khác nhau, ví dụ “Nguyễn Văn Đạo” nhƣng ở vị trí khác trong văn bản cĩ thể ghi là “anh Đạo”, vì vậy việc giải quyết bài tốn đồng tham chiếu để ghép các thực thể về cùng một đối tƣợng cần đƣợc giải quyết trong việc xây dựng cơ sở dữ liệu hỗ trợ. Đây cũng chính là hƣớng phát triển tiếp theo của đề tài nhằm xây dựng một cơ sở dữ liệu hồn chỉnh phục vụ tìm kiếm, trích rút thơng tin từ hồ sơ nghiệp vụ Cơng an nhân dân.

KẾT LUẬN

Luận văn tập trung nghiên cứu giải quyết bài tốn nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân. Đây là một vấn đề cần thiết giúp cho việc lƣu trữ và tìm kiếm thơng tin đƣợc nhanh chĩng tiện lợi hơn. Với những kết quả đã đạt đƣợc, luận văn đã thể hiện:

- Luận văn đã trình bày đƣợc ý nghĩa và mục đích của bài tốn trích rút thơng tin nĩi chung và bài nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân nĩi riêng.

- Bên cạnh đấy, luận văn cũng đã trình bày một số phƣơng pháp nhằm giải quyết vấn đề đƣợc đặt ra và đi sâu vào nhĩm các phƣơng pháp giải quyết bài tốn nhận dạng thực thể.

- Sau khi phân tích, đúc kết các phƣơng pháp đã cĩ, luận văn trình bày một mơ hình đề xuất giải quyết bài tốn nhận dạng thực thể từ hồ sơ nghiệp vụ Cơng an nhân dân. Mơ hình đề xuất là sự kết hợp của ba loại phƣơng pháp nhận dạng thực thể là: nhận dạng dựa vào luật, nhận dạng dựa vào từ điển và nhận dạng dựa vào học máy.

- Mơ hình đề xuất đã đƣợc chứng minh tính đúng đắn bằng các thực nghiệm đánh giá trên tập dữ liệu đƣợc gán nhãn do chính tác giả xây dựng.

Kết quả thể hiện tính khả quan của mơ hình khi đạt kết quả 87,24% đối với độ đo F cho tồn bộ các thực thể đƣợc đánh giá. Với mơ hình này, theo chúng tơi cĩ sự khác biệt so với hệ thống nhận dạng thực thể tiếng Việt là cĩ thêm phần nhận dạng vụ việc tham gia nên việc so sánh, đánh giá với các mơ hình nhận dạng thực thể là ngƣời, địa danh, thời gian thì kết quả của các mơ hình khác cĩ độ đo F khoảng từ 80 – 85% (Theo Luận văn thạc sỹ của tác giả Nguyễn Cẩm Tú là 80,1%). Từ đặc điểm, kết quả trên và xuất phát từ thực tế cơng tác nghiên cứu, khai thác và trích rút thơng tin từ hồ sơ nghiệp vụ Cơng an nhân dân phục vụ cơng tác điều tra, khám phá các vụ án thì mơ hình nhận dạng thực thể trên cĩ tính khả quan.

Hƣớng phát triển của luận văn là tiếp tục nghiên cứu, xây dựng cơ sở dữ liệu hỗ trợ cho việc tìm kiếm mở rộng từ hồ sơ nghiệp vụ Cơng an nhân dân, nhƣ: cĩ nhiều thực thể chỉ về cùng một đối tƣợng nhƣng thể hiện khác nhau, vì vậy việc giải quyết bài tốn đồng tham chiếu để ghép các thực thể về cùng một đối tƣợng cần đƣợc giải quyết trong việc xây dựng cơ sở dữ liệu hỗ trợ. Đây cũng chính là hƣớng phát triển tiếp theo

của đề tài luận văn nhằm xây dựng một cơ sở dữ liệu hồn chỉnh phục vụ tìm kiếm, trích rút thơng tin từ hồ sơ nghiệp vụ Cơng an nhân dân phục vụ tốt hơn cho cơng tác nghiên cứu khoa học, phát hiện quy luật hoạt động của bọn tội phạm, cĩ biện pháp đấu tranh phịng chống tội phạm và các thế lực thù địch, bảo đảm an ninh chính trị và giữ gìn trật tự an tồn xã hội theo yêu cầu nhiệm vụ chính trị của ngành Cơng an mà Đảng và Nhà nƣớc giao cho./.

TÀI LIỆU THAM KHẢO A. Các cơng trình khoa học

Tiếng việt:

1. Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm

Một phần của tài liệu Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân (Trang 45)

Tải bản đầy đủ (PDF)

(58 trang)