Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân

58 268 1
Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN LỜI CAM ĐOAN Họ tên học viên: Đinh Văn Việt SHHV: CB121363 Chuyên ngành: Công nghệ thông tin Lớp: CH2012B Ngƣời hƣớng dẫn: PGS.TS Lê Thanh Hương Đơn vị: Viện Công nghệ Thông tin - Truyền thông Tên đề tài luận văn: Trích rút thông tin từ Hồ sơ nghiệp vụ Công an nhân dân Tôi – Đinh Văn Việt - Cam kết Luận văn công trình nghiên cứu thân dƣới hƣớng dẫn PGS.TS Lê Thanh Hương Các kết nêu luận văn trung thực, chép toàn văn công trình khác Hà Nội, ngày 15 tháng năm 2014 Tác giả Luận văn Đinh Văn Việt ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn chân thành tới thầy cô giáo thuộc Viện Công nghệ Thông tin Truyền thông trường Đại học Bách Khoa Hà Nội, người tận tình dạy tất kiến thức chuyên ngành cho suốt trình học tập nghiên cứu trường Trong trình thực Luận văn tốt nghiệp học hỏi thêm nhiều điều, hội để cá nhân tổng kết kiến thức học, đồng thời rút kinh nghiệm quý báu Tôi xin chân thành cảm ơn hướng dẫn tận tình cô giáo, PGS TS Lê Thanh Hương - Bộ môn Hệ thống thông tin – Viện Công Nghệ Thông Tin Truyền Thông - Trường Đại học Bách Khoa Hà Nội Luận văn hoàn thành mức độ định Bên cạnh kết đạt được, chắn không tránh khỏi thiếu sót hạn chế Sự phê bình, nhận xét thầy cô học quý báu cho công việc nghiên cứu sau Tôi xin gửi lời cảm ơn sâu sắc đến người thân gia đình, bạn bè học viên khóa Cao học 2012B bên cạnh, ủng hộ, động viên tinh thần cho suốt trình học tập thực luận văn Một lần xin kính chúc quý thầy cô mạnh khỏe, hạnh phúc, tiếp tục đạt nhiều thành công nghiên cứu khoa học nghiệp trồng người Hà Nội, ngày 15 tháng năm 2014 HỌC VIÊN THỰC HIỆN Đinh Văn Việt ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN TÓM TẮT NỘI DUNG LUẬN VĂN Đối với công tác quản lý lƣu trữ hồ sơ nghiệp vụ Công an nhân dân việc tìm kiếm dừng lại đối tƣợng vụ án, nhiên đối tƣợng có liên quan xuất hồ sơ nghiệp vụ Công an nhân dân đầu mối hỗ trợ cho công tác trinh sát, điều tra khám phá vụ án Nhận thức đƣợc tầm quan trọng vấn đề này, luận văn tập trung nghiên cứu tìm hiểu hƣớng tiếp cận nhằm nhận dạng trích xuất thực thể thông tin có liên quan hồ sơ nghiệp vụ Công an nhân dân Nhận dạng tên thực thể toán nhận đƣợc quan tâm đặc biệt cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên nhƣ khai phá liệu tiếng Anh nhƣ tiếng Việt Mục tiêu toán nhằm tìm kiếm phân loại thực thể xuất văn Nội dung luận văn trình bày toán cần đƣợc giải quyết, thách thức số hƣớng tiếp cận giải toán.Thông qua phân tích tìm hiểu cách tiếp cận có nhƣ: hƣớng tiếp cận dựa vào luật, từ điển, học máy vài công trình liên quan, luận văn trình bày mô hình kết hợp ba hƣớng tiếp cận, kết thực nghiệm tiến hành tập liệu đƣợc xây dựng thủ công từ văn từ hồ sơ nghiệp vụ Công an nhân dân đạt kết độ đo F1 = 87, 24% ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN ABSTRACT OF THE THESIS Extraction named entity is a problem of finding, classification of the entities be lied in the documents This problem has been receiving a special attention from the research community be applied to the English and Vietnamese documents Currently, finding can only extract the main object information but the objects which associate or appear the document in the cases can be the clues to support the later works For this reason, the thesis focuses on researching the approaches of recoginition and extraction named entities andrelationship in the professional documents People's Police The content of this thesis focuses on presenting some problems, analysising the approaches such as: rules-based, dictionary-based, learning-machine method and some research works Finally, the thesis builds a model which associates three approaches The experimental results conducted by thesis on datasets from the professional documents People's Police with F1-score = 87.24% ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN Contents LỜI CAM ĐOAN LỜI CẢM ƠN TÓM TẮT NỘI DUNG LUẬN VĂN ABSTRACT OF THE THESIS MỤC LỤC DANH MỤC BẢNG VÀ HÌNH VẼ THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT CHƢƠNG GIỚI THIỆU ĐỀ TÀI LUẬN VĂN 1.1 Giới thiệu đề tài 1.2 Mục tiêu giải pháp 1.2.1 Mục tiêu 1.2.2 Nội dung vấn đề cần giải 1.3 Nội dung luận văn 10 1.4 Kết luận 11 CHƢƠNG NHÂN DÂN 2.1 BÀI TOÁN NHẬN DẠNGTHỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN 12 Giới thiệu cấu trúc hồ sơ nghiệp vụ Công an nhân dân 12 2.2 Các vấn đề thuận lợi khó khăn việc số hóa thông tin từ văn hồ sơ nghiệp vụ Công an nhân dân 15 2.3 Giới thiệu trích rút thông tin văn 16 2.4 Bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân 19 2.5 Bài toán nhận dạng thực thể 22 2.6 Các vấn đề toán nhận dạng thực thể 23 CHƢƠNG THỰC THỂ MỘT SỐ HƢỚNG TIẾP CẬN 26 GIẢI QUYẾT BÀI TOÁN NHẬN DẠNG 3.1 Hƣớng tiếp cận dựa luật (Rule-based) 26 3.2 Hƣớng tiếp cận dựa từ điển (Dictionary-based) 28 3.3 Hƣớng tiếp cận dựa phƣơng pháp học máy (Machine-learning) 28 3.4 Mô hình Markov ẩn (Hidden Markov Model - HMM) 30 3.5 Phƣơng pháp trƣờng điều kiện ngẫu nhiên (CRF) 33 3.6 Các công trình liên quan nhận dạng thực thể tiếng Việt 34 CHƢƠNG NHÂN DÂN MÔ HÌNH NHẬN DẠNG THỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN 38 4.1 Mô hình nhận dạng thực thể tiếng Việt 38 4.2 Tiền xử lý liệu 39 ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN 4.3 Thành phần nhận dạng luật 40 4.4 Thành phần nhận dạng từ điển 40 4.5 Thành phần nhận dạng học máy 41 4.6 Pha kết hợp kết 43 4.7 Các phƣơng pháp đánh giá mô hình nhận dạng thực thể 44 CHƢƠNG 5.1 THỰC NGHIỆM VÀ ĐÁNH GIÁ 45 Môi trƣờng công cụ thực nghiệm 45 5.1.1 Môi trƣờng thực nghiệm 45 5.1.2 Công cụ thực nghiệm 45 5.2 Dữ liệu thực nghiệm 45 5.2.1 Dữ liệu huấn luyện 45 5.2.2 Dữ liệu đánh giá 46 5.3 Kết thực nghiệm Công an nhân dân 47 5.3.1 Kết thực nghiệm đánh giá thành phần nhận dạng 47 5.3.2 Kết thực nghiệm sử dụng mô hình kết hợp 49 5.3.3 Kết thực nghiệm kiểm thử chéo với tập liệu đánh giá 49 5.3.4 Giao diện chƣơng trình Công an nhân dân 51 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN DANH MỤC BẢNG VÀ HÌNH VẼ ảng 2.1: Một số loại thực thể văn tiếng Việt 22 ảng 4.1: ảng mô tả ví dụ tách câu 39 ảng 4.2: ảng mô tả ví dụ tách từ 39 ảng 5.1: Môi trƣờng thực nghiệm 45 ảng 5.2: Thống kê liệu tập NCT 46 ảng 5.3: So sánh liệu tập NCT tập DG 46 ảng 5.4: Kết đánh giá thành phần nhận dạng 48 ảng 5.5: Kết đánh giá mô hình kết hợp 49 ảng 5.6: Kết kiểm thử chéo tập liệu DG 50 Hình 2.1 Hình minh họa hệ thống trích rút thông tin 18 Hình 3.1: Một ví dụ mô hình HMM gồm trạng thái 31 Hình 3.2: Đồ thị mô tả mô hình HMM 32 Hình 3.3: Một ví dụ cụ thể áp dụng mô hình HMM vào toán NER 33 Hình 3.4: Một ví dụ cụ thể áp dụng mô hình CRF vào toán NER 34 Hình 4.1: Mô hình nhận dạng thực thể tiếng Việt 38 Hình 5.1: Kết thực nghiệm đánh giá nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân 47 Hình 5.2: Kết đầu chƣơng trình 51 ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT THUẬT NGỮ Ý NGHĨA HS Hồ sơ TLLT Tài liệu lƣu trữ QA Question Answering NER Named Entity Recognition HMM Hidden Markov Model SVM Support Vector Machine CRF Conditional Random Fields IE Information Extraction IR Information Retrieval TE Terminology Extraction RE Relationship Extraction DM Data Mining NLP Natural language processing TM Text Mining TBL Transformation-based Learning MUSE Multi Source Entity Finder ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN CHƢƠNG GIỚI THIỆU ĐỀ TÀI LUẬN VĂN 1.1 Giới thiệu đề tài Trong năm gần đây, toán trích rút thông tin tài liệu tiếng Việt (Information Extraction for Vietnamese) lên nhƣ vấn đề thách thức thuộc lĩnh vực xử lý ngôn ngữ tự nhiên ngƣời có kết hợp việc phân loại văn theo cấu trúc nhà ngôn ngữ với kỹ thuật xử lý ngôn ngữ tự nhiên công nghệ thông tin Nhận dạng thực thể toán con, đồng thời toán đơn giản toán trích rút thông tin, nhằm hƣớng tới nhận dạng xác đầy đủ tên thực thể xuất văn bản, hồ sơ tài liệu liên quan nhằm giúp trình tìm kiếm thông tin có giá trị ẩn giấu sau hồ sơ tài liệu cách nhanh chóng đạt hiệu cao Bởi tầm quan trọng việc nhận dạng thực thể tài liệu văn tiếng Việt mà đƣợc nhiều nhà nghiên cứu khoa học tìm hiểu lâu thực tế có nhiều công cụ sẵn có để hỗ trợ nhƣ từ điển, kho ngữ liệu, thuật toán hiệu Trong phạm vi đề tài luận văn “Trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân”, luận văn hƣớng tới sử dụng công cụ sẵn có để hỗ trợ việc giải toán Cụ thể, luận văn sử dụng phƣơng pháp học máy sử dụng phổ biến chứng minh đƣợc tính hiệu nhƣ sử dụng tập từ điển, kho ngữ liệu hữu ích lựa chọn đặc trƣng có lợi cho giải toán 1.2 Mục tiêu giải pháp 1.2.1 Mục tiêu Nghiên cứu nắm rõ khái niệm thực thể, toán nhận dạng thực thể tài liệu văn tiếng Việt, hƣớng tiếp cận, nhƣ áp dụng mô hình, phƣơng pháp vào toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân, nhận dạng: ngƣời, thời gian, địa điểm vụ việc 1.2.2 Nội dung vấn đề cần giải - Nghiên cứu, tìm hiểu kiến thức liên quan loại thực thể, toán nhận dạng, nhận dạng tên thực thể có sẵn ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN - Đọc, hiểu, nắm rõ hƣớng tiếp cận truyền thống sử dụng luật, từ điển hƣớng tiếp cận sử dụng phƣơng pháp học máy - Áp dụng hƣớng tiếp cận vào toán nhằm nhận dạng đƣợc nhiều thực thể đáng quan tâm 1.3 Nội dung luận văn Các phƣơng pháp tiếp cận ban đầu chủ yếu dựa phƣơng pháp tiếp cận kinh nghiệm Cho tới có nhiều phƣơng pháp tiếp cận khác đƣợc đề xuất để giải toán chung nhận dạng thực thể văn tiếng Việt lẫn tài liệu tiếng Anh Luận văn giới thiệu (ba) hƣớng tiếp cận giải điển hình: dựa vào luật, dựa vào từ điển dựa vào phƣơng pháp học máy Những công trình mang tính ứng dụng cao, ngày đƣợc cải tiến cho hiệu tốt Dựa hƣớng tiếp cận này, luận văn đề xuất mô hình nhằm giải toán nhận dạng thông tin từ hồ sơ nghiệp vụ Công an nhân dân Kết thực nghiệm bƣớc đầu cho thấy mô hình phù hợp cho kết khả quan: độ đo F1 đạt khoảng 87,24% Các kết khả quan, thể đƣợc ƣu điểm mô hình đề xuất Luận văn chia làm chƣơng, nội dung gồm có:  Chương I Giới thiệu đề tài luận văn Chƣơng nhằm giới thiệu nội dung luận văn, mục tiêu giải pháp cho luận văn  Chương II Bài toán nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân Giới thiệu khái niệm toán nhận diện thực thể từ hồ sơ nghiệp vụ Công an nhân dân, khó khăn, thách thức trình số hóa thông tin từ văn bản, tài liệu có hồ sơ nghiệp vụ Công an nhân dân  Chương III Một số hướng tiếp cận giải toán nhận dạng thực thể Đƣa toán tổng quan việc nhận dạng thực thể tài liệu tiếng Việt Trong phần này, luận văn tập trung nghiên cứu tìm hiểu hƣớng tiếp cận đƣợc cộng đồng xử lý ngôn ngữ tự nhiên quan tâm tin dùng  Chương IV Mô hình nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 10 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN 4.7 Các phƣơng pháp đánh giá mô hình nhận dạng thực thể Hầu hết hệ thống sử dụng độ xác, độ bao phủ, độ đo F-score (F1) để tính hiệu mô hình học máy, thân hƣớng tới sử dụng độ đo chuẩn này, theo [17] vấn đề đánh giá toán nhận dạng thực thể đƣợc đề cập thu hút nhiều quan tâm hội thảo MUC (Message Understanding Conference) đƣợc quan quản lý dự án quốc phòng thuộc Bộ Quốc phòng Hoa Kỳ8 khởi sƣớng hỗ trợ tài MUC đƣợc đầu tƣ khuyến khích nghiên cứu phát triển phƣơng pháp cho nhận dạng thực thể Để đánh giá kết thông tin đƣợc nhận dạng, chuyên gia đƣa độ đo dựa vào độ đo đƣợc sử dụng lĩnh vực truy vấn thông tin (IR) độ xác- Precision độ hồi tƣởng - Recall  Recall (R): Số tên thực thể đƣợc hệ thống nhận dạng / Tổng số tên thực thể chứa văn đầu vào R (tp  tn)  Precision (P): Số tên thực thể đƣợc hệ thống nhận dạng / Tổng số tên thực thể đƣợc xác định hệ thống P (tp  fp ) Trong đó: tp: số kết đƣợc tìm thấy tn: số kết mà không tìm thấy fp: số kết tìm thấy mà không P R thuộc khoảng [0, 1], kết tốt P R có liên quan ảnh hƣởng lẫn Khi so sánh, đánh giá hệ thống hay phƣơng pháp thiết phải so sánh đánh giá dựa P R Theo Line Eikvil [13], việc so sánh, xem xét hai thông số lúc đơn giản, dễ dàng Vì thế, ngƣời ta tìm cách kết hợp hai độ đo đề xuất độ đo mới, F-Measure (F1) Công thức: F1 = 2× P× R P+R 8http://en.wikipedia.org/wiki/DARPA ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 44 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 Môi trƣờng công cụ thực nghiệm 5.1.1 Môi trƣờng thực nghiệm Để cài đặt phần mềm, máy tính cần có yêu cầu sau: - Java SE phiên - Hệ điều hành hỗ trợ Java SE nhƣ Windows hệ điều hành Linux (Ubuntu/Centos…) - Bộ nhớ Ram yêu cầu tối thiểu: 512MB Các thông số phần cứng hệ thống cài đặt thử nghiệm phƣơng pháp đƣợc thực thể bảng sau đây: ảng 5.1: Môi trƣờng thực nghiệm Thành phần Thông số Bộ vi xử lý Intel Core i7-3615QM (2.30GHz x 4) Bộ nhớ 8G Bộ nhớ 250GB SSD Hệ điều hành Window 64bit 5.1.2 Công cụ thực nghiệm Phần mềm đƣợc viết ngôn ngữ Java (cụ thể luận văn sử dụng Eclipse), cho phép chạy nhiều tảng khác Chƣơng trình gồm có mô đun chính: - Mô đun tiền xử lý liệu - Mô đun trích xuất đặc trƣng - Mô đun phƣơng pháp học máy CRF HMM - Mô đun nhận dạng thực thể - Mô đun đánh giá hiệu mô hình 5.2 Dữ liệu thực nghiệm 5.2.1 Dữ liệu huấn luyện Dữ liệu huấn luyện cho mô hình học máy sử dụng tập liệu gán nhãn thực thể tác giả Nguyễn Cẩm Tú cung cấp (gọi tắt tập NCT) Tập liệu gồm 294 ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 45 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN báo đƣợc lấy từ trang Web điện tử gồm nhiều miền liệu khác Tập liệu gốc đƣợc gán nhãn loại thực thể: ngƣời (per), địa danh (loc), tổ chức (org), thời gian (time), số (num), tiền tệ (cur), loại khác (misc), để phục vụ cho toán luận văn, sử dụng nhãn: ngƣời, địa danh, thời gian; nhãn loại đƣợc loại bỏ Số lƣợng liệu đƣợc thống kê bảng dƣới ảng 5.2: Thống kê liệu tập NCT Số lƣợng tài liệu 294 Số lƣợng câu 1980 Số lƣợng từ vựng tiếng Việt 37334 Số lƣợng thực thể ngƣời 541 Số lƣợng thực thể địa danh 492 Số lƣợng thực thể thời gian 642 5.2.2 Dữ liệu đánh giá Để phục vụ cho việc nhận dạng thực thể hồ sơ nghiệp vụ CAND cần có tập văn liệu mô tả vụ án đƣợc trích từ hồ sơ nghiệp vụ CAND Do yếu tố bảo mật thông tin nên việc có đƣợc liệu hạn chế, sử dụng 10 văn mô tả vụ án đƣợc lấy từ hồ sơ nghiệp vụ CAND (Bản kết luận điều tra vụ án hình sự) kết hợp tìm kiếm trang Web pháp luật thêm 12 viết mô tả vụ án khác Sau thu thập văn bản, tiến hành gán nhãn thực thể đƣợc lựa chọn là: ngƣời, địa danh, thời gian, vụ việc tham gia Dƣới thống kê số lƣợng liệu tập liệu đánh giá (gọi tắt tập DG) ảng 5.3: So sánh liệu tập NCT tập DG Số lƣợng tài liệu Số lƣợng câu Số lƣợng câu trung bình tài liệu Số lƣợng từ vựng tiếng Việt Số lƣợng từ vựng trung bình tài liệu Số lƣợng thực thể ngƣời Số lƣợng thực thể địa danh Số lƣợng thực thể thời gian Số lƣợng thực thể vụ việc tham gia Tập NCT 294 1980 6,73 37334 126.99 541 492 642 - ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 46 Tập DG 22 782 35,55 21230 965 1301 651 249 202 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN So sánh với tập Nguyễn Cẩm Tú, ta thấy tập đánh giá có số lƣợng tài liệu gần 10% (22 so với 294) nhiên có số lƣợng trung bình câu tự vựng văn cao (35.55 6.73 câu 965 126.99 từ vựng) Điều giải thích đƣợc văn tập đánh giá tài liệu mô tả chi tiết việc Dƣới ví dụ trích đoạn văn tập đánh giá đƣợc gán nhãn Nhãn “per” ngƣời, nhãn “crime” vụ việc tham gia, nhãn “time” thời gian nhãn “loc” địa danh Cao_Xuân_Hảican_tội : Trộm_cắp tài_sản Khoảng 22h50’ngày 20/12/2013, anh Nguyễn_Mạnh_Hùngsinh năm 1995, HKTT: Đồng_Lƣơng– Cẩm_Khê– Phú_Thọ, công_nhân xƣởng may nhà chị Nguyễn_Thị_Thusinh năm 1989, HKTT: Thôn_Đặng– Đặng_Xá– Gia_Lâm– Hà_Nội, chơi đến xƣởng may nhà chị Thuđã phát_hiện cửa xƣởng may bị mở, xƣởng bị tài_sản 02(hai) đầu máy_khâu công_nghiệp, anh Hùngđã báo cho chị Thubiết,sau chị Thuđã làm đơn trình_báo cơ_quan công_an Tài_sản bị trộm_cắp bao_gồm: - 01 (một) đầu máy_khâu công_nghiệp nhãn_hiệu JUKI_SUPCLASS5, đời máy 1850 (đã qua sử_dụng) - 01 (một) đầu máy_khâu công_nghiệp nhãn_hiệu KANSAI, Model: DLK 1503PTS, số máy 3070291 (đã qua sử_dụng) … Hình 5.1: Kết thực nghiệm đánh giá nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân 5.3 Kết thực nghiệm đánh giá nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân 5.3.1 Kết thực nghiệm đánh giá thành phần nhận dạng Tại thực nghiệm tiến hành đánh giá thành phần nhận dạng thực thể riêng biệt Có thành phần nhận dạng đƣợc đánh giá là: thành phần nhận dạng luật, thành phần nhận dạng từ điển, thành phần nhận dạng mô hình học máy Markov ẩn thành phần nhận dạng mô hình học máy CRF Dữ liệu huấn luyện cho mô hình học máy sử dụng tập liệu NCT Tất thành phần đƣợc đánh giá tập liệu liệu DG sử dụng độ đo xác (P), hồi tƣởng (R) F cho loại thực thể ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 47 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN ảng 5.4: Kết đánh giá thành phần nhận dạng Từ điển Luật P R F P R F - - - Ngƣời 93,47% 29,84% 45,24% Địa danh 68,56% 27,51% 39,26% 79,54% 35,19% 48,79% Thời gian 100% Vụ việc tham gia - 18,37% 31,04% - - - - 100% 74,29% 85,25% Markov ẩn P R - CRF F P R F Ngƣời 78,09% 80,33% 79,19% 83,21% 80,48% 81,82% Địa danh 64,75% 71,46% 67,94% 66,17% 70,59% 68,31% Thời gian 76,92% 82,93% 79,81% 79,14% 83,28% 81,16% Vụ việc tham gia - - - - - - Nhƣ mô tả chƣơng 4, thành phần nhận dạng luật nhận dạng thực thể: ngƣời, địa danh, thời gian; thành phần từ điển nhận dạng: địa danh vụ việc tham gia; thành phần nhận dạng học máy nhận dạng loại thực thể: ngƣời, địa danh, thời gian đƣợc huấn luyện tập liệu NCT (dữ liệu không gán nhãn vụ việc tham gia) Trong bảng kết ta thấy loại thực thể ngƣời, thành phần sử dụng mô hình học máy nhƣ Markov ẩn CRF cho kết tƣơng đối tốt 79,19% 81,82%, CRF tốt khoảng 2% Mặc dù thành phần sử dụng luật đạt 45,24%, nhiên độ xác tốt 93,47% Đối với thực thể địa danh, mô hình học máy làm việc hiệu dùng luật từ điển, nhiên kết không vƣợt 70%, nguyên nhân nhập nhằng từ địa danh xuất tên tổ chức Thực thể thời gian kết khả quan với HMM CRF, độ đo F tƣơng ứng hai mô hình 79,81 81,16% Còn thực thể vụ việc tham gia đạt kết F 85,25% việc sử dụng nhận dạng từ điển Thông qua thực nghiệm này, ta thấy thành phần sử dụng học máy cho kết khả quan việc nhận dạng loại thực thể: ngƣời, địa danh, thời gian Mô hình học máy CRF cho thấy hiệu mô hình Markov ẩn cải tiến công cụ LingPipe Trong thực nghiệm tiếp theo, tiến hành kết hợp thêm thành phần ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 48 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN nhận dạng luật từ điển với thành phần nhận dạng mô hình học máy CRF nhằm làm tăng hiệu nhận dạng thực thể 5.3.2 Kết thực nghiệm sử dụng mô hình kết hợp Trong thực nghiệm này, sử dụng phƣơng pháp kết hợp kết thành phần nhận dạng đƣợc nêu mục 4.6 nhằm làm tăng kết hệ thống Từ kết thực nghiệm trên, thấy mô hình CRF cho hiệu tốt HMM, nên thực nghiệm này, sử dụng mô hình CRF pha kết hợp kết Một vấn đề khác độ xác nhận dạng thực thể địa danh thành phần sử dụng luật không đƣợc tốt (68,56%), điều ảnh hƣởng đến kết mô hình kết hợp Để đánh giá điều này, bên cạnh thực nghiệm kết hợp thành phần (mã thực nghiệm TN1), đƣa thực nghiệm tƣơng tự nhƣng loại bỏ việc nhận dạng thực thể địa danh thành phần sử dụng luật (TN2) Dữ liệu huấn luyện sử dụng liệu NCT đánh giá DG Kết đƣợc thể bảng sau ảng 5.5: Kết đánh giá mô hình kết hợp TN P TN R F P R F Ngƣời 83,27% 81,72% 82,49% 83,27% 81,72% 82,49% Địa danh 64,02% 70,86% 67,27% 66,23% 71,04% 68,55% Thời gian 79,14% 83,59% 81,30% 79,14% 83,59% 81,30% Vụ việc tham gia Toàn thực thể 100% 74,29% 85,25% 100% 74,29% 85,25% 79,03% 78,35% 78,69% 79,63% 78,40% 79,01% Kết thực nghiệm cho thấy, loại bỏ chức nhận dạng thực thể địa danh khỏi thành phần dùng luật kết tăng khoảng 1% (từ 67,27% lên 68,55%) Các kết kết hợp cho thấy hiệu thực thể ngƣời tăng khoảng 0,67%, thực thể địa danh tăng 0,24%, thực thể thời gian tăng 0,15% so với mô hình CRF phần Bên cạnh kết hoàn thiện bổ sung thêm thực thể vụ việc tham gia 5.3.3 Kết thực nghiệm kiểm thử chéo với tập liệu đánh giá Với việc số lƣợng liệu tập DG tƣơng đối tốt (bảng 4-3) nên thực nghiệm này, đề xuất việc sử dụng tập liệu đánh giá DG làm tập học cho ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 49 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN mô hình học máy Để đánh giá mô hình, sử dụng phƣơng pháp kiểm thử chéo 10 folds (10 folds cross validation) Phƣơng pháp kiểm thử chéo đƣợc mô tả nhƣ sau: - Dữ liệu đƣợc chia thành ngẫu nhiên thành 10 phần có số lƣợng câu gần - Có 10 lần thực nghiệm, lần thực nghiệm lấy phần liệu làm liệu huấn luyện phần lại làm liệu đánh giá - Kết cuối tổng hợp lại từ 10 lần thực nghiệm Trong thực nghiệm sử dụng mô hình kết hợp học máy luật từ điển nhƣ thực nghiệm TN mục Kết thực nghiệm đƣợc mô tả bảng dƣới: ảng 5.6: Kết kiểm thử chéo tập liệu DG P R F Ngƣời 86,94% 87,54% 87,24% Địa danh 74,69% 78,05% 76,33% Thời gian 81,04% 85,29% 83,11% Vụ việc tham gia 84,17% 87,72% 85,91% Toàn thực thể 86,94% 87,54% 87,24% Kết thực nghiệm cho thấy mô hình đƣợc xây dựng tập DG cho kết cao với thực nghiệm trƣớc, đánh giá toàn thực thể tăng 8% Mặc dù việc so sánh khập khiễng thực nghiệm trƣớc đánh giá toàn tập DG thực nghiệm đánh giá 10 folds tập DG, nhiên kết cho thấy tính khả quan mô hình thực nghiệm đƣợc đề xuất Kết xuất số nhƣ nhận diện sai nhận diện thiếu thực thể Dƣới số ví dụ phân tích đƣợc từ kết nhận diện: - Nhận diện nhầm thực thể Ví dụ: o Nhầm thực thể địa danh: “phó công_an phƣờng Bắc_Sơn”, trƣờng hợp từ Bắc_Sơn nằm cụm tên chức danh “phó công an phƣờng Bắc Sơn” địa danh o Nhầm thực thể vụ việc tham gia: “triệt_phá băng_nhóm trộm_cắp” sử dụng từ điển nên cụm từ liên quan ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 50 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN - đến tội danh đƣợc gán nhãn, nhiên nhiều trƣờng hợp lại nằm cụm thông tin khác Nhận diện thiếu thực thể: o Một số cụm thực thể dài nhận diện thiếu nhƣ: nhà_nghỉ karaoke Bắc Hà nhận dạng đƣợc “karaoke ắc Hà” địa danh Trƣờng hợp xảy cụm có cấu trúc ngữ pháp phức tạp o Một số không nhận diện đƣợc thiếu từ điển nhƣ: giết chết nhiều ngƣời hay < crime> trộm chim cảnh 5.3.4 Giao diện chƣơng trình nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân Chƣơng trình cho phép ngƣời dùng nhập văn bản, tài liệu từ hồ sơ nghiệp vụ Công an nhân dân vào khung nhập liệu Sau nhập sau, ngƣời sử dụng nhấn nút “Nhận diện thực thể” để tiến hành nhận dạng thực thể liên quan đến hồ sơ nghiệp Công an nhân dân Kết nhận dạng xuất hộp thoại dƣới Hình 5.2: Kết đầu chƣơng trình ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 51 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN Đầu chƣơng trình đƣợc dƣới dạng file văn (text file), ngƣời sử dụng dựa thông tin đƣợc nhận dạng nhƣ: ngƣời, địa danh, thời gian vụ việc tham gia để tiến hành xây dựng sở liệu hỗ trợ cho việc tìm kiếm mở rộng hồ sơ nghiệp vụ Công an nhân dân Một vấn đề đặt có nhiều thực thể đối tƣợng nhƣng thể khác nhau, ví dụ “Nguyễn Văn Đạo” nhƣng vị trí khác văn ghi “anh Đạo”, việc giải toán đồng tham chiếu để ghép thực thể đối tƣợng cần đƣợc giải việc xây dựng sở liệu hỗ trợ Đây hƣớng phát triển đề tài nhằm xây dựng sở liệu hoàn chỉnh phục vụ tìm kiếm, trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 52 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN KẾT LUẬN Luận văn tập trung nghiên cứu giải toán nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân Đây vấn đề cần thiết giúp cho việc lƣu trữ tìm kiếm thông tin đƣợc nhanh chóng tiện lợi Với kết đạt đƣợc, luận văn thể hiện: - Luận văn trình bày đƣợc ý nghĩa mục đích toán trích rút thông tin nói chung nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân nói riêng - Bên cạnh đấy, luận văn trình bày số phƣơng pháp nhằm giải vấn đề đƣợc đặt sâu vào nhóm phƣơng pháp giải toán nhận dạng thực thể - Sau phân tích, đúc kết phƣơng pháp có, luận văn trình bày mô hình đề xuất giải toán nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân Mô hình đề xuất kết hợp ba loại phƣơng pháp nhận dạng thực thể là: nhận dạng dựa vào luật, nhận dạng dựa vào từ điển nhận dạng dựa vào học máy - Mô hình đề xuất đƣợc chứng minh tính đắn thực nghiệm đánh giá tập liệu đƣợc gán nhãn tác giả xây dựng Kết thể tính khả quan mô hình đạt kết 87,24% độ đo F cho toàn thực thể đƣợc đánh giá Với mô hình này, theo có khác biệt so với hệ thống nhận dạng thực thể tiếng Việt có thêm phần nhận dạng vụ việc tham gia nên việc so sánh, đánh giá với mô hình nhận dạng thực thể ngƣời, địa danh, thời gian kết mô hình khác có độ đo F khoảng từ 80 – 85% (Theo Luận văn thạc sỹ tác giả Nguyễn Cẩm Tú 80,1%) Từ đặc điểm, kết xuất phát từ thực tế công tác nghiên cứu, khai thác trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân phục vụ công tác điều tra, khám phá vụ án mô hình nhận dạng thực thể có tính khả quan Hƣớng phát triển luận văn tiếp tục nghiên cứu, xây dựng sở liệu hỗ trợ cho việc tìm kiếm mở rộng từ hồ sơ nghiệp vụ Công an nhân dân, nhƣ: có nhiều thực thể đối tƣợng nhƣng thể khác nhau, việc giải toán đồng tham chiếu để ghép thực thể đối tƣợng cần đƣợc giải việc xây dựng sở liệu hỗ trợ Đây hƣớng phát triển ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 53 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN đề tài luận văn nhằm xây dựng sở liệu hoàn chỉnh phục vụ tìm kiếm, trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân phục vụ tốt cho công tác nghiên cứu khoa học, phát quy luật hoạt động bọn tội phạm, có biện pháp đấu tranh phòng chống tội phạm lực thù địch, bảo đảm an ninh trị giữ gìn trật tự an toàn xã hội theo yêu cầu nhiệm vụ trị ngành Công an mà Đảng Nhà nƣớc giao cho./ ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 54 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN TÀI LIỆU THAM KHẢO A Các công trình khoa học Tiếng việt: Nguyễn Cẩm Tú Nhận biết loại thực thể văn tiếng Việt nhằm hỗ trợ Web ngữ nghĩa tìm kiếm hướng thực thể Khóa luận tốt nghiệp ĐHCN 5/2005 Trần Thị Ngân Trích chọn thông tin y tế tiếng Việt cho toán tìm kiếm ngữ nghĩa Khóa luận tốt nghiệp ĐHCN 2009 Tiếng Anh: A.McCallum, D.Freitag, and F Pereira Maximum entropy markov models for information extraction and segmentation In Proc Iternational Conference on Mechine Learning, 2000, pages 591-598 Andrew Moore Hidden Markov Models Tutorial Slides Baohua Gu Recognizing Named Entities in Biomedical Texts PhD Thesis, School of Computing Science, Simon Fraser Univerisity, 2008 Summer Bickel, Peter J., Ya’acov Ritov, and Tobias Ryden “Asymptotic normality of the maximum-likelihood estimator for general hidden Markov models.” The Annals of Statistics 26.4 (1998): 1614-1635 Borthwick, A., Sterling, J., Agichtein, E., & Grishman, R (1998, August) Exploiting diverse knowledge sources via maximum entropy in named entity recognition In Proc of the Sixth Workshop on Very Large Corpora (Vol 182) rill, Eric “Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging.” Computational linguistics21.4 (1995): 543-565 Cao, T H., Do, H T., Pham, B T., Huynh, T N., & Vu, D Q (2005, July) Conceptual Graphs for Knowledge Querying in VN-KIM In Contributions to the 13th International Conference on Conceptual Structures (pp 27-40) 10 Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V., Ursu, C., Dimitrov, M., & Funk, A (2009) Developing Language Processing Components with GATE Version 5:(a User Guide) University of Sheffield ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 55 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN 11 D Maynard, V Tablan, C Ursu, H Cunningham, and Y Wilks, “Named entity recognition from diverse text types,” in In Recent Advances in Natural Language Processing 2001 Conference, Tzigov Chark, 2001 12 Dien Dinh and Kiem Hoang, POS-tagger for English-Vietnamese bilingual corpus HLTNAACL Workshop on Building and using parallel texts: data driven machine translation and beyond, 2003 13 Eikvil, Line “Information extraction from world wide web-a survey.” (1999) 14 J Cowie and Y Wilks, “Information extraction,” 2000 15 Konkol, Michal “Named Entity Recognition.” (2012) 16 Mansouri, Alireza, Lilly Suriani Affendy, and Ali Mamat “A new fuzzy support vector machine method for named entity recognition.” Computer Science and Information Technology, 2008 ICCSIT'08 International Conference on IEEE, 2008 17 Nancy Chinchor MUC-6 Named Entity Task Definition (Version 2.1) MUC-6 Columbia, Maryland 1995 18 Nguyen, Truc-Vien T., and Tru H Cao “Vn-kim ie: automatic extraction of vietnamese named-entities on the web.” New Generation Computing 25.3 (2007): 277-292 19 Rabiner.A tutorial on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989 20 T Nguyen, O Tran, H Phan, and T Ha, “Named entity recognition in vietnamese free-text and web documents using conditional random fields,” Proceedings of the Eighth Conference on Some Selection Prob-lems of Information Technology and Telecommunication, Hai Phong, Viet Nam, 2005 21 Thao Pham T X., Tri T Q., Ai Kawazoe, Dien Dinh, Nigel Collier Construction of Vietnamese corpora for Named Entity Recognition VNU of HCMC Vietnam, National Institute of Informatics, Tokyo, Japan, tr 1-3 22 Thao, P T X., Tri, T Q., Dien, D., & Collier, N (2007) Named entity recognition in Vietnamese using classifier voting ACM Transactions on Asian Language Information Processing (TALIP), 6(4), ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 56 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN 23 Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan Luong Vu, A lexicon for Vietnamese language processing Language Resources and Evaluation, 2007 24 Tran, M V., Le, D T., Tran, X T., & Nguyen, T T (2012) A Model of Vietnamese Person Named Entity Question Answering System 25 Tran, O T., Le, C A., Ha, T Q., & Le, Q H (2009, December) An experimental study on vietnamese pos tagging In Asian Language Processing, 2009 IALP'09 International Conference on (pp 23-27) IEEE 26 Tran, Q T., Pham, T T., Ngo, Q H., Dinh, D., & Collier, N (2007) Named entity recognition in Vietnamese documents Progress in Informatics Journal,5, 14-17 27 Tú, N C., Oanh, T T., Hiếu, P X., & Thụy, H Q Named EntityRecognitionin Vietnamese Free-Text and Web Documents UsingConditionalRandom Fields 28 Tuoi T.Phan, Thanh C.Nguyen, Thuy N.T.Huynh Question Semantic Analysis in Vietnamese QA System The Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29-40, (2010) 29 Vu Mai Tran, Vinh Duc Nguyen, Oanh Thi Tran, Uyen Thu Thi Pham, Thuy Quang Ha An Experimental Study of Vietnamese Question Answering System In Proceedings of IALP '2009 pp.152~155 30 Wilks, Y., Guthrie, L., Guthrie, J., & Cowie, J (1992) Combining weak methods in large-scale text processing Hillsdale NJ: Lawrence Erlbaum Associates Zhou, GuoDong, and Jian Su “Named entity recognition using an HMMbased chunk tagger.” proceedings of the 40th Annual Meeting on Association for Computational Linguistics Association for Computational Linguistics, 2002 31 ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 57 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN B Website tham khảo: 10 http://protege.stanford.edu/ http://www.cse.hcmut.edu.vn/~tru/VN-KIM/products/vnkim-ie.htm http://en.wikipedia.org/wiki/DARPA http://gate.ac.uk/sale/tao/splitch10.html http://gate.ac.uk/ http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnSentDetector http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/viterbi _algorithm/s1_pg1.html http://www.fuzzytech.com/ http://www.coli.uni-saarland.de/~thorsten/tnt/ ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 58 ... vực trích rút thông tin tài liệu tiếng Việt nhƣ tiếng Anh đƣợc đƣa cụ thể phần 2.4 Bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân Bài toán trích rút thông tin từ hồ sơ nghiệp vụ. .. gian vụ việc có tài liệu từ Hồ sơ nghiệp vụ Công an nhân dân ĐINH VĂN VIỆT - CB121363 – 12BCNTT2 11 TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN CHƢƠNG BÀI TOÁN NHẬN DẠNG THỰC THỂ TỪ... quản lý, đạo công tác hồ sơ nghiệp vụ lực lƣợng An ninh nhân dân Cảnh sát nhân dân; thực chức quản lý nhà nƣớc công tác hồ sơ nghiệp vụ Công an nhân dân Hồ sơ nghiệp vụ Công an nhân dân phải

Ngày đăng: 25/07/2017, 21:55

Từ khóa liên quan

Mục lục

  • loi cam doan

  • loi cam on

  • tom tat noi dung

  • muc luc

  • danh muc bang va hinh ve

  • thuat ngu va cac tu viet tat

  • chuong 1

  • chuong 2

  • chuong 3

  • chuong 4

  • chuong 5

  • ket luan

  • tai lieu tham khao

Tài liệu cùng người dùng

Tài liệu liên quan