Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN THỊ HƢƠNG LAN NGUYỄN THỊ HƢƠNG LAN HỆ THỐNG THÔNG TIN HỆ QUẢN LÝ LỊCH SỬ XỬ LÝ VĂN BẢN DỰA THEO NỘI DUNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng nghiên cứu/ứng dụng) 2015 – 2017 HỒ CHÍ MINH 2017 TP HỒ CHÍ MINH - 2017 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN THỊ HƢƠNG LAN HỆ QUẢN LÝ LỊCH SỬ XỬ LÝ VĂN BẢN DỰA THEO NỘI DUNG Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC: TS TÂN HẠNH TP HỒ CHÍ MINH – NĂM 2017 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tp HCM, ngày 20 tháng 10 năm 2017 Học viên thực luận văn Nguyễn Thị Hƣơng Lan ii LỜI CẢM ƠN Em xin gửi lời cảm ơn sâu sắc tới Thầy Tân Hạnh, cảm ơn Thầy tận tình hƣớng dẫn, truyền đạt cho em kiến thức kinh nghiệm quý báu Em xin gửi lời tri ân sâu sắc tới quý Thầy Cô Học Viện Công Nghệ Bƣu Chính Viễn Thơng sở thành phố Hồ Chí Minh, cảm ơn Thầy Cơ hết lòng truyền đạt vốn kiến thức quý báu cho suốt thời gian học tập trƣờng Trong suốt trình làm đề tài em nhận đƣợc quan tâm giúp đỡ quý Thầy Cô, quan cơng tác, gia đình bạn bè Đó nguồn động viên quý giá lớn lao tiếp thêm động lực thêm sức mạnh cho em hoàn thành luận văn Trong trình thực mong nhận đƣợc đóng góp ý kiến Q Thầy Cơ bạn để em học thêm đƣợc nhiều kinh nghiệm Em xin chân thành cảm ơn! Tp HCM, ngày 20 tháng 10 năm 2017 Học viên thực luận văn Nguyễn Thị Hƣơng Lan iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH VẼ vii MỞ ĐẦU .1 Chƣơng - TỔNG QUAN 1.1 Giới thiệu hệ truy tìm thơng tin .2 1.1.1 Tách từ cho tập tài liệu 1.1.2 Lập mục cho tài liệu 1.1.3 Truy tìm văn 1.1.4 Xếp loại tài liệu trả 1.2 Giới thiệu hệ thống trích thơng tin 1.3 Giới thiệu toán .8 1.4 Mục tiêu nghiên cứu 1.5 Đối tƣợng phạm vi nghiên cứu 1.6 Cấu trúc luận văn .10 1.7 Kết luận chƣơng 10 Chƣơng - CƠ SỞ LÝ THUYẾT 11 2.1 Một số kỹ thuật tìm kiếm văn theo nội dung 11 2.1.1 Mơ hình Boolean kỹ thuật mục văn .11 2.1.2 Mơ hình khơng gian vector 14 2.1.3 Mơ hình tìm kiếm theo xác suất 16 2.1.4 Thƣớc đo hiệu 17 2.2 Một số kỹ thuật rút trích thơng tin 19 2.2.1 Rút trích cụm từ khóa (Keyphrase Extraction) 19 2.2.2 Rút trích thực thể dựa theo mẫu biểu thức qui 20 iv 2.3 Kết luận chƣơng 23 Chƣơng – XÂY DỰNG, THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 24 3.1 Khảo sát 24 3.1.1 Tìm hiểu văn hành 24 3.1.2 Phân loại văn hành 24 3.1.3 Đặc điểm ngơn ngữ văn hành 27 3.1.4 Các đặc trƣng văn hành 29 3.2 Phân tích 30 3.3 Thiết kế 32 3.3.1 Cơ sở liệu 32 3.3.2 Module xử lý 33 3.3.3 Giao diện chƣơng trình 39 3.4 Cài đặt đánh giá 42 3.4.1 Chuẩn bị liệu .42 3.4.2 Phƣơng pháp đánh giá .42 3.4.3 Đánh giá kết 43 3.4.4 Nhận xét 45 3.5 Kết luận chƣơng 45 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 45 DANH MỤC TÀI LIỆU THAM KHẢO 47 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt Databases Cơ sở liệu IR Information Retrieval Truy tìm thơng tin IF Inverted Files Chỉ mục ngƣợc IL Inverted List Danh sách ngƣợc TF Term frequency Tần suất xuất IDF Inverted Document Frequency Nghịch đảo số văn CSDL vi DANH SÁCH BẢNG Bảng 2.1: Văn mẫu; dòng tài liệu 13 Bảng 2.2: IF văn bảng 2.1 .14 Bảng 2.3: Bảng liệt kê siêu ký tự thƣờng d ng 21 Bảng 3.1: Bảng tbl_Index 32 Bảng 3.2: Bảng tbl_Relationship 32 Bảng 3.3: Bảng Bộ liệu 42 Bảng 3.4: Kết đánh giá với truy vấn số văn 43 Bảng 3.5: Kết đánh giá với truy vấn từ khóa 44 Bảng 3.6: Kết đánh giá với truy vấn văn 44 Bảng 3.7: Kết đánh giá tìm lịch sử văn .44 vii DANH SÁCH HÌNH VẼ Hình 1.1: Kiến trúc hệ IR .4 Hình 2.1: Mơ tả Recall 18 Hình 2.2: Mơ tả Precision 18 Hình 3.1: Tổng quan mơ hình 31 Hình 3.2: Lƣợc đồ sở liệu hệ thống 33 Hình 3.3: Thuật tốn xây dựng loại bỏ hƣ từ 34 Hình 3.4: Thuật tốn rút trích số văn 34 Hình 3.5: Thuật tốn rút trích văn liên quan 34 Hình 3.6: Thuật tốn rút trích ngày phát hành 35 Hình 3.7: Thuật tốn rút trích từ khóa .35 Hình 3.8: Giao diện chƣơng trình .40 Hình 3.9: Giao diện Indexing 40 Hình 3.10: Giao diện tìm kiếm số văn .41 Hình 3.11: Giao diện tìm kiếm từ khóa .41 Hình 3.12: Giao diện tìm kiếm file 42 MỞ ĐẦU Ở quan, tổ chức công việc hàng ngày phát sinh nhiều văn bản, giấy tờ Các văn đƣợc xử lý cần lƣu trữ ngăn nắp để dễ dàng cho việc tra cứu, theo dõi tìm kiếm sau Vì vậy, việc áp dụng hệ thống quản lý văn mà hỗ trợ trích văn có quan hệ nội dung xử lý theo lịch sử nhu cầu cần thiết ph hợp với xu hƣớng đổi cơng tác văn phòng Trong hoạt động quan, tổ chức nhà nƣớc nói chung quan hành nhà nƣớc nói riêng, văn đƣợc coi sản phẩm trình quản lý, đồng thời văn đƣợc nhìn nhận nhƣ phƣơng tiện hữu hiệu, đắc lực có hiệu cho hoạt động quản lý Hoạt động quản lý hành nhà nƣớc hoạt động mang tính thƣờng xuyên, liên tục; thực chức quản lý lĩnh vực đời sống xã hội Do đó, suốt q trình quản lý, từ việc đạo, điều hành đến tổ chức, thi hành tổng kết thực gắn liền với văn Thực tế cho thấy hoạt động quan Hành nhà nƣớc, công tác quản lý văn đƣợc tổ chức, thực cách hợp lý, nghiêm túc khoa học góp phần đảm bảo thơng tin, cung cấp thông tin lịch sử khứ, cứ, chứng phục vụ cho hoạt động quản lý quan cần thiết Giúp cho cán bộ, công chức quan nâng cao hiệu suất công việc giải quyết, xử lý nhanh chóng vấn đề Hồ sơ tài liệu trở thành phƣơng tiện theo dõi, kiểm tra, giám sát cơng việc cách có hệ thống, theo dõi góp phần thực tốt mục tiêu quản lý Làm tốt công tác quản lý lịch sử văn tiền đề để đảm bảo cho hoạt động quản lý diễn thông suốt; đảm bảo hiệu lực, hiệu quản lý hành nhà nƣớc giai đoạn đẩy mạnh công cải cách hành Vì vậy, việc xây dựng hệ thống thu thập tìm kiếm lịch sử xử lý văn có quan hệ nội dung toán cần thiết để hỗ trợ cho việc quản lý, theo dõi nhƣ kiểm tra văn 34 Sau tách văn thành danh sách từ, ta tiến hành loại bỏ hƣ từ (stopword), từ khơng có ý nghĩa đặc biệt (ví dụ: và, hoặc, cũng, là, mỗi, bởi,…) văn Thuật toán loại bỏ hƣ từ đƣợc thực nhƣ sau: Input: Tập văn D = {d1, d2, …, dn} từ điển hƣ từ S Output: Tập văn loại bỏ hƣ từ D’ = {d1’, d2’, … , dn’} Thực hiện: For di D thực While(!endoffile(di)) di’ = {wk di | wk wj S} Hình 3.3: Thuật tốn xây dựng loại bỏ hƣ từ 3.3.2.2 Kỹ thuật Indexing - Thuật tốn rút trích số văn Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập số văn ID = {id1, id2, …, idn} Phƣơng pháp: For di D thực While(!endoffile(di)) idi = {wk di | IsFirst(wk ) and ID(wk )} Hình 3.4: Thuật tốn rút trích số văn - Thuật tốn rút trích văn liên quan Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập số văn liên quan IDR = {idr1, idr2, …, idrn} Phƣơng pháp: For di D thực While(!endoffile(di)) idri = {wk di | !IsFirst(wk ) and ID(wk ) } Hình 3.5: Thuật tốn rút trích văn liên quan 35 - Thuật toán rút trích ngày phát hành Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập ngày văn DT = {dt1, dt2, …, dtn} Phƣơng pháp: For di D thực While(!endoffile(di)) dti = {wk di | IsHeader(wk ) and DATE(wk ) } Hình 3.6: Thuật tốn rút trích ngày phát hành - Thuật tốn rút trích từ khóa Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập từ khóa văn K = {k1, k2, …, kn} Phƣơng pháp: For di D thực While(!endoffile(di)) ki = {wk di | !Header(wk )} Hình 3.7: Thuật tốn rút trích từ khóa - Mơ hình hóa theo khơng gian vector Sử dụng phƣơng pháp Inverted file [7], [13] Sau có đƣợc tập từ đƣợc trích, ta chọn từ để làm từ mục Tuy nhiên, từ đƣợc chọn làm từ mục Các từ có khả đại diện cho tài liệu đƣợc chọn, từ đƣợc gọi key word, trƣớc lập mục giai đoạn tiền xử lý từ trích đƣợc để chọn key word thích hợp Nhƣ giúp hệ thống đọc đƣợc văn bản, sau phân tích từ văn gán mục cho văn đó, văn có số mục cao tầm quan trọng tài liệu lớn Giả sử câu truy vấn ngƣời sử dụng sau lập mục tập từ khóa {t1, t2, , tn} Ví dụ: truy vấn “cơng nghệ thông tin” đƣợc lập mục gồm hai từ “công nghệ” “thông tin” với giá trị n thƣờng không lớn (2, 3, 4…) 36 Yêu cầu ngƣời sử dụng vector mục mà cần tìm vector có chứa t1, t2, , tn Điều thực dễ dàng cách lƣu nhóm vector (văn bản) theo mục từ t1: 1, 3, t2: 1, 2, 4, t3: 2, 4, Nghĩa là: Mục từ t1 có tài liệu 1, 3, Mục từ t2 có tài liệu 1,2,4,5 Mục từ t3 có tài liệu 2, 4, Khi trình tìm kiếm (t1, t3) đƣợc thực theo bƣớc sau: Tìm tập văn có chứa t1, gọi T1 = {1,3,4} Tìm tập văn có chứa t3, gọi T2 = {2,4,5} Tập văn có chứa t1 t3 T = T1∩ T2={4} Tính tốn độ tƣơng tự câu truy vấn tài liệu có tập T Sử dụng cơng thức tính độ tƣơng tự: Sim(D, Q) = vi*wi, i = n với ti mục từ có Q (do wi=0 với mục từ ti khơng có Q wi =1 ti có Q) Rõ ràng việc tính độ tƣơng tự cần tới trọng lƣợng mục từ có Q nên để tăng thêm hiệu ta lƣu thêm giá trị trọng lƣợng mục từ tập tin nghịch đảo t1: (1, 0.5) (3, 0.7) (4, 0.2) t2: (1, 0.4) (2, 0.8) (4, 0.9) (5, 0.1) t3: (2, 0.3) (4, 0.2) (5, 0.5) Nghĩa mục từ t1 có tài liệu với trọng lƣợng 0.5, tài liệu với trọng lƣợng 0.7 v v 37 Khi để tìm kiếm cho câu truy vấn (t1, t3) cần đọc khối liệu t1 t3 đủ (giảm truy xuất đĩa giảm thời gian xử lý) Đánh trọng số theo TF-IDF [15] TF-IDF kết hợp tần số từ khóa (TF: Term Frequency) nghịch đảo số văn chứa từ khóa (IDF: Inverted Document Frequency) Tần số từ khóa (TF: Term Frequency) tần suất xuất từ khóa tài liệu Một cách trực quan từ quan trọng cho tài liệu từ xuất nhiều lần tài liệu ∑ Trong số lần xuất từ tài liệu Nghịch đảo số văn (IDF: Inverted Document Frequency): IDF nghịch đảo số văn chứa từ khóa Khơng phải tất từ khóa có độ quan trọng nhƣ giá trị trọng số tƣơng ứng với từ khơng quan trọng phải nhỏ Ví dụ, tần số từ chức nhƣ “và”, “hoặc”, “cũng” thƣờng lớn gây nhiễu đến nội dung tài liệu IDF tìm cách thu lại trọng số tƣơng ứng với từ khóa xuất nhiều văn Trong đó: N tổng số văn bản, số văn chứa từ t 3.3.2.3 Tìm kiếm theo mơ hình khơng gian vector [2 ], [11] Trong kỹ thuật tìm kiếm mơ hình khơng gian vector, việc truy vấn tập liệu văn để tìm văn liên quan với câu truy vấn dựa vào kỹ thuật tính tốn mơ hình không gian vector Một câu truy vấn đƣợc xem nhƣ tập từ mục đƣợc biểu diễn nhƣ văn tập văn bản.Vì câu truy vấn ngắn nên có nhiều từ mục tập văn không xuất câu truy vấn, có nghĩa hầu hết thành phần vector truy vấn Thủ tục truy vấn tìm văn tập văn liên quan với câu truy vấn hay gọi văn 38 có độ đo tƣơng tự “cao” với câu truy vấn Theo cách biểu diễn hình học, văn đƣợc chọn văn gần với câu truy vấn theo độ đo (measure) Độ đo thƣờng đƣợc sử dụng độ đo cosines góc vector truy vấn vector văn Nếu ma trận term – document A có cột đƣợc ký hiệu Dj , j = 1, …, n n độ đo cosines vector truy vấn Q với n văn tập văn đƣợc tính theo cơng thức: T cos D j Q j Dj Q m i 1 m i 1 Dij m i1 Qi Dij Qi Ví dụ ta có: Giả sử ta có n = văn , n = {d1, d2, d3, d4, d5}, có m = từ mục cho văn m {= A, B, C, D, E}, với d1 = {1, 0, 0, 1, 0} có nghĩa văn d1 có từ A, từ B, từ D từ E, khơng có từ C Với văn từ mục ta biểu diễn ma trận term document A6x5 nhƣ sau: 1 1 1 A 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 Thủ tục truy vấn, dựa cơng thức tính góc vector khơng gian vector chiều Giả sử ngƣời sử dụng cần thông tin “A” muốn tìm kiếm văn liên quan đến“AD” Với câu truy vấn tƣơng ứng với vector truy vấn là: q (1) 1 0 0 T với phần tử khác không cho hai từ A B Việc tìm kiếm văn liên quan đƣợc thực cách tính cosines góc j vector truy vấn q(1) với vector văn dj công thức Một văn đƣợc xem nhƣ liên quan 39 (relevant) đƣợc trả cosines góc đƣợc tạo vector truy vấn vector văn lớn ngƣỡng (threshold) cho trƣớc Trong cài đặt thực tế ngƣỡng đƣợc kiểm nghiệm định ngƣời xây dựng hệ thống Nhƣng ví dụ nhỏ sử dụng ngƣỡng 0.5 Với vector truy vấn q(1), có giá trị cosines góc khác 0: cos1 0.8165 cos4 0.5774 Vậy văn liên quan đến A D d1 d4 đƣợc trả về, văn d2, d3 d5 không liên quan đƣợc bỏ qua Nếu ngƣời sử dụng muốn tìm văn liên quan đến A, kết khác, trƣờng hợp vector truy vấn là: T q ( 2) 1 0 0 0 , cosines góc vector truy vấn vector văn theo thứ tự là: 0.5774, 0, 0, 0.4082, Vì văn d1, văn AD thoả ngƣỡng cho trƣớc 0.5 đƣợc trả Văn thứ tƣ d4 thực có liên quan đến chủ đề D mà ngƣời sử dụng cần nhƣng không đƣợc trả 3.3.3 Giao diện chương trình - Về chức năng: Chƣơng trình xây dựng hoàn thành tốt đáp ứng đƣợc mục tiêu đề - Về giao diện: Chƣơng trình đƣợc xây dựng với giao diện đáp ứng đƣợc tiêu chí dễ dử dụng thân thiện Sau số giao diện hoàn thành c ng với hƣớng dẫn sử dụng bản: 40 Hình 3.8: Giao diện chƣơng trình Giao diện đƣợc chia thành phần: - Phần menu: chứa chức làm việc, gồm chức Preprocessing, Indexing Query - Phần làm việc khung màu xám để chứa khung làm việc gọi chức Giao diện Indexing Hình 3.9: Giao diện Indexing 41 - Giao diện phần Indexing: D ng để lập mục văn Gồm chức mục File mục tồn Folder Giao diện tìm kiếm số văn Hình 3.10: Giao diện tìm kiếm số văn Giao diện tìm kiếm từ khóa Hình 3.11: Giao diện tìm kiếm từ khóa 42 Giao diện tìm kiếm file ` Hình 3.12: Giao diện tìm kiếm file 3.4 Cài đặt đánh giá 3.4.1 Chuẩn bị liệu Để đánh giá kết đạt đƣợc, luận văn sử dụng tập văn hành Trƣờng Đại học An Ninh Nhân Dân triển khai đến đơn vị Bộ liệu gồm 100 văn thuộc nội dung sau: Bảng 3.3: Bảng Bộ liệu Chủ đề Số văn Xây dựng ngân hàng câu hỏi 15 Rèn luyện thể lực 10 Đào tạo, bồi dƣỡng giáo viên 33 Thi đua 23 Cải cách Hành tƣ pháp 19 3.4.2 Phương ph p đ nh gi Để đánh giá tính hiệu hệ thống, cơng trình nghiên cứu sử dụng độ đo F (F-measure) Công thức độ đo F đƣợc tính nhƣ sau: 43 ∑ Với F(i,j) độ đo F cụm j lớp i P(i,j) độ xác (precision) cụm j lớp i R(i,j) độ bao phủ (Recall) lớp i cụm j Tổng quát, độ đo F lớn cho kết gom cụm tốt Độ rõ Độ bao phủ Với ni số lƣợng văn lớp i, nj số lƣợng văn cụm j, nij số lƣợng văn lớp i cụm j 3.4.3 Đ nh gi ết Chƣơng trình đƣợc cài đặt NET Framework 4.5, sử dụng Visual Studio 2010, với cấu hình máy nhƣ sau: Intel Corei5, 4GB RAM, Hệ điều hành Window Để tìm kiếm, ngƣời d ng tìm theo ba tiêu chí: tìm dựa số văn bản, dựa vào từ khóa dựa vào văn Với tiêu chí truy vấn, luận văn đánh giá kết độ đo: độ xác P (precision), độ phủ R (recall) độ đo F (F-measure) Bảng 3.4: Kết đánh giá với truy vấn số văn Câu truy vấn P R F 40 0.90 0.88 0.68 KH 0.78 0.77 0.57 QĐ 0.49 0.52 0.52 Ttr 0.7 0.28 0.43 BC 0.5 0.77 0.56 44 Bảng 3.5: Kết đánh giá với truy vấn từ khóa Câu truy vấn P R F Ngân hàng câu hỏi 0.65 0.79 0.55 Thực công tác thi đua khen thƣởng 0.53 0.32 0.41 Cải cách hành 0.8 0.32 0.4 Tin học ứng dụng 0.8 0.48 0.46 Đảm bảo chất lƣợng 0.89 0.32 0.56 Bảng 3.6: Kết đánh giá với truy vấn văn Câu truy vấn P R F 40_Tb chuyen TS-Hau can 0.49 0.72 0.52 So 08-KH-TH 0.5 0.75 0.52 Ke-hoach-134_KH-T47-TCCB-22.02.2017 0.47 0.72 0.51 TB37TB-ĐH-KTĐBCLGD 0.80 0.72 0.52 SO 157-Ttr-QLDT 0.49 0.69 0.52 Để đánh giá truy tìm lịch sử văn bản, tiêu chí đƣợc sử dụng mức độ xác kết thời gian trả kết hệ thống Trong phần lớn nghiên cứu, việc đánh giá kết thực nghiệm chủ yếu tập trung vào tiêu chí độ xác kết Luận văn thực đánh giá dựa 03 tiêu chí nhƣ trình bày Kết đánh giá tìm lịch sử văn đƣợc tính trung bình chung cho lần truy vấn khác tiêu chí khác Kết đƣợc thể Bảng 3.7 Bảng 3.7: Kết đánh giá tìm lịch sử văn STT Câu truy vấn Precision Truy vấn mã văn 100% Truy vấn từ khóa 73% Truy vấn văn 87% 45 Ví dụ: Truy vấn đến mã văn là: 322/QĐ-T47 việc định ban hành - chế độ thỉnh giảng giáo viên hệ thống tìm CSDL có 05 văn liên quan số 60/HĐTG-T47, số 61/HĐTG-T47, 62/HĐTG-T47, 63/HĐTG-T47, số 394/TB-TCCB Truy vấn từ khóa “ngân hàng câu hỏi” hệ thống tìm có 5/7 - văn liên quan Nghĩa số văn khơng liên quan có chứa từ khóa truy vấn xuất kết tìm kiếm Đây coi điểm hạn chế tồn mơ hình đề xuất Tác giả khắc phục tƣơng lai Truy vấn văn “SO 61-HĐTG-T47.txt” hệ thống tìm - có 4/5 văn liên quan Qua kết thực nghiệm câu truy vấn vào bảng đánh giá độ liên quan cho thấy kết đạt đƣợc độ Precision trung bình 87% 3.4.4 Nhận xét Qua trình thực nghiệm nhiều lần kết thực nghiệm ta thấy, với ngƣỡng khác cho kết khác Do đó, việc xác định ngƣỡng ph hợp cho tốn thách thức, đòi hỏi phần nội dung liên quan văn cần phải sử dụng văn phong ngôn ngữ chuẩn 3.5 Kết luận chƣơng Chƣơng khảo sát cài đặt kỹ thuật cho toán quản lý lịch sử xử lý văn dựa theo nội dung: Tiền xử lý văn Kỹ thuật Indexing Truy tìm văn xếp hạng 46 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận luận văn Trong luận văn trình bày nghiên cứu kỹ thuật tìm kiếm, trích thơng tin Xây dựng hệ thống quản lý thu thập truy tìm lịch sử xử lý văn dựa theo nội dung, cho kết tƣơng đối xác, góp phần hỗ trợ vào cơng tác quản lý văn Tác giả xây dựng đƣợc ứng dụng d ng để quản lý lịch sử xử lý văn nội đơn vị Trƣớc đây, để tìm văn Nhà trƣờng gửi tới đơn vị thực triển khai, phần đặc th Ngành, đôi lúc số văn phải lƣu trữ giấy tìm kiếm thủ cơng, quản lý lƣu trữ số văn đơn vị phải làm thủ công công cụ excel đẫn đến thời gian tìm kiếm Bƣớc đầu, luận văn đƣợc chạy thực nghiệm dựa văn hành có đơn vị Đã thực tìm kiếm đƣợc mối quan hệ văn theo nội dung cần tìm Trong thời gian thới luận văn trở thành công cụ đắc lực trợ giúp cho đơn vị việc quản lý theo dõi văn Tuy nhiên, luận văn số điểm hạn chế cần phải khắc phục nhƣ: Chƣa thực tất loại văn Nhà trƣờng Do cách trình bày văn văn phong chƣa đƣợc chuẩn nên việc đánh giá ứng dụng chƣa đƣợc cao ổn định cần phải khắc phục thời gian tới Hƣớng phát triển - Nghiên cứu, xây dựng, tất loại văn hành Nhà Trƣờng - Nghiên cứu, xây dựng phần mềm có nhiều tính quản lý nâng cao cập nhật đƣợc văn mới, tự động xóa đƣợc văn khơng hiệu lực có 47 DANH MỤC TÀI LIỆU THAM KHẢO [1] Bộ Nội vụ (2011), Hướng dẫn thể thức kỹ thuật trình bày văn hành chính, Thơng tƣ số 01/2011/TT-BNV ngày 19/01/2011 [2] Đỗ Trung Hiếu (2005), Số hóa văn theo mơ hình khơng gian vector ứng dụng, luận văn thạc sĩ, Trƣờng Đại Học Khoa Học Tự Nhiên [3] Lƣu Kiếm Thanh (2004), Hướng dẫn soạn thảo văn quản lý hành nhà nước, Sách tham khảo, NXB Thống kê, Hà Nội [4] PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện, Viện khoa học công nghệ Việt Nam [5] TS Đỗ Quang Vinh (2013), Bài giảng thư viện số, Hà Nội [6] Dmitry Zelenko, Chinatsu Aone, Anthony Richardella (2003), “Kernel Methods for Relation Extraction”, Journal of Machine Learning Research 3, pp.1083-1106 [7] Dong Thi Bich Thuy, Ho Bao Quoc, Marie-France Bruandet, Jean-Pierre Chevallet (2002), “An approach to Vietnamese Information Retrival”, IEEERIVF International Conference on Computing and Communication Technologies [8] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word Segmentation”, Proceedings of the NLPRS2001, Tokyo, pp.749-756 [9] Gerald J.Kowalski, Mark T.Maybury (2013), Information Storage and Retrieval Systems, Springer-Verlag, New York Inc [10] B Prabhakaran (2012), Multimedia Database Management Systems, Springer, London [11] Michael W Berry, Zlatko Drmac, Elizabeth R Jessup (1999), “Matrix, Vector Space, and Information Retrieval”, SIAM REVIEW Vol 41, No 2, pp 335 – 352 48 [12] P.D Turney (2000), “Learning algorithms for keyphrase extraction”, Information Retrieval, vol 2, no 4, pp 303- 336 [13] Ricardo Baeza, Berthier Ribeiro (1999), Modern Information Retrieval, ACM Press New York [14] Scott Miller, Heidi Fox, et al (2000) A Novel use of statistical parsing to extract information from Text, In 6th Applied Natural Language Processing Conference [15] William B.Frakes, Ricardo Baeza – Yakes (1992), Information Retrieval – Data Structures & Algorithms, Prentice-Hall, Inc.Upper Saddle River, NJ, USA [16] Bách khoa toàn thƣ mở, https://vi.wikipedia.org, truy nhập ngày 26/5/2017 [17] Trang thông tin điện tử Bộ nội vụ sở liệu văn quy phạm pháp luật văn hành chính, https://www.moha.gov.vn, truy nhập ngày 18/2/2017 [18] http://www.regular-expressions.info/, truy nhập ngày 21/6/2017 [19] Dữ liệu nội Trƣờng Đại học An ninh Nhân dân ... dựa theo nội dung Mục tiêu cụ thể luận văn: Xác định danh sách văn có mối quan hệ nội dung theo lịch sử văn Khả tìm kiếm văn theo nội dung, truy tìm văn liên quan theo trình tự xử lý theo thời... CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG NGUYỄN THỊ HƢƠNG LAN HỆ QUẢN LÝ LỊCH SỬ XỬ LÝ VĂN BẢN DỰA THEO NỘI DUNG Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ... thơng tin hệ thống trích thơng tin Đây hệ thống tảng cho hệ thống quản lý lịch sử xử lý văn dựa theo nội dung Trên sở vấn đề mà luận văn cần giải Chƣơng 2: Trình bày kỹ thuật tìm kiếm văn bản, kỹ