Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)Hệ quản lý lịch sử xử lý văn bản dựa theo nội dung (Luận văn thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HƢƠNG LAN HỆ QUẢN LÝ LỊCH SỬ XỬ LÝ VĂN BẢN DỰA THEO NỘI DUNG Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH - 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: …………………………………………………………… (Ghi rõ học hàm, học vị) Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ở quan, tổ chức công việc hàng ngày phát sinh nhiều văn bản, giấy tờ Các văn xử lý cần lưu trữ ngăn nắp để dễ dàng cho việc tra cứu, theo dõi tìm kiếm sau Vì vậy, việc áp dụng hệ thống quản lý văn mà hỗ trợ trích văn có quan hệ nội dung xử lý theo lịch sử nhu cầu cần thiết phù hợp với xu hướng đổi công tác văn phòng Trong hoạt động quan, tổ chức nhà nước nói chung quan hành nhà nước nói riêng, văn coi sản phẩm trình quản lý, đồng thời văn nhìn nhận phương tiện hữu hiệu, đắc lực có hiệu chọ hoạt động quản lý Hoạt động quản lý hành nhà nước hoạt động mang tính thường xuyên, liên tục; thực chức quản lý lĩnh vực đời sống xã hội Do đó, suốt trình quản lý, từ việc đạo, điều hành đến tổ chức, thi hành tổng kết thực gắn liền với văn Thực tế cho thấy hoạt động quan Hành nhà nước, cơng tác quản lý văn tổ chức, thực cách hợp lý, nghiêm túc khoa học góp phần đảm bảo thông tin, cung cấp thông tin lịch sử khứ, cứ, chứng phục vụ cho hoạt động quản lý quan cần thiết Giúp cho cán bộ, công chức quan nâng cao hiệu suất cơng việc giải quyết, xử lý nhanh chóng vấn đề Hồ sơ tài liệu trở thành phương tiện theo dõi, kiểm tra, giám sát công việc cách có hệ thống, theo dõi góp phần thực tốt mục tiêu quản lý Làm tốt công tác quản lý lịch sử văn tiền đề để đảm bảo cho hoạt động quản lý diễn thông suốt; đảm bảo hiệu lực, hiệu quản lý hành nhà nước giai đoạn đẩy mạnh cơng cải cách hành Vì vậy, việc xây dựng hệ thống thu thập tìm kiếm lịch sử xử lý văn có quan hệ nội dung toán cần thiết để hỗ trợ cho việc quản lý, theo dõi kiểm tra văn Chƣơng - TỔNG QUAN Hệ thống trích thơng tin (Information Extraction) hệ thống thuộc lĩnh vực truy tìm thơng tin (Information Retrieval) Chương Tổng quan giới thiệu hệ thống truy tìm thơng tin hệ thống trích thơng tin Đây hệ thống tảng cho hệ thống quản lý lịch sử xử lý văn dựa theo nội dung 1.1 Giới thiệu hệ truy tìm thơng tin Truy tìm thơng tin (Information Retrieval) định nghĩa hệ thống thơng tin có chức thu thập, tổ chức, lưu trữ, truy tìm phân bố thông tin Các nghiên cứu liên quan đến lĩnh vực truy tìm thơng tin thường nhắm đến tảng lý thuyết cải thiện cơng nghệ tìm kiếm, bao gồm cấu trúc trì kho liệu lớn Hiện nay, hầu hết hệ thống truy tìm thơng tin thực chất hệ thống truy tìm tài liệu, nghĩa hệ thống truy tìm tài liệu có sở liệu lưu trữ có nội dung liên quan, phù hợp, đáp ứng với thông tin yêu cầu người dùng Hệ thống truy tìm thơng tin tập trung vào việc truy tìm tài liệu dựa nội dung thành phần khơng có cấu trúc Một câu truy vấn người dùng mơ tả tính chất thành phần có cấu trúc khơng có cấu trúc tài liệu truy tìm Hệ thống truy tìm thơng tin tìm kiếm tài liệu tập cho trước chủ đề thỏa mãn nhu cầu thơng tin Chủ đề nhu cầu thông tin biểu diễn câu truy vấn, phát sinh người dùng Các tài liệu thỏa mãn câu truy vấn xác định người dùng xem phù hợp Các tài liệu khơng nói chủ đề cho trước xem không phù hợp Một hệ thống truy tìm thơng tin sử dụng câu truy vấn để phân loại tài liệu, trả cho người dùng tập tài liệu thỏa mãn tiêu chuẩn phân loại Tỉ lệ tài liệu trả cho người dùng người dùng kết luận phù hợp cao nghĩa tiêu chuẩn phân loại tốt Ngoài ra, hệ thống truy tìm thơng tin xếp hạng tài liệu Tài liệu D1 xếp hạng cao câu truy vấn Q so với tài liệu D2 hiểu tài liệu D1 thỏa mãn câu truy vấn Q nhiều tài liệu D2 Điều tương đương với việc tài liệu D1 với nhu cầu thông tin người dùng nhiều tài liệu D2 Khái niệm “phù hợp” khái niệm mấu chốt hệ thống truy tìm thơng tin “Phù hợp” khái niệm mang tính chất chủ quan ngữ cảnh hài lòng người dùng tài liệu truy tìm cho câu truy vấn họ mục tiêu tối hậu Do đó, phán xét người dùng việc tài liệu truy tìm có thỏa mãn câu truy vấn họ hay không trở thành tiêu chuẩn khái niệm “phù hợp” Ngoài yếu tố câu truy vấn tập tài liệu ngữ cảnh đóng vai trò quan trọng ảnh hướng đến khái niệm “phù hợp” Mỗi người dùng có nhu cầu cá nhân khác nhau, sở thích khác nhau, kiến thức khác nhau, chuyên môn khác nhau, ngôn ngữ khác nhau,… Do đó, tài liệu truy tìm cho câu truy vấn “phù hợp” với người dùng A “khơng phù hợp” với người dùng B Một hướng tiếp cận để giải vấn đề tổ chức lưu trữ thông tin cá nhân người dùng ảnh hưởng đến việc truy tìm thơng tin như: sở thích, kiến thức, chun mơn, ngơn ngữ,… từ làm sở để truy tìm tài liệu “phù hợp” người dùng Mục tiêu hệ truy tìm thơng tin (IR) truy tìm văn tập văn hệ thống liên quan đến thông tin mà người sử dụng hệ thống cần Những thông tin người dùng đưa vào hệ thống câu truy vấn (query) Những tài liệu – văn “liên quan” (relevant) với câu truy vấn hệ thống trả Như vậy, mục đích hệ IR để tự động quy trình kiểm tra tài liệu cách tính độ đo tương quan câu truy vấn tài liệu Quy trình hệ truy tìm thơng tin sau: Người dùng gửi yêu cầu tìm tài liệu liên quan Từ câu truy vấn này, hệ thống lọc cụm từ mục Những cụm từ mục so khớp với từ mục văn xử lý Hệ thống trả văn có độ liên quan cao Giao diện Ngƣời dùng Truy vấn Xử lý văn bản, câu truy vấn Truy vấn Vector truy vấn Tập văn xếp hạng Truy tìm Văn Xếp Hạng Tập văn Chỉ mục Index file Tập văn trả Hình 1.1: Kiến trúc hệ IR Các chức hệ thống truy tìm thơng tin sau: 1.1.1 Tách từ cho tập tài liệu 1.1.2 Lập mục cho tài liệu 1.1.3 Truy tìm văn 1.1.4 Xếp loại tài liệu trả 1.2 Giới thiệu hệ thống trích thơng tin [6], [16] Hệ thống trích thơng tin (Information Extraction) kỹ thuật, lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin (Information Retrieval), khai thác liệu (Data mining), xử lý ngôn ngữ tự nhiên (Natural Language Processing) Mục tiêu rút trích thơng tin tìm thơng tin cấu trúc từ văn khơng cấu trúc bán cấu trúc Rút trích thơng tin tìm cách chuyển thơng tin văn khơng hay bán cấu trúc dạng có cấu trúc biểu diễn hay thể chúng cách hình thức dạng tập tin cấu trúc XML hay bảng cấu trúc (như bảng sở liệu chẳng hạn) Một liệu, thông tin từ nguồn khác nhau, từ internet biểu diễn cách hình thức, có cấu trúc Từ sử dụng kỹ thuật phân tích, khai thác liệu (data mining) để khám phá mẫu thơng tin hữu ích Chẳng hạn việc cấu trúc lại mẫu tin quảng cáo, mẫu tin bán hàng internet giúp hỗ trợ tư vấn, định hướng người dùng mua sắm Việc trích xuất cấu trúc lại từ khóa mẫu tin tìm người, tìm việc giúp cho trình phân tích thơng tin nghề nghiệp, xu hướng cơng việc, văn bản… hỗ trợ cho người tìm việc, nhà tuyển dụng Rút trích thơng tin khơng đòi hỏi hệ thống phải đọc hiểu nội dung tài liệu văn bản, hệ thống phải có khả phân tích tài liệu tìm kiếm thơng tin liên quan mà hệ thống mong muốn tìm thấy Các kỹ thuật rút trích thơng tin áp dụng cho tập tài liệu mà cần rút thơng tin yếu, cần thiết kiện liên quan Các kho liệu văn lĩnh vực internet ví dụ điển hình, thơng tin tồn nhiều nơi khác nhau, nhiều định dạng khác Sẽ hữu ích cho khảo sát, ứng dụng liên quan đến lĩnh vực thông tin lĩnh vực liên quan rút trích tích hợp lại thành hình thức thống biểu diễn cách có cấu trúc Khi thơng tin internet chuyển vào sở liệu có cấu trúc phục vụ cho ứng phân tích khai thác khác 1.3 Giới thiệu toán Tài liệu văn loại liệu quan trọng, loại liệu thiếu quan, trường học, thư viện… người ta dùng để mơ tả loại liệu khác Trong khuôn khổ luận văn này, tác giả đề cập đến văn hành có cấu trúc quy định nhà nước thường sử dụng gồm: Quyết định, Thơng báo, Kế hoạch, báo cáo, tờ trình, biên bản, đề xuất… trường Đại học An ninh nhân dân triển khai đến đơn vị thực Ngoài nhiều dạng văn khác nằm ngồi khn khổ luận văn Trọng tâm luận văn nghiên cứu kỹ thuật xử lý lập mục cho văn đầu vào để xác định vector đặc trưng Tác giả xây dựng hệ thống tìm kiếm cho phép nhận nội dung truy vấn từ khóa, mã văn bản, file văn kết trả văn mà nội dung có liên quan hiển thị theo thời gian đến người dùng truy vấn Trong hệ thống tìm kiếm, loại liệu phải trải qua quy trình xử lý để tìm đặc trưng riêng đối tượng, sau đối sánh với yêu cầu để tìm liệu “phù hợp” Hệ thống truy tìm tài liệu văn khơng nằm ngồi quy trình đó, tài liệu xử lý tìm đại diện tài liệu, đồng thời câu truy vấn người sử dụng đưa vào xử lý để đưa đại diện truy vấn Quá trình tiền xử lý yêu cầu cách thức tìm đặc trưng văn bản, cách thức tổ chức lưu trữ văn bản, trình xử lý văn để loại yếu tố không cần thiết nhiều bước xử lý khác Bài toán tập trung vào bước so trùng đại diện câu truy vấn với đại diện văn bản, nghiên cứu kỹ thuật đem lại hiệu so sánh để đưa tài liệu phù hợp nhất, nhanh Luận văn tìm hiểu hệ thống tìm kiếm, rút trích thơng tin, kỹ thuật tìm mối quan hệ văn liên quan với xếp văn theo trình tự thời gian Xây dựng mơ hình tìm kiếm văn với phương pháp tối ưu kết tìm xác 1.4 Mục tiêu nghiên cứu Mục đích luận văn xây dựng hệ thống quản lý lịch sử xử lý văn dựa theo nội dung Mục tiêu cụ thể luận văn: Xác định danh sách văn có mối quan hệ nội dung theo lịch sử văn Khả tìm kiếm văn theo nội dung, truy tìm văn liên quan theo trình tự xử lý theo thời gian Khả tìm kiếm văn theo thuộc tính, tìm kiếm văn liên quan theo trình tự xử lý theo thời gian 1.5 So trùng văn theo nội dung với tính chất đặc trưng văn Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu: Nghiên cứu chức hệ thống truy tìm thơng tin Nghiên cứu mơ hình hệ thống truy tìm thơng tin Các kỹ thuật mục văn Các kỹ thuật so trùng nội dung văn Các kỹ thuật phát mối quan hệ văn dựa theo nội dung Các đặc trưng văn hành Phạm vi nghiên cứu: 1.6 Văn tiếng Việt, dạng file doc, file.docx Văn hành chính: có cấu trúc quy định Cấu trúc luận văn Chƣơng 1: Chương Tổng quan giới thiệu hệ thống truy tìm thơng tin hệ thống trích thông tin Đây hệ thống tảng cho hệ thống quản lý lịch sử xử lý văn dựa theo nội dung Trên sở vấn đề mà luận văn cần giải Chƣơng 2: Trình bày kỹ thuật tìm kiếm văn bản, kỹ thuật rút trích thơng tin, kỹ thuật mục văn bản, kỹ thuật phát mối quan hệ văn theo nội dung, kỹ thuật so trùng nội dung văn Chƣơng 3: Trên sở phân tích hướng tiếp cận nghiên cứu kỹ thuật tiến hành cài đặt thuật toán dựa mơ hình truy tìm thơng tin 1.7 Kết luận chƣơng Chương giới thiệu tổng quan truy tìm thơng tin bước thực Dù xuất từ lâu thu hút nhiều quan tâm, đặc biệt thời đại bùng nổ thông tin Các chương luận văn trình bày chi tiết kỹ thuật lĩnh vực Chƣơng - CƠ SỞ LÝ THUYẾT Trình bày kỹ thuật tìm kiếm văn bản, kỹ thuật mục văn bản, kỹ thuật phát mối quan hệ văn theo nội dung, kỹ thuật so trùng nội dung văn bản, kỹ thuật rút trích thơng tin 2.1 Một số kỹ thuật tìm kiếm văn theo nội dung 2.1.1 Mơ hình Boolean kỹ thuật mục văn 2.1.1.1 Mơ hình Boolean [9], [13] 2.1.1.2 Kỹ thuật lập mục văn [4] Các văn sau thu thập phân tích, trích chọn thơng tin cần thiết (thường từ đơn, từ ghép, cụm từ quan trọng) để lưu trữ sở liệu nhằm phục vụ cho nhu cầu tìm kiếm sau Một cách để tăng tốc độ tìm kiếm thơng tin lên tạo mục cho văn Tuy nhiên, việc lập mục có nhược điểm lớn, thêm tài liệu mới, phải cập nhật lại tập tin mục Nhưng hệ thống tìm kiếm thông tin, cần cập nhật lại tập tin mục vào khoảng thời gian định kỳ Do đó, mục cơng cụ có giá trị Lập mục bao gồm công việc sau: Xác định từ có khả đại diện cho nội dung tài liệu Đánh trọng số cho từ này, trọng số phản ánh tầm quan trọng từ tài liệu Lập mục q trình phân tích xác định từ, cụm từ thích hợp cốt lõi có khả đại diện cho nội dung tài liệu Như vậy, vấn đề đặt phải rút trích thơng tin chính, có khả đại diện cho nội dung tài liệu Thông tin phải “vừa đủ”, nghĩa không thiếu để trả kết đầy đủ so với nhu cầu tìm kiếm, phải khơng dư để giảm chi phí lưu trữ chi phí tìm kiếm để loại bỏ kết dư thừa khơng phù hợp Việc rút trích việc lập mục tài liệu 3.1.2.3 Văn chuyên môn - kỹ thuật 3.1.3 Đặc đ ểm ngơn ngữ văn hành - Tính xác, rõ ràng - Tính phổ thơng đại chúng - Tính khn mẫu - Tính khách quan - Tính trang trọng, lịch 3.1.4 C c đặc trưng văn hành 3.1.4.1 Các thành phần thể thức chung bao gồm: 3.1.4.2 Các yếu tố thể thức bổ sung 3.2 Phân tích Dựa khảo sát đặc điểm, cấu trúc văn hành chính, chương trình xây dựng hệ thống văn để tìm mối quan hệ văn liên quan đến dựa theo nội dung xác định đặc trưng văn như: Mã văn bản, tóm tắt văn bản, ngày tháng năm phát hành văn bản, nội dung, mã văn liên quan - Mã văn bản: Nằm vị trí dòng thứ hai, phía bên trái, số văn số thứ tự đăng ký văn văn thư quan, tổ chức Số văn ghi chữ số Ả-rập, số 01 vào ngày đầu năm kết thúc vào ngày 31 tháng 12 hàng năm Ký hiệu văn có tên loại bao gồm chữ viết tắt tên loại văn theo bảng chữ viết tắt tên loại văn chữ viết tắt tên quan, tổ chức chức danh nhà nước ban hành văn bản, ví dụ: Số: 137/KH-T47, Số: 10/BCTH - Ngày tháng năm: Nằm vị trí dòng thứ hai, phía bên phải, tên tỉnh, thành phố trực thuộc Trung ương tên thành phố thuộc nơi quan, tổ chức đóng trụ sở thời gian phát hành văn - Tóm tắt văn bản: Là câu ngắn gọn cụm từ, phản ánh khái quát nội dung văn - Nội dung: Là phần trọng tâm trình bày nội dung văn - Mã VB liên quan: Căn vào số văn ban hành trước liên quan đến nội dung văn khác Câu truy vấn Văn Tiền xử lý Vector hố văn Trích xuất vector đặc trưng So sánh CSDL Xếp hạng lịch sử Kết trả Tập văn trả Hình 2.1: Tổng quan mơ hình Cơng việc cần giải tốn quy trình xử lý thực giai đoạn: Giai đoạn 1: Tiền xử lý - Đọc văn bản, văn tiền xử lí dạng văn bản, tách từ (sử dụng tool tiếng việt PGS Đinh Điền), loại bỏ hư từ Xác định đặc trưng văn (Mã VB, tóm tắt, thời gian phát hành, nội dung, từ khóa…) - Thực lập mục theo từ khóa mục tương ứng với đặc trưng văn Kết bước tập từ khóa, mục tương ứng với văn bản, sau lưu vào CSDL mục văn Giai đoạn 2: Tìm mối quan hệ vector đặc trƣng - Thực so trùng vector đặc trưng, tìm mối liên quan văn - Sử dụng thuật toán cosin xác định khoảng cách giao vector Giai đoạn 3: Thực tìm kiếm hiển thị kết Giai đoạn cho phép người dùng nhập từ khóa, mã văn vào để tìm kiếm tìm CSDL Kết hiển thị lịch sử văn liên quan lên giao diện cho người dùng 3.3 Thiết kế 3.3.1 Cơ liệu 3.3.1.1 Thiết kế bảng CSDL Các văn mã hóa thành 02 bảng CSDL SQL - Bảng tbl_Index: CSDL văn - Bảng tbl_Relationship: CSDL văn liên quan 3.3.1.2 Lược đồ sở liệu hệ thống Thiết kế lược đồ sở liệu hệ quản trị sở liệu SQL server để lưu trữ liệu hệ thống hình 3.2 sau: Hình 3.2: Lƣợc đồ sở liệu hệ thống Cơ sở liệu hệ thống gồm bảng sau : - Bảng Index: chứa thông tin chi tiết văn gán mã riêng biệt - Bảng Relation: chứa thông tin chi tiết văn liên quan 3.3.2 Module xử lý 3.3.2.1 Tiền xử lý văn Do việc xây dựng tách từ phức tạp nằm phạm vi nghiên cứu nên đề tài sử dụng tách từ tiếng việt Postagger viết sẵn PGS Đinh Điền để thực bước tiền xử lý văn Ta xem nội dung văn gồm nhiều câu Các câu ngăn cách dấu kết thúc câu (là dấu “.”, “?” “!”) ký tự xuống hàng (“\n”) Chúng ta xem tiêu đề câu Mỗi câu bao gồm nhiều thuật ngữ Bài toán tiền xử lý văn tiến hành gồm bước sau: Loại bỏ hƣ từ Sau tách văn thành danh sách từ, ta tiến hành loại bỏ hư từ (stopword), từ khơng có ý nghĩa đặc biệt (ví dụ: và, hoặc, cũng, là, mỗi, bởi,…) văn Thuật toán loại bỏ hư từ thực sau: Input: Tập văn D = {d1, d2, …, dn} từ điển hư từ S Output: Tập văn loại bỏ hư từ D’ = {d1’, d2’, … , dn’} Thực hiện: For di D thực While(!endoffile(di)) di’ = {wk di | wk wj S} Hình 3.3: Thuật tốn xây dựng loại bỏ hƣ từ 3.3.2.2 Kỹ thuật Indexing - Thuật tốn rút trích số văn Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập số văn ID = {id1, id2, …, idn} Phƣơng pháp: For di D thực While(!endoffile(di)) idi = {wk di | IsFirst(wk ) and ID(wk )} Hình 3.4: Thuật tốn rút trích số văn - Thuật tốn rút trích văn liên quan Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập số văn liên quan IDR = {idr1, idr2, …, idrn} Phƣơng pháp: For di D thực While(!endoffile(di)) idri = {wk di | !IsFirst(wk ) and ID(wk ) } Hình 3.5: Thuật tốn rút trích văn liên quan - Thuật tốn rút trích ngày phát hành Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập ngày văn DT = {dt1, dt2, …, dtn} Phƣơng pháp: For di D thực While(!endoffile(di)) dti = {wk di | IsHeader(wk ) and DATE(wk ) } Hình 3.6: Thuật tốn rút trích ngày phát hành - Thuật tốn rút trích từ khóa Đầu vào: Tập văn D = {d1, d2, …, dn} Đầu ra: Tập từ khóa văn K = {k1, k2, …, kn} Phƣơng pháp: For di D thực While(!endoffile(di)) ki = {wk di | !Header(wk )} Hình 3.7: Thuật tốn rút trích từ khóa - Mơ hình hóa theo không gian vector Sử dụng phƣơng pháp Inverted file [7], [13] Sau có tập từ trích, ta chọn từ để làm từ mục Tuy nhiên, từ chọn làm từ mục Các từ có khả đại diện cho tài liệu chọn, từ gọi key word, trước lập mục giai đoạn tiền xử lý từ trích để chọn key word thích hợp Như giúp hệ thống đọc văn bản, sau phân tích từ văn gán mục cho văn đó, văn có số mục cao tầm quan trọng tài liệu lớn Đánh trọng số theo TF-IDF [15] TF-IDF kết hợp tần số từ khóa (TF: Term Frequency) nghịch đảo số văn chứa từ khóa (IDF: Inverted Document Frequency) Tần số từ khóa (TF: Term Frequency) tần suất xuất từ khóa tài liệu Một cách trực quan từ quan trọng cho tài liệu từ xuất nhiều lần tài liệu ∑ Trong số lần xuất từ tài liệu Nghịch đảo số văn (IDF: Inverted Document Frequency): IDF nghịch đảo số văn chứa từ khóa Khơng phải tất từ khóa có độ quan trọng giá trị trọng số tương ứng với từ khơng quan trọng phải nhỏ Ví dụ, tần số từ chức “và”, “hoặc”, “cũng” thường lớn gây nhiễu đến nội dung tài liệu IDF tìm cách thu lại trọng số tương ứng với từ khóa xuất nhiều văn Trong đó: N tổng số văn bản, số văn chứa từ t 3.3.2.3 Tìm kiếm theo mơ hình khơng gian vector [2 ], [11] Trong kỹ thuật tìm kiếm mơ hình khơng gian vector, việc truy vấn tập liệu văn để tìm văn liên quan với câu truy vấn dựa vào kỹ thuật tính tốn mơ hình khơng gian vector Một câu truy vấn xem tập từ mục biểu diễn văn tập văn bản.Vì câu truy vấn ngắn nên có nhiều từ mục tập văn khơng xuất câu truy vấn, có nghĩa hầu hết thành phần vector truy vấn Thủ tục truy vấn tìm văn tập văn liên quan với câu truy vấn hay gọi văn có độ đo tương tự “cao” với câu truy vấn Theo cách biểu diễn hình học, văn chọn văn gần với câu truy vấn theo độ đo (measure) Độ đo thường sử dụng độ đo cosines góc vector truy vấn vector văn Nếu ma trận term – document A có cột ký hiệu Dj , j = 1, …, n n độ đo cosines vector truy vấn Q với n văn tập văn tính theo công thức: T cos D j Q j Dj Q m i 1 m D i 1 ij m i 1 Qi Dij Qi Ví dụ ta có: Giả sử ta có n = văn , n = {d1, d2, d3, d4, d5}, có m = từ mục cho văn m {= A, B, C, D, E}, với d1 = {1, 0, 0, 1, 0} có nghĩa văn d1 có từ A, từ B, từ D từ E, khơng có từ C Với văn từ mục ta biểu diễn ma trận term document A6x5 sau: 1 1 1 A 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 Thủ tục truy vấn, dựa cơng thức tính góc vector khơng gian vector chiều Giả sử người sử dụng cần thông tin “A” muốn tìm kiếm văn liên quan đến“AD” Với câu truy vấn tương ứng với vector truy vấn là: q (1) 1 0 0 T với phần tử khác không cho hai từ A B Việc tìm kiếm văn liên quan thực cách tính cosines góc j vector truy vấn q(1) với vector văn dj công thức Một văn xem liên quan (relevant) trả cosines góc tạo vector truy vấn vector văn lớn ngưỡng (threshold) cho trước Trong cài đặt thực tế ngưỡng kiểm nghiệm định người xây dựng hệ thống Nhưng ví dụ nhỏ sử dụng ngưỡng 0.5 Với vector truy vấn q(1), có giá trị cosines góc khác 0: cos1 0.8165 cos4 0.5774 Vậy văn liên quan đến A D d1 d4 trả về, văn d2, d3 d5 không liên quan bỏ qua Nếu người sử dụng muốn tìm văn liên quan đến A, kết khác, trường hợp vector truy vấn là: T q ( 2) 1 0 0 0 , cosines góc vector truy vấn vector văn theo thứ tự là: 0.5774, 0, 0, 0.4082, Vì văn d1, văn AD thoả ngưỡng cho trước 0.5 trả Văn thứ tư d4 thực có liên quan đến chủ đề D mà người sử dụng cần không trả 3.3.3 Giao diện c ương trìn Về chức năng: - Chương trình xây dựng hoàn thành tốt đáp ứng mục tiêu đề - Về giao diện: Chương trình xây dựng với giao diện đáp ứng tiêu chí dễ dử dụng thân thiện Sau số giao diện hoàn thành với hướng dẫn sử dụng bản: Hình 3.8: Giao diện chƣơng trình Giao diện chia thành phần: - Phần menu: chứa chức làm việc, gồm chức Preprocessing, Indexing Query - Phần làm việc khung màu xám để chứa khung làm việc gọi chức Giao diện Indexing Hình 3.9: Giao diện Indexing - Giao diện phần Indexing: Dùng để lập mục văn Gồm chức mục File mục toàn Folder Giao diện tìm kiếm số văn Hình 3.10: Giao diện tìm kiếm số văn Giao diện tìm kiếm từ khóa Hình 3.11: Giao diện tìm kiếm từ khóa Giao diện tìm kiếm file ` Hình 3.12: Giao diện tìm kiếm file 3.4 Cài đặt đánh giá 3.4.1 Chuẩn bị liệu 3.4.2 P ương p 3.4.3 Đ n g pđ n g ết Chương trình cài đặt NET Framework 4.5, sử dụng Visual Studio 2010, với cấu hình máy sau: Intel Corei5, 4GB RAM, Hệ điều hành Window Để tìm kiếm, người dùng tìm theo ba tiêu chí: tìm dựa số văn bản, dựa vào từ khóa dựa vào văn Với tiêu chí truy vấn, luận văn đánh giá kết độ đo: độ xác P (precision), độ phủ R (recall) độ đo F (F-measure) Bảng 3.4: Kết đánh giá với truy vấn số văn Câu truy vấn P R F 40 0.90 0.88 0.68 KH 0.78 0.77 0.57 QĐ 0.38 0.52 0.52 Ttr 0.7 0.28 0.43 BC 0.5 0.77 0.56 Bảng 3.5: Kết đánh giá với truy vấn từ khóa Câu truy vấn P R F Ngân hàng câu hỏi 0.65 0.79 0.55 Thực công tác thi đua khen thưởng 0.53 0.32 0.41 Cải cách hành 0.8 0.32 0.4 Tin học ứng dụng 0.8 0.48 0.46 Đảm bảo chất lượng 0.89 0.32 0.56 Bảng 3.6: Kết đánh giá với truy vấn văn Câu truy vấn 40_Tb chuyen TS-Hau can So 08-KH-TH Ke-hoach-134_KH-T47-TCCB-22.02.2017 P 0.49 0.5 0.47 R 0.72 0.75 0.72 F 0.52 0.52 0.51 TB37TB-ĐH-KTĐBCLGD SO 157-Ttr-QLDT 0.80 0.49 0.72 0.69 0.52 0.52 Để đánh giá truy tìm lịch sử văn bản, tiêu chí sử dụng mức độ xác kết thời gian trả kết hệ thống Trong phần lớn nghiên cứu, việc đánh giá kết thực nghiệm chủ yếu tập trung vào tiêu chí độ xác kết Luận văn thực đánh giá dựa 03 tiêu chí trình bày Kết đánh giá tìm lịch sử văn tính trung bình chung cho lần truy vấn khác tiêu chí khác Kết thể Bảng 3.7 Bảng 3.7: Kết đánh giá tìm lịch sử văn STT Câu truy vấn Truy vấn mã văn Truy vấn từ khóa Truy vấn văn Precision 99.99% 73% 87% Ví dụ: - Truy vấn đến mã văn là: 322/QĐ-T47 việc định ban hành chế độ thỉnh giảng giáo viên hệ thống tìm CSDL có 05 văn liên quan số 60/HĐTG-T47, số 61/HĐTG-T47, 62/HĐTG-T47, 63/HĐTG-T47, số 394/TB-TCCB - Truy vấn từ khóa “ngân hàng câu hỏi” hệ thống tìm có 5/7 văn liên quan Nghĩa số văn khơng liên quan có chứa từ khóa truy vấn xuất kết tìm kiếm Đây coi điểm hạn chế tồn mơ hình đề xuất Tác giả khắc phục tương lai - Truy vấn văn “SO 61-HĐTG-T47.txt” hệ thống tìm có 4/5 văn liên quan Qua kết thực nghiệm câu truy vấn vào bảng đánh giá độ liên quan cho thấy kết đạt độ Precision trung bình 87% 3.4.4 Nhận xét Qua trình thực nghiệm nhiều lần kết thực nghiệm ta thấy, với ngưỡng khác cho kết khác Do đó, việc xác định ngưỡng phù hợp cho toán thách thức, đòi hỏi phần nội dung liên quan văn cần phải sử dụng văn phong ngôn ngữ chuẩn 3.5 Kết luận chƣơng Chương khảo sát cài đặt kỹ thuật cho toán quản lý lịch sử xử lý văn dựa theo nội dung: Tiền xử lý văn Kỹ thuật Indexing Truy tìm văn xếp hạng KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận luận văn Trong luận văn trình bày nghiên cứu kỹ thuật tìm kiếm, trích thơng tin Xây dựng hệ thống quản lý thu thập truy tìm lịch sử xử lý văn dựa theo nội dung, cho kết tương đối xác, góp phần hỗ trợ vào công tác quản lý văn Tác giả xây dựng ứng dụng dùng để quản lý lịch sử xử lý văn nội đơn vị Trước đây, để tìm văn Nhà trường gửi tới đơn vị thực triển khai, phần đặc thù Ngành, đôi lúc số văn phải lưu trữ giấy tìm kiếm thủ công, quản lý lưu trữ số văn đơn vị phải làm thủ công công cụ excel đẫn đến thời gian tìm kiếm Bước đầu, luận văn chạy thực nghiệm dựa văn hành có đơn vị Đã thực tìm kiếm mối quan hệ văn theo nội dung cần tìm Trong thời gian thới luận văn trở thành công cụ đắc lực trợ giúp cho đơn vị việc quản lý theo dõi văn Tuy nhiên, luận văn số điểm hạn chế cần phải khắc phục như: Chưa thực tất loại văn Nhà trường Do cách trình bày văn văn phong chưa chuẩn nên việc đánh giá ứng dụng chưa cao ổn định cần phải khắc phục thời gian tới Hƣớng phát triển - Nghiên cứu, xây dựng, tất loại văn hành Nhà Trường - Nghiên cứu, xây dựng phần mềm có nhiều tính quản lý nâng cao cập nhật văn mới, tự động xóa văn khơng hiệu lực có ... theo nội dung Mục tiêu cụ thể luận văn: Xác định danh sách văn có mối quan hệ nội dung theo lịch sử văn Khả tìm kiếm văn theo nội dung, truy tìm văn liên quan theo trình tự xử lý theo thời... phần nội dung liên quan văn cần phải sử dụng văn phong ngôn ngữ chuẩn 3.5 Kết luận chƣơng Chương khảo sát cài đặt kỹ thuật cho toán quản lý lịch sử xử lý văn dựa theo nội dung: Tiền xử lý văn. .. xây dựng hệ thống văn để tìm mối quan hệ văn liên quan đến dựa theo nội dung xác định đặc trưng văn như: Mã văn bản, tóm tắt văn bản, ngày tháng năm phát hành văn bản, nội dung, mã văn liên quan