Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
9,31 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ──────────── NGUYỄN MINH LUÂN XÂY DỰNG HỆ HỖ TRỢ TÌM KIẾM VĂN BẢN ĐIỆN TỬ THEO NGỮ NGHĨA TRONG TẬP ĐỒN BƯU CHÍNH VIỄN THƠNG VIỆT KHĨA LUẬN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN CÔNG ÁN TP HỒ CHÍ MINH – NĂM 2016 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng tôi, số liệu kết nghiên cứu nêu khóa luận trung thực.Vì tơi xin chịu trách nhiệm hồn tồn cơng trình nghiên cứu Tp Hồ Chí Minh, ngày tháng Nguyễn Minh Luân năm 2016 Mục lục Số trang Trang phụ bìa Lời cam đoan Mục lục i Danh mục hình vẽ, đồ thị ii Danh mục ký hiệu, chữ viết tắt iii MỞ ĐẦU iv Chương - Giới thiệu tổng quan khóa luận 1.1.Đặt vấn đề 1.2.Mục tiêu khóa luận 1.3.Đối tượng phạm vi nghiên cứu 1.4.Phương pháp nghiên cứu 1.5.Ý nghĩa khoa học thực tiễn Chương 2- Cơ sở lý thuyết 2.1.Vấn đề truy tìm thơng tin 2.2.Ontology 15 2.3.Mơ hình CK_ONTO 22 2.4 Các phương pháp tính khoảng cách khái niệm 30 2.5 Ứng dụng xử lý ngôn ngữ tự nhiên tìm kiếm thơng tin 36 Chương 3- Mơ hình giải pháp 40 3.1.Mô hình Ontology hỗ trợ tìm kiếm văn 41 3.2.Mơ hình biểu diễn văn theo ngữ nghĩa 47 3.3.Mơ hình kho tài liệu văn ngữ nghĩa 49 3.4 Xử lý câu truy vấn 51 3.5 Sơ đồ cấu trúc hệ truy tìm văn ngữ nghĩa 53 Chương 4- Cài đặt ứng dụng .58 4.1 Thiết kế hệ thống 58 4.2 Cài đặt hệ thống 60 4.3 Kết thử nghiệm .72 4.4 Đánh giá kết thử nghiệm .75 Chương 5- Kết luận hướng phát triển 77 5.1 Kết khóa luận 77 5.2 Hạn chế 78 5.3 Hướng phát triển 78 Tài liệu tham khảo 79 i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Trang Chương – CƠ SỞ LÝ THUYẾT Hình 2.1: Bảng mô tả 02 thành phần cốt lõi Lucene 19 Hình 2.2: Biểu diễn đồ thị Keyphase G 26 Hình 2.3: Biểu diễn đồ thị Keyphase G1 27 Hình 2.4: Biểu diễn đồ thị Keyphase G2 28 Chương – MƠ HÌNH VÀ GIẢI PHÁP Hình 3.1: Bảng mơ tả ví dụ tập quan hệ RKC 43 Hình 3.2: Bảng mơ tả ví dụ tập quan hệ RCC 44 Hình 3.3: Bảng mơ tả ví dụ quan hệ liên quan lớp 44 Hình 3.4: Biểu đồ liên hệ thành phần mơ hình văn ngữ nghĩa 51 Hình 3.5: Mơ hình hệ truy tìm văn ngữ nghĩa VNPT 54 Chương 4- CÀI ĐẶT ỨNG DỤNG Hình 4.1: Bảng tổng hợp số lượng văn có CSDL mẫu 58 Hình 4.2: Cấu trúc hệ thống 60 Hình 4.3:Các thơng tin liên quan đến văn 61 Hình 4.4: Thơng tin tổng hợp văn 62 Hình 4.5: Chức tìm kiếm theo từ khóa 63 Hình 4.6: Cơ sở liệu văn thu thập 64 Hình 4.7: Các lớp CK_ONTO_VNPT 65 Hình 4.8: Kết phân loại từ Tiếng Việt 67 Hình 4.9: Sơ đồ diagram CK_ONTO_VNPT 68 Hình 4.10: Danh mục lớp CK_ONTO_VNPT 68 Hình 4.11: Danh mục quan hệ CK_ONTO_VNPT 69 Hình 4.12: Danh mục từ khóa CK_ONTO_VNPT 70 Hình 4.13: Minh họa quan hệ keyphase với keyphase 71 Hình 4.14: Mơ hình gán mục ngữ nghĩa 71 Hình 4.15: Danh mục đồ thị ngữ nghĩa 72 Hình 4.16: Giao diện tìm kiếm theo ngữ nghĩa 73 Hình 4.17 Minh họa kết tìm kiếm theo từ khóa 74 Hình 4.18: Minh họa kết tìm kiếm theo ngữ ghĩa 75 iv DANH SÁCH CÁC KÝ HIỆU, CHỮ VIẾT TẮT CNTT : Công nghệ thông tin CK_ONTO : Classified Keyphrase based Ontology CSDL : Cơ sở liệu DRS : Document Retrieval System HĐH : Hệ điều hành IR : Information Retrieval KĐTNN : Keyphrase đặc trưng ngữ nghĩa SDB : Semantic Document Base iv MỞ ĐẦU Hiện nay, việc tìm kiếm liên quan đến ngữ nghĩa hay nội dung tài liệu nhu cầu cấp thiết thực tiễn nhằm khắc phục nhược điểm phương pháp tìm kiếm truyền thống Và cụ thể, hệ thống tìm kiếm thơng tin phần lớn dựa từ khóa mức độ phổ biến tài liệu Một danh sách từ khóa dạng biểu diễn sơ lược nội dung cách biểu diễn mang mức độ thông tin thấp Vấn đề khó khăn người sử dụng khả mô tả nhu cầu thông tin số từ khóa biểu diễn chuyển nhu cầu thành dạng thức truy vấn phù hợp với hệ thống Đặc biệt người sử dụng kinh nghiệm khơng thể đặc tả từ khóa cho vấn đề cần tìm kiếm Vì vậy, lĩnh vực khoa học máy tính có chuyển hướng dần đến hướng tri thức xử lý ngữ nghĩa Theo đó, hệ thống tìm kiếm dựa khái niệm nghiên cứu phát triển nhằm thay cho hệ thống truyền thống vốn bộc lộ nhiều khuyết điểm lớn Việc tìm kiếm dựa không gian khái niệm mối quan hệ ngữ nghĩa chúng Những cách tiếp cận theo hướng ngữ nghĩa hay theo cấu trúc khái niệm hướng tới việc mô cách tự nhiên cách người giao tiếp, nghĩa mô cấp độ hiểu ý nghĩa từ, cụm từ hay văn mà người dùng cung cấp tương ứng với người dùng nghĩ Và cách tiếp cận dựa ontology xem cách tiếp cận đại phù hợp cho việc thiết kế biểu diễn, xử lý nội dung ý nghĩa tài liệu người Bên cạnh đó, nhiều mơ hình biểu diễn cho tài liệu giàu ngữ nghĩa đề xuất mạng ngữ nghĩa, đồ thị khái niệm CGs, đồ thị hình sao, đồ thị tần số, đồ thị khoảng cách, đồ thị song phương,…được đánh giá có nhiều tiềm tận dụng thơng tin quan trọng cấu trúc mối quan hệ ngữ nghĩa vốn không xét đến mô hình biểu diễn truyền thống Xuất phát từ nhu cầu thực tế khả nghiên cứu phát triển giải pháp ứng dụng, xây dựng, triển khai hệ hỗ trợ tìm kiếm văn điện tử theo ngữ nghĩa Tập đoàn VNPT áp dụng thử nghiệm cho chi nhánh Tập đoàn tỉnh Tiền Giang, đánh giá kết quả, rút kinh nghiệm trước nhân rộng phạm vi toàn quốc iv CHƢƠNG GIỚI THIỆU TỔNG QUAN VỀ KHÓA LUẬN Chương giới thiệu tổng quan khóa luận bao gồm nghiên cứu khảo sát thực trạng ứng dụng CNTT tổ chức lưu trữ khai thác văn điện tử Tập đồn Bưu Viễn thơng Việt Nam (Tập đồn VNPT); Phân tích đánh giá thực trạng, nhu cầu khả nghiên cứu phát triển giải pháp ứng dụng Trình bày mục tiêu, giới hạn khóa luận, ý nghĩa lý luận thực tiễn, phương pháp nghiên cứu, hướng tiếp cận giải vấn đề nội dung thực khóa luận 1.1 ĐẶT VẤN ĐỀ 1.1.1 Văn hành Văn phương tiện lưu giữ truyền đạt thông tin ngôn ngữ Văn quản lý định, thông tin quản lý thành văn (được văn hóa) quan quản lý ban hành theo thẩm quyền, trình tự, hình thức định Nhà nước đảm bảo thi hành biện pháp khác nhằm điều chỉnh mối quan hệ quản lý nội quan nhà nước với tổ chức người dân Văn công cụ quan trọng, phổ biến quan, doanh nghiệp thước đo cho trình độ quản lý, văn người có thẩm quyền soạn thảo ban hành Chỉ có văn người thẩm quyền ban hành có ý nghĩa pháp lý - Về mục đích ban hành: nhằm mục đích thực nhiệm vụ, chức Nhà nước giao; - Đối tượng áp dụng: tất nhân viên tổ chức, doanh nghiệp đối tượng khác có liên quan, sở pháp lý quan trọng cho hoạt động cụ thể quan, tổ chức, cá nhân - Về trình tự ban hành, hình thức văn bản: Văn xây dựng, ban hành theo thủ tục pháp luật quy định trình bày theo hình thức luật định Mỗi loại văn thường sử dụng trường hợp định có cách thức trình bày riêng Sử dụng hình thức văn góp phần tạo thống nội dung hình thức hệ thống văn bản, tạo điều kiện thuận lợi cho việc nghiên cứu, sử dụng, triển khai thực văn - Về bảo đảm thi hành: bắt buộc chủ thể khác phải thực đảm bảo thực Nhà nước hoạt động tổ chức trực tiếp - Về văn phong: truyền đạt thông tin, mệnh lệnh từ chủ thể quản lý đến đối tượng quản lý cách đầy đủ, xác Văn quản lý thường mang tính phổ quát, đại chúng không cần chi tiết văn khoa học Văn thơng thường gồm thành phần chính: số, ký hiệu; ngày ký, người ký, quan ban hành, trích yếu 1.1.2 Văn điện tử Văn điện tử phương tiện ghi tin sử dụng rộng rãi thời đại ngày Theo quy định Nghị định số 64/2007/NĐ-CP ứng dụng công nghệ thông tin hoạt động quản lý nhà nước, “Văn điện tử” văn thể dạng thông điệp liệu Như vậy, với tính chất loại hình văn bản, văn điện tử trước hết phải đảm bảo yêu cầu ổn định, thống nhất, cố định truyền đạt thông tin cho nhiều đối tượng Điểm khác biệt văn bản điện tử với văn giấy loại hình văn khác kỹ thuật ghi tin, lưu trữ truyền tin Các công đoạn thực phương tiện hoạt động dựa công nghệ điện, điện tử, kỹ thuật số, từ tính, truyền dẫn khơng dây, quang học, điện từ cơng nghệ tích hợp 1.1.3 Thực trạng nhu cầu xây dựng hệ thống quản lý văn điện tử theo hƣớng ngữ nghĩa Tập đồn Bưu Viễn thông Việt Nam (VNPT) công ty trách nhiệm hữu hạn thành viên Nhà nước nắm giữ 100% vốn điều lệ, bao gồm: 01 Công ty mẹ, 63 chi nhánh 63 Tỉnh/Thành phố, 03 Công ty 18 Công ty cổ phần Với số lượng nhân viên 30 ngàn người thực tái cấu, xếp lại hoạt động sản xuất kinh doanh theo định số 888/QĐ-TTg ngày 10/06/2014 Chính phủ Do đó, cơng tác đạo điều hành từ Tập đoàn chi nhánh diễn thường xuyên, liên tục hầu hết hình thức văn bản, chi nhánh lại có văn đạo riêng Vì vậy, số lượng văn ngày nhiều, nhu cầu tìm kiếm văn vơ vàn văn lưu trữ yêu cầu cần thiết, đặc biệt nhu cầu quản lý văn điện tử phục vụ công tác quản lý ngày trở nên quan trọng Mặc dù toàn công văn lưu trữ dạng file mềm số hóa đơn lưu trữ chưa xếp theo hệ thống sở liệu chuẩn định Để đáp ứng nhu cầu quản lý, điều hành tập trung, liên tục, thời gian qua Tập đoàn VNPT triển khai phần mềm quản lý văn điện tử (còn gọi văn phòng điện tử), phần mềm hỗ trợ người dùng nhiều việc quản lý, lưu trữ, xử lý tìm kiếm văn điện tử Tuy nhiên, số lượng văn lớn, nhu cầu tìm kiếm cách xác nhanh chóng tăng lên.Việc khai thác, tìm kiếm văn có dựa hai phương pháp tìm kiếm chủ yếu: - Tìm kiếm theo từ khóa: Người sử dụng đưa chủ đề cần tìm tài liệu từ khóa phù hợp Hệ thống tiến hành so khớp trả danh mục tài liệu có chứa xác với từ khóa nhập vào trích yếu nội dung tài liệu Các giải pháp tìm kiếm so sánh từ khóa người dùng với liệu có sẵn sở liệu, nên người dùng phải sử dụng xác từ khóa nhận kết tìm kiếm mong muốn; - Tìm kiếm theo thuộc tính liệu: Nếu nhớ xác thơng tin văn (đơn vị ban hành?, loại văn gì?, số văn bản?), người dùng tìm kiếm theo nhiều tiêu chí khác với theo giao diện thiết kế sẳn tương ứng thuộc tính quy định tổ chức trong sở liệu 1.1.4 Một số vấn đề hạn chế Kỹ thuật tìm kiếm so khớp dựa từ khóa bộc lộ nhiều hạn chế Chẳng hạn, thông tin cung cấp từ nhiều nguồn khác nhau, thuật ngữ khơng thống nhất, thuật ngữ dùng với nhiều nghĩa khác có trường hợp nhiều thuật ngữ khác lại dùng để khái niệm có nghĩa Một số trường hợp cụ thể gồm: - Khơng tìm thấy tài liệu văn khơng có quy ước thống viết tắt cụm từ (còn gọi keyphrase): Trong Tập đồn VNPT, nhân viên có thói quen sử dụng cụm từ (keyphrase) viết tắt có ngữ nghĩa tương đương để mô tả thông tin văn lưu trữ phần mềm quản lý Ví dụ: Hai văn sau mô tả sở liệu hoàn toàn tương đương mặt ngữ nghĩa: + VB1: “Sự vụ điện khẩn số 18/VNPT-TG-DHTT việc khắc phục cố gián đoạn dịch vụ truy cập internet bão số gây ra” + VB2: “SVĐ khẩn số 18/VNPT-TG-DHTT việc khắc phục cố gián đoạn dịch vụ FTTH bão số gây ra” Nhận xét: VB2 sử dụng keyphrase viết tắt “SVĐ” tương đương keyphrase “Sự vụ điện” VB1 Tương tự VB2 sử dụng keyphrase viết tắt “FTTH” tương đương keyphrase “truy cập internet” VB1… - Khơng tìm thấy văn khơng có quy ước thống dùng keyphrases khác phản ánh ngữ nghĩa tương đương lưu trữ chúng sở liệu Ví dụ: Hai văn lưu trữ sở liệu sau: + VB1: “Văn số 137/VNPT-TG-KT ngày 01/11/2016 đề nghị giám đốc đơn vị thực tiết kiệm chi phí sản xuất kinh doanh” + VB2: “Văn số 137/VNPT-TG-KT ngày 01/11/2016 đề nghị lãnh đạo đơn vị thực tiết kiệm chi phí sản xuất kinh doanh” Nhận xét: Trong ví dụ trên, có hai văn hành đề cập đến việc đạo thủ trưởng đơn vị thực tiết kiệm chi phí sản xuất kinh doanh Nếu người dùng tìm kiếm văn “chỉ đạo thủ trưởng đơn vị thực tiết kiệm chi phí”, phương pháp tìm kiếm theo từ khố khơng tìm thấy 1.1.5 Đặt vấn đề Sau năm áp dụng phần mềm quản lý, tất tài liệu, văn điều hành đơn vị số hóa, lưu trữ hệ thống quản lý tập trung Điều dẫn đến, sở liệu lưu trữ tài liệu văn tiếp tục tăng theo thời gian theo phát triển hoạt động kinh doanh Vấn đề đặt cần có giải pháp kỹ thuật cải tiến, xử lý tìm kiếm tốt để đảm bảo việc tìm kiếm tài liệu văn hệ thống tương đối đầy đủ, chấp nhận dư thừa thơng tin, hạn chế tình trạng tài liệu văn liên quan tồn hệ thống khơng tìm thấy, nhằm giúp cho cán bộ, nhân viên, đặc biệt người quản lý xem xét đầy đủ thông tin trước định kinh doanh, góp phần tăng suất lao động, kết hoạt động đơn vị Ví dụ: Giám đốc đơn vị trước ký hợp đồng toán chi phí xây dựng hạ tầng mạng, thiết bị phụ trợ cho đối tác cần có đầy đủ văn bản, định có liên quan trước đó, khơng tìm văn làm mà ký định chi trả dẫn đến chi sai quy định, thất thoát tiền đơn vị bị truy cứu trách nhiệm Hầu hết văn điều hành số hóa lưu trữ hệ sở liệu có cấu trúc thuộc hệ thống phần mềm (Sử dụng hệ quản trị Oracle 11G) Với hệ thống tìm kiếm tại, độ xác kết tìm kiếm khơng cao, người sử dụng cần phải tự chọn lọc tìm thơng tin xác cần tìm phải qua nhiều bước tìm kiếm Các phương pháp tìm kiếm phổ biến nay, hỗ trợ người sử dụng tạo câu truy vấn gồm từ khóa tìm kiếm Tuy nhiên, từ khóa có hay nhiều nghĩa tùy theo ngữ cảnh; Bộ máy tìm kiếm khơng thể mối quan hệ từ khóa với nhau;Thơng tin có ý nghĩa với từ khóa khơng nằm kết trả Qua trình tìm hiểu kỹ thuật nay, phương pháp tìm kiếm ngữ nghĩa nhà nghiên cứu quan tâm, đặc biệt ứng dụng Ontology Tìm kiếm ngữ nghĩa(semantic search) tìm kiếm thông tin không dựa diện từ khóa hay cụm từ, mà dựa vào nghĩa từ Động tìm kiếm ngữ nghĩa khắc phục nhược điểm tìm kiếm theo từ khố cách sử dụng ngữ nghĩa học (semantics) nhờ cung cấp cho người dùng kết xác, thích đáng Nó cho phép trả kết khơng liên quan cách tường minh đến câu truy vấn nguyên mẫu, hỗ trợ phân tích, xác định ngữ nghĩa nội dung văn Từ vấn đề nêu trên, khoá luận tập trung nghiên cứu nhằm giải 02 vấn đề chính: - Tìm hiểu phương pháp tổ chức biểu diễn tri thức lĩnh vực văn nội nhằm hỗ trợ cho việc tìm kiếm theo nhiều cách khác đặc biệt theo hướng có ngữ nghĩa Trong phạm vi khoá luận này, tập trung nghiên cứu Tập đoàn VNPT - Xây dựng chức xử lý tìm kiếm văn hành hệ thống theo hướng ngữ nghĩa, chọn lọc, thơng tin phù hợp, khả giải tìm kiếm thống kê theo ngữ nghĩa để giúp cho Lãnh đạo đơn vị truy vấn thơng tin cần thiết tương đối đầy đủ, hạn chế việc tìm kiếm thiếu thơng tin, văn hành Hình 4.9 Danh mục lớp CK_ONTO_VNPT Quản lý danh mục loại quan hệ Hình 4.10 Danh mục quan hệ CK_ONTO_VNPT Quản lý danh mục từ khóa(keyphase) 68 Hình 4.11 Danh mục từ khóa CK_ONTO_VNPT - Bước 4: Thiết lập quan hệ keyphase 01 lớp (trong phạm vi khóa luận, xét quan hệ kephase 01 lớp; chưa xét đến quan hệ keyphase lớp với keyphase lớp kia) Ví dụ: Keyphase (ADSL) dịch vụ viễn thông mà VNPT cung cấp cho khách hàng, có cố chất lượng dịch vụ(truy cập Internet chậm, hay không truy cập được), kỹ sư rà soát dựa theo mối liên hệ keyphase ADSL với keyphase khác sau: 69 Hình 4.12 Minh họa quan hệ keyphase với keyphase Đối với trường hợp này, tìm kiếm theo từ khóa (kiểu truyền thống), kết trả danh sách văn có trích "chứa" từ ADSL Tuy nhiên, tìm kiếm theo ngữ nghĩa, vào mối liên hệ nêu ontology CK_ONTO_VNPT Chúng ta tìm thấy danh sách văn mà nội dung trích yếu có chứa từ khóa nêu gộp nhóm hai hay nhiều từ khóa Với điều kiện phải lưu trữ mục ngữ nghĩa(SID) cho văn CSDL 4.2.2.2 Gán mục ngữ nghĩa (SID) cho CSDL quản lý văn - Mỗi văn lưu vào CSDL văn gán mã (MA_CONG_VAN), phạm vi khóa luận xét cột "TRICH_YEU" Các bước thực gán mục SID lưu vào bảng tbGraph sau: + Rút trích keyphase có nội dung trích yếu cách xác định từ loại ( https://github.com/phuonglh/vn.vitk), tách từ, chọn lọc danh từ chung (ứng viên làm keyphase), kết hợp với số phương pháp heuristic => thu keyphase phản ánh ngữ nghĩa văn (ma_cong_van); + Duyệt CK_ONTO_VNPT tìm keyphase khác có ý nghĩa, quan hệ liên quan phạm vi lĩnh vực xét; + Xác định giá trị mức độ phổ biến keyphase ; + Lưu ma_cong_van tương ứng với ID_DOC; chuỗi keyphase vào cột G_KEYPHASE; Giá trị độ phổ biến(G_S) - Mơ hình quan hệ: 70 Hình 4.13 Mơ hình gán mục ngữ nghĩa - Giao diện thao tác phần mềm Hình 4.14 Danh mục đồ thị ngữ nghĩa 4.2.2.3 Tìm kiếm theo ngữ nghĩa Chức tìm kiếm ghi nhận nội dung người sử dụng nhập vào, xác định từ loại (https://github.com/phuonglh/vn.vitk), tách từ, rút trích keyphase nội dung cần tìm, so khớp với keyphase danh mục Grahp(G_Keyphase); Từ xác định ID_DOC (ma_cong_van lưu CSDL văn có), hiển thị danh sách văn tìm thấy giao diện phần mềm: 71 Hình 4.15 Giao diện tìm kiếm theo ngữ nghĩa 4.3 KẾT QUẢ THỬ NGHIỆM Kho tài liệu văn khoá luận thu thập 140 ngàn văn bản, bao gồm 06 lĩnh vực chun mơn, nghiệp vụ chính: Giá cước tiếp thị; Thi đua truyền thống; Điều hành thơng tin; Tài kế tốn; Lao động tiền lương; Kỹ thuật nghiệp vụ Để tiến hành đánh giá kết quả, ta thử nghiệm câu hỏi truy vấn kho liệu mẫu: Ví dụ: Tìm kiếm văn cấp liên quan đến công tác đạo, triển khai “Tình hình triển khai dịch vụ truy cập Internet (ADSL) cho khách hàng” Sau thực tìm kiếm, ta tiến hành đo hiệu suất thu thập thơng tin chương trình tìm kiếm theo ngữ nghĩa mẫu liệu thông qua độ đo recall, precision kết hợp với hệ số ngưỡng chặn cho phép kết trả tìm kiếm Chọn hệ số tối ưu cho kết tìm kiếm theo ngữ nghĩa Từ kết thử nghiệm mẫu, xét “Tong_S” keyphrases khác xuất văn Nếu văn có “Tong_S” lớn có độ liên quan cao Tiếp theo, xét “TongKey” khác xuất văn Nếu văn có số keyphrase khác xuất nhiều (“TongKey” lớn hơn) văn có độ liên quan cao Và để nâng cao hiệu tìm kiếm, ta thực tinh chỉnh kết cách thử nghiệm “Ngưỡng chặn = Hệ số*Max (Tong_S[i])” Nếu văn có tổng S nhỏ ngưỡng chặn (Tong_S[i] < Ngưỡng chặn) loại khỏi danh sách kết Để đánh giá hiệu truy tìm tài liệu hệ thống xây dựng, sử dụng hai độ đo độ xác (precision) độ bao phủ (recall) để đo thỏa mãn người dùng với tài liệu mà hệ thống tìm thấy: Gọi: +S: số lượng tài liệu mà hệ thống tìm thấy đánh giá có liên quan theo người dùng +T: tổng số tài liệu tìm thấy hệ thống 72 +U: tổng số tài liệu liên quan theo đánh giá người dùng có kho 4.3.1 Tìm kiếm văn theo thuộc tính (từ khóa) Tìm kiếm theo thuộc tính (từ khóa-keyword): phục vụ cho nhu cầu tìm kiếm văn (gồm thuộc tính: quan ban hành, loại văn bản, số hiệu, trích yếu, ngày ban hành) lưu sở liệu quan hệ Kết trả văn có chứa xác từ khóa (cụm từ) cần tìm Ví dụ: Tìm kiếm văn có từ khóa câu hỏi mẫu hệ thống Kết trả khơng tìm thấy Hình 4.16 Giao diện tìm kiếm văn theo từ khóa 4.3.2 Tìm kiếm văn theo ngữ nghĩa Trong giới hạn khoá luận này, ta tiến hành thử nghiệm tìm kiếm văn quản lý điều hành hoạt động sản xuất kinh doanh nội Tập đoàn VNPT, mẫu ví dụ cụ thể triển khai thử nghiệm thực tế chi nhánh Tập đoàn địa bàn tỉnh Tiền Giang, phục vụ cho nhu cầu tìm lại văn có liên quan đến mặt nội dung ban hành năm tháng trước Ví dụ: Tìm kiếm văn cấp liên quan đến cơng tác đạo, triển khai “Tình hình triển khai dịch vụ truy cập Internet (ADSL) cho khách hàng” Kết thử nghiệm Ta tiến hành chạy thử nghiệm mẫu ví dụ nêu Kết trả tìm hầu hết văn liên quan đến nội dung cần tìm xếp theo thứ tự độ quan trọng giảm dần 73 Hình 4.17 Giao diện tìm kiếm văn theo ngữ nghĩa Hình 4.17 Giao diện kết tìm kiếm văn theo ngữ nghĩa Thực tế, kết trả tìm kiếm theo ngữ nghĩa thường có số lượng văn lớn, văn có độ ưu tiên (điểm) thấp (được xếp sau) khơng liên quan đến nội dung cần tìm Vì để hiển thị kết trả tối ưu, ta tiến hành thử nghiệm mẫu ví dụ cụ thể tính độ đo Recision, Recall thông qua hệ số để đánh giá mức độ liên quan Từ chọn hệ số tốt cho việc xác định ngưỡng chặn chokết trả Quy ước cách đánh sau: Rất tốt: Độ xác (S/T)=1 Độ bao phủ (S/U)=1 Tốt: 0.8