Nghiên cứu phương pháp đo lường mức độ tương đồng ngữ nghĩa cho bài toán tìm kiếm trong kho tài liệu học tập lĩnh vực công nghệ thông tin

74 1.1K 5
Nghiên cứu phương pháp đo lường mức độ tương đồng ngữ nghĩa cho bài toán tìm kiếm trong kho tài liệu học tập lĩnh vực công nghệ thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  PHẠM NGUYỄN TRƯỜNG AN NGHIÊN CỨU PHƯƠNG PHÁP ĐO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA CHO BÀI TỐN TÌM KIẾM TRONG KHO TÀI LIỆU HỌC TẬP LĨNH VỰC CNTT LUẬN VĂN THẠC SĨ KHÓA NGÀNH KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH - 2014 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  PHẠM NGUYỄN TRƯỜNG AN NGHIÊN CỨU PHƯƠNG PHÁP ĐO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA CHO BÀI TỐN TÌM KIẾM TRONG KHO TÀI LIỆU HỌC TẬP LĨNH VỰC CNTT LUẬN VĂN THẠC SĨ KHÓA NGÀNH KHOA HỌC MÁY TÍNH NGƯỜI HƯƠNG DẪN KHOA HỌC PGS TS ĐỖ VĂN NHƠN TP HỒ CHÍ MINH – 2014 Mục lục Chương Tổng quan 1.1 Giới thiệu tổng quan vấn đề nghiên cứu 1.1.1 Nhu cầu thực trạng tìm kiếm theo ngữ nghĩa kho tài liệu 1.1.2 Khảo sát số giải pháp ứng dụng tìm kiếm ngữ nghĩa kho tài liệu 1.2 Mục tiêu phạm vi luận văn 1.3 Nội dung phương pháp nghiên cứu Chương Cơ sở lý thuyết .11 2.1 Vấn đề truy hồi thông tin 11 2.1.1 Truy hồi thông tin dựa thống kê 11 2.1.2 Truy hồi thông tin theo hướng ngữ nghĩa 14 2.1.3 Cấu trúc hệ thống truy hồi thông tin 18 2.1.4 Đánh giá hệ thông truy hồi thông tin 19 2.2 Đánh giá độ tương đồng ngữ nghĩa truy hồi thông tin .21 2.2.1 Các phương pháp tính độ tương đồng ngữ nghĩa khái niệm 21 2.2.2 Một mơ hình ontology cho ngữ nghĩa tài liệu .25 Chương Phương pháp đánh giá độ tương đồng ngữ nghĩa 31 3.1 Xây dựng đồ thị keyphrase biểu diễn nội dung 31 3.1.1 Đánh trọng số đồ thị keyphrase biểu diễn tài liệu 31 3.1.2 Gán nhãn đồ thị keyphrase biểu diễn tài liệu .34 3.1.3 Trọng số đồ thị keyphrase biểu diễn câu truy vấn 35 3.2 Độ tương đồng ngữ nghĩa hai keyphrase 41 3.2.1 Đánh giá độ tương đồng ngữ nghĩa hai keyphrase 41 3.2.2 Đánh giá độ tương đồng ngữ nghĩa hai keyphrase gán nhãn 47 3.3 Độ tương đồng ngữ nghĩa hai đồ thị keyphrase 49 Chương Cài đặt - thử nghiệm đánh giá 53 4.1 Thiết kế hệ thống thử nghiệm .53 4.1.1 Cấu trúc hệ thống: .53 4.1.2 Các thiết kế xử lý 56 4.2 Phương pháp kiểm thử đánh giá 64 4.3 Kết đánh giá 67 Chương KẾT LUẬN VÀ KHUYẾN NGHỊ 69 5.1 Kết đạt luận văn 69 5.2 Những hạn chế hướng phát triển 69 Tài liệu tham khảo 71 Chương Tổng quan Chương Tổng quan 1.1 Giới thiệu tổng quan vấn đề nghiên cứu 1.1.1 Nhu cầu thực trạng tìm kiếm theo ngữ nghĩa kho tài liệu Hiện nay, việc tổ chức kho tài liệu học tập chuyên ngành, lĩnh vực đặc biệt CNTT với chức tìm kiếm liên quan đến thơng tin tri thức hay nội dung tài liệu nhu cầu cấp thiết thực `tiễn việc giảng dạy, học tập nghiên cứu Đã có số cơng trình liên quan đến vấn đề tổ chức quản lý xử lý tìm kiếm theo nội dung Tuy nhiên kết đạt hạn chế chưa đủ để đáp ứng cho nhu cầu khai thác thông tin người sử dụng Các giải pháp cơng nghệ phổ biến có nhiều hỗ trợ cho ứng dụng quản lý tài nguyên học tập, chủ yếu mức xử lý liệu Do chưa đủ khả diễn giải, kết hợp tài nguyên theo ngữ nghĩa nội dung hay tri thức liên quan Vì tính hệ thống chưa đủ đáp ứng yêu cầu sử dụng ngày cao, đặc biệt việc tổ chức xử lý tích hợp liệu, thơng tin tri thức Trong lĩnh vực khoa học máy tính, có chuyển hướng dần đến thứ mà gọi hướng tri thức xử lý ngữ nghĩa Theo đó, hệ thống tìm kiếm dựa khái niệm nghiên cứu phát triển nhằm thay cho hệ thống truyền thống vốn bộc lộ nhiều khuyết điểm lớn 1.1.2 Khảo sát số giải pháp ứng dụng tìm kiếm ngữ nghĩa kho tài liệu 1.1.2.1 Về số động tìm kiếm thơng dụng Đối với nhu cầu tìm kiếm thơng tin nói chung, hầu hết nghĩ đến tên Chương Tổng quan Google Tuy nhiên, thị trường công cụ tìm kiếm thơng tin máy tính ngày trở nên đông đảo gia tăng không ngừng Trên lĩnh vực tìm kiếm internet, người khổng lồ Google bị bám đuổi cạnh tranh gay gắt từ dịch vụ Yahoo search (yahoo.com), Microsoft Bing (bing.com), Ask (ask.com), v.v Các động tìm kiếm tiếng tồn giới, ngơn ngữ hỗ trợ tiếng Anh sử dụng với ngơn ngữ khác Ngồi ra, với tham vọng xây dựng động tìm kiếm tận dụng lợi địa phương quốc gia ngôn ngữ văn hóa, cơng ty quốc gia xây dựng động tìm kiếm riêng cho Baidu (baidu.com) Trung Quốc, Heeya (heeya.com) Hàn Quốc hay Yandex (yandex.com) Nga, v.v Nếu bàn tìm kiếm theo từ khóa, Google gần khơng có đối thủ Tuy nhiên, người dùng khơng biết rõ từ khóa họ cần cung cấp cho máy tìm kiếm, họ cần máy tìm kiếm “hiểu” ý họ thông qua ngữ nghĩa hàm ý câu truy vấn Đây điểm mà số đối thủ Google Lexxe (lexxe.com), Factbites (factbites.com), Swoogle (swoogle.umbc.edu), Kngine (kngine.com), DuckDuckGo (duckduckgo.com), Wolfram Alpha (wolframalpha.com) nhắm vào Với khả đoán ý, hiểu nghĩa từ hay cụm từ kết gần với ý định tìm kiếm người dùng, động tìm kiếm ngữ nghĩa kể có khả tạo đột phá cho thị trường tìm kiếm Có thể xem khả tìm kiếm ngữ nghĩa cách tốt để cung cấp cho người dùng thông tin họ cần, đảm bảo kết thu có liên quan đến thơng tin cần tìm dựa khả hiểu nghĩa từ cụm từ tìm kiếm Với cơng nghệ ngữ nghĩa, máy tính hiểu rõ mối quan hệ nhiều thông tin khác chuyển tiếp liên kết dựa từ khóa tìm kiếm Một ví dụ cụ thể để minh họa cho vấn đề thử nghiệm với từ khóa “đọc báo” cho sẵn Nếu tìm kiếm Google, kết trả chứa từ khóa từ “đọc” “báo” kết hợp hai từ “đọc Chương Tổng quan báo” Còn kết từ tìm kiếm ngữ nghĩa trả về, người đọc khơng thấy website có tích hợp hai từ khóa mà thay vào có hàng loạt danh sách website báo chí hiển thị nhằm đáp ứng cho nhu cầu “đọc báo” người dùng Hay tìm kiếm với từ khóa “cuộc bầu cử” cơng cụ tìm kiếm ngữ nghĩa lấy tài liệu có chứa từ “bỏ phiếu”, “vận động’ “lá phiếu”, từ “bầu cử’ khơng tìm thấy tài liệu nguồn 1.1.2.2 Các hệ thống quản lý tài liệu Ngồi việc tìm kiếm thơng tin mạng Internet, người dùng cịn nguồn tài liệu khác sưu tập sẵn có Tuy khối lượng thơng tin sưu tập sẵn có chắn có giới hạn việc vơ tình giúp người dùng tránh tình trạng q tải thông tin Đồng thời kho tài liệu sẵn có thường tập trung nhiều tài liệu đặc chủng chun ngành khơng dễ tìm thấy Internet Hiện người dùng thường có số lựa chọn sau tìm nguồn thơng tin từ sưu tập sẵn có: Các thư viện điện tử: Thơng thường, địa điểm cần nghĩ đến tìm kiếm tài liệu tham khảo khoa học Nhiều thư viện lớn tin học hoá thư mục để tra cứu qua cổng thơng tin trực tuyến với nhiều chức tìm kiếm theo tên tác giả, tựa tài liệu, từ khoá, chủ đề, …Các hệ thống thư viện thường có tài liệu tổ chức quy cũ, chặt chẽ tính đặc thù chuyên môn cao (ứng với chuyên môn đơn vị quản lý thư viện đó) Các sở liệu tài liệu: Các sở liệu thông tin khoa học kĩ thuật thường công ty, tổ chức lớn xây dựng, cách tập hợp thơng tin tóm tắt từ nhiều tạp chí chuyên ngành khác nhau, xếp tổ chức cho việc tìm kiếm thông tin dễ dàng Một số sở liệu lớn: Current Content, ACM , Articles@INIST, Applied Science & Technology Abstracts, Chemical Abstracts, Georef, PubMed Chương Tổng quan Các nhà xuất khoa học: Hiện hầu hết nhà xuất khoa học phát triển website để giới thiệu ấn phẩm (sách, báo, tạp chí, ) trực tiếp cung cấp dịch vụ phân phối tài liệu Ngồi ra, có nhiều nhà trung gian phát triển dịch vụ cung cấp tài liệu từ nhiều nguồn khác nhau, chí từ nguồn qua sử dụng Một số nhà xuất lớn giáo dục, khoa học, kĩ thuật kể đến ScienceDirect, Springer, Thompson Reuters Nếu số lượng động tìm kiếm internet vơ phong phú phát triển ngày nhanh để hỗ trợ người dùng việc tìm kiếm sưu tập có sẵn cịn hạn chế Cơ chế hoạt động hệ thống quản lý truy tìm tài ngun kể khơng thay đổi nhiều từ thời điểm cách gần ba thập niên Một tập hợp tài liệu lưu trữ lập mục, người sử dụng đặc tả câu truy vấn tập hợp từ khóa hệ thống trả danh sách tài liệu có chứa từ khóa (có thể xếp theo mức độ liên quan) Vấn đề quan trọng hệ thống tổ chức lưu trữ tìm kiếm thơng tin Đối với việc lưu trữ tài liệu, hệ thống sử dụng chuẩn siêu liệu MARC, LOM, IMS, Dublin Core, … để hỗ trợ việc xếp tìm kiếm Tuy nhiên chuẩn đơn tạo siêu liệu với trường mô tả đơn giản tiêu đề, quyền, tác giả, tập từ vựng riêng biệt cịn hạn chế, chưa đủ khả biểu diễn tài nguyên theo ngữ nghĩa hay nội dung Đối với vấn đề tìm kiếm, việc tìm kiếm chủ yếu dựa vào từ khóa, độ xác độ bao phủ hệ thống khơng cao Giải pháp quản lý tài nguyên chủ yếu mức xử lý liệu tính hệ thống cịn nhiều hạn chế việc áp dụng yêu cầu sử dụng ngày cao, đặc biệt việc tổ chức xử lý tích hợp liệu, thơng tin tri thức Chính nhược điểm đòi hỏi hướng tiếp cận theo ngữ nghĩa mà theo hệ thống phải xây dựng hướng tới việc quản lý tri thức kết hợp với quản lý xử lý thông tin ngữ nghĩa liên quan đến nội dung tài liệu Chương Tổng quan Trong năm gần đây, kỹ thuật tìm kiếm tài liệu có nhiều thay đổi cải tiến, xu hướng tìm kiếm dịch chuyển từ mang tính chất cú pháp (syntax), cấu trúc (structure), thành mang tính chất ngữ nghĩa (semantic), từ tìm kiếm từ khóa (keyword) trở thành tìm kiếm khái niệm (concept) Các phương pháp truy hồi thông tin dựa khái niệm ngữ nghĩa nhắm đến việc mô mức độ giới hạn khả hiểu ý nghĩa từ, cụm từ hay văn mà người dùng cung cấp tương ứng với người dùng nghĩ Trong bật hướng tiếp cận sử dụng ontology tri thức lĩnh vực để biểu diễn, xử lý nội dung ý nghĩa tài liệu Có thể nói ontology dần trở thành công cụ phổ biến giới nghiên cứu giải vấn đề địi hỏi việc biểu diễn tri thức miền Đã có nhiều cơng trình sử dụng ontogy miền tri thức định cơng trình [4], [5], [10], [11] Ontology sử dụng để tăng cường khả hệ thống tìm kiếm theo ngữ nghĩa thơng qua việc biểu diễn lưu trữ tri thức miền lĩnh vực, từ tạo tảng việc biểu diễn nội dung lập mục cho tài liệu, cho phép tìm kiếm tài liệu xác dựa nội dung Bênh cạnh phát triển ontology, nhiều mơ hình biểu diễn đại áp dụng ngày nhiều việc biểu diễn tài liệu Các tài liệu không dựa từ vực mà dựa quan hệ ngữ nghĩa từ mơ hình mạng ngữ nghĩa (semantic net), đồ thị khái niệm (conceptual graph), đồ thị keyphrase, v.v Thơng qua mơ hình biểu diễn đó, việc so khớp tài liệu yêu cầu tìm kiếm thực dựa nhiều thơng tin ngữ nghĩa Các kỹ thuật đánh giá độ tương đồng ngữ nghĩa hay gọi so khớp ngữ nghĩa (semantic matching) tỏ hứa hẹn việc thay đổi cách tảng kỹ thuật truy hồi thơng tin với độ xác độ bao phủ cao Đã có nhiều kỹ thuật đánh giá độ tương đồng ngữ nghĩa nhiều tác giả đề xuất, điển nhình cơng trình [7], [2], [3], [12], [14] Chương Tổng quan Dựa hướng tiếp cận đại trên, cơng trình [1] nhóm tác giả đề xt giải pháp mang tính tổng thể việc xây dựng kho tài liệu hỗ trợ việc quản lý tìm kiếm theo ngữ nghĩa Dựa kết này, luận văn đặt mục tiêu nghiên cứu tìm hiểu kỹ thuật tìm kiếm theo ngữ nghĩa phổ biến Từ đề xuất kỹ thuật tìm kiếm theo ngữ nghĩa phù hợp cho việc cài đặt kho tài nguyên học tập, cố gắng tận dụng tối đa thông tin ngữ nghĩa có tổ chức kho tài liệu để cải thiện kết tìm kiếm 1.2 Mục tiêu phạm vi luận văn Trên sở nghiên cứu tìm hiểu phương pháp tiếp cận kỹ thuật biểu diễn, xử lý ngữ nghĩa tài liệu, đặc biệt hướng tiếp cận dựa Ontology đồ thị, song song việc tiến hành phân tích đánh giá vấn đề kỹ thuật liên quan việc đo lường độ tương đồng ngữ nghĩa tài liệu hệ thống truy hồi tài liệu theo ngữ nghĩa, đặc biệt kỹ thuật đề xuất [1] Luận văn đặt mục tiêu đưa số cải tiến mơ hình biểu diễn phương pháp kỹ thụật giải vấn đề toán đánh giá độ tương đồng ngữ nghĩa tài liệu Các đề xuất nhắm đến việc cải thiện hiệu khâu tìm kiếm theo ngữ nghĩa hai bình diện cải tiến hiệu (thông qua hai độ đo precision recall) lẫn cải thiện thời gian thực thi Quá trình thực luận văn bao gồm việc thu thập liệu, tổ chức, quản lý thử nghiệm xây dựng ứng dụng thử nghiệm dạng hệ thống truy hồi tài liệu theo ngữ nghĩa web Ứng dụng thử nghiệm hướng đến mục đích phục vụ cho việc tìm kiếm tài liệu học tập sinh viên trường đại học Để đám bảo tiến độ thời gian chất lượng công việc, luận văn đặt phạm vi khảo sát thử nghiệm kho tài liệu học tập chuyên ngành Khoa học máy tính Đây miền tri thức rộng kết Chương Cài đặt - thử nghiệm đánh giá Biều đồ luồng liệu xử lý tổ chức quản lý kho tài liệu bảo quản  Hỗ trợ quản lý người dùng: Biểu đồ luồng liệu xử lý hỗ trợ quản lý người dùng Đối với người sử dụng 58 Chương Cài đặt - thử nghiệm đánh giá Biều đồ luồng liệu xư lý chức người sử dụng tổng quát  Chức tìm kiếm định hướng theo hệ thống thư mục qui chuẩn Biểu đồ luồng liệu xử lý tìm kiếm theo hệ thống thư mục qui chuẩn  Chức tìm kiếm theo từ khóa Biểu đồ luồng liệu xư lý tìm kiếm theo từ khóa  Chức tìm kiếm theo CSDL lưu trữ 59 Chương Cài đặt - thử nghiệm đánh giá Biểu đồ luồng liệu xử lý tìm kiếm theo CSDL lưu trữ  Chức tìm kiếm theo ngữ nghĩa Biểu đồ luồng liệu xử lý tìm kiếm theo ngữ nghĩa Các trang web hệ thống bố trí theo sơ đồ hình 4.13 60 Chương Cài đặt - thử nghiệm đánh giá Sơ đồ trang web ứng dụng 61 Chương Cài đặt - thử nghiệm đánh giá Hình 4.1 Giao diện trang chủ Trang chủ chứa thông tin sau: 1) Thông tin giới thiệu hệ thống (đơn vị quản lý kho tài nguyên, thông tin kỹ thuật, …) 2) Login bar: xuất trang, cho phép người dùng đăng nhập vào hệ thống 3) Navigation bar: xuất trang, dùng để di chuyển trang ký hiệu hình vng sơ đồ hình 4) Input bar Search button: để thực việc truy vấn, người dùng nhập từ khóa muốn tìm vào textbox, nhấn phím ENTER Lưu ý nhập toán tử and, or nháy kép để tìm xác 5) Danh sách số thơng báo tin tức cập nhật 6) Danh sách số tài liệu vừa cập nhật vào kho 62 Chương Cài đặt - thử nghiệm đánh giá Giao diện trang tìm kiếm tài liệu theo hệ thống thư mục quy chuẩn Cho phép duyệt danh sách tài liệu theo hệ thống thư mục quy chuẩn Việc duyệt danh sách thực bên giao diện (đối với người dùng) bên khu vực quản trị hệ thống (đối với người quản trị) Điểm khác biệt giao diện giao diện cho người quản trị có thêm chức thêm/xóa/thay đổi cấu trúc thư mục di chuyển tài liệu 63 Chương Cài đặt - thử nghiệm đánh giá Giao diện trang kết tìm kiếm 4.2 Phương pháp kiểm thử đánh giá Để đánh giá thử nghiệm phương pháp tính độ tương đồng ngữ nghĩa, luận văn dựa kết tìm kiếm tồn hệ thống thử nghiệm thể qua hai độ đo độ xác (precision) độ bao phủ (recall) Kết so sánh với kết phương pháp tìm kiếm nêu [1] nhằm cho thấy cải thiện hiệu tìm kiếm 64 Chương Cài đặt - thử nghiệm đánh giá Hai hệ thống thử nghiệm xây dựng Một hệ thống sử dụng kỹ thuật đề xuất [1] hệ thống lại sử dụng kỹ thuật nêu luận văn Hai thống sử dụng thiết kế trình bày mục 4.1, với module liên quan đến tìm kiếm ngữ nghĩa (query analysis, search engine, semantic collector) cài đặt khác Các module có thay đổi tô màu đen Dữ liệu thử nghiệm bao gồm 500 tài liệu điện tử với bao gồm nhiều sách tham khảo, giáo trình báo khoa học Số tài liệu dùng để chia 65 Chương Cài đặt - thử nghiệm đánh giá thành số sưu tập với kích thước 200, 300, 400 500 tài liệu Mỗi sưu tập đưa vào hệ thống thử nghiệm chạy thử với 100 câu query mẫu tính độ xác độ bao phủ cho câu truy vấn Ví dụ kết thử nghiệm sưu tập 500 tài liệu cho bảng bên ST Query Số Độ bao liệu T tài Số tài liệu Số tài liệu Độ trả trả liên liên quan phủ (T) quan (S) có xác kho (U) (S/U) (S/T) “Computer graphics” 162 149 176 91,98% 84,66% “Algorithm anaylsis” 192 169 185 88,02% 91,35% “C++” 105 96 114 91,43% 84,21% “Conceptual graph” 75 70 82 93,33% 85,37% “Artificial 174 162 183 93,10% 88,52% 132 117 131 88,64% 89,31% Data strucutre and 231 219 239 94,81% 91,63% 180 160 179 88,89% 89,39% language 240 209 242 87,08% 86,36% intelligence” “Knowledge Representation” algorithm Machine learning Natural Processing 10 Information retrieval 162 139 155 85,80% 89,68% 11 Object-Oriented 126 110 124 87,30% 88,71% Analysis and Design 12 Computer Vision 105 99 107 94,29% 92,52% 13 Pattern Recognition 120 108 121 90,00% 89,26% 14 Machine translation 207 186 208 89,86% 89,42% 66 Chương Cài đặt - thử nghiệm đánh giá 15 Ontology 82 71 78 86,59% 91,03% 16 Semantic search 66 61 72 92,42% 84,72% 17 Control System 24 21 24 87,50% 87,50% 90,06% 88,45 … Trung bình % Thống kê số kết tìm kiếm theo từ khóa kho thử nghiệm gồm 1000 tài liệu 4.3 Kết đánh giá Kết hai độ đo recall precision so sánh kỹ thuật cũ cho biểu đồ bên 92,00% 90,00% 88,00% 86,00% 84,00% Kỹ thuật cũ Kỹ thuật 82,00% 80,00% 78,00% 76,00% 74,00% 72,00% 200 300 400 500 Biểu đồ so sánh độ đo recall kỹ thuật cũ kỹ thuật 67 Chương Cài đặt - thử nghiệm đánh giá 95,00% 90,00% 85,00% Kỹ thuật cũ Kỹ thuật 80,00% 75,00% 70,00% 200 300 400 500 Biểu đồ so sánh độ đo precsion kỹ thuật cũ kỹ thuật Có thể thấy cải thiện đáng kể độ precision tìm kiếm Trung bình liệu thử nghiệm, độ đo precision cải thiện từ 81,57% lên 91,15% Giá trị độ đo precision tương đối ổn định kích thước liệu thử nghiệm thay đổi Điều tương ứng với điểm cải tiến kỹ thuật nhắm đến việc cho kết tìm kiếm xác Độ đo recall cải thiện, khác biệt không lớn với độ đo precision xét trung bình liệu thử nghiệm, độ đo recall nâng từ 81,09% lên 88,97% 68 Chương KẾT LUẬN VÀ KHUYẾN NGHỊ Chương KẾT LUẬN VÀ KHUYẾN NGHỊ 5.1 Kết đạt luận văn So với mục tiêu ban đầu đề ra, luận văn thực hoàn tất nội dung nghiên cứu Luận văn đưa nhiều cải tiến có hiệu kỹ thuật biểu diễn ngữ nghĩa xử lý tính tốn độ tương đồng ngữ nghĩa tài liệu câu truy vấn Những cải tiến đề luận văn trực tiếp khắc phục hạn chế kỹ thuật tìm kiếm ngữ nghĩa đề xuât cơng trình trước nhóm nghiên cứu, giúp tăng cường đáng kể hiệu tìm kiếm theo ngữ nghĩa Luận văn đề xuất phương pháp xử lý biểu diễn câu truy vấn thành đồ thị keyphrase có trọng số giúp xác định xác u cầu tìm kiếm người dùng Điều tăng cường đáng kể khả xử lý câu truy vấn hệ thống, cải thiện tính hiệu q trình tìm kiếm Bên cạnh đó, trọng số cho đồ thị keyphrase biểu diễn tài liệu luận văn điều chỉnh đáng kể dựa kết khảo sát từ thực tiễn Các cơng thức tính trọng số xác khơng góp phần tăng độ xác cho tốn tìm kiếm ngữ nghĩa mà việc xếp kết tìm kiếm hiệu gần với yêu cầu người dùng 5.2 Những hạn chế hướng phát triển Các kỹ thuật đề xuất luận văn phụ thuộc nhiều vào mơ hình phương pháp biểu diễn đề xuất cơng trình [1] Do đó, cịn mang số hạn chế mơ hình mơ hình ontology chưa biểu diễn hết tri thức lĩnh vực, chưa có phương pháp tích hợp, chia sẻ ontlogy mà phụ thuộc nhiều vào việc xây dựng ontology hồn tồn thủ cơng với kinh nghiệm chun gia, khiến cho việc mở rộng kết lĩnh vực, miền tri thức khác đạt vơ khó khăn Bên cạnh việc biểu diễn tài liệu thành đồ thị keyphrase phải thực bán thủ công hạn chế 69 Chương KẾT LUẬN VÀ KHUYẾN NGHỊ khả áp dụng giái pháp Luận văn khảo sát truy vấn tương đối đơn giản, chưa xét đến truy vấn phức tạp lĩnh vực tìm kiếm ngữ nghĩa truy vấn ngơn ngữ tự nhiên, truy vấn theo dạng hỏi/đáp, v.v Tương tác người dùng với hệ thống tìm kiếm nhằm chọn lọc kết chưa nghiên cứu thỏa đáng Hướng phát triển luận văn kết hợp kết mặt kỹ thuật với cải tiến mặt mơ hình biểu diễn để đưa đến giải pháp toàn diện cho tốn quản lý tìm kiếm theo ngữ nghĩa kho tài liệu Song song đó, hướng phát triển khác nghiên cứu giải pháp lĩnh vực tìm kiếm ngữ nghĩa để tìm khả phá bỏ giới hạn tìm kiếm lĩnh vực, miền tri thức định Đưa đến giải giải pháp xây dựng kho tài liệu đa ngành, đa lĩnh vực 70 Tài liệu tham khảo Tài liệu tham khảo [1] Do, VanNhon, ThanhThuong T Huynh, and TruongAn PhamNguyen "Semantic representation and search techniques for document retrieval systems." In Intelligent Information and Database Systems, pp 476-486 Springer Berlin Heidelberg, 2013 [2] David Sánchez, Montserrat Batet, A semantic similarity method based on information content exploiting multiple ontologies, Expert Systems with Applications, Volume 39, Issue 9, Pages 1393-1399, 2013 [3] David Sánchez, Montserrat Batet, David Isern, Aida Valls, Ontology-based semantic similarity: A new feature-based approach, Expert Systems with Applications, Volume 39, Issue 9, Pages 771–7728, 2012 [4] Henrik Eriksso, The semantic-document approach to combining documents and ontologies, International Journal of Human-Computer Studies Volume 65, Issue 7, Pages 624-639, 2007 [5] Miriam Fernández, Iván Cantador, Vanesa López, David Vallet, Pablo Castells, Enrico Motta, Semantically enhanced Information Retrieval: An ontology-based approach, Web Semantics: Science, [6] Services and Agents on the World Wide Web, Volume 9, Issue 4, Pages 434452, 2011 [7] D Genest, M Chein, “An experiment in Document Retrieval using Conceptual Graph” , Proceeding of 5th ICCS Conference, Washington, USA, p 489-504 (1997) [8] Christoph Mangold, “A survey and classification of semantic search approaches”, Int J Metadata, Semantics and Ontology, Vol 2, No 1, 2007 [9] Carpineto, Claudio, and Giovanni Romano "A survey of automatic query expansion in information retrieval." ACM Computing Surveys (CSUR) 44.1 (2012): [10] Soner Kara, Özgür Alan, Orkunt Sabuncu, Samet Akpınar, Nihan K Cicekli, Ferda N Alpaslan, An ontology-based retrieval system using semantic indexing, Information Systems, Journal Information Systems, Volume 37 Issue 4, Pages 294-305, 2012 71 Tài liệu tham khảo [11] Nhon Do, “Ontology COKB for designing knowledge- based systems”, SOMET 2014, Pages 354-373, 2014 [12] Dario Bonino, Fulvio Corno, Laura Farinetti, Alessio Bosca, “Ontology Driven Semantic Search”, WSEAS Transaction on Information Science and Application, Issue 6, Volume 1, December 2004, pp 1597-1605 [13] Haav, H.-M and T.-L Lubi, A Survey of Concept-based Information Retrieval Tools on the Web, in 5th East-European Conference 2001 [14] Henrik Bulskov Styltsvig, Ontology-based Information Retrieval, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy, 2006 [15] Huỳnh Thị Thanh Thương, Nghiên cứu mơ hình tổ chức kỹ thuật tìm kiếm có ngữ nghĩa kho tài nguyên học tập lĩnh vực CNTT, Luận văn Thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM, 2012 [16] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi, “Mơ hình biểu diễn văn thành đồ thị”, Tạp chí phát triển KH&CN, TẬP 12, SỐ 07 – 2009 72 ...ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  PHẠM NGUYỄN TRƯỜNG AN NGHIÊN CỨU PHƯƠNG PHÁP ĐO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA CHO BÀI TỐN TÌM KIẾM TRONG KHO TÀI LIỆU HỌC TẬP LĨNH... Đánh giá độ tương đồng ngữ nghĩa truy hồi thông tin 2.2.1 Các phương pháp tính độ tương đồng ngữ nghĩa khái niệm Có nhiều phương pháp tính độ đo tương đồng ngữ nghĩa hay kho? ??ng cách ngữ nghĩa khái... tin .21 2.2.1 Các phương pháp tính độ tương đồng ngữ nghĩa khái niệm 21 2.2.2 Một mô hình ontology cho ngữ nghĩa tài liệu .25 Chương Phương pháp đánh giá độ tương đồng ngữ nghĩa 31 3.1

Ngày đăng: 18/05/2015, 20:36

Từ khóa liên quan

Mục lục

  • Chương 1. Tổng quan

    • 1.1. Giới thiệu tổng quan về vấn đề nghiên cứu

      • 1.1.1. Nhu cầu và thực trạng tìm kiếm theo ngữ nghĩa trên kho tài liệu

      • 1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm ngữ nghĩa trên kho tài liệu hiện nay

        • 1.1.2.1. Về một số động cơ tìm kiếm thông dụng hiện nay

        • 1.1.2.2. Các hệ thống quản lý tài liệu

        • 1.2. Mục tiêu và phạm vi luận văn

        • 1.3. Nội dung và phương pháp nghiên cứu

        • Chương 2. Cơ sở lý thuyết

          • 2.1. Vấn đề truy hồi thông tin

            • 2.1.1. Truy hồi thông tin dựa trên thống kê

              • 2.1.1.1. Mô Hình Không Gian Vector (Vector Space Model)

              • 2.1.1.2. Latent Semantic Indexing - LSI

              • 2.1.2. Truy hồi thông tin theo hướng ngữ nghĩa

                • 2.1.2.1. Áp dụng xử lý ngôn ngữ tự nhiên

                • 2.1.2.2. Hướng tiếp cận Ontology

                • 2.1.3. Cấu trúc hệ thống truy hồi thông tin

                • 2.1.4. Đánh giá hệ thông truy hồi thông tin

                • 2.2. Đánh giá độ tương đồng ngữ nghĩa trong truy hồi thông tin

                  • 2.2.1. Các phương pháp tính độ tương đồng ngữ nghĩa giữa các khái niệm

                  • 2.2.2. Một mô hình ontology cho ngữ nghĩa của tài liệu.

                  • Chương 3. Phương pháp đánh giá độ tương đồng ngữ nghĩa

                    • 3.1. Xây dựng đồ thị keyphrase biểu diễn nội dung

                      • 3.1.1. Đánh trọng số trong đồ thị keyphrase biểu diễn tài liệu

                      • 3.1.2. Gán nhãn trong đồ thị keyphrase biểu diễn tài liệu

                      • 3.1.3. Trọng số trong đồ thị keyphrase biểu diễn câu truy vấn

                        • 3.1.3.1. Keyphrase có nghĩa chuyên biệt hơn keyphrase khác:

                        • 3.1.3.2. Xác định keyphrase chính trong keyphase tổ hợp

                        • 3.1.3.3. Sơ đồ liên hệ về độ quan trọng giữa keyphase

                        • 3.1.3.4. Đánh trọng số cho keyphrase trong đồ thị biểu diễn câu truy vấn

                        • 3.2. Độ tương đồng ngữ nghĩa giữa hai keyphrase

                          • 3.2.1. Đánh giá độ tương đồng ngữ nghĩa giữa hai keyphrase

Tài liệu cùng người dùng

Tài liệu liên quan