1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán (tt)

27 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,6 MB

Nội dung

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG ******************* IT CAO XN TUẤN PT NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN Chun ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội, 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng IT TS Nguyễn Mạnh Hùng Phản biện 1: PGS.TS Nguyễn Đăng Hưng Phản biện 2: PGS.TS Nguyễn Tấn Khôi PT Phản biện 3: PGS.TS Lê Hữu Lập Luận án bảo vệ trước Hội đồng cấp Học viện tại: Học viện Công nghệ Bưu Viễn thơng Vào lúc: 14h00, ngày 01 tháng năm 2017 Có thể tìm hiểu luận án tại: 1) Thư viện Quốc gia 2) Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Trong năm gần đây, với phát triển mạnh mẽ mạng Internet công nghệ Web bùng nổ thông tin số Số lượng người sử dụng lượng thông tin sản sinh mạng Internet gia tăng nhanh Có thể tìm thấy hầu hết thơng tin cần thiết có nhu cầu Đặc biệt, lượng thông tin liên quan đến khoa học, phục vụ học tập, nghiên cứu gia tăng nhanh chóng phong phú lĩnh vực… Các cơng cụ tìm kiếm phổ biến Google, Yahoo, Bing… hỗ trợ việc tìm kiếm liệu dạng văn hình ảnh, việc tìm kiếm liệu đặc biệt cơng thức tốn chưa thực mong muốn IT Hiện có nhiều cơng cụ cho phép soạn thảo quản lý công thức tốn, việc tìm kiếm cịn gặp nhiều khó khăn, chưa có chuẩn chung biễn diễn lưu trữ Để tìm kiếm tài liệu dựa PT cơng thức tốn, cần có chế thống để mô tả, biểu diễn, lưu trữ tìm kiếm theo ngữ nghĩa tương ứng với cơng thức Mục tiêu nghiên cứu Mục tiêu tổng quát đề tài đề xuất mơ hình biểu diễn, lưu trữ cơng thức tốn tìm kiếm tài liệu dựa cơng thức tốn với nhiều tảng hệ thống khác nhau: máy đơn, mạng nội bộ, Internet Mục tiêu cụ thể sau: (1) Đề xuất mơ hình biểu diễn lưu trữ cơng thức tốn cách thống nhất, chuyển đổi từ nhiều nguồn nhiều công cụ soạn thảo lưu trữ khác (2) Đề xuất phương pháp chuyển đổi hai chiều dạng biểu diễn lưu trữ cơng thức tốn khác (3) Đề xuất phương pháp lập mục, xây dựng Ontology tài liệu chứa công thức tốn (4) Đề xuất kỹ thuật tìm kiếm tài liệu chứa cơng thức tốn mơi trường Internet, với Web thông thường Semantic Web (Web ngữ nghĩa) Đối tượng nghiên cứu Phương pháp biểu diễn công thức toán tài liệu lưu trữ dạng TeX/LaTeX, AMS-LaTeX, HTML, MathML…; Giải pháp mơ hình hóa cơng thức tốn, mơ hình biểu diễn cơng thức tốn; Kỹ thuật bóc tách tổng hợp thơng tin từ trang Web; Mơ hình phương Nội dung nghiên cứu IT pháp tìm kiếm; Semantic Web Nội dung luận án tập trung nghiên cứu mơ hình biểu diễn lưu trữ cơng thức tốn, tốn tìm kiếm tài liệu dựa cơng thức PT tốn Các nội dung nghiên cứu bao gồm: - Tổng quan chuẩn biểu diễn, lưu trữ, cơng cụ soạn thảo tìm kiếm tài liệu dựa cơng thức tốn - Mơ hình biểu diễn eFormula (cơng thức tốn trực tuyến), dựa OpenMath MathML - Mơ hình mơ tả quan hệ ngữ nghĩa eFormula khái niệm toán học Ontology, xây dựng ngôn ngữ OWL (Web Ontology Language) Mơ hình biểu diễn suy luận lai (hybrid logic) cho phép tìm kiếm dựa ngữ nghĩa tốn học ngữ nghĩa cơng thức - Tích hợp lưu trữ tìm kiếm tài liệu dựa cơng thức toán ứng dụng khác Bố cục luận án Luận án trình bày thành chương Trong đó, chương giới thiệu tổng quan tìm kiếm văn cơng thức tốn Chương trình bày nghiên cứu biểu diễn lưu trữ cơng thức tốn Chương trình bày giải pháp đề xuất tìm kiếm tài liệu dựa cơng thức tốn chương thử nghiệm, đánh giá kết nghiên cứu chương chương CHƯƠNG 1: TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ CƠNG THỨC TỐN Chương trình bày số kết nghiên cứu tổng quan liên IT quan đến đề tài gồm: khái niệm văn hệ thống tìm kiếm văn bản; vấn đề lưu trữ tìm kiếm văn chứa cơng thức tốn; định hướng nghiên cứu luận án PT 1.1 Bài tốn tìm kiếm văn Một hệ thống tìm kiếm văn nói chung, thường có hai phần tách biệt là: (i) Phần hệ thống quản lí, lưu trữ; (ii) phần hệ thống tìm kiếm Hình 1.1 Hình 1.1 Kiến trúc tổng quan hệ thống lưu trữ tìm kiếm văn 1.2 Tìm kiếm văn chứa cơng thức tốn Mặc dù mơ hình lưu trữ tìm kiếm văn trình bày mục 1.1 áp dụng rộng rãi số lượng lớn người sử dụng chấp nhận Tuy vậy, mơ hình cịn gặp nhiều khó khăn, hạn chế áp dụng vào tốn tìm kiếm văn chứa cơng thức tốn Một số khó khăn kể đến như: - Phần nội dung cơng thức tốn văn xử lí đối tượng độc lập (chẳng hạn hình ảnh, bảng biểu, sơ đồ,…) nhúng vào văn Do đó, khơng thể áp dụng kỹ thuật xử lí văn vào bước xử lí cho cơng thức tốn - Nội dung cơng thức toán biểu diễn lưu trữ tài IT liệu khác không giống Điều dẫn đến khó khăn việc đánh mục tài liệu chứa cơng thức tốn, gây khó khăn việc tìm kiếm xếp hạng kết tìm kiếm tài liệu chứa PT cơng thức tốn Ký hiệu toán học loại văn định dạng đặc biệt Nó dựa bảng chữ khác (tiếng Hy Lạp, tiếng Do Thái,…), quy tắc bit ký hiệu Dưới số cách biểu diễn: 1) Biểu diễn cơng thức tốn Microsoft Word Ví dụ Microsoft Word 2010, để hiển thị công thức 2√𝑥 , soạn thảo Equation Editor (Soạn thảo phương trình) biểu diễn đoạn mã tương ứng { EQ \r(3,x) } x+2017 Hoặc để hiển thị , biểu diễn đoạn mã tương ứng sau: y+2018 { EQ \f(x+2017, y+2018) } 2) Biểu diễn công thức toán OpenOffice.Org Để hiển thị 2√𝑥 , biểu diễn đoạn mã tương ứng sau: nroot{2}{x} Hoặc để hiển thị 𝑥+2017 , 𝑦+2018 biểu diễn đoạn mã tương ứng sau: {x+2017} over {y+2018} 3) Biểu diễn cơng thức tốn Website Để tạo cơng thức tốn Website, phải nhập vào đoạn mã LaTeX tương ứng Sau ví dụ minh hoạ: Để hiển thị √x , biểu diễn đoạn mã tương ứng sau: $\sqrt[2]{x}$ Hoặc để hiển thị 𝑥+2017 , biểu diễn đoạn 𝑦+2018 mã tương ứng sau: $\frac{x+2017}{y+2018}$ Hiện có nhiều phương pháp, cách thức tiêu chuẩn áp IT dụng cho việc đặc tả, biểu diễn lưu trữ cơng thức tốn văn bản, số phương pháp, tiêu chuẩn thường sử dụng ngôn ngữ đánh dấu như: TeX/LaTeX, AMS-LaTeX, HTML, MathML Luận án đề xuất lựa chọn sử dụng MathML làm ngôn ngữ PT biểu diễn lưu trữ cơng thức tốn phục vụ cho tốn tìm kiếm tài liệu chứa cơng thức tốn 1.3 Hướng tiếp cận luận án Nội dung mục 1.2 trình bày vấn đề không thống hệ thống soạn thảo, biểu diễn lưu trữ cơng thức tốn văn Thực tế dẫn đến khó khăn cho việc áp dụng mơ hình biểu diễn, lưu trữ tìm kiếm văn thống tốn lưu trữ tìm kiếm văn chứa cơng thức tốn Để giải khó khăn này, có giải pháp sau: Giải pháp 1: Xây dựng hệ thống riêng cho tốn lưu trữ tìm kiếm văn chứa cơng thức tốn Giải pháp 2: Cải tiến mơ hình có cách bổ sung hệ thống đánh mục, tìm kiếm xếp hạng văn theo dạng lưu IT trữ công thức tốn khác Giải pháp thể Hình 1.9 Hình 1.9 Kiến trúc hệ thống theo giải pháp - Giải pháp 3: Cải tiến mơ hình có cách đề xuất chuẩn PT biểu diễn lưu trữ cơng thức tốn chung văn áp dụng mơ hình truyền thống dạng biểu diễn chung Giải pháp thể Hình 1.10 Hình 1.10 Kiến trúc hệ thống theo giải pháp Có thể nhận thấy rằng, giải pháp có ưu điểm, đồng thời khắc phục nhược điểm giải pháp Với kiến trúc hệ thống Hình 1.10, nhận thấy giải pháp tinh gọn hơn, phải thay đổi so với giải pháp Luận án chọn hướng tiếp cận theo giải pháp 1.4 Kết luận Chương Chương trình bày kết nghiên cứu tổng quan trình soạn thảo, biểu diễn cơng thức tốn; tìm kiếm tài liệu có chứa cơng thức tốn Việc soạn thảo biểu diễn cơng thức tốn cơng cụ IT soạn thảo đặc biệt Web vấn đề quan tâm CHƯƠNG BIỂU DIỄN VÀ LƯU TRỮ CÔNG THỨC TỐN Nội dung chương tập trung trình bày đề xuất mơ hình biểu diễn PT lưu trữ cơng thức tốn văn bản, dựa ngơn ngữ đánh dấu MathML Trên sở mơ hình biểu diễn lưu trữ chung đó, luận án đề xuất giải pháp soạn thảo văn chứa cơng thức tốn, cho phép chép, chuyển đổi cơng thức tốn lưu trữ theo chuẩn biểu diễn lưu trữ khác 2.1 Mơ hình biểu diễn tìm kiếm cơng thức tốn văn Hiện nay, có nhiều cơng cụ cho phép soạn thảo cơng thức tốn văn Microsoft Word, OpenOffice.org Math, Acrobat, WebEditor,… Mặc dù kết hiển thị cơng thức tốn tương tự nhau, công cụ soạn thảo văn có chuẩn lưu trữ nội dung riêng, đặc biệt lưu trữ nội dung cơng thức tốn biểu diễn Hình 2.1: Hình 2.1 Mơ hình biểu diễn cơng thức tốn văn truyền thống Thực tế dẫn đến số khó khăn: (1) Khơng thể chép cơng thức tốn từ công cụ soạn thảo sang công cụ soạn IT thảo khác; (2) Khó khăn tìm kiếm tài liệu dựa cơng thức tốn soạn thảo lưu trữ công cụ soạn thảo khác Từ khó khăn này, luận án đề xuất xây dựng môi trường soạn thảo, biểu diễn lưu trữ thống nhất, cho phép chép, PT tìm kiếm, chuyển đổi chuẩn biểu diễn lưu trữ khác cách dễ dàng Hình 2.2 mơ tả mơ hình đề xuất luận án Hình 2.2 Mơ hình biểu diễn lưu trữ cơng thức tốn văn đề xuất 11 Hình 2.9 Biểu diễn dạng công thức MathML Đối tượng TeX biểu diễn dạng khác với MathML mặt lơ gíc Mỗi mức tương ứng với nhóm TeX Ví dụ: biểu thức TeX $\sqrt {1- PT IT \alpha} + x^{3+a}$ biểu diễn dạng sau: Hình 2.10 Biểu diễn dạng đối tượng TeX 2.6 Kết luận Chương Chương đề xuất mơ hình biểu diễn lưu trữ đồng cơng thức tốn gồm hai mức: Mức thấp cho việc quản lí cơng thức tốn phạm vi văn Trong mức này, luận án đề xuất MathML sử dụng chuẩn biểu diễn, lưu trữ xử lý cơng thức tốn Mơi trường soạn thảo cơng thức tốn sử dụng mã nguồn mở Amaya, cho phép soạn thảo cơng thức tốn theo chuẩn MathML Mơ hình hỗ trợ việc chuyển đổi, chép cơng thức tốn dạng khác vào mơi trường soạn thảo, biểu diễn lưu trữ theo chuẩn MathML ngược lại 12 CHƯƠNG TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN Trên sở mơ hình biểu diễn chương 2, chương trình bày mơ hình tìm kiếm tài liệu, đặc biệt tài liệu môi trường Web dựa công thức tốn Phần liên quan đến tìm kiếm tài liệu Web thông thường Semantic Web 3.1 Bài tốn tìm kiếm tài liệu tốn học Hầu hết cách tiếp cận tìm kiếm dựa thành phần chính: kỹ thuật biểu diễn thông tin (câu truy vấn, tài liệu) hai phương pháp đối sánh cách biểu diễn Yêu cầu tự động hóa qui IT trình kiểm tra tài liệu địi hỏi phải tính tốn độ tương đồng câu truy vấn tài liệu Qui trình trả kết giống với PT yêu cầu đối sánh câu truy vấn với tài liệu Hình 3.1 Mơ hình hệ thống tìm kiếm thơng tin 13 3.2 Tìm kiếm tài liệu có chứa cơng thức tốn - Mơ hình đề xuất Nội dung phần trình bày giải pháp tìm kiếm tài liệu trang Web dựa vào mơ hình biểu diễn lưu trữ cơng thức tốn văn đề xuất chương trước Mơ hình tìm kiếm có hai q trình tạo mục cho tài liệu tìm kiếm theo yêu cầu truy vấn người dùng Mơ hình tổng qt PT IT trình tạo mục tìm kiếm Hình 3.2 Hình 3.2 Mơ hình tổng qt trình tạo mục tìm kiếm Như vậy, mơ hình tìm kiếm tài liệu dựa cơng thức tốn, có mơ đun: (1) lập mục văn bản; (2) chuyển đổi cơng thức tốn; (3) tìm kiếm hiển thị kết quả, mơ đun chuyển đổi cơng thức tốn tn theo mơ hình biểu diễn lưu trữ cơng thức tốn đề xuất Do vậy, luận án trình bày chi tiết hai mơ đun lập mục văn bản, tìm kiếm hiển thị kết 14 - Mô hình lập mục văn Quá trình thu thập văn chứa cơng thức tốn từ Internet từ nguồn khác, thực đánh mục văn theo đặc trưng văn lưu vào CSDL mục văn Các PT IT bước chi tiết q trình mơ tả Hình 3.3: Hình 3.3 Mơ hình mơ đun lập mục văn Bước Tiền xử lí văn theo thể loại: Bước xác định xem văn có chứa cơng thức tốn hay khơng Nếu văn khơng chứa cơng thức tốn, hệ thống loại văn khỏi quy trình đánh mục Kết bước tập văn thô chứa cơng thức tốn Các văn nhiều dạng khác PDF, HTML, Doc, XML Bước Chuyển đổi định dạng văn bản: Bước cho phép tìm kiếm chuyển đổi định dạng tài liệu từ PDF, HTML, Doc, 15 XML sang XHTML+MathML Kết bước tập văn chứa công thức toán, chuyển đổi định dạng XHTML +MathML Bước Bóc tách cơng thức tốn văn bản: Nội dung tài liệu phân tách thành nội dung văn cơng thức tốn Các nội dung văn lập mục theo cách thông thường Các cơng thức tốn sau chuẩn hóa chuyển đổi thành chuỗi nén, lập mục chuỗi văn bình thường Bước Đánh mục lưu vào CSDL mục văn bản: Bước đánh mục văn theo phương pháp Lucene Sau văn lưu vào CSDL mục văn IT - Mơ đun tìm kiếm hiển thị kết Mô đun cho phép người dùng nhập từ khóa cơng thức tốn vào để tìm kiếm Sau hệ thống tìm tính điểm văn PT liên quan đến cơng thức muốn tìm CSDL mục văn Kết hiển thị danh sách văn có liên quan đến câu truy vấn Q trình mơ tả trong Hình 3.4 Hình 3.4 Mơ hình q trình tìm kiếm 16 Bước Tiếp nhận chuẩn hóa câu truy vấn: Kết trả công thức tốn lưu trữ dạng Presentation MathML Cơng thức chuyển đổi sang Content MathML LaTeX, tùy vào nhu cầu tìm kiếm Bước Truy vấn – tìm kiếm: Để thực chức tìm kiếm cơng thức tốn, luận án đề xuất sử dụng phương pháp đối sánh mẫu (Pattern Matching) [2], [28] Bài tốn u cầu tìm nhiều vị trí xuất mẫu văn bản, mẫu văn chuỗi có độ dài m n (m ≤ n) Bước Xếp hạng kết tìm kiếm hiển thị: Luận án đề xuất sử dụng thuật toán xếp hạng TF-IDF (Term Frequency - Inverse IT Document Frequency, Tần số mục từ - Tần số tài liệu nghịch đảo) Ý tưởng thuật toán mục từ truy vấn xuất nhiều tài liệu, tài liệu có điểm cao PT 3.3 Tìm kiếm tài liệu dựa Semantic Web - Mô tả ứng dụng Semantic Web toán học Luận án đề xuất xây dựng hệ thống Semantic Web toán học dựa Semantic Web lơ gíc mơ tả khuyến cáo W3C Điểm đặc biệt ứng dụng so với ứng dụng khác tài liệu soạn thảo lưu trữ dựa không gian đề xuất chương tìm thấy tài liệu với câu truy vấn cơng thức tốn câu truy vấn ngữ nghĩa mô tả tài liệu cơng thức tốn - Mơ hình đề xuất Trên sở khảo sát thực tế nghiên cứu lý thuyết, luận án đề xuất mô hình tổng quát cho hoạt động hệ thống sau: 17 Hình 3.5 Mơ hình hóa hệ thống Semantic Web toán học IT 3.4 Kết luận Chương Nội dung chương trình bày đề xuất mơ hình tìm kiếm tài liệu dựa cơng thức tốn trang Web thông thường PT Semantic Web Các văn bản, tài liệu, Ontology soạn thảo lưu trữ dựa mơ hình thống cách biểu diễn lưu trữ cơng thức tốn trình bày chương 2, bao gồm hai giai đoạn: lập mục văn (hoặc xây dựng Ontology) chứa cơng thức tốn tìm kiếm văn dựa cơng thức tốn CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ Nội dung chương trình bày việc thử nghiệm đánh giá mơ hình đề xuất chương 3, bao gồm: (1) Mơ hình biểu diễn lưu trữ cơng thức tốn văn bản; (2) Mơ tả hệ thống thử nghiệm; (3) Trình bày phương pháp thử nghiệm; (4) Kết thử nghiệm đánh giá 4.1 Chức soạn thảo lưu trữ cơng thức tốn Cửa sổ soạn thảo cơng thức tốn chia thành ba vùng chính: 18 - Vùng menu chức nằm phía hình: chứa menu chức hỗ trợ cho công cụ môi trường soạn thảo - Vùng xem trước (preview) bên trái hình: cho phép hiển thị cơng thức tốn hiển thị văn xuất - Vùng soạn thảo nằm bên phải trung tâm hình: IT cho phép soạn thảo cơng thức tốn dạng MathML PT Hình 4.1 Biểu diễn cơng thức theo dạng thẻ (tags) 4.2 Tìm kiếm trực tiếp cơng thức tốn Ở mức thực tìm kiếm cơng thức tốn xuất văn Hình 4.4 Ví dụ tìm kiếm ký hiệu bậc 19 4.3 Tìm kiếm Ontology IT Qui trình cụ thể sau: Hình 4.6 Mơ hình xây dựng khai thác kho liệu 4.4 Tìm kiếm văn chứa cơng thức tốn PT Hệ thống tìm kiếm tài liệu dựa cơng thức tốn (VNMathSearch) xây dựng phát triển theo số chức mơ hình đề xuất Phát triển hệ thống thử nghiệm Trong trình nghiên cứu hệ thống phát triển, luận án lựa chọn ngơn ngữ lập trình C#, hệ quản trị sở liệu SQL Server phát triển web để xây dựng hệ thống Chuẩn bị liệu Luân án sử dụng liệu tài liệu kỹ thuật thư viện Đại học Đà Nẵng Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội cung cấp với tổng số 497 văn từ nhiều lĩnh vực khác gồm: Tốn, Vật lí, Cơng nghệ thơng tin, Điện tử tự động hóa Tài liệu lưu trữ định dạng HTML, XHTML, LaTeX, Doc, PDF… 20 Các tài liệu thử nghiệm Semantic Web chuyển đổi lưu trữ Ontology với lớp kiểu tài liệu bổ sung mơ tả tóm tắt tài liệu, mơ tả cơng thức tốn có chứa tài liệu Sau thực phân tích tài liệu, số lượng tài liệu có chứa cơng thức tốn thể Bảng 4.4 Bảng 4.4 Kết phân tích tài liệu Tài liệu Số lượng Số lượng tài liệu không chứa công thức 245 Số lượng tài liệu chứa công thức 241 Tổng IT Số lượng tài liệu không nhận diện 11 497 Trong số 241 văn chứa công thức tốn, có 38 tài liệu chứa 01 cơng thức 203 tài liệu chứa từ 02 cơng thức tốn trở lên Tài liệu PT lưu trữ sở liệu Công cụ nhận diện công thức nhận diện công thức tài liệu lưu trữ, số lượng tài liệu không nhận diện 11 tổng số 497 tài liệu Hiệu suất phân tích tài liệu hệ thống tính cơng thức: 𝑆ố 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑛ℎậ𝑛 𝑑𝑖ệ𝑛 đú𝑛𝑔 𝐻𝑠 = 𝑥100% ≈ 98% 𝑇ổ𝑛𝑔 𝑠ố 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑡𝑟𝑜𝑛𝑔 𝐶𝑆𝐷𝐿 4.5 Đánh giá kết 4.5.1 Phương pháp đánh giá Luận án thực đánh giá với hai kịch sau: - Kịch 1: Nhập truy vấn dạng nội dung văn - Kịch 2: Nhập truy vấn dạng cơng thức tốn Luận án quan sát tham số đầu sau: Số mẫu trả (TP - true positive): số lượng văn có chứa nội dung truy vấn xuất kết tìm kiếm 21 Số mẫu sai trả (FP - false positive): số lượng văn không chứa nội dung truy vấn xuất kết tìm kiếm Số mẫu khơng trả (FN - false negative): số lượng văn có chứa nội dung truy vấn khơng xuất kết tìm kiếm Khi đó, độ xác (Precision) xác định công thức: TP TP  FP Độ triệu hồi (Recall) xác định công thức: TP Recall  TP  FN Độ xác nội suy (Interpolated Precision): Độ xác mức triệu hồi chuẩn từ 0.1 đến 1.0 (0.1, 0.2, , 1.0) Độ xác nội suy Precisioninterp mức triệu hồi R tính công thức: IT precision  Precisioninterp (R) = max{P ′ |R′ ≥ R ∧ (R′ , P ′ ) ∈ S} (4.4) PT Trong đó, S tập điểm precision-recall (P, R) quan sát Như vậy, độ xác nội suy P mức triệu hồi R độ xác cao quan sát tất điểm recall-precision có mức triệu hồi lớn R Độ xác trung bình (Average Precision) tính cơng thức sau: TP+FP AP = ∑ TF(i) P@i TP + FN Trong đó: (4.5) k=1 TF(i) có giá trị tài liệu tìm thứ i có chứa nội dung truy vấn có giá trị tài liệu tìm thứ i không chứa nội dung truy vấn P@i độ xác xét đến tài liệu thứ i 22 4.5.2 Kết thực nghiệm đánh giá kết Luận án sử dụng câu truy vấn có nội dung khác cho việc thử nghiệm hệ thống, mức triệu hồi chuẩn, luận án tính độ xác tương đương, kết thử nghiệm sau: Bảng 4.6 Độ xác với mức triệu hồi chuẩn theo kịch Recall Precision No Recall Precision 0.1 0.8734 0.6 0.7333 0.2 0.8333 0.7 0.6750 0.3 0.8167 0.8 0.5833 0.4 0.7667 0.9 0.5667 0.5 0.7433 10 1.0 0.5117 IT No Bảng 4.7 Độ xác với mức triệu hồi chuẩn theo kịch 2 Recall Precision No PT No Recall Precision 0.1 0.9667 0.6 0.7500 0.2 0.8667 0.7 0.6667 0.3 0.8450 0.8 0.6333 0.4 0.8000 0.9 0.6083 0.5 0.7833 10 1.0 0.5333 Bảng 4.8 Kết trung bình độ triệu hồi độ xác Kịch Recall Precision Truy vấn theo nội dung 0.72 0.71034 Truy vấn theo công thức 0.62 0.74533 Đánh giá kết Mặc dù hai kịch cho kết có độ xác cao lại cho độ triệu hồi thấp Có nghĩa cịn nhiều văn có chứa 23 nội dung truy vấn khơng xuất kết tìm kiếm Hạn chế xuất phát từ yếu tố kỹ thuật sau: (1) Do độ xác Bộ chuyển đổi cơng thức tốn chưa cao, (2) Thuật tốn đối sánh xấp xỉ chưa phát đầy đủ chuỗi tập từ khóa 4.6 Kết luận Chương Nội dung chương trình bày việc thử nghiệm đánh giá đề xuất chương 3, bao gồm: mơ hình biểu diễn lưu trữ cơng thức tốn văn sử dụng ngơn ngữ MathML; phương pháp tìm kiếm văn chứa cơng thức tốn dựa mơ hình biểu diễn lưu trữ đề xuất KẾT LUẬN IT Đề tài luận án xuất phát từ nhu cầu thực tế hạn chế công cụ soạn thảo, biểu diễn, lưu trữ khai thác tài liệu khoa học, đặc biệt tài liệu có chứa cơng thức toán Luận án PT vấn đề nghiên cứu quan trọng liên quan đến việc soạn thảo, lưu trữ, tìm kiếm tài liệu khoa học máy tính Nghiên cứu luận án đề cập đến chuẩn biểu diễn, lưu trữ, giải pháp soạn thảo cho phép nhập sửa cơng thức tốn; giải pháp chuyển đổi tài liệu chứa cơng thức tốn ứng dụng khác nhau; giải pháp tìm kiếm nội dung tài liệu dựa cơng thức tốn giải pháp Semantic Web cho tài liệu toán học Luận án tiến hành thử nghiệm phục vụ đánh giá giải pháp đề xuất Các kết thử nghiệm cho thấy giải pháp đề xuất hợp lý, khả thi cho kết tốt Những đóng góp luận án tóm tắt điểm sau: Đề xuất mơ hình biểu diễn lưu trữ cơng thức tốn cách thống nhất, chuyển đổi dễ dàng từ nhiều nguồn nhiều công cụ soạn thảo lưu trữ khác 24 Đề xuất phương pháp chuyển đổi hai chiều dạng biểu diễn lưu trữ công thức toán khác Đề xuất phương pháp lập mục, xây dựng Ontology tài liệu chứa công thức tốn Đề xuất kỹ thuật tìm kiếm tài liệu chứa cơng thức tốn mơi trường Internet, với Web thông thường Semantic Web Những kết có ý nghĩa khoa học thực tiễn rõ ràng, đặc biệt lĩnh vực nghiên cứu ứng dụng cho tiếng Việt Về mặt khoa học, nghiên cứu cho phép mở hướng nghiên cứu chuẩn biểu diễn, lưu trữ, xử lý, khai thác văn hệ thống máy tính mạng máy tính khác Đặc IT biệt, nghiên cứu xử lý vấn đề phát sinh hệ điều hành, phần mềm ứng dụng sử dụng chuẩn biểu diễn lưu trữ khác Về mặt thực tiễn, luận án thử nghiệm công cụ soạn thảo, xử lý, PT tìm kiếm chuyển đổi tài liệu toán học; thử nghiệm Semantic Web cho tài liệu tốn học; xây dựng hệ thống tìm kiếm tài liệu dựa cơng thức tốn (VNMathSearch) Những kết bước đầu sở quan trọng để tiếp tục thực nghiên cứu tương lai Tuy nhiên, phạm vi nghiên cứu phải giới hạn điều kiện thời gian nên số vấn đề cần phải tiếp tục nghiên cứu, thử nghiệm thêm Trên sở nghiên cứu triển khai kết đạt trình thực luận án, luận án đề xuất số hướng phát triển thời gian tới gồm: - Tiếp tục nghiên cứu cập nhật thông tin chuẩn lưu trữ Trên sở đó, nghiên cứu chuyển đổi tự động tài liệu tạo từ công cụ soạn thảo khác - Nghiên cứu phát triển hệ thống tìm kiếm đa ngữ xuyên ngữ DANH SÁCH CÁC BÀI BÁO ĐÃ CÔNG BỐ [1] Cao Xuân Tuấn, Phan Thị Lê Thuyền, Võ Trung Hùng, “Nghiên cứu ứng dụng MathML để quản lý cơng thức tốn học phần mềm soạn thảo văn bản”, Tạp chí Khoa học Cơng nghệ, Đại học Đà Nẵng, số [46], pp 78-85, 2011 [2] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 04, May-2015 [3] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management IT of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 05, May-2015 PT [4] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building Vietnamese Technical Document Retrival Effectively”, 4th International Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 [5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, “VNMATHSEARCH – Hệ thống tìm kiếm tài liệu toán học tiếng Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), pp 768-775, 2015 [6] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường thống để biểu diễn, lưu trữ, soạn thảo xử lý cơng thức tốn”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, pp 64-69, 01/2017 ... dung nghiên cứu IT pháp tìm kiếm; Semantic Web Nội dung luận án tập trung nghiên cứu mơ hình biểu diễn lưu trữ cơng thức tốn, tốn tìm kiếm tài liệu dựa cơng thức PT toán Các nội dung nghiên cứu. .. lại 12 CHƯƠNG TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN Trên sở mơ hình biểu diễn chương 2, chương trình bày mơ hình tìm kiếm tài liệu, đặc biệt tài liệu môi trường Web dựa cơng thức tốn Phần... trở lên Tài liệu PT lưu trữ sở liệu Công cụ nhận diện công thức nhận diện công thức tài liệu lưu trữ, số lượng tài liệu không nhận diện 11 tổng số 497 tài liệu Hiệu suất phân tích tài liệu hệ

Ngày đăng: 19/03/2021, 17:45

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w