Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,39 MB
Nội dung
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG CAO XN TUẤN NGHIÊNCỨU PHƢƠNG PHÁPTÌMKIẾMTÀILIỆUDỰATRÊNCƠNGTHỨC TỐN Chun ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội, 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng TS Nguyễn Mạnh Hùng Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng cấp Học viện Họp số 122 Hồng Quốc Việt, Hà Nội Vào lúc: Có thể tìm hiểu luận án tại: Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Trong năm gần đây, với phát triển mạnh mẽ mạng Internet công nghệ Web bùng nổ thông tin số Số lượng người sử dụng lượng thông tin sản sinh mạng Internet gia tăng nhanh tìm thấy hầu hết thơng tin cần thiết có nhu cầu Đặc biệt, lượng thông tin liên quan đến khoa học, phục vụ học tập, nghiêncứu gia tăng nhanh chóng phong phú lĩnh vực Các cơng cụ tìmkiếm phổ biến Google, Yahoo, Bing… hỗ trợ mạnh việc tìmkiếmliệu dạng văn hình ảnh, việc tìmkiếmliệu đặc biệt côngthức tốn cơng cụ chưa thực Hiện nay, có nhiều cơng cụ cho phép soạn thảo quản lý cơngthức tốn, việc tìmkiếm gặp nhiều khó khăn chưa có chuẩn chung biểu diễn lưu trữ Vì thế, để tìmkiếmtàiliệudựacơngthức tốn, cần có chế thống để mơ tả, lưu trữ tìmkiếm theo ngữ nghĩa tương ứng với cơngthức Mục tiêu nghiêncứu Mục tiêu tổng quát đề tài đề xuất mơ hình hệ thống cho phép biểu diễn, lưu trữ tìmkiếmtàiliệudựacơngthức tốn với nhiều tảng hệ thống khác nhau: máy đơn, mạng nội bộ, Internet Mục tiêu cụ thể sau: (1) Đề xuất không gian biểu diễn lưu trữ cơngthức tốn theo cách thống chuyển đổi dễ dàng từ nhiều nguồn, nhiều công cụ soạn thảo lưu trữ khác (2) Trên sở mơ hình thống cách biểu diễn lưu trữ đó, đề xuất phát triển cơng cụ cho phép soạn thảo, tìmkiếmcơngthức tốn cách thuận lợi văn (3) Đề xuất giải pháp để tìmkiếmtàiliệudựacơngthức tốn mơi trường Internet bao gồm Web thường Semantic Web (Web ngữ nghĩa) Ý nghĩa đóng góp Về mặt khoa học, nghiêncứu cho phép mở hướng nghiêncứu tiêu chuẩn lưu trữ, xử lý, khai thác tàiliệu tốn học hệ thống máy tính mạng máy tính khác Đặc biệt, nghiêncứu xử lý vấn đề phát sinh hệ điều hành, phần mềm ứng dụng sử dụng tiêu chuẩn mã hóa lưu trữ khác Ví dụ, để chuyển đổi tàiliệu nói chung hay tàiliệu tốn học nói riêng phần mềm soạn thảo Microsoft Word, OpenOffice, LaTeX, Về mặt thực tiễn, luận án đề xuất thử nghiệm thành côngcông cụ cho phép soạn thảo, xử lý, tìmkiếm chuyển đổi tàiliệu tốn học; triển khai mức thử nghiệm Semantic Web cho tàiliệutoán học xây dựng hệ thống tìmkiếmtàiliệudựacơngthức tốn (VNMathSearch) Những kết bước đầu sở quan trọng để tiếp tục thựcnghiêncứu tương lai Những đóng góp luận án tóm tắt điểm sau: (1) Đề xuất không gian soạn thảo, lưu trữ thống cơngthức tốn dễ dàng chuyển đổi định dạng côngthức sang tiêu chuẩn lưu trữ khác nhau, (2) Đề xuất thử nghiệm thành công hệ thống tìmkiếmtàiliệudựacơngthứctoán (văn Web) dựa ba thành phần: sưu tập liệu (crawler), lập mục (index) tìmkiếm (search), (3) Đề xuất thử nghiệm thành cơng hệ thống tìmkiếmtàiliệutoán học dựa Semantic Web Bố cục luận án Luận án trình bày thành chương Trong đó, chương giới thiệu tổng quan tìmkiếm văn cơngthức tốn Chương trình bày nghiêncứu biểu diễn lưu trữ cơngthức tốn Chương trình bày giải pháp đề xuất tìmkiếmtàiliệudựacơngthức tốn chương thử nghiệm, đánh giá kết nghiêncứu chương chương CHƢƠNG 1: TỔNG QUAN VỀ TÌMKIẾM VĂN BẢN VÀ CƠNGTHỨC TỐN Chương trình bày số kết nghiêncứu tổng quan liên quan đến đề tài gồm: khái niệm văn hệ thống tìmkiếm văn bản; vấn đề lưu trữ tìmkiếm văn chứa cơngthức toán; định hướng nghiêncứu luận án 1.1 Bài tốn tìmkiếm văn Một hệ thống tìmkiếm văn nói chung, thường có hai phần tách biệt là: (i) Phần hệ thống quản lí, lưu trữ; (ii) phần hệ thống tìmkiếm Hình 1.1 Hình 1.1 Kiến trúc tổng quan hệ thống lƣu trữ tìmkiếm văn 1.2 Tìmkiếm văn chứa cơngthức tốn Mơ hình lưu trữ tìmkiếm văn trình bày mục 1.1 áp dụng rộng rãi số lượng lớn người dùng chấp nhận Tuy vậy, mơ hình gặp nhiều khó khăn, hạn chế áp dụng vào tốn tìmkiếm văn chứa cơngthức tốn Một số khó khăn kể đến như: - Phần nội dung côngthức tốn văn xử lí đối tượng độc lập (chẳng hạn hình ảnh, đoạn mã có định dạng đặc biệt,…) nhúng vào văn bản, đó, khơng thể áp dụng kỹ thuật xử lí văn vào bước xử lí cho cơngthức tốn - Phần nội dung cơngthức tốn biểu diễn lưu trữ tàiliệu khác khơng giống Điều dẫn đến khó khăn việc đánh mục tàiliệu chứa cơngthức tốn, việc tìmkiếm từ khóa chứa cơngthức tốn việc xếp hạng văn chứa cơngthức tốn theo từ khóa nhập vào Ký hiệu toán học loại văn định dạng đặc biệt Nó dựa bảng chữ khác (tiếng Hy Lạp, tiếng Do Thái,…), quy tắc bit ký hiệu Dưới số cách biểu diễn: 1) Biểu diễn cơngthức tốn Microsoft Word Ví dụ Microsoft Word 2010, để hiển thị côngthức √ , soạn thảo Equation Editor (Soạn thảo phương trình) phải sử dụng đoạn mã sau: Hoặc { EQ \r(3,x) } biểu diễn đoạn mã sau: { EQ \f(x+2007, x+2008) } 2) Biểu diễn cơngthức tốn OpenOffice.Org Để hiển thị cơngthức √ có đoạn mã tương ứng sau: nroot{3}{x} Hoặc để hiển thị côngthức ứng sau: có đoạn mã tương {x+2007} over {x+2008} 3) Biểu diễn cơngthức tốn Website Để tạo cơngthức tốn phải nhập vào đoạn mã LaTeX tương ứng Sau ví dụ minh hoạ: Để hiển thị cơngthức √ phải nhập đoạn mã sau: $\sqrt[3]{2}$ Hoặc để hiển thị cơngthức phải nhập đoạn mã sau: $\frac{x+2007}{x+2008}$ Hiện có nhiều phương pháp, cách thức tiêu chuẩn áp dụng cho việc đặc tả, biểu diễn lưu trữ cơngthức tốn văn bản, số phương pháp, tiêu chuẩn thường sử dụng Ngôn ngữ đánh dấu TeX/LaTeX, Ngôn ngữ đánh dấu AMS-LaTeX, Ngôn ngữ đánh dấu HTML, Ngôn ngữ MathML Trong đó, MathML luận án đề xuất lựa chọn làm ngôn ngữ biểu diễn lưu trữ chung cho hệ thống đề xuất 1.3 Hƣớng tiếp cận luận án Nội dung mục 1.2 trình bày thực tế không thống hệ thống soạn thảo, biểu diễn lưu trữ cơngthức tốn văn Thực tế dẫn đến khó khăn cho việc áp dụng mơ hình lưu trữ tìmkiếm văn trình bày mục 1.1 vào tốn lưu trữ tìmkiếm văn chứa cơngthức tốn Để giải khó khăn này, xem xét hướng tiếp cận sau: Giải pháp 1: Xây dựng hệ thống riêng cho tốn lưu trữ tìmkiếm văn chứa cơngthức tốn Giải pháp 2: Cải tiến mơ hình có cách bổ sung hệ thống đánh mục, tìmkiếm xếp hạng văn theo dạng lưu trữ cơngthức tốn khác Giải pháp thể Hình 1.8 Hình 1.8 Kiến trúc hệ thống theo giải pháp Giải pháp 3: Cải tiến mơ hình có cách đề xuất chuẩn chung để biểu diễn lưu trữ cơngthức tốn văn áp dụng mơ hình truyền thống dạng biểu diễn chung Giải pháp thể Hình 1.9 Hình 1.9 Kiến trúc hệ thống theo giải pháp Trong giải pháp này, luận án đề xuất lựa chọn giải pháp để triển khai với lý giải pháp có đầy đủ ưu điểm giải pháp 2, đồng thời khắc phục nhược điểm giải pháp Nhìn kiến trúc hệ thống Hình 1.9, dễ dàng nhận thấy giải pháp cho kiến trúc hệ thống tinh gọn phải thay đổi so với giải pháp 1.4 Kết luận Chƣơng Chương trình bày kết nghiêncứu tổng quan q trình soạn thảo tìmkiếmcơngthức tốn, tàiliệu có chứa cơngthức tốn Việc soạn thảo biểu diễn cơngthức tốn cơng cụ soạn thảo đặc biệt Web vấn đề quan tâm Chương BIỂU DIỄN VÀ LƯU TRỮ CƠNGTHỨC TỐN Nội dung chương tập trung trình bày đề xuất mơ hình thống cách biểu diễn lưu trữ côngthức tốn văn bản, dựa ngơn ngữ đánh dấu MathML Trên sở lưu trữ chung đó, luận án đề xuất giải pháp để soạn thảo văn có chứa cơngthức tốn việc chép, chuyển đổi cơngthức tốn lưu trữ tiêu chuẩn biểu diễn khác 2.1 Mơ hình biểu diễn tìmkiếmcơngthức tốn văn Hiện nay, có nhiều cơng cụ cho phép soạn thảo cơngthứctoán văn Microsoft Word, OpenOffice.org Writer, Acrobat, WebEditor,… Mặc dù kết hiển thị côngthức tốn tương tự nhau, cơng cụ soạn thảo văn có chuẩn lưu trữ nội dung riêng, đặc biệt lưu trữ nội dung cơngthức tốn biểu diễn Hình 2.1 Hình 2.1 Mơ hình biểu diễn cơngthức tốn văn truyền thống Thực tế dẫn đến số khó khăn: (1) Khơng thể chép cơngthức tốn từ cơng cụ soạn thảo sang cơng cụ soạn thảo khác, (2) Khó khăn tìmkiếmcơngthức tốn tàiliệu soạn thảo lưu trữ khác Từ thực tế khó khăn này, luận án đề xuất xây dựng môi trường soạn thảo, biểu diễn lưu trữ thống nhất, cho phép chép, tìm kiếm, chuyển đổi chuẩn lưu trữ khác cách dễ dàng Hình 2.2 mơ tả mơ hình đề xuất luận án Hình 2.2 Mơ hình biểu diễn lưu trữ cơngthức tốn văn đề xuất 11 Hình 2.9 Biểu diễn dạng cơngthức MathML Một đối tượng TeX biểu diễn dạng khác với MathML mặt lơ-gíc Mỗi mức tương ứng với nhóm TeX Ví dụ: biểu thức TeX $\sqrt {1-\alpha} + x^{3+a}$ biểu diễn dạng sau: Hình 2.10 Biểu diễn dƣới dạng đối tƣợng TeX 2.6 Kết luận Chƣơng Chương đề xuất mơ hình biểu diễn lưu trữ đồng cơngthức tốn gồm hai mức: Mức thấp cho việc quản lí cơngthứctoán phạm vi tàiliệu Trong mức thấp này, MathML đề xuất sử dụng tiêu chuẩn trung tâm phục vụ việc lưu trữ xử lý cơngthức tốn Mơi trường soạn thảo đề xuất xây dựng dựa mã nguồn mở Amaya, có hỗ trợ soạn thảo cơngthức tốn theo chuẩn MathML 12 Chƣơng TÌMKIẾM T I LIỆUDỰATRÊNCƠNGTHỨC TỐN Trên sở mơ hình biểu diễn thống mức thấp mơ hình hai mức trình bày chương 2, nội dung chương trình bày đề xuất mơ hình tìmkiếmtài liệu, đặc biệt tàiliệu môi trường Web dựacôngthứctoán Đề xuất chương gồm mảng tìmkiếmtài liệu, trang Web thơng thường tìmkiếmdựa Semantic Web 3.1 Bài tốn tìmkiếmtàiliệu tốn học Hầu hết cách tiếp cận tìmkiếmdựa thành phần chính: kỹ thuật để biểu diễn thơng tin (câu truy vấn, tài liệu) hai phươngpháp so sánh cách biểu diễn Mục đích để tự động qui trình kiểm tra tàiliệu cách tính tốn độ tương đồng câu truy vấn tàiliệu Qui trình tự động thành cơng trả kết giống với yêu cầu người sử dụng so sánh câu truy vấn với tàiliệu Hình 3.1 Mơ hình hệ thống tìmkiếm thơng tin 13 3.2 Tìmkiếmtàiliệu có chứa cơngthức tốn - Mơ hình đề xuất Nội dung phần trình bày giải pháptìmkiếmtàiliệu trang Web tạo từ mơ hình biểu diễn lưu trữ đồng cơngthức tốn văn đề xuất chương trước Mô hình tìmkiếm có hai q trình tạo mục cho tàiliệutìmkiếm có yêu cầu truy vấn người dùng Mơ hình tổng qt q trình tạo mục tìmkiếm Hình 3.2 Các nguồn văn user Mơ-dun tìmkiếm Lập mục văn Bộ chuyển đổi cơngthức tốn học Tìmkiếm hiển thị kết CSDL Chỉ mục văn Hình 3.2 Mơ hình tổng qt q trình tạo mục tìmkiếm Như vậy, mơ hình đề xuất cho chức tìmkiếmtàiliệu chứa cơngthức tốn, có mơ-đun: (1) Lập mục văn bản, (2) chuyển đổi cơngthức tốn, (3) tìmkiếm hiển thị kết Trong đó, mơ-đun chuyển đổi cơngthức tốn mơ hình đồng biểu diễn lưu trữ cơngthức tốn đề xuất chương Do đó, mơ-đun xin khơng trình bày lại Luận án trình bày chi tiết bước hai mơ-đun lại mục 14 - Mơ hình lập mục văn Quá trình thu thập văn chứa cơngthức tốn từ Internet từ nguồn khác, thực đánh mục văn theo đặc trưng văn lưu vào CSDL mục văn Các bước chi tiết trình mơ tả Hình 3.3: Hình 3.3 Mơ hình q trình tạo mục Bước Tiền xử lí văn theo thể loại: Bước xác định xem văn có chứa cơngthức tốn hay khơng? Nếu văn khơng chứa cơngthức tốn, hệ thống loại văn khỏi quy trình đánh mục Kết bước tập văn thơ chứa cơngthức tốn Các văn lưu trữ nhiều dạng khác PDF, HTML, Doc, XML Bước Chuyển đổi định dạng văn bản: Bước cho phép tìmkiếm định dạng tàiliệu bước 1, tàiliệu chuyển 15 đổi định dạng thống XHTML+MathML Kết bước tập văn chứa cơngthức tốn, chuyển đổi thành công định dạng thống XHTML +MathML Bước Bóc tách cơngthức tốn văn bản: Nội dung tàiliệu bóc tách thành nội dung văn nội dung toán học Các nội dung văn lập mục theo cách thơng thường Còn cơngthức tốn sau hồn thành bước chuẩn hóa chuyển đổi thành chuỗi nén Bước Đánh mục lưu vào CSDL mục văn bản: Bước đánh mục văn theo phươngpháp Lucene Sau văn lưu vào CSDL mục văn - Mơ-đun tìmkiếm hiển thị kết Mô-đun cho phép người dùng nhập từ khóa cơngthức tốn vào để tìmkiếm Hệ thống sau tìm tính điểm văn liên quan đến cơngthức muốn tìm CSDL mục văn Kết hiển thị lên giao diện cho người dùng Quá trình mơ tả Hình 3.4 với bước sau: Hình 3.4 Mơ hình q trình tìmkiếm 16 Bước Tiếp nhận chuẩn hóa câu truy vấn: Kết trả côngthức lưu trữ dạng Presentation MathML, côngthức chuyển đổi sang Content MathML LaTeX tùy vào nhu cầu tìmkiếm Bước Truy vấn – tìm kiếm: Để thực chức tìmkiếmtàiliệu có chức cơngthức tốn, luận án đề xuất sử dụng phươngpháp đối sánh mẫu (Pattern Matching) [4], [24] Bài tốn u cầu ta tìm nhiều vị trí xuất mẫu văn Trong mẫu văn chuỗi có độ dài m n (m ≤ n) Bước Xếp hạng kết tìmkiếm hiển thị: Luận án sử dụng thuật toán xếp hạng TF-IDF (Term Frequency - Inverse Document Frequency - Tần số mục từ - Tần số tàiliệu nghịch đảo) Ý tưởng thuật toán mục từ truy vấn xuất nhiều tài liệu, tàiliệu có điểm cao 3.3 Tìmkiếmtàiliệudựa Semantic Web - Mô tả ứng dụng Semantic Web toán học Luận án đề xuất xây dựng hệ thống Semantic Web toán học dựa Semantic Web lơ-gíc mơ tả khuyến cáo W3C Điểm đặc biệt ứng dụng so với ứng dụng khác tàiliệu soạn thảo lưu trữ dựa không gian đề xuất chương tìm thấy tàiliệudựa việc nhập vào cơngthứctìmkiếmdựa ngữ nghĩa mô tả tàiliệucơngthức tốn - Mơ hình đề xuất Trên sở khảo sát thực tế nghiêncứu lý thuyết, luận án đề xuất mơ hình tổng quát cho hoạt động hệ thống sau: 17 Hình 3.5 Mơ hình hóa hệ thống Semantic Web toán học 3.4 Kết luận Chƣơng Nội dung chương trình bày đề xuất mơ hình tìmkiếm văn có chức cơngthức tốn, trang Web Ontology Các văn bản, tài liệu, Ontology soạn thảo lưu trữ dựa mơ hình thống cách biểu diễn lưu trữ văn trình bày chương 2, bao gồm hai giai đoạn lập mục văn (hoặc xây dựng Ontology) chứa cơngthức tốn giai đoạn tìmkiếm văn chứa cơngthức tốn Chƣơng THỬ NGHIỆM V ĐÁNH GIÁ Nội dung chương trình bày việc thử nghiệm đánh giá mơ hình đề xuất chương chương 3, bao gồm: Mơ hình thống cách biểu diễn lưu trữ cơngthức tốn văn bản; Mơ tả hệ thống thử nghiệm; Trình bày phươngpháp thử nghiệm; Kết thử nghiệm đánh giá 4.1 Chức soạn thảo lƣu trữ cơngthức tốn Cửa sổ soạn thảo cơngthức tốn chia thành ba vùng chính: 18 - Vùng menu phía trên: chứa menu chức hỗ trợ cho công cụ môi trường soạn thảo - Vùng xem trước (preview) bên trái hình: cho phép hiển thị cơngthức tốn hiển thị văn xuất - Vùng soạn thảo bên phải trung tâm hình: cho phép soạn thảo cơngthức tốn dạng MathML Hình 4.1 Biểu diễn cơngthức theo dạng thẻ (tags) Tìmkiếm trực tiếp cơngthức tốn Ở mức thựctìmkiếmcơngthức tốn xuất văn Hình 4.4 Ví dụ tìmkiếm ký hiệu bậc 19 4.3 Tìmkiếm Ontology Qui trình cụ thể nhƣ sau: Hình 4.6 Mơ hình ây dựng khai thác kho liệu 4.4 Tìmkiếm văn chứa cơngthức tốn Hệ thống tìmkiếmtàiliệu chứa cơngthứctoán (VNMathSearch) xây dựng phát triển theo số chức mơ hình đề xuất Phát triển hệ thống thử nghiệm Trong trình nghiêncứu hệ thống phát triển, luận án lựa chọn ngơn ngữ lập trình C#, hệ quản trị sở liệu SQL Server phát triển web để xây dựng hệ thống Chuẩn bị liệu Luân án sử dụng liệutàiliệu kỹ thuật thư viện Đại học Đà Nẵng Trường Đại học Khoa học Tư nhiên - Đại học Quốc gia Hà Nội cung cấp với tổng số 497 văn từ nhiều lĩnh vực khác gồm: Tốn, Vật lí, Cơng nghệ thơng tin, Điện tử tự động hóa Tàiliệu lưu trữ định dạng HTML, XHTML, LaTeX, Microsoft Word, PDF… 20 Các tàiliệu thử nghiệm Semantic Web chuyển đổi lưu trữ Ontology với lớp kiểu tàiliệu bổ sung mơ tả tóm tắt tài liệu, mơ tả cơngthức tốn có chứa tàiliệu Sau thực phân tích tàiliệu chứa cơngthức Số lượng cơngthức tốn chứa tàiliệu thể Bảng 4.4 Bảng 4.4 Chi tiết số côngthức văn Tàiliệu Số lượng Số lượng tàiliệu không chứa côngthức 245 Số lượng tàiliệu chứa côngthức 241 Số lượng tàiliệu không nhận diện Tổng 11 497 Trong số 241 văn chứa công thức, có 38 tàiliệu chứa 01 cơngthức 203 tàiliệu chứa từ 02 cơngthức tốn trở lên Tàiliệu lưu trữ CSDL, công cụ nhận diện côngthức nhận diện côngthứctàiliệu lưu trữ, số lượng tàiliệu không nhận diện 11 tàiliệu tổng số 497 tàiliệu Hiệu suất thực chức phân tích tàiliệu hệ thống tính công thức: Đánh giá kết 4.5.1 Phƣơng pháp đánh giá Luận án thực đánh giá với hai kịch sau: - Kịch 1: Nhập truy vấn dạng nội dung văn - Kịch 2: Nhập truy vấn dạng côngthức Luận án quan sát tham số đầu sau: Số mẫu trả (TP - true positive): số lượng văn có chứa nội dung truy vấn xuất kết tìmkiếm 21 Số mẫu sai trả (FP - false positive): số lượng văn không chứa nội dung truy vấn xuất kết tìmkiếm Số mẫu không trả (FN - false negative): số lượng văn có chứa nội dung truy vấn lại khơng xuất kết tìmkiếm Khi đó, độ xác (Precision) xác định cơng thức: precision TP TP FP Độ triệu hồi (Recall) xác định công thức: Re call TP TP FN 4.5.2 Kết thực nghiệm đánh giá kết Số lượng truy vấn số tàiliệu liên quan thể chi tiết Bảng 4.5: Bảng 4.5 Thống kê truy vấn Tóm tắt thống kê Số tàiliệu 497 Số chủ đề Tổng số tàiliệuthực truy vấn Số tàiliệu tra cứu 312 Số tàiliệu liên quan 298 Luận án sử dụng câu truy vấn có nội dung khác cho việc thử nghiệm hệ thống, cấp độ triệu hồi, luận án tính độ xác tương đương với cấp Bảng 4.6 Thống kê độ triệu hồi độ xác theo kịch No Recall Precision (%) No Recall Precision (%) 0.1 0.8734 0.6 0.7333 0.2 0.8333 0.7 0.6750 22 0.3 0.8167 0.8 0.5833 0.4 0.7667 0.9 0.5667 0.5 0.7433 10 1.0 0.5117 Bảng 4.7 Thống kê độ triệu hồi độ ác theo kịch No Recall 0.1 Precision (%) No Recall Precision (%) 0.9667 0.6 0.7500 0.2 0.8667 0.7 0.6667 0.3 0.8450 0.8 0.6333 0.4 0.8000 0.9 0.6083 0.5 0.7833 10 1.0 0.5333 Bảng 4.8 Kết trung bình độ triệu hồi độ ác Kịch Recall Precision (%) Truy vấn theo nội dung 0.72 86.8132 Truy vấn theo côngthức 0.62 89.3130 Đánh giá kết Mặc dù hai kịch cho kết có độ xác cao lại cho độ triệu hồi thấp Có nghĩa nhiều văn có chứa cơngthức tốn truy vấn khơng xuất kết tìmkiếm Đây coi điểm hạn chế tồn mơ hình đề xuất Hạn chế xuất phát từ yếu tố kỹ thuật sau: (1) Do độ xác Bộ chuyển đổi cơngthức tốn chưa cao, (2) Thuật toán đối sánh xấp xỉ chưa phát đầy đủ chuỗi tập từ khóa 4.6 Kết luận Chƣơng Nội dung chương trình bày việc thử nghiệm đánh giá mơ hình đề xuất chương chương 3, bao gồm: mơ hình thống cách biểu diễn lưu trữ cơngthức tốn văn 23 bản; phươngpháptìmkiếm văn có chứa cơngthức tốn dựa mơ hình thống biểu diễn lưu trữ KẾT LUẬN Luận án đề xuất từ nhu cầu thực tế hạn chế việc soạn thảo, lưu trữ khai thác tàiliệu khoa học, đặc biệt tàiliệu có chứa cơngthức tốn Trên sở nghiêncứu tổng quan, đề xuất vấn đề nghiêncứu liên quan đến việc soạn thảo, lưu trữ, tìmkiếmtàiliệu khoa học máy tính Các nghiêncứu luận án liên quan đến nhiều vấn đề tiêu chuẩn lưu trữ, hệ soạn thảo cho phép nhập sửa cơngthức tốn, giải pháp để tìmkiếmcơngthức tốn, tìmkiếmtàiliệu có chứa cơngthức tốn, giải pháp để chuyển đổi tàiliệu có chứa cơngthức tốn cơng cụ khác Luận án trình bày kết thử nghiệm nhằm đánh giá giải pháp đề xuất kết cho thấy giải pháp đề xuất hợp lý, khả thi cho kết tốt Những ứng dụng thử nghiệm cho thấy cung cấp cho người sử dụng giải pháp, công cụ hiệu thuận lợi soạn thảo, lưu trữ tìmkiếmtàiliệudựacơngthức tốn Những đóng góp luận án tóm tắt điểm sau: Đề xuất khơng gian soạn thảo, lưu trữ thống cơngthức tốn dễ dàng chuyển đổi định dạng cơngthức tốn sang tiêu chuẩn lưu trữ khác Đề xuất thử nghiệm thành cơng hệ thống tìmkiếmtàiliệudựacơngthức tốn (văn Web) dựa ba thành 24 phần: (1) sưu tập liệu (crawler), (2) lập mục (index) (3) tìmkiếm (search) Đề xuất thử nghiệm hệ thống tìmkiếmtàiliệu tốn học dựa Semantic Web Những kết có ý nghĩa khoa học thực tiễn rõ ràng, đặc biệt lĩnh vực nghiêncứu ứng dụng cho tiếng Việt Về mặt khoa học, kết cho phép mở hướng nghiêncứu tiêu chuẩn lưu trữ, xử lý, khai thác tàiliệu tốn học hệ thống máy tính mạng máy tính khác Đặc biệt, nghiêncứu xử lý vấn đề phát sinh hệ điều hành, công cụ sử dụng tiêu chuẩn mã hóa lưu trữ khác Về mặt thực tiễn, luận án đề xuất thử nghiệm thành côngcơng cụ cho phép soạn thảo, xử lý, tìmkiếm chuyển đổi tàiliệutoán học; xây dựng hệ thống tìmkiếmtàiliệudựacơngthức tốn (VNWebSearch), triển khai mức thử nghiệm Semantic Web cho tàiliệutoán học Những kết bước đầu sở quan trọng để tiếp tục thựcnghiêncứu tương lai Tuy nhiên, phạm vi nghiêncứu phải giới hạn điều kiện thời gian nên số vấn đề cần phải tiếp tục nghiên cứu, thử nghiệm thêm Trên sở nghiêncứu triển khai kết đạt trình thực luận án, luận án đề xuất số hướng phát triển thời gian tới gồm: - Tiếp tục nghiêncứu cập nhật thông tin chuẩn lưu trữ Trên sở đó, nghiêncứu chuyển đổi tự động tàiliệu tạo từ công cụ soạn thảo khác - Nghiêncứu phát triển hệ thống tìmkiếm đa ngữ xuyên ngữ DANH SÁCH CÁC B I BÁO ĐÃ CÔNG BỐ [1] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 04, May-2015 [2] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 05, May-2015 [3] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building Vietnamese Technical Document Retrival Effectively”, 4th International Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 [4] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, “VNMATHSEARCH – Hệ thống tìmkiếmtàiliệu tốn học tiếng Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiêncứu ứng dụng Công nghệ thông tin (FAIR), pp 768-775, 2015 [5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường thống để biểu diễn, lưu trữ, soạn thảo xử lý cơngthức tốn”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, pp 64-69, 01/2017