Nghiên cứu và phát triển công cụ tìm kiếm công thức toán học trên văn bản

26 49 0
Nghiên cứu và phát triển công cụ tìm kiếm công thức toán học trên văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN THỊ BÍCH LIỄU NGHIÊN CỨU VÀ PHÁT TRIỂN CƠNG CỤ TÌM KIẾM CƠNG THỨC TỐN HỌC TRÊN VĂN BẢN Chunngành: KHOA HỌC MÁY TÍNH Mãsố: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT ĐàNẵng - Năm 2015 Công trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng Phản biện 1: TS Nguyễn Tấn Khôi Phản biện 2: TS Nguyễn Quang Thanh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kĩ thuật họp Đại học Đà Nẵng vào ngày 18 tháng năm 2015 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng - Thư viện trường Đại học Bách Khoa, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Ngày khoa học cơng nghệ có ảnh hưởng sâu rộng đến lĩnh vực đời sống xã hội quốc gia Thông tin điện tử trở thành nguồn tài nguyên quý giá phục vụ cho hoạt động quản lý nhu cầu đời sống xã hội Hầu hết nội dung, tri thức mà người khám phá tra tồn dạng văn điện tử, từ nội dung khoa học tự nhiên - xã hội, đến tin tức, chia sẻ ngày người khắp giới Cũng lĩnh vực khác, ngày có nhiều người chia sẻ nội dung tốn học tìm kiếm giải pháp cho vấn đề họ mạng Internet Tuy nhiên, vấn đề đặt tìm kiếm nội dung toán học cần thiết kho tài liệu khổng lồ vậy? Các máy tìm kiếm văn bình thường khơng nhận diện kí hiệu, cấu trúc đặc biệt, việc tìm kiếm thường khơng trả kết khớp với u cầu người dùng Chính cần có máy tìm kiếm cơng thức tốn học chun dụng cho phép tìm kiếm cơng thức tốn học tài liệu website chia sẻ mạng Internet Hiện giới phát triển số cơng cụ tìm kiếm cơng thức tốn học cho phép tìm theo nội dung hiển thị cơng thức theo ngữ nghĩa nhiên phạm vi ứng dụng cơng cụ bó hẹp, chẳng hạn EgoMath cho phép tìm kiếm cơng thức tốn học Wikipedia.org, Website LatexSearch có hỗ trợ tìm kiếm cơng thức tốn học soạn thảo ngôn ngữ đánh dấu LaTeX, quyền MPS Technologies (Mathematical Programming System - Hệ thống lập trình tốn học), kết tìm thấy giới hạn tài liệu điện tử máy chủ SpringerLink, vv Lĩnh vực nghiên cứu phát triển cơng cụ tìm kiếm cơng thức tốn học xem mẻ cần đầu tư nghiên cứu chuyên sâu để tìm giải pháp thích hợp Xuất phát từ nhu cầu thực tế đó, chúng tơi chọn đề tài “Nghiên cứu phát triển cơng cụ tìm kiếm cơng thức tốn học văn bản” Việc nghiên cứu phát triển công cụ nhằm hỗ trợ, thúc đẩy việc học tập, nghiên cứu ứng dụng khoa học tư nhiên Việt Nam giới Mục tiêu nhiệm vụ Mục tiêu nghiên cứu nhằm cung cấp website tìm kiếm cơng thức tốn học văn Website cho phép người dùng nhập công thức tốn học cần tìm kiếm hệ thống hiển thị danh mục tài liệu chứa công thức tốn học Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu luận văn tiêu chuẩn đặc tả cơng thức tốn học văn sử dụng ngơn ngữ đánh dấu LaTeX MathML, phương pháp tạo mục cho tài liệu cần tìm kiếm, số ứng dụng hỗ trợ tạo mục phổ biến nay, phương pháp tìm kiếm cơng thức tốn học văn bản, cơng cụ tìm kiếm cơng thức tốn học sẵn có phương pháp tích hợp cơng cụ gõ cơng thức tốn học vào cơng cụ tìm kiếm 3.2 Phạm vi nghiên cứu Thực nghiên cứu phát triển ứng dụng tìm kiếm kho liệu chứa 50 tài liệu toán học định dạng PDF XHTML Ứng dụng tìm kiếm sở liệu triển khai máy đơn chạy localhost Phương pháp nghiên cứu 4.1 Nghiên cứu lý thuyết Nghiên cứu tài liệu liên quan đến tìm kiếm cơng thức toán học văn thử nghiệm cơng cụ tìm kiếm cơng thức tốn học sẵn có 4.2 Nghiên cứu thực nghiệm Dựa lý thuyết nghiên cứu, tiến hành xây dựng cơng cụ tìm kiếm cơng thức tốn học văn sử dụng ngơn ngữ lập trình Java; Ý nghĩa khoa học thực tiễn đề tài 5.1 Về mặt lý thuyết Luận văn hướng việc nghiên cứu xây dựng cơng cụ tìm kiếm cơng thức tốn học hiệu văn bản, tạo tiền đề để xây dựng công cụ hoàn chỉnh tương lai 5.2 Về mặc thực tiễn Luận văn cung cấp cơng cụ tìm kiếm cơng thức tốn học văn bản, giúp học sinh, sinh viên, giáo viên… tiết kiệm thời gian, công sức đạt hiệu cao công tác học tập nghiên cứu môn khoa học tự nhiên Bố cục luận văn Ngoài phần mở đầu kết luận, luận văn gồm có ba chương với nội dung sau: Chương 1: Nghiên cứu tổng quan Trong chương này, trình bày tìm hiểu sơ thực trạng tìm kiếm cơng thức tốn học Vệt Nam giới Đồng thời, chúng tơi tìm hiểu cách đặc tả cơng thức tốn học tài liệu website sử dụng hai ngôn ngữ đánh dấu LaTeX MathML Ngoài nội dung trên, chúng tơi tìm hiểu phương pháp tạo mục số ứng dụng hỗ trợ tạo mục phổ biến nay, bật ứng dụng mã nguồn mở Apache Lucene Ngoài ra, chúng tơi nghiên cứu số cơng cụ tìm kiếm cơng thức tốn học sẵn có MathWebSearch, Nutch, EgoMath Chương 2: Giải pháp đề xuất Trong chương này, chúng tơi đề xuất mơ hình tổng qt hệ thống đề xuất giải pháp cụ thể nhằm giải yêu cầu toán đặt ra, bao gồm: giải pháp sử dụng InftyReader để chuyển đổi định dạng tập tin PDF sang XHTML+MathML, giải pháp chuẩn hóa cơng thức tốn học, giải pháp tích hợp công cụ WIRIS nhằm hỗ trợ nhập công thức vào khung tìm kiếm Chương 3: Thực nghiệm đánh giá kết Trong chương này, tiến hành xây dựng hệ thống tìm kiếm cơng thức tốn học văn bản, ứng dụng mã nguồn mở Lucene, tiến hành thử nghiệm, đánh giá kết đạt CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ TÌM KIẾM CƠNG THỨC TỐN HỌC TRÊN CÁC VĂN BẢN 1.1.1 Khái niệm văn toán học Trong phạm vi luận văn này, văn toán học dùng để văn có chứa cơng thức tốn học Nó khơng đơn tài liệu lĩnh vực toán học, mà tài liệu vật lí, hóa học, sinh học 1.1.2 Thực trạng tìm kiếm cơng thức toán học văn a Trên giới - Đối với người không chuyên, chẳng hạn muốn tìm kiếm cơng thức √𝑥 , họ chuyển công thức thành “The square root of x” tìm cụm từ máy tìm kiếm văn phổ biến Bing, Google, vv - Hướng tìm kiếm thứ hai tìm kiếm theo tên cơng thức - Hướng tìm kiếm thứ ba sử dụng máy tìm kiếm chun dụng cho cơng thức toán học chẳng hạn MathWebSearch b Tại Việt Nam Việc tìm kiếm tài liệu tốn học Việt Nam nói khó khăn so với mặt chung giới 1.2 ĐẶC TẢ CÔNG THỨC TỐN HỌC TRÊN MÁY TÍNH 1.2.1 Tổng quan đặc tả cơng thức tốn học tài liệu Cơng thức tốn học tài liệu đặc tả nhiều ngôn ngữ khác nhau, gọi ngôn ngữ đánh dấu tốn học Có nhiều loại ngơn ngữ đánh dấu toán học nay, phổ biến loại chính:  TeX/LaTeX [16]  MathML [17]  OMDoc [18]  OpenMath [19] Trong đó, TeX/LaTeX có cú pháp gần gũi với ngôn ngữ tự nhiên, MathML, OpenMath OMDoc lại tối ưu hóa cho việc giao tiếp máy tính với 1.2.2 Đặc tả cơng thức tốn học ngơn ngữ LaTeX TeX hệ thống chữ viết Donald E.Knuth Đại học Stanford vào năm 1977 TeX xem cách tốt để gõ cơng thức tốn học phức tạp nhằm phục vụ nhu cầu soạn thảo tài liệu toán học với chất lượng in cao Bắt đầu từ năm 1980, Leslie Lamport bắt đầu tạo hệ thống soạn thảo văn ngày gọi LaTeX dựa định dạng TeX Việc tạo tập tin PDF từ tập nguồn LaTeX thực dễ dàng nhờ vào công cụ chuyển đổi 1.2.3 Đặc tả cơng thức tốn học MathML a Giới thiệu chung MathML MathML (Mathematical Markup Language - Ngơn ngữ Đánh dấu Tốn học) ứng dụng XML để thể ký hiệu công thức tốn học với mục đích rộng phương cách trao đổi thơng tin tốn học máy tính (để hiển thị để tính tốn) mục đích hẹp hiển thị tài liệu toán học World Wide Web MathML cung cấp hai cách thức trình bày ngơn ngữ đánh dấu tốn học, cách thức nhằm nhấn mạnh cách trình bày cơng thức (Presentation MathML) cách thức thứ hai nhấn mạnh nội dung tốn học cơng thức (Content MathML) b Presentation MathML Presentation MathML tập trung vào mặt hiển thị cơng thức, có 30 thẻ khác Tên thẻ bắt đầu kí tự m Một biểu thức Presentation MathML xây dựng từ thẻ kết hợp với sử dụng thẻ cấp cao để nhằm điều khiển bố cục chúng c Content MathML Content MathML tập trung vào nghĩa cơng thức cách trình bày cơng thức Khác với Presentation MathML, toán tử Content MathML biểu diễn thẻ có ngữ nghĩa, chẳng hạn phép chia biểu diễn thẻ , phép mũ biểu diễn thẻ Có 100 loại thẻ cho hàm toán tử khác d Kết luận MathML tạo nhằm mục đích rộng trao đổi thơng tin tốn học máy tính (để hiển thị để tính tốn) mục đích hẹp hiển thị tài liệu toán học World Wide Web MathML trở thành ngơn ngữ có nhiều triển vọng tương lai để biểu diễn cơng thức tốn học website phần mềm 1.3 TỔNG QUAN VỀ PHƯƠNG PHÁP TẠO CHỈ MỤC TRÊN TÀI LIỆU 1.3.1 Phương pháp tạo mục tài liệu Lập mục q trình phân tích xác định từ, cụm từ thích hợp cốt lõi có khả đại diện cho nội dung tài liệu Như vậy, vấn đề đặt phải rút trích thơng tin chính, có khả đại diện cho nội dung tài liệu Việc rút trích việc lập mục tài liệu 1.3.2 Một số ứng dụng hỗ trợ tạo mục a Xapian Xapian thư viện mã nguồn mở tìm kiếm, phát hành giấy phép GPL (General Public License - Giấy phép cơng cộng) [20] Nó viết C++, tích hợp sử dụng từ Perl, Python, PHP, Java, Tcl, C# số ngôn ngữ lập trình khác Xapian có tính tương thích cao, dễ dàng tích hợp vào ứng dụng khác, hỗ trợ tốn tử tìm kiếm logic chẳng hạn AND, OR, NOT, vv b Ứng dụng mã nguồn mở Apache Lucene Lucene phần mềm mã nguồn mở, dùng để phân tích, đánh mục tìm kiếm thơng tin với hiệu suất cao Java Lucene ứng dụng hồn chỉnh mà thư viện, cung cấp thành phần quan trọng máy tìm kiếm tạo mục truy vấn Mặc dù thiết kế xây dựng ban đầu từ Java có số phiên cho ngôn ngữ khác : NET, C++, Perl, vv 1.4 MỘT SỐ CƠNG CỤ TÌM KIẾM CƠNG THỨC TỐN HỌC SẴN CĨ 1.4.1 MathWebSearch MathWebSearch máy tìm kiếm cơng thức tốn học dựa ngữ nghĩa công thức, phát triển Đại họcJacobs Hệ thống tạo mục cho công thức MathML OpenMath, sử dụng kỹ thuật mục Substitution Tree Indexing 1.4.2 LeActiveMath LeActiveMath ứng dụng hỗ trợ học tập có khả tương tác phát triển ActiveMath group LeActiveMath thực 10 CHƯƠNG ĐỀ XUẤT GIẢI PHÁP 2.1 MÔ TẢ ỨNG DỤNG Xuất phát từ nhu cầu thực tiễn cần có cơng cụ để tìm kiếm cơng thức tốn học văn bản, chúng tơi đề xuất xây dựng ứng dụng tìm kiếm công thức kho chứa tài liệu toán học định dạng PDF XHTML Từ quan điểm người dùng, ứng dụng đáp ứng số yêu cầu sau: - Ứng dụng cho phép tìm kiếm tài liệu định dạng PDF XHTML - Cho phép người dùng nhập cơng thức tốn học cách trực quan từ khung tìm kiếm - Cho phép tìm kiếm tài liệu tốn học dựa nội dung tìm kiếm chứa đồng thời văn cơng thức Chẳng hạn người dùng nhập "Pythagoras formula𝑎2 + 𝑏 = 𝑐 " để tìm kiếm nội dung xác - Ứng dụng xếp hạng kết trả cho người dùng theo thứ tự giảm dần theo độ trùng khớp với câu truy vấn người dùng 11 2.2 MƠ HÌNH TỔNG QT 2.2.1 Mơ hình tạo mục Hình 2.1 Mơ hình giải pháp lập mục 12 2.2.2 Mơ hình tìm kiếm Hình 2.2 Mơ hình giải pháp tìm kiếm 13 2.3 ĐỀ XUẤT GIẢI PHÁP 2.3.1 Giải pháp chuyển đổi định dạng cơng thức tốn học Hệ thống chúng tơi cho phép tìm kiếm định dạng tài liệu PDF vàXHTML Để tạo mục tập tài liệu này, chuyển đổi chúng định dạng thống XHTML+MathML sử dụng phần mềm InftyReader 2.3.2 Giải pháp chuẩn hóa cơng thức tốn học a Khái niệm chuẩn hóa Chuẩn hóa bước chuyển đổi cơng thức tốn học MathML có định dạng khác (nhưng ý nghĩa giống nhau) định dạng chung Ví dụ:Loại bỏ thuộc tính khơng cần thiết thẻ a b Thuộc tính linethickness=”2” bevelled=”true” có tác dụng hỗ trợ định dạng hiển thị cơng thức trình duyệt Việc bỏ thuộc tính hồn tồn khơng làm ảnh hưởng đến ý nghĩa cơng thức Do ta tối ưu hóa cơng thức thành: a b 14 b Các bước trình chuẩn hóa  Loại bỏ thành phần thuộc tính khơng cần thiết Có nhiều thành phần MathML sử dụng Presentation MathML giúp ích nhỏ khơng có đóng góp vào việc lập mục tìm kiếm cơng thức tốn học Chẳng hạn thẻ quy định giao diện hiển thị công thức , , , , , vv Do cần loại bỏ cặp thẻ nhằm tối ưu hóa tốc độ tìm kiếm, trả kết tìm kiếm xác  Loại bỏ thực thể ẩn Thực thể ẩn thực thể không hiển thị trình duyệt cơng thức Nó có ý nghĩa làm rõ ý nghĩa cơng thức Chẳng hạn công thức 𝑎𝑥 + 𝑏𝑥 + 𝑐 sử dụng tốn tử nhân vơ hình ⁢ nhằm biểu diễn phép nhân vơ hình a 𝑥 biểu thức 𝑎𝑥 , b x biểu thức bx Có ba thực thể vơ hình cần loại bỏ: Bảng 2.1 Các thực thể vơ hình Presentation MathML Tên thực thể U+2062 INVISIBLE TIMES: Phép nhân vơ hình U+2063 INVISIBLE SEPARATOR: Dấu cách vơ hình U+2064 INVISIBLE PLUS: Phép cộng vơ hình Mã nguồn ⁢ Ví dụ xy ⁣ m12 &InvisiblePlus; 42 15 Ví dụ 1: Biểu diễn dấu nhân vơ hình x y biểu thức xy (nhằm tránh hiểu nhầm xy tên biến) x ⁢ y 2.3.3 Giải pháp phân tích cú pháp tạo mục Đầu tiên nội dung tài liệu phân tách thành nội dung văn nội dung toán học Các nội dung văn lập mục theo cách thơng thường Còn cơng thức tốn học sau hồn thành bước chuẩn hóa chuyển đổi thành chuỗi nén (chuỗi nén chuỗi xuống dòng, khơng có khoảng trống chuỗi) mà lập mục chuỗi văn bình thường 2.3.4 Giải pháp tích hợp cơng cụ gõ cơng thức tốn học Trên giao diện ứng dụng, người dùng gõ cơng thức tốn học trực tiếp vào khung tìm kiếm nhờ tích hợp cơng cụ gõ cơng thức tốn học gọi WIRIS WIRIS tập hợp công cụ JavaScript giúp người dùng nhập chỉnh sửa cơng thức tốn học, có trình biên soạn WIRIS trình biên soạn trực quan, hay gọi WYSIWYG (What You See Is What You Get).Kết trả công thức lưu trữ dạng Presentation MathML 16 Dưới giao diện công cụ gõ công thức tốn học WIRIS: Hình 2.6 Giao diện cơng cụ gõ cơng thức tốn học WIRIS TIỂU KẾT CHƯƠNG Trong chương này, đề xuất mô hình tổng qt hệ thống, hệ thống gồm hai thành phần là: thành phần tạo mục thành phần tìm kiếm Hai thành phần sử dụng chức chuẩn hóa tốn học bước đệm để chuẩn hóa tài liệu trước tạo mục chuẩn hóa câu truy vấn trước tìm kiếm Đồng thời, chương này, chúng tơi đề xuất giải pháp cụ thể nhằm giải yêu cầu toán đặt ra, bao gồm: giải pháp sử dụng InftyReader để chuyển đổi định dạng tập tin PDF sang XHTML+MathML, giải pháp chuẩn hóa cơng thức tốn học, giải pháp tích hợp cơng cụ WIRIS nhằm hỗ trợ nhập công thức vào khung tìm kiếm giải pháp xếp hạng kết tìm kiếm theo mơ hình xếp hạng động Những mơ hình giải pháp đề xuất chương sở để triển khai xây dựng ứng dụng chương 17 CHƯƠNG TRIỂN KHAI ỨNG DỤNG 3.1 MƠ HÌNH HỆ THỐNG 3.1.1 Đặc tả chức Một hệ thống tìm kiếm thơng thường phải đầy đủ thành phần bản: thu thập thông tin, thành phần tạo mục thành phần tìm kiếm Tuy nhiên thời gian có hạn, nên tập trung xây dựng thành phần tạo mục thành phần tìm kiếm, sử dụng kho liệu có sẵn máy tính cá nhân thay xây dựng thêm thu thập thơng tin để thu thập tài liệu Internet Thành phần tạo mục thành phần tìm kiếm sử dụng chung hệ thống con, thành phần chuẩn hóa tốn học:  Thành phần chuẩn hóa tốn học Thành phần có chức chuẩn hóa tài liệu XHTML chuẩn hóa câu truy vấn dạng MathMLnhư loại bỏ thẻ, thuộc tính khơng cần thiết, vv  Thành phần tạo mục Thành phần thuộc phần quản trị hệ thống, bao gồm chức định liệu lập mục, thực phân tích tài liệu, tạo mục lưu trữ xuống tập mục, vv Thành phần tìm kiếm Thành phần tìm kiếm thuộc giao diện người dùng cuối, bao gồm chức như: nhận thơng tin truy vấn, biên dịch tìm kiếm, trình bày kết liên kết đến tài liệu gốc 3.1.2 Sơ đồ luồng liệu hệ thống Sơ đồ luồng liệu (DFD - Data Flow Diagram) hệ thống sau: 18 Hình 3.1 Sơ đồ luồng liệu hệ thống 3.2 CÀI ĐẶT HỆ THỐNG 3.2.1 Hệ thống chuẩn hóa Hệ thống chuẩn hóa thiết kế bao gồm module tương ứng với nội dung cần chuẩn hóa: Module chuẩn hóa thẻ thuộc tính Module chuẩn hóa tốn tử.Chúng tơi sử dụng đối tượng XMLStreamReader để đọc thẻ từ mã nguồn MathML, dùng đối tượng XMLStreamWriter để ghi kết 3.2.2 Hệ thống lập mục Sau chuẩn hóa chuẩn hóa, lập mục tiến hành lập mục tài liệu sử dụng lớp IndexWriter 19 3.2.3 Hệ thống tìm kiếm a Tích hợp gõ WIRIS vào khung tìm kiếm Để tích hợp gõ WIRIS vào khung tìm kiếm, tiến hành tải WIRIS plugin từ địa http://www.wiris.com/plugins/docs/editors/generic, sau tiến hành chỉnh sửa đường dẫn tới thư mục tương ứng b Xây dựng tìm kiếm Tiến hành tìm kiếm tài liệu sử dụng lớp IndexSearcher mặc định Lucene 3.3 THỬ NGHIỆM HỆ THỐNG 3.3.1 Thu thập chuyển hóa liệu Cơ sở liệu bao gồm 50 tập tin toán học, có 10 tập tin XHTML+MathML, có 40 tập tin toán học định dạng PDF Những tập tin PDF chuyển đổi sang định dạng XHTML+MathML phần mềm InftyReader.Cấu trúc thư mục liệu hệ thống bao gồm thư mục nằm thư mục C:\searchmath, đó: - Thư mục originaldocuments chứa tài liệu nguyên gốc định dạng PDF - Thư mục documents chứa tài liệu XHTML+MathML - Thư mục indexes chứa mục tài liệu XHTML+MathML thư mục documents 3.3.2 Thử nghiệm ứng dụng a Hệ thống Tạo mục Chương trình lập mục xây dựng hệ thống độc lập với hệ thống tìm kiếm.Đầu chương trình tập hợp mục thư mục indexes 20 Hình 3.7 Giao diện hệ thống lập mục b Hệ thống Tìm kiếm Hình 3.9 Giao diện hiển thị kết tìm kiếm 21 Ứng dụng Tìm kiếm thuộc người sử dụng Hệ thống Tìm kiếm xây dựng trang web sử dụng máy chủ localhost Các kết tìm thấy hiển thị xếp giảm dần theo độ trùng khớp tài liệu so với câu truy vấn 3.4 KẾT QUẢ VÀ ĐÁNH GIÁ 3.4.1 Kết thu a Ứng dụng Tạo mục Qua nhiều lần thử nghiệm với số lượng tài liệu khác nhau, kết thu qua lần thực sau: Bảng 3.1 Thống kê kết lập mục STT Số lượng Số lượng công thức Thời gian lập mục tài liệu 10 138 5739 ms 20 306 8907 ms 50 694 17564 ms ~32 ms / công ~456.84 ms / tài liệu Trung bình thức Từ thống kê cho thấy tốc độ lập mục nhanh, khoảng nửa giây cho tài liệu khoảng 1/31 giây cho cơng thức b Ứng dụng Tìm kiếm Kết thu qua nhiều thử nghiệm với ứng dụng tìm kiếm sau: 22 Bảng 3.2.Thống kê kết tìm kiếm STT Truy vấn Số TL Số Số TL tìm Thời gian chứa cơng TLtìm thấy chứa tìm kiếm thức thấy công thức truy vấn 𝑥 𝑎𝑥 + 𝑏𝑥 truy vấn 7 25625ms 2 18635ms +𝑐 𝑑/𝑑𝑥 3 24640ms sin(x) 3 15102ms x+1 12457ms Thời gian tìm kiếm trung bình 19291ms Độ xác hệ thống tìm kiếm tính sau: X = (𝑆ố𝑙ượ𝑛𝑔𝑡à𝑖𝑙𝑖ệ𝑢𝑡ì𝑚𝑡ℎấ𝑦𝑐ℎứ𝑎𝑐ơ𝑛𝑔𝑡ℎứ𝑐𝑡𝑟𝑢𝑦𝑣ấ𝑛)/ (𝑆ố𝑙ượ𝑛𝑔𝑡à𝑖𝑙𝑖ệ𝑢𝑡𝑟𝑜𝑛𝑔𝐶𝑆𝐷𝐿𝑐ℎứ𝑎𝑐ơ𝑛𝑔𝑡ℎứ𝑐𝑡𝑟𝑢𝑦𝑣ấ𝑛) = (7/8 + 2/3 + 3/3 + 2/2 + 3/3)/5 𝑥 100% = 90% Từ kết thống kê cho thấy: - Tỉ lệ kết xác hệ thống tìm kiếm: 90% - Thời gian trung bình tìm kiếm: 19291ms 3.4.2 Đánh giá kết a Đánh giá chung Hệ thống tìm kiếm cơng thức tốn học văn đáp ứng yêu cầu người quản trị người sử dụng b Ưu điểm hạn chế chương trình Ưu điểm: - Đáp ứng nhu cầu sử dụng quản trị hệ thống 23 - Phát triển riêng lẻ thành phần quản trị thành phần tìm kiếm giúp cho công tác quản lý hệ thống tìm kiếm dễ dàng Hạn chế: - Chức lập mục hạn chế - Kiểu định dạng tài liệu đầu vào chưa đa dạng - Chưa hiển thị tài liệu gốc PDF kết tìm kiếm c Hướng phát triển - Đa dạng hóa chức lập mục, cho phép xóa mục, cập nhật mục, vv - Bổ sung thêm nhiều định dạng tài liệu khác Word, Excel, vv - Bổ sung thu thập thơng tin tốn học (Math Crawler) để hệ thống thu thập tìm kiếm tài liệu từ Internet TIỂU KẾT CHƯƠNG Trong chương này, ứng dụng chức hệ thống tìm kiếm cơng thức tốn học văn bản, ứng dụng mã nguồn mở Lucene Hệ thống chuyển đổi tập hợp tài liệu PDF thành tài liệu XHTML, thực tạo mục tìm kiếm tập tài liệu XHTML Mặc dù hệ thống đơn giản nhiên giải quyết nhu cầu lập mục cho tài liệu toán học tìm kiếm tập mục 24 KẾT LUẬN Qua thời gian nghiên cứu, thử nghiệm ứng dụng, luận văn đạt số thành cơng định lĩnh vực tìm kiếm cơng thức toán học văn Về mặt lý thuyết, nghiên cứu kiến thức liên quan đến lĩnh vực tìm kiếm cơng thức tốn học, chẳng hạn phương thức đặc tả cơng thức tốn học văn website, nghiên cứu ứng dụng tìm kiếm cơng thức tốn học sẵn có, tổng quan phương pháp tạo mục tìm kiếm cơng thức tốn học Từ đó, chúng tơi đề xuất mơ hình ứng dụng tìm kiếm cơng thức tốn học mình, đề xuất giải pháp để thực hóa mơ hình tìm kiếm Về mặt ứng dụng, xây dựng thành công công cụ lập mục tìm kiếm cơng thức tốn học văn kho liệu máy tính cá nhân Tuy ứng dụng chưa đủ chưa hồn thiện để đưa vào sử dụng thực tế, làm tiền đề cho việc xây dựng ứng dụng tương tự Trong tương lai, ứng dụng tích hợp thu thập liệu để lập mục tìm kiếm mạng Internet tối ưu hóa để tăng độ nhằm đưa dự án vào sử dụng thực tế, đáp ứng nhu cầu tìm kiếm cơng thức tốn học ... Xuất phát từ nhu cầu thực tế đó, chúng tơi chọn đề tài Nghiên cứu phát triển cơng cụ tìm kiếm cơng thức tốn học văn bản Việc nghiên cứu phát triển công cụ nhằm hỗ trợ, thúc đẩy việc học tập, nghiên. .. CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ TÌM KIẾM CƠNG THỨC TỐN HỌC TRÊN CÁC VĂN BẢN 1.1.1 Khái niệm văn toán học Trong phạm vi luận văn này, văn toán học dùng để văn có chứa cơng thức tốn học. .. cơng cụ tìm kiếm cơng thức tốn học hiệu văn bản, tạo tiền đề để xây dựng công cụ hoàn chỉnh tương lai 5.2 Về mặc thực tiễn Luận văn cung cấp cơng cụ tìm kiếm cơng thức tốn học văn bản, giúp học

Ngày đăng: 26/05/2020, 17:31

Từ khóa liên quan

Mục lục

  • Tom tat Bia 1

  • Tom tat

Tài liệu cùng người dùng

Tài liệu liên quan