1. Trang chủ
  2. » Luận Văn - Báo Cáo

Vnmathsearch hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt

8 2 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 865,24 KB

Nội dung

Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000218 VNMATHSEARCH - HỆ THỐNG TÌM KIẾM CÁC TÀI LIỆU TỐN HỌC BẰNG TIẾNG VIỆT Cao Xuân Tuấn1, Võ Trung Hùng2, Nguyễn Mạnh Hùng3, Nguyễn Thị Thu Hà4 Bộ Giáo dục Đào tạo Khoa CNTT, Trường Đại Bách khoa, Đại học Đà Nẵng Học viện Cơng nghệ Bưu Viễn thông Khoa CNTT, Trường Đại học Điện Lực cxtuan@moet.edu.vn, vthung@dut.udn.vn, nmhung@yahoo.com, hantt@epu.edu.vn TÓM TẮT - Bài báo giới thiệu kết nghiên cứu xây dựng hệ thống phục vụ tìm kiếm tài liệu tốn học viết tiếng Việt Hệ thống bao gồm phần mềm tạo mục tìm kiếm Chúng tơi đề xuất mơ hình tổng qt cho phần mềm Với phần tạo mục, đầu vào tập tin định dạng PDF XHTML đầu tập tin mục Với phần tìm kiếm, người sử dụng gõ vào truy vấn từ khóa cơng thức hệ thống trả tài liệu có chứa từ khóa cơng thức Để xây dựng hệ thống, đề xuất giải pháp để chuyển đổi định dạng cơng thức tốn học, chuẩn hóa cơng thức tốn học MathML, phân tích cú pháp tạo mục, tích hợp cơng cụ gõ cơng thức tốn học vào khung tìm kiếm, xếp hạng kết tìm kiếm,… Chúng tơi xây dựng thử nghiệm hệ thống với 5000 tài liệu tốn học viết tiếng Việt, kết tìm kiếm đáp ứng nhu cầu người dùng độ xác lẫn tốc độ tìm kiếm Từ khóa - tìm kiếm, mục, xếp hạng, tốn học I GIỚI THIỆU Cùng với phổ biến phát triển nhanh chóng CNTT mạng Internet, thơng tin chia sẻ nhu cầu tìm kiếm mạng Internet ngày phong phú đa dạng Cũng lĩnh vực khác, ngày có nhiều người chia sẻ tài liệu tốn học tìm kiếm thơng tin để giải vấn đề thông qua mạng Internet Tuy nhiên, vấn đề đặt tìm kiếm nội dung tốn học cần thiết kho tài liệu khổng lồ mạng Internet Các máy tìm kiếm phổ biến Google Search, Yahoo Search, Live Search Microsofts chưa cho phép cung cấp nhận diện công thức theo cách tự nhiên, việc tìm kiếm thường không trả kết khớp với yêu cầu người dùng Chính cần có máy tìm kiếm cơng thức tốn học chun dụng cho phép tìm kiếm cơng thức tốn học tài liệu Website chia sẻ mạng Internet [5][6] Hiện giới phát triển số cơng cụ tìm kiếm cơng thức tốn học cho phép tìm theo nội dung hiển thị cơng thức theo ngữ nghĩa nhiên phạm vi ứng dụng cơng cụ cịn bó hẹp, chẳng hạn EgoMath cho phép tìm kiếm cơng thức tốn học Wikipedia.org, Website LatexSearch có hỗ trợ tìm kiếm cơng thức tốn học soạn thảo ngơn ngữ đánh dấu LaTeX, quyền MPS Technologies (Mathematical Programming System), kết tìm thấy giới hạn tài liệu điện tử lưu trữ máy chủ SpringerLink, [3] Đặc biệt, chưa có hệ thống tìm kiếm chun dụng cho tài liệu toán học dành cho tiếng Việt Vì vậy, việc nghiên cứu phát triển cơng cụ tìm kiếm dựa cơng thức tốn học cần thiết có ý nghĩa thực tiễn cao [1] Trong báo này, giới thiệu kết nghiên cứu triển khai thử nghiệm hệ thống VNMathSearch Hệ thống nhằm hỗ trợ tìm kiếm tài liệu tốn học (có thể tìm kiếm trực tiếp qua công thức từ khóa tiếng Việt) nhằm thúc đẩy việc học tập, nghiên cứu ứng dụng khoa học tư nhiên Việt Nam Bài báo tổ chức thành phần Phần trình bày kết nghiên cứu tổng quan văn toán học, phương thức biểu diễn cơng thức tốn học tài liệu Website số kết nghiên cứu liên quan Phần mơ tả ứng dụng, xây dựng mơ hình tổng quát giới thiệu giải pháp lưu trữ công thức toán học văn bản, giải pháp tạo mục cho tài liệu tốn học giải pháp tìm kiếm cơng thức tốn học tích hợp cơng cụ hỗ trợ người dùng trình tìm kiếm Phần cuối trình bày việc triển khai xây dựng cơng cụ tìm kiếm cơng thức tốn học văn thử nghiệm đánh giá kết đạt II MỘT SỐ NGHIÊN CỨU LIÊN QUAN Đặc tả cơng thức tốn tài liệu Cơng thức tốn học tài liệu đặc tả nhiều ngôn ngữ khác gọi ngôn ngữ đánh dấu tốn học Các ngơn ngữ đánh dấu tốn học phổ biến TeX/LaTeX [8], MathML [13], OMDoc [10] OpenMath [11] Trong đó, TeX/LaTeX có cú pháp gần gũi với ngôn ngữ tự nhiên, MathML, OpenMath OMDoc lại tối ưu hóa cho việc giao tiếp máy tính với MathML (Mathematical Markup Language) ngôn ngữ mở rộng dựa XML để thể ký hiệu công thức tốn học với mục đích rộng phương thức trao đổi thơng tin tốn học máy tính (để hiển thị để tính tốn) mục đích hẹp hiển thị tài liệu toán học World Wide Web Tổ chức W3C (World Wide Web Consortium) có khuyến nghị nên sử dụng ngôn ngữ mạng biểu diễn nội dung cơng thức tốn học Đối Cao C Xuân Tuấn, Võ V Trung Hùng, N Nguyễn Mạnh Hùùng, Nguyễn Thị Thu Hà 769 với v hiển thị trêên trang mạngg, cấu trúc MaathML không ngắn n gọn TeX, ccó thể dễ dàngg phân tích bở ởi trình duyệt, d cho phéép hiển thị ngaay cơnng thức tốn học h cách đẹp đ mắt, đồngg thời truyền ttải ý nghĩa tố án học cho c phần mềm m tính toán M MathML đượcc hỗ trợ phần mềm m văn phòng nnhư Microsoft ft Word, Open nOffice.org c với phần p mềm tínhh tốn kỹ thuậật Maple, Mathematicaa MathCad hệ đđiều hành khác c Linux, L Window ws,… MathM ML cung cấp hhai cách thức ttrình bày ngơn ngữ đánh dấu toán học, m cách thứcc nhằm nhấn mạnh m cách trrình bày cơng c thức (Prresentation MaathML) cách thức thứ hai h nhấn mạnhh nội dung củaa cơng thức to ốn học (Content MathhML) [9] 2 Một số máyy tìm kiếm dựaa cơng th hức toán học MathWebSear M rch MathW WebSearch m máy tììm kiếm cơng th hức tốn học dựa ngữ nghĩa cônng thức, phát p triển Đại Đ học Jacobbs [2][7] Hệ tthống tạo c mục cho cáác công thức M MathML O OpenMath, sử dụng d kỹ thuật mục Suubstitution Trree Indexing Cơng C cụ tìm kiếm k MathWeebSearch đượ ợc tối ưu cho c truy vấn nhanh ứ ứng dụng tươnng tác Bất kỳ dạng d văn bảnn mà có chứa cơnng thức dạng d Content MathML hoặặc dạng đđó dễ dàng d chuyển đổi đ Contentt MathML đềuu lập mục bở ởi MathWebSeearch MathW WebSearch có rriêng thu thhập (Crawler) để tìm cácc tài liệu có chhứa Content M MathML từ kho chứa đặc đ biệt Internet, I chuyyển đổi biểu thức toán học thành cácc chuỗi lưuu trữ trongg sở liệ ệu sử dụng MySQL M Chỉ mục m tạạo liệuu MathW WebSearch cunng cấp máy tìm kiếm k hồn nh với giao diiện trực quan AP PI nhằm dễ dàng d tích hợp vào hệ thhống sau Ngoài định dạạng đầu vào kiểu k XML chuỗi, MathW WebSearch cịn n cung cấp trrình biên soạnn cơng thức W WIRIS nhằm hhỗ trợ người dù ùng nhập cơng g thức dễ dàngg từ mẫu ssẵn có Kết qu uả trả từ MathWebSear M rch xếp hhạng dựa theoo độ trùng khớ ớp với nội dun ng tìm kiếm D Do mộột tài liệu c xếp hạng c cao, chứng c tỏ số lầần trùng khớpp với nội n dung tìm kiếm k nhiiều Hiện tại, M MathWebSearch tạo mục m cho 1,600,000 tài lliệu từ khoo chứa http://ccnx.org http p://functions.w wolfram.com vvà số ngày c tăng Traang chủ M MathWebSearcch là: http://seaarch.mathweb.org/ LeActiveMath L h LeActivveMath mộột ứng dụng hỗỗ trợ học tập có khả năăng tương tácc phát ttriển ActiveMath A grroup LeActivveMath thực hhiện lập m mục cho c tài liệu OM MDoc, đđó cơng thhức tốn học h mã hóa OppenMath Ngư ười dùng có c thể tìm kiếm m đồng thời vvăn cơơng thức tốn học trongg ứng dụng nnày Với tài liệu, LeActiveMath L h thực lậpp mục choo trường tiêu đề, nội duung văn vàà cơng thức toốn học Tương T tự cơng cụ ttìm kiếm khácc, tài liệu tìm thấy c sắắp xếp giảm ddần theo độ đ trùng khớpp tài liệu so với câu trruy vấn LeActiveMath L h phát trriển dựa Lucene, n lập mục cho tài liệu sử dụng nội n môi m trường họcc tập LeActiveeMath Trang chủ LeAcctiveMath hhttp://www.leaactivemath.org g/ Egomath E Egomatth cơnng cụ tìm kiếm tốn học h phát triển Đại học C Charles Praggue Nó có c thể tìm kiếm m cơng thhức tốn học vviết LaTeX L vănn đơn giiản, kết ttìm thấy đ hiển thị với đoạạn trích dẫn cchứa nội n dung trùnng khớp với câu truy vấnn, phần p trùng khớp k làm bật (highlight) nhằm giúp ngư ười dùng dễ ddàng đối 770 VN NMATHSEARCH H - HỆ THỐNG TÌM T KIẾM CÁC TÀI LIỆU TỐN N HỌC BẰNG TIẾNG T VIỆT chiếu c lựa chhọn [4] Từ ggiao diện tìm kkiếm, người dùng nh hập câu truy vvấn thông qua hai trường ữ liệu Một trrường để nhậpp cho vănn đơn giản ản trường c lại để nhập p cơng thức ttốn học EgooMath xử x lý văn v công thức toán hhọc viết bằn ng LaTeX h MathM ML Trang cchủ Ego oMath http://egomath h h.projekty.ms.m mff.cuni.cz/ III GIẢII PHÁP ĐỀ XUẤT X 1 Mô tả ứng dụng d Xuất phhát từ nhu cầuu thực tiễn cầnn có cơng g cụ để tìm kiiếm cơng thứcc tốn học trêên văn bản, ch húng tơi đề xuất x xây dựngg ứng dụnng tìm kiếm cơng thức trêên kho ch hứa tài liệệu toán học định dạn ng PDF XHTML X Từ quan q điểm ngư ười dùng, ứngg dụng cần đáp p ứng số yêu y cầu saau: - Ứng dụng d cho phépp tìm kiếm đư ược tài liệu c định dạng PDF XHTM ML - Cho phép p người dùùng nhập côngg thức tốn học cách trự ực quan từ khuung tìm kiếm Cho phép p tìm kiếm m tài liệu tốn học dựa nội dung tìm kiếm chứa đồồng thời văn bbản công th hức Chẳng hạn người n dùng nhập "Pytthagoras form mula a b c " để tìm kkiếm nội dungg xác hơ ơn Ứng Ứ dụng xếp hạng kết quảả trả cho nggười dùng theo o thứ tự giảm dần theo độ trrùng khớp vớii câu truy vấn người dùng d - 2 Mơ hình tổn ng qt Khi xâyy dựng hệ thốống tìm kiếm, sau có kh ho liệu úng ta trải quaa trình tạ ạo mục cho c tài liệuu tìm kiếm có u cầầu truy vấn củaa người dùng Mơ hìnnh tổng q củủa q trình tạoo mục tìm t kiếm sau: Hìn nh Mơ hình q q trình tìm kiếm Hình Mơ h hình q trình tạo mục Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà 771 Một số giải pháp xử lý Giải pháp chuyển đổi định dạng cơng thức tốn học Hệ thống chúng tơi cho phép tìm kiếm định dạng tài liệu PDF XHTML Để tạo mục tập tài liệu này, chuyển đổi chúng định dạng thống XHTML+MathML PDF tài liệu biên dịch từ mã nguồn TeX, LaTeX, Doc kết chuyển đổi từ tập tin DVI PS, khơng thể thực tìm kiếm trực tiếp loại tập tin Để chuyển đổi PDF thành mã nguồn XHTML+MathML nhằm thuận tiện cho việc lập mục tìm kiếm, chúng tơi đề xuất sử dụng InftyReader InftyReader ứng dụng OCR (Optical Character Recognition - Nhận dạng ký tự quang học) có khả nhận dạng tài liệu khoa học có chứa cơng thức tốn học Kết nhận dạng xuất nhiều định dạng khác nhau, chẳng hạn như: LaTeX, MathML, XHTML, HRTeX, IML liệu Microsoft Word InftyReader phát triển thư viện Masakazu Suzuki, khoa Toán học sau đại học trường đại học Kyushu Giải pháp chuẩn hóa cơng thức tốn học Chuẩn hóa bước chuyển đổi cơng thức tốn học MathML có định dạng khác (nhưng ý nghĩa giống nhau) định dạng chung Quá trình giúp cho việc tìm kiếm xác Chuẩn hóa MathML bước tối ưu hóa cơng thức tốn học MathML nhằm loại bỏ thẻ, thuộc tính khơng cần thiết Để chuẩn hóa cơng thức, chúng tơi thực q trình chuẩn hóa gồm bước sau: Loại bỏ thành phần thuộc tính khơng cần thiết; loại bỏ thực thể ẩn (thực thể ẩn thực thể khơng hiển thị trình duyệt hiển thị cơng thức mà có tác dụng làm rõ ý nghĩa cơng thức đó) Những thuộc tính bị loại bỏ thực thể ẩn có tác dụng việc giải thích phần ngữ nghĩa cơng thức, mà khơng có tác dụng việc lập mục tìm kiếm Do thành phần loại bỏ để tối ưu hóa hiệu suất máy tìm kiếm Giải pháp phân tích cú pháp tạo mục Đầu tiên nội dung tài liệu phân tách thành nội dung văn nội dung toán học Các nội dung văn lập mục theo cách thông thường Cịn cơng thức tốn học sau hồn thành bước chuẩn hóa chuyển đổi thành chuỗi nén (chuỗi nén chuỗi khơng có xuống dịng, khơng có khoảng trống chuỗi) mà lập mục chuỗi văn bình thường Chuỗi nén tạo theo quy luật sau: cặp thẻ XML (bao gồm thẻ mở thẻ đóng) thay tên thẻ tiếp sau chuỗi tham số thẻ đặt cặp dấu ngoặc Ví dụ công thức a + b2 viết MathML sau: a + b 2 chuyển đổi sang chuỗi nén tuyến tính sau: math(mrow(mi(a)mo(+)msup(mi(b)mn(2)))) Giải pháp tích hợp cơng cụ gõ cơng thức tốn học vào khung tìm kiếm Trên giao diện ứng dụng, người dùng gõ cơng thức tốn học trực tiếp vào khung tìm kiếm nhờ tích hợp cơng cụ gõ cơng thức toán học gọi WIRIS WIRIS tập hợp công cụ JavaScript giúp người dùng nhập chỉnh sửa cơng thức tốn học, có trình biên soạn WIRIS trình biên soạn trực quan, hay cịn gọi WYSIWYG (What You See Is What You Get) Trình biên soạn cơng thức WIRIS hoạt động tương tự công cụ Equation Word Người dùng chọn format cơng thức cần nhập sau chỉnh sửa giá trị format để tạo thành cơng thức hồn chỉnh Trình biên soạn WIRIS chạy trình duyệt (Firefox, Internet Explorer, Chrome, Safari, vv.) hệ điều hành (Windows, Linux, Mac, vv.) Nó tích hợp vào ứng dụng Web ứng dụng Desktop plugin Kết trả công thức lưu trữ dạng Presentation MathML, cơng thức chuyển đổi sang Content MathML LaTeX tùy vào nhu cầu tìm kiếm Tuy nhiên phạm vi luận văn này, chuyển đổi công thức nhập vào thành Presentation MathML để thuận tiện cho trình lập mục 772 VN NMATHSEARCH H - HỆ THỐNG TÌM T KIẾM CÁC TÀI LIỆU TỐN N HỌC BẰNG TIẾNG T VIỆT Dưới đâây giao diệnn công cụụ gõ cơng thức tốn học WIR RIS: Hình 33 Giao diện ng cụ gõ cơng th hức tốn học W WIRIS Giải G pháp xếp hạng kết tìm kiếm Chúng tơi sử dụng thhuật tốn xếp hạng TF-IDF F (Term Frequ uency - Inversse Document F Frequency - Tần T số mục từ - Tần số tài liệu nghịch đđảo) Ý tưởng thuật toán n mục từ t truy vấn nàào xuất ccàng nhiều tài liệu, tài liệu có điểm đ cao Thuật toán biểu diễn dướ ới công thức sau: TF IDF F t, d, D TFF t, d ∗ IDF tt, D Trong đó, đ t query tterm, d doccument cần đư ược chấm điểm m D tập hhợp tất tài liệu TF tầần suất xuất hiiện mục từ t tài liệệu d tính t , , IDF số biểu cho tần suấất xuất củ mục từ t tro ong toàn ccác tài liệu t xxuất g nhiều, số s thấp (vvì xuất quuá nhiều đồngg nghĩa với độ quan trọng rấất thấp), , log IV TH HỰC NGHIỆ ỆM || ∈ :∈ || Thơng thường, hhệ thống tìm kkiếm gồm có thành phần gồm bbộ thu thập thhông tin, thành phần tạo c mục thàành phần tìm kiếm Kho ữ liệu chúng tơ xây dựng tổ hợp từ cáác báo, báoo cáo, đề tài nghiên n cứu khoa k học, sách điện tử vvề toán học tạii Đại học Đà Nẵng, N Giáo trìình ebook m số tàii liệu khác đượ ợc thu thập trrên mạng Bảnng sau mô tả vvề kho liệuu sử dụng g nghiên n cứu sau: Bảng Mô tả liệu thực t nghiệm Nguồn liệu Số lượnng Định dạạng Số lượnng công thức ssau đánh cchỉ mục Thư viện Đại học Đà nẵng 50 file tài liệu u: giáo trình, bbáo cáo, bááo khoa học,… … doc, docx, p pdf, html, lattex 694 Chúng phát triển hệ thống tạo mục chức năn ng dành cho nggười quản trị trị hệ thống Chức n cho phép người quản trrị định thôông tin liệệu dùng để tạo o mục, thự ực tạo chhỉ mục xóa mục Chương C trình lập mục nnày xây dựng độc lập p với chương trình t tìm kiếm m Người quảnn trị ch hỉ định thư mục m chứa tài liiệu cần lập chhỉ mục thư m mục chứa nội dung mụcc tùy ý Đầu vàào chươngg trình thư m mục chứa tất c tập tin cần c lập mụ mục đầu llà tập hợp mục th hư mục Indexxes, hhệ thống cũngg liệt kê số lượng danh sách s chi tiết ccác tập tin đượợc tạo mụ ục, số công th hức lập mục tổổng thời gian thhực việc lập mục Hình Giao diện hệ thống lập l mục Cao C Xuân Tuấn, Võ V Trung Hùng, N Nguyễn Mạnh Hùùng, Nguyễn Thị Thu Hà 773 Các cônng thức sau khhi chuyển đổii định định dạng sang Math hML, lưuu trữ cơơ sở liệu SQ QL Server, phục p vụ cho viiệc tìm kiếm Hình Cơ C sở liệu hệệ thống Chươngg trình tìm kiếếm phục vụ nngười sử dụng g Đây gói ứng ứ dụng Webb cho phép nggười dùng thự ực tìm kiếm k từ xa lấy kết trrả Chức nnăng thành phần thực hhiện tìm kiếm theo yêu cầu người dùng, d trả kếết dạng liêên kết để ngườ ời dùng tham chiếu c Hệ thốnng tìm kiếm đđược xây dựnng traang Web cài đặt mááy chủ tìm kiếếm Giao diện n tìm kiếm bao b gồm khung k hỗ trợ nnhập công thứ ức tốn học nút Searcch: Hình Giao o diện ứng dụng g tìm kiếm Sau khii người dùng nnhập cơng thứ ức tốn học vàà nhấn nút Seaarch, hệ thống thực ttìm kiếm tài t liệu liên quan q đến câu truy t vấn nngười dùng tạại thư mục chỉỉ mục trả v danh sách ccác tài liệu liêên quan cho ng gười dùng Các C kết tìm m thấy đượ ợc hiển thị sắpp xếp giảm dần theo độ trùn ng khớp tàài liệu so vvới câu truy vấ ấn Mỗi tài liệu đư ược hiển thị lêên giao diện w web với thô ông tin saau: - Tên tài liệu tìm thhấy - Trích dẫn phầần tài liệu có cchứa cơng thứ ức tìm th hấy Phần cơngg thức trùng kkhớp với công thức câu truy t vấn đư ược làm bậật (highlight) để đ người dùng g dễ dàng đối chiếu lựa cchọn - Đườ ờng dẫn tới tài liệu tìm m thấy Ngồi n thơng ttin trên, ngườ ời dùng cịn có ó thể xem số lượng tài liệuu tìm thấấy ứng với câ âu truy vấn này, n thời gian thựcc truy vấn ấn (tính đơn đ vị milliseccond) 774 VN NMATHSEARCH H - HỆ THỐNG TÌM T KIẾM CÁC TÀI LIỆU TỐN N HỌC BẰNG TIẾNG T VIỆT H Hình Giao diện hiển thị kết tìm kiếm Hiện naay, hệ thốống tra cứu tàii liệu toán học tiếng Việt V chưa có Do vậy, kkhó khăn để so s sánh kết q nghiên ứu chúng ttôi với phhương pháp kh hác Trong báo này, chúúng thự ực đánh giá g kết c hệ thống xây x dựng bằngg phương phápp dùng độ đo c xác (Preecision) mơ tả theo côông thức sau: Precission = A∩B B Trong đó: đ A tập tàài liệu liên quaan tới nội dung g tra cứu B tập tài liệuu tìm Chúng tơi thử nghiệm m với tập ngữ ữ liệu gồm 80 tài liệu toán học h tiếng Việt,, thực nghiệm m tiến hàn nh đánh giá g theo 02 phương thức truuy vấn: truy vấấn theo công thức truy vấấn theo nội duung Truy vấnn theo công thứ ức gõ trrực tiếp từ cônng cụ WIRIS hệ thống truy vấn th heo nội dung dựa d câu trruy vấn nhập vvào Kết quảả thực nghiệm m thể hiệnn bảng Bản ng Kết trruy vấn Truy vvấn P Precision Truy vvấn theo công thức 00.87 Truy vvấn theo nội du ung 00.76 V KẾT LUẬN m tiện ích trênn mạng cho ph hép người sử dụng dễ dàngg tìm kiếm nhữ ững tài liệu liê ên quan tới Các cơnng cụ tìm kiếm mục m đích họ, h nhiên số lượng thông tin quáá nhiều, kếết trả tớới hàng trăm ttriệu văn tương ứng với v câu truuy vấn khó khăn tra ccứu tài liệu lĩnh vự ực hẹp Giải phháp tìm kiếm ttài liệu tốn hhọc tiếng g Việt hỗ trợ cho nhà kkhoa học, kỹ thuật Việ ệt Nam tìm kiếm k tàài liệu văn bảnn liên quan tới công thứcc cách nh hập liệu trự ực quan hiểển thị tài t liệu liên quan q có chứa n cơng thhức cần tìm kiiếm Với giảải pháp đề xuấất, tiến hành xây dựng hệ thống t đánhh giá kết xây dựng bằn ng phương pháp p sử dụng độ đo xxác cho kết quuả phù hợp vớ ới yêu cầu củaa người dùng Hệ thống có số ưu điểm bật đối đ với mááy tìm kiếm hhiện hỗ trợ gõ cơng thức tốán học vào khu tìm kiếm m, làm bật (highlight) đ kết tìm t kiếm m mơ-đun hóa cáác thành phần quản trị th hành phần tìm m kiếm để dễ ddàng cho việc c phát triển sau s Tốc độ đ lập mụcc tìm kiếm kkhá nhanh Trong thời t gian tới, cchúng tiếp tục bổ sung kho k liệu bằn ng phương phháp thu thập tự ự động Internet, tiếp tụ ục hoàn thiệnn số chức hệ thống như: đaa dạng hóa ch hức bbộ lập mụục cho ph hép xóa mục, m cập nhậtt mục; bổ sung thêm nhhiều định dạng tài liệu đầu vào khác Word, Exceel, PowerPoint,… tối ưu hóa h tốc độ lập mục tìm m kiếm Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà 775 VI TÀI LIỆU THAM KHẢO [1] Vo Trung Hung, Cao Xuan Tuan, “VM-SEMWEB: A Semantic Web for Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology, Volume - Issue 05 , 2015 [2] M Kohlhase, C Prodescu, “MathWebSearch:Low-Latency Uni_cation-based Search”, Center for Advanced Systems Engineering, Jacobs University Bremen, Germany, NTCIR-10, 2013 [3] M Růžička, “Maths Information Retrieval for Digital Libraries”, Technical Report, Brno University, 2013 [4] M Adeel, H.S Cheung, S.H Khiyal, “Math go! Prototype of a content based mathematical formula search engine”, Journal of Applied Theoretical and Information Technology, JATIT, 2008 [5] J Mišutka, L Galamboš, “Extending Full Text Search Engine for Mathematical Content”, Charles University in Prague, Ke Karlovu 3, 121 16 Prague, Czech Republic, 2008 [6] P Sojka, M Líška, “Indexing and Searching Mathematics in Digital Libraries”, Masaryk University, Faculty of Informatics, Botanická 68a, 602 00 Brno, Czech Republic, 2011 [7] S Anca, M Kohlhase, “MaTeSearch, A combined math and text search engine”, Jacobs University, 2007 [8] T Oetiker, H Partl, I Hyna, E Schlegl, “The Not So Short Introduction to LATEX”, Version 5.04, 2014 [9] P.D.F Ion, “MathML: A Key to Math on the Web”, Mathematical Reviews, P O Box 8604, Ann Arbor, MI 48107, USA, 1999 [10] M Kohlhase, “An Open Markup Format for Mathematical Documents”, Technical Report, Computer Science, International University Bremen, 2009 [11] O Caprotti, A.M Cohen, H Cuypers, H Sterk, “OpenMath Technology for Interactive Mathematical Documents”, Technical Report, Department of Mathematics and Computing Science, Eindhoven University of Technology, P.O Box 513, NL-5600 MB Eindhoven, The Netherlands, 2002 [12] Vo Trung Hung, Cao Xuan Tuan, “MathML for the Management of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology, Volume - Issue 05 , 2015 VNMATHSEARCH – A SEARCH ENGINE FOR MATHEMATICAL DOCUMENTS IN VIETNAMESE Cao Xuan Tuan, Vo Trung Hung, Nguyen Manh Hung, Nguyen Thi Thu Ha ABSTRACT - This paper presents the research results to build a search engine for mathematical documents written in Vietnamese The system consists of two main softwares that are creating the index and search We have proposed two general models for these softwares With the index, the input is files as PDF or XHTML and the outputis an index file With search modul, the user can type into the query by keywords or any formula and the system returns the documents that contain keywords or formulas To build the system, we have proposed solutions to convert mathematical formulas, standardized mathematical formula in MathML, parse and index creation, integrated tool to type formulas in the search box, the search results ratings, We have built and tested the system with more than 5,000 mathematical documents written in Vietnamese, search results satisfy consumer demand the accuracy and speed of search ... VN NMATHSEARCH H - HỆ THỐNG TÌM T KIẾM CÁC TÀI LIỆU TỐN N HỌC BẰNG TIẾNG T VIỆT H Hình Giao diện hiển thị kết tìm kiếm Hiện naay, hệ thốống tra cứu tàii liệu toán học tiếng Việt V chưa có Do vậy,... tìm kiếm đư ược tài liệu c định dạng PDF XHTM ML - Cho phép p người dùùng nhập côngg thức tốn học cách trự ực quan từ khuung tìm kiếm Cho phép p tìm kiếm m tài liệu tốn học dựa nội dung tìm kiếm. .. ccứu tài liệu lĩnh vự ực hẹp Giải phháp tìm kiếm ttài liệu tốn hhọc tiếng g Việt hỗ trợ cho nhà kkhoa học, kỹ thuật Việ ệt Nam tìm kiếm k tàài liệu văn bảnn liên quan tới công thứcc cách nh hập liệu

Ngày đăng: 10/10/2022, 15:50

HÌNH ẢNH LIÊN QUAN

2. Mơ hình tổn - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
2. Mơ hình tổn (Trang 3)
Bảng 1. - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
Bảng 1. (Trang 5)
Hình 3 - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
Hình 3 (Trang 5)
Hình 6. Giao - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
Hình 6. Giao (Trang 6)
Hình 5 .C ng ười sử  d ụ ng n ăng chính củ ời dùng tham c - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
Hình 5 C ng ười sử d ụ ng n ăng chính củ ời dùng tham c (Trang 6)
Hình 7. Gia od i liệu toán họ hương pháp kh - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
Hình 7. Gia od i liệu toán họ hương pháp kh (Trang 7)
NMATHSEARCH - Vnmathsearch   hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt
NMATHSEARCH (Trang 7)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w