1. Trang chủ
  2. » Tất cả

Microsoft Word - 00-a.loinoidau TV.docx

6 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 655,35 KB

Nội dung

Microsoft Word 00 a loinoidau TV docx 64 Cao Xuân Tuấn, Nguyễn Mạnh Hùng, Võ Trung Hùng MỘT MÔI TRƯỜNG THỐNG NHẤT ĐỂ BIỂU DIỄN, LƯU TRỮ, SOẠN THẢO VÀ XỬ LÝ CÁC CÔNG THỨC TOÁN HỌC A UNIFIED ENVIRONMEN[.]

64 Cao Xuân Tuấn, Nguyễn Mạnh Hùng, Võ Trung Hùng MỘT MÔI TRƯỜNG THỐNG NHẤT ĐỂ BIỂU DIỄN, LƯU TRỮ, SOẠN THẢO VÀ XỬ LÝ CÁC CƠNG THỨC TỐN HỌC A UNIFIED ENVIRONMEN FOR REPRESENTATION, STORAGE, EDITING AND HANDLING OF MATHEMATICAL FORMULA Cao Xuân Tuấn2, Nguyễn Mạnh Hùng1, Võ Trung Hùng2 Học viện Cơng nghệ Bưu Viễn thơng; mhnguyen@ptit.edu.vn Đại học Đà Nẵng; cxtuan@moet.edu.vn; vthung@dut.udn.vn Tóm tắt - Trong báo này, chúng tơi trình bày kết nghiên cứu việc đề xuất xây dựng môi trường thống để biểu diễn, lưu trữ, soạn thảo xử lý tài liệu có chứa cơng thức tốn học Chúng tơi đề xuất khơng gian thống để biểu diễn lưu trữ cơng thức tốn học dựa tảng tiêu chuẩn MathML, tiêu chuẩn W3C khuyến cáo sử dụng cho tài liệu có chứa cơng thức tốn Đặc biệt, mơi trường cho phép người sử dụng dễ dàng thực chức tìm kiếm, chép chuyển đổi cơng thức tốn học phần mềm soạn thảo khác WinWord, LaTex, Mơi trường có nhiều ưu điểm so với phần mềm soạn thảo tạo tiền đề để xây dựng hệ thống tìm kiếm tài liệu thơng qua câu truy vấn có chứa cơng thức tốn học Abstract - In this paper, we present our research on proposing and building a unified environment for representation, storage, editing and handling of documents containing mathematical formulas We have proposed a unified space to represent and store the mathematical formula based on the standard MathML This is the standard recommended by W3C to use for documents that contain mathematical formulas In particular, this environment enables users easily to perform functions such as searching, copying and converting the mathematical formula between different editing software programs such as WinWord, LaTex, This environment has many advantages compared with current editing software ,and creates prerequisites for building document search system via the query containing mathematical formulas Từ khóa - cơng thức tốn học; biểu diễn liệu; tiêu chuẩn lưu trữ; soạn thảo văn Key words - mathematical formula; data representation; storage standards; text editing Đặt vấn đề Trong năm gần đây, với phát triển mạnh mẽ mạng Internet công nghệ Web bùng nổ thông tin số Số lượng người sử dụng lượng thông tin sản sinh mạng Internet gia tăng nhanh tìm thấy hầu hết thơng tin cần thiết có nhu cầu Đặc biệt, lượng thơng tin liên quan đến khoa học, phục vụ học tập, nghiên cứu gia tăng nhanh chóng phong phú lĩnh vực Vì vậy, việc khai thác hiệu tài liệu nói chung tài liệu khoa học nói riêng Internet có ý nghĩa quan trọng phát triển khoa học kinh tế góp phần đáng kể vào việc nâng cao chất lượng học tập nghiên cứu Theo số liệu thống kê, trình học tập nghiên cứu người chi phí lượng lớn thời gian cho việc tìm kiếm, phân tích tổng hợp tài liệu có Các cơng cụ tìm kiếm phổ biến Google, Yahoo, Bing… hỗ trợ mạnh việc tìm kiếm liệu dạng văn hình ảnh, cơng việc tìm kiếm liệu đặc biệt cơng thức tốn học cơng cụ chưa hỗ trợ Hiện nay, có nhiều công cụ cho phép soạn thảo quản lý cơng thức tốn học, việc tìm kiếm cịn gặp nhiều khó khăn Để tìm kiếm cơng thức tốn học, cần có chế thống để mơ tả, lưu trữ tìm kiếm theo ngữ nghĩa tương ứng với cơng thức Tương tự, xuất số công cụ hỗ trợ việc biểu diễn cơng thức tốn học mơi trường Web, nhiên công cụ chưa xác định chuẩn mơ hình cách biểu diễn chung Do đa dạng cách biểu diễn cơng thức tốn học tài liệu khoa học, dẫn đến khó khăn việc diễn giải cơng thức cần tìm kiếm người dùng so sánh tương đồng chúng Trong báo này, đề xuất mơ hình phù hợp, phát triển cơng cụ để soạn thảo cơng thức, soạn thảo thích tìm kiếm cơng thức tốn học giải pháp lưu trữ, quản lý khai thác liệu có chứa cơng thức tốn học tài liệu khoa học, đặc biệt môi trường Web Kết phát triển thành công hệ soạn thảo văn hỗ trợ đầy đủ chức liên quan đến cơng thức tốn học gồm: soạn thảo, chép, tìm kiếm chuyển đổi qua lại với phần mềm soạn thảo khác Nội dung báo tổ chức thành mục Mục giới thiệu lý nghiên cứu thông tin chung báo; mục trình bày số kết nghiên cứu liên quan; mục trình bày giải pháp đề xuất bao gồm mơ hình tổng qt, lưu trữ, soạn thảo giải pháp để chép, tìm kiếm, chuyển đổi, ; mục trình bày kết thử nghiệm; mục trình bày kết đánh giá; cuối kết luận để tổng kết nội dung đạt được, ý nghĩa nghiên cứu hướng phát triển Một số nghiên cứu liên quan Các nghiên cứu liên quan đến tài liệu chứa cơng thức tốn học tập trung vào hướng chính: 1) Các tiêu chuẩn để lưu trữ cơng thức toán học văn điện tử; 2) Soạn thảo hiển thị cơng thức tốn học văn bản; 3) Tìm kiếm cơng thức tốn học Các nghiên cứu chủ yếu thực nhà khoa học nước ngoài, Việt Nam nghiên cứu vấn đề chưa nhiều kết khiêm tốn Việc nghiên cứu tiêu chuẩn để lưu trữ trao đổi văn có chứa cơng thức tốn học nhà khoa học, cơng ty nước ngồi quan tâm từ sớm như: tiêu chuẩn TeX/LaTeX (đề xuất Donald Knuth từ năm 1969 đến năm 1991 có nhiều phiên đời hỗ trợ nhiều ngôn ngữ khác nhau) [1], [2]; tiêu chuẩn MathML ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(110).2017 (phát triển phổ biến rộng rãi W3C - World Wide Web Consortium Tim Berners-Lee làm Chủ tịch) [3] Bên cạnh tiêu chuẩn lưu trữ, việc soạn thảo xử lý cơng thức tốn học nhiều nhà khoa học quan tâm Hàng loạt giải pháp đề xuất cho đời công cụ soạn thảo, xử lý cơng thức tốn như: MathMagic (phát triển InfoLogic, Inc) [3], GtkMathView (phát triển Luca Padovani, Đại học Torino, Ý) [4],… Ngoài ra, việc nghiên cứu cơng cụ cho phép lưu trữ, lập mục, tìm kiếm cơng thức tốn nhiều nhà khoa học, tổ chức đầu tư nghiên cứu như: WolframAlpha (tự động xử lý tính toán giá trị biểu thức toán học) [4], [5], Symbolab (tìm kiếm tài liệu có chứa cơng thức tốn cho trước) [6],… Cho đến nay, có số nghiên cứu nhằm đưa tiếng Việt vào TeX sản phẩm tiêu biểu cho hướng VnTeX VnTeX hỗ trợ tiếng Việt cho LaTeX TeX thông qua gói macro phơng chữ VnTeX thường đóng gói kèm phân phối TeX teTeX, TeXLive [8] Ngoài ra, cách soạn thảo cơng thức tốn tiếng Việt TeX vẽ lệnh TeX Hiện có số nghiên cứu liên quan đến xử lý văn tiếng Việt không nhiều chưa trọng đến xử lý cơng thức tốn học văn [9] Giải pháp đề xuất 3.1 Mơ hình tổng quát Từ nhu cầu thực tiễn việc soạn thảo, tìm kiếm cơng thức tốn học văn khó khăn khác chuẩn định dạng nên chép trực tiếp công thức hai trình soạn thảo, chúng tơi đề xuất xây dựng mơi trường soạn thảo giải vấn đề Hình Các mơ hình Hình minh họa thực trạng này: cơng thức tốn học soạn thảo mơi trường MS Word lưu trữ văn MS Word mà chép hay lưu trữ sang công cụ soạn thảo hay hệ thống lưu trữ khác MathType, LaTeX ngược lại Từ thực tế này, đề xuất giải pháp đồng biểu diễn lưu trữ công thức tốn học minh họa Hình Theo đó, mơ hình bao gồm hai mức xử lí: (i) mức xử lí cơng thức tốn văn nằm mức thấp, (ii) mức xử lí văn chứa cơng thức tốn, nằm mức cao Mức cao trình bày mục sau Ở mức xử lí cơng thức tốn văn bản, cơng thức tốn học có hệ thống soạn thảo đồng chung, hệ thống lưu trữ chung, hệ thống hiển thị chung Khi đó, có hai vấn đề nảy sinh: 65 - Làm để chuyển đổi cơng thức tốn học từ mơi trường soạn thảo truyền thống ban đầu sang môi trường soạn thảo đồng chung này? - Làm chuyển đổi cơng thức tốn học từ mơi trường lưu trữ truyền thống ban đầu sang môi trường lưu trữ đồng chung này? Để giải hai vấn đề này, đề xuất xây dựng chuyển đổi cách biểu diễn cơng thức tốn học từ dạng ban đầu sang dạng đồng chung, ngược lại, chuyển đổi cách biểu diễn cơng thức tốn học từ dạng đồng chung sang dạng biểu diễn tồn thực tế Hình Mơ hình đề xuất chi tiết Như vậy, mơ hình đề xuất chúng tơi bao gồm ba thành phần đề xuất mới: - Một soạn thảo cơng thức tốn học đồng chung; - Hai hệ thống biểu diễn lưu trữ công thức toán học đồng chung; - Ba chuyển đổi cách biểu diễn cơng thức tốn học truyền thống tồn sang dạng biểu diễn đồng chung, ngược lại Trong mơ hình này, có số vấn đề cần phải xử lý liên quan đến công thức đề xuất sau 3.2 Biểu diễn lưu trữ cơng thức tốn với MathML MathML [1] ứng dụng XML để thể ký hiệu cơng thức tốn học với mục đích rộng phương cách trao đổi thơng tin tốn học máy tính (để hiển thị để tính tốn) mục đích hẹp hiển thị tài liệu tốn học mơi trường Web Đối với hiển thị môi trường Web, cấu trúc XML không ngắn gọn TeX, dễ dàng sử dụng trình duyệt, cho phép hiển thị cơng thức tốn học cách đẹp mắt, đồng thời truyền tải ý nghĩa toán học cho phần mềm tính tốn MathML hỗ trợ phần mềm văn phòng MS Word, OpenOffice.org với phần mềm tính tốn kỹ thuật Maple, Mathematica, MathCad nhiều hệ điều hành khác Linux, Windows,… 3.3 Soạn thảo công thức tốn với Amaya Để soạn thảo văn bản, chúng tơi đề xuất sử dụng phần mềm mã nguồn mở Amaya [10] Amaya phần mềm theo kiểu WYSIWYG (What You See Is What You Get), người 66 Cao Xuân Tuấn, Nguyễn Mạnh Hùng, Võ Trung Hùng dùng vừa soạn thảo vừa xem hiển thị kết trình duyệt Các cơng cụ Amaya chế độ bảng lựa chọn tương tự MS Word, OpenOffice.Org Math, 3.4 Chuyển đổi cơng thức tốn MathML dạng khác Việc chuyển đổi định dạng MathML định dạng khác cho công thức tốn học khơng gặp nhiều khó khăn triển khai thực tế Vấn đề tìm tương đương MathML chuẩn biểu diễn tương ứng TeX, LATEX, MS Word, để tạo ánh xạ chuyển đổi Ví dụ, chuyển đổi từ MathML sang TeX mơ hình tổng qt sau: Vì vậy, chúng tơi đề xuất xây dựng chương trình thường trú tích hợp vào Amaya phép chép công thức soạn thảo từ ứng dụng khác sang trình duyệt Amaya Ý tưởng đề xuất tiến hành chép công thức dạng Text vào ClipBoard, sau xử lý ClipBoard để chuyển sang ngôn ngữ đánh dấu MathML cuối dán vào Amaya Cách hoạt động chương trình sau: Hình Mơ hình chép cơng thức Hình Mơ hình chuyển đổi công thức Một đối tượng MathML biểu diễn theo cấu trúc qui định mô hình đối tượng tài liệu (DOM) qui định W3C [3] Để thực việc chuyển đổi MathML TeX, ta cần có tập tin lưu trữ thơng tin ánh xạ phần tử MathML sang phần tử tương ứng TeX Tập tin ánh xạ thành phần có vai trị quan trọng q trình chuyển đổi Nó mơ tả tương ứng – phần tử MathML TeX Tập tin ánh xạ chứa XML - form bao gồm mẫu để biểu diễn MathML TeX Cú pháp chung để mô tả tương ứng đối tượng MathML TeX viết sau: [MathML expression] 3.5 Sao chép cơng thức tốn MathML Amaya trình soạn thảo đồng thời trình duyệt Web [10] Vì vậy, liệu tạo phải tuân thủ theo định dạng trang XHTML Amaya có khả tự sinh thẻ chép liệu dạng chuỗi từ ứng dụng khác vào trình duyệt, khơng thể tự sinh thẻ SVG chép liệu hình ảnh từ ứng dụng khác sang Về chép công thức, chương trình thường trú Math Clipboard Converter nhận dạng mã hóa dùng tự động chuyển chuẩn MathML Ví dụ minh họa cho thấy chương trình thơng báo nhận dạng chuỗi liệu công thức thực chuyển đổi liệu sang MathML Ở sơ đồ trên, khung bên trái ngơn ngữ đánh dấu cơng thức tốn học văn nguồn khung bên phải đoạn mã phát sinh tự động thực lệnh dán từ Clipboard hiển thị công thức tương ứng với mã lệnh 3.6 Tìm kiếm cơng thức tốn tài liệu Để thực chức tìm kiếm cơng thức tốn học, chúng tơi đề xuất sử dụng phương pháp đối sánh mẫu (Pattern Matching) Bài toán yêu cầu ta tìm nhiều vị trí xuất mẫu văn Trong mẫu văn chuỗi có độ dài m n (m ≤ n) Việc đối sánh mẫu diễn với nhiều lần thử đoạn khác văn Trong cửa sổ chuỗi M ký tự liên tiếp văn Mỗi lần thử chương trình kiểm tra giống mẫu với cửa sổ thời Tùy theo kết kiểm tra cửa sổ dịch sang phải văn cho lần thử Nói chung, tìm kiếm cơng thức tốn học vấn đề khó khăn ký hiệu tốn học phụ thuộc vào ngữ cảnh Ví dụ biểu diễn hệ số nhị thức có đến ⎛ n ⎞ Ck ⎟, n k ⎝ ⎠ loạt ký hiệu mà phụ thuộc vào bối cảnh ⎜ n! có nghĩa k !( n − k ) ! Trong việc tìm kiếm cơng thức muốn lấy tất hình thức không phân biệt ký hiệu Để thực đối sánh mẫu, dùng phương pháp đối sánh mẫu xác đối sánh mẫu xấp xỉ Bài tốn đối sánh mẫu xác mơ tả sau: Cho xâu mẫu P độ dài m (P = P1P2 Pm – Pi ký tự) văn T độ dài n (T = T1T2 Tn – Ti ký tự) Tìm tất vị trí xuất mẫu P xâu T Bài tốn đối sánh mẫu xấp xỉ mơ tả sau: Cho ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(110).2017 xâu mẫu P độ dài m văn T độ dài n Xác định độ tương tự hai xâu P T Như vậy, việc tìm xuất mẫu văn bản, “khớp” mẫu xuất chấp nhận “k lỗi” (k giới hạn cho trước) Có thể kể vài kiểu “lỗi”, lỗi đánh máy hay lỗi tả hệ thống trích rút thơng tin,… Vì hệ thống tin học khó tránh “lỗi” nên vấn đề tìm kiếm xấp xỉ trở nên quan trọng Bài tốn đưa tìm xâu chung dài (hay khúc chung dài nhất): Một xâu w xâu hay khúc (substring or factor) xâu T T = uwv (xâu u, v rỗng) Xâu w khúc chung hai xâu P, T w đồng thời khúc P T Khúc chung dài hai xâu P T Đối với tim kiếm cơng thức tốn, chúng tơi đề xuất sử dụng thuật tốn tìm kiếm xấp xỉ việc thay đổi thứ tự thành phần cơng thức khơng có nhiều ý nghĩa ngơn ngữ tự nhiên Ví dụ : ngơn ngữ tự nhiên thứ tự từ “trường” “học” tạo cụm từ có ý nghĩa hoàn toàn khác “trường học” “học trường” Tuy nhiên, với cơng thức tốn việc viết “x+y” “y+x” có nghĩa Mặt khác, tìm kiếm xấp xỉ cho phép tìm kiếm cơng thức có ý nghĩa cách viết khác Thuật tốn tìm kiếm xấp xỉ mơ tả sau: Input: Mẫu P có độ dài m; văn T có độ dài n Output: - Khúc chung dài P T - Vị trí chuỗi mẫu Substr T Thuật toán: Char chuoicon (char *p, char *T, int m) { int len,k, i, j; Char str[m], tam[m]; len = ; str=’’ ; while ( len

Ngày đăng: 25/11/2022, 21:01