Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
631,71 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG BÙI THỊ THANH THỦY NGHIÊNCỨUVÀXÂYDỰNGHỆTHỐNGTÌMKIẾMCÔNGTHỨCKHOAHỌC Chuyên ngành: Khoahọc máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS. HUỲNH CÔNG PHÁP Phản biện 1: PGS.TSKH. TRẦN QUỐC CHIẾN Phản biện 2: TS. HOÀNG THỊ LAN GIAO Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 18 tháng 5 năm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng 1 MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của mạng Internet vàcông nghệ Web là sự bùng nổ thông tin số. Số lượng người sử dụngvà lượng thông tin sản sinh ra trên mạng Internet gia tăng rất nhanh và chúng ta có thể tìm thấy mọi thông tin cần thiết khi có nhu cầu. Đặc biệt, lượng thông tin liên quan đến khoa học, phục vụ học tập, nghiêncứu cũng gia tăng nhanh chóng và phong phú về lĩnh vực. Việc khai thác hiệu quả các tài liệu khoahọc trên Web có ý nghĩa quan trọng trong khoahọcvà kinh tế vì nó góp phần đáng kể vào việc cải thiện quá trình học tập vànghiên cứu. Nhu cầu tìmkiếm các côngthức toán học trên môi trường web là rất lớn nhưng hiện nay chưa có hệthống nào đáp ứng, kể cả các nhà cung cấp dịch vụ nổi tiếng như Google, Yahoo, Microsoft,… Việc nghiêncứu các giải pháp để hỗ trợ soạn thảo, lưu trữ vàtìmkiếm các côngthức toán học trên môi trường web là rất cần thiết . Vì vậy tôi chọn đề tài “ Nghiêncứuvàxâydựnghệthốngtìmkiếmcôngthứckhoa học” Ý tưởng của luận văn là đề xuất một mô hình phù hợp với các tiêu chuẩn hiện hành và cho phép chúng ta có thể mô hình hóa, lưu trữ vàtìmkiếm thuận lợi các côngthức toán học, hóa học… trên các tài liệu, tài liệu khoa học, web. 2. Mục tiêu của đề tài Tìmkiếmcôngthứckhoahọc vẫn còn rất hàn lâm. Nó phải đối mặt với nhiều vấn đề phức tạp của toán học vì thiếu các tiêu 2 chuẩn định nghĩa của một công cụ tìmkiếmkhoahọc đó như thế nào và bao gồm những tính năng gì. Để tạo ra một công cụ tìmkiếmkhoahọc những vấn đề mới sau đây cần phải được giải quyết: Trích rút nội dung toán học, hóa học … từ các tài liệu khoa học. Phân loại văn bản bình thường và ký hiệu khoa học. Lập chỉ mục của văn bản khoahọcvà thiết kế thuật toán xếp hạng. Thiết kế ngôn ngữ truy vấn. Mục đích để tài là đề xuất một phương pháp tiếp cận mới giải quyết gần như tất cả các vấn đề cơ bản ở trên và nhấn mạnh vào khả năng sử dụngthực tế. . Điểm khác biệt giữa các công cụ tìmkiếmkhoahọc trước đây vàcông cụ tìmkiếm đề xuất trong luận văn đó là kỹ thuật chỉ mục tài liệu khoahọcvà thuật toán xếp hạng. Đề xuất một hệthốngtìmkiếm được thiết kế với kỹ thuật chỉ mục mới, lạ. Các vấn đề được trình bày trong luận văn: Vấn đề kết nối tìmkiếmkhoa học, trình bày các giải pháp hiện tại và lý do tại sao các giải pháp đó không phù hợp với bộ sưu tập tài liệu lớn. Thiết kế hệthốngtìmkiếmkhoa học. Đề xuất kỹ thuật chỉ mục các ký hiệu khoahọcvà thuật toán xếp hạng. Đề xuất ngôn ngữ truy vấn khoa học. Tổng kết dựa trên kết quả đánh giá. 3 3. Đối tượng nghiêncứu Đối tượng nghiêncứu khi thực hiện đề tài này là các công cụ hỗ trợ soạn thảo, các tiêu chuẩn lưu trữ, phương pháp hiển thị vàtìmkiếmcôngthứckhoa học. 4. Phương pháp nghiêncứuTìm hiểu lý thuyết về soạn thảo, lưu trữ vàtìmkiếmcôngthứckhoahọc trên văn bản. Nghiêncứu các công cụ tìmkiếmkhoahọc hiện có. Tìm hiểu chuẩn MathML để đặc tả các côngthức toán học, hóa học . Dựa trên lý thuyết đã nghiên cứu, tiến hành xâydựng một ứng dụng soạn thảo công thức, lưu trữ, hỗ trợ tìmkiếmcôngthứckhoahọc trên web, tài liệu khoahọc ở tất cả các định dạng. 5. Ý nghĩa khoahọcvàthực tiễn Việc khai thác hiệu quả các tài liệu khoahọc trên Web có ý nghĩa quan trọng trong khoahọcvà kinh tế vì nó góp phần đáng kể vào việc cải thiện quá trình học tập vànghiên cứu. Kết quả của đề tài sẽ góp phần quan trọng trong việc xử lý các côngthứckhoahọc trong các hệthống hỗ trợ dạy vàhọc qua mạng internet, diễn đàn khoa học… 6. Cấu trúc luận văn Bố cục của luận văn được tổ chức thành 3 chương. Chương 1: Trình bày nghiêncứu tổng quan về công cụ tìmkiếmkhoa học. Chương 2: Được dành để mô tả ứng dụng, xâydựng mô hình tổng quát, đề xuất giải pháp xâydựng môi trường soạn thảo công thức, tiêu chuẩn lưu trữ vàtìmkiếmcôngthứckhoa học. Chương 3: Trình bày triển khai ứng dụng . 4 CHƯƠNG 1 NGHIÊNCỨU TỔNG QUAN Côngthức toán, côngthức hóa, côngthức vật lý…gọi chung là côngthứcKhoa học. Và các côngthứckhoahọc này đều được biểu diễn dưới dạng toán học. Cho nên trong luận văn này, tôi tập trung đi sâu vào phân tích côngthức toán học. 1.1. SOẠN THẢO CÔNGTHỨC TOÁN HỌC Với mỗi trình soạn thảo văn bản có một chuẩn lưu trữ khác nhau vì vậy sẽ gặp rất nhiều khó khăn trong việc hợp nhất các văn bản được tạo ra từ nhiều ứng dụng khác nhau. 1.1.1. Định dạng lưu trữ a. LaTex LaTex định nghĩa một chế độ đặc biệt để soạn thảo côngthức toán học. Các côngthức này có thể được đưa vào ngay trong môi trường văn bản ta có thể tách rời chúng khỏi các đoạn văn bản. Phần nội dung toán học trong đoạn văn có thể được soạn thảo ở giữa dấu \ và \ hay $ và $ hay \ begin{math} và \end{math}. b. HTML HTML là một ngôn ngữ đánh dấu được thiết kế để tạo nên các trang web, nghĩa là các mẫu thông tin được trình bày trên Word Wide Web. c. MathML MathML là một ứng dụng của XML để thể hiện ký hiệu vàcôngthức toán học với mục đích rộng là phương cách trao đổi thông tin toán học trên máy tính (để hiển thị cũng như để tính toán) và mục đích hẹp là hiển thị tài liệu toán học trên World Wide Web. Nhóm 5 toán học của W3C đề xuất mọi người nên dần sử dụng ngôn ngữ này trên mạng. MathML được thiết kế để không chỉ hiển thị tốt côngthức toán học mà còn chứa ý nghĩa hiểu nội dung toán học. 1.1.2. Biểu diễn soạn thảo Ở đây, chúng ta sẽ tìm hiểu ở bốn loại văn bản thường sử dụng hiện nay. - Biểu diễn côngthức toán học trên Microsoft Word - Biểu diễn côngthức toán học trên Website - Biểu diễn côngthức toán học trên OpenOffice.Org - Biểu diễn côngthức toán học trên MathType a. Biểu diễn côngthức toán học trên Microsoft Word Ví dụ trong Microsoft word 2003, để hiển thị côngthức , soạn thảo bằng phương trình Editor thì phải sử dụng đoạn mã sau: { EQ\r(2,x)} Equation Editor (soạn thảo phương trình) là một trình soạn thảo côngthức phát triển bởi Design Science. Cho phép người dùngxâydựng các phương trình toán học trong môi trường WYSIWYG, được tích hợp trong tất cả các phiên bản Microsoft Office. b. Biểu diễn côngthức toán học trên Website Trang trực tuyến CodeCogs Equation Editor sử dụng ngôn ngữ đánh dấu Latex để soạn thảo côngthức toán học. Đây là trang soạn thảo dạng WYSIWYG và hầu hết tất cả các trình duyệt có thể đọc được ví như Mozilla Firefox, Internet Explorer,… Hiển thị hình ảnh thì chúng ta phải nhập đoạn mã sau: \sqrt [x]{2}\ 6 c. Biểu diễn côngthức toán học trên OpenOffice.Org Đối với bộ OpenOffice.Org, việc tạo ra một côngthức toán học trên trình soạn thảo là rất đơn giản thông qua OpenOffice.Org Math. Ta chỉ việc sử dụng bảng lựa chọn các ký hiệu cần chèn vàcôngthức tương ứng với đoạn mã được sinh ra. Để hiển thị côngthức thì chúng ta có đoạn mã tương ứng sau: nroot{2} {x} d. Biểu diễn côngthức toán học trên MathType MathType là một phần mềm thương mại của Design Science cho phép tạo các ký hiệu toán học để xử lý văn bản. Hỗ trợ các ngôn ngữ đánh dấu như Tex, Latex, Mathml,…cho nên khi sử dụng MathType, chúng ta có thể chuyển côngthứckhoahọc sang các dạng chuẩn khác nhau. 1.2. TỔNG QUAN VỀ CÔNG CỤ TÌMKIẾM 1.2.1. Khái niệm cơ bản về hệtìmkiếmthông tin Bản chất của quá trình tìmkiếmthông tin dựa trên cơ chế “đối sánh” các tài liệu được lưu trữ trong hệthống với yêu cầu tìmkiếm của người dùng để tìm ra kết quả cho phù hợp . 1.2.2. Mô hình của hệtìmkiếmthông tin Các thành phần cơ bản bao gồm: - Đầu vào: gồm các câu truy vấn và các tài liệu - Đầu ra: Tập hợp các đoạn trích hay tài liệu được hệthống đánh giá phù hợp với yêu cầu truy vấn của người dùng : - Bộ xử lý: Bao gồm các thành phần cơ bản : Bộ biểu diễn câu truy vấn : Biểu diễn câu truy vấn người dùng. 7 Bộ biểu diễn tài liệu : Biểu diễn thông tin về tài liệu, lập chỉ mục phục vụ cho quá trình tìm kiếm. Bộ đối sánh : Đối sánh giữa câu truy vấn vàthông tin tài liệu xem tài liệu có phù hợp không 1.2.3. Các thành phần của hệtìmkiếmthông tin - Thu thập thông tin web (web crawler) - Lập chỉ mục cho các tài liệu thu thập được - Tìmkiếm 1.3 .THỰC TRẠNG TÌMKIẾMCÔNGTHỨCKHOAHỌC Hàng này, chúng ta thường sử dụng chức năng tìmkiếm tài liệu trong công việc nhưng thực tế đó chỉ là tìmkiếm văn bản dưới dạng chuỗi. Vậy tìmkiếm văn bản dưới dạng côngthức thì sao? Đây là một vấn đề mà chúng ta ít quan tâm nhưng rất quan trọng. Côngthức được định dạng như một tập tin hình ảnh. Vì lý do đó, chúng ta không thể thực hiện quá trình tìmkiếm giống như tìmkiếm chuỗi trong văn bản thông thường mà chúng ta hay sử dụng. 1.3.1. CiteSeer Citeseer là một hệthống thu thập thông tin dữ liệu chỉ mục các bài báo khoahọc được thu thập về từ trên web dựa trên nội dungvà phần trích dẫn của bài báo, sau đó tổ chức thông tin dữ liệu chỉ mục thu thập được thành cơ sở dữ liệu, cho phép người dùngtìmkiếmthông tin trên dữ liệu chỉ mục này. Một số điểm chưa được: - CiteSeer không thể đánh dấu dữ liệu chỉ mục với các tạp chí chưa có các bản điện tử. - CiteSeer chưa xử lý được những dữ liệu như sự nhập nhằng giữa 2 tác giả cùng một tên. 8 1.3.2. Google Scholar Google Scholar là một công cụ chuyên tìmkiếm tài liệu nghiêncứuvàhọc thuật, bao gồm các bài báo khoa học, bài tóm tắt khoa học, bài nghiêncứu sơ bộ, bài tóm tắt, báo cáo kỹ thuật, luận án, sách v.v… Ưu điểm của Google Scholar: - Khả năng lọc thông tin từ những nguồn đáng tin cậy. - Tìmkiếmthông tin từ những nguồn web mở lẫn web thương mại. Do đó, người dùng có thể tìm được toàn văn của tài liệu nghiêncứu từ những nguồn miễn phí trên mạng Internet hoặc tìm được thông tin thư mục (biểu ghi) của các nguồn cơ sở dữ liệu trả tiền. - Cung cấp công cụ hỗ trợ việc đánh giá tính đáng tin cậy của nguồn tài liệu tìm được. - Cho phép mở rộng phạm vi tìmkiếm trên kết quả tìm. 1.3.3. LeActiveMath ActiveMath là một trang web thông minh - Môi trường học toán học. Nội dung ngữ nghĩa của các tài liệu toán học được mã hóa ở OMDoc. Công cụ tìmkiếm nhận biết toán học chuyên dụng này phù hợp cho người học toán vàtìmkiếm toán học ở mức độ đơn giản. Khả năng sử dụng cho các tìmkiếm phức tạp hơn là vấn đề khó. 1.3.4. MathDex Các tính năng chính : - Hỗ trợ cả tìmkiếmcông thứctoán họcvàtìmkiếm văn bản đơn giản. - Hỗ trợ phong phú các định dạng đầu vào.