Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
2,12 MB
Nội dung
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG CAO XN TUẤN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG CAO XN TUẤN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN Chuyên ngành : Hệ thống Thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Võ Trung Hùng TS Nguyễn Mạnh Hùng Hà Nội – 2017 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận án trung thực chưa công bố cơng trình khác Tác giả Luận án ii LỜI CẢM ƠN Để hoàn thành luận án này, đầu tiên, nghiên cứu sinh xin chân thành cảm ơn hướng dẫn khoa học tận tình giúp đỡ PGS.TS Võ Trung Hùng TS Nguyễn Mạnh Hùng Nghiên cứu sinh trân trọng cảm ơn Ban Giám đốc Học viện Cơng nghệ Bưu Viễn thông, Hội đồng tiến sĩ, Khoa Quốc tế Đào tạo sau đại học tạo điều kiện thuận lợi cho nghiên cứu sinh thực hoàn thành chương trình nghiên cứu Xin chân thành cảm ơn Quý thầy, đọc góp ý kiến cho luận án Nghiên cứu sinh chân thành cảm ơn Cơ quan Bộ Giáo dục Đào tạo tạo điều kiện công tác thuận lợi để nghiên cứu sinh tham gia hồn thành khóa học Cuối cùng, nghiên cứu sinh bày tỏ lịng biết ơn đến gia đình, người thân, người bạn bên cạnh, động viên ủng hộ nghiên cứu sinh suốt thời gian qua Nghiên cứu sinh Cao Xuân Tuấn iii MỤC LỤC LỜI CẢM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG ix MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ CƠNG THỨC TỐN 1.1 Tìm kiếm văn 1.1.1 Khái niệm văn 1.1.2 Hệ thống tìm kiếm văn 1.2 Tìm kiếm văn chứa cơng thức tốn 12 1.2.1 Đặc thù tìm kiếm văn chứa cơng thức tốn 12 1.2.2 Các công cụ soạn thảo văn chứa công thức toán 13 1.2.3 Biểu diễn văn chứa cơng thức tốn 17 1.2.4 Lưu trữ văn chứa công thức toán 19 1.2.5 Tìm kiếm cơng thức tốn với hệ thống MathWebSearch 23 1.3 Hướng tiếp cận luận án 25 1.4 Kết luận Chương 29 CHƯƠNG BIỂU DIỄN VÀ LƯU TRỮ CƠNG THỨC TỐN 31 2.1 Mơ hình biểu diễn tìm kiếm cơng thức toán văn 31 2.2 Biểu diễn lưu trữ cơng thức tốn với MathML 34 2.3 Soạn thảo hiển thị cơng thức tốn với Amaya 38 iv 2.4 Sao chép cơng thức tốn Amaya 40 2.5 Chuyển đổi công thức MathML với định dạng khác 44 2.6 Kết luận Chương 46 CHƯƠNG TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN 48 3.1 Bài tốn tìm kiếm tài liệu 48 3.2 Tìm kiếm tài liệu dựa cơng thức toán 50 3.2.1 Mơ hình đề xuất 50 3.2.2 Mô-đun lập mục văn 51 3.2.3 Mơ-đun tìm kiếm hiển thị kết 54 3.3 Tìm kiếm tài liệu dựa Semantic Web 61 3.3.1 Mô tả ứng dụng Semantic Web toán học 62 3.3.2 Mơ hình đề xuất 63 3.4 Kết luận Chương 67 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ 68 4.1 Chức soạn thảo lưu trữ cơng thức tốn 68 4.2 Tìm kiếm trực tiếp cơng thức tốn 70 4.3 Tìm kiếm Ontology 72 4.4 Tìm kiếm văn dựa cơng thức tốn 74 4.4.1 Phát triển hệ thống thử nghiệm 74 4.4.2 Mô tả chức hệ thống 74 4.4.3 Môi trường cài đặt hệ thống 75 4.4.4 Chuẩn bị liệu 76 4.5 Đánh giá kết 81 v 4.5.1 Phương pháp đánh giá 81 4.5.2 Kết thử nghiệm đánh giá kết 82 4.6 Kết luận Chương 86 KẾT LUẬN 87 DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ 90 TÀI LIỆU THAM KHẢO 91 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt CSS Cascading Style Sheets Tập tin định dạng theo tầng HTML HyperTeXt Markup Language Ngôn ngữ đánh dấu siêu văn MathML Mathematical Markup Language Ngơn ngữ đánh dấu tốn học OLE Object Linking and Embedding Liên kết nhúng đối tượng SVG Scalable Vector Graphics Ngôn ngữ đánh dấu miêu tả hình ảnh đồ họa véc tơ hai chiều W3C The World Wide Web Consortium Tiêu chuẩn thiết kế Web WYSIWYG What You See Is What You Get Giao diện tương tác tức thời XHTML Extensible HyperTeXt Markup Ngôn ngữ đánh dấu siêu văn Language mở rộng XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng URI Uniform Resource Identifier Định danh tài nguyên vii DANH MỤC HÌNH VẼ Hình 1.1 Kiến trúc tổng quan hệ thống lưu trữ tìm kiếm văn 10 Hình 1.2 Nhập cơng thức bảng chọn 13 Hình 1.3 Hiển thị cơng thức hình soạn thảo 14 Hình 1.4 Cửa sổ soạn thảo TeXworks 14 Hình 1.5 Cửa sổ soạn thảo Microsoft Equation 15 Hình 1.6 Giao diện phần mềm Mathtype 16 Hình 1.7 Cơng cụ MyEqText soạn thảo trực tiếp cửa sổ Microsoft Word 16 Hình 1.8 Cấu trúc hệ thống ( MWS – 0.4) 24 Hình 1.9 Kiến trúc hệ thống theo giải pháp 26 Hình 1.10 Kiến trúc hệ thống theo giải pháp 29 Hình 2.1 Mơ hình biểu diễn cơng thức tốn văn truyền thống 31 Hình 2.2 Mơ hình biểu diễn lưu trữ cơng thức tốn văn đề xuất 32 Hình 2.3 Minh họa cách trình bày công thức 37 Hình 2.4 Cấu trúc thành phần mã nguồn mở Amaya 39 Hình 2.5 Sơ đồ trình chuyển đổi liệu ClipBoard 40 Hình 2.6 Chương trình thường trú Math Clipboard Converted 41 Hình 2.7 Thuật tốn chép công thức qua ClipBoard 43 Hình 2.8 Mơ hình chuyển đổi cơng thức từ MathML sang TeX 44 Hình 2.9 Biểu diễn dạng công thức MathML 45 Hình 2.10 Biểu diễn dạng đối tượng TeX 45 Hình 3.1 Mơ hình hệ thống tìm kiếm thơng tin 49 viii Hình 3.2 Mơ hình tổng qt q trình tạo mục tìm kiếm 50 Hình 3.3 Mơ hình trình tạo mục 52 Hình 3.4 Mơ hình q trình tìm kiếm 55 Hình 3.5 Mơ hình hóa hệ thống Semantic Web tốn học 63 Hình 4.1 Biểu diễn công thức theo dạng thẻ (tags) 69 Hình 4.2 Biểu diễn cơng thức theo dạng hình 69 Hình 4.3 Ví dụ tìm kiếm ký tự a 70 Hình 4.4 Ví dụ tìm kiếm ký hiệu bậc 70 Hình 4.5 Tìm thay cơng thức 71 Hình 4.6 Mơ hình xây dựng khai thác kho liệu 72 Hình 4.7 Giao diện tìm kiếm tài liệu với câu truy vấn văn 73 Hình 4.8 Giao diện tìm kiếm có câu truy cấn cơng thức tốn 73 Hình 4.9 Tổ chức liệu máy chủ lưu trữ 75 Hình 4.10 Chi tiết sở liệu lưu trữ thông tin tài liệu 79 Hình 4.11 Cửa số tìm kiếm với câu truy vấn cơng thức tốn 80 Hình 4.12 Cửa tìm kiếm với câu truy vấn nội dung văn 80 Hình 4.13 Mối tương quan độ triệu hồi độ xác theo kịch 84 Hình 4.14 Mối tương quan độ triệu hồi độ xác theo kịch 85 81 Tên tài liệu tìm thấy Trích dẫn phần tài liệu có chứa cơng thức tìm thấy Đường dẫn tới tài liệu tìm thấy Ngồi thơng tin trên, người dùng cịn xem số lượng tài liệu tìm thấy ứng với câu truy vấn này, thời gian thực truy vấn (tính đơn vị millisecond) 4.5 Đánh giá kết 4.5.1 Phương pháp đánh giá 4.5.1.1 Kịch đánh giá Trong trình nghiên cứu, nhận thấy có 02 dạng - Một số tài liệu khơng chứa cơng thức tốn cơng thức dạng đơn giản sử dụng cách nhập liệu thơng thường để mơ tả ví dụ: y=x2 y=2x,…với trường hợp này, luận án coi tài liệu khoa học khơng chứa cơng thức tốn - Các tài liệu chứa cơng thức tốn: tài liệu chuyển đổi sang dạng XML, thẻ XML nhận diện đối tượng cơng thức, cơng thức nhập Math type, Microsoft Equation 3.0, OpenOffice.org Math LaTEX Do vậy, trình thử nghiệm, nhằm tăng thêm độ xác hệ thống, luận án thực đánh giá với hai kịch sau: - Kịch 1: Nhập truy vấn dạng nội dung văn - Kịch 2: Nhập truy vấn dạng cơng thức tốn 4.5.1.2 Tham số đầu Luận án quan sát tham số đầu sau: - Số mẫu trả (TP - true positive): số lượng văn có chứa cơng thức truy vấn xuất kết tìm kiếm 82 - Số mẫu sai trả (FP - false positive): số lượng văn KHƠNG chứa cơng thức truy vấn xuất kết tìm kiếm - Số mẫu không trả (FN - false negative): số lượng văn có chứa cơng thức truy vấn lại KHƠNG xuất kết tìm kiếm - Số mẫu sai không trả (TN - true negative): số lượng văn KHƠNG chứa cơng thức truy vấn KHÔNG xuất kết tìm kiếm Khi đó, độ xác (Precision) xác định công thức: precision TP TP FP (4.2) Độ triệu hồi (Recall) xác định công thức: Re call TP TP FN (4.3) 4.5.2 Kết thử nghiệm đánh giá kết 4.5.2.1 Kết thử nghiệm Số lượng truy vấn số tài liệu liên quan thể chi tiết Bảng 4.5 Bảng 4.5 Thống kê truy vấn Tóm tắt thống kê Số tài liệu 497 Số chủ đề Tổng số tài liệu thực truy vấn Số tài liệu tra cứu 312 Số tài liệu liên quan 298 83 Luận án sử dụng câu truy vấn khác cho việc thử nghiệm hệ thống, cấp độ triệu hồi, luận án tính độ xác tương đương với cấp - Kết thử nghiệm theo kịch 1, với câu truy vấn dạng nội dung văn thể Bảng 4.6 Bảng 4.6 Thống kê độ triệu hồi độ xác theo kịch No Recall Precision (%) 0.1 0.8734 0.2 0.8333 0.3 0.8167 0.4 0.7667 0.5 0.7433 0.6 0.7333 0.7 0.6750 0.8 0.5833 0.9 0.5667 10 1.0 0.5117 84 Số liệu Thống kê độ triệu hồi độ xác với câu truy vấn nội dung văn Bảng 4.6 biểu diễn qua biểu đồ Hình 4.13 0.9 0.8 Precision 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.2 0.4 0.6 0.8 1.2 Recall Hình 4.13 Mối tương quan độ triệu hồi độ xác theo kịch - Kết thử nghiệm theo kịch 2, với câu truy vấn cơng thức tốn thể Bảng 4.7 Bảng 4.7 Thống kê độ triệu hồi độ xác theo kịch No Recall Precision (%) 0.1 0.9667 0.2 0.8667 0.3 0.8450 0.4 0.8000 0.5 0.7833 0.6 0.7500 0.7 0.6667 0.8 0.6333 0.9 0.6083 10 1.0 0.5333 85 Số liệu Thống kê độ triệu hồi độ xác với câu truy vấn cơng thức tốn Bảng 4.7 biểu diễn qua Biểu đồ Hình 4.14 1.2 Precision 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 Recall 0.8 1.2 Hình 4.14 Mối tương quan độ triệu hồi độ xác theo kịch 4.5.2.2 Đánh giá kết Hiện nay, hệ thống tìm kiếm tài liệu chứa cơng thức tốn chưa xây dựng, nên luận án thực đánh giá với hệ thống có Do vậy, luận án thực đánh giá 02 kịch trình bày Kết đánh giá thể Bảng 4.8 tính trung bình chung cho lần truy vấn khác kịch khác Kết cho thấy kịch - nhập câu truy vấn dạng nội dung văn có độ xác thấp lại có độ triệu hồi cao so với kịch - nhập câu truy vấn dạng cơng thức tốn Kết trung bình độ triệu hồi độ xác thể Bảng 4.8 Bảng 4.8 Kết trung bình độ triệu hồi độ xác Kịch Recall Precision (%) Truy vấn theo nội dung 0.72 86.8132 Truy vấn theo công thức 0.62 89.3130 86 Mặc dù hai kịch cho kết có độ xác cao lại cho độ triệu hồi thấp Có nghĩa cịn nhiều văn có chứa nội dung truy vấn khơng xuất kết tìm kiếm Đây coi điểm hạn chế cịn tồn mơ hình đề xuất Hạn chế xuất phát từ yếu tố kỹ thuật sau: - Bộ chuyển đổi cơng thức tốn: Có thể chuyển đổi từ cơng thức truy vấn người dùng nhập vào thành tập mục từ khóa tìm kiếm cịn số hạn chế, khiến từ khóa sinh khơng giúp tìm kiếm triệt để cơng thức tốn lưu văn - Thuật toán đối sánh xấp xỉ mẫu: Có thể thuật tốn đối sánh xấp xỉ chưa phát đầy đủ chuỗi tập từ khóa xuất chuỗi văn tìm kiếm khiến cho hiệu phát công thức toán văn chưa cao Để khắc phục hạn chế này, luận án tiếp tục xem xét cải tiến hiệu bước chuyển đổi cơng thức tốn dạng đồng bước đối sánh xâu tìm kiếm chuỗi biểu diễn cơng thức toán văn Đây hướng mở rộng đầy tiềm luận án tương lai 4.6 Kết luận Chương Nội dung chương trình bày việc thử nghiệm đánh giá mơ hình đề xuất chương 3, bao gồm: mơ hình thống cách biểu diễn lưu trữ cơng thức tốn văn bản; phương pháp tìm kiếm văn chứa cơng thức tốn dựa mơ hình thống biểu diễn lưu trữ Việc thử nghiệm đem lại số kết đáng khích lệ Kết chương công bố cơng trình số [3], số [4] số [5] Tuy nhiên, để áp dụng vào môi trường thực tế, cần nhiều thời gian công sức để xây dựng liệu đủ lớn xây dựng chức chi tiết, phức tạp nghiệp vụ thực tế 87 KẾT LUẬN Luận án đề xuất từ nhu cầu thực tế hạn chế việc soạn thảo, lưu trữ khai thác tài liệu khoa học, đặc biệt tài liệu có chứa cơng thức tốn Trên sở nghiên cứu tổng quan, luận án đề xuất vấn đề nghiên cứu liên quan đến việc soạn thảo, lưu trữ, tìm kiếm tài liệu khoa học máy tính Các nghiên cứu luận án liên quan đến nhiều vấn đề tiêu chuẩn lưu trữ, hệ soạn thảo cho phép nhập sửa cơng thức tốn, giải pháp để chuyển đổi tài liệu có chứa cơng thức ứng dụng khác nhau, giải pháp để tìm kiếm tài liệu dựa cơng thức tốn xây dựng Semantic Web cho tài liệu toán học Luận án trình bày kết thử nghiệm nhằm đánh giá giải pháp đề xuất kết cho thấy giải pháp đề xuất hợp lý, khả thi cho kết tốt Những ứng dụng thử nghiệm cho thấy người sử dụng cung cấp giải pháp, công cụ hiệu thuận lợi nhiều soạn thảo, lưu trữ tìm kiếm tài liệu dựa cơng thức tốn Những đóng góp luận án tóm tắt điểm sau: Đề xuất không gian soạn thảo, lưu trữ thống cơng thức tốn dễ dàng chuyển đổi định dạng công thức sang tiêu chuẩn lưu trữ khác Đề xuất thử nghiệm thành công hệ thống tìm kiếm tài liệu dựa cơng thức tốn (văn Web) dựa ba thành phần: sưu tập liệu (crawler), lập mục (index) tìm kiếm (search) Đề xuất thử nghiệm thành cơng hệ thống tìm kiếm tài liệu tốn học dựa Semantic Web Những kết có ý nghĩa khoa học thực tiễn rõ ràng, đặc biệt lĩnh vực nghiên cứu ứng dụng cho tiếng Việt 88 Về mặt khoa học, nghiên cứu cho phép mở hướng nghiên cứu tiêu chuẩn lưu trữ, xử lý, khai thác văn hệ thống máy tính mạng máy tính khác Đặc biệt, nghiên cứu xử lý vấn đề phát sinh hệ điều hành, phần mềm ứng dụng sử dụng tiêu chuẩn mã hóa lưu trữ khác Ví dụ, để chuyển đổi tài liệu nói chung hay tài liệu tốn học nói riêng phần mềm soạn thảo Microsoft Word, OpenOffice, LaTeX, Về mặt thực tiễn, luận án đề xuất thử nghiệm thành công công cụ cho phép soạn thảo, xử lý, tìm kiếm chuyển đổi tài liệu tốn học; triển khai mức thử nghiệm Semantic Web cho tài liệu toán học xây dựng hệ thống tìm kiếm tài liệu dựa cơng thức toán (VNMathSearch) Những kết bước đầu sở quan trọng để tiếp tục thực nghiên cứu tương lai Tuy nhiên, phạm vị nghiên cứu phải giới hạn hạn chế thời gian nên số vấn đề cần phải tiếp tục nghiên cứu, thử nghiệm thêm Trên sở nghiên cứu triển khai kết đạt trình thực luận án, luận án đề xuất số hướng phát triển thời gian tới gồm: Tiếp tục nghiên cứu cập nhật thông tin chuẩn lưu trữ (vì tiêu chuẩn ln thay đổi theo thời gian) Trên sở đó, nghiên cứu chuyển đổi tự động tài liệu tạo từ công cụ soạn thảo khác (đặc biệt ứng dụng thiết bị di động phát triển nhanh) Nghiên cứu phát triển hệ thống tìm kiếm đa ngữ xuyên ngữ (ví dụ: tìm tài liệu hay cơng thức nhiều ngơn ngữ khác khơng tìm ngơn ngữ tiếp tục tìm kiếm ngơn ngữ khác) Luận án cịn số hạn chế định đáp ứng mục tiêu nghiên cứu đặt Những nội dung nghiên cứu mang lại kết bước đầu, có độ tin cậy cao giải pháp đề xuất Quan trọng hơn, nghiên cứu luận án hướng phát triển tiềm cho 89 nghiên cứu tương lai, đặc biệt xử lý văn tiếng Việt môi trường đa ngữ 90 DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ [1] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 04, May-2015 [2] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 05, May-2015 [3] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building Vietnamese Technical Document Retrival Effectively”, 4th International Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 [4] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, “VNMATHSEARCH – Hệ thống tìm kiếm tài liệu toán học tiếng Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), pp 768-775, 2015 [5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường thống để biểu diễn, lưu trữ, soạn thảo xử lý cơng thức tốn”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, pp 64-69, 01/2017 91 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Dang Tuan NGUYEN and Ha Quy-Tinh LUONG (2009), "Document Searching System based on Natural Language Query Processing for Vietnam Open Courseware Library," IJCSI International Journal of Computer Science Issues, vol Vol 6, no No 2, pp 7-13 [2] Le T.N., Vo T.H., , Cao X.T., Hoang T.M.L (2010), “Mathis - Hệ thống hỗ trợ tạo thích tìm kiếm tài liệu khoa học,” Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, pp 15-20 [3] Thien Huu Nguyen, Vinh Quang Nguyen, and Ngoc Minh Thi Nguyen (2011), "An information extractionsystem for constructing knowledge bases from Vietnamese documents," in In Proceedings of the 28th Student Scientific Research Conference, pp 114-118, School of Information and Communication Technology, HUST, Hanoi, Vietnam Tiếng Anh [4] Alberto Apostolico, Zvi Galil (2013), Pattern Matching Algorithms, Oxford University Press, ISBN-13: 978-0195113679 [5] C Schenk (2016), MiKTeX Manual, MiKTeX Project Report, http://miktex.org [6] Chengxiang Zhai and John Lafferty, A study of smoothing methods for language models applied to Ad Hoc information retrieval, Proc 24th Annu Int ACM SIGIR Conf Res Dev Inf Retr - SIGIR ’01, pp 334– 342, 2001 [7] D E Knuth (1984), Computers and Typesetting, Addison-Wesley, ISBN 0-201-13448-9 92 [8] David Carlisle, Patrick Ion, Robert Miner (2010), "Mathematical Markup Language (MathML) Version 2.0," in Second Edition [9] David Carlisle, Patrick Ion, Robert Miner (2014), Mathematical Markup Language (MathML) Version 3.0, W3C Recommendation [10] G Nass, GES 2014: Symbolab takes the hassle out of the equation, MindCet Published [11] H T Thanh (2000), "Micro-typographic extensions to the TEX typesetting system," in TUGBoat, Volume 21, No [12] Harmelen, Grigoris Antoniou and Frank Van (2004), "A Semantic Web Primer," in MIT Press [13] Djoerd Hiemstra and Vojkan Mihajlovic, A database approach to information retrieval: The remarkable relationship between language models and region models, 1005.4752, pp 1–16, 2010 [14] Irène Vatton, Vincent Quint, and al (2008), "Amaya User Manual," in NRIA and W3C Published, https://www.w3.org/Amaya/Distribution/manual.pdf [15] Jon M Kleinberg, Authoritative sources in a hyperlinked environment, Journal of the ACM, vol 46, no pp 604–632, 1999 [16] K Foster (2001), "Mathtype with mathML for the WWW," in IEEE Spectrum 38 (12): 64 [17] K M Svore, P H Kanani, and N Khan, How Good is a Span of Terms? Exploiting Proximity to Improve Web Retrieval, Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp 154–161 [18] L Lamport (1994), LaTeX: A document preparation system: User's guide 93 and reference, Addison-Wesley, ISBN 0-201-52983-1 [19] L Wood (1998), "Document Object Model Specification," in W3C Recommnedation [20] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd, Introduction and Motivation A Ranking for Every Page on the Web, World Wide Web Internet Web Inf Syst., vol 54, no 1999–66, pp 1–17, 1998 [21] M Kohlhase (2006), "OMDoc: An Open Markup Format for Mathematical Documents [version 1.2]," in Springer-Verlag GmbH [22] Masakazu Suzuki, Fumikazu Tamari, Ryoji Fukuda, Seiichi Uchida, and Toshihiro Kanahori (2003), "Infty- an integrated OCR system for mathematical documents," in In Proceedings of ACM Symposium on Document Engineering 2003, pp 95–104 [23] Michael Kohlhase, Bogdan A Matican, and Corneliu (2012), "MathWebSearch 0.5 – Scaling," in Intelligent Computer, Conferences on Intelligent Computer, (Bremen, Germany [24] Michael Kohlhase, Bogdan A Matican, Corneliu-Claudiu Prodescu (2012), MathWebSearch 0.5: Scaling an Open Formula Search Engine, Intelligent Computer Mathematics, Volume 7362 of the series Lecture Notes in Computer Science, pp 342-357 [25] Michael McCandless, Erik Hatcher, and Otis Gospodnetić Lucene in Action, Second Edition Manning publications July 2010 ISBN 9781933988177 [26] R Dillet (2012), Wolfram Alpha Makes CrunchBase Data Computable Just In Time For Disrupt SF, TechCrunch Published 94 [27] R Miner (2005), "The importance of mathml to mathematics communication", Notices of the AMS, vol 52(5):532–538 [28] Ralf Schenkel, Andreas Broschart, Seungwon Hwang, Martin Theobald, and Gerhard Weikum, Efficient Text Proximity Search, String Process Inf Retr., pp 287–299, 2007 [29] S E Robertson, The probability ranking in IR, Journal of Documentation, vol 33, no pp 294–304, 1977 [30] G Salton, A Wong, and C S Yang, A vector space model for automatic indexing, Communications of the ACM, vol 18, no 11 pp 613–620, 1975 [31] Scott Deerwester, George W Furnas, Thomas K Landauer, and Richard Harshman, Indexing by Latent Semantic Analysis, J Am Soc Inf Sci Sci., 1990 [32] Sucan, Michael Kohlhase and Ioan (2006), "A Search Engine for Mathematical Formulae," in Proceedings of Artificial Intelligence and Symbolic Computation, AISC’2006 [33] T Berners – Lee, J Hendler, O Lassila (2001), "The Semantic Web," in Scientific American, vol.248, pp 28 – 37 [34] T Berners-Lee (2001), "The Semantic Web," in Published by Scientific American [35] T Kanahori, K Tabata, W Cong, F Tamari and M Suzuki (2000), "OnLine Recognition of Mathematical Expressions Using Automatic Rewriting Method," in Proc ICMI, Lecture Notes in Computer Science, Springer-Verlag, p.p 394–401 [36] Tao Tao and ChengXiang Zhai, An exploration of proximity measures in 95 information retrieval, Proc 30th Annu Int ACM SIGIR Conf Res Dev Inf retrieval, SIGIR 07, pp 295–302, 2007 [37] Toby Segaran, Colin Evans, Jamie Taylor (2009), "Programming The Semantic Web," in O’Reilly – Media [38] Vatton, Vincent Quint and Irène (1997), An introduction to Amaya, Journal World Wide Web Journal - Special issue: scripting languages: automating the Web, Volume Issue 2, pp 39-46, O'Reilly & Associates, Inc Sebastopol, CA, USA [39] Z39.59-1998, ANSI/NISO, AAP Math DTD, Standard for Electronic Manuscript Preparation and MarkUp, Washington, DC: Association of American Publishers [40] Zanibbi, R., and Blostein, D (2011), "Recognition and retrieval of mathematical expressions," in International Journal on Document Analysis and Recognition (IJDAR), pp 1–27