1. Trang chủ
  2. » Luận Văn - Báo Cáo

2020 httt hahoainam ttlv 5001

32 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 784,41 KB

Nội dung

HỌC VIỆN CƠNG NGHỆBƯUCHÍNH VIỄN THƠNG - HÀ HOÀI NAM XÂY DỰNG CHỨC NĂNG TRA CỨU THÔNG TIN VĂN BẢN DỰA TRÊN WEB NGỮ NGHĨA CỦA HỆ THỐNG TIC-OFFICE Chuyên ngành: Hệ Thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ (Theo định hướng ứng dụng) TP HỒ CHÍ MINH - NĂM 2022 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Đỗ Văn Nhơn Phản biện 1: PGS.TS Trần Vĩnh Phước Phản biện 2: PGS.TS Lê Hoàng Thái Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 09 30 ngày 02 tháng 07 năm 2022 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày với phát triển internet liệu ngành công nghệ thông tin ngày gia tăng Nhu cầu quản lý, chia sẻ, tìm kiếm thơng tin ngành đặt đáp ứng phần nhờ cơng cụ tìm kiếm Một số cơng cụ tìm kiếm tiếng Google hay Yahoo cho phép người dùng tìm kiếm liệu có liên quan cách nhập từ khóa tìm tài liệu có chứa từ khóa Với hệ thống tìm kiếm phần lớn dựa từ khóa mức độ phổ biến tài liệu Một danh sách từ khóa dạng biểu diễn sơ lược nội dung, nghĩa tài liệu biểu diễn tập từ hay cụm từ rút trích từ nội dung tài liệu đó, cách biểu diễn mang mức độ thơng tin cịn thấp Do hệ thống tìm kiếm có kết trả lúc thỏa mãn yêu cầu tìm kiếm người sử dụng, độ xác không cao kết trả nhiều mà tỷ lệ số tài liệu hữu ích tổng số tài liệu trả thấp, khơng tìm thấy tài liệu liên quan chúng mơ tả với từ khóa khác đồng nghĩa gần nghĩa với từ khóa mà người dùng tìm kiếm (độ bao phủ khơng cao) gây khơng khó khăn cho người sử dụng việc tìm kiếm xác thơng tin cần tìm kiếm Xuất phát từ nhu cầu thực tế hệ thống quản lý văn Hội nông dân tỉnh Tây Ninh với hướng dẫn tận tình Thầy PGS.TS Đỗ Văn Nhơn, định chọn đề tài: “Xây Dựng Chức Năng Tra Cứu Thông Tin Văn Bản Dựa Trên Web Ngữ Nghĩa Của Hệ Thống Tic-Office” làm luận văn tốt nghiệp Nội dung luận văn trình bày chương, bao gồm: Chương 1: Giới thiệu khảo sát hệ thống tìm kiếm thơng tin, phân tích đánh giá thực trạng, trình bày mục tiêu, giới hạn đề tài, ý nghĩa lý luận thực tiễn, phương pháp nghiên cứu, hướng tiếp cận giải vấn đề nội dung thực đề tài Chương 2: Trình bày sở lý thuyết đề tài liên quan đến vấn đề truy hồi thông tin bao mô tả cấu trúc, phương pháp truy hồi thông tin đánh giá hệ thống truy hồi thơng tin Các lý thuyết tảng mơ hình không gian vector Ontology với phương pháp xây dựng mơ hình liệu Chương 3: Mơ hình giải pháp: Chương đề xuất mơ hình gồm mơ hình ontology mơ tả tri thức lĩnh vực đặc biệt sử dụng keyphrase thành phần để hình thành khái niệm ontology; Các kỹ thuật xử lý tài liệu văn bản; Xây dựng mơ hình VSM tra cứu tài liệu có sử dụng ngữ nghĩa cho câu truy vấn Chương 4: Cài đặt thử nghiệm đánh giá: Thiết kế mơ hình liệu ontology hỗ trợ xử lý câu truy vấn; Xây dựng chức tra cứu nâng cao cho hệ thống quản lý văn Tic-Office Tiến hành thực nghiệm, so sánh đánh giá kết Chương 5: Kết luận hướng phát triển: Tổng kết kết đạt luận văn, hạn chế hướng phát triển đề tài tương lai CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu tổng quan vấn đề nghiên cứu 1.1.1 Nhu cầu thực trạng tìm kiếm Bên cạnh nhu cầu học tập, giải trí nhu cầu tìm kiếm thơng tin nhu cầu thiếu sử dụng Internet, theo [17] thống kê trang web có lượng truy cập nhiều Việt Nam tháng 12 năm 2020, trang tìm kiếm Google với tỷ lượt truy cập tháng, cho thấy nhu cầu tìm kiếm người dùng có sử dụng Internet lớn, nhu cầu tìm kiếm thơng tin xem quan trọng nhu cầu sử dụng internet người dùng 1.1.2 Khảo sát hệ thống tìm kiếm văn Hầu hết hệ thống quản lý liệu yêu cầu quản lý, chia sẻ tìm kiếm thơng tin chức cần phải có hệ thống quản lý Trong chức tra cứu thơng tin quản lý dừng mức độ tìm kiếm theo từ khóa lưu trữ liệu Với phương pháp tìm kiếm theo từ khóa kết tìm nội dung liên quan tới từ khóa khơng tìm nội dung liên quan tìm ẩn nội dung tìm kiếm 1.2 Mục tiêu đề tài Để đáp ứng yêu cầu tra cứu tìm kiếm đầy đủ thơng tin tài liệu hệ thống đề tài cần thực nội dung sau: - Tìm hiểu web ngữ nghĩa, xây dựng mơ hình liệu hỗ trợ biểu diễn câu truy vấn - Tìm hiểu kỹ thuật xử lý ngôn ngữ tự nhiên, kỹ thuật rút trích liệu từ hình anh scan tài liệu - Kỹ thuật so khớp tài liệu câu truy vấn sử dụng mơ hình VSM - Xây dựng chức tra cứu nâng cao cho hệ thống Tic- Office để hỗ trợ người dùng tìm kiếm văn đầy đủ 1.3 Đối tượng phạm vi nghiên cứu Hệ thống quản lý văn Hội Nông Dân, nhu cầu trạng tra cứu Phương pháp xây dựng mơ hình ontology sử dụng công cụ hỗ trợ Phương pháp xử lý tài liệu sử dụng cơng cụ trích xuất nội dung OCR, rút trích thực thể có nghĩa NER Phương pháp so khớp tài liệu câu truy vấn sử dụng VSM Tập tài liệu văn lưu trữ xử lý hệ thống Tic-Office 1.4 Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: Tìm hiểu kỹ thuật OCR, kỹ thuật rút trích NE, nghiên cứu lý thuyết liên quan đến xây dựng hệ thống Web ngữ nghĩa Thu thập, tổng hợp thông tin văn hệ thống Tic-Office Phương pháp khảo sát: Tìm hiểu quy trình lưu trữ, cấu trúc liệu, công tác quản lý chức tra cứu văn hệ thống Tic-Office Phương pháp thực nghiệm: Xây dựng chức tra cứu nâng cao, so sánh với chức tra cứu tại, đánh giá kết đạt hai chức tra cứu 1.5 Ý nghĩa khoa học thực tiễn đề tài Áp dụng cơng nghệ tìm kiếm thơng tin tài liệu Web ngữ nghĩa Phát triển ứng dụng để góp phần bước phổ biến làm phát triển công nghệ Ứng dụng kỹ thuật xử lý ngôn ngữ tự nhiên, kỹ thuật rút trích NE, sử dụng mơ hình VSM có sử dụng thực thể vào lĩnh vực tìm kiếm nội dung văn theo ngữ nghĩa, góp phần phục vụ tốt cơng tác nghiên cứu, tìm hiểu, sử dụng khai thác tài liệu hệ thống Tic-Office Hỗ trợ công tác văn thư, lưu trữ tra cứu tài liệu cách nhanh chóng 1.6 Nội dung thực Nghiên cứu khảo sát trạng hệ thống quản lý văn Tic-Office Phân tích trạng nhu cầu tìm kiếm khả mở rộng nhu cầu tìm kiếm ứng dụng Xây dựng mơ hình ontology hỗ trợ câu truy vấn Sử dụng công cụ hỗ trợ xử lý nội dung tài liệu Xây dựng mơ hình vector biểu diễn câu truy vấn tài liệu Xây dựng chức tra cứu hỗ trợ tìm kiếm theo ngữ nghĩa hệ thống Tic-Office CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Vấn đề truy tìm thơng tin 2.1.1 Cấu trúc hệ thống truy tìm thơng tin Hệ thống truy tìm thơng tin (Information Retrieval, viết tắt IR) hệ thống tìm kiếm thông tin yêu cầu người dùng đặt thực tìm kiếm tất nguồn liệu mà hệ thống lưu trữ, quản lý để trả cho người dùng thông tin với yêu cầu đưa Hệ thống IR tập trung chủ yếu vào văn (document) quản lý, lưu trữ, truy xuất cách để dể dàng truy vấn (query) nhanh chóng, kịp thời 2.1.2 Các phương pháp truy hồi thông tin Ý tưởng phương pháp sử dụng danh sách thuật ngữ tài liệu hay câu truy vấn dạng biểu diễn nội dung câu truy vấn tài liệu Khi thuật ngữ tài liệu chọn phải mã hóa theo mơ hình tốn học để máy tính xử lý 2.1.2.1 Mơ Hình Boolean Mơ hình Boolean tính tốn đại số boolean tập hợp toán học nên cài đặt đơn giản, dễ sử dụng thời gian tìm hiểu nhanh chóng Với mơ hình này, văn trình bày vector nhị phân, vector có hai giá trị {0,1}, 16 3.3.1.3 Quy trình xử lý Tesseract OCR tài liệu hệ thống Tic-Office Hình 3.9: mơ tả quy trình xử lý tài liệu văn Các bước thực hiện: - Bước 1: Xác định tập tài liệu cần rút trích nội dung - Bước 2: Sử dụng công cụ Tesserract-OCR để xử lý hình ảnh văn - Bước 3: Lưu nội dung rút trích vào CSDL 3.3.2 Phương pháp rút trích nội dung thực thể 3.3.2.1 Định nghĩa: Thực thể đối tượng giới thực bao gồm đối tượng nhìn thấy khơng nhìn thấy Thực thể văn thể dạng: Tên riêng, Danh từ cụm danh từ, Đại từ Nhận dạng thực thể có tên (Named Entity Recognition – NER) nhằm rút trích từ, cụm từ văn tên đối tượng đó, điển tên người, tên tổ chức, tên địa danh, thời gian v.v 17 3.3.2.2 Quy trình xử lý rút trích thực thể Các bước thực hiện: - Bước 1: Sử dụng công cụ OCR xử lý văn lưu vào CSDL - Bước 2: Sử dụng công cụ Underthesea để phân tách nội dung thành thực thể - Bước Lưu nội dung phân tách thành tập tin nội dung với tên tập tin theo cấu trúc 3.3.3 Mơ hình Conditional Random Fields (CRFs) Conditional random fields probabilis tic framework (theo xác suất) cho việc gán nhãn phân đoạn liệu Thay sử dụng xác suất độc lập chuỗi nhãn chuỗi quan sát, CRFs sử dụng xác suất có điều kiện P(Y | X) toàn chuỗi nhãn đưa chuỗi chuỗi quan sát X CRF mơ hình đồ thị vô hướng định nghĩa phân bố tuyến tính đơn chuỗi nhãn đưa chuỗi quan sát CRFs thuận lợi mơ hình Markov MEMM làm tốt MEMM HMM số lượng chuỗi gán nhãn lớn [13] 3.4 Xây dựng mơ hình VSM tra cứu tài liệu có sử dụng ngữ nghĩa cho câu truy vấn 3.4.1 Số hóa văn theo mơ hình không gian vector Giả sử tập tài liệu D = {d1 ,d2 ,…,dn } có n văn tập 18 C = {c1 ,c2 ,…,cm } có m từ mục biểu diễn cho tập văn Vậy không gian vector biểu diễn tập mục C có m tập mục tập văn D có n tập văn vector m x n chiều Hàm tính trọng số từ mục wij = t ij x Ti x nj Trong đó: - tij: tổng số lần xuất từ mục văn -Ti : tổng số lần xuất từ toàn văn - nj: hệ số điều chỉnh chiều dài văn tập văn 3.4.2 Ma trận biểu diễn tập văn Để biểu diễn tập văn D có n văn có m từ mục vector hóa thành mơ hình vector A, Vector A gọi vector mục văn Trong số tập văn n biểu diễn thành n cột, số mục m biểu diễn thành m dịng, số tồn văn lúc lớn nhiều so với tập văn xét Công thức so khớp câu truy vấn tài liệu văn  m T cos  j  dj q dj q  i 1  m d i 1 ij d ij qi  m i 1 qi Trong đó: dij từ mục vị trí ij vector A qi : từ mục vị trí i vector truy vấn 19 3.4.3 Kiến trúc mơ hình tìm kiếm tài liệu VSM Hình 3.11: Quy trình xử lý câu truy vấn hệ thống VSM Mô tả bước thực - Bước 1: người dùng nhập vào nội dung câu truy vấn - Bước 2: Xử lý câu truy vấn dựa vào mơ hình liệu ontology - Bước 3: Xử lý rút trích đặc trưng, mục của tập văn - Bước 4: Tạo tập tin đặc trưng mục văn - Bước 4: Tạo tập tin ma trận đặc trưng văn - Bước 5: Lưu tập tin đặc trưng, mục, ma trận đặc trưng vào kho chờ yêu cầu xử lý - Bước 6: Xử lý ma trận nội dung truy vấn ma trận đặc trưng văn - Bước 7: Trả kết tài liệu có xếp hạng cho người dùng 20 CHƯƠNG 4: CÀI ĐẶT, THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 Cài đặt 4.1.1 Xây dựng mơ hình liệu ontology Xây dựng mơ hình Ontology CK_ONTO đơn giản gồm ba thành phần {C, K, RKK} Các bước thực thiết kế mơ hình ontology - Bước 1: Xây dựng Class (Lớp đối tượng) - Bước 2: Xây dựng thuộc tính cho lớp - Bước 3: Xây dựng mối quan hệ thực thể lớp 4.1.2 Module trích xuất nội dung tài liệu sử dụng Tesseract OCR Sử dụng công cụ Tesseract OCR để trích xuất nội dung tài liệu thành nội dung văn sau lưu vào CSDL 4.1.3 Module rút trích đặc trưng tài liệu Sử dụng cơng cụ Underthesea xử lý nội dung trích xuất từ tài liệu xử lý thành từ, cụm từ có nghĩa lưu trữ dạng tập tin tên tập tin theo cấu trúc 21 4.1.4 Module API kết nối đến hệ thống Tic-Office Module thực giao tiếp hệ thống Tic-Office module so khớp tài liệu câu truy vấn, sau trả nội dung thõa mãn điều kiện câu truy vấn có xếp hạng tìm kiếm 4.1.5 Cài đặt phân hệ tìm kiếm văn Phân hệ tìm kiếm văn gồm module chính: - Module xây dựng vector đặc trưng tài liệu - Module xử lý tìm kiếm thơng tin Cài đặt phân hệ tìm kiếm văn VSM Phân hệ tìm kiếm tài liệu văn cài đặt dựa quy trình xử lý tìm kiếm nêu Hình 3.11 - Dữ liệu đầu vào - Chạy module tạo ma trận đặc trưng văn - Chạy module xử lý tìm kiếm văn trả kết cho người dùng - Giao diện chức tra cứu nâng cao giới thiệu Hình 4.6 4.2 Kết thử nghiệm Đề tài tiến hành thử nghiệm các tài liệu khoảng thời gian từ tháng 01/2021 đến tháng 03/2021 bao gồm 672 tập tin tài liệu văn Ứng với tập tài liệu thực khảo sát 20 câu truy vấn có chọn lọc tính tốn độ đo Recall, Precision tương ứng, với ngưỡng tương ứng 0.03 Hệ thống 22 tìm hầu hết tài liệu có liên quan đến nội dung cần tìm xếp theo thứ tự độ liên quan giảm dần xác so với thứ tự độ liên quan hệ thống cũ Bảng 4.1: Thống kê kết tìm kiếm chức tra cứu Query S T STT U P R (S/T) (S/U) công nghệ thông tin 43 55 59 78% 73% nông sản 42 61 61 69% 69% quy hoạch giao thông dự toán ngân sách 60 78 73 80 82 77% 81 91% 73% 90% hội nhập 44 50 55 88% 80% chi phí khơng khí nhiễm 55 69 35 41 73 80% 51 85% 75% 69% 60 80% 78% giới thiệu du lịch chuyên 47 59 nghiệp giải khiếu nại 50 55 59 91% 85% 10 chuyên canh hè thu 12 13 13 92% 92% 11 38 44 46 86% 83% 28 32 36 88% 78% 13 14 hàm lượng khoa học công nghệ cao đài phát truyền hình trung tâm thương mại mật độ chăn nuôi 50 59 40 45 61 85% 53 89% 82% 75% 15 tăng trưởng kinh tế 41 48 61 85% 67% 16 17 sở tài ngân sách 78 88 53 58 91 89% 62 91% 86% 85% 18 phát triển nông thôn 61 66 66 92% 92% 12 23 19 an tồn giao thơng 69 77 77 90% 90% 20 21 kinh nghiệm sản xuất khai thác khoáng sản 60 68 33 38 72 88% 41 87% 83% 80% 22 tình hình kinh tế xã hội 42 47 49 89% 86% Kết thực nghiệm với độ đo Precision trung bình hệ thống 85.9% độ đo Recall trung bình 80.5% tập thử nghiệm so với hệ thống cũ 4.3 Đánh giá Với mơ hình tìm kiếm chun biệt có tính tập trung cao vào nội dung đặc trưng tài liệu, kết trả có độ xác cao tập liệu thử nghiệm, đánh giá thoả mãn tốt nhu cầu khai thác thông tin người sử dụng Từ kết thực tế cho thấy, việc sử dụng mơ hình ontology với kỹ thuật xử lý liên quan giúp cho hệ thống tìm kiếm với độ xác độ phủ trung bình cao so với hệ thống cũ liệu thử nghiệm Ngoài kết thực nghiệm trình bày Việc triển khai thử nghiệm mơ hình giải pháp đem lại thành cơng đáng khích lệ Hệ thống cho thấy tính khả thi thực nghiệm giải pháp kết hợp mơ hình ontology,VSM kỹ thuật xử lý khác 24 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt đề tài Với mục tiêu đề ban đầu, luận văn thực hoàn chỉnh nội dung nghiên cứu Nhóm nghiên cứu đề xuất mơ hình ontology biễu diễn nội dung câu truy vấn với kỹ thuật xử lý ngữ nghĩa để cải thiện giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa cho hệ thống Tic-Office Mơ hình ontology giúp hệ thống có khả mở rộng việc xử lý câu truy vấn xác định độ tương đồng ngữ nghĩa keyphrase cách tự động Từ đó, cải thiện độ xác độ bao phủ tập kết trả trình tìm kiếm tài liệu theo ngữ nghĩa Luận văn phân tích đánh giá phương pháp tiếp cận việc tổ chức lưu trữ xử lý ngữ nghĩa tài liệu biết, đặc biệt giải pháp “Kết hợp sử dụng mơ hình VSM với mơ hình ontology biễu diễn nội dung truy vấn” Từ đó, mặt lý thuyết, luận văn đóng góp việc phát triển mơ hình biểu diễn tri thức lĩnh vực kỹ thuật xử lý liên quan tới ngữ nghĩa Mở rộng kỹ thuật xử lý câu truy vấn, tận dụng thông tin mô tả cấu trúc khái niệm định nghĩa 25 ontology, tiến hành phân tích nhận dạng mẫu câu truy vấn để đưa câu truy vấn dạng cụ thể Nếu khơng có kết trả ta tiến hành xử lý cách rút trích tự động đặc trưng diễn đạt nội dung muốn tìm kiếm, biểu diễn câu truy vấn thành mơ hình vector để thuận tiện q trình so khớp nội dung Bên cạnh việc nêu lên ưu lợi ích việc nghiên cứu, phát triển mơ hình với đặc trưng dựa ngữ nghĩa, cài đặt xây dựng ứng dụng thử nghiệm từ cải tiến Đây hệ thống quản lý văn Tic-Office Hội nông dân tỉnh Tây Ninh, với yêu cầu sử dụng bao gồm tác vụ tổ chức lưu trữ, quản lý tìm kiếm, đặc biệt chức tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu Từ sở để đánh giá tính hiệu việc cải tiến so với chức tra cứu có hệ thống Kết đạt hệ thống cho kết tìm kiếm có độ xác trung bình 85.9% độ phủ trung bình 80.5% so với hệ thống cũ tập liệu 672 tài liệu phân bố thời gian thử nghiệm tháng Luận văn đạt mục tiêu xây dựng chức tra cứu theo ngữ nghĩa hệ thông văn Tic-Office để hỗ trợ người dùng tìm kiếm văn liên quan với nội dung truy vấn xây dựng mơ hình liệu ontology từ 26 đồng nghĩa, từ viết tắt hỗ trợ cho câu truy vấn người dùng Giúp tìm nội dung liên quan ngữ nghĩa tài liệu Luận văn áp dụng kỹ thuật rút trích liệu đặc trưng từ hình ảnh góp phần tăng thêm nội dung văn quản lý, đề tài cịn áp dụng mơ hình so khớp văn sử dụng Vector space model kết hợp mơ hình liệu hỗ trợ cho câu truy vấn làm tăng kết xác câu truy vấn 5.2 Những hạn chế đề tài Các kỹ thuật đề xuất luận văn OCR, rút trích đặc trưng cịn nhiều hạn chế văn qt khơng xác bị lệch, mờ, thiếu chữ dẫn đến tình trạng rút trích cịn nhiều khó khăn việc xử lý Cơng cụ rút trích đặc trưng văn chưa phân loại số đối tượng danh từ riêng, từ viết tắt vào nhóm đối tượng dẫn đến bị thiếu sót xử lý liệu Quá trình xử lý câu truy vấn mở rộng, nhiên đơn giản, chưa tận dụng đầy đủ thông tin cấu trúc lớp Nếu thông tin lớp khai thác đầy đủ hệ thống có khả xử lý cấu truy vấn phức tạp dạng câu hỏi hay câu diễn đạt mệnh đề Mặc dù đơn giản sở cho việc mở rộng xử lý câu truy vấn so với việc tìm theo từ khóa hệ thống cũ Đề tài dừng mức xây dựng mơ hình liệu hỗ trợ câu truy vấn, chưa hỗ trợ biễu diễn cho nội dung văn thơng tin so khớp 27 văn câu truy vấn chưa đầy đủ so với nội dung thực tế văn 5.3 Hướng phát triển Tiếp tục phát triển, hồn thiện mơ hình biểu diễn tri thức, biểu diễn ngữ nghĩa cho tài liệu văn bản, mơ hình xử lý ngơn ngữ tự nhiên để rút trích nội dung từ văn xác Nghiên cứu thuật tốn nhằm hỗ trợ tìm kiếm nhanh chóng hơn, dễ dàng hơn, cho kết xác với nhu cầu tìm kiếm người dùng Nghiên cứu công cụ hỗ trợ tự động, tự động hóa cao tốt khâu xử lý chẳng hạn mơ hình giải pháp rút trích đặc trưng từ tài liệu kết hợp với mơ hình liệu tài liệu, kỹ thuật xác suất thống kê, máy học Nghiên cứu giải pháp lĩnh vực tìm kiếm ngữ nghĩa để tìm khả tìm kiếm nhiều lĩnh vực tri thức khác Đưa đến giải giải pháp xây dựng hệ thống tra cứu xử lý tổng hợp tồn quy trình quản lý văn 28 TÀI LIỆU THAM KHẢO Tài liệu tiếng anh [1] Bilal Ahmad Abu-Salih, “Applying Vector Space Model (VSM) Techniques in information Retrieval for Arabic Language” [2] Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze, “An Introduction to Information Retrieval”, Cambridge University Press Cambridge, England, 2009 [3] Carola Eschenbach, Michael Gruninger (FOIS 2008), “Formal Ontology in Information Systems” [4] Faisal Shafait, Ray Smith (2010), “Table detection in heterogeneous documents” [5] Mindy Bokser,(1992) “Omnidocument Technologies” [6] Nordianah Ab Samat, Masrah Azrifah Azmi Murad, Muhamad Taufik Abdullah, Rodziah Atan (2008), “Term Weighting Schemes Experiment Based on SVD for Malay Text Retrieval”, Faculty of Computer Science and Informatio n Technology University Putra Malaysia, IJCSNS Internatio na l Journal of Computer Science and Network Security, VOL.8 No.10, October 2008 [7] Rajendra Prasath and Sudeshna Sarkar, “Cross-Language Information Retrieval with Incorrect Query Translations” 29 [8] Ray Smith, Daria Antonova, Dar-Shyang Lee, (2009), “Adapting the Tesseract Open Source OCR Engine for Multilingual OCR” [9] Ray Smith, (2009) ,“Hybrid Page Layout Analysis via TabStop Detection” [10] Simone Marinai, (2008 ),“Introduction to Document Analysis and Recognition” Tài liệu tiếng việt [11] Phạm Tuấn Dạt, Nguyễn Văn Thủy (2016), Ứng dụng thư viện lập trình mã nguồn mở xây dựng chương trình nhận dạng văn chữ việt, anh từ ảnh số [12] Nguyễn Đình Ngọc (2015), “Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở Tesseract ocr” [13] Lê Thúy Ngọc, (2008), “Xây dựng hệ thống tìm kiếm thơng tin theo hướng tiếp cận ngữ nghĩa”, Trường đại học Khoa Học Tự Nhiên TP.HCM [14] Huỳnh Thị Thanh Thương (2012), “Nghiên cứu mơ hình tổ chức kỹ thuật tìm kiếm có ngữ nghĩa kho tài nguyên học tập lĩnh vực CNTT”, Trường đại học Khoa Học Tự Nhiên TP.HCM Tài liệu website [15] https://blog.duyet.net/2019/08/ir-vector-space- model.html 30 [16] https://butchiso.com/2013/10/tim-hieu-ve- mo-hinh-kho nggian-vector.html [17] Chuyển đổi số Việt Nam thống kê ấn tượng đầu năm 2021 | Visual Story - Báo Lao Động (laodong.vn) [18] HỮU THỂ HỌC / BẢN THỂ HỌC (Ontology) - Triết học (triethoc.edu.vn) [19] DCMI: Ontology (dublincore.org) [20] Deep learning ứng dụng nghiệp vụ nhận dạng văn - An Tồn Thơng Tin (antoanthongtin.vn) [21] Conditional Random Fields (trituenhantao.io) [22] Lp space - Wikipedia [23] Precision and recall - Wikipedia - Trí tuệ nhân tạo

Ngày đăng: 07/08/2023, 07:44