1. Trang chủ
  2. » Tất cả

Hệ thống tìm kiếm tri thức thông minh trên miền wikihow

84 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ LÊ ĐỖ TÂN HỆ THỐNG TÌM KIẾM TRI THỨC THƠNG MINH TRÊN MIỀN WIKIHOW LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI - 2021 i ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ LÊ ĐỖ TÂN HỆ THỐNG TÌM KIẾM TRI THỨC THƠNG MINH TRÊN MIỀN WIKIHOW Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Phạm Bảo Sơn CÁN BỘ ĐỒNG HƯỚNG DẪN: TS Nguyễn Bá Đạt HÀ NỘI - 2021 ii LỜI CAM ĐOAN “Tôi xin cam đoan kết nghiên cứu, thực nghiệm trình bày luận văn tơi thực hướng dẫn PGS.TS Phạm Bảo Sơn Tiến sĩ Nguyễn Bá Đạt, trước chưa sử dụng để làm luận văn thạc sĩ cho tổ chức giáo dục, hay trường đại học khác.” iii LỜI CẢM ƠN Trước tiên tơi xin bày tỏ cảm kích đặc biệt tới thầy giáo - PGS TS Phạm Bảo Sơn, thầy giáo - Tiến sĩ Nguyễn Bá Đạt hướng dẫn tận tình tơi gặp phải rắc rối có câu hỏi vấn đề nghiên cứu Thầy cho phép tự bày tỏ quan điểm đồng thời đưa nhận xét, góp ý, dẫn dắt hướng suốt thời gian nghiên cứu, thực đề tài luận văn thạc sĩ Tôi xin cảm ơn thầy cô khoa Công nghệ thông tin – Trường Đại học Công Nghệ - Đại học quốc gia Hà Nội truyền đạt cho kiến thức chuyên sâu chuyên ngành suốt thời gian học tập để tơi có tảng kiến thức hỗ trợ lớn cho trình làm luận văn thạc sĩ Sau tơi xin tỏ lịng biết ơn đến cha mẹ, người thân bạn bè bên cạnh để ủng hộ, động viên tơi sống để tơi hoàn thành tốt luận văn thạc sĩ Xin chân thành cảm ơn! iv LỜI MỞ ĐẦU Trong thời đại công nghệ số, Internet phổ biến khắp giới, nhu cầu tìm kiếm thơng tin vơ lớn từ tất nhóm thành phần xã hội Trong tỉ lệ tìm kiếm thơng tin cách giải vấn đề chiếm tỉ trọng đáng kể Chúng ta gọi câu tìm kiếm để giải vấn đề “How-to query” Một số câu truy vấn điển hình như:  “cách nấu sườn xào chua ngọt”,  “cách cài đặt windows 10”,  “cách gỡ bỏ ứng dụng không cần thiết điện thoại”,  v.v Giải pháp phổ biến xem tốt sử dụng cơng cụ tìm kiếm Google Tuy nhiên, có nhiều vấn đề cịn tồn như:  Trong Google hoạt động tốt tương đối xác với ngơn ngữ phổ biến Tiếng Anh Mức độ hiệu Google với dạng How-to query hạn chế với ngơn ngữ phổ biến hơn, có tiếng Việt  Kết tìm kiếm Google đề xuất phương pháp thay liệt kê giải pháp khác để người dùng chọn kết phù hợp  Bố cục trình bày phần nhỏ ô đề xuất nên không thân thiện với người dùng v Hình 1: Kết tìm kiếm Google cho "How-to query" Trong khuôn khổ luận văn này, đề xuất giải pháp để giải vấn đề Cụ thể, sẽ: - Cung cấp cơng cụ tìm kiếm cho câu hỏi “How-to query” tốt cho tiếng Việt - Các kết công cụ biểu diễn nhiều phương pháp để giải vấn đề (nếu có) để người dùng lựa chọn giải pháp phù hợp - Biểu diễn kết thân thiện với người dùng vi MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv LỜI MỞ ĐẦU v MỤC LỤC vii Danh sách bảng x Danh sách hình vẽ xi Chương Giới thiệu Vấn đề Phạm vi toán mục tiêu nghiên cứu Đóng góp luận văn .6 Cấu trúc luận văn Chương Kiến thức tảng Cơng cụ tìm kiếm 2.1.1 Cơng cụ tìm kiếm trực tuyến 2.1.1.1 Tổng quan .8 2.1.1.2 Cấu trúc tổng quan cơng cụ tìm kiếm trực tuyến 10 2.1.2 Cơng cụ tìm kiếm mã nguồn mở 11 2.1.2.1 Lucene 11 2.1.2.2 Elasticsearch .13 2.1.3 Các dạng câu trả lời nhanh Google 19 Nền tảng xử lý ngôn ngữ tự nhiên 21 2.2.1 Tìm kiếm ngữ nghĩa (Semantic search) 21 2.2.2 TF-IDF 22 vi 2.2.2.1 TF – term frequency 22 2.2.2.2 IDF – inverse document frequency .22 2.2.2.3 Giá trị TF-IDF .23 2.2.3 Phân tách từ (word segmentation) 23 2.2.4 Gán nhãn từ loại (Part of speech tagging – POSTag) 25 Công cụ hỗ trợ 25 2.3.1 VnCoreNLP 25 2.3.2 Word2vec .26 2.3.3 Elasticsearch 27 Chương 28 Hệ thống tìm kiếm tri thức miền Wikihow 28 Tính tốn độ tương đồng hai câu văn .28 Tập liệu 30 Xây dựng hệ thống 33 3.3.1 Thu thập liệu từ wikiHow index liệu vào Elasticsearch 33 3.3.1.1 Thu thập liệu từ trang web wikiHow .33 3.3.1.2 Index liệu vào công cụ ElasticSearch 38 3.3.2 Tìm kiếm viết phù hợp với truy vấn 40 3.3.3 Xây dựng website tìm kiếm tri thức miền wikiHow 41 3.3.3.1 Xây dựng sở liệu với MySQL 41 3.3.3.2 ElasticSearch server 41 3.3.3.3 Backend server sử dụng Play framework 41 3.3.3.4 Xây dựng giao diện người dùng với AngularJs 43 Chương 47 Thực nghiệm kết luận .47 vi Tập liệu thực nghiệm 47 Tính tốn thời gian tìm kiếm 47 Tiến hành thực nghiệm .49 Đánh giá người dùng 51 Những cải tiến tương lai 53 Tài liệu tham khảo 55 Phụ lục 57 ix Danh sách bảng Bảng 1: Thị phần sử dụng cơng cụ tìm kiếm tồn cầu năm 2019 Bảng 2: Bảng đối chiếu số khái niệm Elasticsearch MySQL 14 Bảng 3: Phân tách từ ngôn ngữ khác .23 Bảng 4: Ma trận số tương đồng từ theo Word2vec 30 Bảng 5: Các từ tương đồng với "xinh đẹp" 39 Bảng 6: Cấu hình triển khai hệ thống tìm kiếm 48 x ...ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ LÊ ĐỖ TÂN HỆ THỐNG TÌM KIẾM TRI THỨC THƠNG MINH TRÊN MIỀN WIKIHOW Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính... 28 Hệ thống tìm kiếm tri thức miền Wikihow 28 Tính toán độ tương đồng hai câu văn .28 Tập liệu 30 Xây dựng hệ thống 33 3.3.1 Thu thập liệu từ wikiHow. .. tơi giới thiệu thêm kiến thức tảng chương Chương mơ tả ? ?Hệ thống tìm kiếm tri thức miền wikiHow? ??, đề xuất phương pháp tính độ tương đồng hai câu văn cách xây dựng hệ thống Cuối cùng, chương số

Ngày đăng: 26/03/2023, 22:30

w