Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 116 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
116
Dung lượng
10,94 MB
Nội dung
Tai Lieu Chat Luong BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ VÕ THANH VƯƠNG ĐẠO PHƯƠNG PHÁP TRẢ LỜI CÂU HỎI DỰA VÀO ĐỒ THỊ TRI THỨC THUỘC MIỀN DỮ LIỆU DU LỊCH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ VÕ THANH VƯƠNG ĐẠO PHƯƠNG PHÁP TRẢ LỜI CÂU HỎI DỰA VÀO ĐỒ THỊ TRI THỨC THUỘC MIỀN DỮ LIỆU DU LỊCH Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giảng viên hướng dẫn: TS TRƯƠNG HỒNG VINH TP HỒ CHÍ MINH, NĂM 2022 TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH KHOA ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc GIẤY XÁC NHẬN Tôi tên là: VÕ THANH VƯƠNG ĐẠO Ngày sinh: 05/10/1967 Nơi sinh: tỉnh Bến Tre Chuyên ngành: Khoa học máy tính Mã học viên: 1784801010023 Tơi đồng ý cung cấp tồn văn thơng tin luận văn tốt nghiệp hợp lệ quyền cho Thư viện trường đại học Mở Thành phố Hồ Chí Minh Thư viện trường đại học Mở Thành phố Hồ Chí Minh kết nối tồn văn thơng tin luận văn tốt nghiệp vào hệ thống thông tin khoa học Sở Khoa học Cơng nghệ Thành phố Hồ Chí Minh Ký tên Võ Thanh Vương Đạo LỜI CAM ĐOAN Tôi tên Võ Thanh Vương Đạo, học viên cao học lớp MCOM017A niên khố 2017 - 2019 Tơi xin cam đoan luận văn “Phương pháp trả lời câu hỏi dựa vào Đồ thị tri thức thuộc miền liệu du lịch” nghiên cứu tơi hướng dẫn thầy tiến sĩ Trương Hoàng Vinh Những kết đạt đóng góp từ luận văn kết trình tìm hiểu, nghiên cứu thực nghiệm thân tơi Bên cạnh đó, luận văn sử dụng số tài liệu, số cơng trình nghiên cứu trước Tất tài liệu cơng trình nghiên cứu tơi trích dẫn ghi nguồn trích dẫn rõ ràng, theo quy định Kết luận văn chưa nộp để nhận cấp trường đại học sở đào tạo khác Tơi xin cam đoan chịu hồn tồn trách nhiệm nội dung Thành phố Hồ Chí Minh, năm 2021 Võ Thanh Vương Đạo i LỜI CẢM ƠN Trong thời gian học tập, nghiên cứu để hoàn thiện luận văn, nhận hướng dẫn, giúp đỡ tận tình q thầy khoa CNTT, khoa Sau Đại Học trường Đại học Mở Tp.HCM Tôi xin gởi lời cảm ơn chân thành đến tiến sĩ Trương Hồng Vinh Thầy nhiệt tình hỗ trợ, hướng dẫn suốt thời gian nghiên cứu thực luận văn Bên cạnh đó, thầy khơi gợi, truyền đạt tinh thần nghiên cứu khoa học công bố khoa học thông qua báo hội nghị quốc tế Tôi may mắn cộng tác, làm việc chung với thầy Một lần nữa, xin gởi đến thầy lịng biết ơn sâu sắc Bên cạnh đó, xin cảm ơn thầy giảng dạy số mơn q trình học tập trường Ngồi việc truyền đạt kiến thức, thầy cịn hướng dẫn, đưa lời khuyên, kinh nghiệm cho việc chọn đề tài nghiên cứu viết đề tài luận văn Cuối cùng, xin gởi lời cảm ơn đến người thân yêu gia đình, số bạn bè thân thiết Những người bên cạnh, hỗ trợ, động viên tạo điều kiện thuận lợi để tơi hồn thành luận văn, chương trình học thạc sĩ trường ii TĨM TẮT Cơ sở liệu đồ thị biểu diễn mối liên hệ phức tạp thông tin giới thực, hỗ trợ lưu trữ, truy vấn, xử lý thông tin cách hiệu mà không cần phải thông qua lệnh kết nối JOIN tốn sở liệu quan hệ Thông thường, nhu cầu truy xuất thông tin sở liệu giới hạn đồ thị con, từ tập hợp điểm (nút) ban đầu khám phá liệu điểm xung quanh thông qua cung (quan hệ) với chi phí xử lý thấp dù tổng kích thước toàn liệu đồ thị lớn Với ưu điểm sở liệu đồ thị, có nghiên cứu mơ hình hóa tri thức với hệ thống liệu xây dựng dựa sở liệu đồ thị, gọi đồ thị tri thức (Knowledge Graph) Đồ thị tri thức biểu diễn liệu liên quan đến tri thức người, đặt câu hỏi phức tạp liệu tri thức thu thập nhận câu trả lời tốt từ kho liệu theo thời gian thực Đồ thị tri thức ứng dụng nhiều lĩnh vực ngành khoa học máy tính có xử lý ngơn ngữ tự nhiên Đã có tiến lớn công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) giúp máy tính “hiểu” câu hỏi/lệnh người để tìm nội dung kết trả lời phù hợp Người ta thường gọi hệ thống ứng dụng chatbot hay hệ thống trò chuyện Một ứng dụng máy tính đóng vai trị thay người để trò chuyện gọi Agent (tác nhân/người đại diện) Agent cần cung cấp câu trả lời ngắn gọn, trực iii tiếp cho truy vấn người dùng dựa kiến thức rút từ nguồn liệu khác tài liệu từ Web, liệu chuẩn bị trước liệu bán hàng, tiếp thị Agent hồn thành nhiệm vụ người dùng (task completion) gọi xe, đặt chỗ nhà hàng, lập lịch họp trò chuyện (social chat) liền mạch người thật (được đo kiểm tra Turing) cung cấp đề nghị phù hợp [1] Những năm gần chứng kiến nhu cầu ngày tăng Chatbot đàm thoại trả lời câu hỏi (Question Answering- QA) cho phép người dùng truy vấn từ đồ thị tri thức (Knowledge Base - KB) quy mô lớn từ tập tài liệu ngôn ngữ tự nhiên [1] Trong tài liệu xin gọi tắt toán QA-KB (Question Answering - Knowledge Base) Luận văn tập trung nghiên cứu phương pháp trả lời câu hỏi (tiếng Việt) dựa KB Thơng qua phân tích, trích xuất thực thể từ câu hỏi, sau sử dụng thuật tốn tìm kiếm, phân tích liệu đồ thị KB để tìm câu trả lời (tốt có thể) Tận dụng ưu điểm KB để giải tốn QA mà khơng phải tốn q nhiều chi phí cho cơng việc xử lý ngơn ngữ tự nhiên: chuyển đổi câu hỏi ngôn ngữ tự nhiên thành biểu diễn ý nghĩa (meaning representations – MR) mà chương trình máy tính “hiểu” Luận văn gồm có chương: • Chương Tổng quan Giới thiệu luận văn – Giới thiệu cơng trình nghiên cứu liên quan – Trình bày lý chọn đề tài nghiên cứu Các đề xuất cho nghiên cứu luận văn – Phạm vi nghiên cứu, nội dung, phương pháp nghiên cứu – Đóng góp khoa học, thực tiễn • Chương Cơ sở lý thuyết iv – Giới thiệu đồ thị, số thuật toán đồ thị – Giới thiệu đồ thị tri thức – Giới thiệu xử lý ngôn ngữ tự nhiên (NLP) – Một số tác vụ xử lý ngôn ngữ tự nhiên – Nhận dạng thực thể đặt tên (NER) – Transformers and Transfer Learning (học chuyển giao) – Kỹ thuật Bidirectional Encoder Representations from Transformers (BERT) • Chương Phương pháp trả lời câu hỏi du lịch Bến Tre – Xây dựng câu hỏi thường gặp du lịch Bến Tre – Tách từ nhận dạng thực thể đặt tên từ câu hỏi đầu vào – Tạo dựng sở liệu đồ thị tri thức để thử nghiệm phương pháp – Phân loại dạng câu hỏi thường gặp du lịch Bến Tre phương pháp tìm câu trả lời • Chương Kết thử nghiệm phương pháp đề xuất – Giới thiệu đồ thị tri thức sử dụng để thử nghiệm – Giới thiệu câu hỏi sử dụng thử nghiệm cài đặt thuật toán trả lời câu hỏi – Thực tách từ nhận dạng thực thể – Thử nghiệm Modul trả lời câu hỏi kết sau thử nghiệm – Kết luận, hướng phát triển Luận văn NGƯỜI HƯỚNG DẪN Thành phố Hồ Chí Minh, năm 2021 HỌC VIÊN TS.Trương Hoàng Vinh Võ Thanh Vương Đạo v ABSTRACT Graph databases can represent complex relationships of information in the real world, supporting efficient storage, querying, and processing of information without having to go through commands JOIN connections are quite expensive for relational databases Usually, the information retrieval needs in the database are limited to a subgraph, from one or a set of points (nodes) that can initially explore the data of surrounding points through arcs (relation) with low processing cost even though the total size of the entire graph data is very large With the advantages of graph databases, there have been studies on knowledge modeling with data systems built based on graph databases, which are called Knowledge graphs Knowledge graphs represent data related to human knowledge, can ask complex questions about collected knowledge data and get good answers from this data warehouse over real time Knowledge graphs can be applied in many areas of computer science, including Natural language processing There have been great advances in Natural Language Processing (NLP) technology to help computers "understand" human questions/commands to find the right answers It is common to call such a system a chatbot application or a chat system A computer application that acts as a substitute for humans to chat is called an Agent Agents need to provide concise, direct answers to user queries based on knowledge drawn from disparate data sources such as documents from the Web, or pre-prepared data such as sales, marketing data sets Agent can vi