Mục tiêu nghiên cứu của luận văn Trích rút thông tin du lịch bằng phương pháp học sâu là làm sao ứng dụng được các mô hình học sâu vào nhiệm vụ trích rút thông tin từ văn bản du lịch, sau đó đánh giá được độ chính xác của phương pháp này qua các độ đo học máy. Đồng thời xây dựng được một công cụ dựa trên mô hình này nhằm trích rút được thông tin từ văn bản thực tế.
ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN CAO CƯỜNG TRÍCH RÚT THƠNG TIN DU LỊCH BẰNG PHƯƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƯƠNG - 2019 ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN CAO CƯỜNG TRÍCH RÚT THƠNG TIN DU LỊCH BẰNG PHƯƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC TS BÙI THANH HÙNG BÌNH DƯƠNG - 2019 LỜI CAM ĐOAN Tôi Nguyễn Cao Cường, học viên lớp CH16HT01, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một Tơi cam đoan luận văn “Trích rút thơng tin du lịch phương pháp học sâu” tự vận dụng kiến thức trang bị, tự tìm tịi, thực nghiệm phát triển theo hướng dẫn TS Bùi Thanh Hùng Luận văn chép từ tài liệu, công trình nghiên cứu người khác mà khơng ghi trích dẫn cụ thể Tơi hồn tồn chịu trách nhiệm cho lời cam đoan Bình Dương, ngày 30 tháng năm 2019 Tác giả Nguyễn Cao Cường LỜI CẢM ƠN Tôi cảm ơn tất bạn học lớp CH16HT Tơi bạn trải qua khó khăn, thử thách học tập, vượt qua tiểu luận ngợp thở, hội thảo khoa học liệu trướng lớn, thảo luận báo cáo nhóm Tơi cảm ơn giảng viên trường Đại học Thủ Dầu Một thầy trường bạn, nhiệt tình truyền thụ trí thức, giúp tơi bạn có tảng kiến thức vững vàng tầm nhìn tốt tương lai nghành học Và hết, cảm ơn thầy hướng dẫn, TS Bùi Thanh Hùng, bạn chung nhóm Thầy giúp đỡ nhiều trình thực luận văn, từ việc bổ sung thêm kiến thức Khoa học liệu, đến thực nghiệm đòi hỏi kỹ thuật lập trình cao Thầy hết lịng hướng dẫn nhóm hồn thành luận văn Cùng với bạn chung nhóm, tơi có nhiều trải nghiệm thú vị làm việc chung, bạn gắn bó giúp đỡ nhiều Sau cùng, tơi cảm ơn gia đình, đồng nghiệp bạn bè, động viên, chia sẻ công việc giúp tơi có nhiều thời gian hồn thành luận văn Cảm ơn cảm ơn nhiều! MỤC LỤC MỤC LỤC TÓM TẮT LUẬN VĂN DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ, ĐỒ THỊ CHƯƠNG TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 LÍ DO CHỌN ĐỀ TÀI 1.2 MỤC TIÊU NGHIÊN CỨU .11 1.3 ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU .11 1.4 PHƯƠNG PHÁP NGHIÊN CỨU 13 1.5 BỐ CỤC LUẬN VĂN .13 CHƯƠNG CƠ SỞ LÝ THUYẾT 15 2.1 XỬ LÝ NGÔN NGỮ 15 2.1.1 Tách từ (Tokenizer) .15 2.1.2 Xác định loại từ câu (Part-Of-Speech tagging) 15 2.1.3 Xác định cụm từ (Chunking) 17 2.1.4 Phân tích cú pháp (Parsing) .18 2.2 CÁC PHƯƠNG PHÁP BIỂU DIỄN TỪ DƯỚI DẠNG VÉC TƠ 18 2.3.1 Từ nhúng tần xuất (Frequency-based embedding) 19 2.3.2 Từ nhúng dự đoán (Prediction-based embedding) 23 2.3 HỌC SÂU 26 2.3.1 Mạng nơ-ron nhân tạo (ANN) 26 2.3.2 Mạng nơ-ron tích chập CNN (Convolutional Neutral Network) 34 2.3.3 Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) 37 2.3.4 Mạng nơ-ron ngắn dài LSTM (Long-short term memory) .39 2.3.5 Mạng nơ-ron dài ngắn song song (Bi-LSTM) 41 2.3.6 Mạng lai CNN –Bi LSTM 43 2.4 TRÍCH XUẤT THƠNG TIN (INFORMATION EXTRACTION – IE) 43 2.4.1 Tổng quan tốn Trích xuất thông tin 43 2.4.2 Hướng tiếp cận nghiên cứu .45 2.4.3 Các nghiên cứu gần 54 2.4.4 Đề xuất hướng nghiên cứu 55 CHƯƠNG MƠ HÌNH ĐỀ XUẤT 57 3.1 TỔNG QUAN VỀ MƠ HÌNH ĐỀ XUẤT .57 3.2 CÁC ĐẶC TRƯNG CỦA MƠ HÌNH ĐỀ XUẤT 60 3.2.1 Từ nhúng – Word embeddings 60 3.2.2 Các đặc trưng cú pháp .61 3.3 TRÍCH XUẤT THÔNG TIN DU LỊCH .62 3.3.1 Mô hình học sâu CNN-BLSTM 64 3.3.2 Trích xuất thông tin 65 CHƯƠNG THỰC NGHIỆM 67 4.1 DỮ LIỆU .67 4.2 PHƯƠNG PHÁP ĐÁNH GIÁ MƠ HÌNH .69 4.3 THỰC NGHIỆM VÀ ĐÁNH GIÁ HIỆU SUẤT .70 4.3.1 Môi trường thực nghiệm .70 4.3.2 Kế đạt 70 4.4 XÂY DỰNG ỨNG DỤNG WEB TRỰC QUAN HÓA KẾT QUẢ .71 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 73 5.1 KẾT QUẢ ĐẠT ĐƯỢC 73 5.2 HƯỚNG PHÁT TRIỂN 73 TÀI LIỆU THAM KHẢO 74 TÓM TẮT LUẬN VĂN Xã hội ngày phát triển, đời sống ngày nâng cao nên nhu cầu du lịch người ngày tăng Với công nghệ 4.0, thông tin chia sẻ, lưu trữ khai thác liên tục Nhu cầu sản phẩm du lịch ngày nhiều, thông tin du lịch tràn ngập trang web, mạng xã hội Việc khai thác thông tin liên quan đến du lịch nhu cầu, tăng lên theo thời gian Trích xuất thơng tin từ tài liệu du lịch đem lại nhiều lợi ích cho ngành du lịch dịch vụ liên quan đến du lịch Một hệ thống tự động trích xuất thơng tin rút trích thơng tin phi cấu trúc thành có cấu trúc Từ thơng tin có cấu trúc đó, chun gia du lịch, nhà kinh tế thống kê, phân tích, tổng hợp đưa dự đốn, dự báo Làm để khai thác thơng tin du lịch thông tin chia sẻ cộng đồng đa số văn bản, hình ảnh, video Trích xuất thơng tin (information extraction) nhiệm vụ thuộc nghành xử lý ngôn ngữ tự nhiên NLP (natural language processing) làm việc Trích xuất thông tin từ văn gặt hái nhiều kết cao Với phát triển mạnh véc-tơ hóa từ ngữ, thuật tốn xử lý ngơn ngữ tự nhiên góp phần cho nhiệm vụ trích xuất thơng tin có nhiều thành cơng Gần đây, công nghệ phần cứng thúc đẩy mạnh cho thuật toán học sâu, học nhiều tầng (deep learning) khả thi đem lại kết cao Bên cạnh xử lý nhận dạng giọng nói, khn mặt, vật thể, thuật tốn học sâu cịn cho kết qủa cao xử lý văn Nắm bắt xu hướng này, luận văn nghiên cứu, áp dụng mơ hình học sâu vào xử lý trích rút thơng tin từ tài liệu du lịch, cụ thể tài liệu văn Bài tốn trích rút thơng tin có nhiều tác vụ trích rút thực thể, trích rút quan hệ, giải đồng tham chiếu Do thời gian làm luận văn có hạn, chuẩn bị liệu gặp nhiều khó khăn, nên luận văn thực áp dụng tác vụ trích rút thực thể du lịch phương pháp học sâu Như xem tốn trích rút thơng tin du lịch tốn phân lớp, học có giám sát Hay nói cách khác, ta thực gán nhãn đối tượng văn thuộc lớp: Lớp tên thực thể địa điểm du lịch, tên thực thể người du lịch, lớp tên thực thể tổ chức-công ty du lịch, lớp tên thực thể đặc sản vùng miền,v v Do văn tách câu, tách từ tạo thành chuỗi đối tượng, nên toán trở thành toán gán nhãn chuỗi (Labeling Sequence) Luận văn sử dụng word2vec để số hóa từ đồng thời khai thác hiệu thuộc tính ngữ pháp như: từ loại, cụm từ Đặc biệt triển khai thuật tốn học sâu vào mơ hình phân lớp chuỗi kết hợp mơ hình Bi-LSTM CNN để tăng hiệu suất mơ hình Luận văn thực nghiệm mơ hình training, testing predict, đồng thời xây dựng công cụ web để mô kết DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Từ viết tắt ANN BiLSTM Từ chuẩn Artificial Neural Netword Bidirectional Long short-term memory Diễn giải Mạng nơ-ron nhân tạo Mạng LSTM hướng BIO Begin-Inside-Outside Nhãn BIO notation CNN Convolutional Neural Network Mạng nơ-ron tích chập Convolutional Neural Netword CNN-BiLSTM Bidirectional Long short-term memory Mơ hình kết hợp CNN Bi-LSTM Trường ngẫu nhiên có điều CRF Conditional Random Field DL Deep learning Học sâu HMM Hidden Markov Model Mơ hình Markov ẩn IE Information Extraction Trích rút thơng tin IE Information Extraction Trích rút thơng tin LSTM Long short-term memory kiện Mạng nơ ron nhớ ngắn dài Maximum entropy Markov Mơ hình Markov cực đại models hóa entropy NER Named entity recognition Nhận dạng thực thể qua tên NLP Natural Languague Processing Xử lý ngôn ngữ tự nhiên NN Neural Network Mạng nơ-ron POS Part-Of-Speech Từ loại RNN Recurrent Neural Network Mạng nơ ron tái phát MEMMs DANH MỤC BẢNG BIỂU Bảng 2.1: Phân tích ví dụ 46 Bảng 2.2: Phân tích nhãn NER 48 Bảng 3.1: Bảng phân tích từ nhúng 58 Bảng 4.1: Bảng thống kê liệu 67 Bảng 4.2: Bảng thống kê nhãn NER liệu 68 Bảng 4.3: Bảng kết quả F1 71 ... TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN CAO CƯỜNG TRÍCH RÚT THƠNG TIN DU LỊCH BẰNG PHƯƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC TS BÙI... ĐOAN Tôi Nguyễn Cao Cường, học viên lớp CH16HT01, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một Tôi cam đoan luận văn ? ?Trích rút thơng tin du lịch phương pháp học sâu? ?? tự vận dụng kiến thức... lý văn Nắm bắt xu hướng này, luận văn nghiên cứu, áp dụng mơ hình học sâu vào xử lý trích rút thơng tin từ tài liệu du lịch, cụ thể tài liệu văn Bài tốn trích rút thơng tin có nhiều tác vụ trích