Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,83 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ————————————— Nguyễn Minh Phương TÌM KIẾM BẰNG NGÔN NGỮ TỰ NHIÊN LUẬN VĂN THẠC SĨ KHOA HỌC HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Thân Quang Khoát HÀ NỘI - 2019 Lời cam đoan Tôi - Nguyễn Minh Phương - cam kết luận văn cơng trình nghiên cứu thân tơi, hướng dẫn TS Thân Quang Khoát Các kết công bố báo cáo trung thực, chép cá nhân, tổ chức công bố khác Tất trích dẫn tham chiếu rõ ràng Ngày 23 tháng năm 2019 Tác giả luận văn: Nguyễn Minh Phương Xác nhận người hướng dẫn Ngày 23 tháng năm 2019 Người hướng dẫn: TS Thân Quang Khoát Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Cơng nghệ Thơng tin Truyền Thơng Chính thầy cô giáo trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Đồng thời em xin gửi lời cảm ơn đặc biệt đến TS Thân Quang Khoát Các thầy người dẫn tận tình, cho em kinh nghiệm quý báu để em hồn thành luận văn tốt nghiệp Thầy cô động viên, giúp đỡ em thời điểm khó khăn Em xin gửi lời cảm ơn chân thành tới thầy cô thuộc Data Science Lab thuộc viện Công Nghệ Thông Tin Truyền Thông tạo điều kiện cho em thực hành thử nghiệm máy tính lab Em xin gửi lời cảm ơn tới gia đình bạn bè Lời động viên tinh thần từ gia đình bạn bè ln động lực để em tiến lên phía trước Học viên: Nguyễn Minh Phương, CA180161, khoá 2018A, lớp 18A.HTTT.KH Tóm tắt nội dung Với phát triển khoa học cơng nghệ nay, ngày, nhu cầu tìm kiếm thông tin người cao Các hệ thống tìm kiếm phổ biến thường so khớp cách xác từ cụm từ câu đưa kết Việc dẫn đến kết tìm kiếm khơng xác, gây khó khăn cho người dùng Vì vậy, nghiên cứu thử nghiệm đề xuất giải pháp dựa Học máy giúp việc tìm kiếm trở nên đơn giản, hiệu theo ngữ nghĩa câu nói tự nhiên Ý tưởng nhận diện thành phần thơng tin quan hệ chúng câu nói Dựa đó, sinh truy vấn mang tính ngữ nghĩa để đạt kết xác Các nghiên cứu trước đề xuất phương án sử dụng mơ hình Sequence-to-sequence (Seq2seq) để chuyển hố ngơn ngữ tự nhiên thành cấu trúc biểu diễn logic ngữ nghĩa Chúng thử nghiệm dựa kết đề xuất chế đánh dấu (Marking mechanism) để cải thiện chất lượng mơ hình, đặc biệt trường hợp lĩnh vực tìm kiếm có tên thực thể đa dạng Mục lục Tổng quan 12 Kiến thức sở 16 2.1 Bài tốn Phân tích ngữ nghĩa 16 2.2 Mơ hình học máy sử dụng Deep learning 23 2.3 2.2.1 Neuron 24 2.2.2 Hàm đánh giá lỗi 25 2.2.3 Giải thuật học - Backpropagation Through Time 25 Các mơ hình Recurrent Neural Network (RNN) 27 2.3.1 Mơ hình RNN 29 2.3.2 Mô hình RNN kết hợp Long Short-Term Memory 31 2.3.3 Mơ hình Sequence to Sequence - Attention 34 Các nghiên cứu liên quan 3.1 3.2 39 Bài tốn Phân tích ngữ nghĩa NLP 41 3.1.1 Văn phạm danh mục kết nối (CCG) 41 3.1.2 Mơ hình Dịch máy với Neural Network (NMT) 44 Vấn đề từ (rare-word) mơ hình NMT 47 3.2.1 Biểu diễn từ ký tự đại diện 47 3.2.2 Cơ chế copy (copy mechanism) mơ hình Seq2seq 50 Mơ hình đề xuất 52 4.1 Vấn đề ý tưởng giải toán 52 4.2 Cơ chế đánh dấu Seq2seq 56 Thử nghiệm đánh giá 59 5.1 Dữ liệu kiểm thử 59 5.2 Cài đặt thử nghiệm 62 5.3 Kết thử nghiệm đánh giá 63 5.3.1 Đánh giá khả học mơ hình đề xuất (Seq2seq-2) 64 5.3.2 Mơ hình đề xuất mơi trường đa dạng từ 66 5.3.3 So sánh mơ hình đề xuất mơ hình liên quan 67 Kết luận 72 Tài liệu tham khảo 73 Danh sách hình vẽ 1.1 Tỉ lệ số lượng tìm kiếm google 12 1.2 Tổng số tìn kiếm google năm 12 2.1 Triple Web ngữ nghĩa 17 2.2 Ontology đơn giản 17 2.3 Biểu diễn ngữ nghĩa AMR câu "The boy wants to go" 22 2.4 Cấu trúc Neuron 24 2.5 Kiến trúc mạng RNN 28 2.6 Mạng lan truyền tiến layer 29 2.7 Mạng RNN 30 2.8 Cấu trúc state 33 2.9 Mạng RNN sử dụng LSTM 33 2.10 Mơ hình Seq2seq 34 2.11 Kiến trúc mơ hình Seq2seq kết hợp Attention 35 3.1 Các bước áp dụng luật kết hợp văn phạm CCG 43 3.2 Mơ hình Seq2seq cho Phân tích ngữ nghĩa: what state border Texas → λx.state(x) ∧ borders(x, texas) 45 3.3 Module Decoder mơ hình Seq2tree - mẫu giải mã: what state border Texas → lambda $0 e ( and ( state:t $0 ) ( next_to:t $0 texas ) ) 46 3.4 Ví dụ thay từ Dịch máy 3.5 Ví dụ thay từ n Copyable Model 48 49 3.6 Ví dụ thay từ Positional Unknown Model 49 3.7 Kiến trúc chế Copy mechanism (Hình ảnh từ See cộng sự, 2017 [32]) 50 4.1 Sự thay đổi số lượng từ Phân tích ngữ nghĩa 53 4.2 Ví dụ chế đánh dấu (marking mechanism) 54 4.3 Sự thay đổi không gian từ điển sử dụng Cơ chế đánh dấu 4.4 Mơ hình Seq2seq với Cơ chế đánh dấu (Marking mechanism) 56 5.1 Độ xác mơ hình Seq2seq-2 Geo (3) thay đổi learning 55 rate 65 5.2 Độ xác mơ hình Seq2seq-2 Geo (2), Geo (3) thay đổi λ 5.3 Độ xác mơ hình liệu phiên (2) 68 5.4 Độ xác mơ hình liệu phiên (3) 69 66 Danh sách bảng 2.1 Câu truy vấn SPARQL 18 2.2 Địa danh liệu Geo 19 2.3 Quan hệ dạng vị từ 19 2.4 Một số luật suy diễn quan hệ vị trí (location) 20 2.5 Mẫu truy vấn với Logical form liệu Geo 21 3.1 Ánh xạ từ (word) sang ngữ nghĩa thành phần tương ứng 42 5.1 Một số thống kê liệu version (2) 61 5.2 Độ xác mơ hình đề xuất liệu GEO, ATIS, JOBS 64 5.3 Độ xác mơ hình liệu Artificial 5.4 Các nghiên cứu liên quan vấn đề Semantic Parsing 71 67 Danh sách từ viết tắt AMR Abstract Meaning Representation ANN Artificial Neural Network BPTT Backpropagation Through Time CCG Combinatory Categorial Grammar CSDL Cơ sở liệu CSDLQH Cơ sở liệu quan hệ CSDLSD Cơ sở liệu suy diễn LSTM Long Short-Term Memory NER Named Entity Recognition NLP Natural Language Processing NMT Neural Machine Translation RNN Recurrent Neural Network RNN-LSTM Recurrent Neural Network kết hợp sử dụng Long ShortTerm Memory Seq2seq Sequence to Sequence Seq2tree Sequence to tree XLNNTN Xử lý ngơn ngữ tự nhiên 10 độ xác mơ hình tốc độ học tăng dần tập {0.1, 0.15, 0.2, 0.3} (đã đề cập phần 5.2) tập liệu Geo(3) Như ta thấy kết cải thiện đến 2% có tốc độ học phù hợp: với learning rate 0.1, mô hình hội tụ ngưỡng (85.6%) rơi vào cực tiểu cục bộ, với learning rate 0.15, 0.2, độ xác mơ hình tăng dần đến 87.6% Tuy nhiên tiếp tục tăng learning rate lên giá trị 0.3 độ xác bắt đầu tụt giảm Mặc dù sử dụng Adagrad cho việc tối ưu hoá thay đổi learning rate phù hợp trình huấn luỵện, nhiên giá trị khởi tạo tốt yếu tố cải thiện khơng nhỏ chất lượng mơ hình 88.0% 87.6% 87.0% 86.0% 86.5% 85.6% 85.6% 85.0% 84.0% 83.0% 82.0% 81.0% 80.0% GEO (3) lr=0.1 lr=0.15 lr=0.2 lr=0.3 Hình 5.1: Độ xác mơ hình Seq2seq-2 Geo (3) thay đổi learning rate Tối ưu hố siêu tham số λ cho mơ hình đề xuất Hình 5.2 kết tối ưu hố tham số λ (theo cơng thức 4.6) mơ hình Seq2seq-2 Geo(2) Geo(3) Thông thường, coi lỗi giải mã, quan trọng tương đương mã hố ta để giá trị 0.5 Tuy nhiên theo kết thống kê Bảng 5.2, bước biểu diễn logic bước tập trung lỗi mơ hình Như vậy, ta cố gắng giảm giá trị lambda để mơ hình tập trung học nhiều lỗi giải mã (decoder) Như ta thấy mơ hình đề xuất (Seq2seq-2) đạt kết tốt liệu Geo(2) Geo(3) với λ = 0.2, tăng ∼ 2% so với giá trị λ = 0.5 65 90.0% 87.6% 88.0% 86.3% 86.0% 85.5% 85.7% 84.0% 82.0% 80.0% 78.0% 79.1% 79.1% 77.4% 77.2% 76.0% 74.0% 72.0% 70.0% GEO (2) λ=0.5 GEO (3) λ=0.4 λ=0.2 λ=0.1 Hình 5.2: Độ xác mơ hình Seq2seq-2 Geo (2), Geo (3) thay đổi λ 5.3.2 Mơ hình đề xuất mơi trường đa dạng từ Thử nghiệm tính độ xác mơ hình với liệu Artificial Thử nghiệm để so sánh chất lượng mơ hình (Seq2seq-0, Seq2seq-1) so với mơ hình đề xuất (Seq2seq-2) mơi trường có tên thực thể sinh ngẫu nhiên Kết Bảng 5.3 với cột Observation dự đốn mơ hình mẫu quan sát sau: sentence: what is the capital of loc_id_3200 loc_id_3201 loc_id_3202 loc_id_3203 ? logical form: _answer ( A , ( _capital ( A ) , _loc ( A , B ) , _const ( B , _stateid ( loc_id_3200 loc_id_3201 loc_id_3202 loc_id_3203 ) ) ) ) Thử nghiệm cho thấy giảm hiệu đáng kể mơ hình cũ Với chế thay từ (Seq2seq-0) đạt 40.8%, với chế Copy (Seq2seq1) đạt 60%, chế Marking (Seq2seq-2) giữ độ xác cao 66 Artificial Observation _answer(A,(_capital(A),_loc(A,B), Seq2seq-0 40.8% _const(B,_stateid(loc_id_3200 loc_id_3203 loc_id_3203)))) _answer(A,(_capital(A),_loc(A,B), Seq2seq-1 60.0% _const(B,_stateid(loc_id_3200 loc_id_3201 loc_id_3202 loc_id_3202)))) _answer(A,(_capital(A),_loc(A,B), Seq2seq-2 90.0% _const(B,_stateid(loc_id_3200 loc_id_3201 loc_id_3202 loc_id_3203)))) Bảng 5.3: Độ xác mơ hình liệu Artificial 90% Theo quan sát mẫu đề cập, mơ hình Seq2seq-0 gặp vấn đề việc không sinh đủ số lượng từ (cần sinh từ địa danh sinh từ) việc ánh xạ thay thông qua Attention không chuẩn xác với mong muốn (mơ hình sinh từ lặp “loc_id_3203 loc_id_3203”, vị trí cần “loc_id_3201 loc_id_3202”) Vấn đề tương tự xảy với chế Copy (Seq2seq-1) Trong ví dụ quan sát, mơ hình với lỗi so với mơ hình baseline (Seq2seq-0) sai từ so với mục tiêu Thử nghiệm không chứng minh mơ hình đề xuất (Seq2seq-2) ln tốt so với hướng tiếp cận cũ trường hợp Tuy nhiên, chứng minh mơi trường có tên thực thể đa dạng, chế Marking hướng tiếp cận tiềm 5.3.3 So sánh mơ hình đề xuất mơ hình liên quan Thử nghiệm so sánh hoạt động mơ hình (Seq2seq-0, Seq2seq-1, Seq2seq2) liệu (Geo, Atis, Jobs) phiên (1), (2) (chi tiết liệu xem mục 5.1) Hình 5.3 kết thử nghiệm độ xác mơ hình 67 liệu public phiên (2) Hình 5.4 kết thử nghiệm liệu public phiên (3), đồng thời so sánh với kết thử nghiệm Dong cộng sự, 2016 [7] liệu Bảng 5.4 hiển thị so sánh kết cơng việc liên quan với mơ hình đề xuất Kết liệu (2) Trong thử nghiệm liệu phiên (2) liệu, mơ hình đề xuất cho kết tốt so với mơ hình baseline (Seq2seq-0): cải thiện 4.8% GEO (2), 0.9% ATIS (2), 3.5% JOBS (2) So với mơ hình sử dụng chế Copy (Seq2seq-1) mơ hình đề xuất cải thiện 1.1% GEO (2), đạt kết tương đương JOBS (2) cạnh tranh ATIS (2) 0.4% Trong liệu ATIS (2) điểm khác biệt so với liệu GEO thành phần tên thực thể tiền xử lý, giữ tính đa dạng mặt ngơn ngữ, nhiên tính đa dạng độ dài tên thực thể (như mục 5.1 đề cập ví dụ: san francisco → san_francisco:_ci) 85.0% 80.0% 79.1% 77.8% 75.0% 77.2% 78.5% 78.1% 74.3% 70.0% 65.0% 64.4% 64.4% 60.9% 60.0% GEO (2) Seq2seq-0 ATIS (2) Seq2seq-1 JOBS (2) Seq2seq-2 Hình 5.3: Độ xác mơ hình liệu phiên (2) 68 Kết liệu (3) Hình 5.4 hiển thị kết thử nghiệm mơ hình liệu public phiên (3) Đồng thời so sánh với kết thử nghiệm Dong cộng sự, 2016 [7] liệu Dữ liệu phiên (3) liệu khơng có nhiều từ từ tên địa danh loại bỏ bước tiền xử lý So sánh với chế Copy thay ký tự , mơ hình 91.0% 90.0% 90.0% 89.0% 88.0% 87.6% 87.0% 86.0% 85.0% 87.5% 87.1% 87.1% 85.8% 85.5% 85.6% 84.9% 84.6% 84.2% 85.6% 84.6% 84.2% 84.7% 84.0% 83.0% 82.0% GEO (3) ATIS (3) Seq2seq-0 Seq2seq-2 Seq2seq-1 JOBS (3) Seq2Seq [Dong et al., 2016] Seq2Tree [Dong et al., 2016] Hình 5.4: Độ xác mơ hình liệu phiên (3) đề xuất cho kết tốt liệu Geo(3), Atis(3), Jobs(3) Giả thuyết cho kết việc bổ sung thêm thông tin nhãn cho chuỗi mã hố làm cho mơ hình Seq2seq có khả khái qt hố tốt Điều thường áp dụng mơ hình XLNNTN, cho mơ hình học nhiều nhiệm vụ lúc (multitask learning) làm giảm nguy mơ hình bị overfit vào nhiệm vụ (ví dụ: học gán nhãn từ loại (Postag) Cụm danh từ (Chunking) lúc, ) So sánh mơ hình đề xuất mơ hình Sequence-to-tree (Seq2tree) (đề xuất Dong cộng sự, 2016 [7] - xem mục 3.1.2) có kết cạnh tranh Mơ hình đề xuất 69 cho kết cao GEO (3) ATIS(3) thấp đáng kể JOBS(3), theo nhóm tác giả Dong cộng sự, 2016 [7], liệu JOBS có cấu trúc phân tầng lồng mơ hình Seq2tree làm việc tốt trường hợp So sánh mô hình đề xuất (Seq2seq-2) phiên liệu, ta dễ dàng nhận thấy phiên (3) cho kết tốt hẳn so với phiên (2) Để rõ hơn, ta nhìn lại bảng 5.2, dễ dàng nhận thấy thay đổi phần lớn độ xác bước biểu diễn logic khác biệt Lý giải cho việc liệu (3), chuỗi mã hoá đơn giản nhiều so với liệu (2) Mặc dù mơ hình đề xuất làm giảm đối mặt giải mã (decoder) với vấn đề tên thực thể đa dạng, mã hố (encoder) vấn đề cịn tồn đọng Đây điểm yếu khắc phục mơ hình đề xuất So sánh công việc liên quan Bảng 5.4 hiển thị kết nghiên cứu liên quan, liệu (Geo, Atis, Jobs) Bảng kết chia làm hai phần với phần nghiên cứu không sử dụng Deep learning, bên kết hướng tiếp cận Deep learning gần Kết bảng 5.4 cho thấy, phương pháp tiếp cận truyền thống, không sử dụng Deep learning đạt kết tốt Tuy nhiên phương pháp bàn luận khó để mở rộng triển khai thực tế Trong phương pháp sử dụng Neural Network, bật hướng tiếp cận Seq2tree Dong cộng sự, 2016 [7] đạt kết tốt tập Jobs, Jia cộng sự, 2016 [13] với hướng tích hợp Văn phạm phi ngữ cảnh (CFG) dựa số luật để tái tổ hợp làm giàu thêm liệu - đạt kết tốt tập Geo Mơ hình đề xuất nghiên cứu đạt kết cao chút so với phương pháp khác tập Atis Các mơ hình sử dụng Neural Network chưa vượt qua phương pháp truyền thống, hướng tiếp cận tiềm có khả cạnh tranh cao triển khai thực tế 70 GEO ATIS JOBS Previous Work Zettlemoyer cộng sự, 2007 [47] 84.6 Kwiatkowski cộng sự, 2010 [15] 88.9 Liang cộng sự, 2013 [18] 91.1 Kwiatkowski cộng sự, 2011 [16] 88.6 Poon, 2013 [28] 90.7 82.8 83.5 Zhao cộng sự, 2015 [48] 88.9 84.2 Wang cộng sự, 2014 [38] 91.1 91.3 Dong cộng sự, 2016 [7] 87.1 84.6 Jia cộng sự, 2016 [13] 89.3 83.3 Yin cộng sự, 2018 [44] 85.0 90.0 85.3 Our model Seq2seq-2 87.6 85.8 87.5 Bảng 5.4: Các nghiên cứu liên quan vấn đề Semantic Parsing 71 Kết luận Trong luận văn này, em tìm hiểu hệ thống tìm kiếm sử dụng Ngơn ngữ tự nhiên vấn đề khó khăn xây dựng hệ thống thực tế Đồng thời, đề xuất Cơ chế đánh dấu (Marking mechanism) Sequence-to-sequence để giải toán cốt lõi hệ thống tìm kiếm - tốn Phân tích ngữ nghĩa Cơ chế đặc biệt hiệu môi trường có nhiều từ (tên thực thể, tên địa danh, ) với độ dài đa dạng Mơ hình đề xuất kế thừa kết nghiên cứu gần đây, dễ dàng mở rộng có khả triển khai nhiều lĩnh vực Các kết thử nghiệm chứng minh mơ hình đề xuất hoạt động hiệu giả thuyết đặt ban đầu Đồng thời đạt kết cạnh tranh so với nghiên cứu khác giới liệu cơng khai cho tốn Phân tích ngữ nghĩa Các hướng nghiên cứu cho mơ hình để cải thiện như: kết hợp với mơ hình Sequence-to-tree, thay đổi kiến trúc giải mã để cải thiện hiệu năng, hay sử dụng thông tin nhãn chuỗi mã hoá đặc trưng bổ sung cho việc giải mã, Phân tích ngữ nghĩa tốn hay khó, nhiên hướng tiếp cận tiềm mở cách để người giao tiếp với máy tính tương lai không xa 72 Tài liệu tham khảo [1] Eugene Agichtein and Luis Gravano “Snowball: Extracting relations from large plain-text collections” In: Proceedings of the fifth ACM conference on Digital libraries ACM 2000, pp 85–94 [2] Jacob Andreas, Andreas Vlachos, and Stephen Clark “Semantic parsing as machine translation” In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) 2013, pp 47–52 [3] Dzmitry Bahdanau, Kyunghyun Cho, and Y Bengio “Neural Machine Translation by Jointly Learning to Align and Translate” In: ArXiv 1409 (Sept 2014) [4] Laura Banarescu, Claire Bonial, Shu Cai, Madalina Georgescu, Kira Griffitt, Ulf Hermjakob, Kevin Knight, Philipp Koehn, Martha Palmer, and Nathan Schneider “Abstract meaning representation for sembanking” In: Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse 2013, pp 178–186 [5] David Chiang “Hierarchical phrase-based translation” In: computational linguistics 33.2 (2007), pp 201–228 [6] Shibhansh Dohare and Harish Karnick “Text Summarization using Abstract Meaning Representation” In: CoRR abs/1706.01678 (2017) eprint: 1706 01678 [7] Li Dong and Mirella Lapata “Language to Logical Form with Neural Attention” In: Proceedings of the 54th Annual Meeting of the Association for Com73 putational Linguistics (Volume 1: Long Papers) Association for Computational Linguistics, 2016 [8] Jiatao Gu, Zhengdong Lu, Hang Li, and Victor Li “Incorporating Copying Mechanism in Sequence-to-Sequence Learning” In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Association for Computational Linguistics, Mar 2016, pp 1631– 1640 [9] Yulan He and Steve Young “Semantic Processing Using the Hidden Vector State Model” In: Computer Speech & Language 19 (Jan 2005), pp 85–106 [10] Gary G Hendrix, Earl D Sacerdoti, Daniel Sagalowicz, and Jonathan Slocum “Developing a natural language interface to complex data” In: ACM Transactions on Database Systems (TODS) 3.2 (1978), pp 105–147 [11] Sepp Hochreiter and Jăurgen Schmidhuber Long Short-Term Memory In: Neural Computation 9.8 (Nov 1997), pp 1735–1780 [12] Sébastien Jean, Kyunghyun Cho, Roland Memisevic, and Y Bengio “On Using Very Large Target Vocabulary for Neural Machine Translation” In: (Dec 2014) [13] Robin Jia and Percy Liang “Data Recombination for Neural Semantic Parsing” In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Association for Computational Linguistics, June 2016, pp 12–22 [14] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, and Alexander Rush “OpenNMT: Open-Source Toolkit for Neural Machine Translation” In: Proceedings of ACL 2017, System Demonstrations Association for Computational Linguistics, Jan 2017, pp 67–72 [15] Tom Kwiatkowski, Luke Zettlemoyer, Sharon Goldwater, and Mark Steedman “Inducing probabilistic CCG grammars from logical form with higher-order 74 unification” In: Proceedings of the 2010 conference on empirical methods in natural language processing Association for Computational Linguistics 2010, pp 1223–1233 [16] Tom Kwiatkowski, Luke Zettlemoyer, Sharon Goldwater, and Mark Steedman “Lexical generalization in CCG grammar induction for semantic parsing” In: Proceedings of the conference on empirical methods in natural language processing Association for Computational Linguistics 2011, pp 15121523 [17] Jens Lehmann and Lorenz Băuhmann Autosparql: Let users query your knowledge base” In: Extended Semantic Web Conference Springer 2011, pp 63– 79 [18] Percy Liang, Michael I Jordan, and Dan Klein “Learning dependency-based compositional semantics” In: Computational Linguistics 39.2 (2013), pp 389– 446 [19] Thang Luong, Hieu Pham, and Christopher D Manning “Effective Approaches to Attention-based Neural Machine Translation” In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics, 2015 [20] Thang Luong, Hieu Pham, and Christopher D Manning “Effective Approaches to Attention-based Neural Machine Translation” In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing Lisbon, Portugal: Association for Computational Linguistics, Sept 2015, pp 1412– 1421 [21] Thang Luong, Ilya Sutskever, Quoc Le, Oriol Vinyals, and Wojciech Zaremba “Addressing the Rare Word Problem in Neural Machine Translation” In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) Beijing, China: Association for Computational Linguistics, July 2015, pp 11–19 75 [22] Xuezhe Ma and Eduard Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF” In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Association for Computational Linguistics, Mar 2016, pp 1064–1074 [23] Bill Z Manaris “Natural Language Processing: A Human-Computer Interaction Perspective” In: Advances in Computers 47 (1998), pp 1–66 [24] Scott Miller, David Stallard, Robert Bobrow, and Richard Schwartz “A Fully Statistical Approach to Natural Language Interfaces” In: 34th Annual Meeting of the Association for Computational Linguistics Santa Cruz, California, USA: Association for Computational Linguistics, June 1996, pp 55–61 [25] Pham Quang Nhat Minh, Nguyen Tuan Anh, and Nguyen Tuan Duc “A Deep Learning Model for Extracting User Attributes from Conversational Texts” In: 2018 5th NAFOSTED Conference on Information and Computer Science (NICS) IEEE 2018, pp 350–353 [26] Dana Movshovitz-Attias and William W Cohen “Kb-lda: Jointly learning a knowledge base of hierarchy, relations, and facts” In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) 2015, pp 1449–1459 [27] Phuong Minh Nguyen, Khoat Than, and Minh Le Nguyen “Marking Mechanism in Sequence-to-sequence Model for Mapping Language to Logical Form” In: 2019 11th International Conference on Knowledge and Systems Engineering (KSE) (KSE’19) Da Nang, Vietnam, Oct 2019 [28] Hoifung Poon “Grounded unsupervised semantic parsing” In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Vol 2013, pp 933–943 76 [29] Lance Ramshaw and Mitchell Marcus “Text Chunking Using TransformationBased Learning” In: Third ACL Workshop on Very Large Corpora MIT (Dec 2002) [30] Sudha Rao, Daniel Marcu, Kevin Knight, and Hal Daumé III “Biomedical event extraction using abstract meaning representation” In: BioNLP 2017 2017, pp 126–135 [31] Alexander M Rush, Sumit Chopra, and Jason Weston “A neural attention model for abstractive sentence summarization” In: arXiv preprint arXiv:1509.00685 (2015) [32] Abigail See, Peter J Liu, and Christoper Manning “Get To The Point: Summarization with Pointer-Generator Networks” In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Association for Computational Linguistics, Jan 2017, pp 1073–1083 [33] Ilya Sutskever, Oriol Vinyals, and Quoc V Le “Sequence to Sequence Learning with Neural Networks” In: Proceedings of the 27th International Conference on Neural Information Processing Systems NIPS’14 Montreal, Canada: MIT Press, 2014, pp 3104–3112 [34] C Thompson “Acquiring Word-Meaning Mappings for Natural Language Interfaces” In: Journal of Artificial Intelligence Research 18 (Jan 2003), pp 1– 44 [35] O Vinyals, M Fortunato, and N Jaitly “Pointer Networks” In: ArXiv e-prints (June 2015) arXiv: 1506.03134 [stat.ML] [36] Oriol Vinyals, Łukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, and Geoffrey Hinton “Grammar as a foreign language” In: Advances in neural information processing systems 2015, pp 2773–2781 [37] David L Waltz, Timothy Finin, Fred Green, Forrest Conrad, and Bradley Goodman The PLANES System: Natural Language Access To a Large Data Base 77 Tech rep ILLINOIS UNIV AT URBANA COORDINATED SCIENCE LAB, July 1976, p 140 [38] Adrienne Wang, Tom Kwiatkowski, and Luke Zettlemoyer “Morpho-syntactic lexical generalization for CCG semantic parsing” In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) 2014, pp 1284–1295 [39] Chong Wang, Miao Xiong, Qi Zhou, and Yong Yu “PANTO: A Portable Natural Language Interface to Ontologies” In: The Semantic Web: Research and Applications Ed by Enrico Franconi, Michael Kifer, and Wolfgang May Berlin, Heidelberg: Springer Berlin Heidelberg, 2007, pp 473–487 ISBN: 978-3-54072667-8 [40] Yuk Wah Wong and Raymond J Mooney “Learning for semantic parsing with statistical machine translation” In: Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics Association for Computational Linguistics 2006, pp 439–446 [41] W A Woods “Transition Network Grammars for Natural Language Analysis” In: Commun ACM 13.10 (Oct 1970), pp 591–606 ISSN: 0001-0782 [42] W A Woods “Progress in natural language understanding” In: Proceedings of the June 4-8, 1973, national computer conference and exposition on - AFIPS ’73 ACM Press, 1973, pp 441–450 [43] William A Woods “Progress in natural language understanding: an application to lunar geology” In: AFIPS National Computer Conference 1973 [44] Pengcheng Yin, Chunting Zhou, Junxian He, and Graham Neubig “StructVAE: Tree-structured Latent Variable Models for Semi-supervised Semantic Parsing” In: Proceedings of the 56th Annual Meeting of the Association for 78 Computational Linguistics (Volume 1: Long Papers) Melbourne, Australia: Association for Computational Linguistics, July 2018, pp 754–765 [45] John M Zelle and Raymond J Mooney “Learning to Parse Database Queries Using Inductive Logic Programming” In: Proceedings of the Thirteenth National Conference on Artificial Intelligence - Volume AAAI’96 Portland, Oregon: AAAI Press, 1996, pp 1050–1055 ISBN: 0-262-51091-X [46] Luke S Zettlemoyer and Michael Collins “Learning to Map Sentences to Logical Form: Structured Classification with Probabilistic Categorial Grammars” In: Proceedings of the Twenty-First Conference on Uncertainty in Artificial Intelligence UAI’05 Edinburgh, Scotland: AUAI Press, 2005, pp 658–666 ISBN : 0-9749039-1-4 [47] Luke Zettlemoyer and Michael Collins “Online learning of relaxed CCG grammars for parsing to logical form” In: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL) 2007, pp 678–687 [48] Kai Zhao and Liang Huang “Type-Driven Incremental Semantic Parsing with Polymorphism” In: Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Denver, Colorado: Association for Computational Linguistics, May 2015, pp 1416–1421 79 ... https://www.internetlivestats.com/google-search-statistics/ 12 tìm kiếm sản phẩm mua hàng online, tìm kiếm tour du lịch, tìm kiếm ăn, Các cơng cụ hỗ trợ tìm kiếm thường thực thao tác tách từ, cụm từ câu tìm kiếm người dùng thực tìm kiếm cách... Phân tích ngữ nghĩa mơ tả sau: Bài tốn: Phân tích ngữ nghĩa Xử lý ngơn ngữ tự nhiên • Mục tiêu: Ánh xạ câu nói dạng ngơn ngữ tự nhiên dạng cấu trúc ngữ nghĩa • Input: Câu nói ngơn ngữ thơng thường... phương pháp xử lý tốn Phân tích ngữ nghĩa cho hệ thống tìm kiếm ngơn ngữ tự nhiên Để xây dựng hệ thống tìm kiếm có tính ngữ nghĩa cao việc hiểu cách biểu diễn ngữ nghĩa, tri thức người Cơ sở