Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,72 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thơng tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS LÊ HỒNG PHƢƠNG Hà Nội -2016 LỜI CẢM ƠN Trước tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Thầy giáo, TS Lê Hồng Phương tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ tơi nhiều q trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn “Một số mơ hình học máy phân loại câu hỏi” tơi thực hướng dẫn TS Lê Hồng Phương Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC CÁC HÌNH ii DANH MỤC CÁC BẢNG iii LỜI MỞ ĐẦU Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI 1.1 Tổng quan hệ thống hỏi đáp 1.1.1 Đặt vấn đề 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.2 Bài toán phân loại câu hỏi 1.2.1 Định nghĩa phân loại câu hỏi 1.2.2 Phát biểu toán phân loại câu hỏi 1.3 Các cách tiếp cận toán phân loại câu hỏi 1.3.1 Tiếp cận dựa luật 1.3.2 Tiếp cận dựa học máy 1.4 Biểu diễn câu hỏi 10 1.5 Taxonomy câu hỏi 11 1.5.1 Khái niệm Taxonomy 11 1.5.2 Các taxonomy theo kiểu câu trả lời 11 1.5.3 Phân lớp đa cấp 14 1.6 Các đặc trưng phân loại 15 1.6.1 Các đặc trưng từ vựng 15 1.6.2 Các đặc trưng cú pháp 17 1.6.3 Các đặc trưng ngữ nghĩa 23 Chương 2: MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI 25 2.1 Kiến trúc hệ thống 25 2.2 Thuật tốn Nạve Bayes 25 2.2.1 Định lý 25 2.2.2 Thuật toán 26 2.3 Thuật toán k-láng giềng gần (k- Nearst Neighbours) 29 2.4 Máy Vector hỗ trợ - SVM 30 2.5 Một số thuật toán khác 34 2.6 Hiệu suất phân loại câu hỏi 34 2.7 Một số kết tác giả 35 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Lựa chọn phân loại 38 3.2 Môi trường công cụ sử dụng thực nghiệm 38 3.3 Tập liệu thử nghiệm 38 3.4 Xử lý liệu 40 3.5 Huấn luyện kiểm thử với LibSVM 44 3.6 Kết thực nghiệm 45 3.7 Kết luận 45 TỔNG KẾT 46 TÀI LIỆU THAM KHẢO 47 PHỤ LỤC i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu, viết tắt Tiếng anh Chú giải QA Question Answering systems Hệ thống hỏi đáp IR Information Retrieval Truy hồi thông tin TREC Text REtrieval Conference UIUC University of Illinois UrbanaChampaign MUC Message Understanding Conference POS Part – Of - Speech WSD Word Sense Disambiguation NN Nearest Neighbors NB Naïve Bayes 10 DT Decision Tree Cây định 11 SNoW Sparse Network of Winnows Mạng lọc thưa 12 SVM Support Vector Machine Máy vector hỗ trợ 13 ME Maximum Entropy Entropy cực đại Láng giềng gần ii DANH MỤC CÁC HÌNH Hình 1.1: Kiến trúc hệ thống hỏi đáp Hình 1.2: Mơ hình giai đoạn huấn luyện Hình 1.3: Chi tiết giai đoạn huấn luyện 10 Hình 1.4: Mơ hình giai đoạn phân lớp 10 Hình 1.6: Cây phân tích cú pháp sử dụng phân tích Berkeley 19 Hình 1.8: Cây phân tích cú pháp cho câu hỏi “What is the proper name for a female walrus” 22 Hình 2.1: Kiến trúc tổng quan hệ thống phân loại câu hỏi có giám sát 25 Hình 2.2: Siêu phẳng với lề cực đại cho SVM phân tách liệu thuộc hai lớp 31 Hình 2.3: Sơ đồ phân lớp câu hỏi với SVM 34 Hình 3.1: File chứa 5500 câu hỏi ban đầu 39 Hình 3.2: File chứa 500 câu hỏi test 40 Hình 3.4: File chứa 5500 nhãn câu hỏi tập mịn 42 Hình 3.6: Nhãn tương ứng 5500 câu hỏi 43 Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train 43 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 44 iii DANH MỤC CÁC BẢNG Bảng 1.1: Taxonomy câu hỏi Li Roth 12 Bảng 2.1: Độ xác phân loại câu hỏi sử dụng thuật toán học máy khác với đặc trưng bag-of-words lớp mịn 36 Bảng 2.2: Độ xác thực nghiệm với liệu ngôn ngữ Tiếng Việt 36 Bảng 3.1: Thông tin phần cứng 38 Bảng 3.2: Các công cụ phần mềm sử dụng 38 Bảng 3.3: Độ xác phân loại tập thơ với đặc trưng unigram bigram 45 Bảng 3.4: Độ xác phân loại tập mịn với đặc trưng unigram bigram 45 LỜI MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ Internet tồn cầu với nhu cầu tìm kiếm thơng tin ngày cao người đòi hỏi hệ thống hỏi đáp ngày thông minh Những thắc mắc người dùng dạng truy vấn cần tìm kiếm trả cách ngắn gọn, súc tích xác mà họ mong muốn Một thành phần quan trọng ảnh hưởng trực tiếp đến kết tìm kiếm hệ thống hỏi đáp giai đoạn phân loại câu hỏi Một phân loại tốt giúp đưa câu trả lời xác Đã có nhiều phương pháp tiếp cận đưa cho toán phân loại này, nhiên phương pháp học máy áp dụng nhiều Chính lý mà tác giả chọn nghiên cứu đề tài “Một số mơ hình học máy phân loại câu hỏi” Luận văn bao gồm phần sau: Chƣơng 1: Tổng quan phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câu hỏi Chƣơng 2: Một số mơ hình học máy phân loại câu hỏi Chương tập trung trình bày phân loại thường sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ liệt kê số phân loại khác So sánh hiệu suất phân loại phân loại dựa kết tham khảo Chƣơng 3: Thực nghiệm đánh giá Áp dụng phân loại SVM thực thí nghiệm tập liệu UIUC, lựa chọn đặc trưng bag-of-word Nhận xét kết trả 38 Chƣơng 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Lựa chọn phân loại Như trình bày phần 2.7, phân loại SVM chứng minh vượt trội so với phân loại khác Chính vậy, khóa luận định lựa chọn phân loại SVM để thực thực nghiệm đánh giá Để xây dựng phân loại SVM, thư viện LI SVM áp dụng trình huấn luyện kiểm thử Lựa chọn đặc trưng: Đã có nhiều đặc trưng giới thiệu Trong phần thực nghiệm này, trước mắt luận văn sử dụng đặc trưng unigram bigram để tiến hành phân loại 3.2 Môi trƣờng công cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Bảng 3.1: Thông tin phần cứng STT Thành phần Chỉ số CPU Intel Core i3 1.8GHZ RAM 2GB Hệ điều hành Windows Bảng 3.2: Các công cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn LIBSVM 3.21 Phân loại câu hỏi http://www.csie.ntu.edu.tw/ ~cjlin/libsvm/ Eclipse Java EE Tạo môi trường để viết chương trình xây dựng tập tin huấn luyện http://www.eclipse.org/dow nloads/index-helios.php Python 2.7.12 Tạo môi trường để kiểm thử với LibSVM https://www.python.org/dow nloads/release/python-2712/ 3.3 Tập liệu thử nghiệm Tập liệu sử dụng thực nghiệm tạo Li Roth Chúng cung cấp tập liệu câu hỏi sử dụng rộng rãi nghiên cứu 39 phân loại câu hỏi biết tập liệu UIUC tập liệu TREC Đối với tập liệu TREC cung cấp loại câu hỏi dạng tập tin theo định dạng giống XML Trên trang web UIUC cung cấp tập tin danh sách câu hỏi mà câu hỏi gán nhãn phân loại sẵn Các tập tin xếp theo thứ tự 1000, 2000, 3000, 4000 5500 câu hỏi gán nhãn Thêm vào đó, UIUC cung cấp tập tin để kiểm tra gồm 500 câu hỏi TREC 10 Từ đó, em định chọn tập huấn luyện dựa kho liệu câu hỏi UIUC cho trình thực nghiệm Hình 3.1: File chứa 5500 câu hỏi ban đầu 40 Hình 3.2: File chứa 500 câu hỏi test Ví dụ dòng liệu tập liệu UIUC: HUM:ind Who was The Pride of the Yankees ? Nguyên tắc phân loại sử dụng để gán nhãn cho câu hỏi nguyên tắc phân loại giải thích chương Nó bao gồm lớp thô 50 lớp mịn 3.4 Xử lý liệu Như giải thích phần 1.4, câu hỏi biểu diễn mơ hình khơng gian vector Các đặc trưng trích rút từ câu hỏi bổ sung vào vectơ đặc trưng với cặp (đặc trưng, giá trị) Nếu trích rút đặc trưng unigram, với câu hỏi “Who was the Pride of Yankees”, công thức (1.2) chuyển sang hình thức sau: {(Who, 1)(was, 1)(the, 2)(Pride, 1)(of, 1)(Yankees, 1)(?, 1)} Tuy nhiên thay sử dụng chuỗi, phần tử (đặc trưng) ánh xạ tới số nhất, số đặc trưng Hơn tên lớp ánh xạ tới số Mẫu định dạng tương tự liệu TREC, chuyển qua hình thức mà chấp nhận thư viện LIBSVM LIBSVM thư viện đơn giản dễ sử dụng hiệu dành cho phân loại SVM Đây mã nguồn mở cung cấp cho nhiều ngôn ngữ khác : Java, Python, Perl, Ruby Để bắt đầu sử dụng với thư viện này, ta cần phải xây dựng tập tin huấn luyện theo dịnh dạng Định dạng tập tin chứa liệu huấn luyện tập tin kiểm thử là: : : Trong đó: giá trị đích tập huấn luyện Đối với việc phân loại, số nguyên xác định lớp số nguyên Cụ thể tốn phân loại đại diện cho đặc trưng số thực Giá trị thể mức độ liên quan đặc trưng phân loại nằm khoảng [-1,1] Do đặc trưng phân loại câu hỏi đặc trưng nhị phân nên lúc huấn luyện giá trị Câu hỏi “Who was the Pride of Yankees” chuyển thành sau: 44 1:1 15:2 24:2 98:1 235:1 1934:1 4376:1 số (44) cho biết số lớp cặp lại (đặc trưng, giá trị) phân cách khoảng trống trong cặp phân cách dấu hai 41 chấm (:) Hơn cặp đặc trưng nên xếp theo thứ tự tăng dần số đặc trưng Khi tất tập liệu huấn luyện kiểm tra chuyển định dạng trên, sau thực huấn luyện phân loại với tập liệu huấn luyện kiểm tra lại tập liệu kiểm tra độc lập Ngôn ngữ Java sử dụng để chuyển đổi từ liệu ban đầu (Hình 3.1 3.2) sang thành định dạng đọc LIBSVM Đầu tiên, file liệu tải tách thành file: file chứa nhãn câu hỏi tập thô, file chứa nhãn câu hỏi tập mịn Hình 3.3 3.4 kết tách file tập chứa 5500 câu hỏi Thực tương tự với file chứa liệu test Hình 3.3: File chứa 5500 nhãn câu hỏi tập thơ 42 Hình 3.4: File chứa 5500 nhãn câu hỏi tập mịn Sau đó, từ file (dữ liệu thô liệu mịn) tách thành file: file chứa câu hỏi file chứa nhãn đánh số Hình 3.5 3.6 kết tách file tập liệu huấn luyện Thực tương tự với tập liệu test Hình 3.5: File chứa 5500 câu hỏi huấn luyện 43 Hình 3.6: Nhãn tương ứng 5500 câu hỏi Từ đó, với file kết thu được, sử dụng đặc trưng bag of word thực đưa định dạng đọc thư viện LIBSVM Hình 3.7 3.8 file kết sử dụng đặc trưng bigram tập mịn tập liệu huấn luyện tập liệu test Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train 44 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 3.5 Huấn luyện kiểm thử với LibSVM Sau có file với định dạng chấp nhận thư viện LIBSVM, thực huấn luyện test Trong giai đoạn này, khóa luận sử dụng ngơn ngữ lập trình Python để thực tính đơn giản tiện lợi Cụ thể sau: - Load thư viện Libsvm : from svmutil import * - Đọc liệu: Load liệu huấn luyện: yTrain tập nhãn lớp, xTrain liệu để train yTrain, xTrain = svm_read_problem('train_5000_fine_unigram.txt') Load liệu test: yTest tập nhãn lớp, xTest liệu để test yTest, xTest = svm_read_problem('TREC_10_fine_unigram.txt') - Xây dựng mơ hình phân lớp: m = svm_train(yTrain, xTrain, '-t -h 0') Ở đây, tham số „-t 0‟ loại hàm nhân lựa chọn tuyến tính (Linear), tham số „-h 0‟ tức khơng dùng tính co lại khoảng cách lớp 45 - Phân loại câu hỏi dựa liệu test mơ hình thu trên: p_label, p_acc, p_val = svm_predict(yTest, xTest, m) Kết thu p_label: danh sách nhãn dự đốn câu hỏi, p_acc độ xác phân lớp 3.6 Kết thực nghiệm Độ xác phân loại sau thử nghiệm với phân loại SVM, lựa chọn đặc trưng unigram, bigram, sử dụng cách tính trọng số entropy sau: Bảng 3.3: Độ xác phân loại tập thơ với đặc trưng unigram bigram Đặc trƣng Unigram Bigram Độ xác 88,2% 85,6% Bảng 3.4: Độ xác phân loại tập mịn với đặc trưng unigram bigram Đặc trƣng Unigram Độ xác 80,2% Bigram 73,8% 3.7 Kết luận Như vậy, sau thực nghiệm đánh giá phân loại SVM sử dụng đặc trưng unigram bigram, nhận thấy kết phân loại đạt với độ xác cao (80.2% tập mịn) Đặc trưng unigram cho kết phân loại cao đặc trưng bigram 46 TỔNG KẾT Phân loại câu hỏi vấn đề khó Thực tế máy cần phải hiểu câu hỏi phân loại vào loại xác Điều thực loạt bước phức tạp Luận văn trình bày kiến thức toán phân loại câu hỏi giới thiệu số thuật toán để giải toán phân loại Tuy nhiên, luận văn mang tính tìm hiểu ứng dụng có, khơng có đề xuất hay cải tiến để làm tăng độ xác phân loại Ngồi ra, luận văn thực nghiệm ngôn ngữ Tiếng Anh mà chưa mở rộng thực nghiệm sang ngôn ngữ Tiếng Việt Trong tương lai gần, hướng phát triển trước mắt luận văn cần tìm hiểu kết hợp đặc trưng khác để làm tăng độ xác phân loại Thực phân loại nhiều ngôn ngữ 47 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Minh Tuấn (2008), Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt lĩnh vực y tế, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội Nguyễn Đức Vinh (2009), Phân tích câu hỏi hệ thống hỏi đáp Tiếng Việt, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội Tiếng Anh Babak Loni (2011), Enhanced Question Classification with Optimal Combination of Features, Department of Media and Knowledge Engineering Delft University of Technology Caixian Chen, Huijian Han, Zheng Liu (2014), KNN question classification method based on Apriori algorithm, Donald Metzler and W Bruce Croft (2004), Analysis of Statistical Question Classification for Fact-based Questions, University of Massachusetts, Amherst Håkan Sundblad (2007), Question Classification in Question Answering Systems, Linköping Jo˜ao Silva, Lu´ısa Coheur, Ana Mendes, and Andreas Wichert From symbolic to subsymbolic information in question classification Articial Intelligence Review, 35(2):137–154, February 2011 LI Xin, HUANG Xuan-Jing, WU Li-de (2006), Question Classification by Ensemble Learning, Dep of Computer Science and Engineering, FUDAN Univ., Shanghai, PRC Marcin Skowron and Kenji Araki (2005), “Effectiveness of Combined features for machine learning based question classification”, Journal of Natural Language Processing, Vol.12, No.6 10 Phuong Le-Hong, Xuan-Hieu Phan, and Tien-Dung Nguyen (2014), Using Dependency Analysis to Improve Question Classification 48 11 Rishika Yadav, Megha Mishra (2013), “Question Classification Using Naïve ayes Machine Learning Approach”, International Journal of Engineering and Innovative Technology (IJEIT), Volume 2, Issue 12 V.Vapnik (1995), The Nature of Statistical Learning Theory, NewYork 13 Xin Li, Dan Roth (2002), Learning Question Classifiers, In Proceedings of the 19th international conference on Computational Linguistics, 1, Taipei, Taiwan, pp 1–7 Association for Computational Linguistics 14 Zhang, D & Lee, W.S (2003), Question Classification Using Support Vector Machines, In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Toronto, Canada, pp 26-32 15 Zhiheng Huang, Marcus Thint, Zengchang Qin (2008), Question Classification Using Head Words and Their Hypernyms, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, Association for Computational Linguistics, pp 927–936 49 PHỤ LỤC Danh sách nhãn từ loại hệ thống Penn Treebank (http://www.surdeanu.info/mihai/teaching/ista555spring15/readings/PennTreebankConstituents.html#Clause ) Clause Level STT Mệnh đề Giải thích S Simple declarative clause, i.e one that is not introduced by a (possible empty) subordinating conjunction or a wh-word and that does not exhibit subject-verb inversion SBAR Clause introduced by a (possibly empty) subordinating conjunction SBARQ Direct question introduced by a wh-word or a wh-phrase Indirect questions and relative clauses should be bracketed as SBAR, not SBARQ SINV Inverted declarative sentence, i.e one in which the subject follows the tensed verb or modal SQ Inverted yes/no question, or main clause of a wh-question, following the wh-phrase in SBARQ Phrase Level STT Mệnh đề Giải thích ADJP Adjective Phrase ADVP Adverb Phrase CONJP Conjunction Phrase FRAG Fragment INTJ Interjection Corresponds approximately to the part-of-speech tag UH LST List marker Includes surrounding punctuation NAC Not a Constituent; used to show the scope of certain prenominal modifiers within an NP NP Noun Phrase NX Used within certain complex NPs to mark the head of the NP Corresponds very roughly to N-bar level but used quite differently 10 PP Prepositional Phrase 11 PRN Parenthetical 12 PRT Particle Category for words that should be tagged RP 13 QP Quantifier Phrase (i.e complex measure/amount phrase); used within NP 14 RRC Reduced Relative Clause 15 UCP Unlike Coordinated Phrase 16 VP Vereb Phrase 17 WHADJP Wh-adjective Phrase Adjectival phrase containing a wh-adverb, as in how hot 18 WHAVP Wh-adverb Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing a whadverb such as how or why 19 WHNP Wh-noun Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing some whword, e.g who, which book, whose daughter, none of which, orhow many leopards Word Level STT Từ loại Giải thích CC Coordinating conjunction CD Cardinal number DT Determiner EX Existential there FW Foreign word IN Preposition or subordinating conjunction JJ Adjective JJR Adjective, comparative JJS Adjective, superlative 10 LS List item marker 11 MD Modal 12 NN Noun, singular or mass 13 NNS Noun, plural 14 NP Proper noun, singular 15 NPS Proper noun, plural 16 PDT Predeterminer 17 POS Possessive ending 18 PP Personal pronoun 19 PP$ Possessive pronoun 20 RB Adverb 21 RBR Adverb, comparative 22 RBS Adverb, superlative 23 RP Particle 24 SYM Symbol 25 TO to 26 UH Interjection 27 VB Verb, base form 28 VBD Verb, past tense 29 VBG Verb, gerund or present participle 30 VBN Verb, past participle 31 VBP Verb, non-3rd person singular present 32 VBZ Verb, 3rd person singular present 33 WDT Wh-determiner 34 WP Wh-pronoun 35 WP$ Possessive wh-pronoun 36 WRB Wh-adverb