Làm giàu các đặc trưng cho bài toán phân lớp câu hỏi

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẾ LỘC LÀM GIÀU CÁC ĐẶC TRƯNG CHO BÀI TỐN PHÂN LỚP CÂU HỎI Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Hà Nội - 2012 Mục lục Lời cảm ơn Lời cam đoan Mục lục Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị MỞ ĐẦU Chƣơng 1.1 1.2 1.3 Chƣơng 2.1 2.2 2.3 2.4 2.5 Mơ hình phân tích chủ đề ẩn Chƣ 3.1 Ý tƣởng phƣơng pháp l 3.2 Phƣơng pháp làm giàu đặc t 3.3 Cài đặt thuật tốn cho phƣơ Chƣ 4.1 Mơi trƣờng thực nghiệm 4.2 Dữ liệu thực nghiệm 4.3 Các bƣớc tiến hành thực ng 4.4 Kết thực nghiệm 4.5 Đánh giá KẾT LUẬN TÀI LIỆU THAM KHẢO Danh mục ký hiệu chữ viết tắt STT Ký hiệu/Viết tắt TF IDF SVM kNN LDA POS Q&A Danh mục bảng Bảng 1.1 Taxonomy câu hỏi Bảng 2.1 Ví dụ đặc trƣng từ vựng Bảng 2.2 Head word câu hỏi Bảng 2.3 Mô hình sinh LDA Bảng 2.4 Chủ đề ẩn số 35 Bảng 2.5 Chủ đề ẩn số 48 Bảng 2.6 Chủ đề ẩn số Bảng 4.1 Phân bố câu hỏi theo taxonomy Bảng 4.2 Chủ đề ẩn số 35, lớp ENTY:color Bảng 4.3 Chủ đề ẩn số 48, lớp ENTY:animal Bảng 4.4 Chủ đề ẩn số 3, lớp ENTY:currency Bảng 4.5 Kết phân lớp theo lớp câu hỏi với liệu ban đầu Bảng 4.6 Kết phân lớp theo lớp câu hỏi với liệu làm giàu Bảng 4.7 So sánh kết phân lớp hai thử nghiệm Danh mục hình vẽ, đồ thị Hình 1.1 Kiến trúc chung hệ thống hỏi đáp Hình 2.1 WordNet Hypernyms ngữ nghĩa mức từ “capital” Hình 2.2 Lƣợc đồ chung xây dựng phân lớp Hình 2.3 Mơ hình phân lớp đa cấp Li Roth Hình 2.4 Minh họa mơ hình sinh LDA Hình 3.1 Mơ hình làm giàu câu hỏi Hình 4.1 Các bƣớc tiến hành thực nghiệm MỞ ĐẦU Hệ thống hỏi đáp tự động nhận đƣợc quan tâm đặc biệt nhà nghiên cứu, công ty (Yahoo, Google, Microsoft, IBM…), hội nghị lớn trích chọn thơng tin, xử lý ngơn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt đƣợc kết định Quy trình hoạt động hệ thống hỏi đáp tự động có nhiều bƣớc, bƣớc phân lớp câu hỏi đóng vai trị quan trọng việc giảm khơng gian tìm kiếm tăng độ xác kết tìm kiếm Đã có nhiều nghiên cứu nhằm tăng chất lƣợng phân lớp câu hỏi, kể đến nghiên cứu Xin Li Dan Roth (University of Illinois at Urbana-Champaign) [1], Zhiheng Huang Zengchang Qin (University of California at Berkeley) [2], Olalere Williams (Stanford University) [3]…, Xin Li Dan Roth ngƣời nghiên cứu vấn đề Các kết đạt đƣợc phần thỏa mãn yêu cầu hệ thống hỏi đáp tự động độ xác phân lớp chƣa thực cao Chính vậy, việc cải thiện chất lƣợng phân lớp cần thiết Luận văn tập trung vào cải thiện chất lƣợng phân lớp câu hỏi Phƣơng pháp chủ đạo đƣợc tác giả sử dụng luận văn làm giàu đặc trƣng ngữ nghĩa cho câu hỏi Ngoài phần mở đầu phần kết luận, luận văn đƣợc tổ chức thành chƣơng nhƣ sau: o Chƣơng 1: “Giới thiệu” trình bày tổng quan kiến trúc hệ thống hỏi đáp tự động Từ xác định toán phân lớp câu hỏi toán quan trọng mà luận văn tập trung vào Mục tiêu cụ thể luận văn đƣợc trình bày chƣơng o Chƣơng 2: “Cơ sở lý thuyết” giới thiệu sở lý thuyết phân lớp câu hỏi bao gồm: loại đặc trƣng câu hỏi, mơ hình để biểu diễn câu hỏi, số phƣơng pháp phân lớp câu hỏi phổ biến xây dựng phân lớp câu hỏi Chƣơng giới thiệu mơ hình phân tích chủ đề ẩn với LDA (Latent Dirichlet Allocation) o Chƣơng 3: “Làm giàu đặc trƣng cho câu hỏi” trình bày ý tƣởng phƣơng pháp làm giàu đặc trƣng câu hỏi o Chƣơng 4: “Thực nghiệm đánh giá” trình bày trình thử nghiệm luận văn đƣa số đánh giá, nhận xét kết đạt đƣợc Chƣơng 1.1 GIỚI THIỆU Hệ thống hỏi đáp tự động 1.1.1 Giới thiệu Hệ thống hỏi đáp tự động coi nhƣ lựa chọn thứ hai bên cạnh hệ thống trích chọn thơng tin (máy tìm kiếm) ngƣời dùng muốn tìm kiếm thơng tin mà họ quan tâm Hệ thống trích chọn thơng tin nhận đầu vào từ khóa trả tập tài liệu liên quan (có chứa từ khóa đó) Kết mà hệ thống trích chọn thơng tin trả lại cho ngƣời dùng lớn, lên đến hàng nghìn trang web mà phần nhiều khơng chứa thơng tin ngƣời dùng mong muốn Trong đó, hệ thống hỏi đáp nhận đầu vào câu hỏi dƣới dạng ngôn ngữ tự nhiên ngƣời dùng, trả lại đoạn văn ngắn (các snippet) chứa câu trả lời trực tiếp cho câu hỏi [4] Nghiên cứu hệ thống hỏi đáp tự động thu hút quan tâm nhiều nhà nghiên cứu từ trƣờng đại học, viện nghiên cứu doanh nghiệp lớn ngành cơng nghệ thơng tin, có ý nghĩa khoa học lẫn ý nghĩa thực tế Rất nhiều hội nghị thƣờng niên khai phá liệu, trích chọn thơng tin dành chủ đề riêng cho nghiên cứu hệ thống hỏi đáp nhƣ TREC1, CLEF2… Xây dựng hệ thống hỏi đáp tốn khó thuộc lĩnh vực xử lý ngơn ngữ tự nhiên Chúng ta biết ngôn ngữ tự nhiên vốn nhập nhằng, đa nghĩa, việc xác định đƣợc ngữ nghĩa câu hỏi nhƣ phát câu trả lời thách thức không nhỏ Không vậy, câu hỏi câu trả lời tồn quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh Ví dụ câu hỏi: “Ai tác giả Nhật ký tù ?” Câu trả lời: “ Hồ Chí Minh viết Nhật ký tù thời gian Ngƣời bị quyền Tƣởng Giới Thạch bắt giam giải khắp nhà giam Quảng Tây, Trung Quốc.” Để tìm đƣợc câu trả lời cho câu hỏi “Ai tác giả Nhật ký tù ?”, hệ thống cần có chế để biết đƣợc “tác giả tác phẩm ngƣời viết tác phẩm đó” cần học đƣợc mẫu thƣờng gặp câu trả lời (các mẫu ngày tháng năm sinh, thời gian, địa chỉ….) tƣơng ứng với loại câu hỏi Các hệ thống hỏi đáp sử dụng công cụ xử lý ngôn ngữ tự nhiên nhƣ gán nhãn từ loại (POS Tagger), nhận dạng thực thể định danh (Named Entity Recognizer), phân tích ngữ pháp (Parser)… tài ngun ngơn ngữ nhƣ Wordnet [5], ontology [6] để phân tích câu hỏi trích xuất câu trả lời 10 1.1.2 Một số vấn đề cần quan tâm Năm 2002, John Burger cộng [7] đƣa số vấn đề cần quan tâm xây dựng hệ th ống hỏi đáp nhƣ sau:  Loại câu hỏi: Đầu vào hệ thống hỏi đáp câu hỏi ngƣời dùng dƣới dạng ngôn ngữ tự nhiên Câu hỏi ngôn ngữ tự nhiên đa dạng, nhiều ẩn ý, nhiều nhập nhằng phụ thuộc vào ngữ cảnh hỏi Một số loại câu hỏi đƣợc quan tâm hệ hống hỏi đáp nhƣ câu hỏi vật, kiện, định nghĩa, danh sách, trình, cách thức, lý do… Mỗi loại câu hỏi có đặc trƣng khó khăn riêng, địi hỏi phải có chiến lƣợc để trả lời chúng  Xử lý câu hỏi: Một câu hỏi đƣợc diễn đạt nhiều cách khác Vì thế, việc xử lý câu hỏi xác định đƣợc câu hỏi tƣơng tự, quan hệ ngữ pháp, loại câu hỏi, đồng thời chuyển câu hỏi phức tạp thành chuỗi câu hỏi đơn giản  Ngữ cảnh: Câu hỏi thƣờng đƣợc gắn với ngữ cảnh câu trả lời đƣợc đƣa ngữ cảnh xác định Việc sử dụng thông tin ngữ cảnh giúp hệ thống hỏi đáp hiểu câu hỏi cách rõ ràng, loại bỏ đƣợc nhập nhằng tăng tính xác trả lời câu hỏi  Nguồn liệu: hệ thống hỏi đáp cho dù có hoạt động thơng minh đến đâu khơng thể tìm đƣợc xác câu trả lời nhƣ câu trả lời khơng nằm tập liệu Chính thế, hệ thống hỏi đáp cần phải có nguồn liệu phong phú, sách, báo chí hay trang web Tuy nhiên, cần đảm bảo nguồn liệu có độ tin cậy thơng tin xác cao  Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp câu hỏi, loại câu hỏi có đƣợc từ trình xử lý câu hỏi, liệu chứa câu trả lời, phƣơng pháp tìm kiếm ngữ cảnh, Câu trả lời cho ngƣời dùng cần phải đảm bảo xác đầy đủ 1.1.3 Kiến trúc hệ thống Các hệ thống hỏi đáp có kiến trúc khác tùy thuộc vào loại hệ thống hỏi đáp Tuy nhiên hệ thống hỏi đáp bao gồm ba bƣớc nhƣ Hình 1.1 [8] Sự khác hệ thống hỏi đáp trình xử lý bƣớc, đặc biệt cách tiếp cận việc xác định câu trả lời Hình 1.1 Kiến trúc chung hệ thống hỏi đáp 11 Bƣớc - Phân tích câu hỏi: Đây bƣớc hệ hỏi đáp Đầu vào câu hỏi dƣới dạng ngôn ngữ tự nhiên Tại bƣớc này, hệ thống phân tích câu hỏi để tạo truy vấn cho bƣớc trích chọn tài liệu liên quan tìm thơng tin hữu ích cho bƣớc trích xuất câu trả lời Có tốn bƣớc này, tốn cải thiện truy vấn (query reformation) toán phân lớp câu hỏi (question classification) Vai trị tốn phân lớp câu hỏi quan trọng, mục tiêu mà luận văn hƣớng tới để làm tăng độ xác cho phân lớp câu hỏi, từ làm tăng chất lƣợng hệ thống hỏi đáp Bƣớc - Thu thập tài liệu: Bƣớc sử dụng câu truy vấn đƣợc tạo bƣớc phân tích câu hỏi, truy vấn cơng cụ tìm kiếm để tìm tài liệu phục vụ cho việc tìm kiếm câu trả lời Bƣớc - Trích xuất câu trả lời: Bƣớc phân tích tập tài liệu thu thập đƣợc bƣớc sử dụng thông tin hữu ích bƣớc phân tích câu hỏi cung cấp để tìm kiếm, trích chọn đƣa câu trả lời xác cho câu hỏi ngƣời dùng 1.2 Bài toán phân lớp câu hỏi 1.2.1 Giới thiệu Phân lớp câu hỏi trình gán hay nhiều nhãn lớp (tùy thuộc vào chiến lƣợc phân lớp) cho câu hỏi theo dạng ngôn ngữ tự nhiên Bài toán phân lớp câu hỏi thƣờng đƣợc sử dụng hệ thống hỏi đáp tự động để thực trình phân lớp câu trả lời nhằm làm giảm khơng gian tìm kiếm, từ làm tăng tính xác tốc độ việc tìm kiếm câu trả lời Bài toán khác với toán phân lớp văn chỗ câu hỏi thƣờng ngắn chứa thơng tin so với văn Câu hỏi đầu vào hệ thống hỏi đáp tự động câu hỏi dƣới dạng ngôn ngữ tự nhiên ngƣời dùng Vì vậy, việc phân tích câu hỏi gặp khó khăn xử lý ngôn ngữ tự nhiên Theo Hồ Tú Bảo Lƣơng Chi Mai [9], khó nằm chỗ cho máy tính đƣợc hiểu ngơn ngữ ngƣời, từ việc hiểu nghĩa từ hoàn cảnh cụ thể, đến việc hiểu nghĩa câu hỏi, hiểu câu hỏi hỏi ngƣời hỏi mong muốn Mấu chốt chất phức tạp ngôn ngữ ngƣời, đặc biệt đa nghĩa nhập nhằng ngữ nghĩa ngơn ngữ Thêm nữa, có khác biệt sâu sắc ngƣời ngầm hiểu dùng nhiều lẽ thƣờng (common sense) ngôn ngữ, nhƣ hỏi “thời tiết” tức hỏi “nhiệt độ, độ ẩm, mƣa, nắng …”, hay biết “sợi dây” dùng để kéo khơng dùng để đẩy hay khều vật, khó làm cho máy hiểu lẽ thƣờng Cùng hỏi thông tin nhƣng câu hỏi đƣợc diễn đạt theo nhiều cách khác nhau, sử dụng từ ngữ, cấu trúc câu khác nhau, lúc dạng nghi vấn, lúc lại dạng 38 if sim >= ngưỡng Lưu zj then vào danh sách chủ đề ẩn lựa chọn Z* end if end for end for 3.3.3 Làm giàu câu hỏi  Đầu vào (input): tập câu hỏi phân theo lớp, tập chủ đề ẩn đƣợc lựa chọn ứng với lớp câu hỏi  Đầu (output): tập câu hỏi đƣợc làm giàu for lớp câu hỏi Ci for câu hỏi qj thuộc Ci float MAX = for chủ đề ẩn zk thuộc Z* tương ứng với Ci float sim = độ đo tương tự qj zk if MAX < sim then MAX = sim end for string tmax = chủ đề có độ tương tự với qj Bổ sung từ tmax vào câu hỏi qj end for end for MAX 39 Chƣơng 4.1 THỰC NGHIỆM VÀ ĐÁNH GIÁ Môi trƣờng thực nghiệm 4.1.1 Phần cứng Quá trình thực nghiệm luận văn đƣợc thực máy tính có cấu hình nhƣ sau: Máy tính 1: dùng để tiến hành tìm kiếm Google, lấy liệu tự động từ Internet, tạo đầu vào cho mơ hình LDA:  Chip: Intel Xeon 3,00 GHz    RAM: GB Hệ điều hành: Windows Server 2003 Standard x64 Cơng cụ lập trình: NET Framework 3.5 Máy tính 2: dùng để chạy chƣơng trình JGibbsLDA v.1.0, làm giàu đặc trƣng, phân lớp câu hỏi  Chip: Intel Core Duo T7300 2,00 GHz    RAM: GB Hệ điều hành: Windows Ultimate 32-bit Công cụ lập trình: Eclipse 3.7.0, Java 1.6 4.1.2 Phần mềm Các phần mềm tác giả luận văn tự xây dựng phần mềm nguồn mở đƣợc sử dụng luận văn:    Phần mềm GetSematicWords, tác giả luận văn tự xây dựng:  Nền tảng viết phần mềm: Microsoft C# NET 2008  Công dụng: Lấy kết tìm kiếm Google tạo liệu đầu vào cho mơ hình LDA Phần mềm EnhanceFeatures, tác giả luận văn tự xây dựng   Nền tảng viết phần mềm: Microsoft C# NET 2008 Công dụng: Lựa chọn chủ đề ẩn, làm giàu đặc trƣng cho câu hỏi Phần mềm TF-IDF, tác giả luận văn tự xây dựng   Nền tảng viết phần mềm: Microsoft C# NET 2008 Công dụng: Biểu diễu đặc trƣng câu hỏi dƣới dạng véc-tơ đặc trƣng, đầu vào cho phân lớp  Phần mềm JGibbsLDA v.1.0, tác giả Phan Xuân Hiếu Nguyễn Cẩm Tú [22]  Nền tảng viết phần mềm: Java 40  Cơng dụng: Xây dựng phân tích chủ đề ẩn  Phần mềm libsvm-3.1, tác giả Chih-Chung Chang Chih-Jen Lin   Nền tảng viết phần mềm: C++, Java Công dụng: Phân lớp văn bản, câu hỏi 4.2 Dữ liệu thực nghiệm Bộ liệu đƣợc sử dụng trình thực nghiệm liệu chuẩn Xin Li Dan Roth xây dựng, bao gồm: 5500 câu hỏi huấn luyện (lƣu file train_5500.label), 500 câu hỏi kiểm tra (lƣu file TREC_10.label) đƣợc phân bố nhƣ sau: Bảng 4.1 Phân bố câu hỏi theo taxonomy Lớp ABBREV abb exp DESC definition description manner reason ENTITY animal body color creative currency dis.med event food instrument lang Ở #Tr số lƣợng câu hỏi phân bố theo lớp tập liệu huấn luyện, #Te số lƣợng câu hỏi phân bố theo lớp tập liệu kiểm tra 41 4.3 Các bƣớc tiến hành thực nghiệm Quá trình thực nghiệm với mơ hình làm giàu đặc trƣng câu hỏi đề xuất đƣợc tiến hành cách sử dụng chƣơng trình phần mềm (do tác giả tự viết phần mềm mã nguồn mở) theo trình tự nhƣ sau: File huấn luyện train_5500.label TF-IDF File biểu diễn câu hỏi dƣới dạng véc-tơ libsvm-3.1 File kết phân lớp *.vector Hình 4.1 Các bước tiến hành thực nghiệm Bƣớc 1: Bổ sung liệu từ Internet, tạo file input cho JGibbLDA Bƣớc sử dụng phần mềm GetSemanticWords tác giả luận văn tự xây dựng với trình tự chi tiết nhƣ sau:   Đọc file liệu huấn luyện (train_5500.label)  tách nhãn lớp khỏi câu hỏi nhóm câu hỏi theo lớp  Duyệt câu hỏi theo lớp, dùng phƣơng thức GET để lấy file HTML kết tìm kiếm Google ứng với câu hỏi (chỉ lấy trang gồm 10 kết  đầu tiên) tìm lấy 10 liên kết nội dung tƣơng ứng  Lấy nội dung trang web ứng với liên kết tìm đƣợc trên: bƣớc nên kiểm tra để lấy html, text (không lấy *.doc, *.xls, *.ppt…) (các trang web sau lấy lưu vào file *.htm theo câu hỏi lớp câu hỏi)  Trích văn từ file HTML lấy đƣợc (loại bỏ HTML tags, đoạn JavaScript, Style…) (các file văn lưu vào file *.txt)  Tiền xử lý: loại bỏ ký tự đặc biệt, dấu cách thừa (các file văn sau tiền xử lý lưu vào file *.pre)  Tạo file đầu vào cho jgibblda: nối file *.pre thành file ứng với lớp (nhƣ có 50 file ứng với 50 lớp câu hỏi) với cấu trúc: dòng nội 42 dung file *.pre, dòng số dòng (số file *.pre) (các file đầu vào cho LDA lưu vào file *.jgl tương ứng cho lớp câu hỏi) Sau bƣớc này, tác giả nhận đƣợc gần GB liệu trang web Sau trích tiền xử lý thu đƣợc gần 200 MB liệu text để làm đầu vào cho mơ hình LDA Bƣớc 2: Sử dụng JGibbLDA để tìm chủ đề ẩn Tác giả sử dụng chƣơng trình mã nguồn mở JGibbLDA-v.1.0 với liệu bƣớc (lần lƣợt với file *.jgl) để tìm chủ đề ẩn Số lƣợng chủ đề ẩn đầu 50 chủ đề, với chủ đề lấy 20 từ có xác suất lớn (các tham số thực JGibbLDA-v.1.0 nhƣ sau: -est -alpha 0.5 -beta 0.1 -ntopics 50 -niters 1000 savestep 100 -twords 20) Kết đạt đƣợc nằm file *.twords (chứa topic –th) Bƣớc 3: Làm giàu đặc trƣng cho tập liệu huấn luyện Bƣớc sử dụng phần mềm EnhanceFeatures tác giả luận văn tự xây dựng với trình tự chi tiết nhƣ sau:    Đọc file train tách nhãn lớp nhóm câu hỏi theo class  Chọn chủ đề “gần” lớp câu hỏi Tiêu chí để chọn chủ đề ẩn z độ “tƣơng tự” chủ đề z lớp C lớn giá trị ngƣỡng cho trƣớc Sau nhiều thử nghiệm, tác giả nhận thấy ngƣỡng  = 0.024 mang lại hiệu tốt (các chủ đề lưu vào file SelectedTopics\*.txt)  Làm giàu cho file train: duyệt qua câu hỏi theo class, bổ sung vào câu hỏi từ “gần” với câu hỏi từ file SelectedTopics\*.txt (các câu hỏi class đƣợc bổ sung khác nhau) (file train sau làm giàu lưu vào file *.enha) Dƣới từ có xác suất cao số chủ đề ẩn thuộc tập Z* tìm đƣợc lớp gần với chủ đề đó: Bảng 4.2 Chủ đề ẩn số 35, lớp ENTY:color STT Từ color colors red green light blue yellow 10 11 12 colour see magenta blindness white Bảng 4.3 Chủ đề ẩ STT 10 11 12 Từ tiger donkey big subspecies african tigris panthera siberian caspian lion Bảng 4.4 Chủ đề ẩ STT Từ exchange rate money gold dollar coin yuan currency bank Bƣớc 4: Chuyển file train làm giàu, file test sang dạng Véc-tơ Bƣớc sử dụng phần mềm TF-IDF tác giả luận văn tự xây dựng với trình tự chi tiết nhƣ sau:  Đọc file train test (để tạo từ điển chung), tách nhãn lớp  Duyệt câu hỏi (cả train test), chuyển thành term véc-tơ (TF * IDF)  Bổ sung class (đã chuyển thành số tƣơng ứng) vào đầu term véc-tơ (kết lưu vào file *.vector) 44 Bƣớc 5: Sử dụng LibSVM để phân lớp Bƣớc sử dụng phần mềm libsvm-3.1 tác giả Chih-Chung Chang Chih-Jen Lin với trình tự chi tiết nhƣ sau:    4.4 Để nguyên file *.vector, không thực scale Tiến hành huấn luyện liệu với tham số kernel tuyến tính (linear): -t Phân lớp liệu test với liệu huấn luyện thu đƣợc Kết thực nghiệm 4.4.1 Phân lớp với tập liệu ban đầu Bảng 4.5 Kết phân lớp theo lớp câu hỏi với liệu ban đầu Lớp ABBREV abb exp DESC def desc manner reason ENTITY animal body color currency dismed event food instru lang other plant product sport substance techmeth Ở #Dist số lƣợng câu hỏi kiểm tra phân bố lớp, #Acc số lƣợng câu hỏi đƣợc phân lớp đúng, cột bên cạnh phần trăm phân lớp xác 4.4.2 Phân lớp với tập liệu đƣợc làm giàu Bảng 4.6 Kết phân lớp theo lớp câu hỏi với liệu làm giàu Lớp ABBREV abb exp DESC def desc manner reason ENTITY animal body color currency dismed event food instru lang other plant product sport substance techmeth 46 Ở #Dist số lƣợng câu hỏi kiểm tra phân bố lớp, #Acc số lƣợng câu hỏi đƣợc phân lớp đúng, cột bên cạnh phần trăm phân lớp xác 4.5 Đánh giá Từ kết thực nghiệm, ta thấy phƣơng pháp làm giàu đạt đƣợc hiệu định, điều đƣợc thể qua độ xác phân lớp tăng 3,8% so với ban đầu Nếu xem xét chi tiết theo lớp câu hỏi thấy việc làm giàu làm tăng độ xác phân lớp số lớp, nhƣng đồng thời làm giảm độ xác phân lớp vài lớp Điều xảy nhiễu trình làm giàu Bảng 4.7 rõ khác thử nghiệm với liệu ban đầu liệu làm giàu Bảng 4.7 So sánh kết phân lớp hai thử nghiệm Lớp ABBREV abb exp DESC def desc manner reason ENTITY animal body color currency dismed event food instru lang other plant product sport substance techmeth #Dist 47 Ở #Dist số lƣợng câu hỏi kiểm tra phân bố lớp, #Acc1 số lƣợng câu hỏi đƣợc phân lớp theo thử nghiệm với tập liệu ban đầu, #Acc2 số lƣợng câu hỏi đƣợc phân lớp theo thử nghiệm với tập liệu làm giàu, cột %1, %2 bên cạnh phần trăm phân lớp xác tƣơng ứng Nhìn vào Bảng 4.7 thấy lớp ENTITY:animal bị giảm độ xác phân lớp từ 50% xuống 43.8% Điều xảy phần nhập nhằng ngôn ngữ phần nhƣợc điểm phƣơng pháp làm giàu Ta xem xét câu hỏi “What is a baby turkey called ?”, câu hỏi bị nhập nhằng từ “turkey”, từ hiểu theo hai nghĩa khác nhau: “gà tây” “quốc gia Thổ nhĩ kỳ”, vậy, bổ sung liệu từ Internet thơng qua máy tìm kiếm Google đồng nghĩa với việc bổ sung liệu nhiễu Điều dẫn đến câu hỏi bị phân lớp nhầm vào LOCATION:country Ngoài ra, câu hỏi “What is a group of frogs called ?” bị phân lớp sai xuất hai từ “group” (nhóm) “frogs” (con ếch) Trong từ “frogs” hƣớng phân lớp phân câu hỏi vào lớp ENTY:animal, từ “group” lại làm cho phân lớp hiểu nhầm câu hỏi thuộc lớp HUMAN:group Vì thế, truy vấn tồn nội dung câu hỏi với Google ta nhận đƣợc liệu bổ sung cho hai trƣờng hợp này, gây nhiễu q trình phân lớp Nếu ta biết đƣợc từ “frogs” từ quan trọng ta truy vấn từ với Google thay với tồn từ câu hỏi Đây nhƣợc điểm mà phƣơng pháp làm giàu đƣợc đề xuất luận văn cần phải khắc phục Tuy nhiên, việc truy vấn với toàn từ câu hỏi mang lại hiệu tích cực Điển hình, ta thấy độ xác phần lớp lớp ENTY:body đƣợc tăng từ 50% lên 100% Ta xét câu hỏi “What color are crickets ?”, ta chọn từ “crickets” để truy vấn câu hỏi với máy tìm kiếm Google nhận đƣợc kết tìm kiếm môn thể thao crickets, nhƣ liệu bổ sung cho câu hỏi bị sai hồn tồn Cịn ta truy vấn tồn nội dung câu hỏi với máy tìm kiếm Google từ “What color…” làm cho máy tìm kiếm Google hiểu ta muốn tìm “color” “crickets”, liệu thu đƣợc “color” giúp phân lớp câu hỏi xác định đƣợc câu hỏi thuộc lớp ENTY:color (màu sắc) thay thuộc vào nhóm ENTY:sport (thể thao) Tóm lại, thơng qua phân tích trên, ta thấy phƣơng pháp làm giàu đƣợc đề xuất luận văn ƣu điểm nhƣợc điểm Với số câu hỏi cụ thể phƣơng pháp làm giàu phát huy đƣợc ƣu điểm, nhƣng với số câu hỏi cụ thể khác phƣơng pháp lại thể nhƣợc điểm Rất khó để đề xuất đƣợc phƣơng pháp tồn diện, nhƣng ta nghiên cứu kỹ đặc điểm câu hỏi để từ đề xuất phƣơng pháp phù hợp Từ đó, ta kết hợp phƣơng pháp với để đạt đƣợc kết tốt 48 KẾT LUẬN Bài toán phân lớp câu hỏi toán quan trọng hệ thống hỏi đáp tự động, hƣớng nghiên cứu có tính ứng dụng thực tiễn cao Phƣơng pháp giải luận văn tập trung vào việc làm giàu đặc trƣng ngữ nghĩa câu câu hỏi thông qua chủ đề ẩn, tri thức bổ sung đƣợc lấy từ kho liệu khổng lồ Internet thông qua máy tìm kiếm Google Luận văn đạt đƣợc kết sau: Trình bày cách khái quát hệ thống hỏi đáp tự động nêu lên ý nghĩa, vai trị pha phân tích câu hỏi hệ thống hỏi đáp mà tốn phân lớp câu hỏi đóng vai trị trung tâm Luận văn tiến hành nghiên cứu toán phân lớp câu hỏi, mơ hình biểu diễn câu hỏi, loại đặc trƣng câu hỏi Khóa luận việc phân lớp câu hỏi theo loại đặc trƣng ngữ nghĩa đặc biệt quan trọng với hệ thống hỏi đáp tự động Đề xuất phƣơng pháp làm giàu đặc trƣng câu hỏi để cải tiến chất lƣợng phân lớp câu hỏi, đồng thời xây dựng đƣợc số chƣơng trình phục vụ cho việc làm giàu đặc trƣng câu hỏi, biểu diễn đặc trƣng câu hỏi dƣới mơ hình khơng gian véc-tơ để làm đầu vào cho phân lớp Thực nghiệm phƣơng pháp đề xuất đạt kết khả quan (cải tiến độ xác lên 3,8%) cho thấy tính đắn việc lựa chọn phƣơng pháp Tuy độ xác phân lớp tăng lên không cao nhƣng hứa hẹn nhiều tiềm để phát triển Hƣớng phát triển tƣơng lai: Kết thực nghiệm luận văn cho thấy độ xác phân lớp số lớp câu hỏi sau làm giàu có độ giảm so với trƣớc làm giàu Điều liệu thu đƣợc từ Internet thông qua máy tìm kiếm Google bị nhiễu nội dung truy vấn tồn từ câu hỏi Thơng thƣờng, máy tìm kiếm cho kết tốt truy vấn từ khóa Chính vậy, hƣớng phát triển tƣơng lai luận văn tập trung vào việc giảm liệu nhiễu cách trích chọn từ khóa quan trọng câu hỏi (có thể lấy head word theo nghiên cứu Zhiheng Huang [2]), từ truy vấn Google để lấy liệu với từ khóa Kết hợp phƣơng pháp với phƣơng pháp đƣợc đề xuất luận văn mang lại kết tốt 49 TÀI LIỆU THAM KHẢO [1] X Li and D Roth, "Learning Question Classifiers," in The 19th international conference on Computational linguistics, 2002, pp 1-7 Z.Huang, M Thint, and Z Qin, "Question classification using head [2] words and their hypernyms," in In Proceedings of the Conference on Empirical Methods in Natural Language Processing, (EMNLP ’08), 2008, p 927–936 [3] O Williams, "High-performance question classification using semantic features," Standford University, 2010 M E Voorhees, "The TREC-8 Question Answering Track Report," in [4] Paper presented at the Eighth Text REtrieval Conference (TREC 8), Gaithersburg, 1999 [5] [6] 2001 G.A Miller, R Beckwith, C Fellbaum, D Gross, and K Miller (1998) Introduction to WordNet: An On-line Lexical Database N F Noy and D L McGuinness, "Ontology Development 101: A Guide to Creating Your First Ontology SMI," Technical report SMI-2001-0880, [7] J Burger, et al., "Issues, Tasks and Program Structure to Roadmap Research in Question & Answering (Q&A)" [8] B Magnini, "Open Domain Question Answering: Techniques, Resources and Systems," in RANLP, 2005 [9] H T Bảo and L C Mai, "Về xử lý tiếng Việt công nghệ thông tin," 2008 W P Robinson and S J Rackstraw, A Question of Answers (Vol I) [10] Boston: Routledge & Kegan Paul, 1972 W P Robinson and S J Rackstraw, A Question of Answers (Vol II) [11] Boston: Routledge & Kegan Paul, 1972 E Hovy, U Hermjakob, and C .-Y Lin, "The Use of External [12] Knowledge in Factoid QA," in Paper presented at the Tenth TextREtrieval Conference (TREC 10), Gaithersburg, MD, 2001 D Moldovan, et al., "The Structure and Performance of an OpenDomain [13] Question Answering System," in In Proceedings of the 38th Annual Meeting of 50 the Association for Comoutational Linguistics (ACL-2000), 2000 E Hovy, U Hermjakob, and DeepakRavichandran, "A Question/Answer [14] Typology with Surface Text Patterns," in In Proceedings of the second international, 2002 X Li and D Roth, "Learning question classifiers: the role of semantic [15] information," Natural Language Engineering, vol 12, no 3, p 229–249, 2006 G Salton, A Wong, and C S Yang, "A vector space model for automatic [16] indexing," Communications of the ACM, pp 613-620, 1975 H Q Thụy, et al., Giáo trình khai phá liệu Web NXB Giáo dục, 2009 [17] V N.Vapnik, Staticstical Learning Theory Wiley, 1998 [18] N T Thanh, "Study on Acquiring and Using Linguistic Semantic [19] Information for Search System," Japan Advanced Institute of Science and Technology Doctor thesis, 2008 T Joachims, "Text Categorization with Support Vector Machines: [20] Learning with Many Relevant Features," in Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, pp 137-142 D M Blei, A Y Ng, and M I Jordan, "Latent Dirichlet Allocation," The [21] Journal of Machine Learning Research, vol 3, pp 993-1022, 2003 P X Hiếu and N C Tú (2008) JGibbLDA: A Java Implementation of [22] Latent Dirichlet Allocation (LDA) [Online] http://jgibblda.sourceforge.net ... lƣợng câu hỏi kiểm tra phân bố lớp, #Acc số lƣợng câu hỏi đƣợc phân lớp đúng, cột bên cạnh phần trăm phân lớp xác 4.4.2 Phân lớp với tập liệu đƣợc làm giàu Bảng 4.6 Kết phân lớp theo lớp câu hỏi. .. bƣớc phân tích câu hỏi cung cấp để tìm kiếm, trích chọn đƣa câu trả lời xác cho câu hỏi ngƣời dùng 1.2 Bài toán phân lớp câu hỏi 1.2.1 Giới thiệu Phân lớp câu hỏi trình gán hay nhiều nhãn lớp. .. sau [17]: 24 Phân lớp nhị phân miền áp dụng có hai lớp phân lớp đa lớp miền ứng dụng có nhiều lớp Nhƣ phân lớp nhị phân trƣờng hợp đặc biệt toán phân lớp, nhiên xuất xứ phân lớp nhị phân có vị

Định dạng
Số trang	56
Dung lượng	297,59 KB