Thực nghiệm chế tạo hệ perovskite kép ca3 mn2o7 pha tạp fe x 0 025 0 15 và nghiên cứu tính chất điện từ của chúng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THẾ LỘC LÀM GIÀU CÁC ĐẶC TRƯNG CHO BÀI TỐN PHÂN LỚP CÂU HỎI Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Hà Nội - 2012 Mục lục Lời cảm ơn Lời cam đoan Mục lục Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị .7 MỞ ĐẦU Chƣơng GIỚI THIỆU 1.1 Hệ thống hỏi đáp tự động .9 1.1.1 Giới thiệu 1.1.2 Một số vấn đề cần quan tâm 10 1.1.3 Kiến trúc hệ thống 10 1.2 Bài toán phân lớp câu hỏi 11 1.2.1 Giới thiệu .11 1.2.2 Taxonomy câu hỏi 12 1.3 Mục tiêu luận văn 15 Chƣơng CƠ SỞ LÝ THUYẾT .17 2.1 Các loại đặc trƣng câu hỏi 17 2.1.1 Đặc trƣng từ vựng 17 2.1.2 Đặc trƣng cú pháp 17 2.1.3 Đặc trƣng ngữ nghĩa 19 2.2 Mơ hình biểu diễn câu hỏi 20 2.2.1 Phƣơng pháp biểu diễn Boolean 21 2.2.2 Các phƣơng pháp biểu diễn dựa tần số 21 2.3 Một số phƣơng pháp phân lớp câu hỏi .23 2.3.1 Máy véc-tơ hỗ trợ (Support Vector Machine) .25 2.3.2 Cực đại hóa Entropy (Maximum Entropy) 25 2.4 Xây dựng phân lớp câu hỏi 26 2.4.1 Mô hình phân lớp câu hỏi 26 2.4.2 Trích chọn đặc trƣng cho phân lớp câu hỏi 27 2.5 Mơ hình phân tích chủ đề ẩn 29 2.5.1 Giới thiệu LDA 29 2.5.2 Phân tích chủ đề ẩn với LDA 29 2.5.3 Ví dụ số chủ đề ẩn đƣợc sinh LDA 32 Chƣơng LÀM GIÀU ĐẶC TRƢNG CHO CÂU HỎI 34 3.1 Ý tƣởng phƣơng pháp làm giàu 34 3.2 Phƣơng pháp làm giàu đặc trƣng 35 3.3 Cài đặt thuật toán cho phƣơng pháp 36 3.3.1 Lấy liệu từ Internet 36 3.3.2 Lựa chọn chủ đề ẩn 37 3.3.3 Làm giàu câu hỏi .38 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 39 4.1 Môi trƣờng thực nghiệm 39 4.1.1 Phần cứng .39 4.1.2 Phần mềm .39 4.2 Dữ liệu thực nghiệm 40 4.3 Các bƣớc tiến hành thực nghiệm 41 4.4 Kết thực nghiệm 44 4.4.1 Phân lớp với tập liệu ban đầu 44 4.4.2 Phân lớp với tập liệu đƣợc làm giàu 45 4.5 Đánh giá 46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 Danh mục ký hiệu chữ viết tắt STT Ký hiệu/Viết tắt TF IDF SVM kNN LDA POS Q&A Diễn giải Term Frequency – Tần suất từ Inverse Document Frequency – Tần suất nghịch đảo tài liệu Support Vector Machines – Máy Véc-tơ hỗ trợ k-Nearest Neighbor – k láng giềng gần Latent Dirichlet Allocation Part of speech – từ loại Hệ thống hỏi đáp tự động Danh mục bảng Bảng 1.1 Taxonomy câu hỏi 14 Bảng 2.1 Ví dụ đặc trƣng từ vựng .17 Bảng 2.2 Head word câu hỏi .18 Bảng 2.3 Mô hình sinh LDA 30 Bảng 2.4 Chủ đề ẩn số 35 32 Bảng 2.5 Chủ đề ẩn số 48 33 Bảng 2.6 Chủ đề ẩn số 33 Bảng 4.1 Phân bố câu hỏi theo taxonomy 40 Bảng 4.2 Chủ đề ẩn số 35, lớp ENTY:color .42 Bảng 4.3 Chủ đề ẩn số 48, lớp ENTY:animal 43 Bảng 4.4 Chủ đề ẩn số 3, lớp ENTY:currency 43 Bảng 4.5 Kết phân lớp theo lớp câu hỏi với liệu ban đầu .44 Bảng 4.6 Kết phân lớp theo lớp câu hỏi với liệu làm giàu .45 Bảng 4.7 So sánh kết phân lớp hai thử nghiệm 46 Danh mục hình vẽ, đồ thị Hình 1.1 Kiến trúc chung hệ thống hỏi đáp 10 Hình 2.1 WordNet Hypernyms ngữ nghĩa mức từ “capital” 19 Hình 2.2 Lƣợc đồ chung xây dựng phân lớp 24 Hình 2.3 Mơ hình phân lớp đa cấp Li Roth 27 Hình 2.4 Minh họa mơ hình sinh LDA 30 Hình 3.1 Mơ hình làm giàu câu hỏi 35 Hình 4.1 Các bƣớc tiến hành thực nghiệm 41 MỞ ĐẦU Hệ thống hỏi đáp tự động nhận đƣợc quan tâm đặc biệt nhà nghiên cứu, công ty (Yahoo, Google, Microsoft, IBM…), hội nghị lớn trích chọn thơng tin, xử lý ngơn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt đƣợc kết định Quy trình hoạt động hệ thống hỏi đáp tự động có nhiều bƣớc, bƣớc phân lớp câu hỏi đóng vai trị quan trọng việc giảm khơng gian tìm kiếm tăng độ xác kết tìm kiếm Đã có nhiều nghiên cứu nhằm tăng chất lƣợng phân lớp câu hỏi, kể đến nghiên cứu Xin Li Dan Roth (University of Illinois at Urbana-Champaign) [1], Zhiheng Huang Zengchang Qin (University of California at Berkeley) [2], Olalere Williams (Stanford University) [3]…, Xin Li Dan Roth ngƣời nghiên cứu vấn đề Các kết đạt đƣợc phần thỏa mãn yêu cầu hệ thống hỏi đáp tự động độ xác phân lớp chƣa thực cao Chính vậy, việc cải thiện chất lƣợng phân lớp cần thiết Luận văn tập trung vào cải thiện chất lƣợng phân lớp câu hỏi Phƣơng pháp chủ đạo đƣợc tác giả sử dụng luận văn làm giàu đặc trƣng ngữ nghĩa cho câu hỏi Ngoài phần mở đầu phần kết luận, luận văn đƣợc tổ chức thành chƣơng nhƣ sau: o Chƣơng 1: “Giới thiệu” trình bày tổng quan kiến trúc hệ thống hỏi đáp tự động Từ xác định toán phân lớp câu hỏi toán quan trọng mà luận văn tập trung vào Mục tiêu cụ thể luận văn đƣợc trình bày chƣơng o Chƣơng 2: “Cơ sở lý thuyết” giới thiệu sở lý thuyết phân lớp câu hỏi bao gồm: loại đặc trƣng câu hỏi, mơ hình để biểu diễn câu hỏi, số phƣơng pháp phân lớp câu hỏi phổ biến xây dựng phân lớp câu hỏi Chƣơng giới thiệu mô hình phân tích chủ đề ẩn với LDA (Latent Dirichlet Allocation) o Chƣơng 3: “Làm giàu đặc trƣng cho câu hỏi” trình bày ý tƣởng phƣơng pháp làm giàu đặc trƣng câu hỏi o Chƣơng 4: “Thực nghiệm đánh giá” trình bày trình thử nghiệm luận văn đƣa số đánh giá, nhận xét kết đạt đƣợc Chƣơng 1.1 GIỚI THIỆU Hệ thống hỏi đáp tự động 1.1.1 Giới thiệu Hệ thống hỏi đáp tự động coi nhƣ lựa chọn thứ hai bên cạnh hệ thống trích chọn thơng tin (máy tìm kiếm) ngƣời dùng muốn tìm kiếm thơng tin mà họ quan tâm Hệ thống trích chọn thơng tin nhận đầu vào từ khóa trả tập tài liệu liên quan (có chứa từ khóa đó) Kết mà hệ thống trích chọn thơng tin trả lại cho ngƣời dùng lớn, lên đến hàng nghìn trang web mà phần nhiều không chứa thông tin ngƣời dùng mong muốn Trong đó, hệ thống hỏi đáp nhận đầu vào câu hỏi dƣới dạng ngôn ngữ tự nhiên ngƣời dùng, trả lại đoạn văn ngắn (các snippet) chứa câu trả lời trực tiếp cho câu hỏi [4] Nghiên cứu hệ thống hỏi đáp tự động thu hút quan tâm nhiều nhà nghiên cứu từ trƣờng đại học, viện nghiên cứu doanh nghiệp lớn ngành cơng nghệ thơng tin, có ý nghĩa khoa học lẫn ý nghĩa thực tế Rất nhiều hội nghị thƣờng niên khai phá liệu, trích chọn thơng tin dành chủ đề riêng cho nghiên cứu hệ thống hỏi đáp nhƣ TREC1, CLEF2… Xây dựng hệ thống hỏi đáp tốn khó thuộc lĩnh vực xử lý ngơn ngữ tự nhiên Chúng ta biết ngôn ngữ tự nhiên vốn nhập nhằng, đa nghĩa, việc xác định đƣợc ngữ nghĩa câu hỏi nhƣ phát câu trả lời thách thức không nhỏ Không vậy, câu hỏi câu trả lời tồn quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh Ví dụ câu hỏi: “Ai tác giả Nhật ký tù ?” Câu trả lời: “ Hồ Chí Minh viết Nhật ký tù thời gian Ngƣời bị quyền Tƣởng Giới Thạch bắt giam giải khắp nhà giam Quảng Tây, Trung Quốc.” Để tìm đƣợc câu trả lời cho câu hỏi “Ai tác giả Nhật ký tù ?”, hệ thống cần có chế để biết đƣợc “tác giả tác phẩm ngƣời viết tác phẩm đó” cần học đƣợc mẫu thƣờng gặp câu trả lời (các mẫu ngày tháng năm sinh, thời gian, địa chỉ….) tƣơng ứng với loại câu hỏi Các hệ thống hỏi đáp sử dụng công cụ xử lý ngôn ngữ tự nhiên nhƣ gán nhãn từ loại (POS Tagger), nhận dạng thực thể định danh (Named Entity Recognizer), phân tích ngữ pháp (Parser)… tài nguyên ngôn ngữ nhƣ Wordnet [5], ontology [6] để phân tích câu hỏi trích xuất câu trả lời 10 1.1.2 Một số vấn đề cần quan tâm Năm 2002, John Burger cộng [7] đƣa số vấn đề cần quan tâm xây dựng hệ th ống hỏi đáp nhƣ sau:  Loại câu hỏi: Đầu vào hệ thống hỏi đáp câu hỏi ngƣời dùng dƣới dạng ngôn ngữ tự nhiên Câu hỏi ngôn ngữ tự nhiên đa dạng, nhiều ẩn ý, nhiều nhập nhằng phụ thuộc vào ngữ cảnh hỏi Một số loại câu hỏi đƣợc quan tâm hệ hống hỏi đáp nhƣ câu hỏi vật, kiện, định nghĩa, danh sách, trình, cách thức, lý do… Mỗi loại câu hỏi có đặc trƣng khó khăn riêng, địi hỏi phải có chiến lƣợc để trả lời chúng  Xử lý câu hỏi: Một câu hỏi đƣợc diễn đạt nhiều cách khác Vì thế, việc xử lý câu hỏi xác định đƣợc câu hỏi tƣơng tự, quan hệ ngữ pháp, loại câu hỏi, đồng thời chuyển câu hỏi phức tạp thành chuỗi câu hỏi đơn giản  Ngữ cảnh: Câu hỏi thƣờng đƣợc gắn với ngữ cảnh câu trả lời đƣợc đƣa ngữ cảnh xác định Việc sử dụng thông tin ngữ cảnh giúp hệ thống hỏi đáp hiểu câu hỏi cách rõ ràng, loại bỏ đƣợc nhập nhằng tăng tính xác trả lời câu hỏi  Nguồn liệu: hệ thống hỏi đáp cho dù có hoạt động thơng minh đến đâu khơng thể tìm đƣợc xác câu trả lời nhƣ câu trả lời khơng nằm tập liệu Chính thế, hệ thống hỏi đáp cần phải có nguồn liệu phong phú, sách, báo chí hay trang web Tuy nhiên, cần đảm bảo nguồn liệu có độ tin cậy thơng tin xác cao  Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp câu hỏi, loại câu hỏi có đƣợc từ trình xử lý câu hỏi, liệu chứa câu trả lời, phƣơng pháp tìm kiếm ngữ cảnh, Câu trả lời cho ngƣời dùng cần phải đảm bảo xác đầy đủ 1.1.3 Kiến trúc hệ thống Các hệ thống hỏi đáp có kiến trúc khác tùy thuộc vào loại hệ thống hỏi đáp Tuy nhiên hệ thống hỏi đáp bao gồm ba bƣớc nhƣ Hình 1.1 [8] Sự khác hệ thống hỏi đáp trình xử lý bƣớc, đặc biệt cách tiếp cận việc xác định câu trả lời Hình 1.1 Kiến trúc chung hệ thống hỏi đáp 11 Bƣớc - Phân tích câu hỏi: Đây bƣớc hệ hỏi đáp Đầu vào câu hỏi dƣới dạng ngôn ngữ tự nhiên Tại bƣớc này, hệ thống phân tích câu hỏi để tạo truy vấn cho bƣớc trích chọn tài liệu liên quan tìm thơng tin hữu ích cho bƣớc trích xuất câu trả lời Có tốn bƣớc này, tốn cải thiện truy vấn (query reformation) toán phân lớp câu hỏi (question classification) Vai trị tốn phân lớp câu hỏi quan trọng, mục tiêu mà luận văn hƣớng tới để làm tăng độ xác cho phân lớp câu hỏi, từ làm tăng chất lƣợng hệ thống hỏi đáp Bƣớc - Thu thập tài liệu: Bƣớc sử dụng câu truy vấn đƣợc tạo bƣớc phân tích câu hỏi, truy vấn cơng cụ tìm kiếm để tìm tài liệu phục vụ cho việc tìm kiếm câu trả lời Bƣớc - Trích xuất câu trả lời: Bƣớc phân tích tập tài liệu thu thập đƣợc bƣớc sử dụng thông tin hữu ích bƣớc phân tích câu hỏi cung cấp để tìm kiếm, trích chọn đƣa câu trả lời xác cho câu hỏi ngƣời dùng 1.2 Bài toán phân lớp câu hỏi 1.2.1 Giới thiệu Phân lớp câu hỏi trình gán hay nhiều nhãn lớp (tùy thuộc vào chiến lƣợc phân lớp) cho câu hỏi theo dạng ngôn ngữ tự nhiên Bài toán phân lớp câu hỏi thƣờng đƣợc sử dụng hệ thống hỏi đáp tự động để thực trình phân lớp câu trả lời nhằm làm giảm khơng gian tìm kiếm, từ làm tăng tính xác tốc độ việc tìm kiếm câu trả lời Bài toán khác với toán phân lớp văn chỗ câu hỏi thƣờng ngắn chứa thơng tin so với văn Câu hỏi đầu vào hệ thống hỏi đáp tự động câu hỏi dƣới dạng ngôn ngữ tự nhiên ngƣời dùng Vì vậy, việc phân tích câu hỏi gặp khó khăn xử lý ngôn ngữ tự nhiên Theo Hồ Tú Bảo Lƣơng Chi Mai [9], khó nằm chỗ cho máy tính đƣợc hiểu ngơn ngữ ngƣời, từ việc hiểu nghĩa từ hoàn cảnh cụ thể, đến việc hiểu nghĩa câu hỏi, hiểu câu hỏi hỏi ngƣời hỏi mong muốn Mấu chốt chất phức tạp ngôn ngữ ngƣời, đặc biệt đa nghĩa nhập nhằng ngữ nghĩa ngơn ngữ Thêm nữa, có khác biệt sâu sắc ngƣời ngầm hiểu dùng nhiều lẽ thƣờng (common sense) ngôn ngữ, nhƣ hỏi “thời tiết” tức hỏi “nhiệt độ, độ ẩm, mƣa, nắng …”, hay biết “sợi dây” dùng để kéo không dùng để đẩy hay khều vật, khó làm cho máy hiểu lẽ thƣờng Cùng hỏi thông tin nhƣng câu hỏi đƣợc diễn đạt theo nhiều cách khác nhau, sử dụng từ ngữ, cấu trúc câu khác nhau, lúc dạng nghi vấn, lúc lại dạng 36 loại bỏ từ dừng (stop words), từ dừng đóng vai trị quan trọng phân lớp câu hỏi Điều khác so với phân lớp văn mà từ dừng thƣờng đƣợc loại bỏ khỏi câu hỏi Bƣớc 2: Sinh chủ đề ẩn LDA Tập liệu text lấy đƣợc bƣớc đƣợc tổ chức thành đầu vào cho LDA để sinh chủ đề ẩn Các chủ đề ẩn sinh đƣợc nhóm theo lớp câu hỏi Bƣớc 3: Lựa chọn chủ đề ẩn Từ chủ đề ẩn đƣợc sinh từ bƣớc 2, ta lựa chọn chủ đề ẩn “gần” với lớp tƣơng ứng theo tiêu chí: độ đo tƣơng tự chủ đề ẩn z với lớp tƣơng ứng C lớn ngƣỡng cho trƣớc: sim(C , z )   sim(q, z )  qC qC  p( w | z )   wTq với Tq tập hợp từ câu hỏi q thuộc lớp C Sau bƣớc 3, ta có tập Z* gồm chủ đề đƣợc chọn Bƣớc 4: Làm giàu câu hỏi Để làm giàu câu hỏi q, ta tìm chủ đề ẩn thuộc Z* “gần” với câu hỏi theo công thức tính độ “tƣơng tự” câu hỏi chủ đề: sim(q, z )   p( w | z ) wTq Sau tìm đƣợc chủ đề ẩn “gần” với câu hỏi q nhất, ta tiến hành lấy từ có xác suất cao chủ đề ẩn để bổ sung vào câu hỏi Bƣớc 5: Phân lớp câu hỏi Tập liệu huấn luyện sau đƣợc làm giàu xong đƣợc chuyển thành dạng véc-tơ theo mơ hình biểu diễn TF*IDF để làm đầu vào cho phân lớp SVM Ta tiến hành huấn luyện cho tập liệu đƣợc làm giàu này, sau tiến hành phân lớp cho tập liệu kiểm thử 3.3 Cài đặt thuật toán cho phƣơng pháp 3.3.1 Lấy liệu từ Internet  Đầu vào (input): tập câu hỏi phân theo lớp  Đầu (output): tập liệu text đƣợc lấy từ Internet thơng qua máy tìm kiếm Google ứng với câu hỏi 37 for lớp câu hỏi Ci for câu hỏi qj thuộc Ci string PageLevel1 = 10 kết tìm kiếm Google với truy vấn toàn nội dung câu hỏi qj array ContentLinks = 10 liên kết tới 10 trang nội dung chi tiết nằm PageLevel1 for liên kết link thuộc ContentLinks if link trỏ tới trang HTML then string PageLevel2 = Nội dung trang web link trỏ tới Ghi nội dung PageLevel2 file dạng HTML Trích lấy liệu text từ file HTML end if end for end for end for 3.3.2 Lựa chọn chủ đề ẩn  Đầu vào (input): tập câu hỏi phân theo lớp, tập chủ đề ẩn sinh LDA ứng với lớp câu hỏi  Đầu (output): tập chủ đề ẩn đƣợc chọn ứng với lớp câu hỏi Đọc lưu từ LDA topics theo lớp câu hỏi Tạo từ điển chung cho từ câu hỏi for lớp câu hỏi Ci for chủ đề zj thuộc tập chủ đề Z tương ứng Ci for câu hỏi qk thuộc Ci float simTotal = simTotal = simTotal + độ đo tương tự zj qk end for float sim = simTotal / tổng số câu hỏi Ci 38 if sim >= ngưỡng then Lưu zj vào danh sách chủ đề ẩn lựa chọn Z* end if end for end for 3.3.3 Làm giàu câu hỏi  Đầu vào (input): tập câu hỏi phân theo lớp, tập chủ đề ẩn đƣợc lựa chọn ứng với lớp câu hỏi  Đầu (output): tập câu hỏi đƣợc làm giàu for lớp câu hỏi Ci for câu hỏi qj thuộc Ci float MAX = for chủ đề ẩn zk thuộc Z* tương ứng với Ci float sim = độ đo tương tự qj zk if MAX < sim then MAX = sim end for string tmax = chủ đề có độ tương tự với qj MAX Bổ sung từ tmax vào câu hỏi qj end for end for 39 Chƣơng 4.1 THỰC NGHIỆM VÀ ĐÁNH GIÁ Môi trƣờng thực nghiệm 4.1.1 Phần cứng Quá trình thực nghiệm luận văn đƣợc thực máy tính có cấu hình nhƣ sau: Máy tính 1: dùng để tiến hành tìm kiếm Google, lấy liệu tự động từ Internet, tạo đầu vào cho mơ hình LDA:     Chip: Intel Xeon 3,00 GHz RAM: GB Hệ điều hành: Windows Server 2003 Standard x64 Cơng cụ lập trình: NET Framework 3.5 Máy tính 2: dùng để chạy chƣơng trình JGibbsLDA v.1.0, làm giàu đặc trƣng, phân lớp câu hỏi     Chip: Intel Core Duo T7300 2,00 GHz RAM: GB Hệ điều hành: Windows Ultimate 32-bit Công cụ lập trình: Eclipse 3.7.0, Java 1.6 4.1.2 Phần mềm Các phần mềm tác giả luận văn tự xây dựng phần mềm nguồn mở đƣợc sử dụng luận văn:  Phần mềm GetSematicWords, tác giả luận văn tự xây dựng:  Nền tảng viết phần mềm: Microsoft C# NET 2008  Công dụng: Lấy kết tìm kiếm Google tạo liệu đầu vào cho mơ hình LDA  Phần mềm EnhanceFeatures, tác giả luận văn tự xây dựng  Nền tảng viết phần mềm: Microsoft C# NET 2008  Công dụng: Lựa chọn chủ đề ẩn, làm giàu đặc trƣng cho câu hỏi  Phần mềm TF-IDF, tác giả luận văn tự xây dựng  Nền tảng viết phần mềm: Microsoft C# NET 2008  Công dụng: Biểu diễu đặc trƣng câu hỏi dƣới dạng véc-tơ đặc trƣng, đầu vào cho phân lớp  Phần mềm JGibbsLDA v.1.0, tác giả Phan Xuân Hiếu Nguyễn Cẩm Tú [22]  Nền tảng viết phần mềm: Java 40  Cơng dụng: Xây dựng phân tích chủ đề ẩn  Phần mềm libsvm-3.1, tác giả Chih-Chung Chang Chih-Jen Lin  Nền tảng viết phần mềm: C++, Java  Công dụng: Phân lớp văn bản, câu hỏi 4.2 Dữ liệu thực nghiệm Bộ liệu đƣợc sử dụng trình thực nghiệm liệu chuẩn Xin Li Dan Roth xây dựng, bao gồm: 5500 câu hỏi huấn luyện (lƣu file train_5500.label), 500 câu hỏi kiểm tra (lƣu file TREC_10.label) đƣợc phân bố nhƣ sau: Bảng 4.1 Phân bố câu hỏi theo taxonomy Lớp #Tr #Te ABBREV 86 abb 16 exp Lớp #Tr #Te letter other 217 70 plant DESC 1162 138 definition 421 123 description 274 manner Lớp #Tr #Te country 155 12 mountain 21 13 other 464 50 product 42 state 66 religion NUMERIC 896 113 sport 62 code 276 substance 41 15 count 363 reason 191 symbol 11 date 218 47 ENTITY 1250 94 technique 38 distance 34 16 animal 112 16 term 93 money 71 body 16 vehicle 27 order color 40 10 word 26 other 52 12 creative 207 HUMAN 1223 65 period 27 currency group 47 percent 75 dis.med 103 individual 189 55 speed event 56 title 962 temp food 103 description 25 size 13 instrument 10 LOCATION 835 81 weight 11 lang 16 city 129 18 Ở #Tr số lƣợng câu hỏi phân bố theo lớp tập liệu huấn luyện, #Te số lƣợng câu hỏi phân bố theo lớp tập liệu kiểm tra 41 4.3 Các bƣớc tiến hành thực nghiệm Q trình thực nghiệm với mơ hình làm giàu đặc trƣng câu hỏi đề xuất đƣợc tiến hành cách sử dụng chƣơng trình phần mềm (do tác giả tự viết phần mềm mã nguồn mở) theo trình tự nhƣ sau: File huấn luyện train_5500.label TF-IDF File biểu diễn câu hỏi dƣới dạng véc-tơ *.vector GetSemanticWords File liệu đƣợc làm giàu *.enha libsvm-3.1 Các file *.jgl tƣơng ứng cho lớp EnhanceFeatures JGibbLDA-v.1.0 Các file *.twords chứa chủ đề ẩn File kết phân lớp Hình 4.1 Các bước tiến hành thực nghiệm Bƣớc 1: Bổ sung liệu từ Internet, tạo file input cho JGibbLDA Bƣớc sử dụng phần mềm GetSemanticWords tác giả luận văn tự xây dựng với trình tự chi tiết nhƣ sau:  Đọc file liệu huấn luyện (train_5500.label)  tách nhãn lớp khỏi câu hỏi  nhóm câu hỏi theo lớp  Duyệt câu hỏi theo lớp, dùng phƣơng thức GET để lấy file HTML kết tìm kiếm Google ứng với câu hỏi (chỉ lấy trang gồm 10 kết đầu tiên)  tìm lấy 10 liên kết nội dung tƣơng ứng  Lấy nội dung trang web ứng với liên kết tìm đƣợc trên: bƣớc nên kiểm tra để lấy html, text (không lấy *.doc, *.xls, *.ppt…) (các trang web sau lấy lưu vào file *.htm theo câu hỏi lớp câu hỏi)  Trích văn từ file HTML lấy đƣợc (loại bỏ HTML tags, đoạn JavaScript, Style…) (các file văn lưu vào file *.txt)  Tiền xử lý: loại bỏ ký tự đặc biệt, dấu cách thừa (các file văn sau tiền xử lý lưu vào file *.pre)  Tạo file đầu vào cho jgibblda: nối file *.pre thành file ứng với lớp (nhƣ có 50 file ứng với 50 lớp câu hỏi) với cấu trúc: dòng nội 42 dung file *.pre, dòng số dòng (số file *.pre) (các file đầu vào cho LDA lưu vào file *.jgl tương ứng cho lớp câu hỏi) Sau bƣớc này, tác giả nhận đƣợc gần GB liệu trang web Sau trích tiền xử lý thu đƣợc gần 200 MB liệu text để làm đầu vào cho mơ hình LDA Bƣớc 2: Sử dụng JGibbLDA để tìm chủ đề ẩn Tác giả sử dụng chƣơng trình mã nguồn mở JGibbLDA-v.1.0 với liệu bƣớc (lần lƣợt với file *.jgl) để tìm chủ đề ẩn Số lƣợng chủ đề ẩn đầu 50 chủ đề, với chủ đề lấy 20 từ có xác suất lớn (các tham số thực JGibbLDA-v.1.0 nhƣ sau: -est -alpha 0.5 -beta 0.1 -ntopics 50 -niters 1000 savestep 100 -twords 20) Kết đạt đƣợc nằm file *.twords (chứa topic –th) Bƣớc 3: Làm giàu đặc trƣng cho tập liệu huấn luyện Bƣớc sử dụng phần mềm EnhanceFeatures tác giả luận văn tự xây dựng với trình tự chi tiết nhƣ sau:  Đọc file train  tách nhãn lớp  nhóm câu hỏi theo class  Chọn chủ đề “gần” lớp câu hỏi Tiêu chí để chọn chủ đề ẩn z độ “tƣơng tự” chủ đề z lớp C lớn giá trị ngƣỡng cho trƣớc Sau nhiều thử nghiệm, tác giả nhận thấy ngƣỡng  = 0.024 mang lại hiệu tốt (các chủ đề lưu vào file SelectedTopics\*.txt)  Làm giàu cho file train: duyệt qua câu hỏi theo class, bổ sung vào câu hỏi từ “gần” với câu hỏi từ file SelectedTopics\*.txt (các câu hỏi class đƣợc bổ sung khác nhau) (file train sau làm giàu lưu vào file *.enha) Dƣới từ có xác suất cao số chủ đề ẩn thuộc tập Z* tìm đƣợc lớp gần với chủ đề đó: Bảng 4.2 Chủ đề ẩn số 35, lớp ENTY:color STT Từ color colors red green light blue yellow Xác suất 0.08174136050246278 0.02698580062534374 0.02583113288098718 0.023491411399001516 0.020452812071747407 0.01799154661667158 0.012917085740157217 43 10 11 12 colour see magenta blindness white 0.012127049915071148 0.008055326816550643 0.007599536917462526 0.00744760695109982 0.007386834964554738 Bảng 4.3 Chủ đề ẩn số 48, lớp ENTY:animal STT 10 11 12 Từ tiger donkey big subspecies african tigris panthera siberian caspian lion Xác suất 0.02423926328655119 0.01322860032873941 0.006748640788974586 0.005642306233404982 0.005431575841867914 0.005220845450330846 0.00501011505879378 0.004641336873603911 0.00432524128629831 0.004219876090529776 Bảng 4.4 Chủ đề ẩn số 3, lớp ENTY:currency STT Từ exchange rate money gold dollar coin yuan currency bank Xác suất 0.0143159647439958 0.007619495773985123 0.04803950572332339 0.011728327581090998 0.037428816131504214 0.013087313870148602 0.027138607249104486 0.026936231356120856 0.012769918847266913 Bƣớc 4: Chuyển file train làm giàu, file test sang dạng Véc-tơ Bƣớc sử dụng phần mềm TF-IDF tác giả luận văn tự xây dựng với trình tự chi tiết nhƣ sau:  Đọc file train test (để tạo từ điển chung), tách nhãn lớp  Duyệt câu hỏi (cả train test), chuyển thành term véc-tơ (TF * IDF)  Bổ sung class (đã chuyển thành số tƣơng ứng) vào đầu term véc-tơ (kết lưu vào file *.vector) 44 Bƣớc 5: Sử dụng LibSVM để phân lớp Bƣớc sử dụng phần mềm libsvm-3.1 tác giả Chih-Chung Chang Chih-Jen Lin với trình tự chi tiết nhƣ sau:  Để nguyên file *.vector, không thực scale  Tiến hành huấn luyện liệu với tham số kernel tuyến tính (linear): -t  Phân lớp liệu test với liệu huấn luyện thu đƣợc 4.4 Kết thực nghiệm 4.4.1 Phân lớp với tập liệu ban đầu Bảng 4.5 Kết phân lớp theo lớp câu hỏi với liệu ban đầu Lớp #Dist #Acc % ABBREV Lớp % termeq 71.4 50 0 abb 0 veh exp 75 HUMAN desc DESC #Dist #Acc def 123 121 98.4 gr 66.7 desc 85.7 ind 55 52 94.5 manner 2 100 title 0 reason 83.3 LOCATION city 18 14 77.8 ENTITY animal 16 50 country 3 100 body 50 mount 66.7 color 10 20 other 50 38 76 currency 33.3 state 71.4 dismed 50 NUMERIC event 0 count 9 100 food 25 date 47 46 97.9 instru 1 100 dist 16 50 lang 2 100 money 33.3 other 12 33.3 other 12 41.7 plant 20 perc 66.7 product 0 period 8 100 sport 1 100 speed 66.7 45 substance 15 26.7 temp 80 techmeth 1 100 weight 4 100 Ở #Dist số lƣợng câu hỏi kiểm tra phân bố lớp, #Acc số lƣợng câu hỏi đƣợc phân lớp đúng, cột bên cạnh phần trăm phân lớp xác 4.4.2 Phân lớp với tập liệu đƣợc làm giàu Bảng 4.6 Kết phân lớp theo lớp câu hỏi với liệu làm giàu Lớp #Dist #Acc % ABBREV Lớp % termeq 7 100 0 3 100 abb 0 veh exp 75 HUMAN desc DESC #Dist #Acc def 123 122 99.2 gr 50 desc 85.7 ind 55 52 94.5 manner 2 100 title 0 reason 6 100 LOCATION 18 14 77.8 city ENTITY animal 16 43.8 country 3 100 body 2 100 mount 66.7 color 10 10 100 other 50 42 84 currency 33.3 state 7 100 dismed 50 NUMERIC event 0 count 9 100 food 25 date 47 46 97.9 instru 1 100 dist 16 50 lang 2 100 money 33.3 other 12 50 other 12 41.7 plant 20 perc 33.3 product 0 period 8 100 sport 1 100 speed 50 substance 15 33.3 temp 80 techmeth 1 100 4 100 weight 46 Ở #Dist số lƣợng câu hỏi kiểm tra phân bố lớp, #Acc số lƣợng câu hỏi đƣợc phân lớp đúng, cột bên cạnh phần trăm phân lớp xác 4.5 Đánh giá Từ kết thực nghiệm, ta thấy phƣơng pháp làm giàu đạt đƣợc hiệu định, điều đƣợc thể qua độ xác phân lớp tăng 3,8% so với ban đầu Nếu xem xét chi tiết theo lớp câu hỏi thấy việc làm giàu làm tăng độ xác phân lớp số lớp, nhƣng đồng thời làm giảm độ xác phân lớp vài lớp Điều xảy nhiễu q trình làm giàu Bảng 4.7 rõ khác thử nghiệm với liệu ban đầu liệu làm giàu Bảng 4.7 So sánh kết phân lớp hai thử nghiệm Lớp #Dist #Acc1 #Acc2 %1 %2 ABBREV Lớp #Dist #Acc1 #Acc1 %1 %2 termeq 7 71.4 100 50 desc 3 100 abb 0 0 veh exp 6 75 75 HUMAN DESC def 123 121 122 98.4 99.2 gr 66.7 50 desc 6 85.7 85.7 ind 55 52 52 94.5 94.5 manner 2 100 100 title 0 0 reason 6 83.3 100 LOCATION city 18 14 14 77.8 77.8 ENTITY animal 16 50 43.8 country 3 100 100 body 2 50 100 mount 2 66.7 66.7 color 10 10 20 100 other 50 38 42 76 84 currency 2 33.3 33.3 state 7 71.4 100 dismed 1 50 50 NUMERIC event 0 0 count 9 100 100 food 1 25 25 date 47 46 46 97.9 97.9 instru 1 100 100 dist 16 8 50 50 lang 2 100 100 money 1 33.3 33.3 other 12 33.3 50 other 12 5 41.7 41.7 plant 1 20 20 perc 66.7 33.3 product 0 0 period 8 100 100 sport 1 100 100 speed 66.7 50 substance 15 26.7 33.3 temp 4 80 80 techmeth 1 100 100 weight 4 100 100 47 Ở #Dist số lƣợng câu hỏi kiểm tra phân bố lớp, #Acc1 số lƣợng câu hỏi đƣợc phân lớp theo thử nghiệm với tập liệu ban đầu, #Acc2 số lƣợng câu hỏi đƣợc phân lớp theo thử nghiệm với tập liệu làm giàu, cột %1, %2 bên cạnh phần trăm phân lớp xác tƣơng ứng Nhìn vào Bảng 4.7 thấy lớp ENTITY:animal bị giảm độ xác phân lớp từ 50% xuống cịn 43.8% Điều xảy phần nhập nhằng ngôn ngữ phần nhƣợc điểm phƣơng pháp làm giàu Ta xem xét câu hỏi “What is a baby turkey called ?”, câu hỏi bị nhập nhằng từ “turkey”, từ hiểu theo hai nghĩa khác nhau: “gà tây” “quốc gia Thổ nhĩ kỳ”, vậy, bổ sung liệu từ Internet thơng qua máy tìm kiếm Google đồng nghĩa với việc bổ sung liệu nhiễu Điều dẫn đến câu hỏi bị phân lớp nhầm vào LOCATION:country Ngoài ra, câu hỏi “What is a group of frogs called ?” bị phân lớp sai xuất hai từ “group” (nhóm) “frogs” (con ếch) Trong từ “frogs” hƣớng phân lớp phân câu hỏi vào lớp ENTY:animal, từ “group” lại làm cho phân lớp hiểu nhầm câu hỏi thuộc lớp HUMAN:group Vì thế, truy vấn tồn nội dung câu hỏi với Google ta nhận đƣợc liệu bổ sung cho hai trƣờng hợp này, gây nhiễu q trình phân lớp Nếu ta biết đƣợc từ “frogs” từ quan trọng ta truy vấn từ với Google thay với toàn từ câu hỏi Đây nhƣợc điểm mà phƣơng pháp làm giàu đƣợc đề xuất luận văn cần phải khắc phục Tuy nhiên, việc truy vấn với toàn từ câu hỏi mang lại hiệu tích cực Điển hình, ta thấy độ xác phần lớp lớp ENTY:body đƣợc tăng từ 50% lên 100% Ta xét câu hỏi “What color are crickets ?”, ta chọn từ “crickets” để truy vấn câu hỏi với máy tìm kiếm Google nhận đƣợc kết tìm kiếm môn thể thao crickets, nhƣ liệu bổ sung cho câu hỏi bị sai hoàn toàn Cịn ta truy vấn tồn nội dung câu hỏi với máy tìm kiếm Google từ “What color…” làm cho máy tìm kiếm Google hiểu ta muốn tìm “color” “crickets”, liệu thu đƣợc “color” giúp phân lớp câu hỏi xác định đƣợc câu hỏi thuộc lớp ENTY:color (màu sắc) thay thuộc vào nhóm ENTY:sport (thể thao) Tóm lại, thơng qua phân tích trên, ta thấy phƣơng pháp làm giàu đƣợc đề xuất luận văn ƣu điểm nhƣợc điểm Với số câu hỏi cụ thể phƣơng pháp làm giàu phát huy đƣợc ƣu điểm, nhƣng với số câu hỏi cụ thể khác phƣơng pháp lại thể nhƣợc điểm Rất khó để đề xuất đƣợc phƣơng pháp toàn diện, nhƣng ta nghiên cứu kỹ đặc điểm câu hỏi để từ đề xuất phƣơng pháp phù hợp Từ đó, ta kết hợp phƣơng pháp với để đạt đƣợc kết tốt 48 KẾT LUẬN Bài toán phân lớp câu hỏi toán quan trọng hệ thống hỏi đáp tự động, hƣớng nghiên cứu có tính ứng dụng thực tiễn cao Phƣơng pháp giải luận văn tập trung vào việc làm giàu đặc trƣng ngữ nghĩa câu câu hỏi thông qua chủ đề ẩn, tri thức bổ sung đƣợc lấy từ kho liệu khổng lồ Internet thơng qua máy tìm kiếm Google Luận văn đạt đƣợc kết sau: Trình bày cách khái quát hệ thống hỏi đáp tự động nêu lên ý nghĩa, vai trị pha phân tích câu hỏi hệ thống hỏi đáp mà tốn phân lớp câu hỏi đóng vai trị trung tâm Luận văn tiến hành nghiên cứu toán phân lớp câu hỏi, mơ hình biểu diễn câu hỏi, loại đặc trƣng câu hỏi Khóa luận việc phân lớp câu hỏi theo loại đặc trƣng ngữ nghĩa đặc biệt quan trọng với hệ thống hỏi đáp tự động Đề xuất phƣơng pháp làm giàu đặc trƣng câu hỏi để cải tiến chất lƣợng phân lớp câu hỏi, đồng thời xây dựng đƣợc số chƣơng trình phục vụ cho việc làm giàu đặc trƣng câu hỏi, biểu diễn đặc trƣng câu hỏi dƣới mơ hình khơng gian véc-tơ để làm đầu vào cho phân lớp Thực nghiệm phƣơng pháp đề xuất đạt kết khả quan (cải tiến độ xác lên 3,8%) cho thấy tính đắn việc lựa chọn phƣơng pháp Tuy độ xác phân lớp tăng lên không cao nhƣng hứa hẹn nhiều tiềm để phát triển Hƣớng phát triển tƣơng lai: Kết thực nghiệm luận văn cho thấy độ xác phân lớp số lớp câu hỏi sau làm giàu có độ giảm so với trƣớc làm giàu Điều liệu thu đƣợc từ Internet thơng qua máy tìm kiếm Google bị nhiễu nội dung truy vấn toàn từ câu hỏi Thông thƣờng, máy tìm kiếm cho kết tốt truy vấn từ khóa Chính vậy, hƣớng phát triển tƣơng lai luận văn tập trung vào việc giảm liệu nhiễu cách trích chọn từ khóa quan trọng câu hỏi (có thể lấy head word theo nghiên cứu Zhiheng Huang [2]), từ truy vấn Google để lấy liệu với từ khóa Kết hợp phƣơng pháp với phƣơng pháp đƣợc đề xuất luận văn mang lại kết tốt 49 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [ X Li and D Roth, "Learning Question Classifiers," in The 19th international conference on Computational linguistics, 2002, pp 1-7 [ Z Huang, M Thint, and Z Qin, "Question classification using head words and their hypernyms," in In Proceedings of the Conference on Empirical Methods in Natural Language Processing, (EMNLP ’08), 2008, p 927–936 [ O Williams, "High-performance question classification using semantic features," Standford University, 2010 [ M E Voorhees, "The TREC-8 Question Answering Track Report," in Paper presented at the Eighth Text REtrieval Conference (TREC 8), Gaithersburg, 1999 [5] [ G A Miller, R Beckwith, C Fellbaum, D Gross, and K Miller (1998) Introduction to WordNet: An On-line Lexical Database [6] [ N F Noy and D L McGuinness, "Ontology Development 101: A Guide to Creating Your First Ontology SMI," Technical report SMI-2001-0880, 2001 [7] [ J Burger, et al., "Issues, Tasks and Program Structure to Roadmap Research in Question & Answering (Q&A)" [8] [ B Magnini, "Open Domain Question Answering: Techniques, Resources and Systems," in RANLP, 2005 [9] [ H T Bảo and L C Mai, "Về xử lý tiếng Việt công nghệ thông tin," 2008 [ W P Robinson and S J Rackstraw, A Question of Answers (Vol I) [10] Boston: Routledge & Kegan Paul, 1972 [ W P Robinson and S J Rackstraw, A Question of Answers (Vol II) [11] Boston: Routledge & Kegan Paul, 1972 [ E Hovy, U Hermjakob, and C .-Y Lin, "The Use of External [12] Knowledge in Factoid QA," in Paper presented at the Tenth TextREtrieval Conference (TREC 10), Gaithersburg, MD, 2001 [ D Moldovan, et al., "The Structure and Performance of an Open-Domain [13] Question Answering System," in In Proceedings of the 38th Annual Meeting of 50 the Association for Comoutational Linguistics (ACL-2000), 2000 [ E Hovy, U Hermjakob, and DeepakRavichandran, "A Question/Answer [14] Typology with Surface Text Patterns," in In Proceedings of the second international, 2002 [ X Li and D Roth, "Learning question classifiers: the role of semantic [15] information," Natural Language Engineering, vol 12, no 3, p 229–249, 2006 [ G Salton, A Wong, and C S Yang, "A vector space model for automatic [16] indexing," Communications of the ACM, pp 613-620, 1975 [ H Q Thụy, et al., Giáo trình khai phá liệu Web NXB Giáo dục, 2009 [ V N.Vapnik, Staticstical Learning Theory Wiley, 1998 [17] [18] [ N T Thanh, "Study on Acquiring and Using Linguistic Semantic [19] Information for Search System," Japan Advanced Institute of Science and Technology Doctor thesis, 2008 [ T Joachims, "Text Categorization with Support Vector Machines: [20] Learning with Many Relevant Features," in Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, pp 137-142 [ D M Blei, A Y Ng, and M I Jordan, "Latent Dirichlet Allocation," The [21] Journal of Machine Learning Research, vol 3, pp 993-1022, 2003 [ P X Hiếu and N C Tú (2008) JGibbLDA: A Java Implementation of [22] Latent Dirichlet Allocation (LDA) [Online] http://jgibblda.sourceforge.net ... 0. 026985 800 62534374 0. 0258 311328 809 8718 0. 02349141139 900 151 6 0. 0 204 5281 207 1747 407 0. 0179 9154 66166 7158 0. 01291 708 57 401 57217 0. 01212 704 991 507 1148 0. 008 0553268165 506 43 0. 007 599536917462526 0. 007 447 606 95 109 982... 0. 013228 600 32873941 0. 006 7486 407 88974586 0. 005 642 306 233 404 982 0. 005 4 3157 5841867914 0. 005 2 208 454 503 308 46 0. 005 0 101 1 505 879378 0. 004 641336873 603 911 0. 004 32524128629831 0. 004 21987 609 0529776 Bảng 2.6... STT Từ color colors red green light blue yellow X? ?c suất 0. 0817413 605 0246278 0. 026985 800 62534374 0. 0258 311328 809 8718 0. 02349141139 900 151 6 0. 0 204 5281 207 1747 407 0. 0179 9154 66166 7158 0. 01291 708 57 401 57217

Định dạng
Số trang	49
Dung lượng	1,66 MB