Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Nội dung
Figure
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Đức Vinh
PHÂN TÍCHCÂUHỎITRONGHỆTHỐNG
HỎI ĐÁPTIẾNGVIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Đức Vinh
PHÂN TÍCHCÂUHỎITRONGHỆTHỐNG
HỎI ĐÁPTIẾNGVIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành
: Công nghệ thông tin
Cán bộ hướng dẫn: ThS. Trần Thị Oanh
Cán bộ đồng hướng dẫn: ThS. Nguyễn Cẩm Tú
HÀ NỘI - 2009
i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến
sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh, Thạc sĩ Nguyễn Cẩm Tú và Cử nhân Trần Mai
Vũ – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá
luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã t
ạo
cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn chân thành tới cử nhân Nguyễn Minh Tuấn đã tận tình hỗ trợ
về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa luận.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gử
i lời cảm ơn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Đức Vinh
ii
Tóm tắt
Trong mười năm gần đây, hệthốnghỏiđáp tự động đã nhận được sự quan tâm đặc
biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Microsoft, IBM…), các hội
nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) và đã
đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệthốnghỏiđáp cho
tiếng Việt vẫn còn rất nhiều hạn chế.
Khóa luận
Phân tíchcâuhỏitronghệthốnghỏiđáptiếngViệt tập trung vào khảo
sát các phương pháp được áp dụng cho xây dựng hệthốnghỏiđáp trên thế giới, đặc biệt
tập trung nghiên cứu pha phântíchcâuhỏi – pha đầu tiên tronghệthốnghỏi đáp, có ý
nghĩa đặc biệt quan trọng với hoạt động của cả hệ thống. Trên cơ sở các nghiên cứu đó và
điều kiện thực t
ế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận tiến hành thực
nghiệm việc phântíchcâuhỏitiếngViệt sử dụng phương pháp học máy thống kê và trích
rút mẫu quan hệ. Các kết quả ban đầu đạt được khá khả quan. Bộ phân lớp câuhỏi cho hệ
thống hỏiđáp miền mở đạt độ chính xác 81.49% khi sử dụng thuật toán SVM, 81.14 %
với mô hình Entropy cực đại. Module phântíchcâuhỏi sử dụng mẫ
u quan hệ cho hệ
thống hỏiđáp trên miền du lịch đạt độ chính xác 89.7 %.
iii
Mục lục
Tóm tắt i
Mục lục iii
Danh sách các bảng v
Danh sách các hình vi
Lời mở đầu 1
Chương 1. Giới thiệu về hệthốnghỏiđáp tự động 3
1.1. Hệthốnghỏiđáp tự động 3
1.2. Phân loại hệthốnghỏiđáp tự động 5
1.2.1. Phân loại theo miền ứng dụng (domain) 5
1.2.2. Phân loại theo khả năng trả lời câuhỏi 6
1.2.3. Phân lo
ại theo hướng tiếp cận: 7
1.3. Các bước chung của hệthốnghỏiđáp tự động 7
Chương 2. Phântíchcâuhỏi 10
2.1. Nội dung của phântíchcâuhỏi 10
2.2. Khó khăn của phântíchcâuhỏi 10
2.3. Một số nội dung của xử lý ngôn ngữ tự nhiên trongphântíchcâuhỏi 11
2.4. Taxonomy câuhỏi 14
2.4.1. Khái niệm về taxonomy 14
2.4.2. Taxonomy câuhỏi 15
2.5. Khảo sát các phương pháp phântíchcâuhỏi cho các loại câuhỏi khác nhau 19
2.5.1. Câuhỏi đơn giản (factual-base) 19
2.5.2. Câuhỏi định nghĩa (definition question) 21
2.5.3. Câuhỏi ph
ức tạp, có ràng buộc về thời gian 22
iv
Chương 3. Các phương pháp xác định loại câuhỏi 24
3.1. Phương pháp phân lớp sử dụng học máy thống kê 24
3.1.2. Các thuật toán học máy thống kê cho việc phân lớp 28
3.1.3. Xây dựng bộ phân lớp câuhỏi theo học máy thống kê 37
3.2. Phương pháp xác định loại câuhỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 42
3.3. Phương pháp xác định loại câuhỏi sử dụng mẫu quan hệ 45
Chương 4. Thực nghiệm phântíchcâuhỏitiếng Vi
ệt 47
4.1. Thực nghiệm với phân lớp câuhỏi sử dụng học máy thống kê 47
4.1.1. Dữ liệu và công cụ cho thực nghiệm 47
4.1.2. Kết quả bộ phân lớp sử dụng SVM và MEM 49
4.2. Thực nghiệm với xác định loại câuhỏi sử dụng mẫu quan hệ 51
4.2.1. Mô hình thực nghiệm phântíchcâuhỏi sử dụng mẫu quan hệ 51
4.2.2. Kết quả phântíchcâuhỏi sử dụng mẫu quan hệ 55
Kết luậ
n 58
Tài liệu tham khảo 60
v
Danh sách các bảng
Bảng 1. Taxonomy câuhỏi do Li và Roth đưa ra 17
Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp 27
Bảng 3. Số lượng câuhỏi theo từng lớp cha 48
Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram 49
Bảng 5. Kết quả bộ phân lớp MEM khi sử dụng tách từ 49
Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau 50
Bảng 7. Danh sách các từ hỏi 50
Bảng 8. Tập seed tìm được cùng với m
ối quan hệ tương ứng 53
Bảng 9. Tập quan hệ cùng các mẫu tương ứng 54
Bảng 10. Các quan hệ được thực nghiệm tronghệthống 55
Bảng 11. Các công cụ sử dụng 55
Bảng 12. Các thành phần chính của hệthống Q&A trên miền du lịch 56
Bảng 13. Kết quả phântíchcâuhỏitronghệthốnghỏiđáp trên miền du lịch 56
vi
Danh sách các hình
Hình 1. Xu hướng trong nghiên cứu về Q&A 6
Hình 2. Các bước chung của hệthống Q&A 8
Hình 3. Kiến trúc cho xử lý các câuhỏi factual-base 19
Hình 4. Mối quan hệ giữa các siêu phẳng phân cách 30
Hình 5. Siêu phẳng tối ưu và biên. 31
Hình 6. Biến nới lỏng cho soft margin 33
Hình 7. Mô hình bộ phân lớp đa cấp của Li và Roth 39
Hình 8. Xác định loại câuhỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 43
Hình 9. Ánh xạ từ trọng tâm vào Wordnet 44
Hình 10. Mô hình Snowball 46
Hình 11. Mô hình hệthốnghỏiđáptiếngViệt s
ử dụng trích xuất mẫu quan hệ 52
Hình 12. Mô hình xử lý cho pha phântíchcâuhỏi và trích xuất câu trả lời 53
1
Lời mở đầu
Nghiên cứu về hệthốnghỏiđáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế
giới. Ngay từ những năm 1960, các hệthốnghỏiđáp đầu tiên sử dụng cơ sở dữ liệu đã
được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “hiểu văn
bản” và xây dựng hệthốnghỏiđáp d
ựa trên các mô hình ngôn ngữ thống kê. Cuối những
năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu
khổng lồ. Các nhà nghiên cứu về hệthốnghỏiđáp cũng bắt đầu khai thác web như là một
nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng
xử lý lượng dữ liệu web lớn đang rất đượ
c quan tâm. Tuy nhiên các nghiên cứu về xây
dựng hệthốnghỏiđáp cho tiếngViệt vẫn còn rất nhiều hạn chế. Một trong những lý do
chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học
(Wordnet [28], ontology [30]…).
Phân tíchcâuhỏi là pha đầu tiên trong kiến trúc chung của một hệthốnghỏi đáp, có
nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau
(trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phântíchcâuhỏi có vai trò hết s
ức
quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phântíchcâu
hỏi không tốt thì sẽ không thể tìm ra được câu trả lời.
Khóa luận PhântíchcâuhỏitronghệthốnghỏiđáptiếngViệt thực hiện khảo sát,
nghiên cứu các phương pháp xây dựng hệthốnghỏiđáp và phântíchcâuhỏi đang được
quan tâm hiện nay, từ đó đưa ra phương pháp phântíchcâu h
ỏi phù hợp nhất (trên cơ sở
các nguồn tài nguyên ngôn ngữ sẵn có) cho hệthốnghỏiđáptiếng Việt. Những nghiên
cứu trong khóa luận có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ
thống hỏiđáp hoàn thiện cho tiếng Việt.
Khóa luận được trình bày thành bốn chương, nội dung được trình bày sơ bộ như
dưới dây:
Chương 1. Giới thiệu về hệ
thốnghỏiđáp tự động trình bày những nội dụng cơ bản
nhất về hệthốnghỏiđáp và đặt vấn đề cho phântíchcâu hỏi.
Chương 2. Phântíchcâuhỏi trình bày một cách tổng quan các vấn đề xung quanh
việc phântíchcâuhỏi như: nội dung của phântíchcâu hỏi, những khó khăn của phântích
2
câu hỏi, các nội dung của xử lý ngôn ngữ tự nhiên trongphântíchcâu hỏi, đồng thời khảo
sát các phương pháp phântíchcâuhỏi cho một số loại câuhỏi khác nhau. Trong chương
này cũng chỉ ra tầm quan trọng của xác định loại câuhỏitrongphântíchcâu hỏi.
Chương 3. Các phương pháp xác định loại câuhỏi trình bày ba phương pháp để
xác định loại câu hỏi, phântích và chọn lựa hai phương pháp sẽ sử dụng cho phântích
câu hỏitiếng Việt.
Ch
ương 4. Thực nghiệm phântíchcâuhỏitiếngViệt áp dụng các nghiên cứu trong
chương 3 để phântíchcâuhỏitronghệthốnghỏiđáptiếng Việt.
Phần kết luận tổng kết, tóm lược nội dung và kết quả đạt được của khóa luận.
[...]... liên quan đến phântíchcâuhỏi 9 Chương 2 Phântíchcâuhỏi 2.1 Nội dung của phântíchcâuhỏi Bài toán phân tíchcâu hỏi: Phântíchcâu nhận đầu vào là câuhỏi dưới dạng ngôn ngữ tự nhiên của người dùng, đưa ra câu truy vấn cho bước trích chọn tài liệu liên quan và các thông tin cần thiết cho bước trích rút câu trả lời Câu truy vấn là dạng tổ hợp của các từ khóa quan trọngtrongcâuhỏi (và các từ... dụng câu truy vấn được tạo ra ở bước phân tíchcâuhỏi để tìm các tài liệu liên quan đến câuhỏi Bước3-Trích xuất câu trả lời: Bước này phântích tập tài liệu trả về từ bước 2 và sử dụng các thông tin hữu ích do bước phântíchcâuhỏi cung cấp để đưa ra câu trả lời chính xác nhất Câu hỏiPhântíchcâuhỏi Trích chọn tài liệu liên Trích xuất câu trả lời Câu trả lời Hình 2 Các bước chung của hệ thống. .. Internet 1.2 Phân loại hệthốnghỏiđáp tự động Có nhiều cách phân loại hệthốnghỏiđáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán… 1.2.1 Phân loại theo miền ứng dụng (domain) Hệthốnghỏiđáp miền mở (open domain Question answering): Hệthống trả lời bất kỳ câuhỏi nào được đưa vào Khó khăn cho hệthống miền... Xử lý câuhỏi cũng cần phải có cơ chế để xử lý các câuhỏi tiếp sau liên quan đến cùng một vấn đề của câuhỏi trước, sử dụng các thông tin thu được ở câuhỏi trước để làm sáng tỏ câuhỏi tiếp sau, cao hơn nữa là có thể đối thoại với người dùng theo chuỗi các câuhỏi và câu trả lời 2.3 Một số nội dung của xử lý ngôn ngữ tự nhiên trongphântíchcâuhỏi Đầu vào của pha phântíchcâuhỏi là câuhỏi dạng... định nghĩa và mối liên hệ ngữ nghĩa Các hệthốnghỏiđáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến 1.3 Các bước chung của hệthốnghỏiđáp tự động Một hệthốnghỏiđáp tự động thường gồm 3 bước chung sau: Bước1 -Phân tíchcâu hỏi: Bước phântíchcâuhỏi tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời 7 Bước2-Trích... câuhỏi đến tầng nào cũng tùy thuộc vào từng hệ thống, vào phương pháp trích xuất câu trả lời và các công cụ hỗ trợ phântích ngôn ngữ đến đâu Hệthống AskMSR [8,12] đưa ra phương pháp phântíchcâuhỏi và trích xuất câu trả lời rất đơn giản, chỉ phân tíchcâuhỏi ở tầng hình thái, sử dụng các từ vựng trongcâuhỏi để tìm ra các câu trả lời ứng viên Theo Michele Banko [8] thì đối với nhiều câu hỏi. .. tạp, hoặc không trích được câu trả lời trong tập dữ liệu do không có tài liệu nào chứa câu trả lời có dạng tương tự với câuhỏiHệthống Webclopedia lại phântíchcâuhỏi kĩ hơn tới mức ngữ pháp Các bước chính của hệthống bao gồm: Phântích ngữ pháp cho câu hỏi: sử dụng bộ phântích cú pháp CONTEX Tạo truy vấn: Tạo truy vấn bằng cách kết hợp các từ đơn và cụm từ trongcâu hỏi, sử dụng Wordnet để mở... pha xử lý câuhỏi với loại câuhỏi này là xác định loại câuhỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan Xác định loại câuhỏi Xác định loại câuhỏi có ý nghĩa rất quan trọngtrongphântích các câuhỏi factual base, đặc biệt là việc phân loại câuhỏi theo loại ngữ nghĩa của câu trả lời (như mục 2.3 đã 19 trình bày) Có nhiều cách để xác định loại câuhỏi như: xây... Nhiệt độ size Kích thước, diện tích, thể tích weight Cân nặng 18 2.5 Khảo sát các phương pháp phân tíchcâuhỏi cho các loại câuhỏi khác nhau Tronghội nghị TREC, các câuhỏi được chia thành một số loại sau: câuhỏi đơn giản (factual-base question), câuhỏi định nghĩa (definition question), câuhỏi danh sách (list question), câuhỏi phức tạp (complex question),… Mỗi loại câuhỏi có những đặc trưng riêng... của câu trả lời, do đó hệthốnghỏiđáp cần có khả năng gộp các loại câuhỏi và câu trả lời tương đồng với nhau [19] Với một câuhỏi bất kì nếu xác định được loại câuhỏi thì có thể biết được các dạng của câu trả lời do có mỗi liên hệ mật thiết giữa loại câuhỏi và loại câu trả lời Tuy nhiên sự tương đương ngữ nghĩa cũng không rõ ràng, kể cả các biến thể nhỏ cũng tạo ra sự khác biệt Ví dụ với câuhỏi .
Ch
ương 4. Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng các nghiên cứu trong
chương 3 để phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt.
Phần kết luận. các nghiên cứu về hệ thống hỏi đáp cho
tiếng Việt vẫn còn rất nhiều hạn chế.
Khóa luận
Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt tập trung vào