1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt

71 586 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 841,55 KB

Nội dung

Figure ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành : Công nghệ thông tin Cán bộ hướng dẫn: ThS. Trần Thị Oanh Cán bộ đồng hướng dẫn: ThS. Nguyễn Cẩm Tú HÀ NỘI - 2009 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh, Thạc sĩ Nguyễn Cẩm Tú và Cử nhân Trần Mai Vũ – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã t ạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu. Tôi xin gửi lời cảm ơn chân thành tới cử nhân Nguyễn Minh Tuấn đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa luận. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Cuối cùng, tôi muốn gử i lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Đức Vinh ii Tóm tắt Trong mười năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm đặc biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Microsoft, IBM…), các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) và đã đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt tập trung vào khảo sát các phương pháp được áp dụng cho xây dựng hệ thống hỏi đáp trên thế giới, đặc biệt tập trung nghiên cứu pha phân tích câu hỏi – pha đầu tiên trong hệ thống hỏi đáp, có ý nghĩa đặc biệt quan trọng với hoạt động của cả hệ thống. Trên cơ sở các nghiên cứu đó và điều kiện thực t ế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận tiến hành thực nghiệm việc phân tích câu hỏi tiếng Việt sử dụng phương pháp học máy thống kê và trích rút mẫu quan hệ. Các kết quả ban đầu đạt được khá khả quan. Bộ phân lớp câu hỏi cho hệ thống hỏi đáp miền mở đạt độ chính xác 81.49% khi sử dụng thuật toán SVM, 81.14 % với mô hình Entropy cực đại. Module phân tích câu hỏi sử dụng mẫ u quan hệ cho hệ thống hỏi đáp trên miền du lịch đạt độ chính xác 89.7 %. iii Mục lục Tóm tắt i Mục lục iii Danh sách các bảng v Danh sách các hình vi Lời mở đầu 1 Chương 1. Giới thiệu về hệ thống hỏi đáp tự động 3 1.1. Hệ thống hỏi đáp tự động 3 1.2. Phân loại hệ thống hỏi đáp tự động 5 1.2.1. Phân loại theo miền ứng dụng (domain) 5 1.2.2. Phân loại theo khả năng trả lời câu hỏi 6 1.2.3. Phân lo ại theo hướng tiếp cận: 7 1.3. Các bước chung của hệ thống hỏi đáp tự động 7 Chương 2. Phân tích câu hỏi 10 2.1. Nội dung của phân tích câu hỏi 10 2.2. Khó khăn của phân tích câu hỏi 10 2.3. Một số nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi 11 2.4. Taxonomy câu hỏi 14 2.4.1. Khái niệm về taxonomy 14 2.4.2. Taxonomy câu hỏi 15 2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau 19 2.5.1. Câu hỏi đơn giản (factual-base) 19 2.5.2. Câu hỏi định nghĩa (definition question) 21 2.5.3. Câu hỏi ph ức tạp, có ràng buộc về thời gian 22 iv Chương 3. Các phương pháp xác định loại câu hỏi 24 3.1. Phương pháp phân lớp sử dụng học máy thống kê 24 3.1.2. Các thuật toán học máy thống kê cho việc phân lớp 28 3.1.3. Xây dựng bộ phân lớp câu hỏi theo học máy thống kê 37 3.2. Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 42 3.3. Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ 45 Chương 4. Thực nghiệm phân tích câu hỏi tiếng Vi ệt 47 4.1. Thực nghiệm với phân lớp câu hỏi sử dụng học máy thống kê 47 4.1.1. Dữ liệu và công cụ cho thực nghiệm 47 4.1.2. Kết quả bộ phân lớp sử dụng SVM và MEM 49 4.2. Thực nghiệm với xác định loại câu hỏi sử dụng mẫu quan hệ 51 4.2.1. Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu quan hệ 51 4.2.2. Kết quả phân tích câu hỏi sử dụng mẫu quan hệ 55 Kết luậ n 58 Tài liệu tham khảo 60 v Danh sách các bảng Bảng 1. Taxonomy câu hỏi do Li và Roth đưa ra 17 Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp 27 Bảng 3. Số lượng câu hỏi theo từng lớp cha 48 Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram 49 Bảng 5. Kết quả bộ phân lớp MEM khi sử dụng tách từ 49 Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau 50 Bảng 7. Danh sách các từ hỏi 50 Bảng 8. Tập seed tìm được cùng với m ối quan hệ tương ứng 53 Bảng 9. Tập quan hệ cùng các mẫu tương ứng 54 Bảng 10. Các quan hệ được thực nghiệm trong hệ thống 55 Bảng 11. Các công cụ sử dụng 55 Bảng 12. Các thành phần chính của hệ thống Q&A trên miền du lịch 56 Bảng 13. Kết quả phân tích câu hỏi trong hệ thống hỏi đáp trên miền du lịch 56 vi Danh sách các hình Hình 1. Xu hướng trong nghiên cứu về Q&A 6 Hình 2. Các bước chung của hệ thống Q&A 8 Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base 19 Hình 4. Mối quan hệ giữa các siêu phẳng phân cách 30 Hình 5. Siêu phẳng tối ưu và biên. 31 Hình 6. Biến nới lỏng cho soft margin 33 Hình 7. Mô hình bộ phân lớp đa cấp của Li và Roth 39 Hình 8. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 43 Hình 9. Ánh xạ từ trọng tâm vào Wordnet 44 Hình 10. Mô hình Snowball 46 Hình 11. Mô hình hệ thống hỏi đáp tiếng Việt s ử dụng trích xuất mẫu quan hệ 52 Hình 12. Mô hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời 53 1 Lời mở đầu Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “hiểu văn bản” và xây dựng hệ thống hỏi đáp d ựa trên các mô hình ngôn ngữ thống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất đượ c quan tâm. Tuy nhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…). Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau (trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân tích câu hỏi có vai trò hết s ức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời. Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt thực hiện khảo sát, nghiên cứu các phương pháp xây dựng hệ thống hỏi đápphân tích câu hỏi đang được quan tâm hiện nay, từ đó đưa ra phương pháp phân tích câu h ỏi phù hợp nhất (trên cơ sở các nguồn tài nguyên ngôn ngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt. Những nghiên cứu trong khóa luận có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiếng Việt. Khóa luận được trình bày thành bốn chương, nội dung được trình bày sơ bộ như dưới dây: Chương 1. Giới thiệu về hệ thống hỏi đáp tự động trình bày những nội dụng cơ bản nhất về hệ thống hỏi đáp và đặt vấn đề cho phân tích câu hỏi. Chương 2. Phân tích câu hỏi trình bày một cách tổng quan các vấn đề xung quanh việc phân tích câu hỏi như: nội dung của phân tích câu hỏi, những khó khăn của phân tích 2 câu hỏi, các nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi, đồng thời khảo sát các phương pháp phân tích câu hỏi cho một số loại câu hỏi khác nhau. Trong chương này cũng chỉ ra tầm quan trọng của xác định loại câu hỏi trong phân tích câu hỏi. Chương 3. Các phương pháp xác định loại câu hỏi trình bày ba phương pháp để xác định loại câu hỏi, phân tích và chọn lựa hai phương pháp sẽ sử dụng cho phân tích câu hỏi tiếng Việt. Ch ương 4. Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng các nghiên cứu trong chương 3 để phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt. Phần kết luận tổng kết, tóm lược nội dung và kết quả đạt được của khóa luận. [...]... liên quan đến phân tích câu hỏi 9 Chương 2 Phân tích câu hỏi 2.1 Nội dung của phân tích câu hỏi Bài toán phân tích câu hỏi: Phân tích câu nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, đưa ra câu truy vấn cho bước trích chọn tài liệu liên quan và các thông tin cần thiết cho bước trích rút câu trả lời Câu truy vấn là dạng tổ hợp của các từ khóa quan trọng trong câu hỏi (và các từ... dụng câu truy vấn được tạo ra ở bước phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi Bước3-Trích xuất câu trả lời: Bước này phân tích tập tài liệu trả về từ bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất Câu hỏi Phân tích câu hỏi Trích chọn tài liệu liên Trích xuất câu trả lời Câu trả lời Hình 2 Các bước chung của hệ thống. .. Internet 1.2 Phân loại hệ thống hỏi đáp tự động Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán… 1.2.1 Phân loại theo miền ứng dụng (domain) Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời bất kỳ câu hỏi nào được đưa vào Khó khăn cho hệ thống miền... Xử lý câu hỏi cũng cần phải có cơ chế để xử lý các câu hỏi tiếp sau liên quan đến cùng một vấn đề của câu hỏi trước, sử dụng các thông tin thu được ở câu hỏi trước để làm sáng tỏ câu hỏi tiếp sau, cao hơn nữa là có thể đối thoại với người dùng theo chuỗi các câu hỏicâu trả lời 2.3 Một số nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi Đầu vào của pha phân tích câu hỏicâu hỏi dạng... định nghĩa và mối liên hệ ngữ nghĩa Các hệ thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến 1.3 Các bước chung của hệ thống hỏi đáp tự động Một hệ thống hỏi đáp tự động thường gồm 3 bước chung sau: Bước1 -Phân tích câu hỏi: Bước phân tích câu hỏi tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời 7 Bước2-Trích... câu hỏi đến tầng nào cũng tùy thuộc vào từng hệ thống, vào phương pháp trích xuất câu trả lời và các công cụ hỗ trợ phân tích ngôn ngữ đến đâu Hệ thống AskMSR [8,12] đưa ra phương pháp phân tích câu hỏi và trích xuất câu trả lời rất đơn giản, chỉ phân tích câu hỏi ở tầng hình thái, sử dụng các từ vựng trong câu hỏi để tìm ra các câu trả lời ứng viên Theo Michele Banko [8] thì đối với nhiều câu hỏi. .. tạp, hoặc không trích được câu trả lời trong tập dữ liệu do không có tài liệu nào chứa câu trả lời có dạng tương tự với câu hỏi Hệ thống Webclopedia lại phân tích câu hỏi kĩ hơn tới mức ngữ pháp Các bước chính của hệ thống bao gồm: Phân tích ngữ pháp cho câu hỏi: sử dụng bộ phân tích cú pháp CONTEX Tạo truy vấn: Tạo truy vấn bằng cách kết hợp các từ đơn và cụm từ trong câu hỏi, sử dụng Wordnet để mở... pha xử lý câu hỏi với loại câu hỏi này là xác định loại câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan Xác định loại câu hỏi Xác định loại câu hỏi có ý nghĩa rất quan trọng trong phân tích các câu hỏi factual base, đặc biệt là việc phân loại câu hỏi theo loại ngữ nghĩa của câu trả lời (như mục 2.3 đã 19 trình bày) Có nhiều cách để xác định loại câu hỏi như: xây... Nhiệt độ size Kích thước, diện tích, thể tích weight Cân nặng 18 2.5 Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau Trong hội nghị TREC, các câu hỏi được chia thành một số loại sau: câu hỏi đơn giản (factual-base question), câu hỏi định nghĩa (definition question), câu hỏi danh sách (list question), câu hỏi phức tạp (complex question),… Mỗi loại câu hỏi có những đặc trưng riêng... của câu trả lời, do đó hệ thống hỏi đáp cần có khả năng gộp các loại câu hỏicâu trả lời tương đồng với nhau [19] Với một câu hỏi bất kì nếu xác định được loại câu hỏi thì có thể biết được các dạng của câu trả lời do có mỗi liên hệ mật thiết giữa loại câu hỏi và loại câu trả lời Tuy nhiên sự tương đương ngữ nghĩa cũng không rõ ràng, kể cả các biến thể nhỏ cũng tạo ra sự khác biệt Ví dụ với câu hỏi . Ch ương 4. Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng các nghiên cứu trong chương 3 để phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt. Phần kết luận. các nghiên cứu về hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt tập trung vào

Ngày đăng: 18/02/2014, 00:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hồ Tú Bảo, Lương Chi Mai. Về xử lý tiếng Việt trong công nghệ thông tin. Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật bản Sách, tạp chí
Tiêu đề: Về xử lý tiếng Việt trong công nghệ thông tin
[2] Nguyễn Thị Hương Thảo. Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006 Sách, tạp chí
Tiêu đề: Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng
[3] Hà Quang Thụy & nhóm khai phá dữ liệu và ứng dụng. Bài giảng về khai phá dữ liệu. 2007 Sách, tạp chí
Tiêu đề: Bài giảng về khai phá dữ liệu
[4] Nguyễn Minh Tuấn. Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt trong lĩnh vực y tế. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008 Sách, tạp chí
Tiêu đề: Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt trong lĩnh vực y tế
[5] Nguyễn Cẩm Tú. Máy Vector Hỗ trợ (SVMs) và các Phương pháp Nhân.2007 [6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái. Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt. Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ, 2009Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Máy Vector Hỗ trợ (SVMs) và các Phương pháp Nhân".2007 [6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái. "Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt
[7] Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large Plain-Text Collections. In Proceedings of the Fifth ACM International Conference on Digital Libraries, 2000 Sách, tạp chí
Tiêu đề: Snowball: Extracting Relations from Large Plain-Text Collections
[8] Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin. AskMSR: Question Answering Using the Worldwide Web. Microsoft Research. In Preceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo Alto, California, March 2002 Sách, tạp chí
Tiêu đề: Question Answering Using the Worldwide Web
[9] Matthew W. Bilotti, Boris Katz, and Jimmy Lin. What Works Better for Question Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04 Workshop Information Retrieval for QA, (Jul. 2004) Sách, tạp chí
Tiêu đề: What Works Better for Question Answering: Stemming or Morphological Query Expansion
[11] Sergey Brin (Computer Science Department, Stanford University). Extracting Patterns and Relations from the World Wide Web. In WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT’98, 1998 Sách, tạp chí
Tiêu đề: Extracting Patterns and Relations from the World Wide Web
[12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft Research One Microsoft Way Redmond). Data-Intensive Question Answering . In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001 Sách, tạp chí
Tiêu đề: Data-Intensive Question Answering
[13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones. Vision Statement to Guide Research in Question &Answering (Q&A) and Text Summarization. Final version 1. 2000 Sách, tạp chí
Tiêu đề: Vision Statement to Guide Research in Question & "Answering (Q&A) and Text Summarization
[14] Kadri Hacioglu, Wayne Ward. 2003. Question Classification with Support Vector Machines and Error Correcting Codes. The Association for Computational Linguistics on Human Language Technology, vol. 2, tr.28–30 Sách, tạp chí
Tiêu đề: Question Classification with Support Vector Machines and Error Correcting Codes
[15] Sanda M. Harabagiu, Marius A. Paşca, Steven J. Maiorano. Experiments with open-domain textual Question Answering. International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics - Volume 1, 2000, tr. 292 - 298 Sách, tạp chí
Tiêu đề: Experiments with open-domain textual Question Answering
[17] Wesley Hildebr, Boris Katz, Jimmy Lin. Answering Definition Questions Using Web Knowledge Bases. Book: Natural Language Processing – IJCNLP, 2005 Sách, tạp chí
Tiêu đề: Answering Definition Questions Using Web Knowledge Bases
[18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External Knowledge in Factoid QA. Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16 Sách, tạp chí
Tiêu đề: The Use of External Knowledge in Factoid QA
[20] Zhiheng Huang, Marcus Thint, Zengchang Qin. Question Classification using Head Words and their Hypernyms. ACL 2008 Sách, tạp chí
Tiêu đề: Question Classification using Head Words and their Hypernyms
[21] Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, tr 137-142 Sách, tạp chí
Tiêu đề: Text Categorization with Support Vector Machines: Learning with Many Relevant Features
[22] Thorsten Joachims. Learning to Classify Text using Support Vector Machines. Kluwer. 2002 Sách, tạp chí
Tiêu đề: Learning to Classify Text using Support Vector Machines
[23] Thorsten Joachims. SVM multiclass Multi-Class Support Vector Machine. Cornell University Department of Computer Science Sách, tạp chí
Tiêu đề: SVM multiclass Multi-Class Support Vector Machine
[24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti. Enhanced Answer Type Inference from Questions using Sequential Models. The conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005 Sách, tạp chí
Tiêu đề: Enhanced Answer Type Inference from Questions using Sequential Models

HÌNH ẢNH LIÊN QUAN

Hình 1. Xu hướng trong nghiên cứu về Q&A - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 1. Xu hướng trong nghiên cứu về Q&A (Trang 14)
Hình 2. Các bước chung của hệ thống Q&A - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 2. Các bước chung của hệ thống Q&A (Trang 16)
Bảng 1.Taxonomy câu hỏi do Li và Roth đưa ra - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 1. Taxonomy câu hỏi do Li và Roth đưa ra (Trang 25)
Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base (Trang 27)
Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp (Trang 35)
K c c - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
c c (Trang 35)
Tuy nhiên thuật tốn Perceptron trên lại gặp vấn đề đĩ là overfitting1. Hình 4 đưa ra một ví dụ về overfitting - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
uy nhiên thuật tốn Perceptron trên lại gặp vấn đề đĩ là overfitting1. Hình 4 đưa ra một ví dụ về overfitting (Trang 37)
Hình 4. Mối quan hệ giữa các siêu phẳng phân cách - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 4. Mối quan hệ giữa các siêu phẳng phân cách (Trang 38)
Hình 5. Siêu phẳng tối ưu và biên. - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 5. Siêu phẳng tối ưu và biên (Trang 39)
Hình 6. Biến nới lỏng cho soft margin - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 6. Biến nới lỏng cho soft margin (Trang 41)
Hình 7. Mơ hình bộ phân lớp đa cấp của Li và Roth - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 7. Mơ hình bộ phân lớp đa cấp của Li và Roth (Trang 47)
Hình 8. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngơn ngữ tự nhiên - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 8. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngơn ngữ tự nhiên (Trang 51)
Hình 9. Ánh xạ từ trọng tâm vào Wordnet - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 9. Ánh xạ từ trọng tâm vào Wordnet (Trang 52)
Hình 10. Mơ hình Snowball - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 10. Mơ hình Snowball (Trang 54)
Bảng 3. Số lượng câu hỏi theo từng lớp cha - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 3. Số lượng câu hỏi theo từng lớp cha (Trang 56)
Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram (Trang 57)
trong Bảng 4 và Bảng 5. - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
trong Bảng 4 và Bảng 5 (Trang 57)
Bảng 7. Danh sách các từ hỏi - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 7. Danh sách các từ hỏi (Trang 58)
Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau (Trang 58)
Hình 11. Mơ hình hệ thống hỏi đáp tiếng Việt sử dụng trích xuất mẫu quan hệ - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 11. Mơ hình hệ thống hỏi đáp tiếng Việt sử dụng trích xuất mẫu quan hệ (Trang 60)
Hình 12. Mơ hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Hình 12. Mơ hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời (Trang 61)
Bảng 8. Tập seed tìm được cùng với mối quan hệ tương ứng - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 8. Tập seed tìm được cùng với mối quan hệ tương ứng (Trang 61)
Tập các mối quan hệ cĩ thể là {Bãi biển-Địa điểm, Lễ hội-Địa điểm} (Bảng 9). - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
p các mối quan hệ cĩ thể là {Bãi biển-Địa điểm, Lễ hội-Địa điểm} (Bảng 9) (Trang 62)
Bảng 10. Các quan hệ được thực nghiệm trong hệ thống - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 10. Các quan hệ được thực nghiệm trong hệ thống (Trang 63)
liên quan đến 10 mối quan hệ được chọn (Bảng 10). - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
li ên quan đến 10 mối quan hệ được chọn (Bảng 10) (Trang 63)
Các thành phần chính trong hệ thống (Bảng 12): - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
c thành phần chính trong hệ thống (Bảng 12): (Trang 64)
Bảng 12. Các thành phần chính của hệ thống Q&A trên miền du lịch - phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt
Bảng 12. Các thành phần chính của hệ thống Q&A trên miền du lịch (Trang 64)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w