Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng( tóm tắt luận văn )

22 10 0
Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng( tóm tắt luận văn )

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trương Tài Ba NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG HỎI ĐÁP HƯỚNG MIỀN ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Lê Thanh Hương Viện công nghệ thông tin truyền thông Trường Đại học Bách Khoa Hà Nội Phản biện 1: …………………………………………………………………………………………… Phản biện 2: …………………………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng PHẦN I MỞ ĐẦU Tìm kiếm ln tốn quan trọng việc lưu trữ tổ chức liệu Các máy tìm kiếm Google, Bing…ra đời tạo nên cách mạng lớn việc tìm kiếm thơng tin Internet Tuy nhiên, máy tìm kiếm số trường hợp không phù hợp với yêu cầu thực tế kết trả cho người dùng lớn (thường lên đến hàng triệu ghi) Do đó, người dùng khó tìm kiếm thơng tin hữu ích lượng thơng tin đồ sộ Thu thập, xử lý khai thác thông tin theo miền ứng dụng cụ thể cho hiệu vấn đề mẻ thú vị lĩnh vực khai phá liệu Bài toán có ý nghĩa lớn nhu cầu tiếp cận thông tin người Trong luận văn đề cập đến việc sử dụng kỹ thuật trích rút thông tin (Information Extraction - IE) kết hợp với xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) để thu thập, xử lý, trích rút thơng tin từ trang web đặt ăn trực tuyến, từ xây dựng sở liệu lưu trữ thơng tin nhà hàng ăn, cuối xây dựng hệ thống hỏi đáp tự động dựa sở liệu Mơ hình tốn sau: Hình 1.1: Mơ hình tốn Trong phạm vi luận văn này, tác giả trình bày trích rút thơng tin từ trang web đặt trực tuyến theo mẫu cho trước, sau lưu thơng tin vào sở liệu phục vụ cho trình xây dựng hệ thống hỏi đáp tự động Thơng tin trích rút theo nội dung sau: - Tên nhà hàng - Mô tả nhà hàng - Số điện thoại - Địa nhà hàng - Danh sách ăn - Danh sách giá tương ứng với ăn Bên cạnh đó, luận văn trình bày hệ thống hỏi đáp tự động, toán kỹ thuật việc xây dựng hệ thống hỏi đáp tự động miền ứng dụng nhà hàng – ăn 3 PHẦN II NỘI DUNG 2.1 Bài tốn trích rút thơng tin 2.1.1 Phát biểu tốn trích rút thơng tin Trích rút thơng tin (Information Extraction – IE) lĩnh vực khai phá liệu (Data Mining) có nhiệm vụ lấy mẫu thơng tin “có ích” người dùng Theo Jaeyoung Yang cộng sự, trích rút/trích xuất thơng tin (IE) toán nhận dạng thành phần thông tin cụ thể văn bản, thành phần hạt nhân tạo nên nội dung ngữ nghĩa văn [12] Nói cách đơn giản, trích rút/trích xuất thơng tin q trình xử lý thông tin, đầu vào văn đầu thơng tin “có giá trị” với người dùng Thơng tin “có giá trị” hiểu thực thể, thuộc tính mô tả thực thể mối quan hệ thực thể Dữ liệu trích rút có nội dung cấu trúc thỏa mãn yêu cầu người dùng Có thể phát biểu tốn trích rút thơng tin sau: Đầu vào: Văn có cấu trúc Đầu ra: Thơng tin “có ích” tổ chức dạng cấu trúc Ví dụ sau minh họa q trình trích rút thơng tin từ văn tổ chức lại thành liệu có cấu trúc Hình 2.1: Minh họa tốn trích rút thơng tin Ở toán nhận đầu vào văn khơng có cấu trúc, nhiệm vụ trích rút thơng tin trích liệu liên quan tới Bill Gate gồm: chức vụ (CEO), công ty làm việc (Microsoft Corporation, Microsoft), người thành lập (founder) tên quỹ (Free Software Foundation)… Sau liệu tổ chức lại có cấu trúc lưu vào sở liệu Đây nhiệm vụ hội nghị KDD1 2003, người (đội) tham gia phải trích chọn thơng tin từ văn cho trước điền vào trường sở liệu (Filling slots in a database from sub-segments of text) 2.1.2 Các kỹ thuật trích rút thơng tin Dữ liệu đầu vào cho tốn trích rút thông tin đa dạng phong phú Dữ liệu dạng khơng cấu trúc, bán cấu trúc có cấu trúc, liệu trích rút trực tuyến (on-line) ngoại tuyến (off-line) Chi tiết sau:  Dữ liệu không cấu trúc: Dữ liệu không cấu trúc thường dùng để liệu dạng tự khơng cần có cấu trúc định nghĩa sẵn ví dụ ngơn ngữ tự nhiên  Dữ liệu có cấu trúc: Dữ liệu có cấu trúc thường dùng để liệu lưu trữ hệ quản trị sở liệu quan hệ MS SQL Server hay MySQL, thực thể thuộc tính định nghĩa sẵn  Dữ liệu bán cấu trúc: Là liệu có cấu trúc khơng hồn tồn tường minh, khơng tn theo cấu trúc, cách thức cấu trúc bảng mơ hình liệu sở liệu chứa thẻ, đánh dấu tới phần tử ngữ nghĩa riêng biệt ghi trường riêng biệt bên liệu Dữ liệu từ trang web dạng tiêu biểu cho liệu bán cấu trúc Trong luận văn tập trung vào giải tốn trích rút thông tin từ liệu bán cấu trúc ngoại tuyến (thu thập liệu trích rút thơng tin) Có nhiều cách tiếp cận để giải tốn trích rút thơng tin, nhiên dựa đặc trưng liệu tốn trích rút thơng tin giải số kỹ thuật sau:  Dữ liệu có cấu trúc: Được lưu trữ CSDL, việc lấy thông tin thông qua truy vấn người dùng (mệnh đề SELECT) KDD: http://www.kdd.org/  Dữ liệu bán cấu trúc: Các trang web đại diện cho liệu loại Có hai kỹ thuật thường xun dùng để trích rút thơng tin web sử dụng cấu trúc DOM sử dụng biểu thức quy  Dữ liệu khơng có cấu trúc: Với liệu khơng có cấu trúc, tốn trích rút thơng tin coi tốn nhận dạng trích rút thực thể như: tên người, tên tổ chức, vị trí, ngày tháng, số… 2.1.3 Trích rút thơng tin dựa DOM Theo W3C2 DOM (Document Object Model) giao diện lập trình ứng dụng (API) cho văn HTML hợp lệ văn XML có cấu trúc chặt chẽ Nó định nghĩa cấu trúc logic văn cách thức văn truy cập thao tác Ví dụ bảng lấy văn HTML: Hình 2.3: Minh họa biểu diễn DOM Cây DOM xây dựng dựa thẻ HTML, nút gốc thẻ ngồi (TABLE), sau đến thẻ lồng bên nội dung Như http://www.w3.org/DOM/ việc trích chọn thơng tin DOM việc duyệt thơng qua cặp thẻ HTML Như vậy, việc trích rút thơng tin từ DOM phía sau: duyệt qua nút DOM đến gặp Khi đó, giá trị nút thơng tin cần trích rút Ví dụ: Trích rút thơng tin Aeolian duyệt DOM sau: TBODYTRTDAeolian 2.2 Cơ hệ thống hỏi đáp Hệ thống hỏi đáp tự động định nghĩa sau [23]: Là hệ thống xây dựng để thực việc tìm kiếm tự động câu trả lời từ tập lớn tài liệu cho câu hỏi đầu vào cách xác ngắn gọn Kiến trúc chung hệ thống hỏi đáp sau: thành phần phân tích câu hỏi, thành phần trích rút thơng tin thành phần trả lời câu hỏi Các thành phần biểu diễn hình bên dưới: Câu hỏi Phân tích câu hỏi Trích rút thơng tin Sinh câu trả lời Câu trả lời Hình 3.1: Mơ hình chung cho hệ thống hỏi đáp tự động Chi tiết thành phần mô tả sau: - Bước – Phân tích câu hỏi: Phân tích để “hiểu” câu hỏi, trích chọn từ khóa biến đổi câu hỏi dạng câu truy vấn - Bước – Trích rút thơng tin: Q trình nhằm tìm tài nguyên phù hợp với câu hỏi người dùng Đầu vào bước câu hỏi người phân tích, bước cần phải xử lý để đưa kết tập tài liệu phù hợp với câu hỏi người dùng - Bước – Sinh câu trả lời: Phân tích tập tài liệu thu thập bước sử dụng thơng tin hữu ích bước phân tích câu hỏi cung cấp để đưa câu trả lời xác cho câu hỏi người dùng Có nhiều cách phân loại hệ thống hỏi đáp khác Nếu dựa vào miền ứng dụng có hai loại là: hệ thống hỏi đáp miền đóng (chỉ hỏi đáp cho miền ứng dụng cụ thể) hệ thống hỏi đáp miền mở (hỏi đáp cho nhiều miền ứng dụng khác nhau) Mặt khác, phân loại theo khả trả lời, hệ thống gồm loại sau: hệ thống có chế lập luận đơn giản, hệ thống có khả tổng hợp, hệ thống có khả giao tiếp với người dùng, hệ thống có khả lập luận tương tự Cuối cùng, phân loại theo hướng tiếp cận có hai loại: hệ thống hỏi đáp tự động theo hướng tiếp cận nông hệ thống hỏi đáp tự động theo hướng tiếp cận sâu 2.3 Các toán xây dựng hệ thống hỏi đáp 2.3.1 Bài tốn phân tích câu hỏi Bài tốn phân tích câu hỏi toán quan trọng q trình Đối tượng hỏi min/max địa điểm từ để hỏi mục đích Ví dụ: - Món thịt bị hầm giá rẻ quận Ba Đình đâu? - Ăn cơm văn phịng nhà hàng rẻ nhất? Địa điểm đối tượng hỏi mục đích từ để hỏi Ví dụ: - Nhà hàng bán thịt lợn hun khói rẻ nhất? - Món thịt lợn hun khói bán rẻ đâu? Mục đích hỏi thành phần từ để hỏi mục đích hỏi Ví dụ: - Nhà hàng Gió Mới bán vịt Bắc Kinh nằm đâu? - Nhà hàng ABC nằm đâu quận Hoàn Kiếm? Địa điểm từ để hỏi thành phần mục đích Ví dụ: 12 - Nhà hàng Ngon có bán sinh tố tình u khơng? - Tại qn Ngon có sinh tố tình u khơng? Thành phần địa điểm mục đích Ví dụ: - Món lẩu Thái có bán nhà hàng ABC khơng? - Có lẩu Thái nhà hàng ABC không? Mục đích từ để hỏi thành phần Ví dụ: - Nhà hàng có gà sốt nấm? - Nhà hàng có cơm văn phịng? Mục đích hỏi từ để hỏi thành phần địa điểm Ví dụ: - Nhà hàng bán phở gần nhà hát lớn Hà Nội? - Những cửa hàng bán phở gần nhà hát lớn Hà Nội? Cấu trúc luật bao gồm phần mô tả luật, đặt cặp dấu “”, sau mục đích hỏi đặt cặp dấu “”, bên luật mô tả thành phần luật, cuối luật có ví dụ minh họa 2.5 Kết thực nghiệm 2.5.1 Tập liệu kiểm tra Dữ liệu thử nghiệm hệ thống thu thập từ trang web đặt trực tuyến Việt Nam trình bày bảng sau: Bảng 5.1: Danh sách trang web dùng để thu thập liệu STT Tên trang web Địa Hotmeal http://hotmeal.vn HungryPanda http://www.hungrypanda.vn Hungry http://www.hungry.vn Goimon http://www.goimon.vn 13 STT Tên trang web Địa Foody http://www.foody.vn Chonmon http://www.chonmon.vn Tổng số trang web thu 14.504, sau luận văn xây dựng chương trình phân tích liệu để thu danh sách nhà hàng danh sách ăn tương ứng Tổng số nhà hàng sau tiến hành phân tích xử lý liệu 215 nhà hàng 16.144 ăn tương ứng Các thuộc tính nhà hàng luận văn gồm tên nhà hàng, địa chỉ, số điện thoại liên hệ danh sách ăn 2.5.2 Đánh giá q trình phân tích câu hỏi Sau hệ thống chạy thử nghiệm, luận văn tiến hành đánh giá độ xác câu hỏi hệ thống Để đánh giá độ xác hệ thống, luận văn sử dụng hai độ đo, độ hồi tưởng độ xác Cơng thức cụ thể sau: Độ xác = Độ hồi tưởng = ố ố â ệ ố ườ ả đượ ố ố â ỏ ố ố â ệ ố ả đú ố ố â ệ ố ả đượ ù đư Bảng 5.2: Minh họa độ xác loại mẫu câu hỏi STT Loại luật Số câu đưa vào Số câu trả lời Phần trăm (~) Loại số 50 48 96% Loại số 20 16 80% Loại số 25 22 88% Loại số 22 18 82% Loại số 38 36 95% Loại số 15 14 93% Loại số 18 16 89% Loại số 34 30 88% Loại số 14 12 85% 14 Bảng 5.3: Minh họa độ hồi tưởng loại mẫu câu hỏi STT Loại luật Số câu trả lời Số câu trả lời Phần trăm (~) Loại số 48 43 89% Loại số 16 11 69% Loại số 22 20 90% Loại số 18 13 72% Loại số 36 33 91% Loại số 14 11 79% Loại số 16 13 81% Loại số 28 25 89% Loại số 12 10 83% Kết thực nghiệm đánh giá độ xác trung bình đạt xấp xỉ 88,44% độ hồi tưởng trung bình xấp xỉ đạt 81,44% Các câu hỏi hệ thống không trả lời xuất phát từ số nguyên nhân sau: - Dữ liệu hệ thống: Với câu hỏi người dùng mà liệu khơng có hệ thống hệ thống không trả kết cho người dùng Ví dụ: Hệ thống khơng trả lời câu hỏi “Nhà hàng bán phở quận Hồ Gươm” quận Hồ Gươm khơng có sở liệu - Câu hỏi không cú pháp: Hệ thống không trả lời câu hỏi người dùng đơn giản phức tạp, luận văn tập chung khảo sát số mẫu câu hỏi thường gặp Số luật mà luận văn xây dựng chưa bao phủ hết miền câu hỏi theo ngôn ngữ tự nhiên người dùng Ví dụ: Hệ thống thông báo câu hỏi “Phở” không hợp lệ không đủ thành phần câu hỏi, câu hỏi “Tơi muốn ăn bị bít tết ngon rẻ!” hệ thống thông báo không cấu trúc có tên ăn mà khơng có hỏi chi tiết giá hay địa điểm, hàm ý bên câu hỏi hỏi địa điểm giá Bên cạnh đó, tiêu chí “ngon” khó đánh giá - Các luật xây dựng JAPE “cứng”: Do luật xây dựng dựa cơng cụ JAPE nên thiếu tính mềm dẻo, khó xử lý với câu hỏi phức tạp mang tính ngữ nghĩa từ người dùng Trong câu hỏi dạng 15 chiếm nhiều thực tế Điều dẫn đến việc hệ thống không trả lời trả lời sai câu hỏi người dùng - Ví dụ: Luật xây dựng JAPE xử lý tốt với câu hỏi đơn giản “Ăn Buffe nhà hàng quận Bình Thạnh?” “Cửa hàng lẩu 39 có sinh tố mãng cầu hay khơng?” lại khó xử lý với câu hỏi phức tạp “Nhà hàng bán cơm văn phịng phạm vi bán kính 1km tính từ Học viện Bưu Viễn thơng?” câu hỏi mang tính ngữ nghĩa “Nhà hàng bán ngô chiên ngon rẻ Đà Nẵng?” 2.5.3 Đánh giá trình trả lời câu hỏi Giao diện đặt câu hỏi khởi chạy hệ thống Hình 5.1: Giao diện đặt câu hỏi cho người dùng 16 Giao diện trả lời câu hỏi hệ thống Hình 5.2: Giao diện trả lời câu hỏi 17 PHẦN III KẾT LUẬN Luận văn tiến hành nghiên cứu hệ thống hỏi đáp, khảo sát số toán điển hình việc xây dựng hệ thống hỏi đáp tự động Bên cạnh đó, luận văn tiến hành xây dựng hệ thống hỏi đáp miền ứng dụng “Nhà hàng – ăn” dựa việc phân tích câu hỏi với công cụ JAPE Các kết đạt được: - Trình bày hệ thống hỏi đáp tự động, phân loại hệ thống hỏi đáp trình xây dựng hệ thống hỏi đáp - Khảo sát toán phương pháp giải xây dựng hệ thống hỏi đáp - Thu thập xử lý liệu cho việc xây dựng hệ thống hỏi đáp miền ứng dụng “Nhà hàng – ăn” - Khảo sát đưa mẫu câu hỏi thường gặp hệ thống hỏi đáp miền ứng dụng “Nhà hàng – ăn”, bên cạnh sử dụng cơng cụ JAPE cho việc nhận biết phân tích câu hỏi người dùng với độ xác trung bình đạt 88,44% độ hồi tưởng trung bình đạt 81,44% - Đề xuất mơ hình hỏi đáp tiếng Việt miền ứng dụng “Nhà hàng – ăn” dựa mẫu câu hỏi xử lý JAPE Những hạn chế: - Số lượng liệu thu thập xử lý hạn chế, chưa đáp ứng số câu hỏi người dùng câu hỏi người dùng chứa liệu khơng có sở liệu - Hệ thống xử lý câu hỏi công cụ JAPE, việc đơn giản nhiên JAPE không xử lý câu hỏi phức tạp cách viết luật JAPE “cứng” Bên cạnh đó, tập luật xây dựng thủ cơng, chưa bao phủ miền câu hỏi người dùng - Chưa trả lời câu hỏi phức tạp, mang tính suy luận ngữ nghĩa - Hệ thống đánh giá liệu tự xây dựng, chưa có tiêu chí so sánh với hệ thống khác Hướng phát triển: 18 - Tăng lượng liệu sở liệu nhà hàng ăn để đáp ứng câu hỏi người dùng - Sử dụng phương pháp học máy cho bước phân tích câu hỏi, từ nâng cao độ xác khả phân tích trả lời câu hỏi - Có thể mở rộng miền ứng dụng, hệ thống dừng lại miền ứng dụng đóng (chuyên miền) 19 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hồ Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt Công nghệ Thông tin Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Tiên tiến Nhật Bản [2] Lê Ngọc Đức (2009) Hệ thống trích rút thơng tin từ trang VietPhD Đồ án tốt nghiệp, Đại học Bách khoa Hà Nội [3] Đỗ Thái Hà (2009) Hệ thống hỏi đáp tự động QA system Thực tập chuyên ngành, Đại học Bách khoa Hà Nội [4] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái (2009) Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa kho văn tiếng Việt Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ [5] Trần Xuân Tứ, Lê Đức Trọng, Nguyễn Tiến Tùng (2011) Hệ thống hỏi đáp thực thể tên người tiếng Việt Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ Tài liệu tiếng Anh [6] Bing Liu (December, 2006), Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html [7] Brin, Sergrey (1998) (Computer Science Department, Stanford University) Extracting patterns andrelations from the world wide web WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT ’98 Available: http://citeseerx.ist.psu.edu/ viewdoc/summary?doi=10.1.1.101.3197 [8] Diego Mollá Aliod, Rolf Schwitter, Fabio Rinaldi, James Dowdall, Michael Hess (2003) ExtrAns: Extracting Answers from Technical Texts IEEE Intelligent Systems (EXPERT) 18(4):12-17 [9] George A Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller (1998) Introduction to WordNet: An On-line Lexical Database [10] Girju Roxana (June, 2001) Answer Fusion with On-Line Ontology Development In Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL) - Student Research Workshop, (NAACL 2001), Pittsburgh, PA [11] Ion Muslea, Steve Minton, and Craig Knoblock (1999) A Hierarchical Approach to Wrapper Induction In Proceeding of the International Conference on Autonomous Agents (AGENTS’99), pp 190–197 3rd [12] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A (2002) “Knowledge Based Information Extraction System for Semi-structured Labeled Documents”, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning [13] Jaime Carbonell, Donna Harman, Eduard Hovy, and Steve Maiorano, John Prange and Karen SparckJones (2000) Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization Final version [14] Julien Clément, Philippe Flajolet, Brigitte Vallée: The Analysis of Hybrid Trie Structures SODA 1998:531-539 [15] N.F Noy and McGuinness (2001), D.L Ontology Development 101: A Guide to CreatingYour First Ontology SMI Technical report SMI-2001-0880, Stanford University 20 [16] http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006 Website [17] http://wikipedia.org [18] http://en.wikipedia.org/wiki/Named-entity_recognition Công cụ sử dụng [19] http://gate.ac.uk [20] http://jsoup.org ... LUẬN Luận văn tiến hành nghiên cứu hệ thống hỏi đáp, khảo sát số tốn điển hình việc xây dựng hệ thống hỏi đáp tự động Bên cạnh đó, luận văn tiến hành xây dựng hệ thống hỏi đáp miền ứng dụng “Nhà... miền ứng dụng cụ th? ?) hệ thống hỏi đáp miền mở (hỏi đáp cho nhiều miền ứng dụng khác nhau) Mặt khác, phân loại theo khả trả lời, hệ thống gồm loại sau: hệ thống có chế lập luận đơn giản, hệ thống. .. câu hỏi với cơng cụ JAPE Các kết đạt được: - Trình bày hệ thống hỏi đáp tự động, phân loại hệ thống hỏi đáp trình xây dựng hệ thống hỏi đáp - Khảo sát toán phương pháp giải xây dựng hệ thống hỏi

Ngày đăng: 03/06/2021, 21:26

Tài liệu cùng người dùng