Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
516,65 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HÀ THỊ MINH LỘC CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 XÂY DỰNG MƠ HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Hoàng Xuân Dậu Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Mục tiêu luận văn xây dựng thử nghiệm mơ hình hệ thống hỏi-đáp tự động tiếng Việt cho miền cụ thể hỗ trợ việc đào tạo trực tuyến Những nghiên cứu làm sở lý thuyết thực nghiệm cho việc xây dựng hệ thống hỏi - đáp tiếng Việt có hiệu tương lai Luận văn trình bày với nội dung sau: Chương 1: Những vấn đề khái quát, lịch sử phát triển kiến trúc hệ thống hỏi đáp nói chung, vấn đề cần quan tâm yêu cầu xây dựng hệ thống hỏi đáp Chương 2: Các sở lý thuyết, thuật toán, phương pháp xử lý liệu ban đầu Chương phương pháp để phân câu hỏi vào lớp cụ thể hệ thống, giải pháp đánh giá độ tương đồng tài liệu Chương 3: Xây dựng mơ hình hệ thống, phân tích giai đoạn q trình xây dựng, lựa chọn phương pháp thuật toán cụ thể cho giai đoạn 2 Chương TỔNG QUAN 1.1 Khái quát hệ thống hỏi đáp tự động Có hai loại hệ thống hỏi – đáp: Hệ thống không tập chung: Các câu hỏi gửi đến nơi Các câu trả lời xuất phát từ nhiều nơi, từ nhiều người dùng (diễn đàn ) Hệ thống tập chung: Các câu hỏi gửi đến nơi, câu trả lời xuất phát, tập chung nơi nhất, tập chung(Email ) Giới hạn quyền truy xuất, khơng phải thấy 1.2 Sơ lược lịch sử phát triển Một số hệ thống đời từ năm 1960 nhận nhiều mối quan tâm cộng đồng nhà nghiên cứu Điều bắt nguồn từ việc lượng tài liệu lớn có gắn mục sẵn có Internet, với thành tựu lĩnh vực rút trích thơng tin gia tăng nhu cầu thương mại cho sản phẩm QA toàn cầu 1.3 Kiến trúc chung hệ thống hỏi – đáp Hình 1.1 Hệ thống tìm kiếm thơng tin (IR) Hình 1.2: Kiến trúc chung hệ thống hỏi – đáp 1.3.1 Giao diện người dùng (User Interface): Từ giao diện Web, người dùng nhập vào câu hỏi.Sau câu hỏi gửi đi, hệ thống xử lý trả cho người dùng câu trả lời định dạng tương tự 1.3.2 Phân tích câu hỏi (Question Analyzer): Câu hỏi phân tích xử lý để trích lọc thơng tin nhằm sử dụng giai đoạn tìm kiếm sau Câu hỏi đặt làm để phân lớp chuẩn hóa câu hỏi cách tốt Tùy vào việc phân tích câu hỏi nơng hay sau mà bước cho kết khác 1.3.3 Tìm kiếm liệu (Data Retrieval): Một số thơng tin trích xuất giai đoạn phân tích câu hỏi sử dụng để tìm kiếm thông tin sở tri thức Trong phần này, thông tin tiền xử lý nhiều lần để tăng hiệu hệ thống 1.3.4 Rút trích câu trả lời (Answer Extraction): Thông tin trả giai đoạn tài liệu văn từ việc truy vấn sở liệu Những thông tin sử dụng để rút trích đoạn (passage) có liên quan ngữ nghĩa đến câu hỏi mà người dùng đưa Khi mục đích câu hỏi làm rõ Hệ thống xử lý chọn tập câu trả lời có liên quan đến nội dung hỏi (lĩnh vực hỏi) 1.3.5 Chiến lược xếp hạng (Ranking): Nếu kết giai đoạn rút trích câu trả lời có nhiều câu trả lời câu trả lời xếp hạng dựa mức độ liên quan mặt ngôn ngữ với câu hỏi người dùng 1.3.6 Xác minh câu trả lời (Answer Verification): Một số hệ thống QA cải thiện thêm tính xác cách phân tích câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên cách phân tích sâu để xác minh lại câu hỏi Các câu hỏi câu trả lời phân tích cú pháp chuyển đổi sang hình thức logic Các câu hỏi câu trả lời sau so sánh với để xác minh tính hợp lý câu trả lời 1.4 Một số vấn đề quan tâm thiết kế hệ thống hỏi - đáp Loại câu hỏi Xử lý câu hỏi Ngữ cảnh hệ thống hỏi đáp Nguồn liệu cho hệ thống hỏi đáp Trích xuất câu trả lời 1.5 Các yêu cầu hệ thống hỏi - đáp Tính xác Tính khả dụng Tính hợp lý thời gian Tính hồn chỉnh Tính thích hợp câu trả lời 1.6 Kết luận Hệ thống hỏi - đáp tự động công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thơng tin ngày cao người, hệ thống hỏi- đáp tiếng Việt lại quan tâm vài năm gần Như vậy, việc xây dựng hệ thống hỏi-đáp tiếng Việt nhu cầu cần thiết Hướng tới mục tiêu này, học viên muốni xây dựng mơ hình hệ thống hỏi - đáp tự động tiếng Việt nhằm phục vụ cho lĩnh vực cụ thể hỗ trợ đào tạo trực tuyến 7 Chương TIỀN XỬ LÝ VÀ PHÂN LOẠI CÂU HỎI 2.1 Tiền xử lý liệu 2.1.1 Phân tích câu hỏi 2.1.1.1 Các phương pháp phân tích câu hỏi Phương pháp nơng (Shallow Method): Dựa từ khóa để xác định vị trí đoạn câu từ tài liệu trả giai đoạn tìm kiếm, sau lọc câu trả lời dựa diện loại câu trả lời văn trả Phương pháp sâu (Deep Method): Là phương pháp sử dụng kỹ thuật xử lý cú pháp, ngữ nghĩa ngữ cảnh phức tạp để trích xuất xây dựng câu trả lời 2.1.1.2 Phân tích câu hỏi ngơn ngữ tiếng Việt Khi phân tích câu hỏi tiếng Việt, khác với câu hỏi tiếng Anh, phải giải quyết: - Xác định ranh giới từ câu - Cùng hỏi thông tin, câu hỏi diễn đạt theo nhiều cách khác nhau, sử dụng từ ngữ, cấu trúc khác 8 - Có nhiều từ có mật độ xuất cao khơng mang ý nghĩa cụ thể - Chính tả tiếng Việt số điểm chưa thống - Tồn nhiều bảng mã tiếng Việt đòi hỏi khả xử lý tài liệu bảng mã khác Tuỳ vào mục đích phân loại mà có phương pháp tiền xử lý văn khác 2.1.2 Tách từ 2.1.2.1 Các hướng tiếp cận dựa từ Hướng tiếp cận chia theo hướng: dựa thống kê (statistics - based), dựa từ điển (dictionary – based) hydrid (kết hợp nhiều phương pháp với hy vọng đạt ưu điểm phương pháp này) 2.1.2.2 Các hướng tiếp cận dựa kí tự Hướng tiếp cận đơn rút trích số lượng định tiếng văn rút trích từ ký tự (unigram) hay nhiều ký tự (n-gram) mang lại số kết qủa định minh chứng thông qua số công trình nghiên cứu cơng bố, tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất ngữ Rồi cơng trình nghiên cứu H Nguyễn et al [2005] Đây phương pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) H Nguyễn et al đề xuất năm 2005 Trong hướng tiếp cận này, tác giả kết hợp thuật toán di truyền với liệu thống kê lấy từ Internet Hình 2.1: Tồn cảnh hệ thống IGATEC 2.1.3 Biểu diễn văn Để phân loại đươc văn phục vụ việc tìm kiếm thơng tin có hiệu quả, tài liệu thường chuyển đổi thành cách biểu diễn tài liệu thích hợp Có nhiều phương pháp khác đề xuất, tổng hợp sau: 10 2.1.3.1 Các mơ hình lý thuyết tập hợp: Các phương pháp biểu diễn tài liệu thành tập hợp từ cụm từ Tính tương tự tài liệu rút từ tập hợp toán tử lý thuyết tập hợp tập hợp 2.1.3.2 Các mơ hình xác suất: Mơ hình coi việc tìm kiếm tài liệu suy luận có tính xác suất Tính tương tự xem xác suất mà tài liệu liên quan đến truy vấn cho 2.1.3.3 Các mơ hình đại số: Các phương pháp biểu diễn tài liệu truy vấn thành vector, ma trận liệu Tính tương tự vector truy vấn vector tài liệu biểu diễn đại lượng vô hướng 2.2 Phân loại câu hỏi 2.2.1 Rút trích đặc trưng văn 2.2.1.1 Loại bỏ stop word: Sau tiến hành tách từ văn bản, tiến hành loại bỏ từ stopword khỏi văn 2.2.1.2 Trích chọn đặc trưng văn bản: Các phương pháp rút trích thơng tin cổ điển coi văn tập từ khóa gọi tập từ khóa tập term Một phần tử tập term đơn giản từ, mà ngữ nghĩa từ giúp tạo thành nên nội dung văn bản.Vì vậy, tập term sử dụng để tạo mục tóm lược nội dung văn 11 2.2.1.3 Các phương pháp rút trích đặc trưng văn 2.2.1.3.1 Phương pháp truyền thống: Một văn D biểu diễn vector đặc trưng có dạng (d1, d2,…, dn), di trọng số đặc trưng thứ i n số lượng đặc trưng Mỗi đặc trưng tương ứng với từ xuất tập huấn luyện sau loại bỏ stopword khỏi văn 2.2.1.3.2 Rút trích dựa cơng nghệ tác nhân thơng minh: Tác nhân (agent) máy tính chương trình phần mềm có sống, có đặc tính hành động giống hoạt động người 2.2.1.3.3 Cơng cụ rút trích đặc trưng tự động Thuật tốn – Thuật tốn rút trích đặc trưng văn B0: Chọn tất từ từ có xuất n văn bản, n>= ngưỡng đưa vào từ tập Words B1: Tìm cụm từ (kết hợp từ từ trở lên) đưa vào Associated Words B2: Tập từ cụm từ chọn Words Associated Words B3: Tiến hành lọc từ cụm từ dựa công thức độ tốt từ lớp Độ tốt từ cụm từ tính theo cơng thức: 12 Trong đó: G(w): Độ tốt từ w Fclust: Mô tả mối liên hệ w với từ khác lớp j Fcoll: Mô tả mối liên hệ w với toàn tập văn Fj(w): số lần w xuất lớp văn j Dựa độ tốt G, tiến hành loại bỏ từ, cụm từ có độ tốt > hai lớp trở lên B4: Tính Wij cho từ cụm từ với Wij tính theo cơng thức: Trong đó: Fij : Là tần số từ cụm từ i văn j N: Số văn tập Ni: Là số văn chứa từ cụm từ i Dựa Wij ta lọc từ, cụm từ dựa giá trị cách đưa ngưỡng cho Wij Thuật tốn – Thuật tốn tìm cụm từ - Đầu vào: Danh sách từ từ chọn theo ngưỡng 13 - Đầu ra: Danh sách từ liên kết (2 từ trở lên) - B0: Giả sử đầu vào ta nhận danh sách có n từ từ (danh sách 1), danh sách = danh sách - B1: Tạo ma trận danh sách x danh sách - B2: Tiến hành ghép từ - B3: Tính số lần xuất của từ ghép toàn văn đưa vào Nếu số lần xuất > = ngưỡng chọn Ngược lại, không chọn từ ghép - B4: Kết thu danh sách từ ghép (danh sách 3) Nếu danh sách khác rỗng tiến hành lại B1 vớ danh sách = danh sách Nếu rỗng dừng 2.2.2 Phân loại câu hỏi tiếng Việt - Bước : Rút trích đặc trưng câu hỏi biểu diễn câu hỏi mơ hình vector - Bước : Áp dụng thuật toán phân loại văn để phân loại câu hỏi 2.2.2.1 Các phương pháp phân loại phân phối câu hỏi 2.2.2.1.1 Phương pháp SVM – Support Vector Machine Cho trước tập huấn luyện biểu diễn khơng gian vector, văn xem điểm khơng gian Phương pháp tìm siêu mặt phẳng h định tốt chia điểm không gian thành hai lớp riêng biệt tương ứng, tạm gọi lớp + ( cộng ) lớp – ( trừ) Chất lượng siêu mặt phẳng định khoảng cách (được gọi biên) điểm liệu 14 gần lớp đến mặt phẳng Khoảng cách biên lớn có phân chia tốt điểm thành hai lớp, nghĩa đạt kết qủa phân loại tốt Mục tiêu thuật tốn SVM tìm khoảng cách biên lớn để tạo kết qủa phân loại tốt 2.2.2.1.2 Phương pháp Naïve Bayes (NB) Ý tưởng cách tiếp cận sử dụng xác suất có điều kiện từ cụm từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại 2.2.2.1.3 Phương pháp K – Nearest Neighbor ( kNN) Ý tưởng phương pháp cần phân loại văn mới, thuật toán xác định khoảng cách (có thể áp dụng cơng thức khoảng cách Euclide, Cosine, Manhattan, …) tất văn tập huấn luyện đến văn để tìm k văn gần nhất, gọi k nearest neighbor – k láng giềng gần sau dùng khoảng cách đánh trọng số cho tất chủ đề Khi đó, trọng số chủ đề tổng tất khoảng cách văn k láng giềng có chủ đề, chủ đề khơng xuất k láng giềng có trọng số Sau chủ đề xếp theo giá trị trọng số giảm dần chủ đề có trọng số cao chọn làm chủ đề văn cần phân loại 2.2.2.1.4 Phương pháp Linear Least Square Fit – LLSF Ý tưởng LLSF sử dụng phương pháp hồi quy để học từ tập huấn luyện chủ đề có sẵn 15 2.2.2.1.5 Phân loại dựa theo cơng nghệ tác nhân thông minh Đây modul xây dựng theo công nghệ tác nhân thông minh Tác nhân phân loại có nhiệm vụ kiểm tra hệ thống có câu hỏi đến (cảm nhận thay đổi hệ thống), tiến hành phân loại câu hỏi (đưa hành động thích hợp) Tác nhân phân loại chương trình nhỏ xây dựng serviece hệ điều hành 2.2.2.1.7 Kết luận Thuật toán sử dụng để phân loại phải có thời gian xử lý hợp lý , thời gian bao gồm: thời gian học, thời gian phân loại văn bản, thuật tốn phải có tính tăng cường (incremental function) nghĩa khơng phân loại lại tồn tập văn thêm số văn vào tập liệu mà phân loại văn mới, thuật tốn phải có khả giảm độ nhiễu (noise) phân loại văn 2.2.3 Đánh giá độ tương đồng tài liệu 2.2.3.1 Mơ hình vector 2.2.3.2.Phương pháp trọng số tf-idf 2.2.3.3 Hệ số Cosine 16 Chương XÂY DỰNG MƠ HÌNH HỆ THỐNG 3.1 Lựa chọn mơ hình thuật tốn 3.1.1 Lựa chọn thuật toán tách từ: Phương pháp tác giả H.Nguyễn có ưu điểm khơng cần sử dụng tập huấn luyện từ điển nào, khơng thời gian để huấn luyện Phương pháp tách từ khơng phức tạp Do đó, đồ án này, việc tách từ lựa chọn theo cơng trình H Nguyễn 3.1.2 Lựa chọn phương pháp biểu diễn văn bản: Hiện nay, phương pháp phổ biến biểu diễn văn mơ hình khơng gian vector Trong mơ hình này, đồ án xin lựa chọn theo mơ hình 3.1.3 Lựa chọn phương pháp rút trích đặc trưng: Ta sử dụng phương pháp truyền thống 3.3.4 Lựa chọn phương pháp phân lớp câu hỏi: Trong đồ án chọn Naïve Bayes để phân loại văn Tuy nhiên việc ứng dụng có số cải tiến 17hỏi Câu 3.2 Mơ hình kiến trúc hệ thống Phân tích Khơng thành cơng Phân loại câu hỏi Unknown Thành công Thư ký Phân phối tay So khớp câu hỏi Phân phối tự động Có câu hỏi tương tự So khớp câu trả lời Không có câu hỏi tương tự Chun gia Hình 3.1: Mơ hình hoạt động hệ thống Câu trả lời 18 3.2.1 Giai đoạn phân tích câu hỏi Tách từ, tách câu Trích từ khóa Phân tích câu hỏi Xây dựng véc tơ đặc trưng câu hỏi Hình 3.2: Giai đoạn phân tích câu hỏi 3.2.2 Phân loại câu hỏi Câu hỏi Véc tơ đặc trưng câu hỏi So sánh độ tương tự Tập luật phân lớp Hình 3.3: Tiến trình phân lớp Quyết định phân loại 19 3.2.3 So khớp (tìm kiếm) câu hỏi Kho câu hỏi Véc tơ câu hỏi Xác định nhóm câu hỏi So khớp câu hỏi Xếp hạng câu hỏi nQ gần Hình 3.4: Tiến trình tìm kiếm câu hỏi 3.2.4 So khớp (tìm kiếm) câu trả lời Kho câu trả lời Xây dựng véc tơ câu trả lời Chọn câu trả lời tương ứng với nQ câu hỏi Hình 3.5: Tiến trình tìm kiếm câu trả lời So khớp câu trả lời Trả lời 20 3.2.5 Chuyển câu hỏi tới chuyên gia tương ứng Câu hỏi Lớp mà câu hỏi phân vào Quyết định chuyên gia cần chuyển tới So sánh Chuyên gia ứng với lớp câu hỏi Hình 3.6: Tiến trình chuyển câu hỏi tới chuyên gia 3.3 Cài đặt Hệ thống hỏi-đáp tự động phục vụ tư vấn trực tuyến cài đặt máy tính có cấu hình: CPU Intel B800, RAM 2GB Chương trình cài đặt ngơn ngữ Java Hệ thống xây dựng theo mơ hình Client/ Server web Do cần máy chủ chạy với hệ điều hành Windows 2003 server trở lên Người sử dụng nối đến máy chủ để truy xuất hệ thống thông qua mạng LAN hay Internet 21 KẾT LUẬN Hệ thống hỏi-đáp tự động lĩnh vực có nhiều hướng mở cần nghiên cứu sâu nhằm đáp ứng ngày cao nhu cầu tìm kiếm thơng tin súc tích, xác kho liệu khổng lồ người xã hội ngày Luận văn tập trung nghiên cứu tổng quát hệ thống hỏi-đáp tự động, phương pháp áp dụng cho ngôn ngữ tiếng Việt dựa thành xử lý ngơn ngữ tiếng Việt có để xây dựng thử nghiệm mơ hình hệ thống hỏi-đáp tự động tiếng Việt cho miền cụ thể hỗ trợ việc đào tạo trực tuyến Nội dung luận văn tập trung chủ yếu vào nghiên cứu phương pháp xử lý liệu: Phân tích câu hỏi, biểu diễn tìm kiếm văn Trong trình xây dựng mơ hình hệ thống, giai đoạn, luận văn chọn lựa phương pháp, công việc cụ thể, phù hợp để xây dựng module hệ thống Tuy kết ban đầu giới hạn, kết đạt làm sở lý thuyết thực nghiệm cho việc xây dựng hệ hỏi-đáp tiếng Việt thực tế hoạt động hiệu tương lai Trong thời gian tới, học viên tiếp tục nghiên cứu phát triển số ý tưởng sau: 22 Số chiều vector đặc trưng cho cặp hỏi-đáp hệ thống lớn tăng theo tỷ lệ thuận với số lượng từ khóa tồn kho liệu hệ thống Do học viên tìm hiểu phương pháp rút trích đặc trưng nhằm giảm số chiều vector đặc trưng Có nhiều phương pháp tìm kiếm thơng tin khác áp dụng vào hệ thống Hệ thống hỏi-đáp phối hợp hiệu phương pháp khác Do đó, hướng phát triển khác luận văn nghiên cứu thử nghiệm phương pháp tìm kiếm rút trích thơng tin khác nhằm cải thiện hiệu suất hệ thống ... tâm thiết kế hệ thống hỏi - đáp Loại câu hỏi Xử lý câu hỏi Ngữ cảnh hệ thống hỏi đáp Nguồn liệu cho hệ thống hỏi đáp Trích xuất câu trả lời 1.5 Các yêu cầu hệ thống hỏi - đáp Tính xác... viên muốni xây dựng mơ hình hệ thống hỏi - đáp tự động tiếng Việt nhằm phục vụ cho lĩnh vực cụ thể hỗ trợ đào tạo trực tuyến 7 Chương TIỀN XỬ LÝ VÀ PHÂN LOẠI CÂU HỎI 2.1 Tiền xử lý liệu 2.1.1... luận Hệ thống hỏi - đáp tự động công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thơng tin ngày cao người, hệ thống hỏi- đáp tiếng Việt lại quan tâm vài năm gần Như vậy, việc xây dựng hệ thống hỏi- đáp