Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
751,11 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Minh Tuấn PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Minh Tuấn PHÂN LỚP CÂU HỎI HƯỚNG TỚI TÌM KIẾM NGỮ NGHĨA TIẾNG VIỆT TRONG LĨNH VỰC Y TẾ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: PGS TS Hà Quang Thụy Cán đồng hướng dẫn: Th.S Nguyễn Việt Cường HÀ NỘI - 2008 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Nguyễn Việt Cường, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại Học Công Nghệ Tôi xin gửi lời cảm ơn chân thành tới Thạc Sỹ Nguyễn Cẩm Tú Cử Nhân Nguyễn Thu Trang tận tình hỗ trợ kiến thức chun mơn, giúp đỡ tơi hồn thành khóa luận Tơi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá liệu” giúp nhiều việc thu thập xử lý liệu Cuối cùng, tơi muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn ! Sinh viên Nguyễn Minh Tuấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Cùng với đời Web ngữ nghĩa Ontology, nhu cầu tìm kiếm ngữ nghĩa ngày nhận nhiều quan tâm cộng đồng nghiên cứu khai phá liệu Web/Text Mặt khác, phân lớp câu hỏi thành phần quan trọng kiến trúc tổng thể hầu hết máy tìm kiếm ngữ nghĩa Đây thành phần chịu nhiều ảnh hưởng đặc trưng ngôn ngữ giữ vai trò tảng cho bước xử lý nhằm hướng tới tìm kiếm ngữ nghĩa Khóa luận tập trung nghiên cứu phương pháp phân loại câu hỏi lĩnh vực y tế tiếng Việt dựa hướng tiếp cận cực đại hóa Entropy (maxent) Dựa việc khảo sát đặc trưng tiếng Việt hướng tiếp cận phân lớp câu hỏi tiếng Anh, khóa luận tích hợp đặc trưng vào trình phân lớp với Maxent thu kết khả quan Những nội dung coi nghiên cứu vấn đề tiếng Việt i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Tóm tắt i Mục lục ii Danh sách bảng .iv Danh sách hình .v Lời mở đầu Chương I Tổng quan tìm kiếm ngữ nghĩa 1.1 Nhu cầu máy tìm kiếm ngữ nghĩa 1.2 Cấu trúc tổng thể máy tìm kiếm ngữ nghĩa .2 1.2.1 Nền tảng cho tìm kiếm ngữ nghĩa 1.2.2.1 Web ngữ nghĩa 1.2.2.2 Ontology 1.2.2 Kiến trúc máy tìm kiếm ngữ nghĩa .9 1.2.2.3 Giao diện người dùng 10 1.2.2.4 Kiến trúc bên .10 Chương Tìm kiếm ngữ nghĩa tiếng Việt .14 2.1 Tổng quan sở cho tìm kiếm ngữ nghĩa tiếng Việt 14 2.2 Một số đặc trưng tiếng Việt 15 2.2.1 Đặc điểm ngữ âm 15 2.2.2 Đặc điểm từ vựng: 15 2.2.3 Đặc điểm ngữ pháp .16 2.3 Tìm kiếm ngữ nghĩa lĩnh vực y tế 16 2.3.1 Ontology Y tế tiếng Việt 16 2.3.2 Bộ phân lớp câu hỏi Y tế tiếng Việt 18 Chương Các phương pháp phân lớp câu hỏi 19 3.1 Giới thiệu phân lớp câu hỏi 19 3.2 Các phương pháp phân lớp câu hỏi .19 3.3 Hướng tiếp cận dựa xác suất 20 3.3.2 Các hướng tiếp cận theo phương pháp học máy 21 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.1.1 Support Vector Machines (SVM) 21 3.3.1.2 Một số phương pháp khác 27 3.3.1.3 Thực nghiệm tiến hành phân lớp câu hỏi 28 3.3.3 Hướng tiếp cận dựa mơ hình hình ngơn ngữ 31 3.3.3.1 Hướng tiếp cận Entropy cực đại .33 Chương Thực nghiệm đánh giá 37 4.1 Dữ liệu thực nghiệm 37 4.2 Thiết kế thử nghiệm 38 4.3 Kết thực nghiệm .39 4.4 Đánh giá kết thực nghiệm 43 Kết luận .45 Tài liệu tham khảo 46 Tiếng Việt .46 Tiếng Anh .46 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng 1: taxonomy tập lớp câu hỏi thử nghiệm Zhang 28 Bảng Độ xác năm phân lớp Cha với giải thuật khác học máy, sử dụng vector đặc trưng bag-of-words .29 Bảng Độ xác năm phân lớp Cha với giải thuật khác học máy, sử dụng vector đặc trưng bag-of-Ngrams 30 Bảng Độ xác phân lớp với giải thuật khác học máy, sử dụng vector đặc trưng bag-of-words 30 Bảng Độ xác phân lớp với giải thuật khác học máy, sử dụng vector đặc trưng bag-of-Ngrams .31 Bảng 6.Tập liệu huấn luyện 37 Bảng Tập liệu kiểm tra 38 Bảng Tham số huấn luyện mơ hình SVM .39 Bảng Tham số huấn luyện mơ hình Entropy cực đại .39 Bảng 10 kết huấn luyện với SVM .39 Bảng 11 Kết 10 lần huấn luyện với Entropy cực đại 40 Bảng 12 Kết bước lặp thứ 41 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình Hình Ví dụ Web ngữ nghĩa .3 Hình Ví dụ Ontology Y tế Hình Sơ đồ máy tìm kiếm ngữ nghĩa .9 Hình Mối quan hệ siêu phẳng phân cách .23 Hình Siêu phẳng tối ưu biên 24 Hình Sơ đồ phân lớp câu hỏi với SVM 26 Hình Đồ thị biểu diễn phụ thuộc F1 vào số lần lặp 42 Hình Tổng hợp độ đo 10 lần huấn luyện .42 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời mở đầu Sự đời Web ngữ nghĩa Ontology dẫn tới đời hệ thống tìm kiếm với hộ trợ dạng thông tin – hệ thống tìm kiếm ngữ nghĩa Một hệ thống tìm kiếm ngữ nghĩa thơng thường xây dựng miền ngôn ngữ cụ thể Cấu trúc nội hệ thống tìm kiếm ngữ nghĩa điển hình bao gồm hai thành phần quan trọng mang đặc trưng ngơn ngữ là: (1) phân lớp câu hỏi (2) sở liệu tri thứ (mạng ngữ nghĩa) Trong vài năm gần nhiều cơng trình nghiên cứu giải toán phân lớp câu hỏi công bố [16], [15], [19], [36], [42] Ta chia thuật tốn phân lớp câu hỏi thành hai hướng tiếp cận chính: (1) hướng tiếp cận theo regular expression (biểu thức qui) [35] (2) hướng tiếp cận dựa xác suất [16], [15], [19], [36], [42] Mỗi hướng tiếp cận có ưu nhược điểm riêng xem xét phần sau Khóa luận tiến hành phân tích cấu trúc tổng thể máy tìm kiếm ngữ nghĩa Qua module ảnh hưởng đặc trưng ngôn ngữ tiến hành khảo sát phương pháp giải toán phân lớp câu hỏi phổ biến Từ đề xuất giải pháp thích hợp áp dụng vào tiếng Việt Khóa luận gồm bốn chương nội dung mô tả sơ đây: Chương Tổng quan tìm kiếm ngữ nghĩa giới thiệu thành phần hệ thống tìm kiếm ngữ nghĩa: nhu cầu tìm kiếm ngữ nghĩa tảng cho tìm kiếm ngữ nghĩa hình thành Đồng thời, chương giới thiệu kiến trúc tổng thể hệ thống tìm kiếm ngữ nghĩa module chịu ảnh hưởng đặc trưng ngôn ngữ Chương Tìm kiếm ngữ nghĩa tiếng Việt trình bày trạng tìm kiếm ngữ nghĩa tiếng Việt Qua đó, sở cần thiết để xây dựng hệ thống tìm kiếm ngữ nghĩa tiếng Việt Đồng thời, chương giới thiệu q trình phân tích xây dựng hai module mang đặc trưng ngôn ngữ, tạo tiền đề xây dựng mộ hệ thống tìm kiếm ngữ nghĩa lĩnh vực Y tế tiếng Việt Chương Các phương pháp phân lớp câu hỏi khảo sát phân tích kỹ lưỡng thuật toán cho toán phân lớp câu hỏi, ưu nhược điểm phương pháp Qua lựa, chọn phương pháp tốt để thử nghiệm tiếng Việt Chương Thực nghiệm đánh giá hai thuật toán Support Vector Machine nguyên lý Entropy cực đại tập liệu câu hỏi Y tế tiếng Việt Kết thử nghiệm cho thấy hiệu của phương pháp rõ phương pháp thích áp dụng cho tiếng Việt Phần kết luận tổng kết tóm lược nội dung khóa luận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương I Tổng quan tìm kiếm ngữ nghĩa 1.1 Nhu cầu máy tìm kiếm ngữ nghĩa Lượng thông tin khổng lồ phát triển mạnh mẽ theo ngày World Wide Web (thường gọi tắt Web) đưa thách thức để khai thác thông tin Web cách hiệu Các máy tìm kiếm Google, Yahoo… đời nhằm hỗ trợ người dùngtrong q trình tìm kiếm sử dụng thơng tin Tuy kết trả máy tìm kiếm ngày cải thiện chất lượng đơn danh sách tài liệu chứa từ xuất câu truy vấn Những thông tin từ kết trả hiểu người, máy tính khơng thể “hiểu” được, điều gây khó khăn cho trình xử lý thơng tin tìm kiếm sau Sự đời Web ngữ nghĩa (hay Semantic Web W3C (The World Wide Web Consortium) giới thiệu [40]) mở bước tiến công nghệ Web thơng tin Web ngữ nghĩa có cấu trúc hồn chỉnh mang ngữ nghĩa mà máy tính “hiểu” Những thơng tin này, sử dụng lại mà không cần qua bước tiền xử lý Khi sử dụng máy tìm kiếm thơng thường (Google, Yahoo…), tìm kiếm thơng tin Web ngữ nghĩa không tận dụng ưu điểm vượt trội Web ngữ nghĩa, kết trả khơng có thay đổi Nói theo cách khác với máy tìm kiếm Web ngữ nghĩa hay Web thông thường Do vậy, cần thiết có hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm Web ngữ nghĩa hay mạng tri thức mang ngữ nghĩa, kết trả thơng tin có cấu trúc hồn chỉnh mà máy tính “hiểu” được, nhờ việc sử dụng hay xử lý thông tin trở nên dễ dàng hơn[27][29] Ngoài ra, việc xây dựng hệ thống tìm kiếm ngữ nghĩa cụ thể tạo tiền đề cho việc mở rộng xây dựng hệ thống hỏi đáp tự động lĩnh vực cụ thể : Y tế, văn hóa … điều mang ý nghĩa thiết thực đời sống 1.2 Cấu trúc tổng thể máy tìm kiếm ngữ nghĩa Máy tìm kiếm ngữ nghĩa xây dựng dựa công nghệ, kỹ thuật khoa học Mỗi công nghệ phát triển tảng định Do để mô tả cấu trúc máy tìm kiếm ngữ nghĩa cách chi tiết nhất, trước tiên cần đề cập tảng cho tìm kiếm ngữ nghĩa 1.2.1 Nền tảng cho tìm kiếm ngữ nghĩa Có hai tảng cho tìm kiếm ngữ nghĩa là: (1) Web ngữ nghĩa : phát triển mở rộng Web (2) Ontology : dùng để mơ tả tài ngun thơng tin có ngữ nghĩa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ở khía cạnh khác, fi(D;C) hiểu như: Nếu C tập lớp mà muốn phân lớp D tập ngữ cảnh ( ràng buộc) mà quan sát được, mệnh đề biểu diễn thơng tin ngữ cảnh hàm có dạng sau: f : C × D → {0,1} Và mơ tả sau: f cp,c' ( c,d ) = { c = c' cp(d) = true otherwise Trong cp(d) hàm có dạng: cp: d→{ true, false } Hàm trả giá trị true false, phụ thuộc vào xuất không xuất thơng tin hữu ích số ngữ cảnh d D Ví dụ: - c' lớp “thể_thao”, d văn - cp = [ câu chứa cụm từ “bóng_đá” ] hàm đặc điểm trả giá trị lớp dự đoán a “thể_thao” mang giá trị trường hợp lại Bước sử dụng cự đại Entropy phải xác định tập hàm đặc trưng cho phân lớp, sau đánh giá giá trị kỳ vọng đặc trưng tập liệu học để biến hàm đặc trưng thành ràng buộc phân lớp b Mơ hình Entropy cực đại Mơ hình xác suất Entropy cực đại cung cấp cách đơn giản để kết hợp đặc trưng liệu ngữ cảnh khác để ước lượng xác suất số lớp xuất với số ngữ cảnh Trước tiên mô tả cách biểu diễn đặc trưng kết hợp vào dạng riêng mơ hình xác suất hình mẫu Tư tưởng chủ đạo phương pháp Entropy cực đại tìm mơ hình có phân phối xác suất thoả mãn ràng buộc quan sát từ liệu mà không đưa thêm giả thiết khác Theo nguyên lý Entropy cực đại, phân phối cần đáp ứng liệu quan sát làm cực đại độ đo Entropy có điều kiện: H ( p ) ≡ −∑ p% ( c ) p ( c | d ) log p ( d | c ) c ,d p* = argmax H ( p ) p∈C (p * phân phối xác suất tối ưu) 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mơ hình Entropy cực đại xây dựng đặc trưng từ tập liệu huấn luyện Mỗi đặc trưng nhận hàm hai câu hỏi lớp, hàm nhận hai giá trị sai Tập ràng buộc thiết lập từ đặc trưng Một ràng buộc điều kiện từ liệu buộc mơ hình phải thoả mãn Mỗi đặc trưng fi gán trọng số λ i Khi đó, tốn phân lớp đưa tốn ước lượng xác suất có điều kiện: P (c | d) = ⎛ ⎞ exp ⎜ ∑ λ i f i ( d, c ) ⎟ Z(d) ⎝ i ⎠ Z(d) biểu thức chuẩn hóa để bảm bảo điều kiện sau: ∑ p(c | d ) = , có cơng thức ⎛ ⎞ Z(d ) = ∑ exp⎜ ∑ λ i f i (d, c )⎟ c ⎝ i ⎠ Khi đặc trưng ước lượng từ tập liệu mẫu, giải pháp cho mơ hình Entropy cực đại giống với giải pháp với tốn cực đại hóa likelihood mơ hình mũ sau (được chứng minh [28]): k f (c,d ) P(c | d ) = λi ∏ Z(d) i =1 i k Z(d) = ∑∏ λi f (c,d ) i i =1 c ~ L( P) = ∑p( c,d) logp( c| d) c,d Tức p* = arg max L(p) = arg max H(p) c Thuật toán uớc lượng tham số Ước lượng tập tham số λ = {λ , , λ n } để huấn luyện mơ hình Entropy đạt cực đại Trên giới có nhiều phương pháp để ước lượng tập tham số như: Thuật toán GIS – Generalized Iterative Scaling – đưa [7]; Thuật toán IIS – Improved Iterative Scaling – đưa [8] thuật toán ước lượng tham số mơ hình mũ thành viên nhóm nghiên cứu IBM’s T J Watson Research 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Center đưa vào năm đầu thập kỉ 1990; Thuật toán L-BFGS – Limited memory BFGS – phương pháp giới hạn nhớ cho phương pháp quasi-Newton cho phép tối ưu hàng triệu tham số với tốc độ nhanh L-BFGS thuật toán sử dụng phần thử nghiệm với nguyên lý Entropy cực đại Chương 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thực nghiệm đánh giá 4.1 Dữ liệu thực nghiệm Dữ liệu dùng để thử nghiệm cho phân lớp câu hỏi Y tế tiếng Việt câu hỏi lấy từ trang sau Web: http://hoidap.7sac.com, http://www.nld.com.vn, http://www.suckhoedoisong.vn, http://www.tuoitre.com.vn Tập liệu kiểm tra lấy từ báo http://vietbao.vn http://www.suckhoeviet.com Toàn liệu thử nghiệm gán nhãn tay Các phân lớp liệu thiết kế dựa Ontology Y tế giới thiệu chương 2, mục 2.3 bao gồm lớp sau: STT Phân lớp Benh Ký hiệu Số lượng câu hỏi B 413 dia_diem DD 43 Nguyen_nhan NN 114 trieu_chung TC 42 hoat_dong HD 314 thuc_pham TP 105 Thuoc TH 96 thoi_gian T 23 Tổng số 1150 Bảng 6.Tập liệu huấn luyện Dữ liệu dùng cho huấn luyện số lượng câu hỏi mô tả Bảng bao gồm 1144 câu hỏi lấy cân theo lớp, nhiên có số lớp có chênh lệch lớn chúng tơi nhận thấy số lượng từ chuyên môn lớp nhu cầu hỏi 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com lớp không nhiều lớp khác nên không cần phải sử dụng lượng câu hỏi lớn Tập liệu dùng để kiểm tra mô tả bảng 7, số lượng câu hỏi lớp tỉ lệ với số lượng câu hỏi tập liệu dùng để huấn luyện STT Phân lớp benh Ký hiệu Số lượng câu hỏi B 48 dia_diem DD nguyen_nhan NN 20 trieu_chung TC 13 hoat_dong HD 38 thuc_pham TP 29 thuoc TH 31 thoi_gian T Tổng số 194 Bảng Tập liệu kiểm tra 4.2 Thiết kế thử nghiệm Khóa luận thử nghiệm theo hai thuật toán Support Vector Machines nguyên lý Entropy cực đại a Thiết lập thông số cho SVM Trong thực nghiêm với SVM, khóa luận sử dụng SVMmulticlass - Multi-Class Support Vector Machine tác giả Thorsten Joachims [44], địi hỏi thiết lập số thơng số cho chương trình, thơng số lựa chọn qua nhiều lần thử nghiệm Chi tiết thông số trình bày bảng 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tham số Giá trị Mô tả -c 1.0 Giá trị chuyển đổi lỗi tập huấn luyện độ lệch chuẩn -t Loại hàm nhân , lựa chọn hàm tuyến tính -w Cấu trúc thuật toán học, lựa chọn thuật tốn nối ràng buộc đơi Bảng Tham số huấn luyện mơ hình SVM b Thiết lập thơng số cho Entropy cực đại Với thuật tốn Entropy cực đại, khóa luận sử dụng thư viện tác giả Phan, X.H [43], việc sử dụng đòi hỏi thiết lập số thơng số cho mơ hình Các thông số lựa chọn qua nhiều lần thử nghiệm, chi tiết mô tả bảng Tham số Giá trị Mô tả numIterations 10 Số bước lặp trình huấn luyện cpRareThreshold Các đặc trưng xuất nhiều số khơng bị loại bỏ khỏi tập liệu huấn luyện Các mệnh đề mô tả thông tin ngữ cảnh phải xuất nhiều số dùng để xây dựng đặc trưng fRareThreshold Bảng Tham số huấn luyện mơ hình Entropy cực đại 4.3 Kết thực nghiệm a Kết thực nghiệm với SVM Với SVM tiến hành thử nghiệm với tập liệu tiếng Việt, sử dụng độ đo TF-IDF mẫu unigram, thời gian 1.56 giây cho kết thấp Chi tiết kêt mô tả bảng 10 Thuật tốn Thời gian Độ xác Tỉ lệ lỗi SVM 1.56 26% 58/148 Bảng 10 kết huấn luyện với SVM 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com b Kết thực nghiệm với Entropy cực đại Tiến hành thử nghiệm tập liệu huấn luyện với số lượng bước lặp 10 Các kết thu khả quan với thời gian khoảng 0.15giây/lần mô tả số bảng biểu đồ thị biểu diễn sau Độ xác Độ hồi tưởng F1 Bước lặp Thời gian Avg1 Avg2 Avg1 Avg2 Avg1 Avg2 0.26 46.54 55.15 38.81 55.15 42.32 55.15 0.22 49.24 60.82 45.37 60.82 47.22 60.82 0.127 63.99 63.92 51.83 63.92 57.27 63.92 0.11 71.40 65.98 59.80 65.98 65.09 65.98 0.132 73.56 67.53 63.15 67.53 67.95 67.53 0.133 73.54 69.07 64.64 69.07 68.80 69.07 0.117 72.93 67.01 62.83 67.01 67.51 67.01 0.135 69.13 64.95 60.55 64.95 64.56 64.95 0.153 70.24 63.92 59.93 63.92 64.67 63.92 10 0.106 79.25 65.46 61.85 65.46 69.47 65.46 Trung bình 0.1493 66.982 64.381 56.876 64.381 61.486 64.381 Bảng 11 Kết 10 lần huấn luyện với Entropy cực đại Qua bảng trên, thấy kết khả quan bước lặp thứ với độ đo F1 đạt 69.07% chi tiết bước lặp sau: 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhãn Độ xác Độ hồi tưởng F1 benh 65.57 83.33 73.39 hoat_dong 62.22 73.68 67.47 dia_diem 50.00 23.08 31.58 nguyen_nhan 80.00 88.89 84.21 thoi_gian 88.24 75.00 81.08 trieu_chung 100.00 50.00 66.67 thuoc 76.92 64.52 70.18 thuc_pham 65.38 58.62 61.82 Avg1 73.54 64.64 68.80 Avg2 69.07 69.07 69.07 Bảng 12 Kết bước lặp thứ Trong bảng kết kết phân lớp địa_điểm với độ đo xác 31.58% tốt phân lớp nguyên_nhân với độ xác 84.21% 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 80 F1-Avg2 F1-Avg1 70 Độ đo F1 60 50 40 30 20 10 10 Bước lặp Hình Đồ thị biểu diễn phụ thuộc F1 vào số lần lặp Độ xác phân loại 90 80 70 60 Độ xác Độ hồi tưởng F1 50 40 30 20 10 10 Bước lặp Hình Tổng hợp độ đo 10 lần huấn luyện 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.4 Đánh giá kết thực nghiệm Kết thực nghiệm thu cho thấy có chênh lệch lớn hai phương pháp SVM Entropy cực đại (SVM có độ xác 25% Entropy cực đại 70%) sử dụng cho phân lớp câu hỏi tiếng Việt Đâu nguyên nhân dẫn đến chênh lệch này? a Đối với thuật toán SVM SVM áp dụng vào phân lớp câu hỏi tiếng Anh có độ xác cao (khoảng 80% – báo [16] [42] công bố) sử dụng thuật toán cho liệu tiếng Việt độ xác bị giảm đáng kể Nguyên nhân sụt giảm lý giải theo cảm tính sau: (1) Khóa luận sử dụng tập liệu khác so với tập liệu tác giả Hacioglu [16] Zhang [42] (2) Số lượng liệu học chưa đủ lớn (1150 câu hỏi) chưa thể hết đặc trưng lớp câu hỏi Khi tập liệu dùng để huấn luyện tăng lên độ xác thuật tốn nâng lên (3) Có khác biệt vector đặc trưng sử dụng biểu diễn câu hỏi; nguyên nhân thứ yếu báo [42], tác giả Zhang sử dụng TF IDF mơ hình unigram để làm vector đặc trưng cho câu hỏi b Đối với nguyên lý Entropy cực đại Đối với tập liệu học 1150 câu hỏi cho phân lớp cho kết khả quan độ đo F1 69.07% Mặt khác, số lượng câu hỏi huấn luyện cho phân lớp có chênh lệch dẫn đến khả đoán nhẫn phân lớp khác Ví dụ lớp Bệnh có số lượng câu hỏi 413 lớp thời_gian có số lượng câu hỏi 23 Lý việc xảy cân số lượng liệu dùng để huấn luyện, trọng số đặc trưng có ích chun biệt cho lớp khơng cao mơ hình dễ đốn nhận nhầm Để đảm bảo khả đoán nhận phân lớp cần với khả đoán nhận tốt số lượng câu hỏi mẫu cho lớp cần phải tương đương mặt số lượng Song song với tập câu hỏi huấn luyện cần gia tăng thêm số lượng, đảm bảo cung cấp đầu đủ ràng buộc từ liệu cho mô hình Như mục 3.3.3 trình bày, tư tưởng chủ đạo nguyên lý cực đại Entropy thay thêm vào ràng buộc mới, mơ hình tự tìm liệu (tập câu hỏi mẫu) ràng buộc đặc trưng riêng cho phân lớp Điều khác với SVM cố gắng tìm siêu phẳng ngăn cách liệu lớp câu hỏi Cho nên tập liệu khơng có số lượng lớn tài liệu chứa đặc trưng (như câu hỏi) làm cho phân lớp SVM bị giảm sút mơ hình phân lớp nguyên lý cực đại Entropy vấn bảo đảm 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ kết thực nghiệm cho thấy xây dựng phân lớp câu hỏi tiếng Việt thuật toán nguyên lý Entropy cực đại tỏ thích hợp so với thuật tốn khác 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Nhu cầu xây dựng hệ thống tìm kiếm ngữ nghĩa cho lĩnh vực đời sống ngày trở cấp thiết, vấn đề xây dựng hai module phân lớp câu hỏi mạng ngữ nghĩa chịu ảnh hưởng đặc trưng riêng ngôn ngữ phần quan trong trình xây dựng hệ thống tìm kiếm ngữ nghĩa Sự đa dạng thuật tốn phân loại liệu nói chung phân lớp câu hỏi nói riêng khiến cho việc lựa chọn thuật toán để xây dựng module phân lớp câu hỏi cho ngơn ngữ tở nên khó khăn Khóa luận tiếp cận vấn đề nói nghiên cứu thuật toán phổ biến cho phân lớp câu hỏi, từ đưa phương pháp thuật toán áp dụng vào tiếng Việt Khóa luận đạt kết quả: • Phân tích vấn đề xung quanh tốn xây dựng hệ thống tìm kiếm ngữ nghĩa • Chỉ module chịu ảnh hưởng đặc trưng ngôn ngữ phân tích phương pháp xây dựng module • Khảo sát thuật tốn phân lớp câu hỏi lựa chọn thuật toán tốt áp dụng cho tiếng Việt • Xây dựng module phân lớp câu hỏi Y tế tiếng Việt Do giới hạn thời gian kiến thức tác giả hiệu module phân lớp câu hỏi cho tiếng Việt chưa thực cao Hạn chế cần tiếp tục nghiên cứu cải tiến qua để khẳng định tính hiệu phương pháp 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt [1] Lê Diệu Thu, Trần Thị Ngân, “Xây dựng Ontology nhằm hỗ trợ tìm kiếm ngữ nghĩa lĩnh vực Y tế”, Cơng trình sinh viên nghiên cứu khoa học, Đại học Công nghệ, ĐHQGHN, 2008 [2] Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn Web ứng dụng”, Khóa luận tốt nghiệp đại học, Đại học Công nghệ, ĐHQGHN, 2006 [3] Trung tâm ngôn ngữ học Việt Nam “Đặc điểm tiếng Việt”, http://www.vietlex.com/vietnamese.htm [4] VN-KIM , Đại học Bách khoa, ĐHQG Thành Phố Hồ http://www.dit.hcmut.edu.vn/~tru/VN-KIM/products/vnkim-kb.htm chí Minh Tiếng Anh [5] Clocksin W F and Mellish C S., “Programming in Prolog”, Springer-Verlag, 1981 [6] D Roth “Learning to Resolve Natural Language Ambiguities: A Unified Approach.” Proceedings of AAAI'98: 806-813, Madison, WI, USA, Jul 1998 [7] Darroch, J and Ratcliff, D “Generalized iterative scaling for log-linear models” Annals Mathematical Statistics, 43(5):1470–1480, 1972 [8] Della Pietra, S., Della Pietra, V and Lafferty, J “Inducing features of random fields” IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(4):380–393, 1997 [9] Description logic, http://en.wikipedia.org/wiki/Description_logic [10] Dieter E Jenz “Ontology-Based Business Process Management: The Vision Statement”, White Paper, Jenz and Partner GmbH, 2003 [11] E Hovy, L Gerber, U Hermjakob, C Lin, and D Ravichandran “Towards Semantics-based Answer Pinpointing” Proceedings of the DARPA Human Language Technology conference (HLT), San Diego, CA,1999 [12] E Voorhees “Overview of the TREC 2001 Question Answering Track” Proceedings of the 10th Text Retrieval Conference (TREC10): 157-165, NIST, Gaithersburg, MD, 2001 [13] E Voorhees Overview of the TREC-9 Question Answering Track Proceedings of the 9th Text Retrieval Conference (TREC9): 71-80, NIST, Gaithersburg, MD, 2000 [14] E Voorhees The TREC-8 Question Answering Track Report Proceedings of the 8th Text Retrieval Conference (TREC8): 77-82, NIST, Gaithersburg, MD, 1999 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [15] Jonathan Brown, “Entity-Tagged Language Models for Question Classification in a QA System”, IR Lab project, 2004 Http://nyc.lti.cs.cmu.edu/IRLab/11743s04/jonbrown/Brown-IRLab.pdf [16] Kadri Hacioglu and Wayne Ward "Question Classification with Support Vector Machines and Error Correcting Codes" Proceedings of HLT-NAACL 2003:28-30, Edmonton, Alberta, Canada, May 2003 [17] K Nigam, J Lafferty, and A McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999 [18] Kincho H Law, “Ontology: Basic Definitions and a Brief Introduction”, TN-200703 NEESit – Workshops 2007 Http://it.nees.org/support/workshops/2007/2wfcree/TN-2007-03_Law.pdf [19] Li, X & Roth, D “Learning Question Classifiers”, Proceedings of the 19th International Conference on Computational Linguistics (COLING):556–562, 2002 [20] LIU Yi, ZHENG Y F “One-against-all multi-Class SVM classification using reliability measures”.Proceedings of the 2005 International Joint Conference on Neural Networks Montreal,Canada, 2005 [21] Maria Vargas-Vera, Enrico Motta, John Domingue: “AQUA: An Ontology-Driven Question Answering System”, New Directions in Question Answering:53-57, 2003 [22] McCallum and K Nigam “A Comparison of Event Models for Naïve Bayes Text Classification”, AAAI-98Workshop on Learning for Text Categorization, 1998 http://citeseer.ist.psu.edu/mccallum98comparison.html [23] N Guarino (ed.), “Formal Ontology in Information Systems” Proceedings of FOIS’98:3-15, Trento, Italy, 6-8 June 1998 Amsterdam, IOS Press [24] Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006) A Maximum Entropy Model for Text Classification The International Conference on Internet Information Retrieval 2006:134-139, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea [25] Noy, N.F., and McGuinness, D.L “Ontology Development 101: A Guide to Creating Your First Ontology SMI”, Technical report SMI-2001-0880 (2001), Stanford University [26] Pierre Baldi, Paolo Frasconi, Padhraic Smyth “Modeling the Internet and the Web: Probabilistic Methods and Algorithms”, John Wiley and Sons, 2003 [27] R.Guha, Rob McCool, Eric Miller http://www2003.org/cdrom/papers/refereed/p779/ess.html “Semantic Search”, 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [28] Ratnaparkhi, A “A simple introduction to maximum Entropy models for natural language processing” Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997 [29] S.Cohen , Mamou, J., Kanza, Y., Sagiv, Y.: “ Xsearch: A semantic search engine for xml” In: Proceedings of of the 29th VLDB Conference, Berlin, Germany (2003) [30] S Decker, F van Harmelen, J Broekstra, M Erdmann, Dieter Fensel, Ian Horrocks, Michel Klein, Sergey Melnik “The Semantic Web - on the respective Roles of XML and RDF”, IEEE Internet Computing, 4(5):63-74, 2000 Http://www.ontoknowledge.org/oil/downl/IEEE00.pdf [31] Soumen Chakrabarti “Mining the Web: discovering knowledge from hypertext data”, Morgan Kaufmann Publishers, 2003 [32] T Mitchell “Machine Learning”, McGraw Hill, New York,1997 [33] “Taxonomy”, http://en.wikipedia.org/wiki/Taxonomy [34] Tim Berners-Lee, “Semantic http://www.w3.org/DesignIssues/Semantic.html Web Road map”, [35] Van Durme, B., Huang, Y., Kupsc, A and Nyberg, E "Towards Light Semantic Processing for Question Answering", HLT/NAACL Workshop on Text Meaning, 2003, Http://citeseer.ist.psu.edu/656586.html [36] W Li “Question Classification Using Language Modeling” – Technical report Center for Intelligent Information Retrieval Department of Computer Science University of Massachusetts, Amherst, MA 01003, 2002 [37] W3C, Extensible Markup Language http://www.w3.org/XML/ [38] W3C, OWL Web Ontology Language Overview, http://www.w3.org/TR/owlfeatures/ [39] W3C, Abstract Syntax (Normative) concepts/#section-Graph-syntax RDF http://www.w3.org/TR/rdf- [40] W3C, Semantic Web Activity http://www.w3.org/2001/sw/ [41] Y Yang and X Liu A Re-examination of Text Categorization Methods In Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), trang 42-49, 1999 [42] Zhang, D and Lee, W.S “Question Classification using Support Vector Machines” , In Proceedings of SIGIR 2003 [43] Phan, X.H, “JTextPro: http://jtextpro.sourceforge.net A Java-based Text Processing Toolkit”, [44] Thorsten Joachims, SVM multiclass Multi-Class Support Vector Machine, Cornell University Department of Computer Science Http://svmlight.joachims.org/ 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Ontology Y tế hình 2.3.2 Bộ phân lớp câu hỏi Y tế tiếng Việt Với Ontology Y tế giới thiệu phần trên, để giải hai toán mang đặc trưng tiếng Việt cần x? ?y dựng phân lớp câu hỏi Y tế tiếng Việt Bộ phân. .. .16 2.3 Tìm kiếm ngữ nghĩa lĩnh vực y tế 16 2.3.1 Ontology Y tế tiếng Việt 16 2.3.2 Bộ phân lớp câu hỏi Y tế tiếng Việt 18 Chương Các phương pháp phân lớp câu hỏi ... thống tìm kiếm ngữ nghĩa trình b? ?y cho th? ?y để x? ?y dựng hệ thống tìm kiếm ngữ nghĩa tiếng Việt trước tiên phải giải hai bai toán: (1) X? ?y dựng phân lớp câu hỏi tiếng Việt (2) X? ?y dựng mạng ngữ nghĩa