1 BỘ CÔNG THƢƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG XÂY DỰNG MÔ HÌNH XÁC ĐỊNH CHỦ ĐỀ CỦA CÂU TRUY VẤN DỰA TRÊN ONTOLOGY ĐỂ THỰC H[.]
BỘ CÔNG THƢƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƯỜNG XÂY DỰNG MƠ HÌNH XÁC ĐỊNH CHỦ ĐỀ CỦA CÂU TRUY VẤN DỰA TRÊN ONTOLOGY ĐỂ THỰC HIỆN RÚT TRÍCH THƠNG TIN THEO CHỦ ĐỀ Mã số: Chủ nhiệm đề tài: ThS.NCS Tạ Duy Cơng Chiến TP HỒ CHÍ MINH, 10/2013 Mục lục Chương I: Đặt vấn đề 1.1 Tính cấp thiết đề tài 1.2 Tình hình nghiên cứu 1.3 Phương pháp nghiên cứu 1.4 Nội dung nghiên cứu Chương 2: Xây dựng làm giàu Ontology miền xác định 2.1 Giới thiệu mơ hình rút trích thông tin 1.2 Giới thiệu Ontology 10 2.3 Xây dựng làm giàu ontology 15 2.4 Dùng phương pháp thống kê để đánh giá 25 Chương 3: Xác định chủ đề câu truy vấn 26 3.1 Các nghiên cứu nhận dạng chủ đề 26 3.2 Nhận dạng chủ đề cách tiếp cận đề tài 27 3.3 Tìm kiếm so trùng Domain Ontology để tìm chủ đề 29 Chương 4: Kết thực nghiệm công việc tương lai 31 4.1 Kết 31 4.2 Đánh giá kết 33 Kết Luận Kiến Nghị 36 References 37 DANH MỤC CÁC BẢNG Bảng 2.1: Bảng cụm danh từ tiếng Anh Bảng 2.2: Kết thực nghiệm xác định chủ đề dạng câu truy vấn khác Bảng 2.3: Các danh mục từ loại tiếng Anh Bảng 2.4: mẫu câu tiếng Anh Bảng 4.1 Các thực thể lớp thành phần ontology ITO Bảng 4.2: Kết đánh giá theo giá trị:Precision, Recall, F-Mesure Bảng 4.3 : Kết xác định chủ đề dạng câu truy vấn khác DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Diễn giải tiếng Anh XML Extensible Markup Language FOGA Fuzzy Ontology Generation Framework FCA Formal Concept Analysis HMM Hidden Markov Model MEMM Maximum Entropy Markov Model CRF Conditional Random Field Diễn giải tiếng Việt Ngôn ngữ hình thức mở rộng Nền tảng sinh Bản thể học mờ Phân tích khái niệm chuẩn Mơ hình Markov Ẩn Mơ hình Markov Entropy Cực Đại Chương I: Đặt vấn đề 1.1 Tính cấp thiết đề tài World Wide Web (WWW) phát triển nhanh chóng với nguồn tài nguyên thông tin ngày phong phú, nhu cầu cần khai thác nguồn thông tin ngƣời sử dụng ngày trở nên cần thiết đời sống ngƣời Việc khai thác thông tin thông qua phƣơng thức nhƣ truy xuất thông tin (Information Retrieval), rút trích thơng tin (Information Extraction) tóm lƣợc văn (Text Summarization) v.v Trong lĩnh vực rút trích thơng tin, nghiên cứu quan tâm đến hƣớng rút trích nội dung văn dựa số tính chất đặc trƣng, rút trích ý kiến web site Yêu cầu rút trích nội dung văn vấn đề khó hƣớng tiếp cận xử lý nhƣ khó đạt độ xác nhƣ mong muốn Gần đây, số đề tài nghiên cứu ngôn ngữ Việt Anh, hƣớng tiếp cận rút trích cụm từ đặc trƣng mang tính ngữ nghĩa câu văn đƣợc đề xuất khả ứng dụng chúng lĩnh vực khác cao Đây mối quan tâm nhà ngôn ngữ học, nhƣ nhà khoa học lĩnh vực xử lý ngôn ngữ tự nhiên máy tính Trong tƣơng lai, mà nguồn văn ngày phong phú, nhu cầu sử dụng ngày cao, ngƣời cần phải có thơng tin xác để phục vụ cho cơng việc, sống chẳng hạn nhƣ nhà doanh nhân cần tìm hiểu thông tin thời sự, kinh tế, nhà sản xuất cần tìm hiểu đƣợc thị hiếu ngƣời tiêu dùng, cảnh sát cần biết thông tin việc truy tìm thủ phạm…, để đáp ứng nhu cầu cần phải có hệ thống trích xuất thơng tin thơng minh, đủ mạnh, hệ thống tự động phân tích theo chủ đề riêng biệt để từ có đƣợc thơng tin xác hiệu Do vấn đề rút trích nội dung văn hƣớng đến ngữ nghĩa tự động phân loại theo chủ đề ứng dụng quan trọng đời sống xã hội nhƣ nhiều lĩnh vực nghiên cứu mà nhà khoa học giới quan tâm đến Để đáp ứng nhu cầu đa dạng ngƣời dùng, hệ thống tìm kiếm cơng trình nghiên cứu lần lƣợt đời Liên quan đến hệ thống tìm kiếm để truy xuất thơng tin đƣợc nhanh, có kết tốt, có nhiều giải thuật đƣợc áp dụng Một số giải thuật liên quan không giám sát (unsupervisor), số giải thuật khác lại có giám sát (supervisor) Trong năm trở lại đây, phƣơng pháp tiếp cận lĩnh vực truy xuất thông tin rút trích thơng tin dùng ontology Tùy theo mục đích khác mà nhà nghiên cứu sử dụng nhiều phƣơng pháp để xây dựng ontology Bên cạnh tùy theo mục đích khác hệ thống mà ontology đƣợc xây dựng có nội dung khác Một số ontology thông dụng nhƣ HowNet, WordNet… Các ontology bao gồm nhiều ngơn ngữ khác bao gồm ngôn ngữ 1.2 Tình hình nghiên cứu Trong nƣớc Nhóm GS.TS.Phan Thị Tƣơi [1] [2] [3]: công trình nghiên cứu nhóm tập trung xử lý ngôn ngữ tự nhiên (dịch máy, truy xuất rút trích thơng tin, phân loại văn bản) Năm 2009 nhóm nghiên cứu thực kết hợp ontology xử lý ngôn ngữ tự nhiên vào việc xác định cụm từ đặc trƣng câu văn Trong phƣơng pháp xử lý, nhóm nghiên cứu khai thác Wikipedia tiếng Việt để phục vụ việc xác định cụm danh từ đặc trƣng tiếng Việt đồng thời hỗ trợ làm giàu ontology đạt đƣợc kết khả quan Năm 2011, tác giả Nguyễn Chánh Thành xây dựng Ontology để phục vụ cho việc mở rông câu truy vấn truy xuất thơng tin [4] Nhóm - PGS.TS.Cao Hồng Trụ [5] [6]: cơng trình tập trung nghiên cứu Web có ngữ nghĩa (Semantic Web), để thực truy xuất, rút trích thơng tin thực thể có tên (Named-entity) Năm 2008, nhóm nghiên cứu giới thiệu tổng thể việc xây dựng, làm giàu quản trị ontology VNKIM KB dựa sở lý thuyết nghiên cứu thực thể có tên quan hệ ngữ nghĩa tƣơng ứng tảng Sesame chế phòng chống lỗi hiệu Nhóm 3: TS.Nguyễn Tuấn Đăng [7] [8] [9]: Các cơng trình nghiên cứu nhóm liên quan đến xử lý ngôn ngữ tự nhiên (dịch máy, truy xuất thông tin, thƣ viện số (digital library) Nhóm tập trung nghiên cứu thƣ viện số với truy vấn thông tin chuyên biệt dựa ontology để xử lý truy vấn dạng tự nhiên dựa đồ thị ý niệm Kết thực nghiệm cho thấy phƣơng pháp có nhiều triển vọng việc mang lại kết tìm kiếm tốt cho ngƣời sử dụng Một nghiên cứu khác nhóm rút trích thơng tin lĩnh vực chăm sóc sức khỏe Nghiên cứu sử dụng ontology để phục vụ giải thuật “Semantic Elements Extracting” “New Semantic Elements Learning”, qua rút trích thơng tin khái niệm, mô tả khái niệm, liên kết khái niệm mô tả tên bệnh từ trang web Thực nghiệm liệu tiếng Việt cho thấy phƣơng pháp tối ƣu với việc khai thác thông tin làm giàu ontology có độ xác cao Nhóm PGS.TS.Hà Quang Thụy, thực mơ hình rút trích thơng tin để tìm thực thể mối quan hệ chúng [10] Nhóm Dung Dao T., Huong Le T thực mô hình rút trích thơng tin để lấy nội dung cần thiết trang web quảng cáo [11] Nhóm Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, The Minh Trinh thực việc rút trích số thông tin văn tiếng Việt sử dụng phƣơng pháp Conditional Random Fields [12] Ngoài nƣớc Năm 2004, Quan [13] đồng ông dùng Formal Concept Analysis để xây dựng FOGA (Fuzzy Ontology Generation Framework) Năm 2008, Michael [14] xây dựng hệ thống nhận dạng rút trich từ khóa câu truy vấn dài Michael sử dụng tính phụ thuộc câu truy vấn tính phụ thuộc kho ngữ liễu (corpus) để tìm khái niệm câu truy vấn Năm 2009, Silvio [15] xây dựng hệ thống rút trích thơng tin để phục vụ câu truy vấn từ ngƣời dùng hệ thống cho số kết tƣơng đối xác Năm 2009, Shalahli [16] đồng đề xuất xây dựng domain ontology lĩnh vực Khoa học máy tính (Computer Science) Để xây dựng ontology Shalahli dựa từ điển từ đồng nghĩa trái nghĩa Bên cạnh đó, họ dùng Wikipedia WordNet để tìm mối quan hệ ngữ nghĩa khái niệm ontology Năm 2010, R.Poli [17] đồng xây dựng ontology biểu diễn mối quan hệ thực thể nhằm giải cho toán rút trích thơng tin Năm 2010, E.Chieze [18] đồng sử dụng ontology việc xây dựng mơ hình tự động rút trích thơng tin tóm lƣợc (Summarization) văn [19] 1.3 Phương pháp nghiên cứu Dƣạ vào cơng trình nghiện cứu nƣớc Dựa vào cơng trình nghiên cứu nƣớc Xây dựng giải thuật liên quan Trình bày seminar, cơng bố cơng trình nghiên cứu hội nghị, tạp chí quốc tế nƣớc 1.4 Nội dung nghiên cứu Các giải thuật xây dựng làm giàu Ontology miền xác định Các giải thuật xác định chủ đề câu truy vấn Chương 2: Xây dựng làm giàu Ontology miền xác định 2.1 Giới thiệu mơ hình rút trích thơng tin Theo báo cáo chun đề tổng quan, mơ hinh rút trích thơng tin đƣợc đề xuất nhƣ mơ tả hình Hình.1 Mơ hình hệ thống Rút trích thơng tin Mơ hình rút trích thơng tin bao gồm thành phần sau Mơ dun A: Nhận dạng từ khóa đặc trưng Mơ dun phân tích câu truy vấn, lấy từ khóa đặc trƣng Các từ khóa danh từ hay cụm danh từ diễn tả ngƣời, vật, kiện … Mô dun B: Nhận biết chủ đề từ khóa đặc trưng Sau lấy từ khóa đặc trƣng từ mô dun A, mô dun B xác định chủ đề từ khóa này, chủ đề có ontology hệ thống tiến hành rút trích, ngƣợc lại trả tập rỗng Một câu truy vấn ngƣời dùng nhập vào thuộc hay nhiều chủ đề Để nhận biết chủ đề chúng tơi sử dụng kỹ thuật gom nhóm chủ đề Mơ dun C: Rút trích thơng tin theo chủ đề liên quan đến từ khóa đặc trưng Q trình rút trích thơng tin dựa vào kho liệu ban đầu bao gồm văn bản, tài liệu theo chủ đề khác có liên kết với ontology Bƣớc bao gồm việc xác định đối tƣợng liệu danh từ, cụm danh từ, động từ hay cụm động từ … diễn tả kiện, ngƣời, hành động, nơi chốn … liên quan đến từ khóa đặc trƣng câu truy vấn Mô dun D: Chọn lọc thơng tin rút trích Dữ liệu sau đƣợc rút trích từ kho liệu bao gồm liệu chƣa phù hợp với truy vấn ban đầu, cần phải chọn lọc lại Mơ dun E: Ontology Ontology sở tri thức dùng để chia sẻ thơng tin, bao gồm nhóm chủ đề thực thể với đặc tính mối quan hệ chúng Ontology đƣợc xây dựng theo miền chuyên biệt, miền bao gồm nhiều chủ đề khác Mỗi chủ đề hệ thống mạng ngữ nghĩa liên quan đến từ đặc trƣng chủ đề Trong mơ hình trên, domain ontology đƣợc xem trọng tâm hỗ trợ xác định chủ đề câu truy vấn Mặt khác phục vụ cho hệ thống rút trích thơng tin sau Vì việc xây dựng Ontology trọng tâm chuyên đề 1.2 Giới thiệu Ontology Ontology ngày trở thành thành phần hệ thống truy vấn thông tin, rút trích thơng tin, hệ thống hỏi đáp…và phƣơng pháp hƣớng đến tri thức [20] Trong cơng trình nghiên cứu ngày liên quan đến hệ thống xử lý thơng tin ontology thành phần khơng thể thiếu đƣợc Nó đƣợc sử dụng để lƣu trữ tổ chức thông tin theo miền xác định hệ thống Các khái niệm ontology nghiên cứu liên quan đƣợc trình bày phần nhằm đánh giá ƣu điểm hạn chế ontology khả áp dụng chúng vào đề tài a) Các khái niệm Khái niệm ontology đƣợc nhiều nhóm nghiên cứu định nghĩa Theo Gruber (1993) [21], ontology dùng để đặc tả khái niệm theo chuẩn Một định nghĩa khác ontology “sự phân loại danh mục thuật ngữ, hay khái niệm”, “một ontology mơ hình thực tế, nhƣng tự khơng thực tế” Theo Leger [22] cộng sự, ontology cải thiện độ xác tìm kiếm thơng tin mờ tạo thuận lợi cho việc đối thoại đơn ngữ hay đa ngữ ngƣời máy Trong ngành khoa học máy tính, ontology kho liệu biểu diễn tập khái niệm 10 - IDCAT: Khóa - LEVEL_CAT: cấp bậc category dựa vào ACM - NAME_CATE: tên Category lấy từ ACM - PARENT_ID: ID l category mà có bậc cao Category cấp - TYPE_CATE: Noun/Noun Phrase Lớp thành phần (Ingredient layer) Lớp bao gồm đối tƣợng danh từ, cụm danh từ Để có đối tƣợng này, chúng tơi dùng hai nguồn tài nguyên khác với giải thuật khác nhau, nguồn thứ dựa ontology có sẳn dùng để xây dựng ontology nguồn thứ hai dựa Copora đƣợc sử dụng để làm giàu ontology, cụ thể: Wikipedia (Ontology có sẳn) Wikipedia nguồn tài nguyên phong phú đƣợc sử dụng nhiều Web Nó bao gồm nhiều thứ tiếng nhiều lĩnh vực khác nhiên đề tài quan tâm đến tiếng Anh Do để lấy danh từ, cụm danh từ, khái niệm liên quan đến lĩnh vực Công Nghệ Thông Tin, xây dựng câu truy vấn tƣơng ứng với chủ đề ACM kết hợp với tập thƣ viện Java-based Wikipedia Library (JWPL) để có đƣợc tập tin XML trả từ Wikipedia Sau tập tin XML đƣợc tiền xử lý OpenNLP để từ rút trích đƣợc thành phần thích hợp với chủ đề đƣa vào Ontology Các báo khoa học ACM (tập tin phi cấu trúc) Đã có nhiều cơng trình nghiên cứu liên quan đến việc rút trích thơng tin dựa tập văn phi cấu trúc Các giải thuật lien quan đến máy học, xử lý ngôn ngữ tự nhiên Một cách thơng dụng cơng trình nghiên cứu ngày xây dựng luật, sau áp dụng giải thuật nhƣ: a Apriori, FP growth b Các giải thuật supervised learning (thủ công) nhƣ: Nearest Neighbor Classifiers, Decision Tree Classifiers, Bayesian Classifier, Neural Networks Classifier [26] c Các giải thuật Unsupervised Learning (tự động) nhƣ: K-Means, Hierarchical Clustering [26] 17 d Các giải thuật Semi-supervised Learning (bán tự động) nhƣ: Self-Training, Co-Training… e Mơ hình Markov Trong giải thuật trên, mơ hình Markov số cải tiến mơ hình đƣợc đánh giá tốt cho kết khả quan Giới thiệu mơ hình Markov Mơ hình Markov đƣợc ứng dụng nhiều lĩnh vực nhận dạng giọng nói, lĩnh vực sinh học nhƣ nhận dạng gene phân loại protein; xử lý tín hiệu, xử lý hình ảnh ứng dụng khác liên quan đến chuỗi chuyển tiếp kết hợp thành phần, kiện Một thơng số đặc trƣng mơ hình Markov trạng thái „state‟ Tùy thuộc vào việc xây dựng mơ hình Markov với đối tƣợng khác có „state‟ khác Cho chuỗi trạng thái {S1, S2, …., SN} Quá trình di chuyển từ trạng thái qua trạng thái khác, tạo chuỗi trạng thái {Si1, Si2, Sik, ….} Xác suất trạng thái phụ thuộc vào trạng thái trƣớc đó, nên P( s | s , s , , s ) P( s | s ) ik i1 i2 ik 1 ik ik 1 Mơ hình Markov có hạn chế nhiều ứng dụng nhƣ giá trị chuyển „state‟ giá trị áp đặt sẵn, không thay đổi đối tƣợng, liệu quan sát biến đổi theo thời gian Để khắc phục tình trạng này, mơ hình Hidden Markov (Hidden Markov Model – HMM) đƣợc áp dụng Ba tốn thƣờng gặp mơ hình Markov ẩn là: đánh giá (Evaluation), dự báo (Decoding) tự học (Learning) [27] Nhƣợc điển HMM Tính độc lập liệu: HMM cho xác suất chuyển trạng thái thời điểm phụ thuộc vào liệu quan sát đƣợc thời điểm trƣớc Tuy nhiên việc biểu diễn HMM theo chế mềm dẻo, liệu thời điểm diễn tả thuộc tính chúng mà thuộc tính chúng có mối quan hệ với mặt ngữ nghĩa Khơng phù hợp với tốn phân lớp liệu dạng chuỗi Mơ hình MEMM Xác suất chuyển trạng thái phụ thuộc vào trạng thái trƣớc liệu 18 P(S|O) = ( ) ∏ ( ) [28] Trong maximum entropy [28], ngƣời ta dùng liệu huấn luyện để xác định ràng buộc thể đặc trƣng liệu huấn luyện Mọi hàm thực chuỗi đầu vào chuỗi nhãn đƣợc xem nhƣ đặc trƣng fi(o,S) Maximum Entropy cho phép giới hạn phân phối mơ hình lý thuyết gần giống giá trị kì vọng cho đặc trƣng liệu huấn luyện D Vì ngƣời ta mơ hình hóa xác suất P(o,s) nhƣ sau (ở đây, o chuỗi đầu vào s chuỗi nhãn đầu ra) ( ) ( ) ∑ ( ) Trong fn(O,S) đặc trƣng, n tham số cần phải ƣớc lƣợng Z(O) thừa số chuẩn hóa đơn gản nhằm bảo đảm tính đắn MEMM xem liệu quan sát điều kiện cho trƣớc thay coi chúng nhƣ thành phần đƣợc sinh mơ hình nhƣ HMM xác suất chuyển trạng thái phụ thuộc vào thuộc tính đa dạng chuỗi liệu quan sát Các thuộc tính khơng bị giới hạn giả thiết tính độc lập nhƣ HMM giữ vai trò quan trọng việc xác định trạng thái Trong đề tài để xử lý khối liệu lớn, lợi dụng tính chất phân loại trƣớc theo chủ đề tạp chí sau tiến hành so trùng với chủ đề ACM để xác định chủ đề cúa câu Sau qua bƣớc tiền xử lý, danh từ, cụm danh từ đƣợc lấy từ phần abstract báo để làm giàu ontology Một cách tổng quát, đề xuất lƣợc đồ làm giàu Ontology cho lớp nhƣ hình 19 Hình 5: Lƣợc đồ làm giàu ontology từ tập tin văn ACM Lớp thành phần đƣợc thể sở liệu thơng qua bảng Concepts, bao gồm thuộc tính sau ID: khóa Name: tên thực thể IDCAT: Thực thể thuộc lớp Category COUNT: Số lần xuất văn COUNT_ALL: tổng số lần xuất loại (category) ENTROPY: giá trị entropy thực thể ENTROPY_EXCLUDE: giá trị thực thể khác không tính thực thể IG: giá trị Inormation gain thực thể LINK: thực thể đƣợc rút trích từ nguồn 20 ... thuật xây dựng làm giàu Ontology miền xác định Các giải thuật xác định chủ đề câu truy vấn Chương 2: Xây dựng làm giàu Ontology miền xác định 2.1 Giới thiệu mơ hình rút trích thơng tin Theo. .. từ đặc trƣng chủ đề Trong mơ hình trên, domain ontology đƣợc xem trọng tâm hỗ trợ xác định chủ đề câu truy vấn Mặt khác phục vụ cho hệ thống rút trích thơng tin sau Vì việc xây dựng Ontology trọng... Framwork) 2.3 Xây dựng làm giàu ontology Để xây dựng ontology phục vụ cho đề tài, đề xuất xây dựng ontology miền xác định với nhiều chủ đề khác liên quan đến lĩnh vực công nghệ thông tin, gọi Information