1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

164 602 3
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 164
Dung lượng 2,65 MB

Nội dung

Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA Nguyễn Thanh Hiên PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CÓ TÊN DỰA TRÊN CÁC ONTOLOGY ĐÓNG VÀ MỞ Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS CAO HOÀNG TRỤ TP HCM - NĂM 2010 LỜI CAM ĐOAN Tôi cam đoan nội dung luận án kết nghiên cứu thân Tất tham khảo từ nghiên cứu liên quan điều nêu rõ nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo đề cập phần sau luận án Những đóng góp luận án kết nghiên cứu tác giả công bố báo tác giả phần sau luận án chưa cơng bố cơng trình khoa học khác Tác giả luận án Nguyễn Thanh Hiên i LỜI CẢM ƠN Tôi muốn bày tỏ lời tri ân sâu sắc gởi đến thầy hướng dẫn tôi, PGS TS Cao Hồng Trụ Thầy tận tình bảo từ ngày đầu tiếp cận đường khoa học Thầy dạy từ việc tưởng chừng đơn giản cách thức để thu thập tài liệu liên quan, đến khả tư có phê phán hoài nghi cần thiết hoạt động nghiên cứu Sự tận tình hướng dẫn, cộng với động viên, khích lệ thường xuyên Thầy thật đánh thức khả tiềm ẩn, khơng luận án khơng thể hồn thành Sự cẩn thận, tỉ mỉ, kiên nhẫn nghiêm túc cơng việc đức tính mà Thầy ln nhắc nhở tơi Những Thầy dạy tơi ảnh hưởng sâu sắc đến cá nhân tôi, có tác động lâu dài đến sống, nghiệp tương lai Tôi tin rằng, lời lẽ thông thường không đủ để chuyển tải hết lịng biết ơn với Thầy dạy Dù vậy, muốn viết đây, gởi đến Thầy, lời cảm ơn chân thành Em cảm ơn Thầy! Tơi muốn bày tỏ lịng biết ơn tập thể thầy cô Khoa Khoa học Kỹ thuật máy tính, Trường Đại học Bách Khoa Tp HCM, nơi tơi học tập gắn bó mười năm qua, tính thời gian tơi học đại học làm luận văn thạc sĩ Các thầy ln tạo điều kiện để tơi hồn thành tốt cơng việc mình, dạy dỗ q thầy cô giúp trưởng thành Xin chân thành cảm ơn q thầy Khoa Khoa học Kỹ thuật máy tính Tơi chân thành cảm ơn hỗ trợ giúp đỡ nhiệt thành Phòng Quản lý Sau Đại học, Trường Đại học Bách Khoa Tp HCM thời gian thực luận án Cảm ơn Ban giám hiệu Trường Đại học Bách Khoa Tp HCM, Phịng Khoa học Cơng nghệ & Dự án xét duyệt cho thực đề tài nghiên cứu cấp trường, hỗ trợ tài để trang trải phần kinh phí học tập nghiên cứu thời gian qua Tôi chân thành cảm ơn Tiến sĩ Lê Vinh Danh, Hiệu trưởng Trường Đại học Tôn Đức Thắng, động viên tạo điều kiện thuận lợi cho tơi hồn thành luận án Cảm ơn anh chị Phịng Điện tốn Thông tin tư liệu, Trường Đại học Tôn Đức Thắng, nhiệt tình giúp đỡ tơi thời gian vừa qua Cuối cùng, chân thành cảm ơn người thân, bạn bè bên cạnh động viên, hỗ trợ mặt tinh thần để tơi vượt qua khó khăn hồn thành tốt luận án ii TĨM TẮT Thực thể có tên thực thể tham khảo đến tên riêng, người, tổ chức, nơi chốn Phân giải nhập nhằng thực thể có tên nhằm ánh xạ tên văn vào thực thể nguồn tri thức cho trước Nổi lên gần tốn đầy thách thức, có nhiều ý nghĩa việc thực hóa Web có ngữ nghĩa, phát triển nâng cao ứng dụng xử lý ngôn ngữ tự nhiên, phân giải nhập nhằng thực thể có tên thu hút quan tâm nhiều nhóm nghiên cứu khắp giới Luận án đề xuất ba phương pháp cho tốn này, nghiên cứu sâu ba yếu tố quan trọng ảnh hưởng đến hiệu phân giải nhập nhằng nguồn tri thức sử dụng, đặc trưng biểu diễn thực thể, mô hình phân giải nhập nhằng Các nguồn tri thức khai thác ontology đóng Wikipedia Các ontology đóng xây dựng chuyên gia theo hướng tiếp cận từ xuống, với khái niệm có quan hệ thứ bậc dựa tập từ vựng có kiểm sốt ràng buộc chặt chẽ Wikipedia, xem ontology mở, xây dựng người tình nguyện theo hướng tiếp cận từ lên, với khái niệm hình thành từ tập từ vựng tự thoả thuận mang tính cộng đồng Các đặc trưng nghiên cứu tên thực thể đồng xuất hiện, định danh thực thể xác định, từ với cụm từ xuất xung quanh tên xem xét xung quanh tên đồng tham chiếu với tên văn Ngồi luận án khai thác vị trí xuất hiện, chiều dài tên, tên thường dùng thực thể Luận án đề xuất ba mơ hình phân giải nhập nhằng tương ứng với ba phương pháp nói là: (i) mơ hình dựa heuristic; (ii) mơ hình dựa thống kê; (iii) mơ hình lai - kết hợp heuristic thống kê Điểm chung ba phương pháp phân giải nhập nhằng theo q trình lặp cải thiện dần, bao gồm số bước lặp Thực thể xác định bước lặp sử dụng để phân giải nhập nhằng thực thể lại bước lặp Các thí nghiệm thực để đánh giá chứng tỏ tính hiệu phương pháp đề xuất Luận án nghiên cứu xử lý trường hợp mà tên văn nhận bán phần thực thể đề cập đến văn nằm nguồn tri thức sử dụng, đồng thời đề xuất độ đo hiệu phân giải nhập nhằng tương ứng iii Abstract Named entities are those that are referred to by names such as people, organizations, or locations Named entity disambiguation is a problem that aims at mapping entity names in a text to the right referents in a given source of knowledge Having been emerging in recent years as a challenging problem, but significant to realization of the semantic web, as well as advanced development of natural language processing applications, named entity disambiguation has attracted much attention by researchers all over the world This thesis proposes three methods for disambiguating named entities, and rigoruously investigates the three important factors affecting disambiguation performance, namely, employed knowledge sources, named entity representation features, and disambiguation models The knowledge sources exploited are close ontologies and Wikipedia Close ontologies are built by experts following a top-down approach, with a hierarchy of concepts based on a controlled vocabulary and strict constraints Wikipedia, considered as an open ontology, is built by volunteers following a bottom-up approach, with concepts formed by a free vocabulary and community agreements The investigated features are entity names, identifiers of resolved entities, and words together with phrases surrounding a target name and surrounding names that are coreferential with that target name Besides, the thesis exploits occurrence positions and lengths of names, and main alias of entities This thesis proposes three models corresponding to the three above-mentioned methods: (i) a heuristic-based model; (ii) a statistical model; and (iii) a hybrid model, combining heuristics and statistics The common novelty of the proposed methods is disambiguating named entities iteratively and incrementally, including several iterative steps Those named entities that are resolved in each iterative step will be used to disambiguate the remaining ones in the next iterative steps Experiments are conducted to evaluate and show the advantages of the proposed methods Besides, this thesis deals with the cases when entity names in text are partially recognized and entities referred to in text are outside an employed knowledge source, as well as proposes new corresponding disambiguation performance measures iv MỤC LỤC Lời cam đoan i  Lời cảm ơn ii  Tóm tắt iii  Abstract iv  Mục lục v  Danh mục bảng vii  Danh mục hình ix  Danh mục giải thuật x  Danh mục thuật ngữ viết tắt xi  Chương 1: GIỚI THIỆU 1  1.1  Lịch sử động nghiên cứu 1  1.2  Bài toán phạm vi 15  1.3  Phương pháp luận đề xuất 17  1.4  Những đóng góp luận án 24  1.5  Cấu trúc luận án 26  Chương 2: NỀN TẢNG KIẾN THỨC 28  2.1  Giới thiệu 28  2.2  Ontology 29  2.3  Wikipedia 36  2.4  Mơ hình khơng gian véctơ 45  2.5  Nhận dạng thực thể có tên 46  2.6  Phân giải đồng tham chiếu văn 51  2.7  Phân giải nhập nhằng 59  v 2.8  Kết luận 72  Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY 74  3.1  Giới thiệu 74  3.2  Phân hạng ứng viên dựa ontology 75  3.3  Các độ đo hiệu 80  3.4  Thí nghiệm đánh giá 84  3.5  Kết luận 91  Chương 4: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM GIÀU 93  4.1  Giới thiệu 93  4.2  Mơ hình phân hạng ứng viên dựa thống kê 95  4.3  Làm giàu ontology 106  4.4  Thí nghiệm đánh giá 110  4.5  Kết luận 111  Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA 113  5.1  Giới thiệu 113  5.2  Phương pháp lai 116  5.3  Thí nghiệm đánh giá 125  5.4  Kết luận 130  Chương 6: TỔNG KẾT 132  6.1  Tóm tắt 132  6.2  Hướng nghiên cứu mở rộng 135  CÁC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 137  TÀI LIỆU THAM KHẢO 138  vi DANH MỤC CÁC BẢNG Bảng 2.1: Số liệu thống kê trang, thể loại liên kết trang Wikipedia 45  Bảng 2.2: Các loại trả lời để đánh giá hệ thống nhận dạng thực thể có tên 49  Bảng 2.3: Kết phân giải đồng tham chiếu tên riêng tiếng Việt 59  Bảng 2.4: Minh họa tập liệu huấn luyện Bunescu Paşca (2006) 66  Bảng 2.5: Minh họa đánh giá hiệu phân giải nhập nhằng phương pháp phân giải nhập nhằng vùng địa lý (Leidner, 2007) 71  Bảng 3.1: Định nghĩa ánh xạ sai cho tên văn 82  Bảng 3.2: Minh hoạ cách tính độ xác, độ đầy đủ độ F ánh xạ 84  Bảng 3.3: Số lần xuất (“Georgia”, Location) tập liệu De1 85  Bảng 3.4: Số lần xuất (“Smith”, Person) tập liệu De1 86  Bảng 3.5: Kết phân giải nhập nhằng cho (“Georgia”, Location) 86  Bảng 3.6: Kết phân giải nhập nhằng cho (“Smith”, Person) 87  Bảng 3.7: Kết phân giải nhập nhằng OntoNEON tập Dv sử dụng ontology VN-KIM 87  Bảng 3.8: Độ xác độ đầy đủ ánh xạ VN-KIM OntoNEON tập liệu Dv 88  Bảng 4.1: Thơng tin thực thể Wikipedia có tên “John McCarthy”, “John Williams”, “Georgia”, “Columbia” số lần đề cập đến tập liệu De2 101  Bảng 4.2: Thông tin số lần xuất tên đề cập đến thực thể có bốn tên “John McCarthy”, “John Williams”, “Georgia”, “Columbia” số lượng ánh xạ thực phương pháp 102  vii Bảng 4.3: Độ xác độ đầy đủ ánh xạ tính tốn cho tên “John McCarthy” “John Williams” 103  Bảng 4.4: Độ xác độ đầy đủ ánh xạ tính tốn cho tên “Georgia” “Columbia” 104  Bảng 4.5: Độ xác độ đầy đủ ánh xạ tính trung bình cho tên “John McCarthy”, “John Williams”, “Georgia”, “Columbia” 105  Bảng 4.6: Thống kê lỗi không sử dụng sử dụng định danh thực thể đặc trưng 106  Bảng 4.7: Thông tin số lần xuất tên đề cập đến thực thể có hai tên “Georgia”, “Columbia” số lượng ánh xạ thực phương pháp NOW 110  Bảng 4.8: Kết thực phân giải nhập nhằng NOW tập liệu với “Georgia” “Columbia” 111  Bảng 5.1: Thông tin xuất tên tập liệu De3 126  Bảng 5.2: Thông tin xuất tên tập liệu De31 127  Bảng 5.3: Độ xác độ đầy đủ ánh xạ sau thực thi Giải thuật 5.1 tập liệu De32 128  Bảng 5.4: Độ xác độ đầy đủ ánh xạ sau thực thi Giải thuật 5.1 tập liệu De31 129  viii DANH MỤC CÁC HÌNH Hình 1.1: Một mơ hình phân giải nhập nhằng tiêu biểu 13  Hình 1.2: Một ví dụ phân giải nhập nhằng thực thể có tên 15  Hình 2.1: Một số lớp xử lý ứng dụng rút trích thơng tin 28  Hình 2.2: VN-KIM xử lý thích thực thể có tên trang web tiếng Việt 33  Hình 2.3: Chú thích ngữ nghĩa 33  Hình 2.4: RDF biểu diễn mối quan hệ thực thể sở tri thức VNKIM 34  Hình 2.5: Một mơ hình xử lý động rút trích thơng tin dựa GATE 35  Hình 2.6: Một trang thực thể Wikipedia tiếng Việt 38  Hình 2.7: Minh họa mối liên kết trang Wikipedia 39  Hình 2.8: Minh họa hệ thống thể loại Wikipedia 40  Hình 2.9: Một phần đồ thị thể loại thực thể Anna Maria Mozart 41  Hình 2.10: Biểu diễn thực thể China Wikipedia tiếng Anh 41  Hình 2.11: Minh họa phần trang phân giải nhập nhằng cho tên “John McCarthy” 42  Hình 2.12: Luật nhận biết tên người tiếng Anh viết đảo ngược GATE 49  Hình 2.13: Minh họa chuỗi đồng tham chiếu 51  Hình 5.1: Minh họa đặc trưng rút trích từ đoạn văn mẫu 117  Hình 5.2: Một phần trang phân giải nhập nhằng tên “Atlanta” 120  ix ... khăn hồn thành tốt luận án ii TĨM TẮT Thực thể có tên thực thể tham khảo đến tên riêng, người, tổ chức, nơi chốn Phân giải nhập nhằng thực thể có tên nhằm ánh xạ tên văn vào thực thể nguồn tri thức... tốn phân biệt thực thể có tên Đối với NED, tên xuất văn ánh xạ vào thực thể mô tả nguồn tri thức thực thể có tên, điều kiện dừng vừa đề cập đoạn không cần thiết Khi tên văn cần phân giải nhập nhằng, ... Truy hồi thơng tin Xử lý ngơn ngữ tự nhiên Thực thể có tên Web có ngữ nghĩa Cơ sở tri thức Nhận dạng thực thể có tên Phân giải nhập nhằng thực thể có tên Tìm kiếm người Web WSD TR SVM MP MR MF

Ngày đăng: 19/03/2013, 14:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Aleman-Meza, B., Nagarajan, M., Ramakrishnan, C., Ding, L., Kolari, P., Sheth, A.P., Arpinar, I.B., Joshi, A., and Finin, T. (2006). Semantic analytics on social net- works: Experiences in addressing the problem of conflict of interest detection. In Proc. of 15th International World Wide Web Conference (WWW 2006), pp.407-416 Sách, tạp chí
Tiêu đề: Proc. of 15th International World Wide Web Conference (WWW 2006)
Tác giả: Aleman-Meza, B., Nagarajan, M., Ramakrishnan, C., Ding, L., Kolari, P., Sheth, A.P., Arpinar, I.B., Joshi, A., and Finin, T
Năm: 2006
2. Amitay, E., Har’El, N., Sivan, R., and Soffer, A. (2004). Web-a-Where: Geotagging Web content. In Proc. of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 273–280 Sách, tạp chí
Tiêu đề: Proc. of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
Tác giả: Amitay, E., Har’El, N., Sivan, R., and Soffer, A
Năm: 2004
4. Angwin, J. and Fowler, G.A. (2009). Volunteers log off as Wikipedia ages. Wall Street Journal. http://online.wsj.com/article/SB125893981183759969.html (ngày 27 tháng 11 năm 2009) Sách, tạp chí
Tiêu đề: Wall Street Journal
Tác giả: Angwin, J. and Fowler, G.A
Năm: 2009
6. Artiles, J., Gonzalo, J., and Sekine, S. (2007). The SemEval-2007 WePS evaluation: Establishing a benchmark for the Web People Search task. In Proc. of the Fourth In- ternational Workshop on Semantic Evaluations (SemEval-2007), pp.64-69 Sách, tạp chí
Tiêu đề: Proc. of the Fourth In-ternational Workshop on Semantic Evaluations (SemEval-2007)
Tác giả: Artiles, J., Gonzalo, J., and Sekine, S
Năm: 2007
7. Artiles, J., Gonzalo, J., and Sekine, S. (2009). WePS 2 evaluation campaign: over- view of the Web People Search clustering task. In Proc. of 2nd Web People Search Evaluation Workshop (WePS 2009), in 18 th WWW Conference Sách, tạp chí
Tiêu đề: Proc. of 2nd Web People Search Evaluation Workshop (WePS 2009), in 18"th
Tác giả: Artiles, J., Gonzalo, J., and Sekine, S
Năm: 2009
8. Auer, S., Bizer, C., Kobilarov, G., Lehmann, C., Richard, C., and Zachary, I. (2007). DBPedia: A nucleus for a Web of open data. In Proc. of ISWC/ASWC 2007; LNCS, vol.4825, Springer-Verlag, pp. 722-35 Sách, tạp chí
Tiêu đề: Proc. of ISWC/ASWC 2007; LNCS
Tác giả: Auer, S., Bizer, C., Kobilarov, G., Lehmann, C., Richard, C., and Zachary, I
Năm: 2007
9. Bizer, C., Lehmann, J., Kobilarov, G., Auer, S., Becker, C., Cyganiak, R., and Hellman, S. (2009). DBpedia – A Crystallization point for the Web of data. Journal of Web Semantics: Science, Services and Agents on the World Wide Web, 7(3):154–165 Sách, tạp chí
Tiêu đề: Journal of Web Semantics: Science, Services and Agents on the World Wide Web
Tác giả: Bizer, C., Lehmann, J., Kobilarov, G., Auer, S., Becker, C., Cyganiak, R., and Hellman, S
Năm: 2009
11. Bagga, A. and Baldwin, B. (1998b). Entity-based cross-document coreferencing using the vector space model. In Proc. of the 17th International Conference on Computa- tional Linguistics, pp.79-85 Sách, tạp chí
Tiêu đề: Proc. of the 17th International Conference on Computa-tional Linguistics
12. Baldwin, B. 1997. Cogniac: High precision coreference with limited knowledge and linguistic resources. In Proc. of the ACL’97/EACL’97 Workshop on Operational Fac- tors in Practical, Robust Anaphora Resolution, pp. 38–45 Sách, tạp chí
Tiêu đề: Proc. of the ACL’97/EACL’97 Workshop on Operational Fac-tors in Practical, Robust Anaphora Resolution
13. Berners-Lee, T., Hendler, J., and Lassila, O. (2001). The Semantic Web. Scientific American, pp. 34–43 Sách, tạp chí
Tiêu đề: Scientific American
Tác giả: Berners-Lee, T., Hendler, J., and Lassila, O
Năm: 2001
15. Bekkerman, R. and McCallum A. (2005). Disambiguating Web appearances of people in a social network. In Proc. of the 14th International Conference on World Wide Web, pp. 463–470 Sách, tạp chí
Tiêu đề: Proc. of the 14th International Conference on World Wide Web
Tác giả: Bekkerman, R. and McCallum A
Năm: 2005
16. Benjelloun, O., Garcia-Molina, H., Menestrina, D., Su, Q., Whang, S.E., and Widom, J. (2009). Swoosh: a generic approach to entity resolution. The VLDB Journal — The International Journal on Very Large Data Bases, 18(1):255-276 Sách, tạp chí
Tiêu đề: The VLDB Journal — The International Journal on Very Large Data Bases
Tác giả: Benjelloun, O., Garcia-Molina, H., Menestrina, D., Su, Q., Whang, S.E., and Widom, J
Năm: 2009
17. Bikel, D.M., Schwartz, R.L., and Weischedel, R.M. (1999). An algorithm that learns what’s in a name. Machine Learning, 34(1-3):211–231 Sách, tạp chí
Tiêu đề: Machine Learning
Tác giả: Bikel, D.M., Schwartz, R.L., and Weischedel, R.M
Năm: 1999
18. Bilenko, M., Mooney, R.J., Cohen, W.W., Ravikumar, P., and Fienberg, S.E. (2003). Adaptive name matching in information integration. IEEE Intelligent Systems, 18(5):16-23 Sách, tạp chí
Tiêu đề: IEEE Intelligent Systems
Tác giả: Bilenko, M., Mooney, R.J., Cohen, W.W., Ravikumar, P., and Fienberg, S.E
Năm: 2003
19. Borthwick, A. (1998). A maximum entropy approach to named entity recognition. PhD’s Thesis, Computer Science Deparment, New York University Sách, tạp chí
Tiêu đề: A maximum entropy approach to named entity recognition
Tác giả: Borthwick, A
Năm: 1998
22. Bunescu, R. and Paşca, M. (2006). Using encyclopedic knowledge for named entity disambiguation. In Proc. of the 11 th Conference of the European Chapter of the Asso- ciation for Computational Linguistics (EACL 2006), pp. 9–16 Sách, tạp chí
Tiêu đề: Proc. of the 11"th" Conference of the European Chapter of the Asso-ciation for Computational Linguistics (EACL 2006)
Tác giả: Bunescu, R. and Paşca, M
Năm: 2006
58. Griffith, V. (2007). WikiScanner: List anonymous Wikipedia edits from interesting organizations. http://wikiscanner.virgil.gr/, 14 August, 2007 Link
98. Nature. (2006). Encyclopedia Britainnica and Nature: a respone. Open letter, March 2006. http://www.nature.com/press_releases/Britannica_response.pdf Link
111. NIST 2008. (2008). ACE 2008 Evaluation Plan. http://www.nist.gov /speech/ tests/ace/2008 /doc/ace08-evalplan.v1.1.pdf Link
146. Wikimedia. (2009). Statistics. http://meta.wikimedia.org/wiki/Statistics, truy cập ngày 06 tháng 11 năm 2009 Link

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Một mô hình phân giải nhập nhằng phổ biến - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 1.1 Một mô hình phân giải nhập nhằng phổ biến (Trang 25)
Hình 1.1: Một mô hình phân giải nhập nhằng phổ biến - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 1.1 Một mô hình phân giải nhập nhằng phổ biến (Trang 25)
Hình 1.2 minh họa các ánh xạ từ mỗi tên xuất hiện trong một đoạn văn bản vào đúng thực thể mà nó đề cập; trong đó các tên được gạch dưới - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 1.2 minh họa các ánh xạ từ mỗi tên xuất hiện trong một đoạn văn bản vào đúng thực thể mà nó đề cập; trong đó các tên được gạch dưới (Trang 27)
Hình 1.2 minh họa các ánh xạ từ mỗi tên xuất hiện trong một đoạn văn bản vào đúng  thực thể mà nó đề cập; trong đó các tên được gạch dưới - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 1.2 minh họa các ánh xạ từ mỗi tên xuất hiện trong một đoạn văn bản vào đúng thực thể mà nó đề cập; trong đó các tên được gạch dưới (Trang 27)
Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thông tin - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.1 Một số lớp xử lý của một ứng dụng rút trích thông tin (Trang 40)
Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thông tin - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.1 Một số lớp xử lý của một ứng dụng rút trích thông tin (Trang 40)
Hình 2.2: VN-KIM xử lý và chú thích các thực thể có tên trên một trang web tiếng Việt - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.2 VN-KIM xử lý và chú thích các thực thể có tên trên một trang web tiếng Việt (Trang 45)
Hình 2.3: Chú thích ngữ nghĩa - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.3 Chú thích ngữ nghĩa (Trang 45)
Hình 2.2: VN-KIM xử lý và chú thích các thực thể có tên trên một trang web tiếng Việt - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.2 VN-KIM xử lý và chú thích các thực thể có tên trên một trang web tiếng Việt (Trang 45)
Hình 2.3: Chú thích ngữ nghĩa - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.3 Chú thích ngữ nghĩa (Trang 45)
Hình 2.4: RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-KIM - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.4 RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-KIM (Trang 46)
Hình 2.4: RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-KIM - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.4 RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-KIM (Trang 46)
Hình 2.5: Một mô hình xử lý của một động cơ rút trích thông tin dựa trên GATE - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.5 Một mô hình xử lý của một động cơ rút trích thông tin dựa trên GATE (Trang 47)
Hình 2.5: Một mô hình xử lý của một động cơ rút trích thông tin dựa trên GATE - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.5 Một mô hình xử lý của một động cơ rút trích thông tin dựa trên GATE (Trang 47)
Hình 2.6: Một trang thực thể trong Wikipedia tiếng Việt - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.6 Một trang thực thể trong Wikipedia tiếng Việt (Trang 50)
Hình 2.6: Một trang thực thể trong Wikipedia tiếng Việt - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.6 Một trang thực thể trong Wikipedia tiếng Việt (Trang 50)
Hình 2.7 minh họa mối liên kết giữa các trang trong Wikipedia. Trong đó cho thấy, lấy ví dụ, liên kết có nhãn “Cass county” là liên kết ra đối với  Atlanta, Texas, như ng là  liên kết vào đối với  Cass County, Texas - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.7 minh họa mối liên kết giữa các trang trong Wikipedia. Trong đó cho thấy, lấy ví dụ, liên kết có nhãn “Cass county” là liên kết ra đối với Atlanta, Texas, như ng là liên kết vào đối với Cass County, Texas (Trang 51)
Hình 2.7 minh họa mối liên kết giữa các trang trong Wikipedia. Trong đó cho thấy, lấy  ví dụ, liên kết có nhãn “Cass county” là liên kết ra đối với Atlanta, Texas, nhưng là  liên kết vào đối với Cass County, Texas - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.7 minh họa mối liên kết giữa các trang trong Wikipedia. Trong đó cho thấy, lấy ví dụ, liên kết có nhãn “Cass county” là liên kết ra đối với Atlanta, Texas, nhưng là liên kết vào đối với Cass County, Texas (Trang 51)
Hình 2.8: Minh họa hệ thống thể loại của Wikipedia                                                   - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.8 Minh họa hệ thống thể loại của Wikipedia (Trang 52)
Hình 2.8: Minh họa hệ thống thể loại của Wikipedia - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.8 Minh họa hệ thống thể loại của Wikipedia (Trang 52)
Hình 2.9: Một phần đồ thị các thể loại của thực thể Anna Maria Mozart - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.9 Một phần đồ thị các thể loại của thực thể Anna Maria Mozart (Trang 53)
Hình 2.10: Biểu diễn thực thể China trong Wikipedia tiếng Anh - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.10 Biểu diễn thực thể China trong Wikipedia tiếng Anh (Trang 53)
Hình 2.9: Một phần đồ thị các thể loại của thực thể  Anna Maria Mozart - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.9 Một phần đồ thị các thể loại của thực thể Anna Maria Mozart (Trang 53)
Hình 2.10: Biểu diễn thực thể China trong Wikipedia tiếng Anh - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.10 Biểu diễn thực thể China trong Wikipedia tiếng Anh (Trang 53)
Hình 2.11: Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.11 Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” (Trang 54)
Hình 2.11: Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.11 Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” (Trang 54)
Bảng 2.1: Số liệu thống kê về các trang, thể loại và liên kết của các trang trong Wikipedia - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.1 Số liệu thống kê về các trang, thể loại và liên kết của các trang trong Wikipedia (Trang 57)
Bảng 2.1: Số liệu thống kê về các trang, thể loại và liên kết của các trang trong Wikipedia - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.1 Số liệu thống kê về các trang, thể loại và liên kết của các trang trong Wikipedia (Trang 57)
Bảng 2.2: Các loại trả lời để đánh giám ột hệ thống nhận dạng thực thể có tên - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.2 Các loại trả lời để đánh giám ột hệ thống nhận dạng thực thể có tên (Trang 61)
Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.12 Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE (Trang 61)
Bảng 2.2: Các loại trả lời để đánh giá một hệ thống nhận dạng thực thể có tên - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.2 Các loại trả lời để đánh giá một hệ thống nhận dạng thực thể có tên (Trang 61)
Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE  Đánh giá - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 2.12 Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE Đánh giá (Trang 61)
Bảng 2.4: Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.4 Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) (Trang 78)
Bảng 2.5: Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp phân - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.5 Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp phân (Trang 83)
Bảng 2.5: Minh họa  đánh giá hiệu quả phân giải nhập nhằng của một phương pháp phân  giải nhập nhằng các vùng địa lý (Leidner, 2007) - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 2.5 Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp phân giải nhập nhằng các vùng địa lý (Leidner, 2007) (Trang 83)
Bảng 3.1: Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.1 Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản (Trang 94)
Bảng 3.1: Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.1 Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản (Trang 94)
Bảng 3.2 trình bày một ví dụ cho thấy cách tính MP, MR, and MF. - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.2 trình bày một ví dụ cho thấy cách tính MP, MR, and MF (Trang 96)
Bảng 3.2 trình bày một ví dụ cho thấy cách tính MP, MR, and MF. - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.2 trình bày một ví dụ cho thấy cách tính MP, MR, and MF (Trang 96)
Bảng 3.3: Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu De1 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.3 Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu De1 (Trang 97)
Bảng 3.3: Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu D e1 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.3 Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu D e1 (Trang 97)
Bảng 3.4: Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu De1 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.4 Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu De1 (Trang 98)
Bảng 3.4: Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu D e1 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 3.4 Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu D e1 (Trang 98)
• Đánh giá hiệu quả phân giải nhập nhằng của mô hình phân hạng các thực thể dựa trên thống kê - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
nh giá hiệu quả phân giải nhập nhằng của mô hình phân hạng các thực thể dựa trên thống kê (Trang 113)
Bảng 4.3: Độ chính xác và độ đầy đủ ánh xạ được tính toán cho các tên “John McCarthy” - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 4.3 Độ chính xác và độ đầy đủ ánh xạ được tính toán cho các tên “John McCarthy” (Trang 115)
Bảng 4.6: Thống kê lỗi khi không sử dụng và sử dụng định danh của các thực thể như các - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 4.6 Thống kê lỗi khi không sử dụng và sử dụng định danh của các thực thể như các (Trang 118)
Bảng 4.7: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một trong - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 4.7 Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một trong (Trang 122)
Bảng 4.8: Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với “Geor- “Geor-gia” và “Columbia” - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 4.8 Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với “Geor- “Geor-gia” và “Columbia” (Trang 123)
Chương này trình bày một mô hình phân hạng các ứng viên dựa trên thống kê áp dụng để - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
h ương này trình bày một mô hình phân hạng các ứng viên dựa trên thống kê áp dụng để (Trang 123)
Hình 5.2: Một phần trang phân giải nhập nhằng của tên “Atlanta”31. - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 5.2 Một phần trang phân giải nhập nhằng của tên “Atlanta”31 (Trang 132)
Hình 5.2: Một phần trang phân giải nhập nhằng của tên “Atlanta” 31 . - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Hình 5.2 Một phần trang phân giải nhập nhằng của tên “Atlanta” 31 (Trang 132)
Bảng 5.1: Thông tin về sự xuất hiện của các tên trong tập dữ liệu De3 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 5.1 Thông tin về sự xuất hiện của các tên trong tập dữ liệu De3 (Trang 138)
Bảng 5.1: Thông tin về sự xuất hiện của các tên trong tập dữ liệu D e3 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 5.1 Thông tin về sự xuất hiện của các tên trong tập dữ liệu D e3 (Trang 138)
Bảng 5.2: Thông tin về sự xuất hiện của các tên trong tập dữ liệu De31 - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 5.2 Thông tin về sự xuất hiện của các tên trong tập dữ liệu De31 (Trang 139)
Bảng 5.3 trình bày các kết quả thí nghiệm trên cùng tập dữ liệu D e32 . Bởi vì D e32  là tập - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 5.3 trình bày các kết quả thí nghiệm trên cùng tập dữ liệu D e32 . Bởi vì D e32 là tập (Trang 140)
Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 5.4 Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu (Trang 141)
Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu - Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở
Bảng 5.4 Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ liệu (Trang 141)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w