1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt

78 466 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 1,8 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM NGƢỜI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM NGƢỜI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hƣớng dẫn: ThS. Nguyễn Cẩm Tú HÀ NỘI - 2011 i LỜI CẢM ƠN Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy, ThS. Nguyễn Cẩm Tú và CN. Nguyễn Đạo Thái đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm KT-Sislab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Đại học Công Nghệ. Xin cảm ơn sự hỗ trợ từ đề tài từ QG.10.38 trong thời gian tôi thực hiện khóa luận. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Thị Thanh Na ii Tóm tắt Tìm kiếm thông tin về thực thể người trên Web là một trong những hoạt động phổ biến nhất của người dùng trên Internet. Tuy nhiên, thực thể người là một trong những kiểu thực thể có độ nhập nhằng cao. Một tên có thể ứng với nhiều thực thể người khác nhau và nhiều tên có thể ứng với cùng một thực thể người. Bài toán phân biệt tên người nhằm giải quyết vấn đề nhập nhằng trong tên của thực thể người, từ đó nâng cao chất lượng tìm kiếm thông tin người trên Web. Khóa luận này tập trung giải quyết bài toán phân biệt tên người trên Web dựa trên việc trích chọn đặc trưng theo mô hình thông tin Người. Các đặc trưng được trích chọn sử dụng để phân cụm các văn bản chứa cùng một tên người nhưng chỉ đến các thực thể người khác nhau. Kết quả thực nghiệm ban đầu với tập tên người có độ nhập nhằng cao cho thấy mô hình phân biệt tên người của hệ thống đạt kết quả độ đo F 0.5 = 84,8%% và F 0,2 = 83.1 %. Điều này khẳng định mô hình là khả quan và có khả năng ứng dụng vào thực tế. iii Lời cam đoan Tôi xin cam đoan mô hình phân biệt tên người dựa trên mô hình thông tin Người và thực nghiệm được trình bày trong khóa luận này là do tôi thực hiện sự hướng dẫn của ThS. Nguyễn Cẩm Tú và CN. Nguyễn Đạo Thái. Các số liệu và kết quả có được trong luận văn là trung thực và chưa từng được công bố ở bất kỳ một công trình nào khác. Tôi cũng nêu rõ nguồn gốc của những tham khảo từ các nghiên cứu liên quan trong danh mục tài liệu tham khảo của khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Sinh viên Nguyễn Thị Thanh Na iv MỤC LỤC LỜI CẢM ƠN i Tóm tắt ii Lời cam đoan iii MỤC LỤC iv Danh mục các bảng vii Danh mục hình vẽ viii Danh sách các từ viết tắt x Mở đầu 1 Chương 1. Khái quát bài toán phân biệt tên ngƣời trên Web 3 1.1. Giới thiệu về vấn đề phân biệt tên người 3 1.1.1. Hệ thống tìm kiếm thực thể 3 1.1.2. Dãy hội nghị khoa học về vấn đề phân biệt tên người 14 1.2. Bài toán phân biệt tên người. 14 1.2.1. Phát biểu bài toán 14 1.2.2. Mối quan hệ của bài toán phân biệt người cùng tên với bài toán phân biệt nhập nhằng ngữ nghĩa của từ và đồng tham chiếu 15 1.3. Một vài công trình nghiên cứu về phân biệt tên người tại ở Việt Nam 16 Tóm tắt chương 1 17 Chương 2.Một số giải pháp phân biệt tên ngƣời trên Web 18 2.1. Một số cách tiếp cận điển hình 18 2.1.1. Cách tiếp cận dựa trên thực thể định danh 18 2.1.2. Cách tiếp cận phân cụm dựa trên các đặc trưng được trích chọn 22 2.1.3. Cách tiếp cận dựa trên mô hình chủ đề. 24 2.2. Mô hình phân biệt tên người dựa trên mô hình thông tin Người 26 v 2.2.1. Mô hình thông tin Người 26 2.2.2. Phân biệt tên người dựa theo mô hình thông tin Người 27 2.3. Nhận xét 32 Tóm tắt chương 2 33 Chƣơng 3. Mô hình hệ thống phân biệt tên người trong tập văn bản và áp dụng trọng hệ thống tìm kiếm thực thể người tiếng Việt 34 3.1. Đặc điểm miền dữ liệu các trang Web tin tức tiếng Việt 34 3.2. Cơ sở lý thuyết 35 3.2.1. Mô hình không gian vector 35 3.2.2. Độ tương đồng Cosin 37 3.2.3. Thuyết chắc chắn Stanford 37 3.2.4. Phân cụm phân cấp HAC (Hierachical agglomerative clustering) 38 3.3. Mô hình giải quyết bài toán 42 3.4. Áp dụng bài toán phân biệt tên người vào hệ thống tìm kiếm thực thể 49 Tóm tắt chương 3 50 Chương 4: Thực nghiệm và đánh giá 51 4.1. Môi trường và công cụ sử dụng thực nghiệm. 51 4.2. Quá trình thực nghiệm: 53 4.2.1. Xây dựng tập dữ liệu thực nghiệm 53 4.2.2. Trích chọn đặc trưng 55 4.2.3. Biểu diễn mô hình thông tin Người: 56 4.2.4. Phân cụm 56 4.4. Đánh giá 59 4.4.1. Phương pháp đánh giá. 59 4.4.2. Kết quả kiểm thử 60 vi 4.5. Nhận xét 60 Kết luận 62 PHỤ LỤC 64 TÀI LIỆU THAM KHẢO 65 vii Danh mục các bảng Bảng 1-1: 10 từ khóa được tìm kiếm nhiều nhất năm 2009 11 Bảng 1-2. 10 từ khóa được tìm kiếm nhiều nhất năm 2010 11 Bảng 3-1: Các đặc trưng được sử dụng trong khóa luận 44 Bảng 4-1: Cấu hình phần cứng 51 Bảng 4-2: Danh sách các phần mềm sử dụng: 51 Bảng 4-3: Bảng các gói của chương trình 52 Bảng 4-3: Bảng tập tên người thực nghiệm trong mô hình 54 Bảng 4-4: Kết quả phân cụm tự động của chương trình 57 Bảng 4-4: Bảng đánh giá kết quả phân cụm của hệ thống 60 Bảng 5-1: Nhãn của các loại đặc trưng người 64 viii Danh mục hình vẽ Hình 1: Cấu trúc chung của một máy tìm kiếm 5 Hình 2. Giao diện của máy tìm kiếm nơi nghỉ mát Cazoodle 7 Hình 3. Kết quả tìm kiêm Google cho từ khóa “lead honda” 7 Hình 4. Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin 8 Hình 5. Hệ thống tìm kiếm căn hộ ở New York 10 Hình 6. Tổng hợp thông tin của người P từ 2 trang d 1 và d 2 13 Hình 7. Mô hình đoán nhận và giải quyết nhập nhằng thực thể tiếng Việt 16 Hình 8. Hệ thống phân biệt thực thể người sử dụng không gian vector 19 Hình 9. Trích từ tài liệu doc.36 20 Hình 10. Trích từ tài liệu doc.38 20 Hình 11. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 21 Hình 12. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 21 Hình 13. Các bước trong bài toán phân biệt tên người 27 Hình 14. Các bước trích chọn thuộc tính người. 29 Hình 15 : Đoạn tóm tắt của bài báo “Nữ cán bộ Agribank bị bắt vì nghi tham ô 6 tỷ đồng.” 34 Hình 16: Tên người các tên người khác cùng xuất hiện với tên người “Trương Hồng Nhung” 35 Hình 17. Biểu diễn văn bản trong khôn gian vector 36 Hình 18. Sơ đồ thuật toán phân cụm HAC 39 Hình 19: Phân cụm với độ đo single-link 41 Hình 20: Phân cụm với độ đo complete-link 41 Hình 21. Mô hình giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin Người 43 [...]... thuộc lĩnh vực tin tức tiếng Việt, từ đó đưa ra mô hình giải quyết bài toán phân biệt tên người trong tập văn bản và ứng dụng bài toán phân biệt tên người trong hệ thống tìm kiếm thực thể tiếng Việt Chƣơng 4 Khóa luận trình bày quá trình thực nghiệm khâu phân cụm các trang Web cho bài toán phân biệt tên người trên miền dữ liệu các trang Web tin tức, với dữ liệu kiểm thử là danh sách tên người có độ nhập... khác nhau, các hệ thống tìm kiếm thực thể được tổ chức khác nhau Sử dụng kỹ thuật trích xuất thông tin, hệ thống sẽ được tổ chức như hình 4 Hình 4 Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin [17] Mô hình hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích xuất thông tin gồm hai bộ phận chính là trích xuất thông tin về thực thể và tổng hợp thông tin về thực thể... phương pháp tiếp cận giải quyết bài toán phân biệt tên người trên thế giới Khóa luận cũng tập trung phân tích mô hình phân biệt tên người dựa 1 http://nlp.uned.es/weps/ 1 trên mô hình thông tin Người Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình giải quyết bài toán phân biệt tên người trong tiếng Việt Chƣơng 3 Khóa luận giới thiệu các đặc trưng của miền dữ liệu các trang Web thuộc... về người P và chứa 4 đặc trưng A, B, D, E Hệ thống tìm kiếm thực thể người sẽ không đưa ra kết quả là người P Trường hợp hệ thống tìm kiếm thực thể người kết hợp giải quyết bài toán phân biệt tên người thì sau khi phân biệt nhập nhằng tên người Hai bài báo d1 và d2 cùng nói về người P sẽ được nhóm vào một cụm Hệ thống tiến hành tổng hợp thông tin thuộc tính của hai tài liệu này, nhận được thông tin. .. Các hệ thống tìm kiếm vẫn chủ yếu dựa vào mức từ, các đặc trưng liên quan đến ngữ nghĩa của ngôn ngữ còn ít Vì vậy, kết quả trả về nhiều khi không đúng với mong muốn của người dùng  Hệ thống tìm kiếm thực thể Hệ thống tìm kiếm thực thể ra đời với mục đích khắc phục những hạn chế trên đây của hệ thống tìm kiếm thông thường Trong hệ thống tìm kiếm thực thể, người dùng cũng tiến hành tìm kiếm thông tin. .. cho người dùng P là S = {A, B, C, D, E} Khi người dùng nhập vào từ khóa trên, vì S chứa tất cả các từ khóa A, B, D và E, nên hệ thống đưa ra kết quả chứa người P Từ những phân tích trên có thể thấy bài toán phân biệt tên người có vai trò quan trọng để nâng cao độ chính xác cho hệ thống tìm kiếm thực thể người Và bài toán phân biệt tên người trong hệ thống tìm kiếm thực thể được quy về bài toán phân biệt. .. giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin Người trên miền dữ liệu các trang tin điện tử tiếng Việt Kết quả thực nghiệm cho thấy mô hình là khả quan và có khả năng ứng dụng tốt vào thực tế Nội dung của khóa luận được bố cục gồm 4 chương: Chƣơng 1 Giới thiệu khái quát về bài toán phân biệt tên người, các khái niệm và vấn đề liên quan đến bài toán phân biệt tên người Chƣơng 2 Giới... giới thiệu khái quát về hệ thống tìm kiếm thực thể, vấn đề phân biệt tên người trong hệ thống tìm kiếm thực thể và các hội nghị liên quan đến vấn đề phân biệt tên người Khóa luận cũng trình bày bài toán phân biệt tên người, mỗi liên hệ của bài toán phân biệt tên người với bài toán phân biệt ngữ nghĩa của từ và bài toán đồng tham chiếu Bên cạnh đó, khóa luận cũng giới thiệu một vài công trình nghiên cứu... của hệ thống tìm kiếm khi người dùng nhập vào các các câu truy vấn trước - Nhờ thành phần ranking, hệ thống tìm kiếm sẽ đưa về các trang web phù hợp nhất với từ khóa mà người dùng nhập vào, tuy nhiên, các trang web trả về vẫn bao gồm cả những thông tin người dùng quan tâm lẫn những thông tin người dùng không quan tâm, vì vậy người dùng vẫn phải duyệt từng trang web để tìm thông tin mình đang tìm kiếm. .. dùng cùng tên và những tên khác nhau cùng trỏ đến một thực thể, đặc biệt trong vấn đề tìm kiếm người Một số hệ thống tìm kiếm thực thể điển hình: Một hệ thống tìm kiếm thực thể điển hình là hệ thống Cazoodle2 do nhóm nghiên cứu Kevin Chen-Chuan Chang, thuộc phòng thí nghiệm Cơ sở dữ liệu và Hệ thống thông tin DAIS thuộc đại học Illinois, Mỹ Hệ thống thực hiện các truy vấn thuộc các lĩnh vực tìm kiếm nơi . ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM. HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM. trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Thị Thanh Na ii Tóm tắt Tìm kiếm thông tin về thực thể người trên Web là một trong những hoạt

Ngày đăng: 26/07/2014, 08:09

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 10-2009 Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu Web
Nhà XB: Nhà xuất bản giáo dục Việt Nam
[2] Nguyễn Cẩm Tú. Đoán nhận và giải quyết nhập nhằng thực thể Tiếng Việt trên môi trường Web. Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp ĐHQGHN, 2008 Sách, tạp chí
Tiêu đề: Đoán nhận và giải quyết nhập nhằng thực thể Tiếng Việt trên môi trường Web
[3] Nguyễn Đạo Thái. Mô hình hệ thống phân biệt nhập nhằng tên người trong tập văn bản và áp dụng trong hệ thống tìm kiếm thực thể người. Khóa luận tốt nghiệp Đại Học Công Nghệ-ĐHQGHN, 2010:33-34.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Mô hình hệ thống phân biệt nhập nhằng tên người trong tập văn bản và áp dụng trong hệ thống tìm kiếm thực thể người
[4] A. Bagga, and B. Baldwin. Entity-Based Cross-Document Coreferencing Using the Vector Space Model. COLING-ACL'98, 1998 Sách, tạp chí
Tiêu đề: Entity-Based Cross-Document Coreferencing Using the Vector Space Model
[5] E. Elmacioglu, Y. F. Tan, S. Yan, M. Kan, D. Lee. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features. WePS-1, 2007:268-271 [6] G. Salton, A. Wong and C. S. Yang. A Vector Space Model for AutomaticIndexing, Communication of the ACM, 18(11), 1975:613-621 Sách, tạp chí
Tiêu đề: PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features". WePS-1, 2007:268-271 [6] G. Salton, A. Wong and C. S. Yang. "A Vector Space Model for Automatic "Indexing
[7] Hua-Ping ZHANG, Zhi-Hua LIU, Qian MO, He-Yan HUANG. Chinese Personal Name Disambiguation Based on Person Modeling. CIPS-SIGHAN Joint Conference on Chinese Language Processing 2010 (CLP 2010): 374-378 Sách, tạp chí
Tiêu đề: Chinese Personal Name Disambiguation Based on Person Modeling
[8] Javier Artiles, Julio Gonzalo and Satoshi Sekine. The SemEval-2007WePS Evaluation: Establishing a benchmark for the Web People Search Task. WePS -1, 2007:64-69 Sách, tạp chí
Tiêu đề: The SemEval-2007WePS "Evaluation: Establishing a benchmark for the Web People Search Task
[9] Javier Artiles, Julio Gonzalo and Satoshi Sekine. WePS 2 Evaluation Campaign:Overview of the Web People Search Clustering Task. WePS -2, 2009 Sách, tạp chí
Tiêu đề: WePS 2 Evaluation Campaign:Overview of the Web People Search Clustering Task
[10] Javier Artiles, Andrew Borthwick, Julio Gonzalo, Satoshi Sekine, Enrique Amigo. WePS-3 Evaluation Campaign: Overview of the Web People Search Clustering and Attribute Extraction Tasks. WePS-3, 2010 Sách, tạp chí
Tiêu đề: WePS-3 Evaluation Campaign: Overview of the Web People Search Clustering and Attribute Extraction Tasks
[11] Jenny R. Finkel, Trond Grenager, and Christopher Manning. Incorporating non- local information into information extraction systems by Gibbs sampling. In ACL, 2005:363–370 Sách, tạp chí
Tiêu đề: Incorporating non-local information into information extraction systems by Gibbs sampling
[12] Jiashen Sun, Tianmin Wang, Li Li. Person Name Disambiguation based on Topic Model. WePS-3, 2010 Sách, tạp chí
Tiêu đề: Person Name Disambiguation based on Topic Model
[13] G.F. Luger and W.A. Stubblefield. Artificial Intelligence: Structures and Strategies for Complex Problem Solving, Third Edition. Addison Wesley Longman, Inc., 1997:263-266 Sách, tạp chí
Tiêu đề: Artificial Intelligence: Structures and Strategies for Complex Problem Solving, Third Edition
[14] Martin F. Porter. An algorithm for suffix stripping. Program, 14(3), 1980:130–137 Sách, tạp chí
Tiêu đề: An algorithm for suffix stripping
[15] Min-Yen Kan and Hoang Oanh Nguyen Thi. Fast webpage classification using URL features. In CIKM, 2005:325–326 Sách, tạp chí
Tiêu đề: Fast webpage classification using URL features
[16] Sándor Dominich. The Modern Algebra of Information Retrieval. The Book Published by Springer, 2008:84-87 Sách, tạp chí
Tiêu đề: The Modern Algebra of Information Retrieval
[17] Trần Nam Khánh. Some studies on a probabilistic framework for finding object- oriented information in unstructured data. Undergraduate thesis, College of Technology, VietNam National Univeristiy, Hanoi,2009:4-5 Sách, tạp chí
Tiêu đề: Some studies on a probabilistic framework for finding object-oriented information in unstructured data

HÌNH ẢNH LIÊN QUAN

Hình 1: Cấu trúc chung của một máy tìm kiếm [16] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 1 Cấu trúc chung của một máy tìm kiếm [16] (Trang 17)
Hình 2. Giao diện của máy tìm kiếm nơi nghỉ mát Cazoodle - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 2. Giao diện của máy tìm kiếm nơi nghỉ mát Cazoodle (Trang 19)
Hình 3. Kết quả tìm kiêm Google cho từ khóa “lead honda” - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 3. Kết quả tìm kiêm Google cho từ khóa “lead honda” (Trang 19)
Hình 4. Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông  tin [17] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 4. Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin [17] (Trang 20)
Hình 5. Hệ thống tìm kiếm căn hộ ở New York - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 5. Hệ thống tìm kiếm căn hộ ở New York (Trang 22)
Bảng 1-2. 10 từ khóa được tìm kiếm nhiều nhất năm 2010[23][24][25] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 1 2. 10 từ khóa được tìm kiếm nhiều nhất năm 2010[23][24][25] (Trang 23)
Hình 6. Tổng hợp thông tin của người P từ 2 trang d 1  và d 2 - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 6. Tổng hợp thông tin của người P từ 2 trang d 1 và d 2 (Trang 25)
Hình 7. Mô hình đoán nhận và giải quyết nhập nhằng thực thể tiếng Việt [2] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 7. Mô hình đoán nhận và giải quyết nhập nhằng thực thể tiếng Việt [2] (Trang 28)
Hình 8. Hệ thống phân biệt thực thể người sử dụng không gian vector [4] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 8. Hệ thống phân biệt thực thể người sử dụng không gian vector [4] (Trang 31)
Hình 12. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 12. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4] (Trang 33)
Hình 11. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 11. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 [4] (Trang 33)
Hình 13. Các bước trong bài toán phân biệt tên người - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 13. Các bước trong bài toán phân biệt tên người (Trang 39)
Hình 14. Các bước trích chọn thuộc tính người. - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 14. Các bước trích chọn thuộc tính người (Trang 41)
Hình 17. Biểu diễn văn bản trong khôn gian vector[6] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 17. Biểu diễn văn bản trong khôn gian vector[6] (Trang 48)
Hình 18. Sơ đồ thuật toán phân cụm HAC [1] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 18. Sơ đồ thuật toán phân cụm HAC [1] (Trang 51)
Hình 19: Phân cụm với độ đo single-link [1] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 19 Phân cụm với độ đo single-link [1] (Trang 53)
Hình 20: Phân cụm với độ đo complete-link [1] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 20 Phân cụm với độ đo complete-link [1] (Trang 53)
Hình 21. Mô hình giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin  Người - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 21. Mô hình giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin Người (Trang 55)
Bảng 3-1: Các đặc trưng được sử dụng trong khóa luận - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 3 1: Các đặc trưng được sử dụng trong khóa luận (Trang 56)
Hình 22. Mô hình hệ thống tìm kiếm thực thể người [3] - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 22. Mô hình hệ thống tìm kiếm thực thể người [3] (Trang 61)
Bảng 4-1: Cấu hình phần cứng - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 4 1: Cấu hình phần cứng (Trang 63)
Bảng 4-2: Danh sách các phần mềm sử dụng: - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 4 2: Danh sách các phần mềm sử dụng: (Trang 63)
Bảng 4-3: Bảng các gói của chương trình - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 4 3: Bảng các gói của chương trình (Trang 64)
Bảng 4-3: Bảng tập tên người thực nghiệm trong mô hình - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 4 3: Bảng tập tên người thực nghiệm trong mô hình (Trang 66)
Hình 24: Định dạng văn bản lưu các đặc trưng trích chọn được - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 24 Định dạng văn bản lưu các đặc trưng trích chọn được (Trang 67)
Bảng 4-4: Kết quả phân cụm tự động của chương trình - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 4 4: Kết quả phân cụm tự động của chương trình (Trang 69)
Hình 25: Mô tả kết quả phân cụm - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Hình 25 Mô tả kết quả phân cụm (Trang 70)
Bảng 4-4: Bảng đánh giá kết quả phân cụm của hệ thống - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 4 4: Bảng đánh giá kết quả phân cụm của hệ thống (Trang 72)
Bảng 5-1: Nhãn của các loại đặc trưng người - Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt
Bảng 5 1: Nhãn của các loại đặc trưng người (Trang 76)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w