Giải pháp tìm hiếm người theo tên trên Web dựa trên phân cụm phân cập và xếp hạng cặp thứ tự và thử nghiệm vào hệ thống tìm kiếm người Tiếng Việt

60 277 0
Giải pháp tìm hiếm người theo tên trên Web dựa trên phân cụm phân cập và xếp hạng cặp thứ tự và thử nghiệm vào hệ thống tìm kiếm người Tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Kim Chi GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Kim Chi GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: ThS.Nguyễn Cm Tú HÀ NỘI - 2011 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn CNm Tú, những người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại học Công nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong phòng nghiên cứu SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Khóa luận này nhận được sự hỗ trợ từ đề tài QG.10.38. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Nguyễn Thị Kim Chi ii Tóm tắt Qua máy tìm kiếm thông dụng, người dùng đưa truy vấn về thực thể quan tâm dưới dạng một từ khóa hoặc một cụm từ khóa và nhận kết quả trả về là một danh sách địa chỉ các trang Web chứa từ khóa/cụm từ khóa đó. Sự phát triển không ngừng của kỹ thuật trích chọn thông tin dẫn tới sự ra đời của máy tìm kiếm thực thể mà kết quả trả về của nó là thực thể mà không là địa chỉ. Do thực thể người thuộc loại được tìm kiếm nhiều nhất, vì vậy tìm kiếm thực thể người là một nội dung nghiên cứu nhận được sự quan tâm đặc biệt hiện nay. Khóa luận nghiên cứu các giải pháp tìm kiếm người theo tên trên Web, tập trung vào hai vấn đề chính là phân biệt nhập nhằng tên người và xếp hạng thực thể người cùng tên trên miền dữ liệu giáo dục tiếng Việt dựa trên các thông tin về thực thể người. Trên cơ sở đó, khóa luận đề xuất một mô hình hệ thống tìm kiếm thực thể người tiếng Việt thực nghiệm. Thực nghiệm ban đầu với tập tên người Việt Nam phổ biến cho thấy mô hình tìm kiếm người theo tên trên Web có độ chính xác tương đối cao và đạt độ đo phân cụm ở mức 0.86 và xếp hạng thực thể ở mức 0.8. Kết quả này cho thấy mô hình tìm kiếm người theo tên tiếng Việt trên Web dược đề xuất và triển khai là có tính khả quan. iii Lời cam đoan Tôi cam đoan giải pháp tìm kiếm người trên Web dựa trên thuật toán phân cụm phân cấp và xếp hạng cặp thứ tự và thực nghiệm được trình bày trong khóa luận là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và ThS. Nguyễn CNm Tú. Trong toàn bộ nội dung của khóa luận, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. iv MỤC LỤC MỞ ĐẦU 1 Chương 1. Khái quát bài toán tìm kiếm người trên Web 3 1.1. Hệ thống tìm kiếm thực thể 3 1.1.1. Dữ liệu Web và vấn đề tìm kiếm thông tin trên Web 3 1.1.2. Hệ thống tìm kiếm thực thể 4 1.2. Bài toán tìm kiếm người trên Web 9 1.2.1. Đặt vấn đề 9 1.2.2. Phát biểu bài toán 9 1.2.3. Một số nội dung chính 9 1.2.4. Phương pháp đánh giá 10 Chương 2: Vấn đề phân biệt nhập nhằng tên người và xếp hạng kết quả tìm kiếm người cùng tên 14 2.1. Vấn đề phân biệt nhập nhằng tên người 14 2.1.1. Phát biểu bài toán phân biệt nhập nhằng tên nguời 14 2.1.2. Một số phương pháp tiếp cận giải quyết vấn đề nhập nhằng tên người trên Web 14 2.1.2.1. Hướng tiếp cận dựa trên phân cụm bán giám sát 14 2.1.2.2. Các tiếp cận dựa trên kỹ thuật phân cụm hai trạng thái 17 2.1.2.3. Các hướng tiếp cận khác 19 2.4. Một số hướng tiếp cận giải quyết vấn đề xếp hạng thực thể 20 2.4.1. Phát biểu bài toán xếp hạng thực thể 20 2.4.2. Một số hướng tiếp cận giải quyết bài toán xếp hạng thực thể 21 2.4.2.1. Hướng tiếp cận dựa trên điểm số tương đồng và liên kết 21 2.4.2.2. Hướng tiếp cận dựa trên Mô hình Impression 23 Chương 3. Mô hình giải quyết bài toán tìm kiếm người trên Web 28 3.1. Cơ sở lý thuyết 28 3.1.1. Thuật toán phân cụm HAC 28 3.1.2. Độ tương đồng cosin 31 v 3.1.3. Phương pháp PageRank 31 3.1.4. Phương pháp xếp hạng cặp thứ tự (Pairwise) 32 3.2. Mô hình giải quyết bài toán tìm kiếm người trên Web 32 3.3. Áp dụng bài toán tìm kiếm người theo tên trên Web vào hệ thống tìm kiếm thực thể người 38 Chương 4. Thực Nghiệm và đánh giá 39 4.1. Mô tả thực nghiệm 39 4.2. Môi trường và công cụ sử dụng thực nghiệm 39 4.3. Xây dựng tập dữ liệu thực nghiệm 40 4.5. Thực nghiệm và Kết quả 41 Kết luận 48 vi Danh sách các bảng Bảng 1. Danh sách các thuộc tính được đề xuất trong hội nghị WebPS-3. 34 Bảng 2. Các thuộc tính được sử dụng trong khóa luận 35 Bảng 3. Một số đặc trưng sử dụng để trích chọn 36 Bảng 3. Tập tên người thực nghiệm 41 Bảng 4. Kết quả phân cụm 43 Bảng 5. Một số kết quả xếp hạng 43 Bảng 6. Đánh giá kết quả phân cụm 45 Bảng 7. Đánh giá kết quả xếp hạng 46 vii Danh Sách hình vẽ Hình 1. Kết quả trả về từ google với truy vấn ” Sony VaiO FZ150F 5 Hình 2. Mô hình tìm kiếm truyền thống và tìm kiếm thực thể 5 Hình 3. Kiến trúc cơ bản hệ thống tìm kiếm thực thể 6 Hình 4. Hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích rút thông tin 7 Hình 5. Hệ thống tìm kiếm người iSearch. 8 Hình 6. Mô hình hệ thống xếp hạng thực thể 21 Hình 7. Mô hình Impression 25 Hình 8. Sơ đồ thuật toán phân cụm HAC 28 Hình 9. Phân cụm với độ đo single-link 30 Hình 10. Phân cụm với độ đo complete-link 30 Hình 11. Mô hình giải quyết bài toán 33 Hình 12. Mô hình đề xuất xây dựng hệ thống tìm kiếm 338 Hình 13. Ví dụ các thuộc tính sau khi trích chọn 42 viii Danh Sách các từ viết tắt HAC Hierarchical Agglomerative Clustering WWW World Wide Web IR Information Retrieval WebPS Web People Search [...]... xếp hạng cặp thứ tự và thử nghiệm vào hệ thống tìm kiếm thực thể người tiếng Việt nhằm khảo sát, phân tích một số phương pháp phân cụm và xếp hạng thực thể đang được quan tâm hiện nay Từ đó, đưa ra mô hình phân cụm và xếp hạng thực thể người trong hệ thống tìm kiếm thực thể người tiếng Việt Khóa luận gồm các nội dung chính cơ bản sau: Chương 1: Khái quát bài toán tìm kiếm người trên Web trình bày khái... trang Web thuộc cùng một cụm sẽ cùng trỏ tới một người đồng thời có khả năng xếp hạng các thực thể người được trích rút từ các cụm Vấn đề tìm kiếm người trên Web ngày càng nhận được sự quan tâm nghiên cứu trên thế giới Đặc biệt là các hội nghị khoa học về tìm kiếm người trên Web [16] Khóa luận tốt nghiệp với đề tài Giải pháp tìm kiếm người theo tên trên Web dựa trên phân cụm phân cấp và xếp hạng cặp thứ. .. quát nhu cầu tìm kiếm thông tin trên Web, hệ thống tìm kiếm thực thể người Đồng thời, khóa luận cũng trình bày khái quát và một số nội dung liên quan chính tới bài toán tìm kiếm người trên Web, bao gồm phương pháp đánh giá giải pháp tìm kiếm người trên Web 1 Chương 2: Vấn đề phân biệt nhập nhằng tên người và xếp hạng kết quả tìm kiếm người cùng tên tập trung trình bày một số hướng tiếp cận giải quyết... trong hệ thống tìm kiếm người trên Web Khóa luận sử dụng kỹ thuật trích xuất đặc trưng và thuật toán phân cụm phân cấp HAC để giải quyết vấn đề phân biệt nhập nhằng tên người và dựa trên hàm tính điểm số để xếp hạng thực thể Chương 4: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm việc phân cụm và xếp hạng thực thể người với tập dữ liệu kiểm thử là những tên người phổ biến, đưa ra kết quả thực nghiệm. .. là cụm thứ i và thứ j Kết quả phân cụm trong trạng thái đầu của hệ thống cho độ chính xác cao, nhưng độ hồi tưởng thấp Trạng thái thứ hai, nhóm tác giả thực hiện phân cụm cứng và phân cụm mềm dựa trên kết quả phân cụm ở trạng thái đầu tiên Phân cụm được thực hiện dựa trên các cụm danh từ ghép Mục đích của trạng thái phân cụm thứ hai nhằm nâng cao giá trị độ hồi tưởng của hệ thống Hệ thống kiểm thử trên. .. nhằng tên người như phân cụm bán giám sát [10], phân cụm hai trạng thái [12], hoặc một số tiếp cận khác [9, 6]) và một số mô hình nhằm xếp hạng thực thể người trong kết quả tìm kiếm như tính hạng theo điểm số tương đồng và liên kết [4], theo mô hình Impression [13] Chương 3: Mô hình giải quyết bài toán tìm kiếm người trên Web trình bày mô hình đề xuất nhằm giải quyết phân biệt người cùng tên và xếp hạng. .. nhằng tên người và xếp hạng kết quả tìm kiếm người cùng tên Trong chương này, khoá luận trình bày hai vấn đề chính trong bài toán tìm kiếm người trên Web là vấn đề phân biệt nhập nhằng tên người và vấn đề xếp hạng kết quả tìm kiếm người cùng tên với một số hướng tiếp cận giải quyết các vấn đề này Với mỗi miền dữ liệu khác nhau, các nhóm tác giả đề xuất các phương pháp giải quyết vấn đề khác nhau Trên. .. bài tóan tìm kiếm người trên Web 1.1 Hệ thống tìm kiếm thực thể 1.1.1 Dữ liệu Web và vấn đề tìm kiếm thông tin trên Web Hiện nay, người dùng có thể truy cập nguồn tài nguyên Web mọi lúc, mọi nơi và tìm kiếm, tổng hợp các thông tin cần thiết Cùng với sự thay đổi và phát triển hàng ngày hàng giờ về nội dung cũng như số lượng của các trang Web trên Internet thì vấn đề tìm kiếm thông tin đối người dùng... quát về hệ thống tìm kiếm thực thể người và bài toán tìm kiếm người trên Web Đồng thời, khóa luận cũng trình 12 bày một số nội dung chính liên quan tới bài toán và phương pháp đánh giá cho bài toán tìm kiếm người trên Web Trong chương tiếp theo, khóa luận nêu ra một số phương pháp giải quyết được áp dụng thành công đối với các vấn đề chính trong bài toán tìm kiếm người trên Web 13 Chương 2 Vấn đề phân. .. nhau thì chỉ đến những người khác nhau Đầu vào: tập các trang Web chứa tên người cho trước Đầu ra: cụm các trang Web chứa trên người đó sao cho các trang Web trong cùng một cụm sẽ cùng trỏ tới một người, các trang trong các cụm khác nhau trỏ tới các người khác nhau 2.1.2 Một số phương pháp tiếp cận giải quyết vấn đề nhập nhằng tên người trên Web 2.1.2.1 Hướng tiếp cận dựa trên phân cụm bán giám sát Năm . ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Kim Chi GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP HẠNG CẶP. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Kim Chi GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP HẠNG CẶP. thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Nguyễn Thị Kim Chi ii Tóm tắt Qua máy tìm kiếm thông dụng, người dùng đưa truy vấn về thực thể

Ngày đăng: 20/08/2014, 09:48

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan