1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình và thuật giải cho hệ hỗ trợ tìm kiếm thông tin theo ngữ nghĩa trên các báo điện tử

140 597 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 140
Dung lượng 4,15 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ──────────── HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 TP HỒ CHÍ MINH - NĂM 2014 2 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS-TS ĐỖ VĂN NHƠN 3 TP HỒ CHÍ MINH - NĂM 2014 4 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực. Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ. TP. Hồ Chí Minh, ngày 01 tháng 12 năm 2014 Hồ Long Vân 5 LỜI CẢM ƠN Trước tiên, em xin chân thành cảm ơn quý thầy cô trường Đại học Công nghệ Thông tin - ĐHQG thành phố Hồ Chí Minh đã tận tình dạy bảo cho em nhiều kiến thức bổ ích trong thời gian học tập tại trường, cũng như tạo điều kiện cho em thực hiện đề tài này. Kính chúc quý thầy cô luôn dồi dào sức khoẻ và thành công trong cuộc sống. Đặc biệt, em xin bày tỏ lòng biết ơn chân thành, sâu sắc đến PGS. TS. Đỗ Văn Nhơn, người Thầy đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo em trong suốt quá trình thực hiện luận văn. Luận văn này sẽ rất khó hoàn thành nếu không có sự truyền đạt kiến thức quí báu và sự hướng dẫn nhiệt tình của Thầy. Con xin gửi tất cả lòng biết ơn và sự kính trọng đến ông bà, cha mẹ và những người thân đã nuôi dạy, luôn bên cạnh động viên và ủng hộ con trên con đường học tập mà con đã lựa chọn, những người đã cho con niềm tin và nghị lực vượt qua mọi khó khăn trong quá trình học tập và làm việc. Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn, cũng như đóng góp cho tôi nhiều ý kiến quý báu, qua đó, giúp tôi có nhiều ý tưởng hay hơn để hoàn thiện cho đề tài này. Một lần nữa xin chân thành cảm ơn! TP. Hồ Chí Minh, ngày 01 tháng 12 năm 2014 Hồ Long Vân 6 MỤC LỤC 7 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa 1 URL Uniform Resource Locator 2 RSS Really Simple Syndication 3 HTML HyperText Markup Language 4 CK_ONTO Classed Keyphrase based Ontology 5 KĐTNN Keyphrase đặc trưng ngữ nghĩa 8 DANH MỤC BẢNG Bảng 3.1: Trọng số được gán cho mỗi quan hệ………………………………………….67 Bảng 4.1: Thống kê kết quả tìm kiếm theo từ khoá trên kho thử nghiệm 1000 tin bài 101 Bảng 4.2: Thống kê kết quả tìm kiếm ngữ nghĩa trên kho thử nghiệm 1000 tin bài.… 104 Bảng 4.3: Thống kê kết quả tìm kiếm theo chủ đề trên kho thử nghiệm 1000 tin bài….107 Bảng 4.4: Thống kê kết quả tìm kiếm tin bài gần giống nhau.…………………………108 Bảng 4.5: Thống kê chức năng điểm tin.……………………………………………….109 9 DANH MỤC HÌNH Hình 2.1: Quy trình xử lý của Crawler……………………………………….………….12 Hình 2.2: Kiến trúc tổng quát của một RSS…………………………………………… 14 Hình 2.3: Ví dụ về một đồ thị keyphrase ………………………………………………37 Hình 2.4: Ví dụ về một đồ thị keyphrase mở rộng………………………………………38 Hình 3.1: Quy trình xây dựng đồ thị keyphrase cho câu truy vấn……………………….64 Hình 3.2: Quy trình xây dựng đồ thị keyphrase cho tin bài báo điện tử…………………65 Hình 4.1: Cấu trúc tổng quát của hệ thống …………………………………………….87 Hình 4.2: Menu các chức năng của hệ thống ………………………………………… 90 Hình 4.3: Giao diện trang chủ của hệ thống ………………………………………… 90 Hình 4.4: Giao diện danh sách các trang báo điện tử……………………………………91 Hình 4.5: Giao diện quản lý thông tin và cấu trúc của một trang báo điện tử……… Hình 4.6: Giao diện tập danh sách các chủ đề tin tức.………………………………… 93 Hình 4.7: Giao diện thông tin của một chủ đề tin tức……………………………………93 Hình 4.8: Giao diện cấu hình lựa chọn chế độ và chiến lược thu thập Hình 4.9: Giao diện quản lý kho tin bài………………………………………………….95 Hình 4.10: Giao diện nâng cao cho “Tìm kiếm thông thường”………………………….96 Hình 4.11: Giao diện nâng cao cho “Tìm kiếm ngữ nghĩa”…………………………… 97 Hình 4.12: Giao diện kết quả tìm kiếm sắp xếp theo “Trang báo điện tử”………………98 Hình 4.13: Giao diện chức năng lọc tin kết quả tìm kiếm……………………………….99 Hình 4.14: Giao diện chức năng điểm tin.……………………………………………….99 10 [...]... keyphrase, tìm kiếm theo ngữ nghĩa các tin bài báo điện tử, tìm kiếm tin bài theo chủ đề, bài toán điểm tin Đi cùng với các vấn đề là các phương pháp tiếp cận để giải quyết và các thuật giải tương ứng Các phương pháp và thuật giải này là cơ sở để xây dựng các động cơ suy diễn và tìm kiếm trong hệ thống hỗ trợ tìm kiếm ngữ nghĩa cho báo điện tử Chương 4 là phần cài đặt xây dựng hệ thống hỗ trợ tìm kiếm tin. .. nghĩa - Giải quyết bài toán tìm kiếm theo chủ đề - Liệt kê các tin bài không trùng lắp cho bài toán điểm tin Trên cơ sở đó, đề tài sẽ xây dựng hệ hỗ trợ thu thập và tìm kiếm thông tin theo ngữ nghĩa cho lĩnh vực Lao động-Việc làm trên các báo điện tử Hệ thống đáp ứng các chức năng chính sau: - Hỗ trợ thu thập và quản lý tin bài: cho phép thu thập tin bài từ các trang báo điện tử và quản lý các tin bài... bài báo điện tử Hệ thống hỗ trợ việc thu thập và lưu trữ các tin bài thuộc các trang báo điện tử cần quan tâm, quản lý cấu trúc thông tin của các trang báo này, hỗ trợ người dùng tìm kiếm theo từ khóa và tìm kiếm theo nội dung tin bài, tìm kiếm tin bài theo các chủ đề quan tâm và trích xuất báo cáo điểm tin Tiến hành phân tích các yêu cầu và chức năng của hệ thống, thiết kế các thành phần xử lý và đưa... lắp của tin bài trong tập dữ liệu web lớn có ý nghĩa rất thực tiễn 1.5 Mục tiêu và giới hạn đề tài Đề tài tập trung tìm hiểu, nghiên cứu các giải pháp và kỹ thuật đã có của việc thu thập và tìm kiếm tin bài theo ngữ nghĩa cho một lĩnh vực đặc thù, từ đó đưa ra mô hình 21 chung cho hệ thống tìm kiếm tin bài theo ngữ nghĩa trên báo điện tử, nêu ra được các vấn đề cần giải quyết và các thuật giải liên... đó, cách tiếp cận dựa trên các Ontology được xem là cách tiếp cận hiện đại và phù hợp nhất cho việc thiết kế biểu diễn, xử lý nội dung và ý nghĩa thông tin của các trang báo điện tử Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng, đề tài đã tìm hiểu và nghiên cứu các kỹ thuật để xây dựng hệ hỗ trợ tìm kiếm tin bài theo ngữ nghĩa trên các báo điện tử bao gồm các. .. thập về… - Hỗ trợ tìm kiếm: tìm kiếm tin bài trong cơ sở dữ liệu đã thu thập về Việc tìm kiếm bao gồm các chức năng: tìm kiếm theo từ khóa, tìm kiếm theo ngữ nghĩa và tìm kiếm theo chủ đề cần quan tâm Tìm kiếm từ khóa sẽ cho kết quả là các tin bài có nội dung trùng với các từ khóa ở câu truy vấn Tìm kiếm ngữ nghĩa sẽ không so trùng một cách chính xác những gì người dùng cung cấp mà dựa trên tri thức... pháp thu thập thông tin, mô hình ontology CK_ONTO, mô hình tổng quát cho một trang báo điện tử, cuối cùng giới thiệu một số phương pháp rút trích keyphrase, phương pháp biểu diễn tài liệu và phương pháp tính khoảng cách ngữ nghĩa giữa các khái niệm 12 Chương 3 giới thiệu mô hình của hệ thống tìm kiếm báo điện tử theo ngữ nghĩa và các vấn đề liên quan để xây dựng hệ thống bao gồm: thu thập tin bài, rút... gồm các khảo sát tìm hiểu thực trạng hiện nay của các tờ báo điện tử và nhu cầu cần thiết để xây dựng hệ thống hỗ trợ cho việc tìm kiếm thông tin trên internet, tìm hiểu các hệ thống thu thập và tìm kiếm thông tin, phát hiện tin bài trùng lắp cũng như các kỹ thuật liên quan trong nước và quốc tế Cuối cùng trình bày mục tiêu của luận văn Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan tới các. .. và giải quyết các vấn đề sau: - Tìm hiểu các kỹ thuật giúp cho việc thu thập tin bài - Nghiên cứu một số mô hình biểu diễn tri thức, trong đó có mô hình Ontology mô tả tri thức lĩnh vực, cùng với đó là các phương pháp biểu diễn ngữ nghĩa liên quan đến nội dung tin bài - Nghiên cứu và đề xuất kỹ thuật rút trích các keyphrase một cách hiệu quả - Đưa ra các vấn đề và thuật toán cho việc tìm kiếm ngữ nghĩa. .. tập các webpage biểu diễn các trang lĩnh vực, chủ đề thuộc về trang báo điện tử - A là tập các các tin bài đã thu thập được thuộc về trang báo điện tử - FStr là tập các kiểu cấu trúc của các trang lĩnh vực thuộc trang báo điện tử - AStr là tập các kiểu cấu trúc của các trang bài viết thuộc trang báo điện tử - Rels là tập các quan hệ nội tại trong trang báo điện tử  Tập các thuộc tính của trang báo điện . CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ──────────── HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA. PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY. đề tài đã tìm hiểu và nghiên cứu các kỹ thuật để xây dựng hệ hỗ trợ tìm kiếm tin bài theo ngữ nghĩa trên các báo điện tử bao gồm các mô hình, vấn đề, thuật giải, quy trình xây dựng hệ thống trong

Ngày đăng: 18/05/2015, 20:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi (2009), “Mô hình biểu diễn văn bản thành đồ thị”, Tạp chí phát triển KH&CN Tập 12, tr. 05-14 Sách, tạp chí
Tiêu đề: Mô hìnhbiểu diễn văn bản thành đồ thị”, "Tạp chí phát triển KH&CN
Tác giả: Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi
Năm: 2009
2. Nguyễn Thanh Hiên (2010), Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở, BCKH Tiến sĩ KHMT, Đại học Quốc gia TPHCM Sách, tạp chí
Tiêu đề: Phân giải nhập nhằng thực thể có tên dựa trên cácontology đóng và mở
Tác giả: Nguyễn Thanh Hiên
Năm: 2010
3. Lê Thúy Ngọc (2008), Xây dựng hệ thống tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa, BCKH Thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM Sách, tạp chí
Tiêu đề: Xây dựng hệ thống tìm kiếm thông tin theo hướng tiếp cận ngữnghĩa
Tác giả: Lê Thúy Ngọc
Năm: 2008
4. Huỳnh Thị Thanh Thương (2012), Nghiên cứu mô hình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực CNTT, BCKH Thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM.Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu mô hình tổ chức và kỹ thuật tìm kiếmcó ngữ nghĩa trên kho tài nguyên học tập lĩnh vực CNTT
Tác giả: Huỳnh Thị Thanh Thương
Năm: 2012
5. A. Broder, S. Glassman, M. Manasse, G. Zweig (1997), “Syntactic clustering of the web”, The 6 th International World Wide Web Conference, Vol.29 (8-13), pp.1157-1166 Sách, tạp chí
Tiêu đề: Syntactic clustering of theweb”, "The 6"th" International World Wide Web Conference
Tác giả: A. Broder, S. Glassman, M. Manasse, G. Zweig
Năm: 1997
6. Ahmed Hamza Osman, Naomie Salim, Yogan Jaya Kumar, Albaraa Abuobieda (2012), “Fuzzy Semantic Plagiarism Detection”, the First International Conference on Advanced Machine Learning Technologies and Applications, vol. 322, pp.543-553 Sách, tạp chí
Tiêu đề: Fuzzy Semantic Plagiarism Detection”, "the First International Conference onAdvanced Machine Learning Technologies and Applications
Tác giả: Ahmed Hamza Osman, Naomie Salim, Yogan Jaya Kumar, Albaraa Abuobieda
Năm: 2012
7. Amy N. Langville, Carl D. Meyer (2006), Google’s PageRank and beyond: The science of search engine rankings, Princeton University Press, NJ, USA Sách, tạp chí
Tiêu đề: Google’s PageRank and beyond: Thescience of search engine rankings
Tác giả: Amy N. Langville, Carl D. Meyer
Năm: 2006
8. Bouramoul, M-K. Kholladi, B-L. Doan (2011), “How Ontology Can be Used to Improve Semantic Information Retrieval: The AnimSe Finder Tool”, International Journal of Computer Applications (IJCA) Vol.21 (9), pp.48-54 Sách, tạp chí
Tiêu đề: How Ontology Can be Used toImprove Semantic Information Retrieval: The AnimSe Finder Tool”, "InternationalJournal of Computer Applications (IJCA)
Tác giả: Bouramoul, M-K. Kholladi, B-L. Doan
Năm: 2011
9. Brawer Sascha B, Ibel Maximilian, Keller Ralph Michael, Shivakumar Narayanan (2011), Web crawler scheduler that utilizes sitemaps from websites, Google Inc., Mountain View, CA (US) Sách, tạp chí
Tiêu đề: Web crawler scheduler that utilizes sitemaps from websites
Tác giả: Brawer Sascha B, Ibel Maximilian, Keller Ralph Michael, Shivakumar Narayanan
Năm: 2011
10. Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz (2010), “Adaptive near- duplicate detection via similarity learning”, in SIGIR ’10, pp.419-426 Sách, tạp chí
Tiêu đề: Adaptive near-duplicate detection via similarity learning”, "in SIGIR ’10
Tác giả: Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz
Năm: 2010
11. Jan Paralic, Ivan Kostial (2003), “Ontology-based Information Retrieval”, The 14th International Conference on Information and Intelligent systems, IIS 2003, Croatia, pp.23-28 Sách, tạp chí
Tiêu đề: Ontology-based Information Retrieval”, "The 14thInternational Conference on Information and Intelligent systems
Tác giả: Jan Paralic, Ivan Kostial
Năm: 2003
12. Krishnamurthy Koduvayur Viswanathan and Tim Finin (2010), “Text Based Similarity Metrics and Delta for Semantic Web Graphs”, the Proceedings of the Poster Session of 9th International Semantic Web Conference, pp.17-20 Sách, tạp chí
Tiêu đề: Text BasedSimilarity Metrics and Delta for Semantic Web Graphs”, "the Proceedings of the PosterSession of 9th International Semantic Web Conference
Tác giả: Krishnamurthy Koduvayur Viswanathan and Tim Finin
Năm: 2010
13. Maosheng Zhong, Yi Hu, Lei Liu, Ruzhan Lu (2008), “A Practical Approach for Relevance Measure of InterSentence”, The Fifth International Conference on Fuzzy Systems and Knowledge Discovery, Vol.4, pp.140-144 Sách, tạp chí
Tiêu đề: A Practical Approach forRelevance Measure of InterSentence”," The Fifth International Conference on FuzzySystems and Knowledge Discovery
Tác giả: Maosheng Zhong, Yi Hu, Lei Liu, Ruzhan Lu
Năm: 2008
14. Martin Theobald, Jonathan Siddharth, Andreas Paepcke (2008), “Spotsigs: robust and efficient near duplicate detection in large web collections”, SIGIR ’08, pp.563-570 Sách, tạp chí
Tiêu đề: Spotsigs: robust andefficient near duplicate detection in large web collections”, "SIGIR ’08
Tác giả: Martin Theobald, Jonathan Siddharth, Andreas Paepcke
Năm: 2008
15. Michel Chein, Marie-Laure Mugnier (2009), Graph-based Knowledge Representation, Springer Publishing Company, New York, USA Sách, tạp chí
Tiêu đề: Graph-based KnowledgeRepresentation
Tác giả: Michel Chein, Marie-Laure Mugnier
Năm: 2009
16. Namrata H.S Bamrah, B.S. Satpute, Pramod Patil (2014), “Web Forum Crawling Techniques”, International Journal of Computer Applications Vol.85 (17), pp.36-41 Sách, tạp chí
Tiêu đề: Web Forum CrawlingTechniques”, "International Journal of Computer Applications
Tác giả: Namrata H.S Bamrah, B.S. Satpute, Pramod Patil
Năm: 2014
17. Nhon DoVan, Vu LamHan, Trung LeBao, Van HoLong (2013), “News Aggregating System Supporting Semantic Processing Based On Ontology”, International Conference on Knowledge and Systems Engineering (KSE 2013) Vol.244, pp.285-297 Sách, tạp chí
Tiêu đề: News AggregatingSystem Supporting Semantic Processing Based On Ontology”, "InternationalConference on Knowledge and Systems Engineering (KSE 2013)
Tác giả: Nhon DoVan, Vu LamHan, Trung LeBao, Van HoLong
Năm: 2013
18. Purcell.K, Brenner.J, Rainie.L (2012), Search Engine Use 2012, Pew Research Center, Washington.D.C Sách, tạp chí
Tiêu đề: Search Engine Use 2012
Tác giả: Purcell.K, Brenner.J, Rainie.L
Năm: 2012
19. S. Lakshmi Devi (2011), “Ontology Based Relevance Criteria for Semantic Web Search Engine”, International Journal of Research and Reviews in Information Sciences (IJRRIS) Vol.3, pp.60-64 Sách, tạp chí
Tiêu đề: Ontology Based Relevance Criteria for Semantic WebSearch Engine”, "International Journal of Research and Reviews in InformationSciences (IJRRIS)
Tác giả: S. Lakshmi Devi
Năm: 2011
21. SQL Server Magazine (Oct. 2000), http://sqlmag.com/xml/xpath151retrieving-nodes-xml-document Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w