1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh

59 320 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 852,66 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TỐN TRÍCH XUẤT TỪ KHỐ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Chu Anh Minh BÀI TỐN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: Th.S Nguyễn Thị Hậu Cán đồng hướng dẫn: CN Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu CN Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy suốt bốn năm học qua, cho nhiều kiến thức quý báu để vững bước đường học tập Tơi xin gửi lời cảm ơn chân thành tới anh chị, bạn nhóm seminar khai phá liệu nhiệt tình giúp đỡ tơi trình tham gia nghiên cứu khoa học làm khố luận tốt nghiệp Tơi xin gửi lời cảm ơn tới bạn lớp K50CA, K50CHTTT ủng hộ khuyến khích tơi suốt q trình học tập trường Và cuối cùng, xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, người bạn thân bên cạnh, động viên tơi suốt q trình thực khố luận tốt nghiệp Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh TĨM TẮT NỘI DUNG Trích xuất từ khoá cho trang web toán mở rộng tốn trích xuất từ khố cho văn Ở mức cao hơn, tốn hệ thống trích xuất thơng tin (Information Retrieval) Trong nhiều năm qua, toán đề cập, quan tâm nhiều hội nghị quốc tế cơng ty lớn Bài tốn trích xuất từ khoá cho trang web việc kết hợp trích xuất từ khóa văn nội dung trang web việc khai phá, đánh giá từ khoá dựa đặc trưng, cấu trúc Web Đây vấn đề mẻ áp dụng nhiều lĩnh vực khác như: quảng cáo máy tìm kiếm, phân cụm trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong khoá luận tốt nghiệp này, tác giả đề xuất mơ hình giải tốn dựa vào phương pháp: độ quan trọng thẻ HTML, đồ thị web Ngoài ra, phương pháp hỗ trợ khai phá log từ điển hỗ trợ trình bày nhằm nâng cao chất lượng từ khóa Khóa luận áp dụng số miền liệu cụ thể trang web tiếng Việt, tiếng Anh cho kết khả quan i MỤC LỤC TÓM TẮT NỘI DUNG i MỤC LỤC ii Bảng kí hiệu chữ viết tắt iv Danh mục hình vẽ v Danh mục bảng biểu vi MỞ ĐẦU Chương Giới thiệu tốn trích xuất từ khố cho trang web 1.1 Đặt vấn đề .3 1.2 Khái niệm đặc trưng từ khóa .4 1.3 Đánh giá từ khóa 1.4 Thách thức tốn sinh từ khóa cho trang web 1.4.1 Đối với trang có nội dung tập trung .6 1.4.2 Đối với trang có nội dung tổng hợp .6 1.4.3 Các vấn đề khác .6 1.5 Ứng dụng từ khóa lĩnh vực 1.5.1 Vai trò từ khóa máy tìm kiếm .7 1.5.1.1 Quảng cáo máy tìm kiếm 1.5.1.2 Hoạt động quảng bá web máy tìm kiếm 1.5.3 Vai trị từ khóa trang web tổng hợp thông tin 10 1.6 Tổng kết chương 12 Chương Các cơng trình liên quan 13 2.1 Các phương pháp trích xuất từ khóa cho văn 13 2.1.1 Phương pháp tần số từ 13 2.1.2 Phương pháp sử dụng thông tin khác văn .14 2.1.3 Phương pháp sử dụng học máy 15 2.1.3.1 Trích xuất từ khóa sử dụng phân lớp Nạve Bayes .16 2.1.3.2 Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) phân lớp 16 2.2 Các phương pháp trích xuất từ khóa cho trang web 17 2.2.1 Tần số từ .17 2.2.2 Kĩ thuật khai phá log 17 2.2.3 Kĩ thuật áp dụng máy tìm kiếm độ tương đồng từ 18 2.3 Gán từ khóa văn bản, web (keyword assignment) 19 2.4 Tổng kết chương 19 Chương Hướng giải đề xuất mơ hình tốn 20 3.1 Hướng giải 20 3.1.1 Sử dụng độ quan trọng thẻ HTML 20 3.1.2 Sử dụng đồ thị web 23 3.1.2.1 Định nghĩa đồ thị Web 23 3.1.2.2 Nội dung phương pháp 24 3.1.3 Sử dụng query log 26 3.1.4 Sử dụng từ điển hỗ trợ 27 3.2 Đề xuất mơ hình tốn 27 3.2.1 Mơ hình tồn hệ thống 27 3.2.2 Mô đun Crawler 28 ii 3.2.3 Mơ đun sinh từ khóa 29 3.2.3.1 Mô đun sử dụng trọng số thẻ HTML 30 3.2.3.2 Mô đun sử dụng đồ thị web 32 3.2.3.3 Các phương pháp hỗ trợ 33 3.2.3.4 Mô đun tổng hợp 35 3.3 Tổng kết chương 35 Chương Thực nghiệm đánh giá .36 4.1 Giới thiệu toán thực nghiệm 36 4.2 Môi trường, liệu 36 4.1.1 Môi trường phần cứng 36 4.1.2 Mơ tả chương trình .36 4.1.3 Công cụ phần mềm .37 4.1.4 Dữ liệu thử nghiệm 38 4.3 Kết thực nghiệm 40 4.4 Đánh giá kết thực nghiệm 45 Kết luận 46 Hướng phát triển 47 Tài liệu tham khảo .48 iii Bảng kí hiệu chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language IR Information Retrieval SE Search Engine SEM Search Engine Marketing SEO Search Engine Optimization TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator W3C World Wide Web Consortium WWW World Wide Web iv Danh mục hình vẽ Hình Minh họa quảng cáo doanh nghiệp máy tìm kiếm .9 Hình Top từ khóa baomoi.com 10 Hình Top từ khóa flickr.com .10 Hình Từ khóa trích xuất từ phần tóm tắt báo trang web baomoi.com 11 Hình Hình minh họa kết sinh từ khóa trang web http://seokeywordanalysis.com 17 Hình Mô tả đồ thị web .25 Hình Phần hiển thị liên kết đến trang cần trích xuất từ khóa .25 Hình Kết trả máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình Mơ hình đề xuất cho tồn hệ thống 28 Hình 10 Mơ hình mơ đun sinh từ khóa .30 Hình 11 Mơ hình mơ đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 32 Hình 12 Mơ hình mơ đun sinh từ khóa dựa phương pháp đồ thị web 33 Hình 13 Mơ hình mơ đun sinh từ khóa dựa log 34 Hình 14 Mơ hình mơ đun sinh từ khóa dựa từ điển hỗ trợ 35 Hình 15 Mơ hình mơ đun tổng hợp từ khóa .36 Hình 16 Thư mục Tiếng_Việt dmoz .38 Hình 17 Các liên kết cần lấy thư mục 39 v Danh mục bảng biểu Bảng Bảng trọng số thẻ HTML trongTextNet 21 Bảng Bảng thẻ HTML quan trọng khác 22 Bảng Ví dụ trường querylog MSN 26 Bảng Cấu hình phần cứng thực nghiệm toán .36 Bảng Các gói chương trình 36 Bảng Các lớp gói general 37 Bảng Các lớp gói methods 37 Bảng Các lớp gói SELink 37 Bảng Danh sách phần mềm, mã nguồn sử dụng 38 Bảng 10.Kết trích xuất từ khóa số trang tiếng Việt, tiếng Anh .40 Bảng 11 So sánh kết trả ví dụ sinh từ khóa cho báo điện tử .44 vi MỞ ĐẦU Trong năm gần đây, bùng nổ Internet mà đặc biệt World Wide Web - gọi tắt Web - làm thông tin ngày tràn ngập, đa dạng, có trùng lặp nhiều Cùng với tăng trưởng phổ cập Internet việc quảng cáo mạng doanh nghiệp tăng cao Sự đời máy tìm kiếm phần giải vấn đề tràn ngập thông tin trang web Các máy tìm kiếm chủ yếu sử dụng từ khố tìm trang có chứa từ khố cho kết phù hợp Việc sử dụng máy tìm kiếm làm cơng cụ quảng cáo nở rộ năm gần Nhưng trang web có nội dung nhiều người quan tâm lại trùng lặp từ khoá nhiều, doanh nghiệp muốn quảng cáo máy tìm kiếm phải cạnh tranh với doanh nghiệp khác có từ khóa trùng với Đó động lực để phát triển tốn trích xuất từ khoá cho trang web Nhiệm vụ toán đặt cần tìm tập từ khoá cho từ khoá phải sát với nội dung trang web Một động lực khác làm cho tốn trích xuất từ khóa cho trang web quan tâm nhiều người, doanh nghiệp, việc phân loại tài liệu web vào thư mục phân cấp, việc tìm kiếm thư mục nhờ dễ dàng Rất nhiều trang web báo khác nhau, blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com áp dụng việc sinh từ khóa cho trang để người đọc, người xem liên hệ, theo dõi dễ dàng trang báo, hay sản phẩm khác có liên quan Các từ khóa giúp nâng cao gợi ý cho người dùng Khơng thế, từ khóa tìm kiếm nhiều thời điểm phản ánh phần xu hướng người dùng, giúp người dùng có nhìn tổng quan vấn đề quan tâm Một vấn đề quan trọng khơng kém, với phát triển web chuẩn web trọng Trong trang web cần có phần giới thiệu tổng quan, từ khố để máy tìm kiếm, cơng cụ khác xác nhận dễ dàng Nó thể trang web thẻ mã HTML Nó giúp cho máy tìm kiếm làm việc tốt hơn, chương trình khác tiếp cận trang web tốt Đa số trang web sinh từ khoá cách thủ cơng Nó hiệu doanh nghiệp có số lượng trang web nhỏ Cịn đối máy tìm kiếm, trang có nhiều văn web, việc sinh tự động quan trọng ... Mỗi trang web có tập từ khóa riêng, từ khóa trùng với từ khóa trang web khác Do đó, từ khóa thư mục chứa trang web liên quan, có từ khóa tên thư mục Một trang web có nhiều từ khóa, trang web. .. tìm từ khố mà chủ trang web thiếu xót Với thực tế nêu trên, khoá luận đề xuất phương pháp giải tốn trích xuất từ khố cho trang web tiếng Việt tiếng Anh qua đề tài ? ?Bài toán trích xuất từ khóa. .. dạng, tập từ, hay cụm từ có ý nghĩa từ đại diện cho trang web đó[24][29] Giải tốn đưa phương pháp để áp dụng trang web hay thông tin liên quan đến trang web để tìm từ khóa đại diện cho trang web cách

Ngày đăng: 20/08/2014, 09:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[41] Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text Processing Toolkit” Sách, tạp chí
Tiêu đề: JvnTextPro: A Java-based VietNamese Text Processing Toolkit
[3] Website: http://vi.wikipedia.org/wiki/HTML [4] SEO http://vi.wikipedia.org/wiki/SEO/Tiếng Anh Link
[6] Craven, T. (1998b). TexNet32 - WWW filters. In Texnet32. Retreived from http://instruct.uwo.ca/gplis/677/texnet32/wwwnet32.htm Link
[31] Google Adwords http://adword.google.com [32] Overture http://searchmaketing.yahoo.com Link
[36] Website: http://searchengineguide.com [37] Website: http://webmasterworld.com [38] WordNet http://wordnet.princenton.edu Công cụ và dữ liệu sử dụng Link
[43] Website: http://vietbao.vn [44] Website: http://baomoi.com [45] Website: http://google.com [46] Website: http://search.yahoo.com [47] Website: http://altavista.com Link
[48] Từ điển tiếng Việt được lọc từ các trang của http://baomoi.com Link
[1] Phạm Thị Thu Uyên, Hoàng Minh Hiền (2008). Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản Tiếng Việt, Công trình Sinh viên Nghiên cứu khoa học 03/2008 Khác
[5] Chengzhi ZHANG , Huilin WANG , Yao LIU , Dan WU , Yi LIAO , Bo WANG. Automatic Keyword Extraction from Documents Using Conditional Random Fields. China. Journal of Computational Information Systems4:3(2008) 1169- 1180 Khác
[7] Craven, Timothy C. HTML Tags as Extraction Cues for Web Page Description Construction. Informing Science; 2003, Vol. 6, p1-12, 12p Khác
[8] David B. Bracewell, JiajunYan and Fuji Ren.Single Document Keyword Extraction For Internet News Articles. International Journal of Innovative Computing, Information and Control Volume 4,Number 4,April 2008 Khác
[9] E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning. Domain-specific keyphrase extraction. In IJCAI, pages 668--673, 1999 Khác
[10] E. Spertus. ParaSite: Mining structural informationon the Web. Proc. 6th WWW Conf. , 1997 Khác
[11] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword Extraction. Inf. Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714 Khác
[12] H.Edmundson(1969). New methods in automatic abstracting, Journal of ACM. 1969 Khác
[13] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal of research development Khác
[14] J. Carri ere and R. Kazman. WebQuery: Searching and visualizing the Web through connectivity. Proc. 6 th WWW Conf. , 1997 Khác
[15] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the ACM , 1999, to appear. Also appears as IBM Research Report RJ 10076 91892 May 1997 Khác
[16] K. Bartz, V. Murthi, and S. Sebastian. Logistic regression and collaborative filtering for sponsoreed search term recommendation. In Second Workshop on Sponsored Search Auctions, 2006 Khác
[17] M. Sahami and T. Heilman. A web-based kernel function for matching short text snippets. In International Conference on Machine Learning, 2005 Khác

HÌNH ẢNH LIÊN QUAN

Bảng các kí hiệu và chữ viết tắt - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng c ác kí hiệu và chữ viết tắt (Trang 7)
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm (Trang 18)
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com (Trang 20)
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com (Trang 26)
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet (Trang 30)
Bảng 2. Bảng các thẻ HTML quan trọng khác - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 2. Bảng các thẻ HTML quan trọng khác (Trang 31)
Đồ thị web có rất nhiều ứng dụng trong việc khai phá web, là cơ sở để các máy  tìm kiếm đánh hạng trang (thuật toán HITS), phân tích hành vi người dùng, hỗ trợ bài  toán crawling.. - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
th ị web có rất nhiều ứng dụng trong việc khai phá web, là cơ sở để các máy tìm kiếm đánh hạng trang (thuật toán HITS), phân tích hành vi người dùng, hỗ trợ bài toán crawling (Trang 33)
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa (Trang 34)
Bảng 3. Ví dụ về các trường trong querylog của MSN - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 3. Ví dụ về các trường trong querylog của MSN (Trang 35)
Hình 9. Mô hình đề xuất cho toàn hệ thống - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 9. Mô hình đề xuất cho toàn hệ thống (Trang 36)
Đồ thị web - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
th ị web (Trang 38)
Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML (Trang 40)
Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web (Trang 41)
Hình 13. Mô hình mô đun sinh từ khóa dựa trên log - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 13. Mô hình mô đun sinh từ khóa dựa trên log (Trang 42)
Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ (Trang 43)
Hình 15. Mô hình mô đun tổng hợp từ khóa - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 15. Mô hình mô đun tổng hợp từ khóa (Trang 44)
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán (Trang 45)
Bảng 6. Các lớp của gói general - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 6. Các lớp của gói general (Trang 46)
Hình 16. Thư mục Tiếng_Việt của dmoz - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Hình 16. Thư mục Tiếng_Việt của dmoz (Trang 47)
Bảng 9. Danh sách các phần mềm, mã nguồn  sử dụng - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng (Trang 47)
Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh - Bài toán trích xuất từ khóa trong trang web tiếng Việt và áp dụng để xây dựng hệ thống quảng cáo ngữ cảnh
Bảng 10. Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh (Trang 49)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w