Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
852,66 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TỐN TRÍCH XUẤT TỪ KHỐ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Chu Anh Minh BÀI TỐN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: Th.S Nguyễn Thị Hậu Cán đồng hướng dẫn: CN Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu CN Trần Mai Vũ, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy suốt bốn năm học qua, cho nhiều kiến thức quý báu để vững bước đường học tập Tơi xin gửi lời cảm ơn chân thành tới anh chị, bạn nhóm seminar khai phá liệu nhiệt tình giúp đỡ tơi trình tham gia nghiên cứu khoa học làm khố luận tốt nghiệp Tơi xin gửi lời cảm ơn tới bạn lớp K50CA, K50CHTTT ủng hộ khuyến khích tơi suốt q trình học tập trường Và cuối cùng, xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, người bạn thân bên cạnh, động viên tơi suốt q trình thực khố luận tốt nghiệp Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh TĨM TẮT NỘI DUNG Trích xuất từ khoá cho trang web toán mở rộng tốn trích xuất từ khố cho văn Ở mức cao hơn, tốn hệ thống trích xuất thơng tin (Information Retrieval) Trong nhiều năm qua, toán đề cập, quan tâm nhiều hội nghị quốc tế cơng ty lớn Bài tốn trích xuất từ khoá cho trang web việc kết hợp trích xuất từ khóa văn nội dung trang web việc khai phá, đánh giá từ khoá dựa đặc trưng, cấu trúc Web Đây vấn đề mẻ áp dụng nhiều lĩnh vực khác như: quảng cáo máy tìm kiếm, phân cụm trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong khoá luận tốt nghiệp này, tác giả đề xuất mơ hình giải tốn dựa vào phương pháp: độ quan trọng thẻ HTML, đồ thị web Ngoài ra, phương pháp hỗ trợ khai phá log từ điển hỗ trợ trình bày nhằm nâng cao chất lượng từ khóa Khóa luận áp dụng số miền liệu cụ thể trang web tiếng Việt, tiếng Anh cho kết khả quan i MỤC LỤC TÓM TẮT NỘI DUNG i MỤC LỤC ii Bảng kí hiệu chữ viết tắt iv Danh mục hình vẽ v Danh mục bảng biểu vi MỞ ĐẦU Chương Giới thiệu tốn trích xuất từ khố cho trang web 1.1 Đặt vấn đề .3 1.2 Khái niệm đặc trưng từ khóa .4 1.3 Đánh giá từ khóa 1.4 Thách thức tốn sinh từ khóa cho trang web 1.4.1 Đối với trang có nội dung tập trung .6 1.4.2 Đối với trang có nội dung tổng hợp .6 1.4.3 Các vấn đề khác .6 1.5 Ứng dụng từ khóa lĩnh vực 1.5.1 Vai trò từ khóa máy tìm kiếm .7 1.5.1.1 Quảng cáo máy tìm kiếm 1.5.1.2 Hoạt động quảng bá web máy tìm kiếm 1.5.3 Vai trị từ khóa trang web tổng hợp thông tin 10 1.6 Tổng kết chương 12 Chương Các cơng trình liên quan 13 2.1 Các phương pháp trích xuất từ khóa cho văn 13 2.1.1 Phương pháp tần số từ 13 2.1.2 Phương pháp sử dụng thông tin khác văn .14 2.1.3 Phương pháp sử dụng học máy 15 2.1.3.1 Trích xuất từ khóa sử dụng phân lớp Nạve Bayes .16 2.1.3.2 Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) phân lớp 16 2.2 Các phương pháp trích xuất từ khóa cho trang web 17 2.2.1 Tần số từ .17 2.2.2 Kĩ thuật khai phá log 17 2.2.3 Kĩ thuật áp dụng máy tìm kiếm độ tương đồng từ 18 2.3 Gán từ khóa văn bản, web (keyword assignment) 19 2.4 Tổng kết chương 19 Chương Hướng giải đề xuất mơ hình tốn 20 3.1 Hướng giải 20 3.1.1 Sử dụng độ quan trọng thẻ HTML 20 3.1.2 Sử dụng đồ thị web 23 3.1.2.1 Định nghĩa đồ thị Web 23 3.1.2.2 Nội dung phương pháp 24 3.1.3 Sử dụng query log 26 3.1.4 Sử dụng từ điển hỗ trợ 27 3.2 Đề xuất mơ hình tốn 27 3.2.1 Mơ hình tồn hệ thống 27 3.2.2 Mô đun Crawler 28 ii 3.2.3 Mơ đun sinh từ khóa 29 3.2.3.1 Mô đun sử dụng trọng số thẻ HTML 30 3.2.3.2 Mô đun sử dụng đồ thị web 32 3.2.3.3 Các phương pháp hỗ trợ 33 3.2.3.4 Mô đun tổng hợp 35 3.3 Tổng kết chương 35 Chương Thực nghiệm đánh giá .36 4.1 Giới thiệu toán thực nghiệm 36 4.2 Môi trường, liệu 36 4.1.1 Môi trường phần cứng 36 4.1.2 Mơ tả chương trình .36 4.1.3 Công cụ phần mềm .37 4.1.4 Dữ liệu thử nghiệm 38 4.3 Kết thực nghiệm 40 4.4 Đánh giá kết thực nghiệm 45 Kết luận 46 Hướng phát triển 47 Tài liệu tham khảo .48 iii Bảng kí hiệu chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language IR Information Retrieval SE Search Engine SEM Search Engine Marketing SEO Search Engine Optimization TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator W3C World Wide Web Consortium WWW World Wide Web iv Danh mục hình vẽ Hình Minh họa quảng cáo doanh nghiệp máy tìm kiếm .9 Hình Top từ khóa baomoi.com 10 Hình Top từ khóa flickr.com .10 Hình Từ khóa trích xuất từ phần tóm tắt báo trang web baomoi.com 11 Hình Hình minh họa kết sinh từ khóa trang web http://seokeywordanalysis.com 17 Hình Mô tả đồ thị web .25 Hình Phần hiển thị liên kết đến trang cần trích xuất từ khóa .25 Hình Kết trả máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình Mơ hình đề xuất cho tồn hệ thống 28 Hình 10 Mơ hình mơ đun sinh từ khóa .30 Hình 11 Mơ hình mơ đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 32 Hình 12 Mơ hình mơ đun sinh từ khóa dựa phương pháp đồ thị web 33 Hình 13 Mơ hình mơ đun sinh từ khóa dựa log 34 Hình 14 Mơ hình mơ đun sinh từ khóa dựa từ điển hỗ trợ 35 Hình 15 Mơ hình mơ đun tổng hợp từ khóa .36 Hình 16 Thư mục Tiếng_Việt dmoz .38 Hình 17 Các liên kết cần lấy thư mục 39 v Danh mục bảng biểu Bảng Bảng trọng số thẻ HTML trongTextNet 21 Bảng Bảng thẻ HTML quan trọng khác 22 Bảng Ví dụ trường querylog MSN 26 Bảng Cấu hình phần cứng thực nghiệm toán .36 Bảng Các gói chương trình 36 Bảng Các lớp gói general 37 Bảng Các lớp gói methods 37 Bảng Các lớp gói SELink 37 Bảng Danh sách phần mềm, mã nguồn sử dụng 38 Bảng 10.Kết trích xuất từ khóa số trang tiếng Việt, tiếng Anh .40 Bảng 11 So sánh kết trả ví dụ sinh từ khóa cho báo điện tử .44 vi MỞ ĐẦU Trong năm gần đây, bùng nổ Internet mà đặc biệt World Wide Web - gọi tắt Web - làm thông tin ngày tràn ngập, đa dạng, có trùng lặp nhiều Cùng với tăng trưởng phổ cập Internet việc quảng cáo mạng doanh nghiệp tăng cao Sự đời máy tìm kiếm phần giải vấn đề tràn ngập thông tin trang web Các máy tìm kiếm chủ yếu sử dụng từ khố tìm trang có chứa từ khố cho kết phù hợp Việc sử dụng máy tìm kiếm làm cơng cụ quảng cáo nở rộ năm gần Nhưng trang web có nội dung nhiều người quan tâm lại trùng lặp từ khoá nhiều, doanh nghiệp muốn quảng cáo máy tìm kiếm phải cạnh tranh với doanh nghiệp khác có từ khóa trùng với Đó động lực để phát triển tốn trích xuất từ khoá cho trang web Nhiệm vụ toán đặt cần tìm tập từ khoá cho từ khoá phải sát với nội dung trang web Một động lực khác làm cho tốn trích xuất từ khóa cho trang web quan tâm nhiều người, doanh nghiệp, việc phân loại tài liệu web vào thư mục phân cấp, việc tìm kiếm thư mục nhờ dễ dàng Rất nhiều trang web báo khác nhau, blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com áp dụng việc sinh từ khóa cho trang để người đọc, người xem liên hệ, theo dõi dễ dàng trang báo, hay sản phẩm khác có liên quan Các từ khóa giúp nâng cao gợi ý cho người dùng Khơng thế, từ khóa tìm kiếm nhiều thời điểm phản ánh phần xu hướng người dùng, giúp người dùng có nhìn tổng quan vấn đề quan tâm Một vấn đề quan trọng khơng kém, với phát triển web chuẩn web trọng Trong trang web cần có phần giới thiệu tổng quan, từ khố để máy tìm kiếm, cơng cụ khác xác nhận dễ dàng Nó thể trang web thẻ mã HTML Nó giúp cho máy tìm kiếm làm việc tốt hơn, chương trình khác tiếp cận trang web tốt Đa số trang web sinh từ khoá cách thủ cơng Nó hiệu doanh nghiệp có số lượng trang web nhỏ Cịn đối máy tìm kiếm, trang có nhiều văn web, việc sinh tự động quan trọng ... Mỗi trang web có tập từ khóa riêng, từ khóa trùng với từ khóa trang web khác Do đó, từ khóa thư mục chứa trang web liên quan, có từ khóa tên thư mục Một trang web có nhiều từ khóa, trang web. .. tìm từ khố mà chủ trang web thiếu xót Với thực tế nêu trên, khoá luận đề xuất phương pháp giải tốn trích xuất từ khố cho trang web tiếng Việt tiếng Anh qua đề tài ? ?Bài toán trích xuất từ khóa. .. dạng, tập từ, hay cụm từ có ý nghĩa từ đại diện cho trang web đó[24][29] Giải tốn đưa phương pháp để áp dụng trang web hay thông tin liên quan đến trang web để tìm từ khóa đại diện cho trang web cách