Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

60 762 1
Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị HậuCán bộ đồng hướng dẫn: CN. Trần Mai VũHÀ NỘI - 2009 Lời cảm ơnTrước tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường học tập của mình.Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học làm khoá luận tốt nghiệp.Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường.Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, những người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.Hà Nội, ngày 12 tháng 05 năm 2009Sinh ViênChu Anh Minh TÓM TẮT NỘI DUNGTrích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh cho kết quả khả quan.i MC LCChu Anh Minh i H NI - 2009 i Chu Anh Minh . ii TểM TT NI DUNG . i MC LC ii Bng cỏc kớ hiu v ch vit tt iv Danh mc hỡnh v . v Danh mc cỏc bng biu . vi M U 1 Chng 1. Gii thiu bi toỏn trớch xut t khoỏ cho trang web . 3 1.1. t vn 3 1.2. Khỏi nim v cỏc c trng ca t khúa . 4 1.3. ỏnh giỏ cỏc t khúa 4 1.4. Thỏch thc ca bi toỏn sinh t khúa cho trang web . 5 1.4.1. i vi cỏc trang cú ni dung tp trung . 6 1.4.2. i vi cỏc trang cú ni dung tng hp . 6 1.4.3. Cỏc vn khỏc . 6 1.5. ng dng ca t khúa trong cỏc lnh vc . 7 1.5.1. Vai trũ t khúa trong mỏy tỡm kim . 7 1.5.1.1. Qung cỏo trờn mỏy tỡm kim . 7 1.5.1.2. Hot ng qung bỏ web trong mỏy tỡm kim . 9 1.5.3. Vai trũ t khúa trong cỏc trang web tng hp thụng tin 10 1.6. Tng kt chng 12 Chng 2. Cỏc cụng trỡnh liờn quan . 13 2.1. Cỏc phng phỏp trớch xut t khúa cho vn bn . 13 2.1.1. Phng phỏp tn s t . 13 2.1.2. Phng phỏp s dng cỏc thụng tin khỏc trong vn bn . 14 2.1.3. Phng phỏp s dng hc mỏy 15 2.1.3.1. Trớch xut t khúa s dng phõn lp Naùve Bayes . 16 2.1.3.2. Trớch xut t khúa s dng lexical chain (chui t vng) v phõn lp . 16 2.2. Cỏc phng phỏp trớch xut t khúa cho trang web 17 2.2.1. Tn s t . 17 2.2.2. K thut khai phỏ log . 17 2.2.3. K thut ỏp dng mỏy tỡm kim v tng ng t . 18 2.3. Gỏn t khúa trong vn bn, web (keyword assignment) 18 2.4 Tng kt chng . 19 Chng 3. Hng gii quyt v xut mụ hỡnh bi toỏn 20 3.1. Hng gii quyt . 20 3.1.1. S dng quan trng ca cỏc th trong HTML . 20 3.1.2. S dng th web 23 3.1.2.1. nh ngha th Web 23 3.1.2.2. Ni dung ca phng phỏp . 24 3.1.3. S dng query log . 26 ii 3.1.4. Sử dụng từ điển hỗ trợ . 27 3.2. Đề xuất mô hình bài toán . 27 3.2.1. Mô hình toàn hệ thống . 27 3.2.2. Mô đun Crawler . 28 3.2.3. Mô đun sinh từ khóa . 29 3.2.3.1. Mô đun sử dụng trọng số thẻ HTML . 29 3.2.3.2. Mô đun sử dụng đồ thị web . 32 3.2.3.3. Các phương pháp hỗ trợ 33 3.2.3.4. Mô đun tổng hợp . 35 3.3. Tổng kết chương 35 Chương 4. Thực nghiệm đánh giá 36 4.1. Giới thiệu bài toán thực nghiệm . 36 4.2. Môi trường, dữ liệu: . 36 4.1.1. Môi trường phần cứng . 36 4.1.2. Mô tả chương trình 36 4.1.3. Công cụ phần mềm 37 4.1.4. Dữ liệu thử nghiệm 38 4.3. Kết quả thực nghiệm: . 40 4.4. Đánh giá kết quả thực nghiệm 44 Kết luận . 46 Hướng phát triển tiếp theo . 47 Tài liệu tham khảo. . 48 iii Bảng các kí hiệu chữ viết tắtKí hiệu Diễn giảiHTML HyperText Markup LanguageIR Information RetrievalSE Search EngineSEM Search Engine MarketingSEO Search Engine OptimizationTF Term FrequencyIDF Inverse Document FrequencyURL Uniform Resource LocatorW3C World Wide Web ConsortiumWWW World Wide Webiv Danh mục hình vẽHình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 8Hình 2. Top từ khóa của baomoi.com .10Hình 3. Top từ khóa của flickr.com 10Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com 11Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com 17Hình 6. Mô tả đồ thị web 24Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25Hình 9. Mô hình đề xuất cho toàn hệ thống .27Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML .31Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 32Hình 12. Mô hình mô đun sinh từ khóa dựa trên log .33Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ .34Hình 14. Mô hình mô đun tổng hợp từ khóa .35Hình 15. Thư mục Tiếng_Việt của dmoz 38Hình 16.Các liên kết cần lấy về trong các thư mục .39v Danh mục các bảng biểuBảng 1. Bảng trọng số các thẻ HTML trongTextNet 21Bảng 2. Bảng các thẻ HTML quan trọng khác 22Bảng 3. Ví dụ về các trường trong querylog của MSN .26Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán 36Bảng 5. Các gói của chương trình .36Bảng 6. Các lớp của gói general 37Bảng 7. Các lớp của gói methods .37Bảng 8. Các lớp của gói SELink 37Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 37Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh .40Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử 44vi [...]... cho trang Web áp dụng phương pháp phân tích thẻ HTML đồ thị Web Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML đồ thị web Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log dùng từ điển hỗ trợ Với từng loại trang web sẽ có từng loại phương. .. người sử dụng Bài toán trích xuất từ khóa cho trang web là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng Chính những sự áp dụng rộng rãi nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web Khóa luận cũng đề xuất mô hình bài toán. .. Phương pháp tần số từ trong văn bản có thể được áp dụng trên các trang web Việc lấy ra nội dung của văn bản trong các trang web là đơn giản phương pháp phân tích nội dung này, thống kê tần số xuất hiện của các từ, cụm từ áp dụng kĩ thuật n-gram Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn cụm từ khoá. .. sử dụng độ quan trọng của các thẻ trong HTML đồ thị web Hai hướng này là chủ đạo có thể áp dụng với các loại trang web tiếng Việt tiếng Anh Tuy nhiên, phương pháp đồ thị web do phải xử lý nhiều nên phù hợp hơn với các trang chủ, các web portal Bên cạnh hai phương pháp trên, tôi còn ứng dụng thêm hai phương pháp đó là : query log, từ điển (bài toán gán từ khóa) Do log chỉ giới hạn một số trang. .. áp dụng máy tìm kiếm độ tương đồng từ Bài báo sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để áp dụng cho bài toán tìm từ khóa cho trang web Phương pháp đã được dùng trong thương mại đó là việc áp dụng dựa vào tìm kiếm lân cận (proximity search) để sinh từ khóa Proximity Search là cách dựa vào máy tìm kiếm, với một query đầu vào gọi là từ khoá hạt giống (seed keyword) tìm ra được những từ. .. chain), áp dụng từ điển WordNet bài toán phân lớp để giải quyết bài toán sinh từ khóa này 15 2.1.3.1 Trích xuất từ khóa sử dụng phân lớp Naïve Bayes Trong bài báo Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào bài toán này Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy Có các từ ở trong văn bản mục đích là nhận ra một từ có phải thuộc lớp từ khóa( keywords) hay là một từ. .. assignment) Các phương pháp nêu trên là các phương pháp dùng để trích xuất từ khóa (keyword extraction) Trong khi đó có một phương pháp cũng đã được sử dụng nhiều trong trang web, cả văn bản đóphương pháp gán từ khóa Việc gán từ khóa chỉ là việc khớp các từ trong văn bản, web với các từ thuộc bộ từ điển có sẵn Từ những trang cần sinh từ khóa, ta lấy ra những đoạn text trong trang web đó Dùng các... Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán trích xuất từ khóa cho văn bản Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương đồng từ khóa, các kĩ thuật khác trong bài toán tóm tắt văn bản Sau đây là phần giới thiệu một số phương pháp 2.1.1 Phương pháp tần... trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa Trước hết, áp dụng phương pháp này vào bài toán trích xuất từ khóa là việc lấy nội dung nội tại của trang web về để xử lý - hay văn bản HTML của chính trang cần trích xuất Như đã nhắc về các công trình liên quan tại chương II , tần số từ (TF) là một... chứng khoán, giải trí Ví dụ về các web portal như: AOL, MSN, yahoo, iGoogle Nếu áp dụng việc trích xuất từ khóa áp dụng đối với nội dung trong các trang web này sẽ dẫn đến kết quả không chính xác Cần có những phương pháp khác để có thể sinh từ khóa cho loại trang này, trong khóa luận này tôi áp dụng phương pháp dùng đồ thị Web log hỗ trợ 1.4.3 Các vấn đề khác Ngày nay, số lượng các trang web trên . BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT. HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC

Ngày đăng: 23/11/2012, 13:44

Hình ảnh liên quan

Bảng các kí hiệu và chữ viết tắt - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Bảng c.

ác kí hiệu và chữ viết tắt Xem tại trang 8 của tài liệu.
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 1..

Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm Xem tại trang 18 của tài liệu.
Hình 2. Top từ khĩa của baomoi.com Hình 3. Top từ khĩa của flickr.com - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 2..

Top từ khĩa của baomoi.com Hình 3. Top từ khĩa của flickr.com Xem tại trang 20 của tài liệu.
Hình 4. Từ khĩa được trích xuất từ phần tĩm tắt bài báo của trang web baomoi.com - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 4..

Từ khĩa được trích xuất từ phần tĩm tắt bài báo của trang web baomoi.com Xem tại trang 21 của tài liệu.
Hình 5. Hình minh họa kết quả sinh từ khĩa của trang web http://seokeywordanalysis.com - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 5..

Hình minh họa kết quả sinh từ khĩa của trang web http://seokeywordanalysis.com Xem tại trang 27 của tài liệu.
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Bảng 1..

Bảng trọng số các thẻ HTML trongTextNet Xem tại trang 31 của tài liệu.
Bảng 2. Bảng các thẻ HTML quan trọng khác - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Bảng 2..

Bảng các thẻ HTML quan trọng khác Xem tại trang 32 của tài liệu.
Hình 6. Mơ tả đồ thị web - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 6..

Mơ tả đồ thị web Xem tại trang 34 của tài liệu.
Bảng 3. Ví dụ về các trường trong querylog của MSN - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Bảng 3..

Ví dụ về các trường trong querylog của MSN Xem tại trang 36 của tài liệu.
3.2. Đề xuất mơ hình bài tốn - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

3.2..

Đề xuất mơ hình bài tốn Xem tại trang 37 của tài liệu.
Hình 10. Mơ hình mơđun sinh từ khĩa - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 10..

Mơ hình mơđun sinh từ khĩa Xem tại trang 39 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

h.

ình chi tiết: Xem tại trang 41 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

h.

ình chi tiết: Xem tại trang 42 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

h.

ình chi tiết: Xem tại trang 43 của tài liệu.
- Mơ hình chi tiết - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

h.

ình chi tiết Xem tại trang 44 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

h.

ình chi tiết: Xem tại trang 45 của tài liệu.
Bài tốn được thực nghiệm trên máy cĩ cấu hình như sau: - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

i.

tốn được thực nghiệm trên máy cĩ cấu hình như sau: Xem tại trang 46 của tài liệu.
Dictionary Tải từ điển cĩ sẵn qua file cấu hình, lưu trữ các từ - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

ictionary.

Tải từ điển cĩ sẵn qua file cấu hình, lưu trữ các từ Xem tại trang 47 của tài liệu.
Hình 15. Thư mục Tiếng_Việt của dmoz - Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Hình 15..

Thư mục Tiếng_Việt của dmoz Xem tại trang 48 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan