Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

59 573 0
Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường học tập của mình. Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học làm khoá luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, những người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh i TÓM TẮT NỘI DUNG Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh cho kết quả khả quan. ii MỤC LỤC TĨM TẮT NỘI DUNG . i MỤC LỤC ii Bảng các kí hiệu chữ viết tắt . iv Danh mục hình vẽ v Danh mục các bảng biểu vi MỞ ĐẦU .1 Chương 1. Giới thiệu bài tốn trích xuất từ khố cho trang web .3 1.1. Đặt vấn đề .3 1.2. Khái niệm các đặc trưng của từ khóa .4 1.3. Đánh giá các từ khóa .5 1.4. Thách thức của bài tốn sinh từ khóa cho trang web 5 1.4.1. Đối với các trang có nội dung tập trung .6 1.4.2. Đối với các trang có nội dung tổng hợp .6 1.4.3. Các vấn đề khác .6 1.5. Ứng dụng của từ khóa trong các lĩnh vực .7 1.5.1. Vai trò từ khóa trong máy tìm kiếm .7 1.5.1.1. Quảng cáo trên máy tìm kiếm .7 1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm 9 1.5.3. Vai trò từ khóa trong các trang web tổng hợp thơng tin 10 1.6. Tổng kết chương .12 Chương 2. Các cơng trình liên quan 13 2.1. Các phương pháp trích xuất từ khóa cho văn bản 13 2.1.1. Phương pháp tần số từ 13 2.1.2. Phương pháp sử dụng các thơng tin khác trong văn bản .14 2.1.3. Phương pháp sử dụng học máy 15 2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Nạve Bayes .16 2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) phân lớp16 2.2. Các phương pháp trích xuất từ khóa cho trang web .17 2.2.1. Tần số từ .17 2.2.2. Kĩ thuật khai phá log 17 2.2.3. Kĩ thuật áp dụng máy tìm kiếm độ tương đồng từ 18 2.3. Gán từ khóa trong văn bản, web (keyword assignment) 19 2.4 Tổng kết chương 19 Chương 3. Hướng giải quyết đề xuất mơ hình bài tốn 20 3.1. Hướng giải quyết 20 3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML 20 3.1.2. Sử dụng đồ thị web 23 3.1.2.1. Định nghĩa đồ thị Web 23 3.1.2.2 Nội dung của phương pháp 24 3.1.3. Sử dụng query log 26 3.1.4. Sử dụng từ điển hỗ trợ 27 3.2. Đề xuất mơ hình bài tốn 27 3.2.1. Mơ hình tồn hệ thống .27 3.2.2. Mơ đun Crawler .28 iii 3.2.3. Mô đun sinh từ khóa 29 3.2.3.1. Mô đun sử dụng trọng số thẻ HTML 30 3.2.3.2. Mô đun sử dụng đồ thị web .32 3.2.3.3. Các phương pháp hỗ trợ 33 3.2.3.4. Mô đun tổng hợp .35 3.3. Tổng kết chương .35 Chương 4. Thực nghiệm đánh giá .36 4.1. Giới thiệu bài toán thực nghiệm .36 4.2. Môi trường, dữ liệu .36 4.1.1. Môi trường phần cứng 36 4.1.2. Mô tả chương trình .36 4.1.3. Công cụ phần mềm .37 4.1.4. Dữ liệu thử nghiệm 38 4.3. Kết quả thực nghiệm .40 4.4. Đánh giá kết quả thực nghiệm 45 Kết luận 46 Hướng phát triển tiếp theo .47 Tài liệu tham khảo .48 iv Bảng các kí hiệu chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language IR Information Retrieval SE Search Engine SEM Search Engine Marketing SEO Search Engine Optimization TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator W3C World Wide Web Consortium WWW World Wide Web v Danh mục hình vẽ Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm .9 Hình 2. Top từ khóa của baomoi.com .10 Hình 3. Top từ khóa của flickr.com .10 Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com11 Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com 17 Hình 6. Mô tả đồ thị web .25 Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa .25 Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình 9. Mô hình đề xuất cho toàn hệ thống 28 Hình 10. Mô hình mô đun sinh từ khóa .30 Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML .32 Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 33 Hình 13. Mô hình mô đun sinh từ khóa dựa trên log 34 Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 35 Hình 15. Mô hình mô đun tổng hợp từ khóa .36 Hình 16. Thư mục Tiếng_Việt của dmoz .38 Hình 17. Các liên kết cần lấy về trong các thư mục 39 vi Danh mục các bảng biểu Bảng 1. Bảng trọng số các thẻ HTML trongTextNet .21 Bảng 2. Bảng các thẻ HTML quan trọng khác 22 Bảng 3. Ví dụ về các trường trong querylog của MSN .26 Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán .36 Bảng 5. Các gói của chương trình 36 Bảng 6. Các lớp của gói general .37 Bảng 7. Các lớp của gói methods 37 Bảng 8. Các lớp của gói SELink 37 Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 38 Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh .40 Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử .44 1 MỞ ĐẦU Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp nhiều. Cùng với sự tăng trưởng phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu vẫn sử dụng những từ khoá tìm những trang có chứa từ khoá cho ra kết quả phù hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động lực để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web. Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com . đã áp dụng việc sinh từ khóa cho các trang này để người đọc, người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm. Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng. Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. [...]... những từ khoá mà ngay cả chủ trang webthể thiếu xót Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt tiếng Anh qua đề tài Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML đồ thị Web Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích. .. là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29] Chính những sự áp dụng rộng rãi nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính... chuỗi từ vựng (lexical chain), áp dụng từ điển WordNet bài toán phân lớp để giải quyết bài toán sinh từ khóa này 2.1.3.1 Trích xuất từ khóa sử dụng phân lớp Naïve Bayes Trong bài báo [28]Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào bài toán này Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy Có các từ ở trong văn bản mục đích là nhận ra một từ có phải thuộc lớp từ khóa( ... tôi trong khóa luận đó là: sử dụng độ quan trọng của các thẻ trong HTML đồ thị web Hai hướng này là chủ đạo có thể áp dụng với các loại trang web tiếng Việt tiếng Anh Tuy nhiên, phương pháp đồ thị web do phải xử lý nhiều nên phù hợp hơn với các trang chủ, các web portal Bên cạnh hai phương pháp trên, tôi còn ứng dụng thêm hai phương pháp đó là : query log, từ điển (bài toán gán từ khóa) Do... của các từ, cụm từ áp dụng kĩ thuật n-gram Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn cụm từ khoá bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web Phương pháp tìm từ khóa trang web này chỉ dừng lại ở việc tìm từ khóa đơn kép, tính tần số của nó trên chính trang đó, cho nên... đó có một phương pháp cũng đã được sử dụng nhiều trong trang web, cả văn bản đóphương pháp gán từ khóa Việc gán từ khóa chỉ là việc khớp các từ trong văn bản, web với các từ thuộc bộ từ điển có sẵn Từ những trang cần sinh từ khóa, ta lấy ra những đoạn text trong trang web đó Dùng các kĩ thuật tách từ, n-gram để khớp các từ khóa với các từ trong bộ từ điển có sẵn Giải pháp này được áp dụng nhiều... sinh ra từ văn bản Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồng nghĩa :10; quan hệ is a: 7 quan hệ has a: 4 2.2 Các phương pháp trích xuất từ khóa cho trang web 2.2.1 Tần số từ Phương pháp tần số từ trong văn bản có thể được áp dụng trên các trang web Việc lấy ra nội dung của văn bản trong các trang web là đơn giản phương pháp phân tích nội dung này, thống kê tần số xuất hiện... Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán trích xuất từ khóa cho văn bản Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương đồng từ khóa, các kĩ thuật khác trong bài toán tóm tắt văn bản Sau đây là phần giới thiệu một số phương pháp 2.1.1 Phương pháp tần... văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa Trước hết, áp dụng phương pháp này vào bài toán trích xuất từ khóa là việc lấy nội dung nội tại của trang web về để xử lý - hay văn bản HTML của chính trang cần trích xuất Như đã nhắc về các công trình liên quan tại chương II [25][13], tần số từ (TF)... Tập các từ khóathể coi như là một bản tóm tắt đơn giản nhất của văn bản[25] Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang web đó Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng, tập các từ, hay cụm từ có ý nghĩa các từ này có thể đại diện cho trang web đó[24][29] Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay . trang web tiếng Việt và tiếng Anh qua đề tài Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web . Mục tiêu của. CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP

Ngày đăng: 18/01/2013, 11:51

Hình ảnh liên quan

Bảng các kí hiệu và chữ viết tắt - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Bảng c.

ác kí hiệu và chữ viết tắt Xem tại trang 7 của tài liệu.
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Hình 1..

Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm Xem tại trang 18 của tài liệu.
cho thơng tin giống với nội dung trang đang xem. Ví dụ như trong Hình 2, Hình 3 là những từ khố hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh) - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

cho.

thơng tin giống với nội dung trang đang xem. Ví dụ như trong Hình 2, Hình 3 là những từ khố hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh) Xem tại trang 19 của tài liệu.
Hình 4. Từ khĩa được trích xuất từ phần tĩm tắt bài báo của trang web baomoi.com - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Hình 4..

Từ khĩa được trích xuất từ phần tĩm tắt bài báo của trang web baomoi.com Xem tại trang 20 của tài liệu.
Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khố đơn và cụm từ khố bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

oskison.

LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khố đơn và cụm từ khố bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web Xem tại trang 26 của tài liệu.
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Bảng 1..

Bảng trọng số các thẻ HTML trongTextNet Xem tại trang 30 của tài liệu.
Bảng 2. Bảng các thẻ HTML quan trọng khác - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Bảng 2..

Bảng các thẻ HTML quan trọng khác Xem tại trang 31 của tài liệu.
Hình 6. Mơ tả đồ thị web - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Hình 6..

Mơ tả đồ thị web Xem tại trang 33 của tài liệu.
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khĩa - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Hình 7..

Phần hiển thị của các liên kết đến các trang cần trích xuất từ khĩa Xem tại trang 34 của tài liệu.
Bảng 3. Ví dụ về các trường trong querylog của MSN - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Bảng 3..

Ví dụ về các trường trong querylog của MSN Xem tại trang 35 của tài liệu.
3.2. Đề xuất mơ hình bài tốn - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

3.2..

Đề xuất mơ hình bài tốn Xem tại trang 36 của tài liệu.
Hình 10. Mơ hình mơđun sinh từ khĩa - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Hình 10..

Mơ hình mơđun sinh từ khĩa Xem tại trang 38 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

h.

ình chi tiết: Xem tại trang 40 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

h.

ình chi tiết: Xem tại trang 41 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

h.

ình chi tiết: Xem tại trang 42 của tài liệu.
- Mơ hình chi tiết - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

h.

ình chi tiết Xem tại trang 43 của tài liệu.
- Mơ hình chi tiết: - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

h.

ình chi tiết: Xem tại trang 44 của tài liệu.
Bài tốn được thực nghiệm trên máy cĩ cấu hình như sau: - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

i.

tốn được thực nghiệm trên máy cĩ cấu hình như sau: Xem tại trang 45 của tài liệu.
Bảng 6. Các lớp của gĩi general - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Bảng 6..

Các lớp của gĩi general Xem tại trang 46 của tài liệu.
Hình 16. Thư mục Tiếng_Việt của dmoz - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Hình 16..

Thư mục Tiếng_Việt của dmoz Xem tại trang 47 của tài liệu.
Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

Bảng 9..

Danh sách các phần mềm, mã nguồn sử dụng Xem tại trang 47 của tài liệu.
Áp dụng quy trình được code theo mơ hìn hở “3.2. Đề xuất mơ hình bài tốn”. - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

p.

dụng quy trình được code theo mơ hìn hở “3.2. Đề xuất mơ hình bài tốn” Xem tại trang 49 của tài liệu.
Qua bảng thực nghiệm, từ khĩa sinh ra đối với trang web tiếng Việt ít hơn, và đơi chỗ cĩ những từ khơng dấu - Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web

ua.

bảng thực nghiệm, từ khĩa sinh ra đối với trang web tiếng Việt ít hơn, và đơi chỗ cĩ những từ khơng dấu Xem tại trang 52 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan