1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB

59 586 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 910,5 KB

Nội dung

Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải quyết của tác giả, đề xuất mô hình có thể thực thi

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin  HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin  Cán bộ hướng dẫn:Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn:CN. Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn  !"#$%& '! ()*+,-&./0120345.6 7805&379 ":5("50-1;"033 <=4*-0>8?4@5AB0= &9C*. 5*$5;0DE*>8* 951B7-7.F9G045.**?80*= 805&379 5;09HIJ'KHIJ'%-CL8" 8M0345.=&9; +3N":>;3O$B; ;L0345.67805&379 %!L"PQ5JI<QJJR S+ Chu Anh Minh TÓM TẮT NỘI DUNG MTU8050*VEL05WLC*05MT U8050L< X?*0DL050073M TYZ[0*0\EE*] 0><4*05"-^> &94*>W5L$43 5" _05MTU 8050*VE78^9B*MTU8D*0<L1* VE78*9555U80516*5`TFC*aE b" ,T>85c^591d0T>e685*f 4505".89d5*VEg^.8g^^@ 1N 0805&379"5->T.4"05 16*059959fđộ quan trọng các thẻ HTMLđồ thị web !0*5 9959g^khai phá log từ điển hỗ trợ ,^."h *0T^U8D* HD*&-591dL3>1B7dAC*5 *VE+7K08484*  MỤC LỤC Chu Anh Minh i %i!jZkQJJR  Chu Anh Minh .ii TÓM TẮT NỘI DUNG i MỤC LỤC ii Bảng các kí hiệu chữ viết tắt .iv Danh mục hình vẽ v Danh mục các bảng biểu vi MỞ ĐẦU .1 Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 3 P P b`T> l P Q H575`C*U8D* m P l b555U8D* m P m 5?C*05U8D*0*VE I P m P b35*DL1&9 n P m Q b35*DL1o^9 n P m l '5T>85 n P I p1dC*U8D*05e6 q P I P +*U8D*05".8 q P I P P r505".8 q P I P Q %0;L45VE05".8 R P I l +*U8D*05*VEo^9 PJ P n o8 PQ Chương 2. Các công trình liên quan .13 Q P '59959MTU8D*0< Pl Q P P s959(3U Pl Q P Q s9591d5850< Pm Q P l s9591d=5" PI Q P l P MTU8D*1d99!*tE_*"E Pn Q P l Q MTU8D*1dE**YgU6]99 Pn Q Q '59959MTU8D*0*VE Pq Q Q P (3U Pq Q Q Q He&8*950 Pq Q Q l He&591d5".8LuU Pv Q l w5U8D*0<VEY8E"V01*E] Pv Q mo8 PR Chương 3. Hướng giải quyết đề xuất mô hình bài toán .20 l P %4" QJ l P P S1dL4*=C*5c0%)x QJ l P Q S1du$VE Ql l P Q P b$e*u$aE Ql l P Q Q !L1C*9959 Qm l P l S1d4E"0 Qn  l P m S1dUAg^ Qq l Q b>T.05 Qq l Q P ).073 Qq l Q Q )'*VE Qv l Q l )U8D* QR l Q l P )1d=3c%)x QR l Q l Q )1du$VE lQ l Q l l '59959g^ ll l Q l m )o^9 lI l l o8 lI Chương 4. Thực nghiệm đánh giá .36 m P w70567 ln m Q )1B7f ln m P P )9(? ln m P Q ). ln m P l 'd9(> lq m P m yB77 lv m l H467f mJ m m b558467 mm Kết luận .46 Hướng phát triển tiếp theo 47 Tài liệu tham khảo .48  Bảng các kí hiệu chữ viết tắt Kí hiệu Diễn giải %)x %"9EE)*89x**E Z\ Z[0*0\EE* Sz SE*zE Sz) SE*zE)*8E Sz{ SE*zE{9|*0 } E}E4E" Zy} ZEEy0E}E4E" ~\x ~[0\E0Ex0*0 al' a01a1EaE'00 aaa a01a1EaE  Danh mục hình vẽ Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 8 Hình 2. Top từ khóa của baomoi.com 10 Hình 3. Top từ khóa của flickr.com 10 Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com .11 Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com .17 Hình 6. Mô tả đồ thị web .24 Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25 Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình 9. Mô hình đề xuất cho toàn hệ thống .27 Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML .31 Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 32 Hình 12. Mô hình mô đun sinh từ khóa dựa trên log 33 Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 34 Hình 14. Mô hình mô đun tổng hợp từ khóa .35 Hình 15. Thư mục Tiếng_Việt của dmoz 38 Hình 16.Các liên kết cần lấy về trong các thư mục .39  Danh mục các bảng biểu Bảng 1. Bảng trọng số các thẻ HTML trongTextNet 21 Bảng 2. Bảng các thẻ HTML quan trọng khác 22 Bảng 3. Ví dụ về các trường trong querylog của MSN .26 Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán .36 Bảng 5. Các gói của chương trình .36 Bảng 6. Các lớp của gói general 37 Bảng 7. Các lớp của gói methods 37 Bảng 8. Các lớp của gói SELink .37 Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 37 Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh .40 Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử .44  MỞ ĐẦU 0B<("6NoC*ZEE`7a01a1E aEk=aEk"&9*1;D6N`9 > 'N6<W9o&9C*ZEE.7450; C*510*79,<*0 S6*C*5".8-9(04" ^T>&9C*5*VE '55".8C"2 1dBU805.B*D?*U8050*849N^9 +71d5".8d450-WL0B<(" !5*VEDL1^>4*;N`9>U805 >0510*793quảng cáo trên máy tìm kiếm9;* 510*7985DU8D*ND bDML05L6 A95A05MTU8050*VE !7d05`*( .^L&95U805*005U805"95L1C** VE )LL685005MTU8D*05*VE^ 64*C*>10*79DM7phân loại các tài liệuVE 05d9T97.805dD,1#1 \T > 5 * VE 50 85 * 5 0 f E*0  *00 0 [8 0E*" 0 -591d7U8D*05*"A= EDA7E01•1#135*50*"59€85 D4* '5U8D*F9*06^@01N HB BU8D*^.8>T0LA95^9(0 C*1NF91ND5.o4*>5T>* ^4* )LT>4*=88•D695AC*VE.B €VE^F= 0D5*VE(DB9(7 o4*5U805A55".85d85DA5&1#1 !D^A705*VE5c‚E*ƒ0-%)x !D„F9 0máy tìm kiếm làm việc tốt hơn5.85DA9&*VE3  b*35*VE7*">U805L5C !D„85 743B10*79D3^*VE: '355". 85*D><VE.7sinh tự độngT4*= !DU* P [...]... những từ khoá mà ngay cả chủ trang webthể thiếu xót Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt tiếng Anh qua đề tài Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML đồ thị Web Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích. .. của các từ, cụm từ áp dụng kĩ thuật n-gram Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn cụm từ khoá bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web Phương pháp tìm từ khóa trang web này chỉ dừng lại ở việc tìm từ khóa đơn kép, tính tần số của nó trên chính trang đó, cho nên... sinh ra từ 16 văn bản Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồng nghĩa : 10; quan hệ is a: 7 quan hệ has a: 4 2.2 Các phương pháp trích xuất từ khóa cho trang web 2.2.1 Tần số từ Phương pháp tần số từ trong văn bản có thể được áp dụng trên các trang web Việc lấy ra nội dung của văn bản trong các trang web là đơn giản phương pháp phân tích nội dung này, thống kê tần số xuất. .. chuỗi từ vựng (lexical chain), áp dụng từ điển WordNet bài toán phân lớp để giải quyết bài toán sinh từ khóa này 15 2.1.3.1 Trích xuất từ khóa sử dụng phân lớp Naïve Bayes Trong bài báo [28]Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào bài toán này Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy Có các từ ở trong văn bản mục đích là nhận ra một từ có phải thuộc lớp từ khóa(... Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán trích xuất từ khóa cho văn bản Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương đồng từ khóa, các kĩ thuật khác trong bài toán tóm tắt văn bản Sau đây là phần giới thiệu một số phương pháp 2.1.1 Phương pháp tần... với thẻ hoặc dùng các thẻ , để có thể phân biệt được với các chữ khác Hay các thẻ như trong văn bản web có chứa tiêu đề của trang web đó Nhờ những đặc điểm sẵn có là HTML trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa Trước hết, áp dụng phương pháp này vào bài toán trích xuất. .. là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29] Chính những sự áp dụng rộng rãi nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính... sử dụng mối quan hệ của query các url click vào trong log [16] Tuy nhiên những từ khóa gợi ý sẽ là những từ khóa xuất hiện nhiều trong log, thường có độ phổ biến cao quan trọng do đó từ khóa này sẽ có giá cao 2.2.3 Kĩ thuật áp dụng máy tìm kiếm độ tương đồng từ Bài báo [25][17] sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để áp dụng cho bài toán tìm từ khóa cho trang web Phương pháp đã... nội dung trang dựa trên thẻ HTML đồ thị web Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log dùng từ điển hỗ trợ Với từng loại trang web sẽ có từng loại phương pháp khác nhau Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan có triển... Tập các từ khóathể coi như là một bản tóm tắt đơn giản nhất của văn bản[25] Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang web đó Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng, tập các từ, hay cụm từ có ý nghĩa các từ này có thể đại diện cho trang web đó[24] [29] Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay . BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT. CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC

Ngày đăng: 24/04/2013, 16:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[41] Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text Processing Toolkit” Sách, tạp chí
Tiêu đề: JvnTextPro: A Java-based VietNamese Text ProcessingToolkit
[3] Website: http://vi.wikipedia.org/wiki/ HTML [4] SEO http://vi.wikipedia.org/wiki/SEO/Tiếng Anh Link
[6] Craven, T. (1998b). TexNet32 - WWW filters. In Texnet32. Retreived from http://instruct.uwo.ca/gplis/677/texnet32/wwwnet32.htm Link
[31] Google Adwords http://adword.google.com [32] Overture http://searchmaketing.yahoo.com Link
[36] Website: http://searchengineguide.com [37] Website: http://webmasterworld.com [38] WordNet http://wordnet.princenton.edu Công cụ và dữ liệu sử dụng Link
[43] Website: http://vietbao.vn [44] Website: http://baomoi.com [45] Website: http://google.com Link
[1] Phạm Thị Thu Uyên, Hoàng Minh Hiền (2008). Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản Tiếng Việt, Công trình Sinh viên Nghiên cứu khoa học 03/2008 Khác
[5] Chengzhi ZHANG , Huilin WANG , Yao LIU , Dan WU , Yi LIAO , Bo WANG.Automatic Keyword Extraction from Documents Using Conditional Random Fields. China. Journal of Computational Information Systems4:3(2008) 1169-1180 Khác
[7] Craven, Timothy C. HTML Tags as Extraction Cues for Web Page Description Construction. Informing Science; 2003, Vol. 6, p1-12, 12p Khác
[8] David B. Bracewell, JiajunYan and Fuji Ren.Single Document Keyword Extraction For Internet News Articles. International Journal of Innovative Computing, Information and Control Volume 4,Number 4,April 2008 Khác
[9] E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning.Domain-specific keyphrase extraction. In IJCAI, pages 668--673, 1999 Khác
[10] E. Spertus. ParaSite: Mining structural informationon the Web. Proc. 6th WWW Conf. , 1997 Khác
[11] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword Extraction. Inf.Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714 Khác
[12] H.Edmundson(1969). New methods in automatic abstracting, Journal of ACM.1969 Khác
[13] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal of research development Khác
[14] J. Carri ere and R. Kazman. WebQuery: Searching and visualizing the Web through connectivity. Proc. 6 th WWW Conf. , 1997 Khác
[15] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the ACM , 1999, to appear. Also appears as IBM Research Report RJ 10076 91892 May 1997 Khác
[16] K. Bartz, V. Murthi, and S. Sebastian. Logistic regression and collaborative filtering for sponsoreed search term recommendation. In Second Workshop on Sponsored Search Auctions, 2006 Khác
[17] M. Sahami and T. Heilman. A web-based kernel function for matching short text snippets. In International Conference on Machine Learning, 2005 Khác
[18] Mori Junichiro, Matsuo Yutaka, Ishizuka Mitsuru, Faltings Boi. Keyword extraction from the Web for Personal Metadata Annotation.Proceedings of the4th International Workshop on Knowledge Markup and Semantic Annotation, (ISWC2004) (2004), pp. 51-60 Khác

HÌNH ẢNH LIÊN QUAN

Bảng các kí hiệu và chữ viết tắt - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng c ác kí hiệu và chữ viết tắt (Trang 7)
Bảng các kí hiệu và chữ viết tắt - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng c ác kí hiệu và chữ viết tắt (Trang 7)
làm 2 phần như hình Hình 1, một phần là kết quả trả về chính xác mà máy tìm kiếm tìm thấy trong hệ thống các trang web đã crawl về, một phần là phần dành cho các trang web cĩ tài trợ - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
l àm 2 phần như hình Hình 1, một phần là kết quả trả về chính xác mà máy tìm kiếm tìm thấy trong hệ thống các trang web đã crawl về, một phần là phần dành cho các trang web cĩ tài trợ (Trang 17)
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm (Trang 17)
cho thơng tin giống với nội dung trang đang xem. Ví dụ như trong Hình 2, Hình 3 là những từ khố hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh) - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
cho thơng tin giống với nội dung trang đang xem. Ví dụ như trong Hình 2, Hình 3 là những từ khố hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh) (Trang 19)
Hình 2. Top từ khóa của baomoi.com Hình 3. Top từ khóa của flickr.com - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 2. Top từ khóa của baomoi.com Hình 3. Top từ khóa của flickr.com (Trang 19)
Hình 4. Từ khĩa được trích xuất từ phần tĩm tắt bài báo của trang web baomoi.com - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 4. Từ khĩa được trích xuất từ phần tĩm tắt bài báo của trang web baomoi.com (Trang 20)
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com (Trang 20)
Hình 5. Hình minh họa kết quả sinh từ khĩa của trang web http://seokeywordanalysis.com - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 5. Hình minh họa kết quả sinh từ khĩa của trang web http://seokeywordanalysis.com (Trang 26)
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com (Trang 26)
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet (Trang 30)
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet (Trang 30)
Bảng 2. Bảng các thẻ HTML quan trọng khác - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 2. Bảng các thẻ HTML quan trọng khác (Trang 31)
Bảng 2. Bảng các thẻ HTML quan trọng khác - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 2. Bảng các thẻ HTML quan trọng khác (Trang 31)
Hình 6. Mơ tả đồ thị web - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 6. Mơ tả đồ thị web (Trang 33)
Đồ thị web có rất nhiều ứng dụng trong việc khai phá web, là cơ sở để các máy tìm kiếm đánh hạng trang (thuật toán HITS), phân tích hành vi người dùng, hỗ trợ bài toán crawling... - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
th ị web có rất nhiều ứng dụng trong việc khai phá web, là cơ sở để các máy tìm kiếm đánh hạng trang (thuật toán HITS), phân tích hành vi người dùng, hỗ trợ bài toán crawling (Trang 33)
Bảng 3. Ví dụ về các trường trong querylog của MSN - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 3. Ví dụ về các trường trong querylog của MSN (Trang 35)
Bảng 3. Ví dụ về các trường trong querylog của MSN - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 3. Ví dụ về các trường trong querylog của MSN (Trang 35)
3.2. Đề xuất mơ hình bài tốn - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
3.2. Đề xuất mơ hình bài tốn (Trang 36)
Hình 9. Mô hình đề xuất cho toàn hệ thống - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 9. Mô hình đề xuất cho toàn hệ thống (Trang 36)
Hình 10. Mơ hình mơđun sinh từ khĩa - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 10. Mơ hình mơđun sinh từ khĩa (Trang 38)
Đồ thị web - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
th ị web (Trang 38)
- Mơ hình chi tiết: - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
h ình chi tiết: (Trang 40)
Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML (Trang 40)
- Mơ hình chi tiết: - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
h ình chi tiết: (Trang 41)
Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web (Trang 41)
- Mơ hình chi tiết: - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
h ình chi tiết: (Trang 42)
Hình 12. Mô hình mô đun sinh từ khóa dựa trên log - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 12. Mô hình mô đun sinh từ khóa dựa trên log (Trang 42)
- Mơ hình chi tiết - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
h ình chi tiết (Trang 43)
Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ (Trang 43)
- Mơ hình chi tiết: - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
h ình chi tiết: (Trang 44)
Hình 14. Mô hình mô đun tổng hợp từ khóa - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 14. Mô hình mô đun tổng hợp từ khóa (Trang 44)
Bài tốn được thực nghiệm trên máy cĩ cấu hình như sau: - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
i tốn được thực nghiệm trên máy cĩ cấu hình như sau: (Trang 45)
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán (Trang 45)
Dictionary Tải từ điển cĩ sẵn qua file cấu hình, lưu trữ các từ HTML TagMiêu tả các thẻ trong HTML - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
ictionary Tải từ điển cĩ sẵn qua file cấu hình, lưu trữ các từ HTML TagMiêu tả các thẻ trong HTML (Trang 46)
Bảng 7. Các lớp của gói methods - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 7. Các lớp của gói methods (Trang 46)
Hình 15. Thư mục Tiếng_Việt của dmoz - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 15. Thư mục Tiếng_Việt của dmoz (Trang 47)
Hình 15. Thư mục Tiếng_Việt của dmoz - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Hình 15. Thư mục Tiếng_Việt của dmoz (Trang 47)
Áp dụng quy trình được code theo mơ hìn hở “3.2. Đề xuất mơ hình bài tốn”. Tập từ khĩa sinh ra được lưu trong các file text - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
p dụng quy trình được code theo mơ hìn hở “3.2. Đề xuất mơ hình bài tốn”. Tập từ khĩa sinh ra được lưu trong các file text (Trang 49)
Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
Bảng 10. Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh (Trang 49)
Qua bảng thực nghiệm, từ khĩa sinh ra đối với trang web tiếng Việt ít hơn, và đơi chỗ cĩ những từ khơng dấu - BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB
ua bảng thực nghiệm, từ khĩa sinh ra đối với trang web tiếng Việt ít hơn, và đơi chỗ cĩ những từ khơng dấu (Trang 52)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w