Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải quyết của tác giả, đề xuất mô hình có thể thực thi
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin Cán bộ hướng dẫn:Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn:CN. Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn !"#$%& '! ()*+,-&./0120345.6 7805&379 ":5("50-1;"033 <=4*-0>8?4@5AB0= &9C*. 5*$5;0DE*>8* 951B7-7.F9G045.**?80*= 805&379 5;09HIJ'KHIJ'%-CL8" 8M0345.=&9; +3N":>;3O$B; ;L0345.67805&379 %!L"PQ5JI<QJJR S+ Chu Anh Minh TÓM TẮT NỘI DUNG MTU8050*VEL05WLC*05MT U8050L< X?*0DL050073M TYZ[0*0\EE*] 0><4*05"-^> &94*>W5L$43 5" _05MTU 8050*VE78^9B*MTU8D*0<L1* VE78*9555U80516*5`TFC*aE b" ,T>85c^591d0T>e685*f 4505".89d5*VEg^.8g^^@ 1N 0805&379"5->T.4"05 16*059959fđộ quan trọng các thẻ HTMLđồ thị web !0*5 9959g^khai phá log từ điển hỗ trợ ,^."h *0T^U8D* HD*&-591dL3>1B7dAC*5 *VE+7K08484* MỤC LỤC Chu Anh Minh i %i!jZkQJJR Chu Anh Minh .ii TÓM TẮT NỘI DUNG i MỤC LỤC ii Bảng các kí hiệu và chữ viết tắt .iv Danh mục hình vẽ v Danh mục các bảng biểu vi MỞ ĐẦU .1 Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 3 P P b`T> l P Q H575`C*U8D* m P l b555U8D* m P m 5?C*05U8D*0*VE I P m P b35*DL1&9 n P m Q b35*DL1o^9 n P m l '5T>85 n P I p1dC*U8D*05e6 q P I P +*U8D*05".8 q P I P P r505".8 q P I P Q %0;L45VE05".8 R P I l +*U8D*05*VEo^9 PJ P n o8 PQ Chương 2. Các công trình liên quan .13 Q P '59959MTU8D*0< Pl Q P P s959(3U Pl Q P Q s9591d5850< Pm Q P l s9591d=5" PI Q P l P MTU8D*1d99!*tE_*"E Pn Q P l Q MTU8D*1dE**YgU6]99 Pn Q Q '59959MTU8D*0*VE Pq Q Q P (3U Pq Q Q Q He&8*950 Pq Q Q l He&591d5".8LuU Pv Q l w5U8D*0<VEY8E"V01*E] Pv Q mo8 PR Chương 3. Hướng giải quyết và đề xuất mô hình bài toán .20 l P %4" QJ l P P S1dL4*=C*5c0%)x QJ l P Q S1du$VE Ql l P Q P b$e*u$aE Ql l P Q Q !L1C*9959 Qm l P l S1d4E"0 Qn l P m S1dUAg^ Qq l Q b>T.05 Qq l Q P ).073 Qq l Q Q )'*VE Qv l Q l )U8D* QR l Q l P )1d=3c%)x QR l Q l Q )1du$VE lQ l Q l l '59959g^ ll l Q l m )o^9 lI l l o8 lI Chương 4. Thực nghiệm và đánh giá .36 m P w70567 ln m Q )1B7f ln m P P )9(? ln m P Q ). ln m P l 'd9(> lq m P m yB77 lv m l H467f mJ m m b558467 mm Kết luận .46 Hướng phát triển tiếp theo 47 Tài liệu tham khảo .48 Bảng các kí hiệu và chữ viết tắt Kí hiệu Diễn giải %)x %"9EE)*89x**E Z\ Z[0*0\EE* Sz SE*zE Sz) SE*zE)*8E Sz{ SE*zE{9|*0 } E}E4E" Zy} ZEEy0E}E4E" ~\x ~[0\E0Ex0*0 al' a01a1EaE'00 aaa a01a1EaE Danh mục hình vẽ Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 8 Hình 2. Top từ khóa của baomoi.com 10 Hình 3. Top từ khóa của flickr.com 10 Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com .11 Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com .17 Hình 6. Mô tả đồ thị web .24 Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25 Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình 9. Mô hình đề xuất cho toàn hệ thống .27 Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML .31 Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 32 Hình 12. Mô hình mô đun sinh từ khóa dựa trên log 33 Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 34 Hình 14. Mô hình mô đun tổng hợp từ khóa .35 Hình 15. Thư mục Tiếng_Việt của dmoz 38 Hình 16.Các liên kết cần lấy về trong các thư mục .39 Danh mục các bảng biểu Bảng 1. Bảng trọng số các thẻ HTML trongTextNet 21 Bảng 2. Bảng các thẻ HTML quan trọng khác 22 Bảng 3. Ví dụ về các trường trong querylog của MSN .26 Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán .36 Bảng 5. Các gói của chương trình .36 Bảng 6. Các lớp của gói general 37 Bảng 7. Các lớp của gói methods 37 Bảng 8. Các lớp của gói SELink .37 Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 37 Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh .40 Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử .44 MỞ ĐẦU 0B<("6NoC*ZEE`7a01a1E aEk=aEk"&9*1;D6N`9 > 'N6<W9o&9C*ZEE.7450; C*510*79,<*0 S6*C*5".8-9(04" ^T>&9C*5*VE '55".8C"2 1dBU805.B*D?*U8050*849N^9 +71d5".8d450-WL0B<(" !5*VEDL1^>4*;N`9>U805 >0510*793quảng cáo trên máy tìm kiếm9;* 510*7985DU8D*ND bDML05L6 A95A05MTU8050*VE !7d05`*( .^L&95U805*005U805"95L1C** VE )LL685005MTU8D*05*VE^ 64*C*>10*79DM7phân loại các tài liệuVE 05d9T97.805dD,1#1 \T > 5 * VE 50 85 * 5 0 f E*0 *00 0 [8 0E*" 0 -591d7U8D*05*"A= EDA7E01•1#135*50*"59€85 D4* '5U8D*F9*06^@01N HB BU8D*^.8>T0LA95^9(0 C*1NF91ND5.o4*>5T>* ^4* )LT>4*=88•D695AC*VE.B €VE^F= 0D5*VE(DB9(7 o4*5U805A55".85d85DA5&1#1 !D^A705*VE5c‚E*ƒ0-%)x !D„F9 0máy tìm kiếm làm việc tốt hơn5.85DA9&*VE3 b*35*VE7*">U805L5C !D„85 743B10*79D3^*VE: '355". 85*D><VE.7sinh tự độngT4*= !DU* P [...]... những từ khoá mà ngay cả chủ trang web có thể thiếu xót Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích. .. của các từ, cụm từ áp dụng kĩ thuật n-gram Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn và cụm từ khoá bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web Phương pháp tìm từ khóa trang web này chỉ dừng lại ở việc tìm từ khóa đơn và kép, tính tần số của nó trên chính trang đó, cho nên... sinh ra từ 16 văn bản Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồng nghĩa : 10; quan hệ is a: 7 quan hệ has a: 4 2.2 Các phương pháp trích xuất từ khóa cho trang web 2.2.1 Tần số từ Phương pháp tần số từ trong văn bản có thể được áp dụng trên các trang web Việc lấy ra nội dung của văn bản trong các trang web là đơn giản Và phương pháp phân tích nội dung này, thống kê tần số xuất. .. chuỗi từ vựng (lexical chain), áp dụng từ điển WordNet và bài toán phân lớp để giải quyết bài toán sinh từ khóa này 15 2.1.3.1 Trích xuất từ khóa sử dụng phân lớp Naïve Bayes Trong bài báo [28]Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào bài toán này Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy Có các từ ở trong văn bản và mục đích là nhận ra một từ có phải thuộc lớp từ khóa(... Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán trích xuất từ khóa cho văn bản Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương đồng từ khóa, các kĩ thuật khác trong bài toán tóm tắt văn bản Sau đây là phần giới thiệu một số phương pháp 2.1.1 Phương pháp tần... với thẻ hoặc dùng các thẻ , để có thể phân biệt được với các chữ khác Hay các thẻ như trong văn bản web có chứa tiêu đề của trang web đó Nhờ những đặc điểm sẵn có là HTML trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa Trước hết, áp dụng phương pháp này vào bài toán trích xuất. .. là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29] Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính... sử dụng mối quan hệ của query và các url click vào trong log [16] Tuy nhiên những từ khóa gợi ý sẽ là những từ khóa xuất hiện nhiều trong log, thường có độ phổ biến cao và quan trọng do đó từ khóa này sẽ có giá cao 2.2.3 Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ Bài báo [25][17] sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để áp dụng cho bài toán tìm từ khóa cho trang web Phương pháp đã... nội dung trang dựa trên thẻ HTML và đồ thị web Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ Với từng loại trang web sẽ có từng loại phương pháp khác nhau Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển... Tập các từ khóa có thể coi như là một bản tóm tắt đơn giản nhất của văn bản[25] Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang web đó Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng, tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web đó[24] [29] Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay . BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT. CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC