Tài liệu tham khảo công nghệ thông tin Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Anh Minh
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Anh Minh
BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANGWEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
Trang 3Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu vàCN Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thựchiện khoá luận tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốnnăm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường họctập của mình.
Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khaiphá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học vàlàm khoá luận tốt nghiệp.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộkhuyến khích tôi trong suốt quá trình học tập tại trường.
Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, và những ngườibạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốtnghiệp.
Hà Nội, ngày 12 tháng 05 năm 2009Sinh Viên
Chu Anh Minh
Trang 4TÓM TẮT NỘI DUNG
Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán tríchxuất từ khoá cho một văn bản Ở mức cao hơn, nó là một bài toán con trong hệ thốngtrích xuất thông tin (Information Retrieval) Trong nhiều năm qua, bài toán này đã
được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn Bài toán trích
xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nộidung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc củaWeb Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khácnhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗtrợ gợi ý người dùng
Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán
trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web Ngoài ra, cácphương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng
cao chất lượng từ khóa Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của cáctrang web tiếng Việt, tiếng Anh và cho kết quả khả quan.
Trang 51.4 Thách thức của bài tốn sinh từ khĩa cho trang web 5
1.4.1 Đối với các trang cĩ nội dung tập trung 6
1.4.2 Đối với các trang cĩ nội dung tổng hợp 6
1.4.3 Các vấn đề khác 6
1.5 Ứng dụng của từ khĩa trong các lĩnh vực 7
1.5.1 Vai trị từ khĩa trong máy tìm kiếm 7
1.5.1.1 Quảng cáo trên máy tìm kiếm 7
1.5.1.2 Hoạt động quảng bá web trong máy tìm kiếm 9
1.5.3 Vai trị từ khĩa trong các trang web tổng hợp thơng tin 10
1.6 Tổng kết chương 12
Chương 2 Các cơng trình liên quan 13
2.1 Các phương pháp trích xuất từ khĩa cho văn bản 13
2.1.1 Phương pháp tần số từ 13
2.1.2 Phương pháp sử dụng các thơng tin khác trong văn bản 14
2.1.3 Phương pháp sử dụng học máy 15
2.1.3.1 Trích xuất từ khĩa sử dụng phân lớp Nạve Bayes 16
2.1.3.2 Trích xuất từ khĩa sử dụng lexical chain (chuỗi từ vựng) và phân lớp 162.2 Các phương pháp trích xuất từ khĩa cho trang web 17
2.2.1 Tần số từ 17
2.2.2 Kĩ thuật khai phá log 17
2.2.3 Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ 18
2.3 Gán từ khĩa trong văn bản, web (keyword assignment) 19
2.4 Tổng kết chương 19
Chương 3 Hướng giải quyết và đề xuất mơ hình bài tốn 20
3.1 Hướng giải quyết 20
3.1.1 Sử dụng độ quan trọng của các thẻ trong HTML 20
Trang 63.2.2 Mô đun Crawler 28
3.2.3 Mô đun sinh từ khóa 29
Chương 4 Thực nghiệm và đánh giá 36
4.1 Giới thiệu bài toán thực nghiệm 36
4.2 Môi trường, dữ liệu 36
Hướng phát triển tiếp theo 47
Tài liệu tham khảo 48
Trang 7Bảng các kí hiệu và chữ viết tắt
SEO Search Engine Optimization
Trang 8Danh mục hình vẽ
Hình 1 Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 9
Hình 2 Top từ khóa của baomoi.com 10
Hình 3 Top từ khóa của flickr.com 10
Hình 4 Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com 11Hình 5 Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com 17
Hình 6 Mô tả đồ thị web 25
Hình 7 Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25
Hình 8 Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress .25Hình 9 Mô hình đề xuất cho toàn hệ thống 28
Error: Reference source not found 30
Hình 10 Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 32
Hình 11 Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 33
Hình 12 Mô hình mô đun sinh từ khóa dựa trên log 34
Hình 13 Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 35
Hình 14 Mô hình mô đun tổng hợp từ khóa 36
Hình 16 Thư mục Tiếng_Việt của dmoz 38
Hình 17 Các liên kết cần lấy về trong các thư mục 39
Trang 9Danh mục các bảng biểu
Bảng 1 Bảng trọng số các thẻ HTML trongTextNet 21
Bảng 2 Bảng các thẻ HTML quan trọng khác 22
Bảng 3 Ví dụ về các trường trong querylog của MSN 26
Bảng 4 Cấu hình phần cứng trong thực nghiệm của bài toán 36
Bảng 5 Các gói của chương trình 36
Bảng 6 Các lớp của gói general 37
Bảng 7 Các lớp của gói methods 37
Bảng 8 Các lớp của gói SELink 37
Bảng 9 Danh sách các phần mềm, mã nguồn sử dụng 38
Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh 40
Bảng 11 So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử 44
Trang 10MỞ ĐẦU
Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World WideWeb - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặpnhiều Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạngcủa các doanh nghiệp cũng tăng cao Sự ra đời của máy tìm kiếm đã phần nào giảiquyết được vấn đề tràn ngập thông tin của các trang web Các máy tìm kiếm chủ yếuvẫn sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phùhợp Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những nămgần đây Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về
từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải
cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó Đó chính là một trongcác động lực để phát triển bài toán trích xuất từ khoá cho trang web Nhiệm vụ bàitoán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát vớinội dung của trang web.
Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được
sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu
web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dànghơn Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com,flickr.com, ebay.com đã áp dụng việc sinh từ khóa cho các trang này để người đọc,người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩmkhác có liên quan Các từ khóa giúp nâng cao sự gợi ý cho người dùng Không nhữngthế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phầnnào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đềđang được quan tâm.
Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì nhữngchuẩn web càng được chú trọng Trong đó các trang web cần có những phần giới thiệutổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễdàng Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML Nó sẽ
giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang
web tốt hơn Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công Nó sẽkhá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ Còn đối các
máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng.
Trang 11Nó vừa đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cảchủ trang web có thể thiếu xót.
Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán
trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán tríchxuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thịWeb” Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai
phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web.
Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất
lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ Với từng loại trang web sẽ
có từng loại phương pháp khác nhau Trong đó phương pháp khai phá nội dung trangdựa trên thẻ HTML là chủ đạo với nhiều trang Qua thực nghiệm cho thấy các hướngtiếp cận này là khả quan và có triển vọng với độ chính xác khá cao, nếu kết hợp vớicác từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác.
Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các
chương sau:
- Chương 1: Giới thiệu về bài toán Nêu các khái niệm cơ bản về bài toán Các
ứng dụng của bài toán Những thách thức đặt ra cho bài toán.
- Chương 2: Các công trình liên quan Giới thiệu sơ lược về các phương pháp
đã được áp dụng với các bài toán sinh cho văn bản, cho trang web.
- Chương 3: Hướng giải quyết và đề xuất mô hình bài toán Miêu tả hướng giải
quyết của tác giả, đề xuất mô hình có thể thực thi.
-Chương 4 “Kết quả thực nghiệm và đánh giá” Đưa ra những kết quả đã làm,
và đánh giá kết quả.
Trang 12Chương 1 Giới thiệu bài toán trích xuất từ khoá cho trang web
1.1 Đặt vấn đề
Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World WideWeb (WWW) - còn gọi tắt là web - làm cho thông tin ngày càng lớn, khó kiểm soát, vàtrùng lặp nhiều Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiềungười trên nhiều lĩnh vực khác nhau Sự đột phá về công nghệ đã cho ra những máytìm kiếm phần nào đã giải quyết được sự ngập lụt thông tin này Vì nhu cầu sử dụngmáy tìm kiếm hiện nay là rất lớn, nên nó cũng được sự quan tâm của các doanh nghiệp
nhằm dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ khóa[26]
[2][36] Đó cũng là động lực chính để phát triển bài toán sinh từ khóa cho trang web.
Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìmkiếm, mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thôngtin khác như các blog, báo điện tử, tìm ảnh, tìm phim, thư viện sách Với mỗi trangweb, các từ khóa của trang đó sẽ là những sự gợi ý rất tốt cho người dùng để tìm thấynhững thông tin khác liên quan mà họ có thể đang quan tâm
Trong nhiều năm qua, bài toán trích xuất từ khóa đã được quan tâm, chú ý
nhiều trong các hội nghị khoa học [26] [30] [28] [27] [11][25], và các doanh nghiệpkinh doanh, cũng như những người quản trị web với chiến dịch quảng bá web củamình (SEO: Search Engine Optimization) [4] Những bài báo, luận văn trước chủ yếulàm trên miền văn bản Còn đối với miền trang web thì khá phức tạp, tốn nhiều thờigian; nhiều phương pháp phải cần đến tập huấn luyện.
Các từ khóa là các từ, cụm từ nhằm miêu tả nội dung của trang web, văn bảnmột cách ngắn gọn nhất, chính xác nhất Các từ khóa phải không quá chung chung hay
không quá xa lạ đối với người sử dụng Bài toán trích xuất từ khóa cho trang web là
việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tinliên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29].
Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là độnglực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web Khóa
luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính là: độ
quan trọng của các thẻ HTML, đồ thị web Bên cạnh đó, tôi cũng bổ sung hai phương
Trang 13pháp hỗ trợ việc tìm từ khóa đó là: khai phá query log của máy tìm kiếm, tập từ điển
hỗ trợ.
1.2 Khái niệm và các đặc trưng của từ khóa
Từ khóa là một từ hay một cụm từ dùng để mô tả một cách chính xác, ngắn gọn
nhất nội dung chính của một tài liệu (văn bản, hay các trang web) [20][5][8][18].Trong tiếng Anh, từ khóa được thể hiện dưới nhiều thuật ngữ khác nhau như:keywords, term, query term, hay tags; nhưng ý nghĩa của chúng là giống nhau [25].
Trong các tài liệu thì cách viết keywords và tags được sử dụng nhiều nhất Hiện nay,
các trang web chuẩn theo W3C1 (World Wide Web Consortium) đều có chứa những từ
khóa của trang trong thẻ <meta> với thuộc tính “keywords” Các từ khóa của các trang
web đa số được sinh thủ công bởi người quản trị web Bài toán trích xuất từ khóa củatài liệu tiếng Việt và tiếng Anh là một trong những bài toán cấp thiết trong nghiên cứuxử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày Tập các từ khóa có thể
coi như là một bản tóm tắt đơn giản nhất của văn bản[25] Tập các từ khóa sẽ nói lên
rõ hơn ý nghĩa của văn bản hay trang web đó.
Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng,
tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web đó [24][29] Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang webhay các thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho trang webnày một cách tự động.
Một số đặc điểm, tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa:
Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được
sinh ra Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a , an , the,about, with, on trong tiếng Anh và các từ : là , sẽ , cùng, tới trong tiếngViệt.
Loại từ: Các từ trong danh sách từ khóa thường là các động từ, hoặc danh từ.
Tuy nhiên, có thể các từ có thể được viết tắt cũng cần xem xét Các danh từriêng được coi trọng hơn các danh từ thường.
Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề
văn bản.
Số lượng: Tập từ khóa của một trang web, văn bản là một danh sách các từ khóa
khác nhau, nó phù hợp với từng loại văn bản, trang web khác nhau Thôngthường là 5-10 từ khóa cho trang web, và 15-20 cho các bài báo
Trang 141.3 Đánh giá các từ khóa
Thường thì các công ty, người quản trị trang web đều chắc chắn rằng họ đã biếttừ khoá lý tưởng nhất Nhưng thường thì họ sai Nguyên nhân là do không dễ dàngtách một cá nhân ra khỏi một công ty và nhìn nhận với tư cách là một khách hàngtiềm năng Soạn ra một danh sách các từ khoá thì không nên bắt buộc phải là một quátrình nội bộ Mọi người thường rất ngạc nhiên về những từ khoá được gợi ý, đôi khicòn không tưởng tượng được hầu hết các khách không nói cùng một ngôn ngữ với họ.
Một khi đã có được một danh sách từ khóa hoàn hảo, lúc này là lúc đánh giátừng cụm từ để chọn ra trong danh sách đến những từ khoá mà sẽ mang lại cho trangweb lượng người vào trang web cao Mặc dù rất nhiều cá nhân đều đánh giá các cụmtừ khoá dựa trên số đông, nhưng một số khía cạnh cần phải có cho các từ khóa[2]:
a Tính phổ biến
Cho đến nay cách dễ nhất để đánh giá đó là tính phổ biến Các phần mềm như
thực tế của SE [2] Rõ ràng là con số nào cao hơn thì dự kiến sẽ có người vào cao hơn.
b Tính đặc trưng
Khái niệm này trừu tượng hơn là con số thể hiện tính phổ biến nhưng lại quantrọng không kém Ví dụ, giả dụ rằng có thể đạt được thứ hạng cao trên SE nhờ cụm từkhoá “insurance companies” Nhưng nếu doanh nghiệp chỉ kinh doanh trong lĩnh vực
bảo hiểm ô tô ( auto insurance) Mặc dù từ khoá “insurance companies” có tính phổbiến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies”
sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ vàbảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện.
c Hướng người sử dụng
Nhân tố này dựa vào cách nghĩ của số đông người dùng Ví dụ, giả dụ một đạilý bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là "Atlanta real estate listings"và “Atlanta real estate agents” Hai từ khoá này có tính phổ biến tương tự nhau Chúngcũng có tính đặc trưng riêng, vì nó liên hệ mật thiết đến công ty Vậy thì từ nào thì tốthơn Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấy từ thứ hai sẽ tối ưuhơn Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn.
1.4 Thách thức của bài toán sinh từ khóa cho trang web
Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa chocác văn bản hay các bài toán kiểu tóm tắt văn bản Một lợi điểm trong các văn bản là
Trang 15do văn bản chỉ thuần nói về một đề tài hay một chủ đề xác định, ít nhiễu Trong khi đóđối với các trang web nó là tổng hợp của nhiều thông tin trên một trang web, có nhiềuthông tin không liên quan như: quảng cáo, thực đơn, thông tin liên quan Vì vậy,những thách thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên cáctrang là lớn, nội dung của nhiều trang là không tập trung.
1.4.1 Đối với các trang có nội dung tập trung
Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dungcụ thể về một vấn đề Nói khác đi, khi loại bỏ các phần thông tin ngoài thì phần còn lạinhư một văn bản Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụngnhư tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ Các trang có nội dungtập trung như bài báo điện tử, bài viết hướng dẫn, một bài văn Nói chung, việc lọcnhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc tríchxuất từ khóa Với những bài viết quá dài thì thời gian chạy cũng khá lâu
1.4.2 Đối với các trang có nội dung tổng hợp
Hiện nay, thông tin ngày càng được cập nhật thường xuyên trong mỗi trangweb Nhu cầu tổng hợp tin tức là rất cần thiết Các trang web luôn muốn những thôngtin cập nhật sẽ được hiển thị trên trang đầu khi mà người dùng tới trang của họ Nhữngtrang đầu này còn gọi là các trang chủ Các trang web portal cũng tương tự [35] Mộttrang web portal là một trang đưa ra những thông tin ở nhiều nguồn khác nhau theomột cách thống nhất Ngoài thỏa mãn là một công cụ tìm kiếm, web portal cung cấpcác thông tin dịch vụ khác như báo tin tức, chứng khoán, giải trí Ví dụ về các webportal như: AOL, MSN, yahoo, iGoogle Nếu áp dụng việc trích xuất từ khóa áp dụngđối với nội dung trong các trang web này sẽ dẫn đến kết quả không chính xác Cần cónhững phương pháp khác để có thể sinh từ khóa cho loại trang này, và trong khóa luậnnày tôi áp dụng phương pháp dùng đồ thị Web và log hỗ trợ.
1.4.3 Các vấn đề khác
Ngày nay, số lượng các trang web trên Internet là rất nhiều Vì vậy việc kiểmsoát nội dung cũng đã khó, chưa kể đến những lỗi trong việc mã hóa HTML trên trangweb Ngôn ngữ HTML là một ngôn ngữ có cấu trúc chặt chẽ theo chuẩn của W3C, vớicác luật như thẻ mở, đóng, hay thẻ đơn Để có thể phân tích, lấy được những thông tintrong trang web thì chúng ta cần các trang có mã HTML theo chuẩn Tuy các trìnhduyệt có thể bỏ qua các lỗi HTML để thể hiện thị, nhưng những lỗi như vậy làm chocác chương trình xử lý của chúng ta gặp vấn đề về việc phân tích cú pháp, xác định sai
Trang 16các đoạn văn trong trang web Do tiếng Việt và Tiếng Anh có những cụm từ, nên mộtsố từ khi xuất hiện một mình sẽ không có ý nghĩa Vì vậy, cần phải có một bộ tách từtốt, nhất là đối với tiếng Việt.
Ngoài các lỗi về cấu trúc của HTML, ngay trong nội dung văn bản của cáctrang web cũng có những lỗi như: viết tiếng Việt không dấu, viết sai Một số trangweb có sử dụng các tên miền miễn phí như : www.dot.tk , www.co.cc , cho nên khitrỏ đến các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang webthực mà lại là mã HTML của các trang cung cấp tên miền.
1.5 Ứng dụng của từ khóa trong các lĩnh vực
1.5.1 Vai trò từ khóa trong máy tìm kiếm
1.5.1.1 Quảng cáo trên máy tìm kiếm
Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tintrên mạng Do đó, máy tìm kiếm là một công cụ không thể thiếu cho những ngườidùng web hiện nay Chính vì sự phổ biến, và lượng lớn người dùng sử dụng nó cho
nên quảng cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu
quả, và có phần nở rộ hơn trong những năm gần đây Các nhà doanh nghiệp, quản trịcủa các trang web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trênmáy tìm kiếm một cách hiệu quả nhất Do việc tìm kiếm trên máy tìm kiếm chủ yếudựa trên từ khoá cho nên việc tìm ra những từ khoá đại diện cho các trang web đểquảng cáo là một trong những nhiệm vụ hàng đầu của các doanh nghiệp, các ngườiquản trị web muốn quảng bá trang web của mình Các doanh nghiệp này cần đăng kícác từ khoá này với các máy tìm kiếm để có thể quảng cáo trang web của mình Tuynhiên, có rất nhiều doanh nghiệp khác cũng muốn quảng cáo sản phẩm, và nảy sinh ratrường hợp cạnh tranh những từ khoá chung
Trong quá khứ, những nhà quảng cáo thích đặt giá cho những từ khoá mà nó cóxu hướng sinh ra số lượng lớn kết quả trả về, cho nên những từ khoá này thường rấtđắt Có một chiến lược khác bằng cách trả giá cho những từ khoá khác liên quan cho ítkết quả hơn khi máy tìm kiếm trả về, nhưng nó vẫn có tầm quan trọng và nói lên đượccái ẩn, nội dung mà người quảng cáo muốn hướng tới Do đó, nó vừa có hiệu quả, lạivừa có giá đầu tư cho từ khóa là rẻ, ít cạnh tranh nhưng vẫn đảm bảo tính chất phổbiến, nhưng nổi trội của doanh nghiệp quảng cáo
Trang 17Tìm kiếm có tài trợ hay Marketing trên máy tìm kiếm(SEM)[33] là một cáchthức quảng cáo khá phổ biến trên web hiện nay, nó cũng chính là thu nhập chính củacác máy tìm kiếm Các cỗ máy tìm kiếm thường thu thập một lượng thông tin khổng lồvề các sở thích và hành vi của người sử dụng trong quá trình vận hành của chúng.Những thông tin này, bên cạnh việc hỗ trợ cho việc nâng cấp các máy tìm kiếm để trảvề kết quả phù hợp hơn, còn có thể được bán cho các công ty khác Những công tymua các thông tin này có thể sử dụng chúng để biết được những sản phẩm người tiêudùng đang quan tâm hoặc tiên đoán nhu cầu của người tiêu dùng trong tương lai
Các từ khoá sẽ làm nhiệm vụ quan trọng là gợi ý ra những tài liệu liên quan vànhững tài liệu liên quan này cũng có từ khoá đó Nguồn thu từ quảng cáo trực tuyếncủa các máy tìm kiếm rất lớn Ví dụ năm 2004, Google thu về 3 tỉ Đô la Mỹ từ quảng
cáo [2] Có hai cách quảng cáo trực tiếp trên máy tìm kiếm:
- Cách thứ 1 là khách hàng trả tiền cho những từ khoá để đảm bảo rằng trang web củahọ nằm ở thứ hạng cao trong danh sách trả về của máy tìm kiếm (pay for placement.).
Cách làm này thường bị nói là không công bằng khi máy tìm kiểm cố tình cho các kếtquả có tài trợ được thứ hạng cao Cách này cũng ít được áp dụng do các máy tìm kiếmcần đảm bảo được sự công bằng của chính thuật toán của máy tìm kiếm trả về.
- Cách thứ 2 được áp dụng phổ biến hơn Các máy tìm kiểm chia trang tìm kiếm trả
về làm 2 phần như hình Hình 1, một phần là kết quả trả về chính xác mà máy tìm kiếmtìm thấy trong hệ thống các trang web đã crawl về, một phần là phần dành cho cáctrang web có tài trợ Với các trang web hiển thị ở phần này, các máy tìm kiếm áp dụngchiến lược trả tiền khi người dùng click Có nghĩa là các quảng cáo sẽ phải trả tiền chomáy tìm kiếm khi người dùng search trong máy tìm kiếm và click vào quảng cáo Mộttrường hợp tự nhiên đó là hiện nay có nhiều doanh nghiệp với nhiều mặt hàng là giốngnhau, và đều muốn cạnh tranh với nhau Khi quảng cáo trên máy tìm kiếm, các từ khoácó thể sẽ trùng nhau, và các doanh nghiệp đều muốn sở hữu từ khoá đó vì những từkhoá đó là phổ biến và quan trọng Do đó, máy tìm kiếm sẽ có quá trình đấu giá cho từkhoá Đối với mỗi từ khoá, doanh nghiệp nào trả giá cho từ khoá cao hơn sẽ đượcđứng ở vị trí đầu.
Trang 18Hình 1 Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm
1.5.1.2 Hoạt động quảng bá web trong máy tìm kiếm
Tối ưu hóa công cụ tìm kiếm, hay SEO (viết tắt của search engine
optimization), là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một
website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi là mộttiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm[4] Một trong những các phương pháptrong quá trình SEO là việc tìm từ khóa cho các trang web.
Từ khóa là những từ, cụm từ mà những người truy cập nhập vào trong những cỗmáy tìm kiếm để tìm thấy thông tin từ những trang web Điều quan trọng hàng đầu củacác người quản trị web là các trang web của họ có được những cỗ máy tìm kiếm tốtxếp hạng những từ khóa phổ biến liên quan đến đề tài của trang web của họ không.
Những từ khóa đúng quan trọng với thành công của những hoạt động SEO củanhững người quản trị web Sẽ không phải là giải pháp tốt khi tối ưu hóa những trangWeb cho những từ khóa mà không ai sử dụng trong những cỗ máy tìm kiếm Hơn nữa,để có thêm những người dùng quan tâm đến trang web, những từ khóa không đượcrộng quá hoặc chung quá[2]
Những từ khóa nào là những từ khóa đúng cho một trang web? Chìa khóa ở đâylà phải chọn ra những từ khóa phổ thông, nhưng không được quá chung chung để tránhnhận phải hàng triệu kết quả tìm kiếm Tìm ra được những từ khóa đặc biệt đáp ứngđược đòi hỏi trên sẽ giúp cho trang web đạt được thứ hạng cao trong danh sách tìmkiếm và có thêm nhiều người dùng truy cập vào Bước đầu tiên trong việc chọn đúngnhững từ khóa là phải làm cho chúng trở nên đặc biệt [2][36].
Sử dụng những mệnh đề từ khóa gồm có hai tới bốn từ
Tránh những từ khóa quá cạnh tranh với các trang web nổi tiếng khác
Đặc biệt (càng đặc biệt càng tốt nhưng không nên quá xa lạ đối với ngườidùng)
Trang 19Để một chiến dịch tiếp thị trực tuyến thành công, cần phải chọn được những từkhóa đúng, phù hợp Những từ khóa sử dụng cần phải thích hợp với trang web đó vànhững người truy cập cần phải đang tìm kiếm những từ khóa đó Tuy nhiên, những từkhóa của người dùng nhiều lúc lại không giống như những từ khóa mà người quản trịweb nghĩ Đa số mọi người sử dụng hai tới bốn từ hoặc mệnh đề trong một sự tìm
kiếm, vì vậy những mệnh đề rất có hiệu quả Những từ đơn không thể được quảng bácó hiệu quả Chẳng hạn, ít có người tìm kiếm “free download software” mà chỉ nhậpvào có mỗi từ “soft” Tránh những mệnh đề từ khóa đại chúng nhất bởi vì rất dễ phải
đua tranh với hàng triệu trang web khác cho một sự chú ý của cỗ máy tìm kiếm Thậtlà không thực tế để tin rằng một trang web mới có thể xếp hạng số một trên một mệnh
đề đại chúng, ví dụ “Mp3” hay “báo điện tử” Rõ ràng, các công ty được thành lập và
tham gia vào internet vài năm sẽ có lợi thế lớn nhờ tính phổ biến.
1.5.3 Vai trò từ khóa trong các trang web tổng hợp thông tin
Một động lực khác để phát triển bài toán trích xuất từ khoá cho trang web đó là
từ khoá giúp phân loại các văn bản theo định nghĩa của người dùng dưới dạng chủ đề
cho phép dễ dàng truy câp và tìm thông tin trên đó Nó còn giúp việc liên kết mỗi tài
liệu liên quan đến nhau (cross-link) một cách linh động, và giảm thời gian để tìmkiếm cho thông tin giống với nội dung trang đang xem Ví dụ như trong Hình 2, Hình
3 là những từ khoá hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếngAnh)
Hình 2 Top từ khóa của baomoi.comHình 3 Top từ khóa của flickr.com
Tại một thời điểm nào đó, nếu người dùng truy cập, xem nhiều những trang mà cóchung những từ khoá, vì vậy top từ khoá sẽ nói lên được xu thế của người dùng.Những từ khóa hay được người dùng sử dụng chính là những chủ đề mà người dùnghiện tại đang quan tâm Và khi người khác truy cập vào trang web, họ có thể khám
Trang 20phá, đọc, xem những trang được coi là mới nhất hiện nay Những từ khóa này giúp chongười dùng nắm bắt thông tin mới theo cách khái quát, theo chủ đề xác định
Trong khi người dùng đọc, xem các trang web, “những điều gì họ sẽ quan tâm
tiếp theo ?” là một câu hỏi được nhiều nhà quản trị các trang web tổng hợp thông tin
hướng tới nhằm thoả mãn nhu cầu tối đa của người dùng Và từ khoá là một trongnhững giải pháp khá hiệu quả và thành công Mỗi một trang web người dùng khi đọcsẽ hiện ra những từ khoá liên quan đến bài viết đó Những từ khoá này nói lên phầnnào được nội dung trang web mà người dùng đang đọc Với những từ khoá này, ngườidùng có thể tìm những bài liên quan đến trang họ đang đọc qua các từ khoá Ví dụ nhưtrong Hình 4, người đọc quan tâm đến buổi duyệt binh của nước Nga vào ngày 9/5,những từ khoá liên quan sẽ được gợi ý cho người dùng qua nội dung bài viết hiện tại,
như người dùng có thể xem các bài viết liên quan đến phát xít, duyệt binh, hồng quân,
thủ tướng Nga, tổng thống Nga, Nga
Hình 4 Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com
Ngoài các ứng dụng hướng đến sự quan tâm người dùng, các từ khoá còn có
một ứng dụng khác trong việc phân cụm các trang web theo chính các từ khóa Mỗi
trang web có một tập các từ khóa riêng, các từ khóa này có thể trùng với các từ khóacủa các trang web khác Do đó, một từ khóa như là một thư mục chứa các trang webliên quan, có từ khóa chính là tên của thư mục đó Một trang web có nhiều từ khóa,cho nên một trang web có thể thuộc nhiều thư mục khác nhau Chính sự tự nhiên nàycủa các từ khóa, nên nó có tác dụng làm cho việc tìm kiếm nhanh hơn, hiệu quả hơn,làm cho việc lưu trữ trở nên có cấu trúc hơn
Trang 21Mạng xã hội cũng đang phát triển rất nhanh, thu hút được nhiều sự quan tâm
của giới trẻ Một trong các hình thức của mạng xã hội là blog Blog là nơi để mọingười viết nhật kí, hay những bài viết chia sẻ kiến thức, hoặc những bài viết về cácvấn đề trong xã hội được quan tâm Những người viết blog có rất nhiều bài viết khácnhau nhưng nhiều bài viết vẫn ở chung một chủ đề Các blogger ưa thích việc dùng tagđể biểu diễn ngắn gọn cho chủ đề một bài viết của họ Tag ở đây cũng được coi là từkhóa[25] Với các tag, người đọc blog sẽ theo dõi được những thông tin liên quantrong các bài viết trong blog một cách nhanh chóng Và các tag này đều do người viếtđặt Ví dụ: khi đọc một bài trong blog về vấn đề máy tính, người dùng có thể tìmnhững bài viết liên quan đến từ Windows, lập trình, …Người đọc có thể sẽ tìm thấynhững thông tin mà họ thích Các từ khóa cũng là một trong các phương thức để mọingười khám phá trang web đó.
1.6 Tổng kết chương
Chương này tôi đã trình bày những khái niệm của từ khóa, và bài toán tríchxuất từ khóa cho trang web, thách thức của nó trong các tài liệu web Và qua đây,chúng ta cũng thấy được tầm quan trọng của việc sinh từ khóa trên các lĩnh vực khácnhau Chương II, khóa luận xin trình bày một số công trình khoa học có liên quan đếnbài toán này.
Trang 22Chương 2 Các cơng trình liên quan
2.1 Các phương pháp trích xuất từ khĩa cho văn bản
Trích xuất từ khố cho trang web là một bài tốn được cụ thể hĩa một phần từbài tốn trích xuất thơng tin (IR: Information Retrieval) Đã cĩ các nghiên cứu khácnhau về bài tốn trích xuất từ khố một cách tự động Mà đặc biệt với bài tốn tĩm tắtvăn bản là một trong những bài tốn gần giống với bài tốn này Mục tiêu của bài tốntrích xuất từ khĩa là tìm ra những từ khố miêu tả được nội dung của văn bản, trangweb bằng cách áp dụng các phương pháp khác nhau dựa trên các đặc điểm của vănbản, web Tuy nhiên, miền áp dụng của bài tốn tĩm tắt văn bản là trên các văn bảnthơng thường Một số phương pháp trong bài tốn tĩm tắt văn bản cũng cĩ thể áp dụngcho bài tốn trích xuất từ khĩa cho văn bản.
Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sửdụng tần số (tfxidf), học máy nạve bayes, cây quyết định, co-occurrence, độ tươngđồng từ khĩa, các kĩ thuật khác trong bài tốn tĩm tắt văn bản Sau đây là phần giớithiệu một số phương pháp.
2.1.1 Phương pháp tần số từ
Phương pháp tần suất xuất hiện của từ được giới thiệu bởi Luhn vào năm1958[13] Phương pháp này dựa trên giả thiết: tần số của từ xuất hiện trong các bài báolà một độ đo hữu ích về nghĩa của từ; ví trí tương đối của từ cĩ nghĩa trong phạm vimột câu cũng là độ đo hữu ích về mặt ý nghĩa của từ Tuy nhiên, cơ sở của phươngpháp bị hạn chế do khả năng của máy tính khơng thể biểu hiện được các thơng tin vềmặt ngữ nghĩa
Phương pháp này xem xét rằng các từ mà xuất hiện nhiều lần thì sẽ mang tínhphổ biến của bài viết, nĩi lên phần nào nội dung của nĩ Các từ phổ biến này đượcchọn lựa theo cách sắp xếp từ cao đến thấp theo tần số xuất hiện Tuy nhiên, theophương pháp này, thì các dạng khác nhau của từ sẽ được coi như là một từ Thêm vàođĩ, việc tính tốn tần số của từ sẽ dẫn đến việc các từ cĩ tần số quá cao như các từdừng Một cách tự nhiên thì những từ mà cĩ tần số quá cao, hoặc quá thấp cũng khơngquan trọng Chúng ta cĩ thể tạo lập ngưỡng cho các từ khĩa, cĩ nghĩa là tạo ngưỡngkhơng những cho những từ khĩa tần số thấp mà cịn cho những từ cĩ tần số quá cao.Do đĩ, ngưỡng được chấp nhận sẽ nằm trong khoảng [a,b] với a là cận dưới, b là cậntrên Các từ dừng cũng cĩ thể được loại bỏ hiệu quả nhờ một tập từ điển từ dừng.
Trang 23Để tính tần số của từ quan trọng, phương pháp tần số từ tính phân phối của mỗitừ trong tài liệu (tf) và phân phối của từ ở trong corpus (idf - inverted document)[34]
Trong đó :
NUMDOC: số tài liệu trong tập corpus
NUMDOC(keyword) : chính là số tài liệu mà có từ keyword xuất hiện.
Nếu tf(keyword) x idf(keyword) vượt một ngưỡng xác định, các cụm từ khóa được tìmthấy và được gán trọng số Những từ nào có trọng số cao thì được chọn
Đối với trang web, có thể áp dụng phương pháp này bằng cách từ địa chỉ trangweb cần lấy từ khóa Lần theo các liên kết trong trang hạt giống này (seed page) để lấyvề các trang web khác và phải thuộc cùng domain[25] Tập các trang web này tạo nênmột tập corpus Việc tính toán từ khóa cho mỗi tài liệu web sẽ được tính theo côngthức trên dựa vào những đoạn text hiển thị trích ra từ các trang web đó Tuy nhiên, dotrang web có nhiều những từ được hiển thị trong một trang không có ý nghĩa như :thực đơn, quảng cáo nhưng lại xuất hiện nhiều lần ở các trang Vì vậy, các từ xuấthiện trong các mục này lại có tần số xuất hiện cao, và thường vào các từ khóa.
2.1.2 Phương pháp sử dụng các thông tin khác trong văn bản
Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phầntrong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson [12], dựavào phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý, từ khóa, tiêuđề của văn bản, ví trị của câu trong văn bản Phương pháp tìm từ khóa cũng sẽ dùngcác đặc điểm của văn bản để tìm ra những từ khóa Dưới đây là cơ sở của phươngpháp:
a Cụm từ gợi ý trong văn bản
Thông thường các cụm từ gợi ý là liên quan hoặc không liên quan tới các câuquan trọng Ví dụ với các từ “Trong bài báo này”, “Tóm lại” thường là phần quantrọng của văn bản Hoặc những cụm từ khác như “ví dụ” chỉ ra phần không quan trọngcủa văn bản.
b Tiêu đề của văn bản
Người viết khi viết về văn bản của mình thì phải luôn chú trọng đến nội dung,
cũng như cách thể hiện tiêu đề sao cho người đọc chỉ cần nhìn qua vào tiêu đề có thể
Trang 24hiểu được nội dung của tồn bộ văn bản Vì vậy, tiêu đề là cĩ độ quan trọng rất caotrong văn bản Đã cĩ các bài báo nghiên cứu tĩm tắt văn bản dựa vào độ tương đồngcâu dùng câu tiêu đề làm câu mẫu để các câu khác so sánh [1] Cĩ thể áp dụng phươngpháp này trong văn bản web mà đặc biệt là phần văn bản trong thẻ <title> của nguồnHTML của trang web Việc bám sát vào các câu của tiêu đề văn bản sẽ cho việc tìmnội dung của văn bản, hay trang web sẽ trở nên chính xác hơn Các câu tiêu đề cĩ thểđược coi như là phần tĩm tắt ngắn gọn của văn bản, các từ cĩ nghĩa tương tự, haynhững từ lặp lại nhiều trong văn bản trùng với các từ trong tiêu đề thì đều quan trọng
c Vị trí của các từ khĩa trong văn bản
Thơng thường những từ mà được xuất hiện trong những đoạn đầu tiên trong vănbản thường cĩ độ quan trọng cao hơn các từ mà đứng giữa hay cuối Do vậy, cĩ thểchọn các từ khĩa mà sao cho nĩ xuất hiện nhiều ở phần mở đầu, nhất là đối với nhữngbài viết dài Tuy nhiên, một số bài lại cĩ cấu trúc dạng: phần giới thiệu, phần chính,tĩm lại Các từ ở phần giới thiệu và phần tĩm lại nếu xuất hiện nhiều trong văn bảnđều khá quan trọng
d Tần số từ trong văn bản
Các từ xuất hiện thường xuyên trong văn bản cĩ xu hướng chỉ ra chủ đề của vănbản đĩ Mức độ quan trọng của các từ, cụm từ tính tốn trên cơ sở tần số xuất hiện củachúng trong văn bản Điểm khác của kĩ thuật tần số này so với tần số bên trên là : tầnsố từ bên trên xét về một tập các bài, hoặc tập các đoạn văn khác nhau Cịn đây chỉ làáp dụng trong nội tại của một văn bản Một mục từ, cụm từ xuất hiện trong văn bảnnhiều hơn một ngưỡng nào đĩ thì được coi là từ quan trọng
Từ những cơ sở trên ta cĩ thể tính được trọng số của một từ khĩa bằng tổ hợptuyến tính các trọng số nhận được từ các phương pháp trích rút ở trên:
weight(K) = .Title(K).Cue(K).Position(K).Frequent(K)
Các tham số ,,, sẽ được điều chỉnh phù hợp bằng cách thử nghiệm với các dữliệu khác nhau
2.1.3 Phương pháp sử dụng học máy
KEA [19] và GenEX [9] là hai trình ứng dụng đưa ra một số giải pháp về bàitốn trích xuất từ khĩa (keyword extraction)[28] Trong khi GenEX dùng giải thuật ditruyền thì KEA dùng luật quyết định dựa trên phân lớp Naive Bayes (Nạve Bayesdecision rule) trên 2 thuộc tính đĩ là TFxIDF và khoảng cách của từ đến đoạn đầu của
Trang 25văn bản Một phương pháp khác áp dụng dựa trên chuỗi từ vựng (lexical chain), ápdụng từ điển WordNet và bài tốn phân lớp để giải quyết bài tốn sinh từ khĩa này.
2.1.3.1 Trích xuất từ khĩa sử dụng phân lớp Nạve Bayes
Trong bài báo [28]Yasin Uzun sử dụng phân lớp Nạve Bayes để áp dụng vàobài tốn này Ơng cho rằng bài tốn này cĩ thể coi là một vấn đề trong học máy Cĩcác từ ở trong văn bản và mục đích là nhận ra một từ cĩ phải thuộc lớp từkhĩa( keywords) hay là một từ thơng thường(ordinary words) Như các mơ hình họcmáy khác, mơ hình này cũng sử dụng tập huấn luyện để học cách sao để nhận ra mộttừ là từ khĩa hay khơng Dựa vào những thơng tin đã nhận được từ quá trình học đểnhận biết, tìm ra các từ khĩa từ những văn bản mới đưa vào Nạve Bayes dựa trên xácsuất của các từ để quyết định xem từ đĩ cĩ thỏa mãn ngưỡng là một từ khĩa khơng.
Trước hết, văn bản cần được được tách ra thành các token sử dụng các kí hiệunhư: dấu cách, xuống dịng, tab, dấu chấm, phẩy, Những chữ khơng là alpha-beta bịloại bỏ Tính chỉ số TFxIDF cho các token Do sử dụng IDF nên các tập dữ liệu phảitrong cùng một chủ đề.
Để xây dựng được một mơ hình phân lớp để nhận biết được đâu là từ khĩa Tác giả đã sử dụng các thuộc tính gồm: tần số xuất hiện, vị trí của từ trong văn bản
2.1.3.2 Trích xuất từ khĩa sử dụng lexical chain (chuỗi từ vựng) và phân lớp
Trong bài báo năm 2007 [11] Gonenc Ercan, Ilyas Cicekli đã trình bày cáchtiếp cận bài tốn theo hướng sử dụng từ điển ngữ nghĩa WordNet [38] kết hợp phânlớp cây quyết định để cĩ thể nhận dạng chính xác từ khĩa Phương pháp này cĩ sửdụng các quan hệ ngữ nghĩa nhằm nâng cao chất lượng các từ khĩa liên quan Tríchxuất Chuỗi từ vựng là việc đưa ra các quan hệ ngữ nghĩa của câu, văn bản đưa vào.Trong một câu, chuỗi từ vựng sẽ chỉ ra được đâu là động từ, danh từ, trạng từ và cácquan hệ đồng nghĩa, trái nghĩa, là (is a), cĩ (has a) Cơng việc khĩ khăn nhất đĩ chínhlà xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet WordNetđược chọn vì từ điển tiếng Anh này cĩ đầy đủ các thơng tin về các từ trong tiếng Anhnhư: danh từ, các từ đồng nghĩa, trái nghĩa Với các quan hệ ngữ nghĩa này, tác giảxây dựng mơ hình để sinh ra chuỗi từ vựng (lexical chain) tồn bộ văn bản tạo thànhmột chuỗi từ vựng cĩ cấu tạo giống với WordNet Nhiều câu phức tạp sẽ sinh ratrường hợp nhầm ngữ nghĩa.
Trang 26Sau khi có được các chuỗi ngữ nghĩa của văn bản cần sinh từ khóa Tác giảchọn thuật toán cây quyết định C4.5 với các thuộc tính là : vị trí xuất hiện đầu tiên, tầnsố xuất hiện, vị trí xuất hiện cuối cùng, và một thuộc tính lấy từ chuỗi từ vựng đã sinhra từ văn bản Bài báo cũng đề xuất ra các trọng số cụ thể cho các quan hệ như đồngnghĩa :10; quan hệ is a: 7 quan hệ has a: 4.
2.2 Các phương pháp trích xuất từ khóa cho trang web
2.2.1 Tần số từ
Phương pháp tần số từ trong văn bản có thể được áp dụng trên các trang web.Việc lấy ra nội dung của văn bản trong các trang web là đơn giản Và phương phápphân tích nội dung này, thống kê tần số xuất hiện của các từ, cụm từ áp dụng kĩ thuậtn-gram
Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy
Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn và cụm từ khoá
bằng phương pháp xét tần số xuất hiện của các từ trong văn bản hiển thị web Phươngpháp tìm từ khóa trang web này chỉ dừng lại ở việc tìm từ khóa đơn và kép, tính tần sốcủa nó trên chính trang đó, cho nên nhiều trang web cho không chính xác.
Hình 5 Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com
2.2.2 Kĩ thuật khai phá log
Các máy tìm kiếm sử dụng kĩ thuật khai phá log để có thể tìm ra những từ khoákhác nhau cho trang web[31] Đó là một lợi điểm của các máy tìm kiếm Những hoạtđộng trước của người dùng được ghi lại sẽ cho ta hiểu cách nghĩ của người dùng đối
Trang 27với các trang web Họ cố gắng tìm ra mối quan hệ giữa các từ khóa đã được người
dùng tìm dựa vào một tập các từ khoá ban đầu Google’s Adword Tool [31] là một ví
dụ về việc dùng log để đưa ra những từ khóa gợi ý, với đầu vào là từ khoá ban đầu.
Yahoo’s Keyword Selection Tool [32] cũng tương tự khi sử dụng tần số xuất hiện
của những từ khoá liên quan tới từ khoá của người dùng yêu cầu Một phương phápmới hơn được Bart đễ xuất dựa trên việc lọc liên hợp (collaborative filtering) sử dụngmối quan hệ của query và các url click vào trong log [16] Tuy nhiên những từ khóagợi ý sẽ là những từ khóa xuất hiện nhiều trong log, thường có độ phổ biến cao vàquan trọng do đó từ khóa này sẽ có giá cao.
2.2.3 Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ
Bài báo [25][17] sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để ápdụng cho bài toán tìm từ khóa cho trang web Phương pháp đã được dùng trongthương mại đó là việc áp dụng dựa vào tìm kiếm lân cận (proximity search) để sinh từkhóa Proximity Search là cách dựa vào máy tìm kiếm, với một query đầu vào gọi là từkhoá hạt giống (seed keyword) và tìm ra được những từ khoá từ những trang liên quantrả về từ máy tìm kiếm Kĩ thuật này nhằm tìm từ khóa cho một trang chủ, portal Quytrình của phương pháp này có thể được miêu tả như sau:
Bước 1: Tải về toàn bộ các trang thuộc cùng domain với trang này(có thể phải
giới hạn số trang lấy về)
Bước 2: Trích xuất các từ khóa cho các trang web này dựa vào độ đo (tf x idf).
Lưu trữ dưới dạng một tập từ điển ban đầu (lấy trong các ngưỡng xác định, loại bỏ từdừng )
Bước 3: Với mỗi từ khóa trong bộ từ điển từ khóa, tìm kiếm những trang web
liên quan nhờ các máy tìm kiếm Chỉ lấy các trang đầu trả về của máy tìm kiếm
Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về, sinh từ khóa cho các
trang web này dựa vào tần số xuất hiện của từ, so sánh độ tương đồng ngữ nghĩa củatừ tìm kiếm và các từ khóa này Nếu thỏa mãn các ngưỡng về độ tương đồng, tần sốxuất hiện thì thêm vào từ điển những từ khóa này.
Bước 5: Thống kê lại các từ khóa nhờ vào tần số xuất hiện trong từ điển.
Kết quả của phương pháp này khá là hiệu quả và tốt, nhưng chi phí cho nó là rấtnhiều, và nó phù hợp cho các trang mà độ nhiễu trong các trang khác nhau là khôngquá lớn Việc so sánh ngữ nghĩa của các từ khóa tốt là thành công cho phương phápnày.
Trang 282.3 Gán từ khóa trong văn bản, web (keyword assignment)
Các phương pháp nêu trên là các phương pháp dùng để trích xuất từ khóa(keyword extraction) [29][9][28] Trong khi đó có một phương pháp cũng đã được sửdụng nhiều trong trang web, và cả văn bản đó là phương pháp gán từ khóa Việc gán từkhóa chỉ là việc khớp các từ trong văn bản, web với các từ thuộc bộ từ điển có sẵn Từnhững trang cần sinh từ khóa, ta lấy ra những đoạn text trong trang web đó Dùng cáckĩ thuật tách từ, n-gram để khớp các từ khóa với các từ trong bộ từ điển có sẵn Giảipháp này được áp dụng nhiều trong các trang báo điện tử, các bản tóm tắt, để có thểkhớp một cách chính xác nhất Các từ được khớp chính là các từ trong từ điển nênchúng sẽ không bị sai về mặt ngữ pháp, hay lộn xộn về mặt từ vựng
2.4 Tổng kết chương
Chương này đã giới thiệu những phương pháp cơ bản để giải quyết bài toántrích xuất từ khóa trong văn bản cũng như đối với Web Các phương pháp này hiệuquả đối với một số miền, và có thể áp dụng trong nhiều bài toán khác nữa Trongchương tiếp, tôi xin trình bày về hướng giải quyết bài toán sinh từ khóa trên các trangweb, xây dựng mô hình.
Trang 29Chương 3 Hướng giải quyết và đề xuất mô hình bài toán
3.1 Hướng giải quyết
Như đã đề cập ở chương II, nhiều phương pháp đã được áp dụng trên thực tế vàcó kết quả tốt như : sử dụng log, độ tương đồng từ Tuy nhiên, các phương pháp nàychỉ hiệu quả với các trang Web tiếng Anh Các máy tìm kiếm có lợi thế khi họ lưu trữđược những bộ log rất lớn, ghi lại các giao dịch của người dùng trong nhiều năm Vìvậy, việc tìm kiếm trong log sẽ rất hữu hiệu cho các doanh nghiệp tìm ra các từ khóahướng người sử dụng Còn các phương pháp áp dụng học máy, thì giá phải trả là họphải có tập huấn luyện, thời gian chạy khá lâu Kết quả tốt thì tập dữ liệu huấn luyệnphải tốt Các phương pháp sử dụng tần số đơn thuần thể hiện không hiệu quả do chỉxét tần số mà chưa tính đến độ quan trọng trong văn bản Web Một thách thức khác đặtra với tiếng Việt chính là việc tách các cụm từ
Không những chỉ có văn bản thông thường được hiển thị, web còn chứa đựngtrong nó nhiều các đặc trưng khác mà rất quan trọng cho bài toán sinh từ khóa Dưới
đây là hai hướng tiếp cận chính của tôi trong khóa luận đó là: sử dụng độ quan trọngcủa các thẻ trong HTML và đồ thị web Hai hướng này là chủ đạo có thể áp dụng với
các loại trang web tiếng Việt và tiếng Anh Tuy nhiên, phương pháp đồ thị web dophải xử lý nhiều nên phù hợp hơn với các trang chủ, các web portal Bên cạnh hai
phương pháp trên, tôi còn ứng dụng thêm hai phương pháp đó là : query log, và từđiển (bài toán gán từ khóa) Do log chỉ giới hạn một số trang và với ngôn ngữ xác
đinh, nên nó chỉ là thành phần hỗ trợ nhằm nâng cao kết quả cho các trang web tronglog Còn bài toán gán từ khóa là các từ trong từ điển tiếng Việt, thì nó chỉ phù hợp choviệc gán từ khóa cho các văn bản ngắn, các đoạn tóm tắt bằng tiếng Việt Sau đây tôixin trình bày các phương pháp đã đề cập ở trên.
3.1.1 Sử dụng độ quan trọng của các thẻ trong HTML
Theo Wikipedia [3] HTML (tên Tiếng Anh viết tắt của HyperText MarkupLanguage hay “ngôn ngữ đánh dấu siêu văn bản”) là một ngôn ngữ đánh dấu đượcthiết kế nhằm mục đích hiển thị các thông tin khác nhau lên trên trình duyệt Với ngônngữ HTML, chúng ta có thể biểu diễn trang web một cách sinh động, tùy thích vớinhiều màu sắc, điểm nhấn, cấu trúc khác nhau HTML bây giờ đã trở thành chuẩn củatổ chức World Wide Wed Consortium (W3C) duy trì, và được mọi trình duyệt phảithiết kế theo Các file HTML có chứa các thẻ đánh dấu, nghĩa là các chỉ thị cho