Sử dụng đồ thị web - Bài toán trích xuất từ khoá c- 123docz.net

3.1.2.1. Định nghĩa đồ thị Web

Các trang web ngồi các đặc trưng về sự hiển thị trên trình duyệt qua ngơn ngữ HTML mà chúng cịn cĩ sự liên kết, kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web. Đồ thị Web là một đồ thị cĩ hướng gồm các đỉnh là các trang web (các trang tĩnh), và cĩ cung nối từ trang A đến trang B nếu từ trang A cĩ liên kết đến trang B. Liên kết trong trang web được thể hiện qua thẻ <a href= “B” > của HTML(Hình 6). Thuộc tính href= “B” của thẻ <a> cĩ giá trị B chính là địa chỉ của trang B. Chính vì các trang web trên Internet hiện nay là rất lớn, và cĩ rất nhiều liên kết, nên việc tạo được một đồ thị web cho liên quan đến các trang lớn địi hỏi nhiều thời gian và phức tạp.

</p> </body> </html>

Mạng của các liên kết trong đồ thị web đã làm cho nâng cao, cải thiện việc tìm kiếm trên mạng và làm cho việc phân lớp chính xác hơn và đánh giá được các trang mới nhất trên cộng đồng mạng . Hơn thế nữa các liên kết này cịn là một nguồn thơng tin cung cấp dồi dào phục vụ cho các ngành khoa học xã hội. Và bên cạnh đĩ, nĩ cịn giúp đánh giá được các đường đi tồn tại trong đồ thị web này nhằm phục vụ việc gợi ý cho người dùng.

Đồ thị web cĩ rất nhiều ứng dụng trong việc khai phá web, là cơ sở để các máy tìm kiếm đánh hạng trang (thuật tốn HITS), phân tích hành vi người dùng, hỗ trợ bài tốn crawling...

3.1.2.2. Nội dung của phương pháp

Trong các trang web cĩ các liên kết đến các trang web khác, và cĩ nhiều trang khác cĩ link liên kết đến các trang này. Trong các trang web, liên kết được thể hiện qua thẻ <a>. Trang A cĩ các liên kết đến tập các trang khác và trong một số trường hợp tập các trang này liên quan đến trang A, nhưng nhiều trường hợp tập các trang lại khơng liên quan nhiều đến trang A đĩ. Đặc biệt đối với các trang chủ, trang tổng hợp thì cĩ rất nhiều liên kết tới khơng liên quan. Trong khi đĩ, một phần nội dung của những trang trỏ đến trang A lại liên quan đến trang A.

Những người soạn thảo web khi tạo liên kết đến một trang nào, họ luơn dùng một vài từ đặc trưng đến trang web họ muốn trỏ tới, rồi đặt thẻ <a> liên kết đến trang đĩ. Vì vậy, chính những phần hiển thị (của phần liên kết trỏ tới các trang) trên trình duyệt nĩi lên phần nào suy nghĩ của người khác về trang đang được hướng tới. Trong liên kết web của trang THPT-NTT3 (Hình 7), ta thấy được cách đặt phần hiển thị cho một số trang báo nổi tiếng. Giả dụ ở đây, nếu ta muốn sinh từ khĩa cho trang dân trí4 , dựa vào phần

3http://thpt-nguyentrungtruc-tphcm.edu.vn/ 4http://dantri.com.vn A C B D <a href= ‘B’>

hiển thị là “Đọc báo trực tuyến Dân Trí” ta cĩ thể trích xuất ra các từ khĩa như : đọc báo, trực tuyến, dân trí.... Nếu phân tích nhiều trang khác trỏ đến trang dân trí này thì kết quả sẽ cho cao hơn.

Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khĩa

Trong khĩa luận này, tơi áp dụng các liên kết trỏ đến các trang cần sinh từ khĩa.

Vậy làm sao để cĩ thể tìm được một trang cĩ liên kết đến trang ta muốn sinh từ khĩa?

Những trang cĩ liên kết đi thì dễ dàng tìm thấy khi chỉ phải phân tích nội dung của chính văn bản HTML và nhận dạng các thẻ <a>. Để tìm được các link liên kết đến trang cần sinh từ khĩa, tơi sử dụng cơng cụ máy tìm kiếm như google, yahoo, altavista để tìm ra các link trỏ đến trang web mà ta đang muốn cĩ từ khĩa. Câu truy vấn trong các máy tìm kiếm để tìm ra tập các trang trỏ đến một trang cĩ dạng “link:A”. Với câu truy vấn này các máy tìm kiếm sẽ trả về tập các trang web cĩ liên kết trỏ đến trang “A” này. Hình 8, là tập các trang web trả về từ máy tìm kiếm google cĩ liên kết đến trang

http://vnexpress.net/.

Hình 8. Kết quả trả về của máy tìm kiếm Google cĩ liên kết trỏ tới trang vnexpress

Qua việc xử lý kết quả trả về qua các máy tìm kiếm, chúng ta kết nối, tải các trang liên quan này về rồi phân tích cấu trúc của các trang web này. Dựa vào thẻ <a>(anchor text)

phần hiển thị của thẻ <a> đĩ, xử lý chúng để tìm ra từ khĩa. Do kết quả của các máy tìm kiếm trả về cĩ những trang với tập kết quả rất lớn, nên cĩ thể dùng số lượng các từ khĩa để giới hạn việc tải các trang web về. Việc sử dụng máy tìm kiếm làm cơng cụ trung gian khơng những giúp tìm các trang cĩ liên kết đến trang ta cần sinh từ khĩa, mà cịn giảm đi lượng lớn các trang khơng đúng, thiếu tin cậy nhờ vào thứ hạng của máy tìm kiếm.

Tuy nhiên phương pháp này sẽ cĩ tác dụng đối với các trang cĩ liên kết đến. Đối với các trang khơng nổi tiếng, hay khơng cĩ link đến thì sẽ khơng tìm được các trang liên quan, và khơng cĩ kết quả.

3.1.3. Sử dụng query log

Các máy tìm kiếm hàng ngày phải trả lời yêu cầu của người dùng rất nhiều. Và những thơng tin của người dùng cũng rất hữu hiệu cho việc tìm từ khĩa cho các trang web. Đối với các người quản trị web thì họ cĩ thể tự tìm được những từ khĩa cho trang web của mình. Nhưng đơi khi chính họ cũng khơng thể biết được những suy nghĩ mà người dùng nghĩ tới trang web của mình như thế nào. Chính vì vậy, những nhận xét của số đơng người dùng sẽ là một phương pháp hữu hiệu để sinh từ khĩa một cách đại trà nhất theo cách hiểu của người dùng. Như đã đề cập ở chương I, các máy tìm kiếm cĩ một lợi thế khi họ ghi lại quá trình sử dụng của người dùng để cĩ thể hướng đến chủ đề người dùng quan tâm, hay cách nghĩ của họ về các trang web. Trong các máy tìm kiếm cĩ các bộ log ghi lại tồn bộ thơng tin truy cập, tra cứu của người dùng khi dùng. File này được lưu lại cĩ các trường như: ngày tháng, phiên giao dịch, query truy vấn, url được click, browser...Dưới đây là ví dụ một phần của log của máy tìm kiếm MSN ( dung lượng ~ 1.3Gb) mà tơi cũng dùng làm thực nghiệm( Bảng 3):

Bảng 3. Ví dụ về các trường trong querylog của MSN

Time Query QueryID SessionID URL Result

count 1 2006-05-01 00:00:03 us geography f6f710aa27 014dac 1cb8398abb3 54112 http://www.sheppardsoftwa re.com/ 20 2 2006-05-01 00:00:04 msn groups ba6d190cc 4cd4fd3 136fd5e571d 24886 http://groups.msn.com/ 10 3 2006-05-01 00:00:05 internal drive a0f7737bb 44c46d5 0ff87b8bdbac 406d http://www.internaldrive.com/ 12

Hàng ngày số người tìm kiếm trên các máy tìm kiếm là rất nhiều, cho nên các file lưu trữ này thường rất lớn. Chúng ta quan tâm đến 2 trường query và url được click vào để giải quyết bài tốn trích xuất từ khĩa. Khi đưa trang web cần sinh từ khĩa vào, nhiệm vụ đặt ra cần tìm các query mà đã dùng máy tìm kiếm rồi truy nhập vào trang này. Các

từ khĩa sinh ra sẽ dựa vào tần số xuất hiện của các từ trong query. Vì đã qua bước xử lý của máy tìm kiếm, nên kết quả thường cĩ kết quả khá chính xác. Tuy nhiên, những kết quả trả về của số đơng cho nên giá của các từ khĩa trên máy tìm kiếm thường đắt.

3.1.4. Sử dụng từ điển hỗ trợ

Đối với những trang tin tức, hay báo chí là những bài viết về một chủ đề. Chúng ta cĩ thể áp dụng phương pháp gán từ khĩa cho văn bản này bằng cách so khớp các từ trong văn bản với những từ hiện cĩ trong từ điển. Sự phong phú, chính xác của từ điển cũng dẫn đến sự chính xác, đa dạng trong cách sinh từ khĩa. Các từ khĩa này sinh ra do đã qua từ điển nên chúng cĩ ý nghĩa rõ ràng, rành mạch. Tuy nhiên, phương pháp này sẽ tốn nhiều thời gian nếu từ điển là lớn, và văn bản áp dụng dài. Nĩ đặc biệt hữu ích với các trang cĩ các phần tĩm tắt, và nhiệm vụ chỉ là sinh từ khĩa cho một đoạn văn tĩm tắt. Trang báo điện tử báo mới5 là một trong những trang web đã cĩ phần sinh từ khĩa này trong các tĩm tắt văn bản .

3.2. Đề xuất mơ hình bài tốn

3.2.1. Mơ hình tồn hệ thống

 Internet: ở đây ta sẽ dùng một miền xác định(như 1 thư mục của máy tìm kiếm)  Mơ đun Crawler1: Cĩ nhiệm vụ lấy về nội dung tồn bộ các trang web và sao

lưu thành tập các trang web. Tập các trang web này chính là tập các trang để hệ thống sinh từ khĩa

Internet Crawler1Mơ đun trang webtập các

Mơ đun crawler2 (sử dụng google, yahoo,altavista )

Tập các trang web cĩ link

trỏ tới

Mơ đun sinh từ khĩa Tập các từ khĩa (với mỗi

trang web)

Kết quả

 Mơ đun Crawler2: Dựa vào máy tìm kiếm google, yahoo, mơ đun lấy về tồn bộ các trang web mà trong nĩ cĩ liên kết trỏ đến những trang ta cần sinh từ khố (tơi chỉ quan tâm thẻ a cĩ địa chỉ chính xác như domain của trang web cần phân tích).  Mơ đun sinh từ khĩa : mơ đun cĩ nhiệm vụ sinh từ khĩa dựa vào các nguồn dữ

liệu khác nhau (nội tại trang web, đồ thị web). Mơ đun này được chia ra làm các mơ đun nhỏ hơn ứng với các phương pháp.

Ngồi ra, tơi cũng đề xuất thêm các mơđun sinh từ khĩa qua phân tích log (đối với các trang web tiếng Anh) và mơ đun sinh từ khĩa gán qua từ điển(đối với các trang ngắn bằng tiếng Việt). Mơ hình cho các phương pháp bổ sung được trình bày ở phần

“3.2.3.3. Các phương pháp hỗ trợ”.

3.2.2. Mơ đun Crawler

Gồm hai mơ đun: Crawler1, Crawler2 cĩ chung nhiệm vụ là tải các trang web về dựa theo việc phân tích liên kết trong nội dung của các trang. Mơ đun Crawler1 tải các trang từ một thư mục trên Internet, cịn mơ đun Crawler2 dựa vào máy tìm kiếm để tải các trang về.

a. Mơ đun Crawler1 - Yêu cầu:

 input: địa chỉ của một trang web cĩ chứa địa chỉ của tập các trang web cần sinh từ khĩa( ví dụ như 1 thư mục trong các máy tìm kiếm).

 output: Tải về nội dung của các trang cĩ địa chỉ trong trang thư mục đĩ, kể cả các thư mục con của nĩ.

- Quy trình thực thi:

 Bước 1: Tải trang web của thư mục cần lấy về.

 Bước 2: Phân tích nội dung trang này, lấy về các địa chỉ cần sinh từ khĩa.  Bước 3: Tải các trang cần sinh từ khĩa cĩ địa chỉ vừa lấy được.

 Bước 4: Đưa địa chỉ các thư mục khác liên quan rồi quay lại bước 2. Lặp cho đến khi khơng cịn trang web, hoặc đạt đến số trang cần lấy.

b. Mơ đun Crawler2 - Yêu cầu:

 input: địa chỉ trang web cần sinh từ khĩa

 output: Tải về nội dung của các trang cĩ liên kết đến trang web này. - Quy trình thực thi:

 Gửi yêu cầu đến các cơng cụ tìm kiếm là google, yahoo, altavista. Yêu cầu dạng : “link:A” (với A là địa chỉ trang web cần sinh từ khĩa).

 Phân tích nội dung các trang này, tìm các địa chỉ và tải các trang về. Lặp lại để tìm được số lượng trang phù hợp.

Để tiết kiệm bộ nhớ khơng phải lưu nội dung các trang khi tải về, cĩ thể kết hợp việc tải các trang và xử lý sinh từ khĩa cùng lúc.

3.2.3. Mơ đun sinh từ khĩa

Đây là mơ đun chính, sử dụng các phương pháp khác nhau. Phương pháp chủ đạo dành cho các trang web là sử dụng độ quan trọng của các thẻ HTML và đồ thị web. Phương pháp khai phá log hỗ trợ, nâng cao chất lượng của từ khĩa. Phương pháp sử dụng từ điển hỗ trợ chỉ sử dụng đối với một số tĩm tắt văn bản, hay những văn bản ngắn.

3.2.3.1. Mơ đun sử dụng trọng số thẻ HTML

- Nhiệm vụ :

+ input: tập các trang web cần sinh từ khố. + output: tập các từ khố.

Kĩ thuật sử dụng là dùng những thơng tin nội tại trong trang web, xét độ quan trọng của các thẻ khác nhau trong tập văn bản HTML để sinh từ khĩa. Các từ xuất hiện trong thẻ nào thì nĩ sẽ cĩ giá trị là trọng số của thẻ đĩ. Nếu một từ xuất hiện trong các

Tập các trang web Tập các trang cĩ liên kết trỏ đến Mơ đun sử dụng trọng số thẻ HTML Mơ đun tìm từ khĩa sử dụng đồ thị web Tập từ khĩa 1 Tập từ khĩa 2 Tổng hợp từ khĩa Tập các từ khĩa Tập từ khĩa từ log Tập từ khĩa (từ điển)

Đối với các trang Web tiếng Việt thì sử dụng mơ đun tách từ, cịn các trang tiếng Anh cĩ thể bỏ qua các trang tách từ. Trong giai đoạn tách từ, các từ dừng sẽ được loại bỏ để tránh nhiễu.

- Mơ hình chi tiết: Nội dung của thẻ(<a>) Nội dung của thẻ (<b> Nội dung của thẻ

Sử dụng tách câu, tách từ(Tiếng Việt)

Tập các từ(a) Tập các từ (b) Tập các từ(u) Tập các từ (tồn bộ Thống kê từ cĩ trọng số cao Trọng số thẻ b Tập trang web HTML parser Nội dung tồn bộ Tập từ khĩa (thẻ HTML)

- Quá trình thực thi:

+ Với đầu vào là tập các trang web cần sinh từ khố. Ở mỗi thời điểm ta chọn 1 trang để sinh từ khố.

+ Trang dưới dạng HTML được đưa qua bộ phân tích cú pháp HTML(HTML parser).

+ Đối với từng thẻ xác định (chỉ đề cập đến một số thẻ quan trọng) lấy ra nội dung của nĩ. Cùng với đĩ ta cũng lấy tồn bộ text của trang web (vì trong các tag quan trọng khơng cĩ p, div...)

+ Nội dung sau khi được trích ra đi qua bộ phân tích để tách câu, tách từ (đối với tiếng Việt).

+ Với mỗi thẻ trong HTML cĩ trọng số khác nhau. Gán trọng số cho mỗi thẻ, nếu từ nào trong thẻ nào thì nhận trọng số của thẻ đĩ, nếu từ nằm trong nhiều thẻ thì cộng các giá trị lại với nhau.

+ Qua thống kê loại bỏ những trọng số quá yếu đi => tâp các từ khĩa (thẻ HTML)

3.2.3.2. Mơ đun sử dụng đồ thị web

- Nhiệm vụ: Bởi vì những trang trỏ đến những trang khác thì nĩ cĩ khả năng nĩi lên được một cách ngắn gọn về trang đĩ. Nhiệm vụ của mơ đun nhằm tìm ra những từ là nội dung của các thẻ a liên kết đến trang ta cần sinh tag.

- Mơ hình chi tiết:

- Quy trình thực thi:

+ Đầu vào là một tập các trang web cĩ liên kết đến trang cần tìm khố. + Chỉ quan tâm domain, khơng quan tâm những link sub domain.

Tập các trang cĩ liên kết tới

HTML Parser Địa chỉ trang

Nội dung của thẻ <a>

cĩ href=địa chỉ trang Tập từ khĩa (đồ thị web)

+ Với mỗi trang dùng HTML parser

+ lấy ra nội dung của các thẻ a mà cĩ href trỏ trực tiếp đến trang ta quan tâm. + Loại bỏ trùng lặp=> tập các từ khĩa (đồ thị web) sử dụng tần số.

3.2.3.3. Các phương pháp hỗ trợ

Cĩ hai phương pháp nhằm hỗ trợ nâng cao chất lượng từ khĩa sinh ra là: sử dụng log của máy tìm kiếm, sử dụng từ điển hỗ trợ. Hai phương pháp này giới hạn về ngơn ngữ, và loại trang web sử dụng.

3.2.3.3.1. Phương pháp sử dụng log

- Yêu cầu: cĩ log của các máy tìm kiếm, chèn chúng vào cơ sở dữ liệu thì truy vấn kết quả sẽ nhanh hơn. Các trang web phù hợp với ngơn ngữ được dùng trong log.

- Nhiệm vụ:

+ input: địa chị trang web cần sinh từ khĩa.