Biểu diễn văn bản HyperText theo mụ hỡnh Vector

Một phần của tài liệu Luận văn khai phá dữ liệu (datamining) (Trang 35 - 37)

Trong luận ỏn tiến sỹ, tỏc giả Sộan Slattery [May 2002_CMU-CS-02-142] đĩ đưa ra 4 cỏch biểu diễn theo mụ hỡnh Vector cho tài liệu HyperText

Cỏch 1

Bỏ qua tất cả cỏc thụng tin liờn kết giữa cỏc tài liệu lỏng giềng mà chỉ biểu diễn riờng nội dung tài liệu đang cần biểu diễn. Đõy là cỏch biểu diễn theo “tỳi cỏc từ”.

Nếu khẳng định được nội dung cỏc tài liệu lỏng giềng là hồn tồn độc lập với lớp thỡ cỏch biểu diễn này là sự lựa chọn tốt. Thực tế là cỏc tài liệu lỏng giềng cung cấp khỏ nhiều thụng tin hữu ớch cho việc phõn lớp, do vậy cỏch biểu diễn này là khụng hiệu quả.

Cỏch 2

Cỏch thức đơn giản nhất nhằm sử dụng nội dung cỏc tài liệu lỏng giềng là kết hợp nội dung tài liệu cần biểu diễn với nội dung mọi tài liệu lỏng giềng của nú để tạo ra một “super_document”. Khi đú, thành phần vector biểu diễn chớnh là tần suất xuất hiện của từ khúa trong “super_document”.

Hạn chế của cỏch biểu diễn này chớnh là việc xúa nhũa phõn biệt tài liệu đang xột với lỏng giềng của nú, và vỡ thế tạo nờn nhiều lộn xộn khi phõn lớp. Cỏch biểu diễn này chỉ tốt trong trường hợp cỏc tài liệu được trỏ tới cú cựng chủ đề với tài liệu cần phõn lớp.

Cỏch 3

Trong cỏch biểu diễn này, vector biểu diễn được chia thành hai phần: Phần đầu biểu diễn cỏc từ khúa trong chớnh tài liệu cần phõn lớp, phần sau biểu diễn cỏc từ khúa xuất hiện trong tất cả cỏc tài liệu lỏng giềng với nú.

Cỏch biểu diễn này khắc phục được nhược điểm của cỏch biểu diễn trước đú là trỏnh làm mờ nhạt tài liệu đớch với cỏc tài liệu lỏng giềng. Nếu cỏc tài liệu lỏng giềng hữu ớch cho việc phõn lớp thỡ cú thể dễ dàng truy cập đến nội dung của chỳng. Tuy nhiờn cỏch biểu diễn này cú nhược điểm là số chiều của Vector lớn.

Cỏch 4

Cỏch biểu diễn này được thể hiện qua cỏc nội dung sau:

- Tỡm số lượng trang lỏng giềng trong tồn bộ văn bản hypertext đang xem xột, giả sử cú d là số lượng lỏng giềng.

- Cấu trỳc vector biểu diễn thành d+1 phần:

Phần đầu tiờn biểu diễn trực tiếp tài liệu cần phõn lớp.

Từ phần thứ 2 đến phần d+1 biểu diễn cỏc tài liệu lỏng giềng, mỗi phần tương ứng với một lỏng giềng.

Dễ nhận thấy vector nhận được là rất lớn và mặt khỏc, lại khụng tũn theo một quy tắc duy nhất. Tồn tại nhiều cỏch chọn thứ tự từ phần thứ 2 trở đi. Chớnh vỡ sự đa dạng trong cỏch biểu diễn của phương phỏp này đĩ gõy khú khăn trong việc lựa chọn mẫu dữ liệu để xõy dựng

Qua cỏc cỏch biểu diẽn trờn, chỳng ta đưa ra một số nhận xột về cỏch biểu diễn văn bản HyperText theo mụ hỡnh Vector như trỡnh bày dưới đõy.

Ưu điểm:

- Khai thỏc được thụng tin tiềm năng của cỏc siờu liờn kết.

- Biểu diễn được tần số xuất hiện của cỏc từ, nờn cú khả năng thực hiện chức năng tỡm kiếm văn bản theo “Độ gần nhau về nội dung”

Nhược điểm :

- Khụng biểu diễn được vị trớ xuất hiện của cỏc từ. Dẫn đến bỏ qua cỏc thụng tin để lấy được độ quan trọng của từ khúa, như nếu từ khúa xuất hiện ở tiờu đề hay trong cỏc thẻ in đậm sẽ quan trọng hơn ở cỏc vị trớ khỏc

- Số chiều của Vector là rất lớn

Một phần của tài liệu Luận văn khai phá dữ liệu (datamining) (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(54 trang)