3. Bố cục và cấu trúc của luận văn
6.3.1. Các nhóm xâu con
Khó khăn lớn nhất trong việc sử dụng các phƣơng pháp học phân biệt cho việc phân loại văn bản là số lƣợng quá lớn các xâu con trong tập Corpus huấn luyện D. Tuy nhiên, bằng cách kiểm tra cây hậu tố T của tập văn bản D, ta có thể thấy là tất cả các xâu con thuộc D có thể đƣợc phân cụm thành một số tƣơng đối nhỏ các nhóm tƣơng đƣơng, dựa trên các điểm tƣơng đồng trong T.
Định nghĩa 5: [30]
Mỗi xâu con P trong D sẽ phải có một điểm tƣơng ứng trên T, nên sẽ tƣơng ứng với nốt P . Ta định nghĩa nhóm xâu con SGv tƣơng ứng với nút v trong T
là tập hợp các xâu con {Pj|Pj = v}.
Ý tƣởng chính ở đây là, thay vì coi các xâu con nhƣ là những thuộc tính (cách này yêu cầu mức độ tính toán rất cao, do số lƣợng thuộc tính rất lớn), ta sẽ sử dụng các nhóm xâu con. Khả năng giảm bớt mức độ phức tạp tính toán có thể đạt đƣợc qua định lí sau.
Định lý 4: [30]
Các xâu con trong một nhóm SGv sẽ có sự phân bổ giống nhau trên D. Tức là: nếu một xâu con P SGv xuất hiện trong văn bản d thuộc D f lần, thì bất kì xâu con P’SGv cũng sẽ xuất hiện trong văn bản d đó f lần.
Hầu hết mọi phƣơng pháp học máy sử dụng trong phân loại văn bản chỉ yêu cầu các thống kê các thuộc tính nhƣ tần xuất của từ (TF) và tần xuất văn bản (DF), để huấn luyện các chƣơng trình phân loại. Dựa vào Định lý 4, không cần thiết phải phân biệt các xâu con trong cùng một nhóm khi áp dụng học máy. Nói cách khác, một nhóm các xâu con có thể đƣợc coi nhƣ là một thuộc tính duy nhất.
Do tất cả các xâu con trong cùng một nhóm SGv đều có số lần xuất hiện nhƣ nhau trong tập văn bản D, ta gọi đó tần số đó là tần số xuất hiện của SGv, đƣợc biểu thị bằng freq(SGv). Dựa vào Định lý 3, ta biết rằng freq(SGv) bằng số lá trong cây con của T có gốc là v.
Định lý 5: [30] Các nhóm xâu con tƣơng ứng với các nút trong của T (không phải gốc, r) chia cắt tập hợp tất cả các xâu con trong văn bản D.
Định lý 6: [30]
Giả sử Corpus D={ d1, d2, …, dm } có kích thƣớc n, n=
m
k 1dk , khi đó, tồn tại n nhóm tầm thƣờng mà các xâu con của nó xuất hiện chỉ một lần trong D, và nhiều nhất n-1 nhóm không tầm thƣờng.
Mặc dù có n(n+1)/2 xâu con con trong D, nhƣng chỉ có n nhóm tầm thƣờng và n-1 nhóm xâu con không tầm thƣờng. Ngoài ra, không cần thiết phải sử dụng các nhóm xâu tầm thƣờng làm thuộc tính, vì chúng chỉ xuất hiện một lần trong D nên chúng không hữu ích trong việc huấn luyện các chƣơng trình phân loại.
Nhƣ vậy ta có thể làm gọn đi một cách đáng kể kích thƣớc của không gian thuộc tính bằng cách sử dụng các nhóm xâu làm các thuộc tính (thay bởi sử dụng các xâu con riêng rẽ).