5.6 .Tổng kết chƣơng
6.3. Thuộc tính nhĩm xâu con chính
Với Corpus D={ d1, d2, …, dm } với kích thƣớc n, kích thƣớc ở đây hiểu là số kí tự trong D, 1 m k k n d
, sẽ chứa khoảng n(n+1)/2 xâu con. Các xâu này cĩ thể đƣợc chia thành các nhĩm tƣơng đƣơng thống kê. Tất cả những xâu con trong một nhĩm tƣơng đƣơng đều cĩ sự phân bổ nhƣ nhau trong tập văn bản, vì vậy khơng cần thiết phải phân biệt chúng trong học máy thống kê. Chính vì thế, một nhĩm các xâu cĩ thể đƣợc xem là một thuộc tính đơn. Với mục đích rút gọn lại hơn nữa kích thƣớc của khơng gian thuộc tính, ta sẽ lọc các nhĩm
xâu con dựa trên một số tiêu chuẩn thống kê. Cấu trúc dữ liệu cây hậu tố đƣợc sử dụng để giải quyết vấn đề này một cách rất hiệu quả.
6.3.1. Các nhĩm xâu con
Khĩ khăn lớn nhất trong việc sử dụng các phƣơng pháp học phân biệt cho việc phân loại văn bản là số lƣợng quá lớn các xâu con trong tập Corpus huấn luyện D. Tuy nhiên, bằng cách kiểm tra cây hậu tố T của tập văn bản D, ta cĩ thể thấy là tất cả các xâu con thuộc D cĩ thể đƣợc phân cụm thành một số tƣơng đối nhỏ các nhĩm tƣơng đƣơng, dựa trên các điểm tƣơng đồng trong T.
Định nghĩa 5: [30]
Mỗi xâu con P trong D sẽ phải cĩ một điểm tƣơng ứng trên T, nên sẽ tƣơng ứng với nốt P . Ta định nghĩa nhĩm xâu con SGv tƣơng ứng với nút v trong T
là tập hợp các xâu con {Pj|Pj = v}.
Ý tƣởng chính ở đây là, thay vì coi các xâu con nhƣ là những thuộc tính (cách này yêu cầu mức độ tính tốn rất cao, do số lƣợng thuộc tính rất lớn), ta sẽ sử dụng các nhĩm xâu con. Khả năng giảm bớt mức độ phức tạp tính tốn cĩ thể đạt đƣợc qua định lí sau.
Định lý 4: [30]
Các xâu con trong một nhĩm SGv sẽ cĩ sự phân bổ giống nhau trên D. Tức là: nếu một xâu con P SGv xuất hiện trong văn bản d thuộc D f lần, thì bất kì xâu con P’ SGv cũng sẽ xuất hiện trong văn bản d đĩ f lần.
Hầu hết mọi phƣơng pháp học máy sử dụng trong phân loại văn bản chỉ yêu cầu các thống kê các thuộc tính nhƣ tần xuất của từ (TF) và tần xuất văn bản (DF), để huấn luyện các chƣơng trình phân loại. Dựa vào Định lý 4, khơng cần thiết phải phân biệt các xâu con trong cùng một nhĩm khi áp dụng học máy. Nĩi cách khác, một nhĩm các xâu con cĩ thể đƣợc coi nhƣ là một thuộc tính duy nhất.
Do tất cả các xâu con trong cùng một nhĩm SGv đều cĩ số lần xuất hiện nhƣ nhau trong tập văn bản D, ta gọi đĩ tần số đĩ là tần số xuất hiện của SGv, đƣợc biểu thị bằng freq(SGv). Dựa vào Định lý 3, ta biết rằng freq(SGv) bằng số lá trong cây con của T cĩ gốc là v.
Định lý 5: [30] Các nhĩm xâu con tƣơng ứng với các nút trong của T (khơng phải gốc, r) chia cắt tập hợp tất cả các xâu con trong văn bản D.
Định lý 6: [30]
Giả sử Corpus D={ d1, d2, …, dm } cĩ kích thƣớc n, n=
m
k 1dk , khi đĩ, tồn tại n nhĩm tầm thƣờng mà các xâu con của nĩ xuất hiện chỉ một lần trong D, và nhiều nhất n-1 nhĩm khơng tầm thƣờng.
Mặc dù cĩ n(n+1)/2 xâu con con trong D, nhƣng chỉ cĩ n nhĩm tầm thƣờng và n-1 nhĩm xâu con khơng tầm thƣờng. Ngồi ra, khơng cần thiết phải sử dụng các nhĩm xâu tầm thƣờng làm thuộc tính, vì chúng chỉ xuất hiện một lần trong D nên chúng khơng hữu ích trong việc huấn luyện các chƣơng trình phân loại.
Nhƣ vậy ta cĩ thể làm gọn đi một cách đáng kể kích thƣớc của khơng gian thuộc tính bằng cách sử dụng các nhĩm xâu làm các thuộc tính (thay bởi sử dụng các xâu con riêng rẽ).
6.3.2. Các nhĩm xâu con chính
Để thu nhỏ hơn nữa kích thƣớc của khơng gian thuộc tính, ta cĩ thể lọc các nhĩm xâu con bằng tiêu chuẩn sau:
-l: số lần xuất hiện nhỏ nhất. Một nhĩm xâu con SGv sẽ khơng đƣợc coi là một thuộc tính, nếu nĩ xuất hiện ít hơn l lần trong corpus. (6-1)
-h: số lần xuất hiện lớn nhất. Một nhĩm xâu con SGv sẽ khơng đƣợc coi là một thuộc tính, nếu nĩ xuất hiện nhiều hơn h lần trong tập văn bản. (6-2)
-b: Số lƣợng nhánh nhỏ nhất. Một nhĩm xâu con SGv sẽ khơng đƣợc coi là một thuộc tính, nếu nút tƣơng ứng v của nĩ cĩ ít hơn b nhánh. (6-3)
-p: Xác suất điều kiện cha-con lớn nhất. Một nhĩm xâu con SGv sẽ khơng đƣợc coi là một thuộc tính, nếu xác suất.
Pr[SGv|SGu] = freq(SGv)/freq(SGu) >= p, (6-4)
với u là nút cha của v.
-q: Xác suất điều kiện liên kết hậu tố lớn nhất. Một nhĩm xâu con SGv
sẽ khơng đƣợc coi là một thuộc tính nếu xác suất:
Pr[SGv|SGs(v)] = freq(SGv)/freq(SGs(v)) >= q, (6-5) với liên kết hậu tố của v trỏ tới s(v).
Tiêu chuẩn thứ nhất, theo (6-1) và thứ hai, theo (6-2), (-l và –h) bắt nguồn từ thực tế là trong các tài liệu sử dụng ngơn ngữ tự nhiên, các từ với tần xuất xuất hiện rất nhỏ hoặc rất lớn thƣờng ít cĩ tác dụng phân biệt.
Tiêu chuẩn thứ ba –b, (6-3), phản ánh sự phụ thuộc về mặt ngữ cảnh của các xâu con trong nhĩm đĩ. Những kí tự theo sau một xâu con càng đơn nhất, thì sự độc lập về mặt ngữ cảnh càng nhiều, nên càng thích hợp cho việc đƣợc coi là một thuộc tính.
Hai tiêu chuẩn cuối cùng (-p and –q), tính theo (6-4) và (6-5), cĩ mục đích loại bỏ những thuộc tính thừa. Thực tế, khả năng Pr[SGv|SGu] tỉ lệ thuận với MI (mutual information), tính theo (2-8), giữa SGv và SGu, trong khi tỉ lệ
Pr[SGv|SGs(v)] lại tỉ lệ thuận với MI (mutual information) giữa SGv và
SGs(v). Nếu hai nhĩm xâu con cĩ MI lớn, ta hồn tồn cĩ thể chỉ cần sử dụng một trong hai nhĩm làm thuộc tính.
Tần số thơng tin địi hỏi bởi những tiêu chuẩn trên cĩ thể đƣợc tính tốn một cách hiệu quả bằng cách sử dụng cây hậu tố T. [30]
Việc lọc các nhĩm xâu con dựa trên năm tiêu chuẩn trên khơng những giảm bớt kích thƣớc của khơng gian thuộc tính mà cịn hỗ trợ giải quyết bài tốn dƣ thừa cao (high redundancy problem) trong hàm nhân. Hơn nữa, do số lƣợng các thuộc tính nhĩm xâu con chính khá nhỏ, một vài kĩ thuật tính trọng số (nhƣ là TFIDF và một số phƣơng pháp tính trọng số khác, giới thiệu ở
chƣơng 2, cĩ thể đƣợc áp dụng một cách dễ dàng, giống nhƣ đối với việc phân loại văn bản dựa trên thuộc tính là các từ.
Cá nhĩm xâu con đƣợc chọn đƣợc gọi là nhĩm xâu con chính, chúng đƣợc sử dụng làm các thuộc tính, khiến việc sử dụng học phân biệt cho phân loại văn bản dựa trên xâu ký tự đƣợc dẽ dàng và hiệu quả hơn.
Các tiêu chí lựa chọn thuộc tính ở trên là khơng giám sát và khơng sử dụng nhãn của các văn bản. Sau đĩ, ta hồn tồn cĩ thể sử dụng những tiệu chuẩn lựa chọn thuộc tính cĩ giám sát hiệu quả hơn nhƣ Chi bình phƣơng-2,
trình bày ở 2.3.4, IG, trình bày ở 2.3.2, hoặc MI ở 2.3.3.