Các nhóm xâu con chính

3. Bố cục và cấu trúc của luận văn

6.3.2. Các nhóm xâu con chính

Để thu nhỏ hơn nữa kích thƣớc của không gian thuộc tính, ta có thể lọc các nhóm xâu con bằng tiêu chuẩn sau:

-l: số lần xuất hiện nhỏ nhất. Một nhóm xâu con SGv sẽ không đƣợc coi là một thuộc tính, nếu nó xuất hiện ít hơn l lần trong corpus. (6-1)

-h: số lần xuất hiện lớn nhất. Một nhóm xâu con SGv sẽ không đƣợc coi là một thuộc tính, nếu nó xuất hiện nhiều hơn h lần trong tập văn bản. (6-2)

-b: Số lƣợng nhánh nhỏ nhất. Một nhóm xâu con SGv sẽ không đƣợc coi là một thuộc tính, nếu nút tƣơng ứng v của nó có ít hơn b nhánh. (6-3)

-p: Xác suất điều kiện cha-con lớn nhất. Một nhóm xâu con SGv sẽ không đƣợc coi là một thuộc tính, nếu xác suất.

Pr[SGv|SGu] = freq(SGv)/freq(SGu) >= p, (6-4) với u là nút cha của v.

-q: Xác suất điều kiện liên kết hậu tố lớn nhất. Một nhóm xâu con SGv

sẽ không đƣợc coi là một thuộc tính nếu xác suất:

Pr[SGv|SGs(v)] = freq(SGv)/freq(SGs(v)) >= q, (6-5) với liên kết hậu tố của v trỏ tới s(v).

Tiêu chuẩn thứ nhất, theo (6-1) và thứ hai, theo (6-2), (-l và –h) bắt nguồn từ thực tế là trong các tài liệu sử dụng ngôn ngữ tự nhiên, các từ với tần xuất xuất hiện rất nhỏ hoặc rất lớn thƣờng ít có tác dụng phân biệt.

Tiêu chuẩn thứ ba –b, (6-3), phản ánh sự phụ thuộc về mặt ngữ cảnh của các xâu con trong nhóm đó. Những kí tự theo sau một xâu con càng đơn nhất, thì sự độc lập về mặt ngữ cảnh càng nhiều, nên càng thích hợp cho việc đƣợc coi là một thuộc tính.

Hai tiêu chuẩn cuối cùng (-p and –q), tính theo (6-4) và (6-5), có mục đích loại bỏ những thuộc tính thừa. Thực tế, khả năng Pr[SGv|SGu] tỉ lệ thuận với MI (mutual information), tính theo (2-8), giữa SGv và SGu, trong khi tỉ lệ

Pr[SGv|SGs(v)] lại tỉ lệ thuận với MI (mutual information) giữa SGv và

SGs(v). Nếu hai nhóm xâu con có MI lớn, ta hoàn toàn có thể chỉ cần sử dụng một trong hai nhóm làm thuộc tính.

Tần số thông tin đòi hỏi bởi những tiêu chuẩn trên có thể đƣợc tính toán một cách hiệu quả bằng cách sử dụng cây hậu tố T. [30]

Việc lọc các nhóm xâu con dựa trên năm tiêu chuẩn trên không những giảm bớt kích thƣớc của không gian thuộc tính mà còn hỗ trợ giải quyết bài toán dƣ thừa cao (high redundancy problem) trong hàm nhân. Hơn nữa, do số lƣợng các thuộc tính nhóm xâu con chính khá nhỏ, một vài kĩ thuật tính trọng số (nhƣ là TFIDF và một số phƣơng pháp tính trọng số khác, giới thiệu ở

chƣơng 2, có thể đƣợc áp dụng một cách dễ dàng, giống nhƣ đối với việc phân loại văn bản dựa trên thuộc tính là các từ.

Cá nhóm xâu con đƣợc chọn đƣợc gọi là nhóm xâu con chính, chúng đƣợc sử dụng làm các thuộc tính, khiến việc sử dụng học phân biệt cho phân loại văn bản dựa trên xâu ký tự đƣợc dẽ dàng và hiệu quả hơn.

Các tiêu chí lựa chọn thuộc tính ở trên là không giám sát và không sử dụng nhãn của các văn bản. Sau đó, ta hoàn toàn có thể sử dụng những tiệu chuẩn lựa chọn thuộc tính có giám sát hiệu quả hơn nhƣ Chi bình phƣơng-2,

trình bày ở 2.3.4, IG, trình bày ở 2.3.2, hoặc MI ở 2.3.3.

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF