Xử lý tài liệu

CHƢƠNG 1 : KHAI PHÁ DỮ LIỆU

2.4. Mơ hình hệ thống

2.4.4. Xử lý tài liệu

Thơng thƣờng một tài liệu, trƣớc khi đƣợc lƣu trữ và phân loại, bao giờ cũng phải trải qua những bƣớc tiền xử lý. Mục đích là đƣa tài liệu về dạng mang nhiều thong tin và đơn giản hơn, thuận tiện cho quá trình xử lý sau này. Tài liệu ở đây là các tin tức đƣợc tải tự động từ các trang Web. Vì nội dung tin cĩ thể rất dài, chứa hàng trăm ngàn từ, do đĩ để giảm kích thƣớc xử lý, chúng ta chỉ xử lý đối với thành phần tĩm tắt của tin. Phần này thƣờng chỉ gồm 1-5 câu, khái quát đƣợc chủ đề của tin, do đĩ cĩ thể đại diện cho tin tức. Các bƣớc xử lý tài liệu nhƣ sau:

- Loại bỏ dấu câu: Loại bỏ các dấu câu: dấu chấm, dấu phẩy … các dấu câu này

thƣờng gắn liền với từ.

- Tách từ: Đƣa đoạn văn bản thành các chuỗi từ.

Trong việc xử lý văn bản tiếng Anh, đặc trƣng đƣợc sử dụng là những từ riêng lẻ (word). Do đặc điểm của tiếng Anh nên việc xác định từ trong câu rất đơn giản, mỗi từ đƣợc phân cách với từ khác bằng dấu cách hoặc các dấu trắng khác.

Đối với tiếng Việt, từ cĩ thể bao gồm nhiều tiếng, ví dụ từ “đặc trƣng” bao gồm hai tiếng “đặc” và “trƣng”. Trong khi cĩ thể tách từng tiếng một cách dễ dàng thì việc xác định từ hồn tồn khơng đơn giản. Ngồi, ra do từ bao gồm nhiều tiếng, việc sử dụng tần suất các đặc trƣng nhƣ trong phân loại Bayes cĩ thể bị ảnh hƣởng và cho kết quả khác với văn bản tiếng Anh và do vậy cần xác định thơng qua nghiên cứu thử nghiệm. Vấn đề tách từ cho văn bản tiếng Việt đã đƣợc trình bày trong nhiều kết quả nghiên cứu với những cách tiếp cận khác nhau nhƣ sử dụng từ vựng, sử dụng thống kê từ Internet, sử dụng mơ hình Markov ẩn, sử dụng giải thuật di truyền. Tuy nhiên, khi sử dụng để phân loại văn bản, các phƣơng pháp này đều địi hỏi một khối lƣợng tính tốn nhất định trƣớc khi tách đƣợc các từ. Đối với hệ thống phân loại văn bản với lƣu

lƣợng văn bản lớn, giai đoạn tách từ cĩ thể làm chậm tốc độ phân loại và ảnh hƣởng đáng kể tới tốc độ tồn hệ thống.

Để đảm bảo tốc độ phân loại văn bản đƣợc tốt, khơng nên sử dụng những giải pháp tách từ phức tạp mà coi mỗi đặc trƣng là một k-gram tức là mỗi đặc trƣng sẽ gồm

k tiếng đứng gần nhau và khơng bị phân tách bởi các dấu câu hoặc các từ dừng (stop

word). Vấn đề đặt ra là lựa chọn k bằng bao nhiêu thì hợp lý. Các thống kê trong từ

điển http://dict.vietfun.com cho thấy gần 90% từ tiếng Việt cĩ độ dài từ ba tiếng trở xuống.

- Loại bỏ từ dừng (Stopword)

Khi nghiên cứu ngơn ngữ, các nhà nghiên cứu để ý thấy cĩ những từ xuất hiện rất nhiều trong các tài liệu, nhƣng bản thân nĩ khơng mang nghĩa. Vì xuất hiện hầu hết trong mọi tài liệu nên nĩ khơng thể dùng để phân biệt tài liệu này với tài liệu khác, hơn nữa tần suất xuất hiện quá lớn trong các tài liệu của nĩ làm các q trình tính tốn liên quan trở nên cồng kềnh.

Vì vậy ngƣời ta nghĩ đến việc loại bỏ nĩ ra khỏi quá trình xử lý sau này . Các từ này đƣợc gọi là từ dừng (Stop word). Mỗi một ngơn ngữ cĩ một tập hợp các từ dừng khác nhau, ví dụ tiếng Anh là các từ “a”,”an”,”the”,” in”,”on” … Đối với tiếng Việt thì từ dừng là những từ đĩng vai trị liên kết trong văn bản nhƣ “và”, “thì”, “mà”, “nhƣng”, “song”.v.v. và khơng cĩ ảnh hƣởng tới ý nghĩa.

Nĩi chung trong quá trình xử lý ngơn ngữ việc loại bỏ các từ loại này là khá đơn giản, chƣơng trình chỉ cần căn cứ vào một tập các từ dừng đƣợc định nghĩa trƣớc và thực hiện một vịng lặp đi qua tất cả từ khố trong văn bản.

- Lựa chọn số lƣợng đặc trƣng:

Sau khi tách đƣợc các đặc trƣng dƣới dạng k-gram nhƣ trên, vấn đề tiếp theo là

quyết định số lƣợng đặc trƣng sẽ sử dụng. Nếu thống kê trong tồn bộ tập dữ liệu huấn luyện thì số lƣợng đặc trƣng cĩ thể lên tới vài chục nghìn và mỗi vectơ x

tƣơng ứng với một văn bản sẽ cĩ đa số giá trị xi = 0. Rất nhiều đặc trƣng - từ khơng liên quan tới việc phân loại văn bản. Việc sử dụng tất cả các đặc trƣng nhƣ vậy ngồi việc làm chậm tốc độ phân loại cịn cĩ thể làm giảm độ chính xác phân loại. Do đĩ, các nghiên cứu về

phân loại văn bản văn bản thƣờng loại bỏ những đặc trƣng khơng liên quan tới nhãn phân loại và chỉ giữ lại những đặc trƣng cĩ liên quan.

Các phƣơng pháp lựa chọn đặc trƣng liên quan:

+) Phƣơng pháp thứ nhất loại bỏ những đặc trƣng xuất hiện trong quá ít văn bản hoặc xuất hiện trong quá nhiều văn bản. Nếu đặc trƣng xuất hiện trong quá ít văn bản thì đĩ là những đặc trƣng xuất hiện tình cờ và khơng phụ thuộc vào nhãn phân loại. Trong thực nghiệm, những đặc trƣng xuất hiện trong ít hơn 3 văn bản sẽ bị loại. Ngƣợc lại, nếu đặc trƣng xuất hiện trong hầu hết các văn bản thì đĩ là những đặc trƣng phổ biến trong bất kỳ văn bản nào và do vậy cũng khơng chứa thơng tin về phân loại của văn bản.

+) Phƣơng pháp thứ hai sử dụng độ đo thơng tin tương hỗ (mutual information –

MI) để lựa chọn đặc trƣng. MI là độ đo mức độ liên quan về thơng tin giữa hai biến

ngẫu nhiên, tức là khi biết giá trị biến này thì ta cĩ thể biết đƣợc gì về giá trị biến kia. Trong trƣờng hợp phân loại văn bản, hai biến ngẫu nhiên là giá trị đặc trƣng và nhãn phân loại. MI đƣợc tính nhƣ sau:

          thuong} binh {rac, {0,1}, ( ) ( ) ) , ( log ) , ( ) , ( y x P X x PY y y Y x X P y Y x X P Y X MI

Các xác suất P(X,Y), P(X) và P(Y) đƣợc tính bằng tần suất xuất hiện của các sự

kiện tƣơng ứng trên dữ liệu huấn luyện. Sau khi đã tính MI cho tất cả các đặc trƣng k- gram, n đặc trƣng cĩ MI cao nhất sẽ đƣợc lựa chọn.

Bài tốn phân lớp văn bản

Sơ đồ hệ thống WFST