1.4.4.3. Các mơ hình biểu diễn dữ liệu văn bản
Trong các bài tốn xử lý văn bản, ta thấy rằng vai trị của biểu diễn văn bản rất lớn, đặc biệt trong các bài tốn tìm kiếm, phân cụm, …
Theo các nghiên cứu về cách biểu diễn khác nhau trong xử lý văn bản thì cách biểu diễn tốt nhất là bằng các từ riêng biệt đƣợc rút ra từ tài liệu gốc và cách biểu diễn này ảnh hƣởng tƣơng đối nhỏ đối với kết quả.
Các cách tiếp cận khác nhau sử dụng mơ hình tốn học khác nhau để tính tốn, dƣới đây là một số mơ hình phổ biến.
* Mơ hình Boolean
Đây là mơ hình biểu diễn vector với hàm f nhận giá trị rời rạc với duy nhất hai giá trị đúng/sai (true/false). Hàm f tƣơng ứng với thuật ngữ ti sẽ cho giá trị đúng khi và chỉ khi ti xuất hiện trong tài liệu đĩ.
Giả sử rằng cĩ một CSDL gồm m văn bản, D={d1, d2, ..., dm}. Mỗi văn bản đƣợc biểu diễn dƣới dạng một vector gồm n thuật ngữ T={t1, t2, …, tn}. Gọi W={wij} là ma trận trọng số, wij là giá trị trọng số của thuật ngữ ti trong tài liệu dj.
* Mơ hình tần số
Mơ hình này xác định giá trị trọng số các phần tử trong ma trận W(wij) các giá trị là các số dƣơng dựa vào tần số xuất hiện của các từ trong tài liệu hoặc tần số xuất hiện của tài liệu trong CSDL. Cĩ 2 phƣơng pháp phổ biến:
+) Mơ hình dựa trên tần số xuất hiện các từ
Trong mơ hình dƣa trên tần số xuất hiện từ (TF-Term Frequency) giá trị của các từ đƣợc tính dựa vào số lần xuất hiện của nĩ trong tài liệu, gọi tfij là số lần xuất hiện của từ ti trong tài liệu dj, khi đĩ wij cĩ thể đƣợc tính theo một trong các cơng thức sau:
Wij = tfij
Wij = 1+log(tfij) W = √
Với mơ hình này, trọng số wij đồng biến với số lần xuất hiện của thuật ngữ ti trong tài liệu dj. Khi số lần xuất hiện thuật ngữ ti trong tài liệu dj càng lớn thì cĩ nghĩa
là dj càng phụ thuộc nhiều vào thuật ngữ ti, nĩi cách khác thuật ngữ ti mang nhiều thơng tin hơn trong tài liệu dj.
+) Phƣơng pháp dựa trên tần số văn bản nghịch đảo
Trong mơ hình dƣa trên tần số văn bản nghịch đảo (IDF-Inverse Document Frequency) giá trị trọng số của từ đƣợc tính bằng cơng thức sau:
Trong đĩ, n là tổng số văn bản trong CSDL, hi là số văn bản chứa thuật ngữ ti. Trọng số wij trong cơng thức trên đƣợc tính dựa vào độ quan trọng của thuật ngữ ti trong tài liệu dj. Nếu ti xuất hiện càng ít trong các văn bản thì nĩ càng quan trọng, do đĩ nếu ti xuất hiện trong dj thì trọng số của nĩ càng lớn, nghĩa là nĩ càng quan trọng để phân biệt dj với các tài liệu khác và lƣợng thơng tin của nĩ càng lớn.
+) Mơ hình kết hợp TF-IDF
Trong mơ hình TF-IDF, mỗi tài liệu dj đƣợc xét đến thể hiện bằng một đặc trƣng của (t1, t2, …, tn) với ti là một từ/cụm từ trong dj. Thứ tự của ti dựa trên trọng số của mỗi từ. Các tham số cĩ thể đƣợc thêm vào để tối ƣu hĩa quá trình thực hiện nhĩm. Nhƣ vậy, thành phần trọng số đƣợc xác định bởi cơng thức sau, nĩ kết hợp giá trị trọng số TF và giá trị trọng số IDF.
Cơng thức tính trọng số TF-IDF là:
Trong đĩ:
- tfij là tần số xuất hiện của ti trong tài liệu dj
- idfij là nghịch đảo tần số xuất hiện của ti trong tài liệu dj. - hi là số các tài liệu mà ti xuất hiện trong CSDL.
Từ cơng thức này, ta cĩ thể thấy trọng số của mỗi phần tử là dựa trên nghịch đảo của tần số tài liệu trong CSDL mà ti và tần số xuất hiện của phần tử này trong tài liệu.
Thơng thƣờng ta xây dựng một từ điển từ để lấy đi những từ rất phổ biến và những từ cĩ tần số xuất hiện thấp. Ngồi ra ta phải lựa chọn m (Zemir sử dụng 500) phần tử cĩ trọng số cao nhất nhƣ là những từ đặc trƣng.
Phƣơng pháp này kết hợp đƣợc ƣu điểm của cả 2 phƣơng pháp trên. Trọng số wij đƣợc tính bằng tần số xuất hiện của thuật ngữ ti trong tài liệu dj và độ “hiếm” của thuật ngữ ti trong tồn bộ CSDL. Tùy theo ràng buộc cụ thể của bài tốn mà ta sử dụng các mơ hình biểu diễn văn bản cho phù hợp.
- Tính tốn độ tƣơng tự giữa 2 vector:
Xét 2 vector X={x1, x2,..., xm} và Y={y1, y2,..., ym}.
Trong mơ hình TF-IDF, ta cĩ thể lựa chọn cơng thức nào đĩ để tính tốn độ tƣơng tự giữa các cặp tài liệu hoặc các cụm. Sau đây là các độ đo tƣơng tự phổ biến [9]:
Với xi và yj đại diện một cặp từ hoặc cụm từ trong tài liệu. Sử dụng các cơng thức này và với một ngƣỡng thích hợp, ta cĩ thể dễ dàng xác định mức độ tƣơng tự của các tài liệu trong CSDL. Ý tƣởng sử dụng mơ hình TF-IDF để biểu diễn tài liệu cĩ nhiều từ thơng dụng giữa 2 tài liệu thì cĩ nhiều khả năng chúng tƣơng tự nhau.
Kỹ thuật phân cụm phân cấp và phân cụm phân hoạch (k-means) là 2 kỹ thuật phân cụm thƣờng đƣợc sử dụng cho phân cụm tài liệu với mơ hình TF-IDF.
1.5. Tổng kết chƣơng 1
Chƣơng 1 trình bày những kiến thức cơ bản về khai phá dữ liệu và khám phá tri thức trong CSDL, quá trình khai phá, các bài tốn thơng dụng trong khai phá dữ liệu và ứng dụng của nĩ trong xã hội.
Chƣơng này cũng trình bày một hƣớng nghiên cứu và ứng dụng trong khai phá dữ liệu là khai phá web, khĩ khăn và thuận lợi trong khai phá dữ liệu web, quá trình khai phá, các kiểu dữ liệu web, giới thiệu bài tốn phân cụm, phân lớp dữ liệu, một số mơ hình biểu diễn và xử lý dữ liệu văn bản áp dụng trong khai phá Web nhƣ mơ hình Boolean, mơ hình tần số (TF), mơ hình tần số nghịch đảo văn bản (IDF), mơ hình kết hợp (TF-IDF), và các độ đo để xác định độ tƣơng tự của văn bản.
CHƢƠNG 2: MƠ HÌNH HỆ THỐNG TỔNG HỢP, PHÂN LOẠI THƠNG TIN TỰ ĐỘNG
2.1. Các phƣơng pháp tách từ tiếng Việt
2.1.1. Phƣơng pháp Maximum Matching: forward/backward * Nội dung * Nội dung
Phƣơng pháp khớp tối đa (Maximum Matching) cịn gọi là Left Right Maximum Matching (LRMM). Theo phƣơng pháp này, ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ cĩ nhiều âm tiết nhất cĩ mặt trong từ điển, rồi cứ thể tiếp tục cho từ kế tiếp cho đến hết câu [4].
Dạng đơn giản đƣợc dùng giải quyết nhập nhằng từ đơn. Giả sử cĩ một chuỗi ký tự (tƣơng đƣơng với chuỗi tiếng trong tiếng Việt) C1,C2,...Cn chuỗi. Ta bắt đầu từ đầu chuỗi. Đầu tiên kiểm tra xem C1 cĩ phải là từ hay khơng, sau đĩ kiểm tra xem C1C2 cĩ phải là từ hay khơng. Tiếp tục tìm cho đến khi tìm đƣợc từ dài nhất. Từ cĩ vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ đĩ, sau đĩ tìm tiếp nhƣ trên cho những từ cịn lại cho đến khi xác định đƣợc tồn bộ chuỗi từ.
Dạng phức tạp: Quy tắc của dạng này là phân đoạn cĩ vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa. Thuật tốn bắt đầu nhƣ dạng đơn giản. Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cũng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn ba từ cĩ thể cĩ bắt đầu với C1 hoặc C1C2. Ví dụ ta đƣợc những đoạn sau:
C1C2 C3C4 C1C2 C3C4 C5 C1C2 C3C4 C5C6
Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba (C1C2) sẽ đƣợc chọn. Thực hiện lại các bƣớc cho đến khi đƣợc chuỗi từ hồn chỉnh.
* Ƣu điểm
Với cách này, ta dễ dàng tách đƣợc chính xác các ngữ/câu nhƣ “ hợp tác xã || mua bán”, “thành lập || nƣớc || Việt Nam || dân chủ || cộng hịa” Cách tách từ đơn giản, nhanh, chỉ cần dựa vào từ điển Trong tiếng Hoa, cách này đạt đƣợc độ chính xác 98,41%.
* Hạn chế
Độ chính xác của phƣơng pháp phụ thuộc hồn tồn vào tính đủ và tính chính xác của từ điển.
Phƣơng pháp này sẽ tách từ sai trong các trƣờng hợp “ học sinh || học sinh|| học”, “một || ơng || quan tài || giỏi”, “trƣớc || bàn là || một || ly || nƣớc” …
2.1.2. Phƣơng pháp giải thuật học cải biến (Tranformation-based Learning) * Nội dung * Nội dung
Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu. Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta cĩ thể cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã đƣợc đánh dấu ranh giới từ đúng.
Sau khi học xong, máy sẽ xác định đƣợc các tham số (các xác suất) cần thiết cho mơ hình nhận diện từ.
* Ƣu điểm
- Đặc điểm của phƣơng pháp này là khả năng tự rút ra quy luật của ngơn ngữ. - Cĩ những ƣu điểm của cách tiếp cận dựa trên luật vì cuối cùng nĩ cũng dựa trên luật đƣợc rút ra) nhƣng nĩ khắc phục đƣợc khuyết điểm của việc xây dựng các luật một cách thủ cơng bởi các chuyên gia.
- Các luật đƣợc thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện).
- Cĩ khả năng khử đƣợc một số nhập nhằng nhƣ “The singer sang a lot of a??as”, thì hệ cĩ thể xác định đƣợc “a??as” là “arias” (dân ca) thay vì “areas” (khu vực) của các mơ hình ngơn ngữ theo kiểu thống kê.
* Hạn chế
- Phƣơng pháp này “dùng ngữ liệu cĩ gán nhãn ngơn ngữ để học tự động các qui luật đĩ”. Việc xây dựng một tập ngữ liệu đạt đƣợc đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là một điều rất khĩ, tốn kém nhiều về mặt thời gian và cơng sức.
- Hệ phải trải qua một thời gian huấn luyện khá lâu để cĩ thể rút ra các luật tƣơng đối đầy đủ.
- Cài đặt phức tạp.
2.1.3. Mơ hình tách từ bằng WFST và mạng Neural * Nội dung * Nội dung
Mơ hình mạng chuyển dịch trạng thái hữu hạn cĩ trọng số WFST (Weighted finit–state Transducer) đã đƣợc áp dụng để tách từ tiếng Trung Quốc. Ý tƣởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt cĩ trọng số lớn nhất sẽ là cách tách từ đƣợc chọn. Giải pháp này cũng đã đƣợng áp dụng trong kèm với mạng neutral để khử nhập nhằng. Hệ thống tách từ tiếng Việt của gồm hai tầng: tầng WFST ngồi việc tách từ cịn xử lý thêm các vấn đề liên quan đến đặc thù của tiếng Việt nhƣ từ láy, tên riêng… và tầng mạng neural dùng để khử nhập nhằng nếu cĩ [4].