approach) [27]
Giới thiệu về cụm từ hay ngữ trong văn bản
Trong quá khứ, rất nhiều nhà nghiên cứu về lĩnh vực rút trích thơng tin văn bản đã chứng tỏđược sự hạn chế trong việc tiếp cận bằng cách sử dụng các từ rời rạc. Thay vào đĩ họ hướng tới việc khai thác bằng các đặc trưng giàu tính ngữ nghĩa hơn, đĩ chính là việc sử dụng các cụm từ cĩ tính liên kết cao hơn. Về
ý nghĩa ngơn ngữ, các cụm từ này thường mang ý nghĩa cao hơn từ nhưng lại khơng đầy đủ như câu. Những cụm từ như vậy được gọi là “cụm từ ngữ pháp”, tức là được cấu thành theo đúng cấu trúc ngữ pháp của ngơn ngữ. Chính vì thế, trong việc khai thác ý nghĩa, nội dung thơng tin văn bản, sử dụng các “cụm từ
ngữ pháp” cĩ các thuận lợi sau:
Sử dụng cụm từ cĩ tính liên kết sẽ cĩ ý nghĩa gần hơn so với việc sử
Sử dụng cụm từ cĩ tính liên kết sẽ cho mức độ nhập nhằng thấp và dễ
diễn đạt ý nghĩa hơn so với việc phải dùng các từ riêng lẻ hợp thành.
Bằng cách sử dụng các cụm từ như những đặc trưng, tài liệu mà trong nĩ bao hàm các cụm từ sẽ được đánh giá cao hơn so với việc phải dùng các từ riêng biệt khơng cĩ quan hệ về nội dung với nhau.
Tuy nhiên, khơng phải hầu hết các cụm ngữ pháp đều thể hiện chính xác nội dung. Do vậy, một số nhà nghiên cứu ngơn ngữ học đã cố gắng giải quyết những khĩ khăn này bằng cách tìm hiểu khái niệm của một cụm từ trong ý nghĩa thống kê cịn gọi là ngữ thống kê thay cho việc tìm hiểu khái niệm trong ý nghĩa ngữ pháp. Ngữ thống kê được định nghĩa là một dãy các từ liên tiếp nhau trong văn bản. Trong xử lý ngơn ngữ, việc sử dụng ngữ thống kê cĩ một sốđiểm thuận lợi hơn so với “cụm từ ngữ pháp”:
Ngữ thống kê sẽ được nhận diện dễ dàng hơn mà khơng phải phụ
thuộc quá nhiều vào việc tính tốn của các thuật tốn.
Ảnh hưởng của những giá trị ngữ pháp khơng liên quan cĩ thể được bỏ qua.
Tuy nhiên, việc sử dụng ngữ thống kê cũng sẽ cĩ những bất lợi như việc một số ngữ sẽ khơng được nhận dạng tốt, hay việc nhận dạng lầm lẫn.
Từ các thuận lợi trên, ngữ thống kê đã cho thấy được giá trị khi sử dụng cho việc chỉ mục văn bản theo nội dung hay nĩi cách khác là gán nhãn cho tài liệu trong bài tốn phân loại văn bản theo những chủđềđã định nghĩa.
Véc tơ hĩa văn bản bằng phương pháp ngữ thống kê
Trong cách tiếp cận này, tác giảđã dùng ngữ thống kê, hay cịn được gọi là n-gram để xây dựng véc tơ đặc trưng cho văn bản cần phân loại. n-gram ởđây
được hiểu theo hai nghĩa:
n-gram chính là một dãy liên tiếp các từ trong văn bản
n-gram chính là một dãy các ký tự liên tiếp nhau trong văn bản, cĩ thể
là một phần của từ hay nhiều từ liên tục. Cách hiểu này sẽ thuận lợi cho việc áp dụng đối với những ngơn ngữ thuộc khu vực Đơng Nam Á
Từ ngữ liệu huấn luyện, mơ hình sẽ thống kê được một tập các k-gram khác nhau xuất hiện, trong đĩ k sẽ biến thiên từ 1 đến n. Khi k = 1 ta sẽ định nghĩa nĩ là unigram hay chính là một từ gốc. n-gram chính là một dãy theo thứ
tự gk của n unigram. Sau đĩ, bằng cách dùng hàm ước lượng đặc trưng, mơ hình sẽ tính điểm cho từng đặc trưng tương ứng và sắp xếp các đặc trưng theo giá trị điểm đạt được. Tính hiệu quả của n-gram ứng dụng trong bài tốn phân loại văn bản là xác định được tần số nào xuất hiện trong nhĩm đầu của danh sách đã sắp xếp. Trong thực tế, số lượng k-gram sẽ tăng nhanh đáng kể vì cứ một k-gram xuất hiện sẽ cĩ 2(k+1)-gram xuất hiện kèm theo. Bằng cách sử dụng bộ lọc đặc trưng, mơ hình sẽ loại bỏ bớt những gram nào cĩ tần số nhỏ hơn giá trị k-gram trung bình. Sau khi cĩ được danh sách gram, mơ hình sẽ tiến hành véc tơ hĩa cho các văn bản trong tập huấn luyện. Tiếp theo, mơ hình sẽ xây dựng bộ học mẫu từ những văn bản đã véc tơ hĩa. Quá trình học mẫu cĩ thể áp dụng các phương pháp máy học khác nhau để giải quyết bài tốn.