Ngoại trừ các mạo từ, giới từ hay một số nhĩm từ chức năng khác, một từ thƣờng cĩ nhiều thể hiện về mặt hình thái nhƣ số ít, số nhiều của danh từ, hay các động từ cĩ các dạng khác nhau khi cĩ chủ ngữ là số ít hoặc ở các thời khác nhau … Vì vậy, một câu hỏi cần đặt ra là cĩ tiến hành chuyển đổi về gốc nguyên thể của từ hay khơng. Cần xác định rõ là chuyển đổi về từ nguyên thể ở đây là quá trình loại bỏ các hậu tố sao cho từ đƣợc cho trở về dạng nguyên thể. Ví dụ nhƣ: Generations => generation Letters => letter Adding => add Easier => easy …
Việc này cho phép ta tránh xử lý những trƣờng hợp từ bị thay đổi do các yêu cầu về ngữ pháp của ngơn ngữ nhƣng thực chất nĩ chỉ là một từ. Tức là nghĩa của nĩ về cơ bản khơng đổi. Mà thực chất nghĩa cơ bản của từ mới là yếu tố giúp xác định văn cảnh của câu. Việc này cĩ hai lợi ích nhƣ sau.
Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng
20
Lợi ích thứ nhất của việc này đĩ là ta giảm đƣợc số lƣợng các từ thuộc nhĩm từ đồng xuất hiện (hay đúng hơn là giảm hiện tƣợng lặp từ) tức là giảm đƣợc số lƣợng các thuộc tính (các cặp (từ số ít, giá trị), (từ số nhiều, giá trị), ... sẽ chỉ cịn là 1 thuộc tính (từ nguyên thể, giá trị)). Điều này cho phép tăng tốc độ của quá trình huấn luyện và gán nghĩa của Nạve Bayes và tăng tốc độ hội tụ của thuật tốn xử lý nhập nhằng nghĩa của từ bán giám sát.
Lợi ích thứ hai là cũng theo giả định về tính độc lập của Nạve Bayes, sử dụng quá nhiều biến thể của từ (coi là từ chứa nội dung) trong nhĩm từ đồng xuất hiện cĩ thể làm giảm hiệu quả phân lớp về mặt lý thuyết. Cụ thể là, giả sử nhƣ ta cĩ các biến thể khác nhau w, w‟, w‟‟ của từ W và chúng đều đƣợc chọn để đƣa vào nhĩm từ đồng xuất hiện phân lớp cho một từ A cĩ nghĩa c ở các trƣờng hợp xuất hiện khác nhau của A nhƣng khi chuyển hĩa thành thuộc tính chúng đều cĩ giá trị x thuộc X (tức là thành các cặp (w, x), (w‟,x), (w‟‟,x) (Tập giá trị X của x đƣợc xác định tùy thuộc vào cách thức chuyển đổi thành thuộc tính). Vì chỉ là những biến thể của W nên chúng đều cĩ nghĩa cW nào đĩ. Giả sử nhƣ tính chung tất cả các biến thể thì W cĩ tới 20% là thuộc nhĩm từ đồng xuất hiện của A cùng đi kèm với giá trị x, tuy nhiên tính riêng từng biến thể thì w cĩ 10%, w‟ cĩ 6% và w‟‟ cĩ 4%. Nhƣ vậy, khi phân lớp, thay vì xác suất ƣớc lƣợng của A cĩ nghĩa c sẽ nhân với 0.2 (là xác suất 𝑝(𝑊𝑥|𝑐)) (Wx là chỉ thuộc tính với cặp (W,x)) thì do W bị chia thành các biến thể và do giả định độc lập của Nạve Bayes mà khi này con số sẽ là 0.1 (𝑝 𝑤𝑥 𝑐 ), hoặc 0.06 (𝑝 𝑤′𝑥 𝑐 ), hoặc 0.04 (𝑝 𝑤′′𝑥 𝑐 ) lần lƣợt cho các trƣờng hợp từ A xuất hiện với (w, x), (w‟, x), (w‟‟, x). Nhƣ vậy, xác suất phân lớp sẽ giảm đáng kể trong trƣờng hợp để nguyên những biến thể hình thái của các từ trong nhĩm từ đồng xuất hiện so với trƣờng hợp chúng ta chuyển những từ này về dạng nguyên thể.
Tĩm lại, về mặt lý thuyết, chuyển từ về dạng nguyên thể cịn cĩ thể giúp tăng thêm độ chính xác cho quá trình phân lớp.
3.3.3. Chuyển đổi từ trong nhĩm từ đồng xuất hiện thành thuộc tính của bộ phân lớp
Một cách chuyển đổi đơn giản nhất cho một thuộc tính từ một từ thuộc nhĩm từ đồng xuất hiện đĩ là theo dạng nhị phân. Theo cách này, nếu từ wi xuất hiện trong nhĩm từ đồng xuất hiện của một trƣờng hợp xuất hiện của từ c đang cần gán nghĩa thì ta cĩ thuộc tính (wi, 1), và ngƣợc lại (wi, 0). Nhƣ vậy, cách chuyển đổi này cho phép thể hiện đƣợc thơng tin từ wi cĩ xuất hiện trong nhĩm từ đồng xuất hiện hay khơng. Tuy vậy, nếu
Chƣơng 3: Các thuật tốn trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng
21
sử dụng cách này thì sẽ xảy ra rất nhiều trƣờng hợp nhập nhằng do cĩ thể cĩ nhiều nhĩm từ đồng xuất hiện của từ đƣợc gán nghĩa khác nhau nhƣng cùng cĩ các từ giống nhau và chỉ khác về vị trí của các từ trong nhĩm. Khi đĩ theo cách chuyển đổi này, tất cả các nhĩm này đều cĩ cùng một bộ thuộc tính. Điều này sẽ hạn chế khả năng phân lớp chính xác của Nạve Bayes.
Cách chuyển đổi thứ hai khắc phục nhƣợc điểm của cách chuyển đổi theo dạng nhị phân, đĩ là, ta sẽ căn cứ theo khơng chỉ sự xuất hiện của từ mà cịn theo cả vị trí của từ để xác định các thuộc tính. Cụ thể là nếu các từ xuất hiện trong nhĩm từ đồng xuất hiện của từ c đang cần gán nghĩa theo thứ tự:
w1 w2 w3 w4 w5 c w6 w7 w8 w9 w10 Thì ta sẽ cĩ bộ thuộc tính: (w1, -5), (w2, -4), …, (w10, 5)
Cĩ thể thấy rằng với cách chuyển đổi thành thuộc tính nhƣ vậy, ta đã bảo tồn đƣợc thơng tin về vị trí của các từ trong nhĩm từ đồng xuất hiện và khơng cịn sự nhập nhằng giữa các nhĩm từ đồng xuất hiện cĩ cùng các từ giống nhau nhƣng khác về vị trí các từ.
Ngồi hai cách chuyển đổi từ trong nhĩm từ đồng xuất hiện thành thuộc tính nhƣ ở trên thì ta cịn rất nhiều cách mã hĩa thuộc tính khác nữa cho phép giữ đƣợc nhiều thơng tin hơn nữa của các từ đồng xuất hiện với từ cần gán nghĩa ví dụ nhƣ các thơng tin về từ loại chẳng hạn. Sử dụng đƣợc thêm thơng tin của từ loại sẽ giúp tăng thêm rất nhiều độ chính xác cho bộ phân lớp Naive Bayes. Tuy vậy, đề tài khĩa luận này khơng tập trung vào Naive Bayes và cách thức để hàm phân lớp này đạt đƣợc độ chính xác cao nhất mà chủ yếu đặt trọng tâm vào nghiên cứu, khảo sát phƣơng pháp mở rộng bộ dữ liệu. Chính vì vậy tơi muốn giữ việc chọn thuộc tính ở mức đơn giản cho phép.
Chƣơng 4: Cấu trúc và định dạng của dữ liệu
22
Chƣơng 4: Cấu trúc và định dạng của dữ liệu