Trong IR, mỗi văn bản được biểu diễn dưới dạng vector, chẳng hạn như Di=(di1, di2, …, din) trong đó dik biểu diễn trọng số của từ Tk trong tài liệu Di. Tính toán độ tương tự giữa hai văn bản Di và Dj là Sim(Di, Dj) – theo các công thức tính độ tương tự. Nếu độ tương tự này đạt đến một ngưỡng đủ lớn thì ta nói rằng chúng có “liên quan về mặt ngữ nghĩa”, và ta có thể thiết lập một liên kết giữa hai văn bản này [23].
Áp dụng phương pháp này vào việc tóm tắt văn bản tự động, thay vì tìm liên kết giữa các văn bản, ta sẽ tìm liên kết trong nội bộ văn bản (liên kết giữa các câu trong văn bản). Sau khi xây dựng được đồ thị quan hệ, ta có được hình vẽ trực quan cấu trúc của văn bản. Từ cấu trúc này, ta có thể xây dựng văn bản tóm tắt bằng cách trích xuất ra các câu phù hợp [24].
Trong việc xác định ngưỡng để quyết định hai câu trong văn bản có quan hệ với nhau về mặt ngữ nghĩa hay không có một ý nghĩa quan trọng, bởi lẽ ngưỡng này có thể là tốt cho một dạng văn bản nào đó nhưng lại không tốt cho văn bản khác. Như vậy, trong quá trình xây dựng và đánh giá kết quả của chương trình tóm tắt văn bản, cần phải thực nghiệm với nhiều ngưỡng khác nhau để chọn ra một ngưỡng thích hợp.
Khi áp dụng phương pháp cấu trúc văn bản này đối với văn bản tiếng Việt do có những khác biệt đối với văn bản tiếng Anh nên cần phải có một số cải tiến để nâng cao độ chính xác.
Trước hết, đối với việc phân tách từ vựng tiếng Việt. Có thể sử dụng các phương pháp như:
+ Phương pháp so khớp cực đại hay còn gọi là phương pháp Left Right Maximum Matching (LRMM) [25]. Theo đó, ta thực hiện duyệt một ngữ hoặc một câu từ trái sang phải và chọn từ có nhiều âm tiết có mặt trong từ điển, rồi cứ thế tiếp tục cho đến khi hết câu.
+ Phương pháp sử dụng bộ chuyển trạng thái hữu hạn có trọng số WFST (Weighted Finite State Transducer) kết hợp với mạng Neural do Đinh Điền (2001)
[13] đưa ra. Với ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất sẽ là cách từ được chọn. Ngoài ra sử dụng mạng Neural để khử nhập nhằng nếu có.
Do việc xây dựng bộ tách từ khá phức tạp và nằm ngoài phạm vi của luận văn này nên chúng tôi sử dụng bộ tách từ đã được viết sẵn và cung cấp miễn phí để thực hiện bước tiền xử lý các văn bản.
Tiếp theo đó là cần loại bỏ các từ dừng. Từ dừng (stop-words) là các từ xuất hiện nhiều trong các văn bản mà thường thì không giúp ích trong việc phân biệt nội dung của các tài liệu. Do đó, khi xây dựng chương trình tóm tắt, cần tìm ra các từ dừng trong văn bản và loại bỏ chúng. Việc xác định các từ dừng trong văn bản được thông qua một từ điển từ dừng.
Khi đã loại bỏ các từ dừng, cần phải xác định tiếp các từ đồng nghĩa trong văn bản. Đối với tiếng Việt, do có một số lượng lớn các từ đồng nghĩa nên khi thực hiện đo độ tương tự giữa các câu trong văn bản, ta sử dụng thêm một từ điển đồng nghĩa để xác định các từ có ý nghĩa tương đồng giữa các câu, để có thể nâng cao phần nào độ chính xác. Trong chương tiếp theo, chúng tôi sẽ trình bày chi tiết việc xây dựng ứng dụng tóm tắt văn bản và kĩ thuật sử dụng từ điển đồng nghĩa này.
Ngoài ra, trong bước tiền xử lý, các vấn đề như bảng mã, chính tả, dấu câu… cũng cần được xử lý để đảm bảo tính khách quan và chính xác cho các bước tiếp theo.
Hình vẽ dưới đây mô tả một đồ thị quan hệ của các câu trong văn bản “Hỗ trợ 400 USD cho sinh viên mua laptop” (Tên file: Text(16).txt trong tập các văn bản thử nghiệm), bỏ qua các liên kết có độ tương tự dưới 0,2.
Sau khi đã có được đồ thị quan hệ giữa các câu trong văn bản, tiến hành duyệt đồ thị và chọn ra các câu quan trọng theo một số phương pháp sau:
Cách 1. Dựa vào bậc của các nút trên đồ thị
Bậc của một nút trên đồ thị là số lượng liên kết tới các nút khác. Khi một nút có bậc lớn thì câu tương ứng nút đó sẽ phủ một lượng lớn từ vựng và có thể chứa chủ đề của nhiều câu khác [24].
+ Chọn n nút có bậc cao nhất trong đồ thị (với n là số câu cần chọn trong văn bản tóm tắt).
Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2)
Cách 2. Duyệt theo chiều sâu
+ Chọn một nút quan trọng (thường chọn nút đầu tiên hoặc nút có bậc cao). + Chọn nút tiếp theo tương tự nhất với nút trước đó, và cứ như thế.
Khi đã duyệt hết mà vẫn chưa đủ số câu mong muốn, ta sử dụng tiếp cách 1 với các câu còn lại.
Cách 3. Phân đoạn văn bản
+ Chia văn bản thành từng đoạn.
+ Áp dụng cách 1 cho mỗi đoạn, số đoạn của văn bản được chia phải đảm bảo để chọn được ít nhất một câu trong mỗi đoạn.
Trong chương này, chúng tôi đã trình bày về những hướng tiếp cận với bài toán tóm tắt văn bản tiếng Việt, đồng thời cũng nêu ra những đặc trưng cần chú ý của tiếng Việt và cuối cùng đưa ra cách tiếp cận của chúng tôi về việc sử dụng phương pháp cấu trúc để tóm tắt văn bản.
11 2 3 4 5 6 7 8 9 10
Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT
Trong chương này, chúng tôi trình bày chi tiết về việc sử dụng phương pháp cấu trúc đã trình bày trong chương 2 để xây dựng chương trình tóm tắt văn bản tiếng Việt.