Trong IR, mỗi văn bản đƣợc biểu diễn dƣới dạng vector, chẳng hạn nhƣ Di=(di1, di2, …, din) trong đó dik biểu diễn trọng số của từ Tk trong tài liệu Di. Tính toán độ tƣơng tự giữa hai văn bản Di và Dj là Sim(Di, Dj) – theo các công thức tính độ tƣơng tự. Nếu độ tƣơng tự này đạt đến một ngƣỡng đủ lớn thì ta nói rằng chúng có “liên quan về mặt ngữ nghĩa”, và ta có thể thiết lập một liên kết giữa hai văn bản này [23].
Áp dụng phƣơng pháp này vào việc tóm tắt văn bản tự động, thay vì tìm liên kết giữa các văn bản, ta sẽ tìm liên kết trong nội bộ văn bản (liên kết giữa các câu trong văn bản). Sau khi xây dựng đƣợc đồ thị quan hệ, ta có đƣợc hình vẽ trực quan cấu trúc của văn bản. Từ cấu trúc này, ta có thể xây dựng văn bản tóm tắt bằng cách trích xuất ra các câu phù hợp [24].
Trong việc xác định ngƣỡng để quyết định hai câu trong văn bản có quan hệ với nhau về mặt ngữ nghĩa hay không có một ý nghĩa quan trọng, bởi lẽ ngƣỡng này có thể là tốt cho một dạng văn bản nào đó nhƣng lại không tốt cho văn bản khác. Nhƣ vậy, trong quá trình xây dựng và đánh giá kết quả của chƣơng trình tóm tắt văn bản, cần phải thực nghiệm với nhiều ngƣỡng khác nhau để chọn ra một ngƣỡng thích hợp.
Khi áp dụng phƣơng pháp cấu trúc văn bản này đối với văn bản tiếng Việt do có những khác biệt đối với văn bản tiếng Anh nên cần phải có một số cải tiến để nâng cao độ chính xác.
Trƣớc hết, đối với việc phân tách từ vựng tiếng Việt. Có thể sử dụng các phƣơng pháp nhƣ:
+ Phƣơng pháp so khớp cực đại hay còn gọi là phƣơng pháp Left Right Maximum Matching (LRMM) [25]. Theo đó, ta thực hiện duyệt một ngữ hoặc một câu từ trái sang phải và chọn từ có nhiều âm tiết có mặt trong từ điển, rồi cứ thế tiếp tục cho đến khi hết câu.
+ Phƣơng pháp sử dụng bộ chuyển trạng thái hữu hạn có trọng số WFST (Weighted Finite State Transducer) kết hợp với mạng Neural do Đinh Điền (2001)
[13] đƣa ra. Với ý tƣởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất sẽ là cách từ đƣợc chọn. Ngoài ra sử dụng mạng Neural để khử nhập nhằng nếu có.
Do việc xây dựng bộ tách từ khá phức tạp và nằm ngoài phạm vi của luận văn này nên chúng tôi sử dụng bộ tách từ đã đƣợc viết sẵn và cung cấp miễn phí để thực hiện bƣớc tiền xử lý các văn bản.
Tiếp theo đó là cần loại bỏ các từ dừng. Từ dừng (stop-words) là các từ xuất hiện nhiều trong các văn bản mà thƣờng thì không giúp ích trong việc phân biệt nội dung của các tài liệu. Do đó, khi xây dựng chƣơng trình tóm tắt, cần tìm ra các từ dừng trong văn bản và loại bỏ chúng. Việc xác định các từ dừng trong văn bản đƣợc thông qua một từ điển từ dừng.
Khi đã loại bỏ các từ dừng, cần phải xác định tiếp các từ đồng nghĩa trong văn bản. Đối với tiếng Việt, do có một số lƣợng lớn các từ đồng nghĩa nên khi thực hiện đo độ tƣơng tự giữa các câu trong văn bản, ta sử dụng thêm một từ điển đồng nghĩa để xác định các từ có ý nghĩa tƣơng đồng giữa các câu, để có thể nâng cao phần nào độ chính xác. Trong chƣơng tiếp theo, chúng tôi sẽ trình bày chi tiết việc xây dựng ứng dụng tóm tắt văn bản và kĩ thuật sử dụng từ điển đồng nghĩa này.
Ngoài ra, trong bƣớc tiền xử lý, các vấn đề nhƣ bảng mã, chính tả, dấu câu… cũng cần đƣợc xử lý để đảm bảo tính khách quan và chính xác cho các bƣớc tiếp theo.
Hình vẽ dƣới đây mô tả một đồ thị quan hệ của các câu trong văn bản “Hỗ trợ 400 USD cho sinh viên mua laptop” (Tên file: Text(16).txt trong tập các văn bản thử nghiệm), bỏ qua các liên kết có độ tƣơng tự dƣới 0,2.
Sau khi đã có đƣợc đồ thị quan hệ giữa các câu trong văn bản, tiến hành duyệt đồ thị và chọn ra các câu quan trọng theo một số phƣơng pháp sau:
Cách 1. Dựa vào bậc của các nút trên đồ thị
Bậc của một nút trên đồ thị là số lƣợng liên kết tới các nút khác. Khi một nút có bậc lớn thì câu tƣơng ứng nút đó sẽ phủ một lƣợng lớn từ vựng và có thể chứa chủ đề của nhiều câu khác [24].
+ Chọn n nút có bậc cao nhất trong đồ thị (với n là số câu cần chọn trong văn bản tóm tắt).
Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2) Cách 2. Duyệt theo chiều sâu
+ Chọn một nút quan trọng (thƣờng chọn nút đầu tiên hoặc nút có bậc cao). + Chọn nút tiếp theo tƣơng tự nhất với nút trƣớc đó, và cứ nhƣ thế.
Khi đã duyệt hết mà vẫn chƣa đủ số câu mong muốn, ta sử dụng tiếp cách 1 với các câu còn lại.
Cách 3. Phân đoạn văn bản
+ Chia văn bản thành từng đoạn.
+ Áp dụng cách 1 cho mỗi đoạn, số đoạn của văn bản đƣợc chia phải đảm bảo để chọn đƣợc ít nhất một câu trong mỗi đoạn.
Trong chƣơng này, chúng tôi đã trình bày về những hƣớng tiếp cận với bài toán tóm tắt văn bản tiếng Việt, đồng thời cũng nêu ra những đặc trƣng cần chú ý của tiếng Việt và cuối cùng đƣa ra cách tiếp cận của chúng tôi về việc sử dụng phƣơng pháp cấu trúc để tóm tắt văn bản.
11 2 3 4 5 6 7 8 9 10
Chƣơng 3. ỨNG DỤNG PHƢƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT
Trong chƣơng này, chúng tôi trình bày chi tiết về việc sử dụng phƣơng pháp cấu trúc đã trình bày trong chƣơng 2 để xây dựng chƣơng trình tóm tắt văn bản tiếng Việt.