S1 = “Trong đầm gì đẹp bằng sen”
S2 = “Lá xanh bông trắng lại chen nhụy vàng”
S3 = “Nhụy vàng bông trắng lá xanh”
S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”
Trực quan có thể thấy hai câu S1 và S2 có độ tương đồng ngữ nghĩa rất cao, do vậy, để việc tóm tắt văn bản đạt hiệu quả cao nhất thì cần phải loại những câu đồng ngữ nghĩa ra khỏi danh sách các câu cần dùng để tóm tắt. Danh sách các câu dùng để tạo bản tóm tắt theo ý nghĩa như vậy gọi là danh sách câu khả dụng. Như vậy có thể hiểu:
Danh sách câu khả dụng là danh sách chứa các câu của văn bản gốc
không có sự tương đồng ngữ nghĩa (từng đôi một).
Quá trình tạo danh sách câu khả dụng
Giả sử văn bản gốc D có danh sách các câu là S =S S1, 2,...,Sn
Chi tiết quá trình tạo danh sách câu khả dụng như sau: Input: S1, S2, ..., Sn - Các câu của văn bản D
VFD - Vector đại diện của văn bản theo tần suất từ
VFS1, VFS2, ..., VFSn - Vector đại diện các câu theo tần suất từ VTD - Vector đại diện của văn bản theo chủ đề ẩn
VTS1, VTS2, ..., VTSn - Vector đại diện các câu theo chủ đề ẩn Output: StCoAvaiList - Danh sách câu khả dụng
Phương pháp thực hiện: StCoAvaiList=
Lặp với i = 1 đến n thực hiện
Add(StCoAvaiList, Si) // thêm câu Si vào StCoAvaiList
Lặp với i = 1 đến n và Si StCoAvaiListthực hiện
Lặp với j = i + 1 đến n và Si StCoAvaiList thực hiện
Nếu Sim S S( i, j) thì Remove(Si, Sj) // Sim S S( i, j) - tính theo công thức 2.5
// - ngưỡng tương đồng (chọn qua thực nghiệm);
// Remove(Si, Sj) - loại câu có trọng số thấp hơn ra
// khỏi StCoAvaiList
Dưới đây là kết quả thực nghiệm tạo danh sách câu khả dụng của văn bản
D trong ví dụ 2.2.2 theo phương pháp trên:
Với hằng số trộn =0, 7và ngưỡng tương đồng =0, 55
Trọng số các câu: S1 =Sim S D( , )1 0,38; S2 0, 76; S3 0, 68; S4 0, 53
StCoAvaiList = {S1, S2, S3, S4}
Quá trình lặp tạo danh sách câu khả dụng như sau: Sim(S1, S2) 0,24878652865881926
Sim(S1, S3) 0,2750000000000004 Sim(S1, S4) 0,2630142022557633
Sim(S2, S3) 0,8581649733015537 => S2 tương đồng ngữ nghĩa với S3
Remove(S2, S3) => StCoAvaiList = {S1, S2, S4} Sim(S3, S4) 0.2724075666220406
Trong luận văn, trọng số câu là độ tương đồng ngữ nghĩa của câu với toàn văn bản hay nói cách khác trọng số câu là mức độ hàm chứa nội dung văn bản của câu. Do đó, trọng số của câu tính được tính theo công thức (2.5).