Ở giai đoạn này, sau khi tách từ trong phạm vi xử lý từng câu, chương trình dựa vào tập dữ liệu các cụm từ gợi ý nhấn mạnh để phân lớp câu thành hai tập. Một là tập các câu chứa cụm từ gợi ý nhấn mạnh, hai là tập các câu không chứa cụm từ gợi ý nhấn mạnh, tập này sau đó sẽđược đưa vào giai đoạn xử lý tiếp theo. Còn tập các câu chứa ngữ nhấn mạnh sẽđưa thẳng vào bộ kết quả.
Tập cụm từ gợi ý nhấn mạnh được xây dựng dựa trên việc khảo sát các bài báo khoa học và toàn văn. Trước hết đề tài sẽ rút trích thủ công các ý chính và xem xét trong các ý chính đó có cụm từ nào đặc trưng, hay một cụm từ nào đặc biệt có thể
dùng đểđánh dấu.
Để tránh trường hợp bộ lọc cho độ rút gọn (độ nén) thấp, nghĩa là bộ kết quả
sẽ chứa quá nhiều câu chứa cụm từ gợi ý này thì đề tài chỉ xây dựng tập các cụm từ
gợi ý nhấn mạnh với các cụm từ có độ dài từ 3 đến 6 tiếng. Tránh các cụm từ 2 tiếng như : bởi vậy, cho nên, vì thế,…mà sẽ là những cụm từ như : bài báo này trình bày, phương pháp sử dụng là, chúng tôi sử dụng, bài viết trình bày, phương pháp trong bài báo, một kết luận nữa,…
Do sự biến động trong số lượng tiếng trong các cụm từ có trong tập dữ liệu đã
Input : Sententce Output : True or Fail Begin
// Nạp tập dữ liệu cụm từ gợi ý từ CSDL (Cue_List) // Duyệt Cue_List
For i = 0 to Cue_List.count – 1
// Đếm số tiếng của Cue_List.word(i) ( nW )
// Dùng mô hình n-gram (n = nW) để tách từ cho câu // Đưa từ vào tmpList
// Xét từng từ For j =0 to tmpList.count -1 //So khớp từ If tmpList.words(j)=Cue_List.words(i) Return True Exit for Return False End
Qua thực nghiệm cho thấy thuật toán trên sau khi cài đặt thực hiện chính xác so với yêu cầu.
3.2.1.5. Tính độ quan trọng của câu (Khối (5) hình 3.1)a. Công thức kết hợp của độđo cục bộ và toàn cục