3. PHƢƠNG PHÁP PHÂN TÍCH NGỮ ĐOẠN
3.3 Minh họa thuật toán
Bước 1: Đầu vào của thuật toán là 84,343 dạng ngữ đoạn thu đƣợc từ sự
phân rã sơ bộ các câu của 5,325 văn bản toàn văn .Thuật toán sẽ tiến hành tìm kiếm những dạng trung tâm ngữ đoạn của những dạng ngữ đoạn này.
Bước 2:Tập D gồm các dạng ngữ đoạn làm Đề.
Bước 3: ví dụ chọn một dạng ngữ đoạn s trong D là “xây dựng chủ nghĩa
xã hội”, đây là một dạng ngữ đoạn làm Đề có thể phân tích từ những câu nhƣ:
“Xây dựng chủ nghĩa xã hội là một cuộc đấu tranh cách mạng phức tạp”
“Xây dựng chủ nghĩa xã hội là xây dựng cuộc sống ấm no và hạnh phúc cho nhân dân” …
Bước 3a: s’= “xây dựng chủ nghĩa xã ”.
Bước 3b: không tìm ra văn cảnh nào chứa s’.
Bước 3c: quay lại bƣớc 3a.
Bước 3a: s’= ” Xây dựng chủ nghĩa”.
Bước 3b: tìm ra 2 văn cảnh chứa s’, Ví dụ: “Nhân dân Liên xô
vừa xây dựng chủ nghĩa cộng sản ở nƣớc mình”. Số văn cảnh chứa s’ tìm đƣợc ít hơn ngƣỡng là 10, vậy s’ không phải là một dạng trung tâm ngữ đoạn.
Bước 3c: quay lại bƣớc 3a.
Bước 3a: s’=”Xây dựng chủ”.
Bước 3b: tìm ra 3 văn cảnh chứa s’, ví dụ: “ Xây dựng chủ
trƣơng chung”. Số văn cảnh chứa s’ tìm đƣợc ít hơn ngƣỡng là 10, vậy s’ không phải là một dạng trung tâm ngữ đoạn.
Bước 3c: dừng bƣớc 3 đối với s. Thực hiện bƣớc 3 đối với s
khác. …
Bước 4: giả sử S có một dạng trung tâm ngữ đoạn là ” xây dựng” .Dùng
những dạng trung tâm ngữ đoạn này để phân rã những dạng ngữ đoạn khác trong C.
Ví dụ: c= “ Xây dựng xã hội mới” có chứa một dạng trung tâm ngữ đoạn đã biết là “xây dựng ” và một dạng ngữ đoạn chƣa nhận diện đƣợc là “ xã hội mới”
Bước 3a: s’= “xã hội”,
Bước 3b: tìm ra 3, 101 văn cảnh chứa s’. Ví dụ: “lịch sử phát
triển xã hội” .Số văn cảnh chứa s’ tìm đƣợc nhiều hơn ngƣỡng là 10, vậy s’ là một dạng trung tâm ngữ đoạn.
CHƢƠNG 4: QUẢN LÝ VÀ KHAI THÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC.