Minh họa thuật toán

Một phần của tài liệu Luận văn: Khai phá dữ liệu văn bản tiếng Việt với bản đồ tự tổ chức ppt (Trang 42 - 44)

3. PHƢƠNG PHÁP PHÂN TÍCH NGỮ ĐOẠN

3.3Minh họa thuật toán

Bước 1: Đầu vào của thuật toán là 84,343 dạng ngữ đoạn thu đƣợc từ sự phân rã sơ bộ các câu của 5,325 văn bản toàn văn .Thuật toán sẽ tiến hành tìm kiếm những dạng trung tâm ngữ đoạn của những dạng ngữ đoạn này.

Bước 2:Tập D gồm các dạng ngữ đoạn làm Đề.

Bước 3: ví dụ chọn một dạng ngữ đoạn s trong D là “xây dựng chủ nghĩa xã hội”, đây là một dạng ngữ đoạn làm Đề có thể phân tích từ những câu nhƣ:

“Xây dựng chủ nghĩa xã hội là một cuộc đấu tranh cách mạng phức tạp”

“Xây dựng chủ nghĩa xã hội là xây dựng cuộc sống ấm no và hạnh phúc cho nhân dân” …

Bước 3a: s’= “xây dựng chủ nghĩa xã ”.

Bước 3b: không tìm ra văn cảnh nào chứa s’.

Bước 3c: quay lại bƣớc 3a.

Bước 3a: s’= ” Xây dựng chủ nghĩa”.

Bước 3b: tìm ra 2 văn cảnh chứa s’, Ví dụ: “Nhân dân Liên xô vừa xây dựng chủ nghĩa cộng sản ở nƣớc mình”. Số văn cảnh chứa s’ tìm đƣợc ít hơn ngƣỡng là 10, vậy s’ không phải là một dạng trung tâm ngữ đoạn.

Bước 3c: quay lại bƣớc 3a.

Bước 3a: s’=”Xây dựng chủ”.

Bước 3b: tìm ra 3 văn cảnh chứa s’, ví dụ: “ Xây dựng chủ trƣơng chung”. Số văn cảnh chứa s’ tìm đƣợc ít hơn ngƣỡng là 10, vậy s’ không phải là một dạng trung tâm ngữ đoạn.

Bước 3c: dừng bƣớc 3 đối với s. Thực hiện bƣớc 3 đối với s khác.

Bước 4: giả sử S có một dạng trung tâm ngữ đoạn là ” xây dựng” .Dùng những dạng trung tâm ngữ đoạn này để phân rã những dạng ngữ đoạn

Bước 3a: s’= “xã hội”,

Bước 3b: tìm ra 3, 101 văn cảnh chứa s’. Ví dụ: “lịch sử phát triển xã hội” .Số văn cảnh chứa s’ tìm đƣợc nhiều hơn ngƣỡng là 10, vậy s’ là một dạng trung tâm ngữ đoạn.

CHƢƠNG 4: QUẢN LÝ VÀ KHAI THÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC.

Một phần của tài liệu Luận văn: Khai phá dữ liệu văn bản tiếng Việt với bản đồ tự tổ chức ppt (Trang 42 - 44)