Dựa trên đặc tính của vector nhập nhị phân

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 111)

, trong đĩ σ là hằng số tỷ lệ

GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN VÀ TẠO TRÍCH LƯỢC NỘI DUNG CỦA NHIỀU VĂN BẢN

7.3.5.2. Dựa trên đặc tính của vector nhập nhị phân

Nếu vector nhập là vector nhị phân cĩ số thành phần lớn ( thực tế khi gom cụm văn bản vector đặc trưng văn bản là vector nhị phân cĩ số chiều lên đến hàng ngàn thành phần). Gọi v là vector nhập, I(v) là tập các chỉ số cột sao cho vi = 1 với iI(v) và O(v) là tập các chỉ số cột sao cho vi = 0 với iO(v); ngồi ra gọi IO(v) là tập các chỉ số từ 1 đến n. Như vậy, |IO| = n ; |I|=p . Ứng với tất cả các vector v thuộc tập các vector nhập V, ta tính I(v) và O(v) một lần duy nhất. Độ phức tạp của bước này là O(|V|*n).

Tại vị trí (i,j) của lớp ra Kohonen, thay vì lưu vector trọng wij, sẽ lưu vector aij và giá trị vơ hướng của hàm thực fij(t) sao cho cĩ thể tính vector wij(t)bằng cơng thức wij(t)= aij(t)*fij(t). Tại thời điểm t =0, ta cĩ aij(0)=wij(0) và fij(0)=1. Luật cập nhật hàm fijđược định nghĩa là:

fij(t+1) = (1-g(i,j, ic,jc,t)) fij(t) Với wij(t+1) được tính bằng cơng thức trên như sau: wij(t+1) = wij(t) + g(i,j, ic,jc,t) (v – wij(t))

Bổ đề 2 sau đây chỉ cho phép cập nhật với các thành phần khác khơng của vector nhập và vẫn giữ nguyên các thành phần khác, do đĩ giải pháp này giúp nâng cao hiệu suất của thuật giải.

Bổđề 2. Đặtaijk(t) = wijk(t)/ fij(t) sao cho wijk(0) = aijk(0), fij(0)=1;

fij(t+1) = (1-g(i,j, ic,jc,t)) fij(t) và v là vector nhập, trong đĩ O(v) là tập các chỉ số thành phần cĩ trị bằng 0 và I(v) là chỉ số các thành phần cĩ trị bằng 1 thì:

aijk(t+1) =aijk(t) nếu k O(v) aijk(t+1) = ) ( ) , , , , ( 1 ( ) , , , , ( t f t jc ic j i g t jc ic j i g ij

+ aijk(t) nếu k I(v)

Thuật giải huấn luyện mạng Kohonen cải tiến: Sử dụng hai bổđề 1 và 2 nêu trên để

cải tiến thuật tốn huấn luyện mạng Kohonen như sau:

Bước 1:Ở buớc khởi tạo, thực hiện các cơng việc sau::

• Cấp phát mảng một chiều NONZ(v) chứa các chỉ số mảng của các thành phần khác khơng của vector nhập v.

• Cấp phát mảng 2 chiều cĩ nC cột và nR dịng cho lớp ra Kohonen. Mỗi nút trên lớp ra Kohone lưu trữ vector aij và fij. Khởi tạo ngẫu nhiên các trọng số

của lớp ta Kohonen và bán kính của vùng lân cận nơron chiến thắng. Gán 1 cho tất cả các fij với 1 ≤ i ≤ nR và 1 ≤ j ≤ nC.

• Cấp phát mảng DistranceArray và tính khoảng cách từng vector nhập đến tất cả các vector trọng của lớp ra Kohonen, sau đĩ lưu trữ kết quả vào mảng DistanceArray.

Buớc 2: Đưa vào mạng Kohonen vector nhập v(t), tìm nơ ron chiến thắng tương

ứng với vector nhập v(t) dùng các khoảng cách từ vector nhập v(t) đến tất cả các vector trọng trên lớp ra Kohonen. Các khoảng cách này được lưu trữ trong mảng DistanceArray. Gọi (ic,jc) là toạđộ của nơron chiến thắng.

Buớc 3: Cập nhật hệ số aij và fij của tất cả các nút trong vùng lân cận cũa nơ ron chiến thắng (ic,jc) theo các cơng thức sau:

a[i,j,k]= a[i,j,k]+ g(i,j, ic,jc,t) / ( (1-g(i,j, ic,jc,t) )*f[i][j] f[i][j] = (1-g(i,j, ic,jc,t) )*f[i][j]

với ic-Nc(t) ≤ i ≤ ic + Nc(t) , jc-Nc(t) ≤ j ≤ jc + Nc(t) , k ∈ I(v(t))

Duyệt mảng DistanceArray và tính tốn lại các khoảng cách từ vector nhập đến các nơron bị cập nhật trong bước này .

Bước 4. Tăng t = t + 1, đưa vector nhập kế tiếp vào mạng Kohonen, quay về buớc 2 cho đến khi thoả tiêu chuẩn hội tụ hay vượt quá số lần lặp cho trước.

7.4. TRUY VẤN TƯƠNG TỰ THƠNG QUA LỚP RA KOHONEN

Cho Ci là một cụm trên lớp ra Kohonen, gọi Ci.S là tập các thuộc tính chung đặc trưng cho cụm, Ci.X là các đối tượng trong cụm Ci, Ci.X được tạo bằng cách tính khoảng cách từ vec-tơ nhập đến tất cả các vec-tơ trọng tương ứng với cụm đĩ và gán vec-tơ nhập vào cụm cĩ khoảng cách nhỏ nhất.

Kết quả là tại mỗi nút trên lớp ra Kohonen sẽ tương ứng với một tập các đối tượng cĩ chứa các thuộc tính nằm trong nhãn của nút.

Hình 7.6 là đặc trưng của các cụm trên lớp ra Kohonen gồm các cụm danh từ phổ

biến. Hình 7.7 là các văn bản trong một cụm trên lớp ra Kohonen.

Hình 7.7. Các văn bản tương tự trong một cụm trên lớp ra Kohonen

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 111)

Tải bản đầy đủ (PDF)

(131 trang)