Mô hình không gian vector

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 47 - 78)

Mô hình không gian vector [6] là một trong những mô hình toán học được sử dụng rộng rãi nhất trong biểu diễn văn bản. Mô hình được đề xuất bởi Salton và cộng sự năm 1975. Với cách biều diễn này, mỗi văn bản sẽ được biểu diễn trong một không gian nhiều chiều, mỗi chiều tương ứng với một từ trong văn bản. Trọng số của mỗi từ được bằng độ quan trọng của từ đó trong văn bản và có giá trị nằm trong đoạn [0,1]. Hình 15 mô tả hai văn bản d1d2 được biểu diễn bởi hai vector v1v2, gồm ba chiều T1, T2, T3.

36

Hình 17. Biểu diễn văn bản trong khôn gian vector[6]

Một số phƣơng pháp đánh trọng số cho các từ trong văn bản[1]:

 Phương pháp Boolean

Phương pháp Boolean là phương pháp đánh trọng số đơn giản nhất. Trọng số wij

của từ khóa ti trong tài liệu dj có công thức như sau:

{

 Phương pháp dựa trên tần số

- Phương pháp dựa trên tần số từ khóa (Term Frequency - TF)

Trọng số của từ khóa trong văn bản được tính dựa trên số lần xuất hiện của từ khóa trong văn bản. Gọ tfịj là tần số xuất hiện của từ khóa ti trong văn bản dj, khi đó trọng số wij

của của từ khóa trong văn bản được tính theo một trong các công thức sau:

√ T2 T3 T1 v1 v2

37

- Phương pháp dựa trên nghịch đảo tần số văn bản (Inverse Document Frequency - IDF)

Phương pháp này dựa trên lập luận, một từ quá thông dụng (xuất hiện nhiều trong văn bản) sẽ có độ qua trọng kém hơn từ chỉ xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản. Công thức tình trọng số wij như sau:

Với dfi là số lượng văn bản có chứa từ khóa ti trong tập m văn bản đang xét. - Phương pháp TF-IDF (Term Frequency – Inverse Document Frequency)

Đây là phương pháp tổng hợp của hai phương pháp TF và IDF. Công thức tính trọng sô wij theo phương pháp này như sau:

{[ ( )] ( )

Trong đó:

- wij là trọng số của từ khóa thứ ti trong văn bản dj. - tfij là số lần xuất hiện của từ khóa ti trong văn bản dj.

- dfi là số lần xuất hiện của từ khóa ti trong tập m văn bản đang xét. - m là số lượng văn bản trong tập đang xét.

3.2.2. Độ tƣơng đồng Cosin

Phương pháp độ tương đồng Cosin được dùng để đo mức độ tương tự giữa hai trang Web hoặc giữa trang Web và truy vấn[1]. Trong đó, mỗi văn bản sẽ được biểu diễn bằng một vector, độ tương đồng giữa hai cosin giữa hai văn bản chính là độ tương đồng giữa hai vector tương ứng của hai văn bản.

Ý tưởng của độ tương đồng cosin xuất phát từ phương pháp tính toán vector: Hai vector d1 và d2 càng gần nhau khi góc giữa hai vector càng nhỏ, hay cosin của góc đó càng lớn.

38

‖ ‖‖ ‖

3.2.3. Thuyết chắc chắn Stanford

Thuyết chắc chắn Stanford [13] được phát triển trong chương trình MYCIN ở Stanford. Nó cố gắng đo độ chắc chắn của một phỏng đoán được đưa ra và được ký kiệu là CF(R), trong đó R là một kết luận nào đó. Giá trị độ chắc chắn của kết luận R nằm trong đoạn [-1, 1]. Nếu độ chắc chắn của R tiệm cận giá trị 1, khi đó kết luận R có khả năng đúng cao. Nếu độ chắc chắn của R tiệm cận giá trị -1, kết luận R có khả năng sai cao. Nếu độ chắc chắn của R có giá trị xấp xỉ bằng 0 thì hoặc tồn tại rất ít bằng chứng xem xét cho kết luận R hoặc số bằng chứng cho kết luận R đúng và số bằng chứng kết luận R sai là cân bằng.

Có nhiều bằng chứng để xem xét R đúng hay sai. Để kết hợp các bằng chứng cho cùng kết quả R, có thể dùng phương pháp xác xuất để kết hợp các dấu hiệu độc lập.

Giả sử CF(R1)CF(R2) là các yếu tố chắc chắn dùng để xét kết quả R, khi đó

CF(R) được tính như sau:

- Khi CF(R1)CF(R2) mang nghĩa khẳng định cho CF(R)

- Khi CF(R1) và CF(R2) mang nghĩa phủ định cho CF(R)

- Trường hợp khác:

| | | |

Trong đó |X| là giá trị tuyệt đối của X.

3.2.4. Phân cụm phân cấp HAC (Hierachical agglomerative clustering)

Bài toán phân cụm Web là một bài toán quan trọng trong lĩnh vực khai phá dữ liệu Web. Phân cụm Web là việc tự động sinh ra các cụm trang web dựa vào sự tương tự của các trang web. Số lượng cụm Web chưa được biết trước, nhiệm vụ của hệ thống phân cụm Web là tự động đưa ra các tập trang Web, mỗi tập tương ứng với một cụm sao cho các

39

trang Web ở trong một cụm có độ tương đồng cao, các trang Web ở trong các cụm khác nhau có độ tương đồng thấp [1].

Phương pháp phân cụm phân cấp HAC xây dựng một cấu trúc cây phân cấp cho các tài liệu theo hướng từ dưới lên (bottom-up). Để tìm ra cụm, đầu tiên mỗi phần tử được coi như một cụm phân biệt, sau đó tiến hành ghép 2 cụm giống nhau nhiều nhất hoặc khác nhau ít nhất. Thuật toán dừng lại khi gặp một trong ba điều kiện: đã đạt được số cụm mong muốn, chỉ còn một cụm duy nhất chứa tất cả các trang Web hoặc thỏa mãn môt điều kiện dừng nào đó. Sơ đồ trong hình 16 minh họa cho ý tưởng thuật toán HAC:

Hình 18. Sơ đồ thuật toán phân cụm HAC [1]

Khóa luận sử dụng điều kiện dừng là hoặc khi đã đạt được số cụm mong muốn hoặc khi độ tương đồng của tất cả các cụm đều nhỏ hơn một ngưỡng tương đồng α.

Thuật toán HAC cho phân cụm Web

Các tham số trong thuật toán:

A B C D E F BC DE DEF BCDEF ABCDEF

40

- G = {G1, G2, ... Gn} là tập các cụm

- D = {d1, d2, ... dm} là tập m trang Web cần phân cụm

- k là tham số để dừng thuật toán khi số lượng cụm mong muốn đã được tạo ra

- q là tham số ngưỡng dừng thuật toán khi độ tương tự giữa 2 cụm nhỏ hơn một ngưỡng nào đó.

Thuật toán

Để ghép 2 cụm giống nhau nhiều nhất hoặc khác nhau ít nhất vào một cụm, thuật toán HAC yêu cầu đo khoảng cách (hay độ tương đồng) giữa các cụm.

Một số phƣơng pháp đo khoảng giữa các cụm

 Độ tương tự giữa trọng tâm của cụm Gi và Gj:

sim (Gi,Gj) = sim (ci, cj)

Với ci, cj lần lượt là trọng tâm của 2 cụm Gi và Gj.

 Độ tương tự cực đại giữa 2 tài liệu thuộc vào 2 cụm (single-link hay single-

linkage):

sim (Gi,Gj) = ( )

Trong đó: di là tài liệu trong cụm Gi, dj là tài liệu trong cụm Gj.

1. 𝐺 ← 𝑑 𝑑 𝐷 (Khởi tạo G là tập các cụm chỉ gồm một trang Web trong

tập D)

2. Nếu |G| < k thì dừng thuật toán ( Đã được số lượng cụm mong muốn ). 3. Tìm 2 cụm GiGj thuộc G sao cho (i,j) = arg max(i,j) sim (Gi,Gj) ( Tìm 2

cụm có độ tương tự lớn nhất ).

4. Nếu sim (Gi,Gj) < q thì dừng thuật toán ( độ tương tự của 2 cụm nhỏ hơn ngưỡng cho phép )

5. Loại bỏ Gi, Gj khỏi G

6. 𝐺 𝐺 ∪ 𝐺𝑖 𝐺𝑗 (ghép 2 cụm Gi, Gj và đưa vào trong tập G )

41

Trong phương pháp này, khoảng cách giữa 2 cụm được định nghĩa là độ tương tự lớn nhất của 2 tài liệu trọng 2 cụm. Phương pháp này cho độ chính xác không cao với trường hợp chỉ có duy nhất 2 tài liệu ở trong 2 cụm là tương đồng cao, còn các tài liệu còn lại trong 2 cụm có độ tương đồng rất thấp.

Hình 19: Phân cụm với độ đo single-link [1]

 Độ tương tự cực tiểu giữa 2 tài liệu thuộc 2 cụm (complete-link):

sim (Gi,Gj) = ( )

Hình 20: Phân cụm với độ đo complete-link [1]

Trong phương pháp này, khoảng cách giữa hai cụm i, j được tính bằng độ tương đồng của hai tài liệu nằm trong hai cụm có giá trị nhỏ nhất. Giải thuật phâm cụm với

complete-link kém chính xác khi hai tài liệu trong cụm có độ tương đồng rất thấp, trong

khi trọng tâm của hai cụm này có độ tương đồng cao.

42

sim (Gi,Gj)=| | ∑ ( )

Phương pháp tính toán độ tương tự giữa hai cụm dựa trên độ tương tự của toàn bộ các cặp tài liệu trong hai cụm chứ không phải dựa trên một cặp tài liệu duy nhất, do đó phương pháp tránh được nhược điểm của độ đo single-linkcomplete-link.

3.3. Mô hình giải quyết bài toán

Dựa vào mô hình thông tin Người của Hua-Ping Zhang và cộng sự [7], khóa luận đề xuất mô hình giải quyết bài toán như sau.

Miền dữ liệu của bài toán: Tập các trang Web từ VnExpress.Net [22],

VietNamNet.Vn [21] và TuoiTre.Vn [20].

Input: Tập các trang web là kết quả trả về từ máy tìm kiếm Google khi đưa vào

một tên người làm truy vấn.

Output: Tập các trang web từ VnExpress.Net, VietNamNet.Vn và TuoiTre.Vn

được phân cụm sao cho những trang Web thuộc cùng một cụm đề cập đến một người, các trang Web thuộc các cụm khác nhau đề cập đến các người khác nhau.

43

Mô hình giải quyết bài toán:

Hình 21. Mô hình giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin Người

Mô hình giải quyết bài toán gồm bốn bước chính như sau:

Bƣớc 1: Thu thập dữ liệu

Với mỗi tên người, khóa luận thu thập các trang chứa tên người cần phân biệt, từ ba trang tin tức điện tử nổi tiếng của Việt Nam là VnExpress.Net, VietNamNet.Vn và TuoiTre.Vn, thông qua máy tìm kiếm Google. Truy vấn với cú pháp:

“Tên người” + site:<tên trang web>

Ví dụ, với tên người là Nguyễn Thị Hiền, khóa luận sẽ đưa vào máy tìm kiếm Google với 3 truy vấn:

“Nguyễn Thị Hiền” + site:vnexpress.net “Nguyễn Thị Hiền” + site:vietnamnet.vn “Nguyễn Thị Hiền” + site:tuoitre.vn

Với các kết quả trả về từ máy tìm kiếm, khóa luận tiến hành lọc lấy các trang dạng html, bỏ qua các văn bản đính kèm đuôi .doc hay .xls, bỏ qua những trang không chứa tên người hoặc những trang chứa tên không đúng tên người đưa vào Google làm truy vấn. Ví dụ như Nguyễn Thị Mai Hiền hoặc Nguyễn Thị Hiền Lương.

Tên người Tập các trang Web

cứa tên người

Văn bản Tập các đặc trưng Đặc trưng tương ứng với mỗi cụm Mô hình thông tin Người Thu thập dữ liệu Biểu diễn các đặc trưng Phân cụm Tiền xử lý Trích chọn đặc trưng Cụm các trang web Mô tả cụm

44

Bƣớc 2: Tiền xử lý dữ liệu

Trong bước này, khóa luận thực hiện:

- Loại bỏ các thẻ html, lấy các url và nội dung chính của trang

- Thực hiện tách câu, tách từ trên các trang web down về.

Bƣớc 3: Trích chọn các đặc trƣng

Phân tích mô hình giải quyết bài toán phân biệt tên người của Hua-Ping Zhang và cộng sự [7], chúng tôi nhận thấy trong tiếng Việt, tên họ hàng/người thân thường xuất hiện trong tập các tên người khác cùng xuất hiện với tên người cần phân biệt. Vì vậy, trường hợp phân cụm dựa trên các đặc trưng {nghề nghiệp, tên người khác, thuật ngữ khác} đã bao gồm trường hợp phân cụm dựa trên xét luật "hai người có tên họ hàng/người thân giống nhau thì là một người". Hơn nữa, trong tiếng Việt với chỉ một tên người thân giống nhau mà khẳng định hai người cùng tên là một người là vẫn chưa đủ cơ sở. Từ phân tích trên, khóa luận lựa chọn thêm hai đặc trưng thuộc tính có khả năng xác định thực thể người cao là tel và email thay cho đặc trưng tên họ hàng/người thân trong phương pháp của các tác giả.

Trong bước này, khóa luận tiến hành trích chọn chín đặc trưng phổ biến của người: tên người, giới tính, ngày sinh, quê quán, nghề nghiệp, email, số điện thoại, các tên người khác và các thuật ngữ khác cùng xuất hiện với tên người cần phân biệt.

 Quy trình trích chọn các đặc trưng thuộc tính của người (giới tính, ngày sinh, quê quán, nghề nghiệp, email, số điện thoại) khóa luận đề xuất gồm các bước như sau:

- Tách từ, gán nhãn cho dữ liệu văn bản đầu vào. Nhãn tương ứng với các đặc trưng thuộc tính được mô tả trong bảng 1:

Bảng 3-1: Các đặc trưng được sử dụng trong khóa luận

STT Đặc trƣng Nhãn

1 Tên người {NAME}

2 Ngày sinh {BIRTH}

45

4 Quê quán {HOMETOWN}

5 Nghề nghiệp {JOB}

6 Số điện thoại {TEL}

7 Email {EMAIL}

- Dựa vào dữ liệu đã được gán nhãn, trích chọn các đặc trưng thuộc tính của người trong văn bản.

 Quy trình trích chọn đặc trưng xã hội (tên người khác, thuật ngữ khác):

Với mỗi sự xuất hiện của các tên riêng, chúng tôi lấy độ rộng xung quanh cửa sổ là 10 làm ngữ cảnh cho tên, gọi là một đoạn, chỉ lấy những đoạn chứa đầy đủ tên.

Từ mỗi văn bản này tiến hành:

- Tách từ, gán nhãn từ loại cho các thuật ngữ này.

- Lọc bỏ các thuật ngữ thuộc tính bằng từ loại. Khác với mô hình thông tin Người của Hua-Ping Zhang và cộng sự, khóa luận chỉ giữ lại danh từ và tên thực thực thể.

- Lọc bỏ những các từ dừng.

- Lọc bỏ các thuật ngữ có tần suất quá cao hoặc quá thấp bằng cách sử dụng DF. Chỉ lấy những thuật ngữ có .

 Một số đặc trưng được trích chọn cùng chỉ một giá trị nhưng cách thể hiện khác nhau. Chẳng hạn, cùng một đặc trưng là “Nghề nghiệp” thì có giảng viên- giảng dạy hoặc đặc trưng là “Quê Quán” có “Thành phố HCM”,”Hồ Chí Minh”,”TP. Hồ Chí Minh”… chúng tôi dự định sẽ chuẩn hóa các đặc trưng trích chọn sao cho cùng một đặc trưng, cùng một giá trị của đặc trưng đó chỉ có một cách thể hiện: “Thành phố HCM”, “Hồ Chí Minh”, “TP. Hồ Chí Minh” sẽ được chuyển về là “Thành phố Hồ Chí Minh”.

Bƣớc 4: Biểu diễn đặc trƣng theo mô hình thông tin Ngƣời

Các đặc trưng trích trọn được ở bước 3 sẽ được phân vào các tập trong mô hình thông tin Người như sau:

46

N = {tên người}

P = {giới tính, ngày sinh, quê quán} Q = {nghề nghiệp, tel, email}

R = {tên người khác, thuật ngữ khác}.

 Biểu diễn các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác bằng ba vector tương ứng với ba loại đặc trưng này như sau:

V = (t1, w1; t2, w2; … ; tH, wH).

Trong đó: ti là thuật ngữ thứ i

wi là trọng số của thuật ngữ thứ i

Trọng số của đặc trưng nghề nghiệp được tính bằng công thức đánh trọng số Boolean.

Trọng số của đặc trưng tên người khác và thuật ngữ khác cùng xuất hiện với tên người cần phân biệt được tính bằng phương pháp TF-IDF. Đối với đặc trưng tên người khác, công thức tính trọng số như sau:

⃗ ⃗

Trong đó:

- ⃗ là trọng số của tên cùng xuất hiện name.

- ⃗ là tần số cùng xuất hiện của name và người p.

- nname là số lần cùng xuất hiện của tên và tên người khác. - N’ là tổng số tài liệu

Đối với đặc trưng thuật ngữ khác, công thức tính trọng số như sau:

( ⃗) ⃗ ( )

Trong đó:

- ⃗ là trọng số của thuật ngữ t trong tài liệu d.

- ( ⃗)là tần số xuất hiện của t trong tài liệu d.

- nt là số lượng tài liệu chứa t. - N là tổng số tài liệu.

47

Bƣớc 5: Phân cụm

Tính độ tương đồng giữa các đặc trưng

Đối với các đặc trưng thuộc tính người bao gồm: tên người, giới tính, quốc tịch, ngày sinh, quê quán, email và số điện thoại sẽ được dùng làm điều kiện cho các quy tắc 1, 2 dùng tạo các cụm ban đầu trong thuật toán phân cụm. Các đặc trưng còn lại gồm nghề nghiệp, tên người khác và thuật ngữ khác được dùng để phân cụm trong thuật toán HAC. Mỗi cụm được biểu diễn bằng ba vector đặc trưng của cụm là: vector đặc trưng nghề nghiệp, vector đặc trưng tên người khác và vector đặc trưng thuật ngữ khác. Độ tương đồng của hai cụm được tổng hợp từ ba độ tương đồng giữa các loại vector đặc trưng tương ứng (độ tương đồng giữa cặp vector nghề nghiệp, độ tương đồng giữa cặp vector tên người khác và độ tương đồng giữa cặp vector thuật ngữ khác). Trong đó, độ tương

Một phần của tài liệu Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt (Trang 47 - 78)

Tải bản đầy đủ (PDF)

(78 trang)