Đối với tập R, các tác giả sử dụng mơ hình không gian vector để biểu diễn các
thuật ngữ thuộc tập này. Trong đó thuật ngữ thứ i được biểu diễn bởi ti, và trọng số wi thể hiện tầm quan trọng của thuật ngữ ti. Như vậy R được biểu diễn lại như sau:
Đặc trưng thuộc tính Kích thước cửa sổ được xác định với trung tâm là từ đầu tiên Chuỗi từ đã được gán nhãn thuộc Tách từ Xác định từ đầu tiên và cụm danh từ có chiều dài cực đại Phân lớp Máy phân lớp Văn bản
30
R = (t1, w1; t2, w2; … ; tH, wH).
Để thu các thuật ngữ thuộc R, các tác giả xác định phạm vi mà thuật ngữ này ảnh hưởng. Ba mức phạm vi ảnh hưởng của thuật ngữ là: toàn bộ tài liệu, trên đoạn văn chứa tên người, trên câu chứa tên người. Sau đó thu thập thuật ngữ trong R theo bốn bước sau:
- Bước 1: Tiến hành tách từ, gán nhãn từ loại cho các thuật ngữ này.
- Bước 2: Lọc bỏ các thuật ngữ thuộc tính bằng từ loại, chỉ giữ lại danh từ, động từ, tính từ, trạng từ và tên thực thể.
- Bước 3: Họ làm một danh sách các từ dừng, lọc bỏ những thuật ngữ dừng này. - Bước 4: Lọc bỏ các thuật ngữ có tần suất quá cao hoặc quá thấp bằng cách sử
dụng DF, chỉ giữ lại những thuật ngữ có DF khơng thấp hơn 2 và không cao hơn N/3 (N là tổng số tài liệu).
Trọng số cho các giá trị đặc trưng thuộc tập R và các giá trị của đặc trưng nghề nghiệp trong tập Q được xác định theo phương pháp đánh trọng số TF-IDF. Cụ thể:
Trọng số của đặc trưng thuật ngữ khác cùng xuất hiện với tên người cần phân biệt:
( ⃗) ⃗ ( )
Trong đó:
- ⃗ là trọng số của thuật ngữ t trong tài liệu d.
- ⃗ là tần số xuất hiện của t trong tài liệu d.
- nt là số lượng tài liệu chứa t.
- N là tổng số tài liệu.
Trọng số của đặc trưng tên người khác cùng xuất hiện với tên người cần phân biệt.
⃗ ⃗
Trong đó:
- ⃗ là trọng số của tên cùng xuất hiện name.
- ⃗ là tần số cùng xuất hiện của name và người p.
- nname là số lần cùng xuất hiện của tên và tên người khác.
31
Bƣớc 3. Phân cụm
Phương pháp tính tương đồng giữa 2 văn bản:
Thuật toán phân cụm các tác giả đề xuất áp dụng thuật toán phân cụm HAC cho việc phân cụm tài liệu dựa trên ba đặc trưng nghề nghiệp, thuật ngữ khác và tên người khác cùng xuất hiện với tên người cần phân biệt và biểu diễn các giá trị của mỗi loại đặc trưng vào 3 vector tương ứng với mỗi loại. Độ tương đồng của từng loại vector đặc trưng được tính bằng độ tương đồng cosin giữa hai vector. Các tác giả sử dụng thuyết chắc chắn Stanford để tổng hợp ba độ tương đồng này.
Gọi E1, E2, E3 là các yếu tố chắc chắn của sự kiện B
CF biểu diễn độ tin cậy.
Khi đó độ tin cậy của sư kiện B là:
Trong đó độ tin cậy của các yếu tố được tính bằng cơng thức:
⁄ [ ]
Với ui là ngưỡng tương đồng.
Nếu độ tương đồng của yếu tố đạt đến ngưỡng, độ tin cậy của nó là 100% Xác định ngưỡng tương động ui bằng phương pháp huấn luyện sau:
- Phân cụm dữ liệu huấn luyện theo các yếu tố duy nhất.
- Chọn ngưỡng tương đồng có độ hồi tưởng cao hơn với tiền đề là độ chính xác khơng nhỏ hơn 98%.
Sau quá trình khảo sát này, chọn ba ngưỡng tương đồng tương ứng với ba yếu tố nghề nghiệp, tên người cùng xuất hiện và thuật ngữ phổ biến cùng xuất hiện lần lượt là 3, 0.5, 0.25.
Thuật toán phân cụm
32
Quy tắc 1: đối với hai người có trùng tên, nếu ngày sinh giống nhau (chính xác đến
tháng) hoặc tên họ hàng/người thân giống nhau, hai người là cùng một người.
Quy tắc 2: Đối với hai người trùng tên, nếu một trong các thuộc tính: giới tính,
quốc tịch, quê quán, ngày sinh là khác nhau, hai người này là hai người khác nhau.
2. Áp dụng thuật toán phân cụm phân cấp HAC để phân cụm những cụm ban đầu này.
(1) Coi mỗi cụm ban đầu là một cụm duy nhất. (2) Trộn hai cụm giống nhau nhất thành một cụm.
(3) Nếu có chỉ cịn một cụm hoặc đạt đến một ngưỡng dừng nào đó thì thốt. Khơng thì quay lại bước (2).
Trong quá trình sát nhập các cụm, tiến hành sát nhập các đặc trưng của người. Đối với vector các thuật ngữ, tính giá trị trung bình trọng số của các thuật ngữ. Đối với đặc trưng thuộc tính, áp dụng phương pháp luật để trộn hai cụm.
2.3. Nhận xét
Các phương pháp tập trung chủ yếu vào việc thể hiện ngữ cảnh mà tên người xuất hiện, tiến hành đo độ tương đồng giữa các ngữ cảnh và phân cụm dựa trên độ tương đồng này. Ba phương pháp đầu thường phụ thuộc rất nhiều vào miền dữ liệu để có được kết quả chính xác, hầu hết các phương pháp thực hiện trên các miền dữ liệu bằng tiếng Anh và chỉ phù hợp cho miền dữ liệu này. Với phương pháp của Bagga ve Breck Baldwin [4], sử dụng khử đồng tham chiếu và xây dựng vector thực thể biểu diễn ngữ cảnh của tên người. Phương pháp có một số hạn chế khi thực hiện trên miền dữ liệu báo điện tử Việt Nam như sau: thứ nhất là ngôn ngữ tiếng Việt chưa có một cơng cụ nguồn mở nào cho việc thực hiện khử đồng tham chiếu, thứ hai là khi một người tham gia vào những hoạt động khác nhau thì tập thực thể định danh thể biểu diễn ngữ cảnh của người đó cũng rất khác nhau, do đó nếu biểu diễn bằng mơ hình vector thì vector sẽ bị thưa với nhiều phần tử bằng 0 và độ tương đồng thấp, gây sai lệch kết quả.
Phương pháp phân biệt tên người dựa trên mơ hình thơng tin Người kết hợp cả các đặc trưng thuộc tính của người và đặc trưng tên người khác và thuật ngữ khác. Với đặc trưng thuộc tính của người, thường có miền dữ liệu áp dụng hạn chế vì chúng ít xuất hiện trong các loại trang Web: tin tức, giải trí… Vì vậy, nếu chỉ sử dụng các đặc trưng này để
33
phân cụm, thường đem lại kết quả độ tương đồng giữa hai tài liệu thấp, gây khó khăn cho việc phân cụm. Tuy nhiên, đặc trưng thuộc tính người lại mang một số đặc điểm riêng biệt phục vụ cho việc phân cụm dễ dàng hơn (Ví dụ: hai người cùng tên có cùng tên của họ hàng/người thân thì chắc chắn là một người). Các đặc trưng tên người khác và thuật ngữ khác thường xuất hiện trên tất cả trang Web. Bằng cách kết hợp giữa các loại đặc trưng này, hệ thống phân cụm nhanh hơn nhờ phân cụm dựa vào các các đặc điểm của đặc trưng thuộc tính người và phù hợp với các trang báo tin tức điện tử Việt Nam.
Phân tích trên là lý do khóa luận chọn áp dụng phương pháp dựa vào mơ hình thơng tin Người để giải quyết bài tốn phân biệt tên người trong tiếng Việt.
Tóm tắt chương 2
Trong chương này, khóa luận mơ tả một số giải pháp phân biệt tên người của thế giới trên Web. Trên cơ sở phân tích ưu nhược điểm của một số phương pháp, khóa luận chọn dựa vào phương pháp dựa trên mơ hình thơng tin Người để đưa ra mơ hình giải quyết bài toán phân biệt tên người trong tiếng Việt.
Trong chương tiếp theo, khóa luận sẽ tập trung mơ tả mơ hình đề xuất của khóa luận cho việc áp dụng mơ hình thơng tin Người để giải quyết bài toán phân biệt tên Người.
34
Chương 3. Mơ hình hệ thống phân biệt tên ngƣời trong tập
văn bản và áp dụng trọng hệ thống tìm kiếm thực thể ngƣời tiếng Việt
Trên cơ sở phân tích các hướng tiếp cận giải quyết bài toán phân biệt tên người trên thế giới, khóa luận đề xuất sử dụng phương pháp giải quyết bài tốn dựa trên mơ hình
thơng tin Người áp dụng vào tiếng Việt. Trong phương pháp này, các đặc trưng ngữ cảnh
của người sẽ được phân lớp vào các lớp trong mơ hình thơng Người, sau đó tiến hành tính độ tương đồng ngữ cảnh của người và cuối cùng tiến hành phân cụm văn bản dựa trên độ tương đồng ngữ cảnh hay độ tương đồng của các văn bản chứa ngữ cảnh. Miền dữ liệu khóa luận chọn để áp dụng mơ hình là các trang báo tin tức điện tử Việt Nam.
3.1. Đặc điểm miền dữ liệu các trang Web tin tức tiếng Việt
Dữ liệu thực nghiệm có ảnh hưởng trực tiếp đến kết quả thực nghiệm và mơ hình giải quyết bài tốn, do đó khóa luận sẽ phân tích đặc điểm về ngơn ngữ và hình thức của miền dữ liệu báo điện tử Việt Nam để đưa ra được phương pháp phù hợp nhất.
Trong miền dữ liệu báo tin tức điện tử Việt Nam có một số đặc trưng phục vụ cho nhiệm vụ phân biệt tên người như sau:
Đặc trƣng về hình thức:
- Trong các trang báo tin tức Việt Nam, thường có một câu mơ tả khá chi tiết đặc trưng về thuộc tính người ở phần tóm tắt nội dung của báo. Các thơng tin này có tính xác định thực thể người mạnh, giúp cho người đọc có thể xác định được thực thể người đang được mô tả là ai, thơng tin này cũng rất hữu ích để xác định thực thể người trong bài toán phân biệt tên người.
Hình 15 : Đoạn tóm tắt của bài báo “Nữ cán bộ Agribank bị bắt vì nghi tham ơ 6 tỷ đồng.”
35
- Tên họ hàng/người thân của thực thể người cần nhận diện rất ít xuất hiện trong các bài báo tin tức Việt Nam.
Một số đặc trƣng về mạng xã hội: giúp ích nhiều cho việc phân biệt tên người
như sau:
- Hai bài báo mà chứa lớn hơn hoặc bằng hai tên người giống nhau, cùng với tên người cần phân biệt, thì rất có khả năng hai bài báo đó nói về cùng một người.
Ví dụ, trong 2 đoạn trích từ hai bài báo của trang VnExpress.Net, tên người “Trương Hồng Nhung” luôn cùng xuất hiện với các tên người như Đặng Thế Quốc Hưng, Trần Ngọc Sương…
Hình 16: Tên người các tên người khác cùng xuất hiện với tên người “Trương Hồng Nhung”
- Hai bài báo chứa phần lớn các thuật ngữ cùng xuất hiện với người giống nhau cũng mang lại nhiều khả năng hai bài báo nói về cùng một người.
3.2. Cơ sở lý thuyết
3.2.1. Mơ hình khơng gian vector
Mơ hình khơng gian vector [6] là một trong những mơ hình tốn học được sử dụng rộng rãi nhất trong biểu diễn văn bản. Mơ hình được đề xuất bởi Salton và cộng sự năm 1975. Với cách biều diễn này, mỗi văn bản sẽ được biểu diễn trong một không gian nhiều chiều, mỗi chiều tương ứng với một từ trong văn bản. Trọng số của mỗi từ được bằng độ quan trọng của từ đó trong văn bản và có giá trị nằm trong đoạn [0,1]. Hình 15 mơ tả hai văn bản d1 và d2 được biểu diễn bởi hai vector v1 và v2, gồm ba chiều T1, T2, T3.
36
Hình 17. Biểu diễn văn bản trong khơn gian vector[6]
Một số phƣơng pháp đánh trọng số cho các từ trong văn bản[1]:
Phương pháp Boolean
Phương pháp Boolean là phương pháp đánh trọng số đơn giản nhất. Trọng số wij của từ khóa ti trong tài liệu dj có cơng thức như sau:
{
Phương pháp dựa trên tần số
- Phương pháp dựa trên tần số từ khóa (Term Frequency - TF)
Trọng số của từ khóa trong văn bản được tính dựa trên số lần xuất hiện của từ khóa trong văn bản. Gọ tfịj là tần số xuất hiện của từ khóa ti trong văn bản dj, khi đó trọng số wij của của từ khóa trong văn bản được tính theo một trong các cơng thức sau:
√ T2 T3 T1 v1 v2
37
- Phương pháp dựa trên nghịch đảo tần số văn bản (Inverse Document Frequency - IDF)
Phương pháp này dựa trên lập luận, một từ quá thông dụng (xuất hiện nhiều trong văn bản) sẽ có độ qua trọng kém hơn từ chỉ xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản. Cơng thức tình trọng số wij như sau:
Với dfi là số lượng văn bản có chứa từ khóa ti trong tập m văn bản đang xét. - Phương pháp TF-IDF (Term Frequency – Inverse Document Frequency)
Đây là phương pháp tổng hợp của hai phương pháp TF và IDF. Cơng thức tính trọng sô wij theo phương pháp này như sau:
{[ ( )] ( )
Trong đó:
- wij là trọng số của từ khóa thứ ti trong văn bản dj. - tfij là số lần xuất hiện của từ khóa ti trong văn bản dj.
- dfi là số lần xuất hiện của từ khóa ti trong tập m văn bản đang xét.
- m là số lượng văn bản trong tập đang xét.
3.2.2. Độ tƣơng đồng Cosin
Phương pháp độ tương đồng Cosin được dùng để đo mức độ tương tự giữa hai trang Web hoặc giữa trang Web và truy vấn[1]. Trong đó, mỗi văn bản sẽ được biểu diễn bằng một vector, độ tương đồng giữa hai cosin giữa hai văn bản chính là độ tương đồng giữa hai vector tương ứng của hai văn bản.
Ý tưởng của độ tương đồng cosin xuất phát từ phương pháp tính tốn vector: Hai vector d1 và d2 càng gần nhau khi góc giữa hai vector càng nhỏ, hay cosin của góc đó
càng lớn.
38
‖ ‖‖ ‖
3.2.3. Thuyết chắc chắn Stanford
Thuyết chắc chắn Stanford [13] được phát triển trong chương trình MYCIN ở Stanford. Nó cố gắng đo độ chắc chắn của một phỏng đoán được đưa ra và được ký kiệu là CF(R), trong đó R là một kết luận nào đó. Giá trị độ chắc chắn của kết luận R nằm trong đoạn [-1, 1]. Nếu độ chắc chắn của R tiệm cận giá trị 1, khi đó kết luận R có khả năng đúng cao. Nếu độ chắc chắn của R tiệm cận giá trị -1, kết luận R có khả năng sai cao. Nếu độ chắc chắn của R có giá trị xấp xỉ bằng 0 thì hoặc tồn tại rất ít bằng chứng xem xét cho kết luận R hoặc số bằng chứng cho kết luận R đúng và số bằng chứng kết luận R sai là cân bằng.
Có nhiều bằng chứng để xem xét R đúng hay sai. Để kết hợp các bằng chứng cho cùng kết quả R, có thể dùng phương pháp xác xuất để kết hợp các dấu hiệu độc lập.
Giả sử CF(R1) và CF(R2) là các yếu tố chắc chắn dùng để xét kết quả R, khi đó CF(R) được tính như sau:
- Khi CF(R1) và CF(R2) mang nghĩa khẳng định cho CF(R)
- Khi CF(R1) và CF(R2) mang nghĩa phủ định cho CF(R)
- Trường hợp khác:
| | | |
Trong đó |X| là giá trị tuyệt đối của X.
3.2.4. Phân cụm phân cấp HAC (Hierachical agglomerative clustering)
Bài toán phân cụm Web là một bài toán quan trọng trong lĩnh vực khai phá dữ liệu Web. Phân cụm Web là việc tự động sinh ra các cụm trang web dựa vào sự tương tự của các trang web. Số lượng cụm Web chưa được biết trước, nhiệm vụ của hệ thống phân cụm Web là tự động đưa ra các tập trang Web, mỗi tập tương ứng với một cụm sao cho các
39
trang Web ở trong một cụm có độ tương đồng cao, các trang Web ở trong các cụm khác nhau có độ tương đồng thấp [1].
Phương pháp phân cụm phân cấp HAC xây dựng một cấu trúc cây phân cấp cho các tài liệu theo hướng từ dưới lên (bottom-up). Để tìm ra cụm, đầu tiên mỗi phần tử được coi như một cụm phân biệt, sau đó tiến hành ghép 2 cụm giống nhau nhiều nhất hoặc khác nhau ít nhất. Thuật tốn dừng lại khi gặp một trong ba điều kiện: đã đạt được số cụm mong muốn, chỉ còn một cụm duy nhất chứa tất cả các trang Web hoặc thỏa mãn môt điều kiện dừng nào đó. Sơ đồ trong hình 16 minh họa cho ý tưởng thuật toán HAC: