STT Đặc trƣng Nhãn
1 Tên người {NAME}
2 Ngày sinh {BIRTH}
45
4 Quê quán {HOMETOWN}
5 Nghề nghiệp {JOB}
6 Số điện thoại {TEL}
7 Email {EMAIL}
- Dựa vào dữ liệu đã được gán nhãn, trích chọn các đặc trưng thuộc tính của người trong văn bản.
Quy trình trích chọn đặc trưng xã hội (tên người khác, thuật ngữ khác):
Với mỗi sự xuất hiện của các tên riêng, chúng tôi lấy độ rộng xung quanh cửa sổ là 10 làm ngữ cảnh cho tên, gọi là một đoạn, chỉ lấy những đoạn chứa đầy đủ tên.
Từ mỗi văn bản này tiến hành:
- Tách từ, gán nhãn từ loại cho các thuật ngữ này.
- Lọc bỏ các thuật ngữ thuộc tính bằng từ loại. Khác với mơ hình thơng tin Người của Hua-Ping Zhang và cộng sự, khóa luận chỉ giữ lại danh từ và tên thực thực thể.
- Lọc bỏ những các từ dừng.
- Lọc bỏ các thuật ngữ có tần suất quá cao hoặc quá thấp bằng cách sử dụng DF. Chỉ lấy những thuật ngữ có .
Một số đặc trưng được trích chọn cùng chỉ một giá trị nhưng cách thể hiện khác nhau. Chẳng hạn, cùng một đặc trưng là “Nghề nghiệp” thì có giảng viên- giảng dạy hoặc đặc trưng là “Quê Qn” có “Thành phố HCM”,”Hồ Chí Minh”,”TP. Hồ Chí Minh”… chúng tơi dự định sẽ chuẩn hóa các đặc trưng trích chọn sao cho cùng một đặc trưng, cùng một giá trị của đặc trưng đó chỉ có một cách thể hiện: “Thành phố HCM”, “Hồ Chí Minh”, “TP. Hồ Chí Minh” sẽ được chuyển về là “Thành phố Hồ Chí Minh”.
Bƣớc 4: Biểu diễn đặc trƣng theo mơ hình thơng tin Ngƣời
Các đặc trưng trích trọn được ở bước 3 sẽ được phân vào các tập trong mơ hình thơng tin Người như sau:
46
N = {tên người}
P = {giới tính, ngày sinh, quê quán} Q = {nghề nghiệp, tel, email}
R = {tên người khác, thuật ngữ khác}.
Biểu diễn các đặc trưng nghề nghiệp, tên người khác và thuật ngữ khác bằng ba vector tương ứng với ba loại đặc trưng này như sau:
V = (t1, w1; t2, w2; … ; tH, wH).
Trong đó: ti là thuật ngữ thứ i
wi là trọng số của thuật ngữ thứ i
Trọng số của đặc trưng nghề nghiệp được tính bằng cơng thức đánh trọng số Boolean.
Trọng số của đặc trưng tên người khác và thuật ngữ khác cùng xuất hiện với tên người cần phân biệt được tính bằng phương pháp TF-IDF. Đối với đặc trưng tên người khác, cơng thức tính trọng số như sau:
⃗ ⃗
Trong đó:
- ⃗ là trọng số của tên cùng xuất hiện name.
- ⃗ là tần số cùng xuất hiện của name và người p.
- nname là số lần cùng xuất hiện của tên và tên người khác.
- N’ là tổng số tài liệu
Đối với đặc trưng thuật ngữ khác, cơng thức tính trọng số như sau:
( ⃗) ⃗ ( )
Trong đó:
- ⃗ là trọng số của thuật ngữ t trong tài liệu d.
- ( ⃗)là tần số xuất hiện của t trong tài liệu d.
- nt là số lượng tài liệu chứa t.
47
Bƣớc 5: Phân cụm
Tính độ tương đồng giữa các đặc trưng
Đối với các đặc trưng thuộc tính người bao gồm: tên người, giới tính, quốc tịch, ngày sinh, quê quán, email và số điện thoại sẽ được dùng làm điều kiện cho các quy tắc 1, 2 dùng tạo các cụm ban đầu trong thuật tốn phân cụm. Các đặc trưng cịn lại gồm nghề nghiệp, tên người khác và thuật ngữ khác được dùng để phân cụm trong thuật toán HAC. Mỗi cụm được biểu diễn bằng ba vector đặc trưng của cụm là: vector đặc trưng nghề nghiệp, vector đặc trưng tên người khác và vector đặc trưng thuật ngữ khác. Độ tương đồng của hai cụm được tổng hợp từ ba độ tương đồng giữa các loại vector đặc trưng tương ứng (độ tương đồng giữa cặp vector nghề nghiệp, độ tương đồng giữa cặp vector tên người khác và độ tương đồng giữa cặp vector thuật ngữ khác). Trong đó, độ tương đồng giữa hai vector được tính bằng cơng thức tính consin giữa hai vector.
Ba độ tương đồng tương ứng giữa ba cặp vector nghề nghiệp, tên người khác và thuật ngữ khác là các yếu tố chắc chắn độc lập với nhau, đều có ý nghĩa khẳng định cho sự chắc chắn tương đồng giữa hai cụm. Vì vậy, để xác định tương đồng giữa hai cụm, chúng tôi dùng thuyết chắc chắn Stanford để tổng hợp độ tương đồng của 3 vector đặc trưng này bằng cơng thức tính độ chắc chắn Stanford như sau:
( )
Trong đó:
- là độ chắc chắn tương đồng của hai vector nghề nghiệp.
- ) là độ chắc chắn tương đồng của hai vector tên người khác.
- ) là độ chắc chắn tương đồng của hai vector thuật ngữ khác.
Độ chắc chắn của các yếu tố đặc trưng nghề nghiệp, tên người khác, thuật ngữ khác được tính bằng cơng thức:
( ) ⁄ với [ ] và
Với là độ tương đồng của đặc trưng Ei và là ngưỡng tương đồng của đặc trưng thứ i.
48
Xác định ngưỡng tương động uj bằng phương pháp huấn luyện sau: - Phân cụm dữ liệu huấn luyện theo các yếu tố duy nhất.
- Chọn ngưỡng tương đồng có độ hồi tưởng cao hơn với tiền đề là độ chính xác khơng nhỏ hơn 98%.
Phân cụm
Khóa luận tốt nghiệp vẫn sử dụng thuật tốn phân cụm như đã giới thiệu trong mục 2.2. Nhưng để phù hợp hơn với ngôn ngữ Tiếng Việt và các đặc trưng được trích chọn (khóa luận tiến hành trích chọn đặc trưng email và số điện thoại thay cho đặc trưng tên họ hàng/người thân của thực thể người cần phân biệt), khóa luận có thay đổi trong hai quy tắc để tạo cụm ban đầu như sau:
Quy tắc 1: Đối với hai người có trùng tên, nếu email giống nhau, hoặc số điện
thoại giống nhau, 2 người là cùng một người.
Quy tắc 2: Đối với hai người trùng tên, nếu một trong các thuộc tính: giới tính,
quốc tịch, quê quán, ngày sinh là khác nhau, hai người này là hai người khác nhau.
Với thay đổi này, thuật tốn phân cụm khóa luận thực hiện được được viết lại như sau:
Thuật toán phân cụm:
1. Áp dụng 2 quy tắc 1 và 2 để tạo các cụm gốc
◦ Quy tắc 1: Đối với hai người có trùng tên, nếu ngày sinh giống nhau hoặc
email giống nhau, hoặc số điện thoại giống nhau, hai người là cùng một người.
◦ Quy tắc 2: Đối với hai người trùng tên, nếu một trong các thuộc tính: giới
tính, quê quán, ngày sinh là khác nhau, hai người này là hai người khác nhau.
2. Áp dụng thuật toán phân cụm phân cấp HAC để phân cụm những cụm ban đầu này.
(1) Coi mỗi cụm ban đầu là một cụm duy nhất. (2) Trộn hai cụm giống nhau nhất thành một cụm.
49
(3) Nếu có chỉ cịn một cụm hoặc đạt đến ngưỡng dừng thì thốt. Khơng thì quay lại bước (2).
Ngưỡng dừng được chọn qua quá trình khảo sát các độ chắc chắn tương đồng của hai tài liệu di và dj.
Trong quá trình sát nhập các cụm, tiến hành sát nhập các đặc trưng của người. Đối với vector các thuật ngữ, tính giá trị trung bình trọng số của các thuật ngữ. Đối với đặc trưng thuộc tính, áp dụng phương pháp luật để trộn hai cụm.
Mô tả cụm:
Sau khi phân cụm, mỗi cụm sẽ tương ứng với một thực thể người phân biệt nhưng cùng tên. Từ kết quả phân cụm, khóa luận tiến hành trích xuất các đặc trưng của cụm, biểu diễn kết quả ra màn hình để giúp người dùng có được cái nhìn tổng qt và tổng hợp về từng thực thể người.
3.4. Áp dụng bài toán phân biệt tên ngƣời vào hệ thống tìm kiếm thực thể
Hệ thống tìm kiếm thực thể mà công cụ phục vụ nhu cầu tìm kiếm thơng tin về người của người dùng. Với đầu vào là các từ khóa chỉ thông tin về người, hệ thống sẽ trả về thông tin về thực thể người mà người dùng quan tâm. Tuy nhiên, thực thể người có độ nhập nhằng cao, vì vậy kết quả trả về của hệ thống tìm kiếm thực thể người vẫn cịn nhiều hạn chế. Để nâng cao chất lượng của hệ thống, khóa luận đưa ra mơ hình hệ thống tìm kiếm thực thể người như sau:
Hình 22. Mơ hình hệ thống tìm kiếm thực thể người [3]
Tập tên người
Module thu thập văn bản và phân biệt tên người trên
tập văn bản
Tập trang Web ứng với từng người
Trích xuất đặc trưng cho mỗi
người
50 Hệ thống gồm hai bước chính:
- Bƣớc 1:Thu thập văn bản và phân biệt tên người trên tập văn bản.
Hệ thống tiến hành thu thập các trang web chứa tên người được quan tâm thông qua máy tìm kiếm Google và lưu nội dung các trang web trong các văn bản. Sau đó, hệ thống tiến hành trích chọn đặc trưng ngữ cảnh của người, tính độ tương đồng ngữ cảnh giữa các văn bản và gom cụm các văn bản thành các cụm sao cho các văn bản thuộc cụm một cụm nói về cùng một người, các văn bản trong các cụm khác nhau nói về các thực thể người khác nhau. Chi tiết về bước này đã được trình bày ở hệ thống phân biệt tên người trên Web.
- Bƣớc 2: Hệ thống tiến hành trích xuất đặc trưng cho mỗi người.
Với mỗi tên người, bước 1 đã thực hiện phân cụm các văn bản sao cho mỗi cụm nói về một thực thể người riêng biệt. Trong bước này, hệ thống tiến hành trích xuất chính những đặc trưng đã sử dụng để phân cụm trong bước 1 là thuộc tính người và các tên người có liên quan đến người đó và các cụm từ liên quan. Những đặc trưng này sẽ được lưu vào cơ sở dữ liệu để phục vụ cho q trình tìm kiếm sau này.
Tóm tắt chương 3
Trong chương này, dựa trên kết quả phân tích đặc điểm hình thức và mạng xã hội của miền dữ liệu báo tin tức điện tử Việt Nam, khóa luận đã đưa ra phương pháp áp dụng mơ hình thơng tin Người vào giải quyết bài toán phân biệt tên người trong tiếng Việt.
Chương sau khóa luận mơ tả q trình thực nghiệm, kết quả thử nghiệm mơ hình và đánh giá kết quả đạt được.
51
Chương 4: Thực nghiệm và đánh giá
Dựa trên cơ sở đã mơ tả mơ hình đề xuất ở chương 3, trong chương này khóa luận tiến hành thử nghiệm mơ hình phân biệt tên người dựa trên mơ hình thơng tin Người trong tiếng Việt. Miền dữ liệu tiến hành thử nghiệm của mơ hình là tập các bài báo tim tức điện tử tiếng Việt.
4.1. Môi trƣờng và cơng cụ sử dụng thực nghiệm.
Cấu hình phần cứng