[r]
(1)4/21/2011
PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN
LEXICAL CHAIN
PHẦN I:
TỔNG QUAN VỀBÀI TOÁN
TỔNG QUAN VỀ BÀI TOÁN
PHÂN LỚP VĂN BẢN
Các phương pháp biểu diễn văn bản
Mô hình vector
Văn = vector n chiều + trọng số cho giá trị
Mơ hình vector thưa
ốtừ ới t ốkhá hỏh ất hiề ới ốtừ ó
số từ với trọng số khác nhỏ nhiều so với số từ có Cơ sở liệu
Các phương pháp biểu diễn văn bản Mơ hình tần số kết hợp TF x IDF
Xét:
Tập dữ liệu gồm m văn bản: D = {d1, d2,… dm}
Mỗi văn bản biểu diễn dưới dạạng mg ộột vector ggồm n thuậật ngữ T = {t1, t2,…tn}
fijlà sốlần xuất hiện của thuật ngữ titrong văn bản dj
m sốlượng văn bản
hilà sốvăn bản mà thuật ngữ tixuất hiện
Gọi W = {wij } ma trận trọng số, đó wij là giá trị
trọng số của thuật ngữ titrong văn bản dj
Các phương pháp biểu diễn văn bản Ma trận trọng số TFxIDF được tính như sau:
⎧ ⎛ ⎞
⎪ ⎩ ⎪ ⎨ ⎧
≥ ⎟⎟
⎠ ⎞ ⎜⎜ ⎝ ⎛ +
=
lại ngợc nếu
nếu 1
0
h h
m f
wij [ log( ij)]log i ij 1
Các phương pháp biểu diễn văn bản (tt)
Mơ hình Lexical Chain:
“Lexical Chain” khái niệm nhằm trì tính cố kết từ văn có mối liên quan với mặt ngữ
nghgĩa
Một số loại quan hệ ngữ nghĩa từ:
(2)4/21/2011
Các thuật toán giải quyết toán Phân lớp văn bản
Thuật toán quyết định.
Thuật toán k-NN.
Thuật toán Lexical Chain.
Thuật toán Cây quyết định
Cây định gồm nút định, nhánh :
Mỗi lágắn với nhãn lớp,
Mỗi nút quyết định mô tả phép thử X đó,
Mỗi nhánhcủa nút tyương gứng vg ới mộột khả cg X
Ý tưởng: Phân lớp tài liệu djbằng phép thửđệ quy trọng số
mà khái niệm gán nhãn cho nút với vector đạt tới nút => nhãn nút gán cho tài liệu dj
Ưu điểm: chuyển dễ dàng sang dạng sở tri thức luật Nếu -Thì
Nhược điểm:
Cây thu thưòng phức tạp, phù hợp với tập mẫu ban đầu
Khi áp dụng với liệu gây sai số lớn
Thuật tốn kNN (K-Nearest Neighbor) Tư tưởng : tính tốn độ phù hợpcủa văn bản đang xét
với từng lớp (nhóm) dựa kvăn bản mẫu có độ tương tự gần nhất
Có cách gán nhãn:
Gán nhãn văn bản gần nhất:
Gán nhãn theo sốđông
Gán nhãn theo độ phù hợp chủđề
Cách biểu diễn văn bản (hướng tiếp cận truyền thống): TF x IDF
Thuật toán Lexical Chain
Bước 1: Đọc từ w văn
Bước 2: Tiến hành dừng w stop-word
Bước 3: Thông qua WordNet, lấy tập S gồm tất nghĩa mà w có
Bước 4: Tiến hành tìm kiếm mối liên hệ gần w với từ
trong tập hợp chain khởi tạo
Nếu tìm thấy mối liên hệđủ gần, tiến hành kết nạp w vào chain đó,
đồng thời khử nhập nhằng nghĩa cho w cách tỉa tất sense không sử dụng để tìm mối liên hệ
Nếu khơng tìm chain thoả mãn, tiến hành lập chain kết nạp w từđầu tiên
Lý lựa chọn hướng Lexical Chain Can thiệp vào bản chất ngôn ngữ của văn bản, thay mơ
hình tốn học thuần t
Khử nhập nhằng ngữ nghĩa của từ rất tốt.
Hiệ ảkhi hệthố ầ “h l i”
Hiệu quả hệ thống cần “học lại”
Giúp thu gọn khơng gian tốn
Là hướng tiếp cận mới
PHẦN II:
TIẾP CẬN BÀI TOÁN PHÂN LỚP
TIẾP CẬN BÀI TOÁN PHÂN LỚP
VĂN BẢN TIẾNG VIỆT THEO HƯỚNG
(3)4/21/2011
Các tác động của đặc trưng ngôn ngữ Tiếng Việt đến toán Cần phải thiết kế thêm giải thuật để tách từ Khơng cần phải giải quyết tốn Stemming
Hiện tượng từđồng âm: nhập nhằng ngữ nghĩa
ế ể ể
Tiếng Việt chưa có một WordNet hồn chỉnh để biểu đạt các mối quan hệ ngữ nghĩa một cách phong phú đầy đủ như Tiếng Anh
Mơ hình giải quyết toán
Từđiển Tiếng
Việt 1.Tiền xử lý
Input Text
Từđiển Stop-word
Kho văn bản huấn luyện
Cây phân cấp ngữ nghĩa 2 Xây dựng Lexical Chains
(LC)
3.Tính độtương đương với các văn mẫu LC
4.Quyết địnhlớp cho văn bản
Categorized Text
Các yếu tố ngôn ngữđược sử dụng Từđiển Tiếng Việt : 70.000 từ (có gắn nghĩa)
Từđiển từ dừng
Cây phân cấp ngữ nghĩa
ROOT
Cây phân cấp ngữ nghĩa Tiếng Việt
Bird
Chim sẻ Vàng anh Từ
Mammal
Bò Gấu
Fish
Cá trắm Cá thu animal
ROOT
ConcreteThing
K N
…
Mức trừu tượng chung thấp nhất N K SEMDIST=
Tiền xử lý văn bản Tách từ
Gán nhãn từ loại, lọc ra danh từ L i bỏtừdừ
begin
Chia văn thành truy vấn nhỏ hơn
Bỏ qua Là từ
khoá ? F các dấu “.”, “, “ , “;” ,
“:”
Xét truy vấn (các tiếng)
Loại bỏ từ dừng.
end
q tiếng bên
phải Cắt từ khỏi
truy vấn khoá ?
Truy vấn rỗng ?
T F
T
Giải thuật xây dựng Lexical Chain
Bước 1:Với danh từ văn bản, liệt kê tất nghĩa mà có
Bước 2:Sử dụng WSDG để xác định nghĩa phù hợp từ số tập hợp nghĩa xác định bước
Bước 3:Xây dựng Lexical Chain dựa vào nghĩa vừa tìm cho từ
Xuất phát từ tập chain rỗng
Với từ w:
kết nạp vào chain c độ tương đồng với tất từ
Đồ thị khử nhập nhằng nghĩa Gọi:
T = {T1 , T2,… Tn} tập danh từ văn
Si (i=1, mi) tập hợp nghĩa mà danh từ Ti có
được (mi số lượng nghĩa Ti)
G=(V,E)
Vi biểu diễn Ti, chia làm mi phần
Mỗi phần Vij biểu diễn nghĩa Sij Ti
Mỗi cạnh E nối Vij Vi’j’
(4)4/21/2011
Ví dụ minh hoạ giải thuật
Vận Đơn vị
« Sáng nay, mẹ chợ mua hai cân đường để vắt nước chanh »
Vận tải Gia vị
ị quy uớc đo lường Vật dụng
Hoa quả
ĐƯỜNG CÂN
CHANH
+ Đường: W(‘Gia vị’) =2.0, W(‘vận tải’) =0.8
=> Đường = Gia vị
+ Cân: W(‘đơn vị đo lường’) =1.8, W(‘Vật dụng’) =1.4
⇒Cân = đơn vị đo lường
Đánh giá Lexical Chain Điểm cho mỗi chain:
score(C) = Length * Homogeneity
Trong đó:
L th Sốl “l t từ” t C
Length: Số lượng “lượt từ” C
Homogeneity: Tính đồng từ C
Alpha = 0.75
_ _ _ _ _
Homogeneity Number of distinct words in C
Length α
= −
Dùng LC tính độ tương tự giữa văn bản Ký hiệu chuỗi từ vựng c d lần lượt :
c = {c1,c2,…, cm}và d= {d1,d2,…, dn}
Trong đó, mỗi thành phần ci, dj (i=1 m, j=1 n) đều chỉ có 1 nghg ĩa nhy ất lần lượợt sc và sd
Độ tương đồng giữa c d :
Độ tương tự giữa chain c văn bản D
i
c s
j
d
s
1
( , ) ( , )
i j
m n
c d
i j
sim c d sim s s
= =
=∑∑
( , ) ( , )
d D
sim c D sim c d
∈
=∑
Gán nhãn lớp cho văn bản Gán nhãn theo tổng độ phù hợp chủđề
Lần lượt tính tổng độ phù hợp văn Q với tất phân lớp có k văn lấy
Gán nhãn chGán nhãn chủ đềủđề phù hphù hợợp nhp nhấất cho Qt cho Q
Q thuộc vào phân lớp có tổng độ liên quan cao
PHẦN III:
TIẾP CẬN BÀI TOÁN PHÂN LỚP
TIẾP CẬN BÀI TOÁN PHÂN LỚP
VĂN BẢN TIẾNG VIỆT THEO HƯỚNG
LEXICAL CHAIN
Chức Huấn luyện tập mẫu
Tiền xử lý Xây dựng tập Lexical
Chains
Lọc Chains mạnh
và lưu trữ
Tập văn bản thô (đã phân lớp đúng)
CHỨC NĂNG HUẤN LUYỆN TẬP MẪU
Tập văn bản
huấn luyện Tập văn
chỉ chứa danh từ
Tập văn dưới dạng
(5)4/21/2011
Xây dựng Lexical Chain
Từđiển Tiếng Việt (có gắn nghĩa)
Cây phân cấp ngữ nghĩa Tập văn
(biểu diễn dưới
dạng danh từ )
XÂY DỰNG TẬP LEXICAL CHAINS Thu
thập tập nghĩa
Xây dựng WSD Graph
Chọn nghĩa phù
hợp nhất Tập danh
từ+ tập nghĩa
Tập chain cho
văn bản
Cấu trúc nên chain
Chức năng Phân lớp văn bản
Từđiển tiếng Việt+ ngữ
nghĩa
Tập V.bản
đã huấn luyện Văn đầu
vào (cần phân lớp)
Chủđề phù hợp cho văn bản
Tiền xử
lý
Xác định
độ liên quan
Gán chủ đề
Tập chains mạnh
Các văn phù hợp nhất (có kèm chủđề) PHÂN LỚP VĂN BẢN
lớp)
Thiết kế dữ liệu
<LexicalEntry>
<HeadWord>cá quả</HeadWord> <Morphology>
<WordType>composite word</WordType>
¾Từđiển Tiếng Việt (nguồn: trung tâm từđiển học Vietlex):
</Morphology> <Semantic>
<LogicalConstraint>
<CategoryMeaning>Animal</CategoryMeaning> <Synonym>_</Synonym>
<Antonym>_</Antonym> </LogicalConstraint>
<Definition>cá ởnước ngọt, thân tròn, dài, có nhiều
đốmđen,đầu nhọn, khoẻ, bơi nhanh</Definition> </Semantic>
</LexicalEntry>
Thiết kế dữ liệu
¾Cây phân cấp nghĩa (nguồn: trung tâm từđiển học Vietlex):
Organization Root/ConcreteThing/LivingThing/People/Organization
Thiết kế dữ liệu Lưu Lexical Chain:
Tập lexical chain văn lưu file txt
Các lexical chain cách dòng trống
Trong lexical chain:
Mỗi từ lưu dòng
Mỗi từđược lưu dòng Câu trúc từ sau: Ví dụ:
luật sư|People|4
Từ Nghĩa Số lần xuất hiện
(6)4/21/2011
Chức năng quản lý từđiển, từ dừng văn
bản mẫu Tập ngữ liệu thử nghiệm
o Các báo sưu tầm trang tin vietnamnet (http://www.vnn.vn) o chủđề: Khoa học, Vi tính, Giáo dục, Pháp luật, Đời sống, Thể thao, Kinh doanh, Ơ tơ xe máy
Sốbài báo 100
Số báo 100
Số chủđề (lớp)
Kích thước báo lớn 6.13 KB Kích thước báo nhỏ 1.11 KB Kích thước trung bình báo 3.30 (KB) Số danh từ nhiều báo 89 Số danh từ báo 18 Số danh từ trung bình báo 35.47
Một số kết quả thử nghiệm Số báo thử nghiệm 100 Thời gian phân lớp nhanh 0.2 s Thời gian phân lớp chậm 1.9 s Thời gian phân lớp trung bình 0.713 Thời gian phân lớp trung bình 0.713 Số văn phân lớp 92
Hiệu suất phân lớp 92 %
Kích thước trung bình báo 3.30 (KB) Số danh từ trung bình báo 35.47 Số văn phân lớp 100
Độ xác (precision) 92 %
Nhận xét
Các văn bản bị phân lớp sai một số nguyên nhân: Bản thân nội dung văn bản cũng có sự nhập nhằng. Sai từ khâu tách từ lọc danh từ.
ấ ế ề ố
Cây phân cấp ngữ nghĩa hạn chế về số lượng nghĩa, dẫn đến một số danh từ có nghĩa xa nhưng lại thuộc về một lớp nghĩa trừu tượng (ví dụ: Concept, ConcreteThing….)