4/21/2011 PHẦN I: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN LEXICAL CHAIN TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN Các phương pháp biểu diễn văn Mô hình vector Văn = vector n chiều + trọng số cho giá trị Mô hình vector thưa số ố từ với ới ttrọng số ố khác nhỏ hỏ h ất nhiều hiề so với ới số ố từ có ó Cơ sở liệu Các phương pháp biểu diễn văn Mô hình tần số kết hợp TF x IDF Xét: Tập liệu gồm m văn bản: D = {d1, d2,… dm} g ộ vector g gồm n thuật ậ Mỗi văn biểu diễn dạng ngữ T = {t1, t2,…tn} fij số lần xuất thuật ngữ ti văn dj m số lượng văn hi số văn mà thuật ngữ ti xuất Gọi W = {wij } ma trận trọng số, wij giá trị trọng số thuật ngữ ti văn dj Các phương pháp biểu diễn văn Ma trận trọng số TFxIDF tính sau: ⎧ ⎛m⎞ ⎪[1 + log( f ij )] log⎜⎜ ⎟⎟ nÕu hij ≥ wij = ⎨ ⎝ hi ⎠ ⎪ ⎩0 nÕu ng−îc l¹i Các phương pháp biểu diễn văn (tt) Mô hình Lexical Chain: “Lexical Chain” khái niệm nhằm trì tính cố kết từ văn có mối liên quan với mặt ngữ nghĩa g Một số loại quan hệ ngữ nghĩa từ: Lặp lại (Repeatation) Đồng nghĩa (synonyms ) Trái nghĩa () Bộ phận-Toàn thể (hypernyms, hyponyms ) … Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường} 4/21/2011 Các thuật toán giải toán Phân lớp văn Thuật toán định Thuật toán k-NN Thuật toán Lexical Chain Thuật toán kNN (K-Nearest Neighbor) Tư tưởng : tính toán độ phù hợp văn xét với lớp (nhóm) dựa k văn mẫu có độ tương tự gần Có cách gán nhãn: Gán nhãn văn gần nhất: Gán nhãn theo số đông Gán nhãn theo độ phù hợp chủ đề Cách biểu diễn văn (hướng tiếp cận truyền thống): TF x IDF Lý lựa chọn hướng Lexical Chain Can thiệp vào chất ngôn ngữ văn bản, thay mô hình toán học tuý Khử nhập nhằng ngữ nghĩa từ tốt Hiệu Hiệ ả hệ thống thố cần ầ “học “h lại” l i” Giúp thu gọn không gian toán Là hướng tiếp cận Thuật toán Cây định Cây định gồm nút định, nhánh : Mỗi gắn với nhãn lớp, Mỗi nút định mô tả phép thử X đó, g ứng g với ộ khả g X Mỗi nhánh nút nàyy tương Ý tưởng: Phân lớp tài liệu dj phép thử đệ quy trọng số mà khái niệm gán nhãn cho nút với vector đạt tới nút => nhãn nút gán cho tài liệu dj Ưu điểm: chuyển dễ dàng sang dạng sở tri thức luật Nếu Thì Nhược điểm: Cây thu thưòng phức tạp, phù hợp với tập mẫu ban đầu Khi áp dụng với liệu gây sai số lớn Thuật toán Lexical Chain Bước 1: Đọc từ w văn Bước 2: Tiến hành dừng w stop-word Bước 3: Thông qua WordNet, lấy tập S gồm tất nghĩa mà w có Bước 4: Tiến hành tìm kiếm mối liên hệ gần w với từ tập hợp chain khởi tạo Nếu tìm thấy mối liên hệ đủ gần, tiến hành kết nạp w vào chain đó, đồng thời khử nhập nhằng nghĩa cho w cách tỉa tất sense không sử dụng để tìm mối liên hệ Nếu không tìm chain thoả mãn, tiến hành lập chain kết nạp w từ PHẦN II: TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN 4/21/2011 Các tác động đặc trưng ngôn ngữ Tiếng Việt đến toán Mô hình giải toán Input Text Cần phải thiết kế thêm giải thuật để tách từ Không cần phải giải toán Stemming Hiện tượng từ đồng âm: nhập nhằng ngữ nghĩa Tiếng ế Việt chưa có WordNet hoàn chỉnh để ể biểu ể đạt mối quan hệ ngữ nghĩa cách phong phú đầy đủ Tiếng Anh Từ điển Tiếng Việt Từ điển Stopword 1.Tiền xử lý Xây dựng Lexical Chains (LC) Kho văn huấn luyện Cây phân cấp ngữ nghĩa 3.Tính độ tương đương với văn mẫu LC 4.Quyết định lớp cho văn Categorized Text Các yếu tố ngôn ngữ sử dụng Tiền xử lý văn begin dấu “.”, “, “ , “;” , Từ điển Tiếng Việt : 70.000 từ (có gắn nghĩa) Từ điển từ dừng Cây phân cấp ngữ nghĩa ROOT “:” Tách từ Gán nhãn từ loại, lọc danh từ Loại L i bỏ từ dừng dừ Chia văn thành truy vấn nhỏ Xét truy vấn (các tiếng) T ConcreteThing K SEMDIST = N F Là từ khoá ? … Bỏ q qua tiếng bên phải Cắt từ khỏi truy vấn Mức trừu tượng chung thấp Cây phân cấp ngữ nghĩa Tiếng Việt animal K Mammal Bird N Fish F Truy vấn rỗng ? T Từ Bò Gấu Chim sẻ Vàng anh Cá trắm Cá thu end Giải thuật xây dựng Lexical Chain Bước 1: Với danh từ văn bản, liệt kê tất nghĩa mà có Bước 2: Sử dụng WSDG để xác định nghĩa phù hợp từ số tập hợp nghĩa xác định bước Bước 3: Xây dựng Lexical Chain dựa vào nghĩa vừa tìm cho từ Xuất phát từ tập chain rỗng Với từ w: kết nạp vào chain c độ tương đồng với tất từ c đủ gần (vượt ngưỡng lập trước) Ngược lại, lập chain kết nạp từ α Đồ thị khử nhập nhằng nghĩa Gọi: T = {T1 , T2,… Tn} tập danh từ văn Si (i=1, mi) tập hợp nghĩa mà danh từ Ti có (mi số lượng nghĩa Ti) G=(V,E) Vi biểu diễn Ti, chia làm mi phần Mỗi phần Vij biểu diễn nghĩa Sij Ti Mỗi cạnh E nối Vij Vi’j’ Mỗi cạnh gán trọng số: w(Vij , Vi ' j ' ) = sim( Sij , Si ' j ' ) Trọng số nghĩa Vij: w(Vij ) = ∑ w(Vij , Vi ' j ' ) (i ' ≠ i, i, i ' = 1, n) 4/21/2011 Ví dụ minh hoạ giải thuật « Sáng nay, mẹ chợ mua hai cân đường để vắt nước chanh » Đánh giá Lexical Chain Điểm cho chain: score(C) = Length * Homogeneity Trong đó: Vận tải Đơn vịị quy uớc đo lường Gia vị Length: L th Số llượng “l “lượtt từ” t C C Homogeneity: Tính đồng từ C Vật dụng CÂN ĐƯỜNG + Đường: W(‘Gia vị’) =2.0, W(‘vận tải’) =0.8 Homogeneity = − α => Đường = Gia vị + Cân: W(‘đơn vị đo lường’) =1.8, W(‘Vật dụng’) =1.4 Hoa Number _ of _ distinct _ words _ in _ C Length Alpha = 0.75 ⇒Cân = đơn vị đo lường CHANH Gán nhãn lớp cho văn Dùng LC tính độ tương tự văn Ký hiệu chuỗi từ vựng c d : c = {c1,c2,…, cm} d = {d1,d2,…, dn} Trong đó, thành phần ci, dj (i=1 m, j=1 n) có nghĩa g duyy ợ sci sd j Độ tương đồng c d : m n sim(c, d ) = ∑∑ sim( sci , sd j ) Gán nhãn theo tổng độ phù hợp chủ đề Lần lượt tính tổng độ phù hợp văn Q với tất phân lớp có k văn lấy Gán nhãn chủ đề phù hợp cho Q Q thuộc vào phân lớp có tổng độ liên quan cao i =1 j =1 Độ tương tự chain c văn D sim(c, D) = ∑ sim(c, d ) d ∈D PHẦN III: Chức Huấn luyện tập mẫu Tiền xử lý TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN Tập văn thô (đã phân lớp đúng) Xây dựng tập Lexical Chains Tập văn chứa danh từ Lọc Chains mạnh lưu trữ Tập văn dạng chain Tập văn huấn luyện CHỨC NĂNG HUẤN LUYỆN TẬP MẪU 4/21/2011 Xây dựng Lexical Chain Cây phân cấp ngữ nghĩa Từ điển Tiếng Việt (có gắn nghĩa) Tập văn (biểu diễn dạng danh từ ) Thu thập tập nghĩa Chức Phân lớp văn Văn đầu vào (cần phân lớp) Xây dựng WSD Graph Chọn nghĩa phù hợp Tiền xử lý Tập danh từ+ tập nghĩa Cấu trúc nên chain XÂY DỰNG TẬP LEXICAL CHAINS Từ điển tiếng Việt+ ngữ nghĩa Tập V.bản huấn luyện Xác định độ liên quan Chủ đề phù hợp cho văn Gán chủ đề PHÂN LỚP VĂN BẢN Tập chain cho văn Thiết kế liệu Tập chains mạnh Các văn phù hợp (có kèm chủ đề) Thiết kế liệu ¾Từ điển Tiếng Việt (nguồn: trung tâm từ điển học Vietlex): cá quả composite word Animal _ _ cá nước ngọt, thân tròn, dài, có nhiều đốm đen, đầu nhọn, khoẻ, bơi nhanh Thiết kế liệu ¾Cây phân cấp nghĩa (nguồn: trung tâm từ điển học Vietlex): Organization Root/ConcreteThing/LivingThing/People/Organization Giao diện Lưu Lexical Chain: Tập lexical chain văn lưu file txt Các lexical chain cách dòng trống Trong lexical chain: Mỗi từ lưu dòng Câu trúc từ sau: Ví dụ: Từ Nghĩa Số lần xuất luật sư|People|4 bị cáo|People|1 thẩm phán|People|3 cán bộ|People|2 người làm|People|1 4/21/2011 Chức quản lý từ điển, từ dừng văn mẫu Tập ngữ liệu thử nghiệm o Các báo sưu tầm trang tin vietnamnet (http://www.vnn.vn) o chủ đề: Khoa học, Vi tính, Giáo dục, Pháp luật, Đời sống, Thể thao, Kinh doanh, Ô tô xe máy Số báo Số chủ đề (lớp) Kích thước báo lớn Kích thước báo nhỏ Kích thước trung bình báo Số danh từ nhiều báo Số danh từ báo Số danh từ trung bình báo Một số kết thử nghiệm 100 6.13 KB 1.11 KB 3.30 (KB) 89 18 35.47 Nhận xét Các văn bị phân lớp sai số nguyên nhân: Số báo thử nghiệm 100 Thời gian phân lớp nhanh 0.2 s Bản thân nội dung văn có nhập nhằng Thời gian phân lớp chậm 1.9 s Thời gian phân lớp trung bình 0.713 Sai từ khâu tách từ lọc danh từ Số văn phân lớp Hiệu suất phân lớp 92 92 % Kích thước trung bình báo 3.30 (KB) Số danh từ trung bình báo 35.47 Số văn phân lớp Độ xác (precision) 100 Cây phân cấp ấ ngữ nghĩa hạn chế ế ề số ố lượng nghĩa, dẫn đến số danh từ có nghĩa xa lại thuộc lớp nghĩa trừu tượng (ví dụ: Concept, ConcreteThing….) Độ sâu chưa lớn nên dẫn tới độ tương đồng từ thuộc dạng lại cao 92 % ... tương tự chain c văn D sim(c, D) = ∑ sim(c, d ) d ∈D PHẦN III: Chức Huấn luyện tập mẫu Tiền xử lý TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN Tập văn thô (đã phân lớp đúng)... thoả mãn, tiến hành lập chain kết nạp w từ PHẦN II: TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN 4/21/2011 Các tác động đặc trưng ngôn ngữ Tiếng Việt đến toán Mô hình... trúc nên chain XÂY DỰNG TẬP LEXICAL CHAINS Từ điển tiếng Việt+ ngữ nghĩa Tập V .bản huấn luyện Xác định độ liên quan Chủ đề phù hợp cho văn Gán chủ đề PHÂN LỚP VĂN BẢN Tập chain cho văn Thiết