1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương

6 92 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 432,91 KB

Nội dung

Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain trình bày tổng quan về bài toán tổng quan về bài toán phân lớp văn bản, tiếp cận bài toán phân lớp tiếp cận bài toán phân lớp văn bản tiếng Việt theo hướng lexical chain. Mời các bạn cùng tham khảo.

4/21/2011 PHẦN I: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN LEXICAL CHAIN TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN Các phương pháp biểu diễn văn ƒ Mơ hình vector ƒ Văn = vector n chiều + trọng số cho giá trị ƒ Mơ hình vector thưa ƒ số ố từ với ới ttrọng số ố khác nhỏ hỏ h ất nhiều hiề so với ới số ố từ có ó Cơ sở liệu Các phương pháp biểu diễn văn ƒ Mơ hình tần số kết hợp TF x IDF ƒ Xét: ƒ Tập liệu gồm m văn bản: D = {d1, d2,… dm} g ộ vector g gồm n thuật ậ ƒ Mỗi văn biểu diễn dạng ngữ T = {t1, t2,…tn} ƒ fij số lần xuất thuật ngữ ti văn dj ƒ m số lượng văn ƒ hi số văn mà thuật ngữ ti xuất ƒ Gọi W = {wij } ma trận trọng số, wij giá trị trọng số thuật ngữ ti văn dj Các phương pháp biểu diễn văn ƒ Ma trận trọng số TFxIDF tính sau: ⎧ ⎛m⎞ ⎪[1 + log( f ij )] log⎜⎜ ⎟⎟ nÕu hij ≥ wij = ⎨ hi ngợc lại Cỏc phng pháp biểu diễn văn (tt) ƒ Mơ hình Lexical Chain: ƒ “Lexical Chain” khái niệm nhằm trì tính cố kết từ văn có mối liên quan với mặt ngữ nghĩa g ƒ Một số loại quan hệ ngữ nghĩa từ: ƒ ƒ ƒ ƒ ƒ Lặp lại (Repeatation) Đồng nghĩa (synonyms ) Trái nghĩa () Bộ phận-Toàn thể (hypernyms, hyponyms ) … ƒ Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường} CuuDuongThanCong.com https://fb.com/tailieudientucntt 4/21/2011 Các thuật toán giải toán Phân lớp văn ƒ Thuật toán định ƒ Thuật toán k-NN ƒ Thuật toán Lexical Chain Thuật tốn kNN (K-Nearest Neighbor) ƒ Tư tưởng : tính tốn độ phù hợp văn xét với lớp (nhóm) dựa k văn mẫu có độ tương tự gần ƒ Có cách gán nhãn: ƒ Gán nhãn văn gần nhất: ƒ Gán nhãn theo số đông ƒ Gán nhãn theo độ phù hợp chủ đề ƒ Cách biểu diễn văn (hướng tiếp cận truyền thống): TF x IDF Lý lựa chọn hướng Lexical Chain ƒ Can thiệp vào chất ngôn ngữ văn bản, thay mơ hình tốn học tuý ƒ Khử nhập nhằng ngữ nghĩa từ tốt ƒ Hiệu Hiệ ả hệ thống thố cần ầ “học “h lại” l i” ƒ Giúp thu gọn khơng gian tốn ƒ Là hướng tiếp cận Thuật toán Cây định ƒ Cây định gồm nút định, nhánh : ƒ Mỗi gắn với nhãn lớp, ƒ Mỗi nút định mô tả phép thử X đó, g ứng g với ộ khả g X ƒ Mỗi nhánh nút nàyy tương ƒ Ý tưởng: Phân lớp tài liệu dj phép thử đệ quy trọng số mà khái niệm gán nhãn cho nút với vector đạt tới nút => nhãn nút gán cho tài liệu dj ƒ Ưu điểm: chuyển dễ dàng sang dạng sở tri thức luật Nếu Thì ƒ Nhược điểm: ƒ Cây thu thưòng phức tạp, phù hợp với tập mẫu ban đầu ƒ Khi áp dụng với liệu gây sai số lớn Thuật toán Lexical Chain ƒ Bước 1: Đọc từ w văn ƒ Bước 2: Tiến hành dừng w stop-word ƒ Bước 3: Thông qua WordNet, lấy tập S gồm tất nghĩa mà w có ƒ Bước 4: Tiến hành tìm kiếm mối liên hệ gần w với từ tập hợp chain khởi tạo ƒ Nếu tìm thấy mối liên hệ đủ gần, tiến hành kết nạp w vào chain đó, đồng thời khử nhập nhằng nghĩa cho w cách tỉa tất sense không sử dụng để tìm mối liên hệ ƒ Nếu khơng tìm chain thoả mãn, tiến hành lập chain kết nạp w từ PHẦN II: TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN CuuDuongThanCong.com https://fb.com/tailieudientucntt 4/21/2011 Các tác động đặc trưng ngôn ngữ Tiếng Việt đến tốn Mơ hình giải tốn Input Text ƒ ƒ ƒ ƒ Cần phải thiết kế thêm giải thuật để tách từ Không cần phải giải toán Stemming Hiện tượng từ đồng âm: nhập nhằng ngữ nghĩa Tiếng ế Việt chưa có WordNet hồn chỉnh để ể biểu ể đạt mối quan hệ ngữ nghĩa cách phong phú đầy đủ Tiếng Anh Từ điển Tiếng Việt Từ điển Stopword 1.Tiền xử lý Xây dựng Lexical Chains (LC) Kho văn huấn luyện Cây phân cấp ngữ nghĩa 3.Tính độ tương đương với văn mẫu LC 4.Quyết định lớp cho văn Categorized Text Các yếu tố ngôn ngữ sử dụng Tiền xử lý văn begin dấu “.”, “, “ , “;” , ƒ Từ điển Tiếng Việt : 70.000 từ (có gắn nghĩa) ƒ Từ điển từ dừng ƒ Cây phân cấp ngữ nghĩa ROOT “:” ƒ Tách từ ƒ Gán nhãn từ loại, lọc danh từ ƒ Loại L i bỏ từ dừng dừ Chia văn thành truy vấn nhỏ Xét truy vấn (các tiếng) T ConcreteThing K SEMDIST = N F Là từ khoá ? … Bỏ q qua tiếng bên phải Cắt từ khỏi truy vấn Mức trừu tượng chung thấp Cây phân cấp ngữ nghĩa Tiếng Việt animal K Mammal Bird N Fish F Truy vấn rỗng ? T Từ Bò Gấu Chim sẻ Vàng anh Cá trắm Cá thu end Giải thuật xây dựng Lexical Chain ƒ Bước 1: Với danh từ văn bản, liệt kê tất nghĩa mà có ƒ Bước 2: Sử dụng WSDG để xác định nghĩa phù hợp từ số tập hợp nghĩa xác định bước ƒ Bước 3: Xây dựng Lexical Chain dựa vào nghĩa vừa tìm cho từ ƒ Xuất phát từ tập chain rỗng ƒ Với từ w: ƒ ƒ kết nạp vào chain c độ tương đồng với tất từ c đủ gần (vượt ngưỡng lập trước) Ngược lại, lập chain kết nạp từ α Đồ thị khử nhập nhằng nghĩa ƒ Gọi: ƒ T = {T1 , T2,… Tn} tập danh từ văn ƒ Si (i=1, mi) tập hợp nghĩa mà danh từ Ti có (mi số lượng nghĩa Ti) ƒ G=(V,E) ƒ Vi biểu diễn Ti, chia làm mi phần ƒ Mỗi phần Vij biểu diễn nghĩa Sij Ti ƒ Mỗi cạnh E nối Vij Vi’j’ ƒ Mỗi cạnh gán trọng số: w(Vij , Vi ' j ' ) = sim( Sij , Si ' j ' ) ƒ Trọng số nghĩa Vij: w(Vij ) = ∑ w(Vij , Vi ' j ' ) (i ' ≠ i, i, i ' = 1, n) CuuDuongThanCong.com https://fb.com/tailieudientucntt 4/21/2011 Ví dụ minh hoạ giải thuật « Sáng nay, mẹ chợ mua hai cân đường để vắt nước chanh » Đánh giá Lexical Chain ƒ Điểm cho chain: ƒ score(C) = Length * Homogeneity ƒ Trong đó: Vận tải Đơn vịị quy uớc đo lường Gia vị ƒ Length: L th Số llượng “l “lượtt từ” t C C ƒ Homogeneity: Tính đồng từ C Vật dụng CÂN ĐƯỜNG + Đường: W(‘Gia vị’) =2.0, W(‘vận tải’) =0.8 Homogeneity = − α => Đường = Gia vị + Cân: W(‘đơn vị đo lường’) =1.8, W(‘Vật dụng’) =1.4 Hoa Number _ of _ distinct _ words _ in _ C Length ƒ Alpha = 0.75 ⇒Cân = đơn vị đo lường CHANH Gán nhãn lớp cho văn Dùng LC tính độ tương tự văn ƒ Ký hiệu chuỗi từ vựng c d : ƒ c = {c1,c2,…, cm} d = {d1,d2,…, dn} ƒ Trong đó, thành phần ci, dj (i=1 m, j=1 n) có nghĩa g duyy ợ sci sd j ƒ Độ tương đồng c d : m n sim(c, d ) = ∑∑ sim( sci , sd j ) ƒ Gán nhãn theo tổng độ phù hợp chủ đề ƒ Lần lượt tính tổng độ phù hợp văn Q với tất phân lớp có k văn lấy ƒ Gán nhãn chủ đề phù hợp cho Q ƒ Q thuộc vào phân lớp có tổng độ liên quan cao i =1 j =1 ƒ Độ tương tự chain c văn D sim(c, D) = ∑ sim(c, d ) d ∈D PHẦN III: Chức Huấn luyện tập mẫu Tiền xử lý TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN Tập văn thô (đã phân lớp đúng) Xây dựng tập Lexical Chains Tập văn chứa danh từ Lọc Chains mạnh lưu trữ Tập văn dạng chain Tập văn huấn luyện CHỨC NĂNG HUẤN LUYỆN TẬP MẪU CuuDuongThanCong.com https://fb.com/tailieudientucntt 4/21/2011 Xây dựng Lexical Chain Cây phân cấp ngữ nghĩa Từ điển Tiếng Việt (có gắn nghĩa) Tập văn (biểu diễn dạng danh từ ) Thu thập tập nghĩa Chức Phân lớp văn Văn đầu vào (cần phân lớp) Xây dựng WSD Graph Chọn nghĩa phù hợp Tiền xử lý Tập danh từ+ tập nghĩa Cấu trúc nên chain XÂY DỰNG TẬP LEXICAL CHAINS Từ điển tiếng Việt+ ngữ nghĩa Tập V.bản huấn luyện Xác định độ liên quan Chủ đề phù hợp cho văn Gán chủ đề PHÂN LỚP VĂN BẢN Tập chain cho văn Thiết kế liệu Tập chains mạnh Các văn phù hợp (có kèm chủ đề) Thiết kế liệu ¾Từ điển Tiếng Việt (nguồn: trung tâm từ điển học Vietlex): cá quả composite word Animal _ _ cá nước ngọt, thân tròn, dài, có nhiều đốm đen, đầu nhọn, khoẻ, bơi nhanh Thiết kế liệu ¾Cây phân cấp nghĩa (nguồn: trung tâm từ điển học Vietlex): Organization Root/ConcreteThing/LivingThing/People/Organization Giao diện ƒ Lưu Lexical Chain: ƒ Tập lexical chain văn lưu file txt ƒ Các lexical chain cách dòng trống ƒ Trong lexical chain: ƒ ƒ Mỗi từ lưu dòng Câu trúc từ sau: ƒ Ví dụ: Từ Nghĩa Số lần xuất luật sư|People|4 bị cáo|People|1 thẩm phán|People|3 cán bộ|People|2 người làm|People|1 CuuDuongThanCong.com https://fb.com/tailieudientucntt 4/21/2011 Chức quản lý từ điển, từ dừng văn mẫu Tập ngữ liệu thử nghiệm o Các báo sưu tầm trang tin vietnamnet (http://www.vnn.vn) o chủ đề: Khoa học, Vi tính, Giáo dục, Pháp luật, Đời sống, Thể thao, Kinh doanh, Ơ tơ xe máy Số báo Số chủ đề (lớp) Kích thước báo lớn Kích thước báo nhỏ Kích thước trung bình báo Số danh từ nhiều báo Số danh từ báo Số danh từ trung bình báo Một số kết thử nghiệm 100 6.13 KB 1.11 KB 3.30 (KB) 89 18 35.47 Nhận xét ƒ Các văn bị phân lớp sai số nguyên nhân: Số báo thử nghiệm 100 Thời gian phân lớp nhanh 0.2 s ƒ Bản thân nội dung văn có nhập nhằng Thời gian phân lớp chậm 1.9 s Thời gian phân lớp trung bình 0.713 ƒ Sai từ khâu tách từ lọc danh từ Số văn phân lớp Hiệu suất phân lớp 92 92 % Kích thước trung bình báo 3.30 (KB) Số danh từ trung bình báo 35.47 Số văn phân lớp Độ xác (precision) 100 ƒ Cây phân cấp ấ ngữ nghĩa hạn chế ế ề số ố lượng nghĩa, dẫn đến số danh từ có nghĩa xa lại thuộc lớp nghĩa trừu tượng (ví dụ: Concept, ConcreteThing….) ƒ Độ sâu chưa lớn nên dẫn tới độ tương đồng từ thuộc dạng lại cao 92 % CuuDuongThanCong.com https://fb.com/tailieudientucntt ... tương tự chain c văn D sim(c, D) = ∑ sim(c, d ) d ∈D PHẦN III: Chức Huấn luyện tập mẫu Tiền xử lý TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN Tập văn thô (đã phân lớp. .. hệ ƒ Nếu khơng tìm chain thoả mãn, tiến hành lập chain kết nạp w từ PHẦN II: TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG LEXICAL CHAIN CuuDuongThanCong.com https://fb.com/tailieudientucntt... 4/21/2011 Xây dựng Lexical Chain Cây phân cấp ngữ nghĩa Từ điển Tiếng Việt (có gắn nghĩa) Tập văn (biểu diễn dạng danh từ ) Thu thập tập nghĩa Chức Phân lớp văn Văn đầu vào (cần phân lớp) Xây dựng

Ngày đăng: 11/01/2020, 20:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w