1. Trang chủ
  2. » Vật lí lớp 11

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.2 - Lê Thanh Hương

6 19 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 436,37 KB

Nội dung

[r]

(1)

4/21/2011

PHÂN LP VĂN BN TING VIT THEO HƯỚNG TIP CN

LEXICAL CHAIN

PHẦN I:

TNG QUAN VBÀI TOÁN

TNG QUAN V BÀI TOÁN

PHÂN LP VĂN BN

Các phương pháp biểu diễn văn bản

ƒ Mô hình vector

ƒVăn = vector n chiều + trọng số cho giá trị

ƒ Mơ hình vector thưa

ốtừ ới t ốkhá hỏh ất hiề ới ốtừ ó

ƒsố từ với trọng số khác nhỏ nhiều so với số từ có Cơ sở liệu

Các phương pháp biểu diễn văn bản ƒ Mơ hình tần số kết hợp TF x IDF

ƒ Xét:

ƒTập dữ liệu gồm m văn bản: D = {d1, d2,… dm}

ƒMỗi văn bản biểu diễn dưới dạạng mg ộột vector ggồm n thuậật ngữ T = {t1, t2,…tn}

ƒfijlà sốlần xuất hiện của thuật ngữ titrong văn bản dj

ƒm sốlượng văn bản

ƒhilà sốvăn bản mà thuật ngữ tixuất hiện

ƒGọi W = {wij } ma trận trọng số, đó wij là giá trị

trọng số của thuật ngữ titrong văn bản dj

Các phương pháp biểu diễn văn bản ƒ Ma trận trọng số TFxIDF được tính như sau:

⎧ ⎛ ⎞

⎪ ⎩ ⎪ ⎨ ⎧

≥ ⎟⎟

⎠ ⎞ ⎜⎜ ⎝ ⎛ +

=

lại ngợc nếu

nếu 1

0

h h

m f

wij [ log( ij)]log i ij 1

Các phương pháp biểu diễn văn bản (tt)

ƒ Mơ hình Lexical Chain:

ƒ“Lexical Chain” khái niệm nhằm trì tính cố kết từ văn có mối liên quan với mặt ngữ

nghgĩa

ƒMột số loại quan hệ ngữ nghĩa từ:

(2)

4/21/2011

Các thuật toán giải quyết toán Phân lớp văn bản

ƒ Thuật toán quyết định.

ƒ Thuật toán k-NN.

ƒ Thuật toán Lexical Chain.

Thuật toán Cây quyết định

ƒ Cây định gồm nút định, nhánh :

ƒ Mỗi gắn với nhãn lớp,

ƒ Mỗi nút quyết định mô tả phép thử X đó,

ƒ Mỗi nhánhcủa nút tyương gứng vg ới mộột khả cg X

ƒ Ý tưởng: Phân lớp tài liệu djbằng phép thửđệ quy trọng số

mà khái niệm gán nhãn cho nút với vector đạt tới nút => nhãn nút gán cho tài liệu dj

ƒ Ưu điểm: chuyển dễ dàng sang dạng sở tri thức luật Nếu -Thì

ƒ Nhược điểm:

ƒ Cây thu thưòng phức tạp, phù hợp với tập mẫu ban đầu

ƒ Khi áp dụng với liệu gây sai số lớn

Thuật tốn kNN (K-Nearest Neighbor) ƒ Tư tưởng : tính tốn độ phù hợpcủa văn bản đang xét

với từng lớp (nhóm) dựa kvăn bản mẫu có độ tương tự gần nhất

ƒ Có cách gán nhãn:

ƒGán nhãn văn bn gn nht:

ƒGán nhãn theo sđông

ƒGán nhãn theo độ phù hp chđề

ƒ Cách biểu diễn văn bản (hướng tiếp cận truyền thống): TF x IDF

Thuật toán Lexical Chain

ƒ Bước 1: Đọc từ w văn

ƒ Bước 2: Tiến hành dừng w stop-word

ƒ Bước 3: Thông qua WordNet, lấy tập S gồm tất nghĩa mà w có

ƒ Bước 4: Tiến hành tìm kiếm mối liên hệ gần w với từ

trong tập hợp chain khởi tạo

ƒ Nếu tìm thấy mối liên hệđủ gần, tiến hành kết nạp w vào chain đó,

đồng thời khử nhập nhằng nghĩa cho w cách tỉa tất sense không sử dụng để tìm mối liên hệ

ƒ Nếu khơng tìm chain thoả mãn, tiến hành lập chain kết nạp w từđầu tiên

Lý lựa chọn hướng Lexical Chain ƒ Can thiệp vào bản chất ngôn ngữ của văn bản, thay mơ

hình tốn học thuần t

ƒ Khử nhập nhằng ngữ nghĩa của từ rất tốt.

Hiệ ảkhi hệthố ầ “h l i”

ƒ Hiệu quả hệ thống cần “học lại”

ƒ Giúp thu gọn khơng gian tốn

ƒ Là hướng tiếp cận mới

PHẦN II:

TIP CN BÀI TOÁN PHÂN LP

TIP CN BÀI TOÁN PHÂN LP

VĂN BN TING VIT THEO HƯỚNG

(3)

4/21/2011

Các tác động của đặc trưng ngôn ngữ Tiếng Việt đến toán ƒ Cần phải thiết kế thêm giải thuật để tách từ ƒ Khơng cần phải giải quyết tốn Stemming

ƒ Hiện tượng từđồng âm: nhập nhằng ngữ nghĩa

ế ể ể

ƒ Tiếng Việt chưa có một WordNet hồn chỉnh để biểu đạt các mối quan hệ ngữ nghĩa một cách phong phú đầy đủ như Tiếng Anh

Mơ hình giải quyết toán

Từđiển Tiếng

Việt 1.Tiền xử lý

Input Text

Từđiển Stop-word

Kho văn bản huấn luyện

Cây phân cấp ngữ nghĩa 2 Xây dựng Lexical Chains

(LC)

3.Tính độtương đương với các văn mẫu LC

4.Quyết địnhlớp cho văn bản

Categorized Text

Các yếu tố ngôn ngữđược sử dụng ƒ Từđiển Tiếng Việt : 70.000 từ (có gắn nghĩa)

ƒ Từđiển từ dừng

ƒ Cây phân cấp ngữ nghĩa

ROOT

Cây phân cấp ngữ nghĩa Tiếng Việt

Bird

Chim sẻ Vàng anh Từ

Mammal

Gấu

Fish

Cá trắm Cá thu animal

ROOT

ConcreteThing

K N

Mức trừu tượng chung thấp nhất N K SEMDIST=

Tiền xử lý văn bản ƒ Tách từ

ƒ Gán nhãn từ loại, lọc ra danh từ L i bỏtừdừ

begin

Chia văn thành truy vấn nhỏ hơn

Bỏ qua Là từ

khoá ? F các dấu “.”, “, “ , “;” ,

“:”

Xét truy vấn (các tiếng)

ƒ Loại bỏ từ dừng.

end

q tiếng bên

phải Cắt từ khỏi

truy vấn khoá ?

Truy vấn rỗng ?

T F

T

Giải thuật xây dựng Lexical Chain

ƒ Bước 1:Với danh từ văn bản, liệt kê tất nghĩa mà có

ƒ Bước 2:Sử dụng WSDG để xác định nghĩa phù hợp từ số tập hợp nghĩa xác định bước

ƒ Bước 3:Xây dựng Lexical Chain dựa vào nghĩa vừa tìm cho từ

ƒ Xuất phát từ tập chain rỗng

ƒ Với từ w:

kết nạp vào chain c độ tương đồng với tất từ

Đồ thị khử nhập nhằng nghĩa ƒ Gọi:

ƒT = {T1 , T2,… Tn} tập danh từ văn

ƒSi (i=1, mi) tập hợp nghĩa mà danh từ Ti có

được (mi số lượng nghĩa Ti)

ƒ G=(V,E)

ƒVi biểu diễn Ti, chia làm mi phần

ƒMỗi phần Vij biểu diễn nghĩa Sij Ti

ƒMỗi cạnh E nối Vij Vi’j’

(4)

4/21/2011

Ví dụ minh hoạ giải thuật

Vận Đơn vị

« Sáng nay, mẹ chợ mua hai cân đường để vắt nước chanh »

Vận tải Gia vị

quy uớc đo lường Vật dụng

Hoa quả

ĐƯỜNG CÂN

CHANH

+ Đường: W(‘Gia vị’) =2.0, W(‘vận tải’) =0.8

=> Đường = Gia vị

+ Cân: W(‘đơn vị đo lường’) =1.8, W(‘Vật dụng’) =1.4

⇒Cân = đơn vị đo lường

Đánh giá Lexical Chain ƒ Điểm cho mỗi chain:

ƒscore(C) = Length * Homogeneity

ƒ Trong đó:

L th Sốl “l t từ” t C

ƒLength: Số lượng “lượt từ” C

ƒHomogeneity: Tính đồng từ C

ƒAlpha = 0.75

_ _ _ _ _

Homogeneity Number of distinct words in C

Length α

= −

Dùng LC tính độ tương tự giữa văn bản ƒ Ký hiệu chuỗi từ vựng c d lần lượt :

ƒ c = {c1,c2,…, cm}và d= {d1,d2,…, dn}

ƒ Trong đó, mi thành phn ci, dj (i=1 m, j=1 n) đều ch 1 nghg ĩa nhy t ln lượt scsd

ƒ Độ tương đồng giữa c d :

ƒ Độ tương tự giữa chain c văn bản D

i

c s

j

d

s

1

( , ) ( , )

i j

m n

c d

i j

sim c d sim s s

= =

=∑∑

( , ) ( , )

d D

sim c D sim c d

=∑

Gán nhãn lớp cho văn bản ƒ Gán nhãn theo tng độ phù hp chđề

ƒ Lần lượt tính tổng độ phù hợp văn Q với tất phân lớp có k văn lấy

ƒ Gán nhãn chGán nhãn chủ đềủđề phù hphù hợợp nhp nhấất cho Qt cho Q

ƒ Q thuộc vào phân lớp có tổng độ liên quan cao

PHẦN III:

TIP CN BÀI TOÁN PHÂN LP

TIP CN BÀI TOÁN PHÂN LP

VĂN BN TING VIT THEO HƯỚNG

LEXICAL CHAIN

Chức Huấn luyện tập mẫu

Tiền xử lý Xây dựng tập Lexical

Chains

Lọc Chains mạnh

và lưu trữ

Tập văn bản thô (đã phân lớp đúng)

CHỨC NĂNG HUẤN LUYỆN TẬP MẪU

Tập văn bản

huấn luyện Tập văn

chỉ chứa danh từ

Tập văn dưới dạng

(5)

4/21/2011

Xây dựng Lexical Chain

Từđiển Tiếng Việt (có gắn nghĩa)

Cây phân cấp ngữ nghĩa Tập văn

(biểu diễn dưới

dạng danh từ )

XÂY DỰNG TẬP LEXICAL CHAINS Thu

thập tập nghĩa

Xây dựng WSD Graph

Chọn nghĩa phù

hợp nhất Tập danh

từ+ tập nghĩa

Tập chain cho

văn bản

Cấu trúc nên chain

Chức năng Phân lớp văn bản

Từđiển tiếng Việt+ ngữ

nghĩa

Tập V.bản

đã huấn luyện Văn đầu

vào (cần phân lớp)

Chủđề phù hợp cho văn bản

Tiền xử

Xác định

độ liên quan

Gán chủ đề

Tập chains mạnh

Các văn phù hợp nhất (có kèm chủđề) PHÂN LỚP VĂN BẢN

lớp)

Thiết kế dữ liệu

<LexicalEntry>

<HeadWord>cá quả</HeadWord> <Morphology>

<WordType>composite word</WordType>

¾Từđiển Tiếng Việt (nguồn: trung tâm từđiển học Vietlex):

</Morphology> <Semantic>

<LogicalConstraint>

<CategoryMeaning>Animal</CategoryMeaning> <Synonym>_</Synonym>

<Antonym>_</Antonym> </LogicalConstraint>

<Definition>cá ởnước ngọt, thân tròn, dài, có nhiều

đốmđen,đầu nhọn, khoẻ, bơi nhanh</Definition> </Semantic>

</LexicalEntry>

Thiết kế dữ liệu

¾Cây phân cấp nghĩa (nguồn: trung tâm từđiển học Vietlex):

Organization Root/ConcreteThing/LivingThing/People/Organization

Thiết kế dữ liệu ƒ Lưu Lexical Chain:

ƒTập lexical chain văn lưu file txt

ƒCác lexical chain cách dòng trống

ƒTrong lexical chain:

Mỗi từ lưu dòng

ƒ Mỗi từđược lưu dòng ƒ Câu trúc từ sau: ƒ Ví dụ:

luật sư|People|4

Từ Nghĩa Số lần xuất hiện

(6)

4/21/2011

Chức năng quản lý từđiển, từ dừng văn

bản mẫu Tập ngữ liệu thử nghiệm

o Các báo sưu tầm trang tin vietnamnet (http://www.vnn.vn) o chủđề: Khoa học, Vi tính, Giáo dục, Pháp luật, Đời sống, Thể thao, Kinh doanh, Ơ tơ xe máy

Sốbài báo 100

Số báo 100

Số chủđề (lớp)

Kích thước báo lớn 6.13 KB Kích thước báo nhỏ 1.11 KB Kích thước trung bình báo 3.30 (KB) Số danh từ nhiều báo 89 Số danh từ báo 18 Số danh từ trung bình báo 35.47

Một số kết quả thử nghiệm Số báo thử nghiệm 100 Thời gian phân lớp nhanh 0.2 s Thời gian phân lớp chậm 1.9 s Thời gian phân lớp trung bình 0.713 Thời gian phân lớp trung bình 0.713 Số văn phân lớp 92

Hiệu suất phân lớp 92 %

Kích thước trung bình báo 3.30 (KB) Số danh từ trung bình báo 35.47 Số văn phân lớp 100

Độ xác (precision) 92 %

Nhận xét

ƒ Các văn bản bị phân lớp sai một số nguyên nhân: ƒ Bản thân nội dung văn bản cũng có sự nhập nhằng. ƒ Sai từ khâu tách từ lọc danh từ.

ấ ế ề ố

ƒ Cây phân cấp ngữ nghĩa hạn chế về số lượng nghĩa, dẫn đến một số danh từ có nghĩa xa nhưng lại thuộc về một lớp nghĩa trừu tượng (ví dụ: Concept, ConcreteThing….)

Ngày đăng: 09/03/2021, 06:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN