Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu trích rút và chú thích ngữ nghĩa các thực thể có tên cho các kho ngữ liệu dùng trong lĩnh vực xử lý ngôn ngữ tự nhiên

Mục tiêu chính của đề tài nhằm tìm hiểu các kĩ thuật phân tách, trích rút các danh từ riêng, đặc biệt là danh từ riêng chỉ người và nơi chốn. Từ đó xây dựng công cụ thực thi hóa việc này nhằm hỗ trợ web ngữ nghĩalà web có thể biểu diễn dữ liệu thông min, xây dựng các máy tìm kiếm hướng thực thể. Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRUONG CD CONG NGHE THONG TIN

| BAO CAO TONG KET

DE TAI KHOA HOC VA CONG NGHE

CAP CO SO

NGHIEN CUU TRICH RUT VA CHU THICH NGU NGHIA CAC THUC THE CO TEN CHO

CAC KHO NGU LIEU DUNG TRONG LINH VUC XU LY NGON NGU TU NHIEN

Mã số: 2014-07-05

Chủ nhiệm đề tài: KS Trần Thu Thủy

Đà Nẵng, 12/2014

Trang 2

ĐẠI HỌC ĐÀ NẴNG CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRUONG CB CONG NGHE THONG TIN Độc lập - Tự do - Hạnh phúc

THONG TIN KET QUA NGHIEN CUU

1 Thơng tin chung:

- Tên đề tài: Nghiên cứu trích rút và chú thích ngữ nghĩa các thực thé cĩ tên cho các kho ngữ liệu dùng trong lĩnh vực xử lý ngơn ngữ tự nhiên

- Mã số: 2014-07-05

- Chủ nhiệm: KS Trần Thu Thủy

- Cơ quan chủ trì: Trường Cao đăng Cơng nghệ Thơng tin

- Thời gian thực hiện: từ 03/2014 đến 12/2014

2 Mục tiêu:

Mục tiêu chính của để tài nhằm tìm hiểu các kĩ thuật phân tách, trích rút các

danh từ riêng, đặc biệt là đanh từ riêng chỉ người và nơi chốn Từ đĩ xây dựng cơng cụ thực thi hĩa việc này nhằm hỗ trợ Web ngữ nghĩa — là web cĩ thể biểu diễn đữ liệu thơng minh, xây dựng các máy tìm kiếm hướng thực thể Đây là bước tiền xử lý

làm đơn giản hĩa các bài tốn như tĩm tắt văn bản, trích chọn thơng fin, Hỗ trợ người đọc trước khi đọc một tài liệu, người dùng cĩ thể đọc lướt qua các tên người

và nơi chơn mà họ cần quan tâm 3 Tính mới và sáng tạo:

Đề tài nghiên cứu này dùng phương pháp Maximung Matching dé thực

hiện việc so khớp trích rút thực thể Phương pháp nảy cĩ ưu điểm nhanh, đơn

giản, hiệu quả và hơn hết là khơng cần trải qua quá trình huấn luyên như các

Trang 3

nghiệm đã chứng rmminh được rằng thuật tốn này đạt được độ chính xác trên

90% nếu từ điển đủ lớn

4 Tĩm tắt kết quả nghiên cứu:

Bài tốn trích rút và phân loại thực thể đanh từ riêng là một bài tốn con của trích chọn thơng tin Để trích chọn được thực thể danh từ riêng chỉ

người và nơi chốn, trước hết ta cần biết trong văn bản, đâu là đanh từ riêng Để làm được việc này, ta cần phân đoạn từ Trong Tiếng Việt, việc phân đoạn

từ gặp khĩ khăn bởi ngơn ngữ Tiếng Việt là ngơn ngữ đơn lập ranh giới các từ khơng đơn giản chỉ cách nhau bằng khoảng trắng như trong Tiếng Anh Vì

vậy, để xử lý van đề này, ta cần xây dựng bộ từ điển khơng chứa đanh từ

riêng, sau khi thực hiện so khớp cực đại các từ cĩ trong văn bản va tu điển, sẽ

loại ra đươc Danh từ riêng cân dùng |

Sau khi cĩ được các Danh từ riêng, ta bắt đầu phân loại nhận dạng đâu

là thực thể Danh từ riêng chỉ Người và đâu là đanh từ riêng chỉ Nơi chốn

thơng qua các dấu hiệu nhận biết như: viết hoa chữ cái đầu tiên, từ điển danh

từ riêng chỉ Người, từ điển danh từ riêng chỉ Nơi chốn, từ điển tiền tố, hậu tố

chỉ Người, chỉ Nơi chốn Kết quả trả về sẽ là danh sách các thực thể danh từ riêng chỉ người và nơi chơn đã được nhận dạng

ˆ k4 A ^ x a 2 Ae ^ ‘ LA

5, Tên sản phẩm: Nhận dạng danh từ riêng chỉ người và nơi chơn

6 Hiệu quả, phương thức chuyền giao kết quã nghiên cứu và khả năng áp

dụng:

6.1 Về độ chính xác

Đối với phương pháp làm này, này độ chính xác chủ yếu phụ thuộc vào sự phong phú của các loại từ điển và số từ tối đa được so khớp

Trang 4

6.2 Về thời gian thực thi

Qua bảng khảo sát thời gian thực thi đơi với 15 văn bản dưới đây ta thấy thời ø1an thực thi phụ thuộc vào các yếu tố:

- Độ dài của văn bản

- Sơ lượng các từ khơng cĩ trong từ điện các từ tiêng Việt trong văn bản - Số lượng các danh từ riêng chỉ người và nơi chơn trong văn bản

Bảng 6.1 Hiệu suất làm việc của hệ thống

_ Số lượng cân | Số lượng đã | Số lượng nhấm | Số trợng khơng Hiện

Lần vn Tim tìm lần tim ra cud

Trang 5

Bảng 6.2: Thời gian thực thi của hệ thơng Lần thử | Tên vần bản | Tổng số từ TH i a1 403 Š 3 di S29 ? 3 đã 368 4 4 ald 389 7 5 ais 268 3 6 dia 323 30 Ỷ al? 306 2k § giã ig 2? 5 ag 303 6 iữ alia 275 2 dì dill 344 70 12 ali? 496 11 t3 ali3 336 7 is đi13 402 ? is diis 337 5

Vì ở trên là sự đánh giá tương đối của hệ thống đối với các văn bản đã được

cập nhật các từ chưa cĩ vào từ điển Đối với các văn bản khác:

—Nếu văn bản đĩ khơng xuất hiện từ mới (nghĩa là từ chưa cĩ trong từ điển tiếng Việt, từ điển Người, từ điển Tiền tố và Hậu tố của người và nơi chốn) thì hiệu

suất chênh lệch khơng đáng kế với kết quả trên

—Nếu văn bản đĩ xuất hiện từ mới thì phải cập nhật những từ đĩ vào trong

các từ điển tương ứng để hiệu suất nhận dạng cao hơn

Vì vậy, dé tăng hiệu suất của hệ thống, thì lập trình viên phải thử nghiệm đối

với càng nhiều loại văn bản càng tốt |

7 Hình ảnh, sơ đồ minh họa chính

Chương trình demo chạy văn bán đl1.txt Văn bản sau khi được chương trình thực thi sẽ hiện kết quả gồm cĩ:

—_ Trên văn bản các Danh từ riêng chỉ người và nơi chốn được nhận dạng sẽ

Trang 6

—_ Phía bên phải của chương trình tổng hợp kết quả tống số đanh từ riêng chỉ người và nơi chốn được nhận đạng, đồng thời liệt kê rõ theo dạng bảng Lâm mức 3 Ván NƠI GHỒN NgƯỜi C¡ Ngi chân - Hqười ‹¡ Hơi chún Người ;¡ Hơi chân Co Not chon Hot c8Sn 46 Howdl <3 Nol chon Hadi C› Hai chân Hgưới c¿ Hai chấn bp q&ì Hgười ©' Nội chân

$® Huười ° ` Mọi chân

Trang 7

MỤC LỤC h10Ê7 00001575 1 1 TÍNH CÁP THIẾT CỦA ĐỀ TÀI ác S11 3E 339 E92 19123 ky nh hen nrekg 1 2 MỤC TIÊU NGHIÊN CỨU SG 22t 2* 2 TT TH ng kg kg khe 2 3, DO! TUONG VÀ PHẠM VI NGHIÊN CỨU NH1 TT HH HH HH kg 2 4 PHƯƠNG PHÁP NGHIÊN CỨU . - 22513222 112v trưng 2 5 BĨ CỤC ĐỀ TÀI SH ¬ 3 CHƯƠNG 1 TỎNG QUAN CƠ SỞ LÝ THUYẾT ĐÈ TÀI 4 1.1 KHÁI NIỆM VỀ KHAI PHÁ DỠ LIỆU - - 2-5255 ccccSc2 4 1.1.1 Quá trình khai phá đữ lIỆM Ăn nen ke 3 1.1.2 Các cơng cụ khai phá đữ liỆ ett 6 1.2 KHÁI NIỆM TRÍCH RÚT VÀ PHÂN LOẠI THỤC THẺ 7

“(ống an ốốố.ằằằ.ằ ổ

1.2.2 PRGN LOT 108 occ aa 8

1.3 KHÁI NIỆM VỀ KHO NGỮ LIỆU (CORPUS) 10

1.4 TONG QUAN CÁC CƠNG TRÌNH NGHIÊN CỨU TƯƠNG TỰ 1 1

1.4.1 Nhận dạng thực thể trong văn bảng tiếng Việt 12

1.4.2 Sử dụng bộ gắn nhãn từ loại xác suất cho văn bản tiếng Việt I 3

1.4.3 Sử dụng khai phá dữ liệu để xác định chủ đê của văn bản 14

1.4.4 Trích chọn thực thể tên người trong văn bản tiếng Việt 16

Trang 8

CHƯƠNG 2 ĐÈ XUẤT GIẢI PHÁP TRÍCH RÚT PHÂN LOẠI

THUC THE DANH TỪ RIÊNG CHO KHO NGỮ LIỆU 17 2.1 MO HINH HOA BAI TOAN TRICH RUT, PHAN LOẠI THỰC THÊ DANH TỪ RIÊNG (DTR) CHO KHO NGỮ LIỆU 17 2.2 Ý NGHĨA MƠ HÌNH HĨA BÀI TỐN TRÍCH RÚT, PHÂN LOẠI THỰC THẺ DANH TỪ RIÊNG (DTR) CHO KHO NGỮ LIỆU 18 2.3 CÁC PHƯƠNG PHÁP RÚT TRÍCH THỰC THẺ 2 2n 19 2.3.1 Phương pháp Maxtmum MÁq†Chững cao, 19 2.3.2 Phương pháp MMSeg TH HH2 ce 20 2.3.3 Phương pháp Maxumnum EHHODV à Q ST TH xe 2ï 2.3.4 Phương pháp TR HH HH rrng 21 2.3.5 Phương pháp kết hợp WFST và mạng newPOn oo- 22 2.3.6 So sánh các phương pháp rút trích thực thể đã trình bày 23 2-4 CÁC PHƯƠNG PHÁP PHÂN LOẠI THỰC THẺ -2- 24

2.4.1 Support vector Machine (SVM) TH HE 11111121121 24

2.42 K—Nearest Neighbor (KNN) sec ey T110 010k ng 51 1x6 24 Z6 T1) 0n nhe 25 2.4.4 Neural NetWork (NÌNG) _ LH HH nhàng ày 26 2.4.5 kmear Least Square Fit (LŠ) ị .S cSxS 2S ks 28 2.4.6 So sánh các phương pháp phân loại văn bản 29

2.5 ĐỀ XUẤT GIẢI PHÁP CHO BÀI TỐN ĐANG NGHIÊN CỨU 30 2.6 ÁP DỤNG PHƯƠNG PHÁP MAXIMUMMATCHING VÀO

BÀI TỐN ĐÉ TRÍCH RÚT VÀ PHÂN LOẠI THỰC THẺ 30 2.6.1 So khớp từ cc n nnH HH2 1g uyu 31 2.6.2 Phương pháp nhận dạng tÊH rIÊH à TT gà 33

2.6.3 Danh dau tle durac nhdn Aang.ccccccccccccccccvssvssesvervevssesvsvssesvereeseesees 38

Trang 9

CHƯƠNG 3 XÂY ĐỰNG CHƯƠNG TRÌNH DEMO VÀ ĐÁNH GIÁ .4109)7.00777 a5 39 3.1 PHAN TICH BAI TOAN w.ococccceccscccscssecssesececsvsessusscsvesressesateaseenscsses 39 3.2 THIẾT KẺ HỆ THĨNG -.- 5< 221112 122111011222221 1e 39 3.2.1 Biểu đồ ca sử dụng S01 vết TH ng TT TT TH 1111 xkkxc cha 39

3.2.2 Biểu đơ hoạt động à SH HH 1xx ru 42

3.3 XÂY DỰNG CHƯƠNG TRÌNH DEMO .- c e 42

3.3.1 Văn bản đầu VÀO c5 SH 21tr e 42

3.3.2 Đầu ra của hệ thỐng - nho 45

Trang 10

DANH MỤC CÁC TỪ VIẾT TẮT STT Cụm từ Viết tắc 1 Bachward Maximum Matching BMM 2 Conditional Random Fields CRE

3 Forward Maximum Matching FMM 4 Hidden Markov Models HMM

5, Maximum Matching MM

6 Maximum Matching Segment MMSeg 7 Maximum Entropy ME 8 Maximum Markov Models MEMM 9, Named Entities Recognition NER

10 Support Vector Machine SVM

11 Transformation based Learning TBL

12 Weighted Finite State Transducer WEST

Trang 11

DANH MUC BANG

Bang 3 1 Ca st dụng chon van bane cccccccccccecccescsecseesvecessseesvstsssecsvetseeseveeseee 40 Bảng 3.2 Ca sử dụng tìm danh từ riêng 1 TH TH nen 41

Bảng 3.3 Hiệu suất làm việc của hệ thống ¬ 47

Trang 12

DANH MỤC HÌNH ẢNH Hình 1 Hình 1 Hình 1 Hình 1 Hình 1 Hình 2 Hmh 2 Hinh 2 Hình 2 Hình 2 Hình 2 Hinh 2 Hình 2 Hinh 3

1 Kiến trúc của hệ thống khai phá đữ liệu 5-5-5 2S xsxe 4

2 Quá trình khai phá đữ liệu 2 ST k E212 221121111111121111 xe xeg 5 3, Các lĩnh vực liên quan đến khám phá tri thức trong CSDL 6

Ty (800i) 0 2ì: saũoaŨ 9

5 Chi tiét phân loại từ - 1s 2H E0 1212121122122 2112 erre 10 1 Mơ hình TBL - 5< S2 SES SE EEEE2E11121111151111111110171215111101211 01x e 22

2 Siêu phẳng phân chia dữ liệu huấn luyện . - 5c scccccicvrcvv 24 3 Mơ hình mơ tả thuật tốn kNN ¬ ¬— 25

4 Mơ hình cấu trúc giải thuật INB .- T12 2121111121212 ra 26

5 M6 hinh mang neural = Ả 27

6 M6 hinh LUSE oocccccccccccsccecsccsessesssecsecevescsstsessesvesessessssssssscsesvsesesssessecsesees 28 7 So dé khéi thuc hién so khop t6i da cceeeecse cess ceeeeesereeseseesneeaee 33 8 So đồ khối nhận đạng danh từ riêng thơng qua tiền tố 37

Trang 13

MỞ ĐẦU

1 TINH CAP THIET CUA DE TAI

Hién nay, cac kho ngữ liệu phục vụ cho việc xử lý ngơn ngữ tự nhiên đều được lưu trữ dưới đạng văn bản Các kho ngữ liệu được xây dụng nhằm phục vụ cho việc dịch tự động, học ngoại ngữ, so khớp tìm kiếm thơng tin Tuy nhiên,

một trong những vấn đề hiện nay là việc so khớp tìm kiếm thơng tin trong kho ngữ liệu vẫn cịn gặp nhiều khĩ khăn, các danh từ tìm được dưới đạng chuỗi,

trong khi kết quả mong muốn lại cần chính xác hơn về loại danh từ, ví dụ như chỉ

người, chỉ nơi chốn, chỉ vật Để đáp ứng được mong muốn tìm kiếm chính xác đĩ, danh từ cần được làm giàu thơng qua việc gán nhãn, phân loại từ, giải nghĩa từ đồng nghĩa, trái nghĩa

Nhận dạng các danh từ riêng, đặc biệt là danh từ riêng chỉ người và nơi chốn

ngày càng trở nên quan trọng hơn đối với sự phát triển ngày càng cao các ứng đụng của xử lý ngơn ngữ tự nhiên Tuy nhiên, việc nhận dạng danh từ riêng là một vẫn đề khơng hề đơn giản Thừa nhận rằng, một trong những cách tốt nhất để xác định danh từ riêng chỉ người hoặc nơi chốn là sử dụng thơng tin ngữ cảnh xuất hiện xung quanh tên người, tên nơi chốn Do đĩ, vẫn đề chính sẽ là làm thế nảo để tìm ra các ngữ cảnh mà tại đĩ, tên người, tên nơi chốn xuất hiện Các phương pháp cĩ thể là thủ cơng, sử dụng hệ luật (rule-based) hay tự động v.v [8]

Hiện nay, hầu hết các hệ thống nhận dạng thực thể đều dựa vào một tập nhỏ các loại thực thể thơng thường Mặc dù đã cĩ một vài đề xuất được đưa ra nhằm mở _ rộng các cấp của các loại thực thê các danh từ riêng chỉ người, nơi chốn nhưng nĩ

vẫn cố định một số lượng nhất định các loại thực thê Vẫn đề áp dụng bài tốn trích

chọn các loại thực thể cho các miền đữ liệu cĩ tính chất đặc trưng riêng khác với

những đữ liệu bình thường, điều này rất đáng được quan tâm Trong khi đĩ, với những ứng dụng quan trọng trong web ngữ nghĩa, hay trong hệ thống hỏi đáp tự động, thì các miền đữ liệu tên người, tên nơi chốn cũng là một trong những miền

Trang 14

Bài tốn nhận dạng danh từ riêng là bài tốn khá cơ bản và quan trọng trong nhĩm các bải tốn trích rút thơng tin Nĩ cĩ nhiệm vụ tìm kiếm và phân loại các danh từ riêng về người, nơi chốn, cơng trình, tổ chức, thời gian

Ý thức được những lợi ích mà các bài tốn rút trích thực thê nĩi chung hay

thực thể cĩ tên nĩi riêng, tơi chọn hướng “Nghiên cứu rút trích và phân loại các

thực thể danh từ riêng cho các kho ngữ liệu phục vụ xứ lý ngơn ngữ tự nhiên” tập trung vào các danh từ riêng chỉ người, nơi chốn để làm luận văn của mình

2 MỤC TIÊU NGHIÊNCỨU _

Mục tiêu chính của để tài nhằm tìm hiểu các kĩ thuật phân tách, trích rút các

danh từ riêng, đặc biệt là danh từ riêng chỉ người và nơi chốn Từ đĩ xây dựng cơng

cụ thực thi hĩa việc này nhằm hỗ trợ Web ngữ nghĩa - là web cĩ thể biểu diễn đữ

liệu thơng minh, xây đựng các máy tìm kiếm hướng thực thể Đây là bước tiền xử lý

làm đơn giản hĩa các bài tốn như tĩm tắt văn bản, trích chọn thơng tin, Hỗ trợ

người đọc trước khi đọc một tài liệu, người dùng cĩ thể đọc lướt qua các tên người

và nơi chơn mà họ cân quan tâm

3 DOI TUONG VA PHAM VI NGHIEN CUU

Hệ thống này nghiên cứu các đối tượng đầu vào là các văn bản trong mơi

trường word, và chỉ nhận dạng danh từ riêng chỉ người, nơi chơn

4 PHƯƠNG PHÁP NGHIÊN CỨU

e Phương pháp tài liệu:

— Tìm hiểu các vấn đề về xử lý ngơn ngữ tự nhiên

Trang 15

5 BĨ CỤC ĐÈ TÀI

Ngồi lời mở đầu và kết luận, đề tài gồm 3 chương: Chương 1: Tổng quan cơ sở lý thuyết của đề tài

Giới thiệu tổng quan về khai phá dữ liệu, trích chọn thơng tin, về kho ngữ

liệu, về các cơng trình nghiên cứu cùng lĩnh vực này đã được cơng bố

Chương 2: Đề xuất giải pháp trích rút phân loại thực thể danh từ riêng cho kho ngữ liệu

Chương này giới thiệu các phương pháp tiếp cận cùng với những ưu và nhược điểm của chúng, từ đĩ đưa ra giải pháp cho bài tốn đang nghiên cứu

Chương 3: Phân tích thiết kế bài tốn và xây dựng chương trình Demo Chương này giới thiệu vẻ Phân tích bài tốn, tìm ra hướng giải quyết và xây

dựng thuật tốn cho bài tốn nhận diện danh từ riêng chỉ người và nơi chốn trong

Trang 16

CHUONG 1 TONG QUAN CO SO LY THUYET DE TAI

Chương này sẽ giới thiệu tổng quan về khai phá dữ liệu, về trích chọn thơng

tin, về bài tốn trích chọn thực thê nĩi chung, về khái niệm kho ngữ liệu Đồng thời

chương này cũng sẽ giới thiệu một số các cơng trình tương tự đã được cơng bố cùng VỚI ưu nhược điệm của chúng

1.1 KHÁI NIỆM VE KHAI PHA DU LIEU

Nhận dạng thực thể cĩ tên là một nhiệm vụ con của bài tốn trích chọn thơng

tin để phân loại các phần tử trong văn bản thành những loại xác định trước như tên

TEƯỜI, tơ chức, địa điểm, thời gian, số lượng, gia tri tién té, phan tram Trich chon

thơng tin chính là bước đâu tiên trong quá trình khai phá đữ liệu Khai thác dữ liệu,

hoặc khám phá tri thức, là quá trình chắc lọc và phân tích bộ dữ liệu khơng 16 va sau

đĩ giải nén ý nghĩa của dữ liệu [5] [ Giao điện người dùng ˆ w r Đánh giá mầu La

[ M6 ta khai pha dt héu [ CSĐL bay kho dữ liệu phục vụ *» Kho dữ liệu nee

Hình 1 1 Kiển trúc của hệ thống khai phá dữ liệu

Khai thác đữ liệu cĩ nguồn gốc từ những điểm tương đồng giữa tìm kiếm

thơng tin cĩ giá trị trong một cơ sở dữ liệu lớn và khai thác một khối đữ liệu khổng

16 [5] Ca hai quá trình yêu cầu hoặc là chọn lọc thơng qua một số tiền khơng lồ của

vật chất, hoặc thăm đị thơng minh để tìm ra giá trị của đữ liệu Mặc đù khai thác đữ

Trang 17

vũ trụ - đã sử dụng các cơng cụ khai thác dữ liệu và kỹ thuật dé tan dung loi thé của lịch sử lưu trữ dữ liệu Bằng cách sử dụng cơng nghệ nhận dạng mơ hình và kỹ

thuật thống kê và tốn học để sàng lọc thơng qua các thơng tin nhập kho, khai thác

dữ liệu giúp các nhà phân tích nhận ra sự kiện quan trọng, các mỗi quan hệ, xu

hướng, mơ hình, trường hợp ngoại lệ và bất thường mà nếu khơng, cĩ thể khơng được chủ ý 1.1.1 Quá trình khai phá dữ liệu Đánh øH, biểu diện Các mẫu Dữ liệu biển đơi Trich chon CS Di lige lựa chọn Dù liệu tiên xử Íy À» )

Hinh 1 2 Qua trinh khai pha dit liéu

Quá trình khám phá tri thức cĩ thể phân thành các cơng đoạn sau:

- Trích lọc đữ liệu: là bước tuyển chọn những tập dỡ liệu cần được khai phá từ các tập

dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định

Trang 18

entropy, phân khoảng ) Sau bước tiền xử lý này, đữ liệu sẽ nhất quán, đây đủ, được rút gọn và rời rạc hĩa

- Biến đổi đữ liệu: là bước chuẩn hĩa và làm mịn dữ liệu để đưa dữ liệu về đạng thuận

lợi nhất nhằm phục vụ việc áp dụng các kỹ thuật khai phá ở bước sau

- Khai phá đữ liệu: là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ

thuật học máy) nhằm khai thác đữ liệu, trích lọc những mẫu tin (information patterns),

những mối quan hệ đặc biệt trong đữ liệu Đây được xem là bước quan trọng và tiêu

tốn thời gian nhất của tồn bộ quá trình KDD

Đánh giá và biểu diễn tri thức: những mẫu thơng tin và mối quan hệ trong dữ liệu đã được phát hiện ở bước khai phá đữ liệu được chuyển sang và biểu diễn ở dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật Đồng thời bước này cũng đánh giá những tri thức khai phá được theo những tiêu chí nhất định Các lĩnh vực khoa học khác Học máy và Tổ chức đữ liệu trí tuệ nhân tạo <

Hình 1 3 Các lĩnh vực liên quan đến khám phá trí thức trong CSDL 1.1.2 Các cơng cụ khai phá dữ liệu l

Khai phá đữ liệu khơng phải là tất cả về các cơng cụ hay phần mềm cơ sở đữ

liệu mà bạn đang sử dụng Bạn cĩ thê thực hiện khai phá đữ liệu bằng các hệ thống cơ sở đữ liệu bình thường và các cơng cụ đơn giản, bao gồm việc tạo và viết phần

mềm riêng của bạn hoặc sử dụng các gĩi phần mềm bán ngồi cửa hàng Khai phá dữ liệu phức tạp được hưởng lợi từ kinh nghiệm trong quá khứ và các thuật tốn đã định nghĩa với phần mềm và các gĩi phần mềm hiện cĩ, với các cơng cụ nhất định để thu được một mối quan hệ hoặc uy tín lớn hơn băng các kỹ thuật khác nhau

Trang 19

quá khứ và xây dựng các dự báo chính xác IBM InfoSphere® Warehouse cung cấp thơng tin tìm nguồn cấp đữ liệu, thơng tin xử lý trước, thơng tin khai phá và thơng tin phân tích trong một gĩi duy nhất, để cho phép bạn lấy thơng tin thằng từ cơ sở đữ liệu nguồn đến đầu ra báo cáo cuối cùng

Gần đây các tập hợp dữ liệu rất lớn và việc xử lý đữ liệu theo cụm và quy mơ

lớn cĩ thể cho phép khai phá đữ liệu để sắp xếp và lập báo cáo về các nhĩm và các

mối tương quan của đữ liệu phức tạp hơn Bây giờ đã cĩ sẵn rất nhiều cơng cụ và hệ

thống hồn tồn mới, gồm các hệ thống lưu trữ và xử lý đữ liệu kết hợp

Chúng ta cĩ thể khai phá dữ liệu với nhiều tập hợp đữ liệu khác nhau, gồm các

cơ sở đữ liệu SQL truyền thống, dữ liệu văn bản thơ, các kho khĩa/giá trị và các cơ sở

dữ liệu tài hiệu Các cơ sở đữ liệu cĩ phân cụm, như Hadoop, Cassandra, CouchDB va

Couchbase Server, lưu trữ và cung cấp quyên truy cập vào đữ liệu theo cách khơng phù hợp với cấu trúc bảng truyền thống

Đặc biệt, định dạng lưu trữ cơ sở đữ liệu tài liệu linh hoạt hơn lại gây ra một

trọng tâm và sự phức tạp khác về xử lý thơng tin Các cơ sở đữ liệu SQL áp đặt các

câu trúc chặt chế và cứng nhắc vào lược dé, lam cho việc truy van chung va phan

tích dé liéu trở nên đơn giản theo quan điểm hiểu rõ định đạng và cầu trúc thơng tin Các cơ sở đữ liệu tài liệu, cĩ một tiêu chuẩn chang hạn như cấu trúc thực thi

ISON hoặc các tệp cĩ cấu trúc đọc được bằng máy tính nào đĩ, cũng dễ xử lý hơn,

mặc dù chúng cĩ thê làm tăng thêm sự phức tạp do cấu trúc khác nhau và hay thay đổi Ví dụ, với việc xử lý dữ liệu hồn tồn thơ của Hadoop, cĩ thể phức tạp để

nhận biết và trích ra nội đung trước khi bạn bắt đầu xử lý và tương quan với nĩ [8]

12 KHÁI NIỆM TRÍCH RÚT VÀ PHÂN LOẠI THỰC THẺ

Bài tốn rút trích và phân loại các thực thê danh từ riêng cho các kho ngữ

liệu phục vụ xử lý ngơn ngữ tự nhiên bao gồm hai thao tác: trích rút các thực thể và

Trang 20

1.2.1 Trích rút thơng tin

Nhận đạng thực thể cĩ tên là một nhiệm vụ con của bài tốn trích chọn thơng

tin để phân loại các phần tử trong văn bản thành những loại xác định trước như tên người, tơ chức, địa điêm, thời gian,

Trích rút thơng tin là một lĩnh vực quan trọng trong kha1 phá đữ liệu văn ban,

thực hiện việc trích rút các thơng tin cĩ cấu trúc từ các văn bản khơng cĩ cấu trúc

Cụ thê hơn, một hệ thống rút trích thơng tin sẽ trích ra những thơng tin đã được định nghĩa trước về các thực thê và mối quan hệ giữa chúng từ một văn bản dưới dạng

ngơn ngữ tự nhiên và điền những thơng tin này vào một văn bản ghi đữ liệu cĩ cầu trúc hoặc một dạng mẫu (template) được định nghĩa trước đĩ Ví dụ như việc rút trích vị trí của một cuộc hẹn từ một bức thư điện tử hay rút trích tên người của một

cơng ty từ một bài bao [5]

Khơng giống như việc hiểu tồn bộ văn bản, các hệ thống rút trích thơng tin

chỉ cố gắng nhận biết một số đạng thơng tin đáng quan tâm Cĩ nhiều mức độ rút trích thơng tin từ văn bản như xác định các thực thê (Element Extraction), xác định quan hệ giữa các thực thể (Relation Extraction), xác định và theo đõi các sự kiện và các kịch bản (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution) Các kĩ thuật được sử dụng trong rút trích thơng tin gồm cĩ: hướng tiếp cận dựa trên luật và dựa trên các phương pháp học máy Luận văn này tập trung chú yếu vào việc nhận dạng thực thê tên người và nơi chỗn trong văn bản tiếng Việt thuộc kho ngữ liệu [5]

Cu thể trong rút trích các thực thể tên (Người hay Địa danh), đĩ chính là tim

kiếm và phân lớp các từ vào nhĩm đối tượng như: tên người, địa danh, tổ chức,

Trang 21

bước xử lý quan trọng đối với các hệ thống xử lý ngơn ngữ tự nhiên, đặc biệt là đối

với các ngơn ngữ thuộc vùng Đơng Á theo loại hình ngơn ngữ đơn lập, ví dụ: tiếng

Trung Quốc, tiếng Nhật, tiếng Thái, tiếng Việt Tử Tiếng Việt —— ———— Hình I 4 Phần loại từ vựng

_ Với các ngơn ngữ thuộc loại hình này, ranh giới từ khơng chỉ đơn giản là những khoảng trắng như trong các ngơn ngữ thuộc loại hình hịa kết như tiếng

Anh mà cĩ sự liên hệ chặt chế giữa các tiếng với nhau, một từ cĩ thể cấu tạo bởi

1 hoặc nhiều tiếng

Phân loại từ với ngơn ngữ đơn lập Tiếng Việt luơn là mối quan tâm lớn cho

những nhà nghiên cứu về lĩnh vực này Bởi lẽ, mặc dù Tiếng Việt cũng giống như

các ngơn ngữ khác như Trung Quốc, Nhật, Lào là đều thuộc loại hình ngơn ngữ đa lập nhưng Tiếng Việt lại được viết dưới đạng chữ Latinh Nên việc xử lý của các

ngơn ngữ khác và ngơn ngữ Tiếng Việt phải khác nhau Một trong những cơng việc chưa giải quyết trong xử lý ngơn ngữ tự nhiên của Tiếng Việt hiện nay là xác định ranh giới của các từ {S]

Do đĩ, điều này trở thành một vẫn đề cấp thiết trong phạm v1 ngơn ngữ học

và khoa học máy tính Những điểm sau cần được giải quyết để bắt đầu với phân loại

từ:

— Su nhập nhăng cục bộ trong các từ kép

— Khơng từ điển nào bao hàm tồn diện

Trang 22

10 —_ Các hinh vị học và các từ lay TỪ lnal AT B “TC oN rn ⁄N SN , SN

(Bai ta) i ta) (Phu dai ta) (Phu vi ta) (Liên kết — (Tinh thái)

Thể tử Vị từ Định từ Pho tir Két tly = Tinh thai tr 2N “aN N SOON SOs, ^^ Jo N Và Jn Danh Đại Động Tinh Lượng Chỉ T Phĩ H Phú Liên Giới Trợ Tiéu lừ tử lừ từ từ từ tử tty tử từ từ từ

Hình 1 5 Chi tiết phân loại từ Các khĩ khăn trong tách từ tiếng Việt:

- Tiếng Việt là loại hình phi hình thái nên việc phân biệt loại từ (danh từ,

động từ, tính từ .) và ý nghĩa từ là rất khĩ, cho đù cĩ sử dụng từ điển Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu ) sẽ thêm phức tạp với phân xử lý các hư từ, phụ từ, từ láy, Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ cĩ thể khơng chính xác như mong đợi Ngồi ra ranh giới từ khơng được xác định mặc nhiên bằng khoảng trăng Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khĩ khăn Việc nhận diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đĩ, như: kiểm

tra lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ

1.3 KHÁI NIỆM VE KHO NGU LIEU (CORPUS)

Kho ngữ liệu (corpus) là một dữ liệu tập hợp các van ban, ngơn ngữ đã được

số hố.Ví dụ về kho ngữ liệu như “tuyển tập các tác phẩm của Nam Cao”, hay “tuyển tập ca từ của Trịnh Cơng Sơn”, | |

Các kho ngữ liệu là một tài nguyên quan trọng trong xử lý ngơn ngữ tự

nhiên Từ các kho ngữ liệu, ta cĩ thé rút ra những dữ liệu quan trọng sau:

— Từ các Kho ngữ liệu, ta cĩ thể chiết suất một cách tự động các qui tắc ngữ pháp “văn mạch tự do”

— Từ các Kho ngữ liệu cĩ thể tính tốn được xác suất, tần suất xuất hiện của

Trang 23

11 Để đảm bảo tính chính xác cho hai kết luận trên, Kho ngữ liệu phải đảm bảo một số nguyên tắc nhất định: Tính đại diện: các thành phần trong Kho ngữ liệu phải cĩ tính phổ quát, đa dạng và phong phú Kích thước: kích thước của Kho ngữ liệu càng lớn thì càng được đánh giá cao Dựa vào mục đích, cách xây dựng Kho ngữ liệu, người ta chia Kho ngữ liệu thành các loại sau: Kho ngữ liệu thơ (raw corpus): đơn giản chỉ là tập hợp các đữ liệu mà khơng cĩ xử lý gì thêm

Kho ngữ liệu được gắn nhãn (tagged corpus): các dữ liệu trong Kho ngữ

liệu đã được xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại

Kho ngữ liệu song song (Parallel Corpus): được sử dụng nhiều trong ứng dụng máy dịch

Ngồi cách chia trên, ta cũng cĩ thể chia Kho ngữ liệu theo cấu tạo của nĩ

Kho ngữ liệu biệt lập: dữ liệu lay vào l cách ngẫu nhiên, biệt lập và

khơng phân biệt với nhau

Kho ngữ liệu theo danh mục: dựa vào các danh mục để chia đữ liệu trong Kho ngữ liệu thành các nhĩm

Kho ngữ liệu trùng lặp: các đữ liệu trong Kho ngữ liệu cĩ thể ở nhiều nhĩm cùng lúc

Kho ngữ liệu theo thời gian: các đữ liệu sắp xếp theo thời gian thu thập và thời gian xuat hiện

1.4 TONG QUAN CAC CONG TRÌNH NGHIÊN CỨU TƯƠNG TỰ

Hiện nay các cơng trình nghiên cứu về vân đê trích rút và phân loại các thực

thể Danh từ riêng đã được triển khai rất nhiều nhưng hầu hết được thực hiện trên

Trang 24

12

tin để phân loại các phân tử trong văn bản thành những loại xác định trước như tên

TPƯỜI, tổ chức, địa điểm, thời gian, số lượng, giá tri tiên tệ, phan trăm Các cơng

trình gần hoặc tương tự với đề tài đang nghiên cứu gồm

1.4.1 Nhận dạng thực thể trong văn bảng tiếng Việt

Hiện nay, phần lớn các cơng trình nghiên cứu bài tốn trích rút, nhận dang

thực thể thường sử dụng học máy cĩ giám sát như mơ hình Markov ấn, cây quyết

định, máy vector hỗ trợ (SVM) Trong đĩ nối bật là tác giá Nguyễn Bá Đạt đã đưa

ra hướng tiếp cận xây dựng bộ từ điển, hướng này cĩ nhiều ưu điểm hơn các hướng

tiếp cận cịn lại [1] Tác giả đã xây dựng bộ từ điển mà sử dụng hệ luật khơng cần

một tập dữ liệu đã được gán nhãn, sử dụng phương pháp học máy Vector hỗ trợ

(SVM), cây quyết định, mơ hình markov ấn, CRF, Cĩ 3 kiểu hệ thống sử dụng

phương pháp này:

- Cĩ giám sát: sử dụng tập dữ liệu đã gán nhãn - Khơng giám sát: sử dụng tập đữ liệu chưa gắn nhãn

- Nửa giám sát: sử dụng cả đữ liệu đã gán nhãn và dữ liệu khơng gán nhãn Tác giả đã áp dụng phương pháp nhận dạng thực thê: khơng cĩ các tên lồng

nhau, nếu cĩ sự lồng nhau giữa các tén thi chi 1 tén dai nhất được nhận

Hệ thống nhận đạng thực thê gồm 4 phần chính:

— Bộ tách từ

— Bộ gán nhãn từ loại

— Bộ từ điển: tìm ra l lớp các thực thê bằng phép so khớp

Tác giả xây dựng sẵn các nhĩm từ điển gồm: Từ điển tên người:

— Chứa tên đầy đủ: Hồ Chí Minh, Võ Thị Sáu,

— Chita duy nhất tên: Nam, Thành,

— Chứa tên đặt biệt: Bà Trưng, Bà Triệu,

Từ điển tên địa điểm:

Trang 25

13

— Chita tên thành phố: Paris, Đà Nẵng,

— Chứa tên vùng miền: miền Bắc, miền Nam, châu A, chau Au

Từ điển tiền tố của tên người: anh, chị, cơ, chú, Từ điển hậu tố của tên người: cười, khĩc, nĩi,

Từ điển tiền tố của tên địa điểm: thành phố, quận, huyện,

Từ điển chưa các từ nhập nhằng giữa tên người và địa điểm: Nga, Mỹ,

Việc xây dựng các bộ luật nhằm nhận dạng lại các thực thể, gán nhãn cho

từng thực thê và trả ra kết quả

1.4.2 Sử dụng bộ gán nhãn từ loại xác suất cho văn bản tiếng Việt

Nếu như phương pháp học cĩ giám sát cần xây dựng từ điển bằng tay với tập dữ liệu rất lớn, thì phương pháp học khơng giám sát đã khắc phục được nhược điểm này nhưng khả năng phát hiện thực thể khơng cao và khơng chính xác Để giải quyết khuyết điểm này, phương pháp học bán giám sát đã ra đời, kết hợp cả gán nhãn và khơng gán nhãn [11] Nổi bật là nhĩm tác giả [2] trình bày các thử nghiệm về gắn nhãn từ loại cho các văn bản Tiếng Việt bằng cách áp dụng bộ gán nhãn từ loại QTAG, một bộ gắn nhãn xác suất độc lập với ngơn ngữ Nhĩm tác giả sử dụng

hai bộ nhãn từ loại với độ mịn khác nhau Việc gán nhãn tự động dựa trên một bộ từ

vựng cĩ thơng tin từ loại cho mỗi từ và một tập văn bản đã được gan nhãn bằng tay [2]: |

Quá trình gán nhãn từ loại được chia làm 3 bước: - Tách từ: tách xâu ký tự thành chuỗi các từ

- Khởi tạo gán nhãn: tìm cho mỗi từ tập tất cả các nhãn từ loại cĩ thê cĩ bằng

cách sử dụng bộ từ điển Đối với 1 từ mới chưa cĩ trong từ điển thì đùng 1 nhãn

ngầm định hoặc gắn cho nĩ tập tất cả các nhãn

- Quyết định kết quả gán nhãn: lựa chọn cho mỗi từ 1 nhãn phù hợp nhất

trong tập nhãn khởi tạo

Trang 26

14

- Xây dựng từ điển từ vựng, lựa chọn tiêu chí xác định từ loại trong quá trình phân tích từ vựng hầu bết các mục từ trong từ điển đều cĩ thơng tin từ loại đi kèm

- Xây dựng cơng cụ phân tách các đơn vị từ vựng trong văn ban - Xây dựng otomat âm tiết đốn nhận tất cả các âm tiết tiếng Việt

- Xây dựng otomat tir vung doan nhan tat ca cdc tir vung tiéng Việt

Dựa trên các otomat trên, xây đựng đồ thị tương ứng với câu cần phân tích và sử

dụng thuật tốn tìm kiếm trên đồ thị để liệt kê các cách phân tích cĩ thé

Xây dựng kho văn bản đã loại bỏ nhập nhằng từ loại bằng tay, sau khi tự

động gán tất cả các nhãn cĩ thể cho mỗi từ

Xây dựng bộ gán nhãn từ loại tự động, dựa trên các thơng tin từ loại trong từ

điển từ vựng và các quy tắc kết hợp từ loại học được từ kho văn bản đã gán nhãn mẫu

Vẻ bộ gán nhấn QTAG, nhĩm tác giả đã xây dựng thuật tốn như sau:

QTAG làm việc trên 1 cửa số chứa 3 từ

Bước 1: Đọc từ tiếp theo

Bước 2: Tìm từ đĩ trong từ điển Nếu khơng tìm thấy, gán cho từ đĩ tất cả

các nhãn cĩ thé

- Với mỗi nhãn cĩ thể tính Pw = P(Œagltoken) là xác suất từ token cĩ nhãn

tag

- Tính Pc = P(aglt,ts) là xác suất nhãn tag xuất hiện sau các nhãn t1, t2, là nhãn tương ứng của 2 từ đứng trước từ token

- Tinh Pw, c = Pw*Pc

- Lặp lại phép tính cho 2 nhãn khác trong cửa số

1.4.3 Sử dụng khai phá dữ liệu để xác định chú đề của văn bản

Về vấn đề xác định chủ đề văn bản, Đề án này trình bày về TopCat (Chủ đề

mục) là một kỹ thuật để xác định chủ đề mà tái dién trong các bài viết trong một

ngữ liệu văn bản [3] Kỹ thuật xử lý ngơn ngữ tự nhiên được sử dụng để xác định

chính các thực thể trong bài viết cá nhân, cho phép để đại diện cho một bài báo như

Trang 27

15

đề cĩ thê xảy ra trong cơ sở dữ liệu / khai thác đữ liệu: Xác định nhĩm các mặt hàng liên quan Bài viết này trình bày một phương pháp mới để xác định các mối liên hệ dựa trên các kỹ thuật khai thác đữ liệu truyền thống " tập phố biến thường xuyên

được tạo ra từ các nhĩm mặt hàng, theo sau là cụm được hình thành với một phân

vùng Hypergraph Cụ thể như sau:

Cho một tập hợp các tài liệu, các chủ đề thường xuyên được thảo luận trong

các bộ sưu tập Mục đích là đề ØTÚp Con người hiểu được bộ sưu tập, do đĩ, một giải

pháp tốt phải xác định chủ đề trong một số cách cĩ ý nghĩa với một con người Ngồi ra, đề án muốn kết quả cĩ thể được sử dụng để tiếp tục thăm dị Điều này cho phép một yêu cầu mà cĩ thể xác định văn bản gốc liên quan đến một chủ đề

nhất định Điều này cĩ liên quan đến tài liệu phân nhĩm, nhưng yêu cầu về một chủ

đề xác định mang đến cho nĩ gần gũi hơn để loại trừ cơ chế phát hiện

— Cách chúng ta áp dụng cơng nghệ khai thác dữ liệu về vấn đề này là để điều

trị một tài hiệu như một bộ sưu tập của các đơn vị ", cho phép chúng tơi bản đồ này

vào một vấn đề giỏ thị trường Chúng tơi sử đụng cơng nghệ ngơn ngữ tự nhiên để

trích xuất thực thể cĩ tên từ một tài liệu Sau đĩ chúng tơi tìm kiếm tập phổ biến:

nhĩm của các thực thê cĩ tên thường xuất hiện cùng nhau Bắt đầu với các tập phổ biến, chúng ta tụ tập thực thể cĩ tên đựa trên tài liệu liên quan hệ của họ

Điều này cho phép chúng tơi để nắm bắt các đơn vị liên quan chặt chế mà cĩ thể khơng thực sự xảy ra trong các tài liệu mang tính tương tự Kết quả là một bộ tái

thiết cụm Mỗi cụm được đại diện là một tập hợp các thực thể cĩ tên và tương ứng

với một chủ đề đang điễn ra trong ngữ liệu Ví đụ như:

- ORGANIZATION Justice Department - PERSON Janet Reno

- ORGANIZATION Microsoft

Đề án này dựa trên thương mại, nghiên cứu cơng nghệ hiện cĩ: xử lý ngơn

ngữ tự nhiên để khai thác tên thực thể, luật kết hợp khai thác đữ liệu, phân nhĩm

Trang 28

16

1.4.4 Trích chọn thực thể tên người trong văn bản tiếng Việt

Việc trích chọn thực thể tên người trong văn bản tiếng Việt đã được nghiên

cứu ở nhiều tác giả với các cách tiếp cận cĩ giám sát, khơng giám sát hoặc bản giám

sát, trong đĩ nỗi bật là tác giả Lê Thu Thùy lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối ngẫu lặp lai [8] (Dual Interative Pattern Relation Expansion - DIPRE) ma Brin da đề xuất Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các ngữ cảnh (occurrences) xung quanh các

thực thể để trích chọn quan hệ mẫu, từ đĩ đưa ra được đanh sách các thực thể cần

nhận biết

Brin ban đầu chỉ sử dụng từ tập nhỏ các đữ liệu (tập seed) ban dau dé tir đĩ

trích ra các mẫu, và đưa ra quan hệ mới giữa các thực thể Việc sử dụng tập mỗi nhỏ

để từ đĩ trích chọn ra các mẫu rồi lại trích ra qua hệ mới, tốc độ của DIPRE sẽ rat

chậm, và đặc biệt trong trường hợp tap seed chứa đữ liệu cĩ sự xuất hiện ít, trong khi tập đữ liệu sẽ phái thực hiện tìm kiếm là lớn Khi đĩ, yêu cầu đặt ra sẽ phải quét

hết một số lượng lớn các mẫu và các bộ trong một kho đữ liệu vơ cùng lớn

Kết quả thực nghiệm luận văn cho thấy khi tăng số văn bản lên 150 thì các độ đo đạt giá trị cao nhất (Độ chính xác P: 83.56%, Độ do F-measure: 81.9%)

Nhận thấy rằng, độ chính xác đạt chưa cao, bởi tác giả gặp khĩ khăn khi làm việc

với văn bản cĩ cấu trúc phức tạp và thay đỗi liên tục nên việc áp dụng luật cũng như quá trình sinh mẫu cịn gây ra nhiều trường hợp nhập nhang

1.5 TONG KET CHUONG

Chương này giới thiệu về các khái niệm liên quan đến bài tốn trích chọn

thơng tin, từ đĩ nhận thay rằng nhận dạng thực thể cĩ tên là một nhiệm vụ con của

bài tốn trích chọn thơng tin Trích chọn thơng tin là một lĩnh vực quan trọng trong

khai phá đữ liệu văn bản, thực hiện việc trích rút các thơng tin cĩ cầu trúc từ các

văn bản khơng cĩ cấu trúc Bài tốn này được nghiên cứu, tìm hiểu bởi nhiều nhĩm tác giả, mỗi nhĩm xây dựng theo các phương pháp riêng vả đều cĩ ưu nhược điểm

Trang 29

17

CHƯƠNG 2 ĐÈ XUẤT GIẢI PHÁP TRÍCH RÚT PHÂN LOẠI THỰC THÊ DANH TỪ RIENG CHO KHO NGU LIEU

Sau khi tìm hiểu chương 1, chương này tơi tập trung vào việc để xuất giải pháp trích rút phân loại thực thể Để thực hiện được việc này, trước hết tơi sẽ giới

thiệu chỉ tiết về bài tốn nhận điện đanh từ riêng chỉ người và nơi chến, ý nghĩa của

bài tốn, một số hướng tiếp cận cùng với ưu nhược điểm của chúng

2.1 MƠ HÌNH HĨA BÀI TỐN TRÍCH RÚT, PHÂN LOẠI THỰC THẺ © DANH TU RIENG (DTR) CHO KHO NGU LIEU

Trong hệ thống các bài tốn trích chọn thơng tin thuộc loại danh từ riêng, cĩ

rất nhiều loại DTR để trích chọn ví dụ như Người, Tổ chức, Nơi chốn, Quốc gia,

tơn giáo .Trong khuơn khổ luận văn tơi chỉ chú trọng trích chọn Danh từ riêng chỉ Người và Nơi chến Vì vậy bài tốn trích chọn này sẽ trả lời cho câu hỏi Ai? Va O đâu?

Quy tắc nhận đạng thực thể danh từ riêng

- Khi nhận dạng thực thê trong văn bản ta phải đảm bảo quy tắc: khơng cĩ các

tên lồng nhau Một tên mới chỉ được nhận khi tên cũ đã kết thúc (khơng bao giờ cĩ

hai tên cĩ phần chung) Trong trường hợp cĩ sự lồng nhau giữa các tên, chỉ một tên

dài nhất được nhận (longest mnatching — dài thì thắng)

- Tuy nhiên, đối với hệ thống tên người và nơi chốn khơng cĩ một nguyên tắc chung nào trong việc đặt tên Cũng như sự phong phú về ngơn ngữ dẫn tới thực thể tên cĩ cấu trúc phức tạp hơn Điều này khiến cho việc nhận biết các danh từ riêng trở nên khĩ khăn hơn so với các văn bản tiếng Anh Một số ví dụ cụ thê:

- Các văn bản tiếng Việt khơng cĩ đữ liệu huấn luyện sẵn

- Thiếu các thơng tin ngữ pháp và các thơng tin về cụm từ cho tiếng Việt trong khi các thơng tin này giữ vai trị quan trọng trong việc trích chọn thực thê

- Khi nào “Hỗ Chí Minh” được sử dụng như tên người, khi nào được sử dụng như tên một địa danh?

- Câu “Tơi đi thăm Nha san Bac H6.”: Nha san Bác Hồ là tên 1 địa điểm

Trang 30

18 - Cụm từ “Hội nghị Paris ở Paris”: làm sao để biết chỉ cĩ từ “Paris” cuối cùng mới là nơi chốn

- Việc nhan dang danh từ riêng chỉ người và nơi chốn địi hỏi phải nhận biết được các thành phần cơ bản và đặc trưng của đữ liệu tên người và nơi chốn Ví dụ

như các chức danh luơn đi kèm với tên người trong văn bản: ơng, bà, học sinh, anh, chi, c6 gido, [5]

2.2 Ý NGHĨA MƠ HÌNH HĨA BÀI TỐN TRÍCH RÚT, PHÂN LOẠI

THỰC THẺ DANH TỪ RIÊNG (DTR) CHO KHO NGỮ LIỆU

Việc mơ hình hĩa quá trình trích rút, phân loại thực thê danh từ riêng cho

kho ngữ liệu giúp làm tiền đề cho việc giải quyết các bài tốn về trích chọn thơng

tin từ các tài liệu tiếng Việt, hỗ trợ cho việc xử lý ngơn ngữ tiếng Việt và Web ngữ

nghĩa Việc này sẽ giúp người dùng cĩ thể đọc lướt qua các tên người, tên địa đanh

mà họ quan tâm Ngồi ra cịn là cơng cụ hỗ trợ tìm kiếm đắc lực khi đầu vào là các

danh từ riêng chỉ Người hoặc Nơi chốn Ví đụ người ding cĩ thé tìm thấy các trang web nĩi về “Hồ Chí Minh” là một thành phố lớn của Việt Nam một cách nhanh

chĩng mà khơng phải duyệt qua hàng trăm trang web nĩi về Chủ tịch Hồ Chí Minh

Việc xây dựng và mở rộng các kho ngữ liệu theo hướng ngữ nghĩa rất quan

trong boi vi da số các kho ngữ liệu phục vụ xử lý ngơn ngữ tự nhiên nĩi chung và dịch tự động nĩi riêng đều tồn tại đưới đạng tập hợp các văn bản phi cầu trúc, cĩ

định đạng hoặc khơng cĩ định dạng (thuần túy văn bản) Điều này gây nên những

hạn chế rất lớn cho các hệ thống khai thác các kho ngữ liệu (hệ tìm kiếm, máy địch ) trong việc so khớp, tìm kiếm thơng tin, Bởi lẽ, đối với các kho ngữ liệu loại

này, các giải thuật tìm iếm, so khớp đã được xây dựng cho các hệ thơng khai thác chỉ đừng lại ở mức so khớp dạng chuỗi kí tự hoặc văn bản như tính khoảng các hai

chuỗi hoặc tính xác suất, [4]

Trang 31

19

chú thích, các từ/cụm từ đồng nghĩa, các từ/cụm từ trái nghĩa, .Ở mức độ phức tạp, tầng ngữ nghĩa được xây dựng mạng lưới ontology, trong đĩ mỗi ontology gồm tập hợp các lớp thuộc một lĩnh vực hẹp nảo đĩ [4]

2.3 CÁC PHƯƠNG PHÁP RÚT TRÍCH THỰC THẺ

Như đã trình bày chương trước, trong tiếng Anh, đơn vị nhỏ nhất là “từ” nên việc tách từ trở nên khá đơn giản, trong khi đối với một số ngơn ngữ như tiếng Hoa,

Nhật, Hàn Quốc và Tiếng Việt của chúng ta phải xử lý hồn tồn khác do đơn vị nhỏ

nhất lại là “tiếng” Do đĩ, trước khi thực hiện phân loại, chúng ta phải tìm hiểu về các

hướng tiếp cận cho việc trích rút từ tiếng Việt |

Hiện nay cĩ rất nhiều phương pháp trích rút thực thể Danh từ riêng nhưng

vẫn được quy về 3 loại chính đĩ là phương pháp dựa trên hệ luật, phương pháp dựa

trên thống kê và các phương pháp khác

2.3.1 Phương pháp Maximum Matching

Phương pháp này cịn được gọi là phương pháp khớp tối đa Tức là chúng ta so sánh từ đang cần tách với nguồn từ cĩ trong từ điển, cĩ thể so sánh từ phải sang trái hoặc ngược lại nhưng kết quả mong muốn cuỗi cùng luơn là tìm ra được từ dai nhất sau khi so khớp [11] Thuật tốn cĩ 2 dạng sau:

Dạng đơn giản: Giả sử cĩ một chuỗi các tiếng trong câu là t¡, tp, .ty Thuat

tốn sẽ kiểm tra xem t¡ cĩ mặt trong từ điển hay khơng, sau đĩ kiểm tra tiếp tị-t„ cĩ

trong từ điển hay khơng Tiếp tục như vậy cho đến khi tìm được từ cĩ nhiều tiếng

nhất cĩ mặt trong từ điển, và đánh dấu từ đĩ Sau đĩ tiếp tục quá trình trên với tất

các các tiếng cịn lại trong câu và trong tồn bộ văn bản Dạng này khá đơn giản nhưng nĩ gặp phải rất nhiều nhập nhằng trong tiếng Việt, ví dụ nĩ sẽ gặp phải lỗi

khi phân đoạn từ câu sau: “học sinh |học sinh | học”, câu đúng phải là “học sinh|

học| sinh học”

Dạng phức tạp: dạng này cĩ thể tránh được một số nhập nhằng gặp phải

Trang 32

20

trong từ điển thì thuật tốn thực hiện chiến thuật chọn 3-từ tốt nhất Tiêu chuẩn 3-từ

tốt nhất được Chen & Liu (1992) đưa ra như sau:

« Độ dài trung bình của 3 từ là lớn nhất Ví dụ với chuỗi “Giao thơng vận tải”

sẽ được phân đoạn đúng thành “Giao thơng |vận tải ”, tránh được việc phần đoạn sai

thành “giao | thơng vận | tải” vì cách phân đúng phải cĩ độ dài trung bình lớn nhất - Sự chênh lệch độ dài của 3 từ là ít nhất Ví dụ với chuỗi “cơng nghiệp hĩa chất phát triển” sẽ được phân đoạn đúng thành “cơng nghiệp | hĩa chất | phát triển” thay vì phân đoạn sai thành “cơng nghiệp hĩa | chất | phát triển”

Cả 2 cách phần đoạn này đều cĩ độ dải trung bình bằng nhau, nhưng cách

phân đoạn đúng cĩ sự chênh lệch độ dài 3 từ ít hơn

Thuật tốn đưa ra hai tiêu chuẩn như trên cĩ thể hạn chế nhặp nhằng nhưng

khơng triệt để Ví đụ với câu “học sinh học sinh học” thì cả 2 cách phân đoạn sau

đều cĩ cùng độ đài trung bình và độ chênh lệch giữa các từ: “học sinh| học| sinh học” và “học sinh| học sinh| học”, do đĩ thuật tốn khơng thể chỉ ra cách phân đúng

được

Ưu điểm của phương pháp trên cĩ thể thấy rõ là đơn giản, đễ hiểu và chạy

nhanh

Hơn nữa chúng ta chỉ cần một tập từ điển đầy đủ là cĩ thể tiến hành phân đoạn, trích rút thực thể danh từ riêng trong kho ngữ liệu mà hồn tồn khơng phải trải qua huân luyện như các phương pháp sẽ trình bày tiếp theo

2.3.2 Phương pháp MMScg

Phương pháp này sử dụng các luật nhặp nhằng

Luật 1: SMM lấy từ với chiều đài đài nhất, Complex MM lấy từ đầu tiên từ

dãy với chiều dài nhất, nếu cĩ nhiều dãy với chiều đài nhất, áp dụng luật kế tiếp

Luật 2: Hai từ tiếng Việt khơng đi liền nhau điều này hồn tồn đúng trong

Tiếng Việt

Trang 33

21

2.3.3 Phương pháp Maximum Entropy

Cho một câu S= c¡ c¿ cạ cĩ chiều dải n tiếng Ta thực hiện tách từ cho câu

S bằng cách gan nhãn vị trí cho từng tiếng trong câu S các nhãn vị trí trong PIV (Position In Word)

2.3.4 Phương pháp TBL |

Phương pháp TBL là cách tiếp cận dựa trên ngữ liệu đã đánh dấu Cách tiếp can nay, dé hudn luyện cho máy tính biết cách nhận điện ranh giới từ tiếng Việt, ta cĩ thể cho máy học trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh đấu ranh giới từ đúng Sau khi học xong, máy sẽ xác định được các tham số cần thiết [9]

Ưu điểm của phương pháp này là:

- Cĩ khả năng tự rút ra quy luật của ngơn ngữ

- Cĩ những ưu điểm của cách tiếp cận dựa trên luật vì cuối cùng nĩ cũng dựa trển luật được rút ra nhưng nĩ khắc phục được khuyết điểm của việc xây dựng các

luật một cách thủ cơng bởi các chuyên gia

- Các luật được thử nghiệm tại chỗ dé đánh giá độ chính xác và hiệu quả của

luật (đựa trên ngữ liệu huấn luyện)

- Cĩ khả năng khử được một số nhập nhằng của các mơ hình ngơn ngữ theo

kiểu thống kê |

Hạn chế của phương pháp này:

- Phương pháp này dùng ngữ liệu cĩ gán nhãn ngơn ngữ để học tự động các qui luật đĩ Nhưng việc xây dựng một tập ngữ liệu đạt được đầy đủ các tiêu chí của

tập ngữ liệu trong tiếng Việt là một điều rát khĩ, tốn kém nhiều về mặt thời gian và

cơng sức

Hệ phải trải qua một thời gian huấn luyện khá lâu để cĩ thể rút ra các luật tương đối đầy đủ

Trang 34

22 5 CSAS NOTATED ERE } PSATLAL STATE x co | SNNEVPA TED ° _ ' TRuta ao TEX? : ¬ ma \ | LEABNER | | nháy Hinh 2 1 M6 hinh TBL

2.3.5 Phương pháp kết hop WEST va mạng neuron

Phuong phap WFST (Weighted Finite-State Transducer) con gọi là phương pháp chuyển địch trạng thái hữu hạn cĩ trọng số.[12] Phương pháp này thực hiện bằng cách gán trọng số cho các từ cĩ trong từ điển theo xác suất xuất hiện của từ

Sau đĩ duyệt qua các câu, cách đuyệt cĩ trọng số lớn nhất sẽ là cách dùng để phân

đoạn từ [9] Hoạt động của WFST cĩ thể chia thành ba bước sau:

Xây dựng từ điển trọng số: từ điển trọng số D được xây dựng như là một đỗ thị biến đồi trạng thái hữu hạn cĩ trọng số Giả sử H là tập các tiếng trong tiếng Việt

và P là tập các loại từ trong tiếng Việt

Mỗi cung của D cĩ thể là

~ _ Từ một phần tử của H tới một phần tử của H

— Từ phân tử s (xâu rỗng) đến một phân tử của P

Mỗi từ trong D được biểu diễn bởi một chuỗi các cung bắt đầu bởi một cung

Trang 35

23 =— log®) Trong đĩ £: tần số xuất hiện của từ N: kích thước tập mẫu

Xây dựng các khả năng phân đoạn từ: bước này thống kê tất cả các khả năng phân đoạn của một câu Giả sử câu cĩ n tiếng, thì sẽ cĩ 2n—Icách phân đoạn khác

nhau Để giảm sự bùng nỗ các cách phân đoạn, thuật tốn sẽ loại bỏ ngay những nhánh phân đoạn mà chứa từ khơng xuất hiện trong từ điển

Lựa chọn khả năng phân đoạn tối ưu: sau khi liệt kê tất cả các khả năng phân đoạn từ, thuật tốn sẽ chọn cách phân đoạn tốt nhất, đĩ là cách phân đoạn cĩ trọng

số bé nhất [9]

2.3.6 So sánh các phương pháp rút trích thực thể đã trình bày

Nhìn một cách tổng quan, [9] phương pháp dựa trên từ (word-base) cho độ chính xác khá cao (trên 95%) nhờ vào tập ngữ liệu huấn luyện lớn, được đánh dau

chính xác, tuy nhiên hiệu suất của thuật tốn phụ thuộc hồn tồn vào ngữ liệu huấn

luyên Bởi vì mục đích của các tác giả là thực hiện tách từ thật chính xác để phục vụ cho việc dịch máy nên tác giả [10] đã chọn phương pháp WFST Với các phương

pháp cần phải sử dụng từ điển hoặc tập huấn luyện, ngồi việc tách từ thật chính

xác, ta cịn cĩ thể nhờ vào các thơng tin đánh dấu trong tập ngữ liệu đề thực hiện các mục đích khác cần đến việc xác định từ loại như địch máy, kiểm lỗi chính tả, từ

điển đồng nghĩa Do vậy, mặc dù thời gian huấn luyện khá lâu, cài đặt khá phức tạp, chi phí tạo tập ngữ liệu huấn luyện rất tốn kém, nhưng kết quả mà hướng tiếp

cận đựa trên từ mang lại cho mục đích dịch máy là rất xứng đáng cho cơng sức bỏ

ra

Trang 36

24

cứu khơng cân đên độ chính xác tuyệt đối cũng như các thơng tin về từ loại như phan loai van ban, loc spam, firewall [9]

2.4 CAC PHUONG PHAP PHAN LOAI THUC THE

2.4.1 Support vector Machine (SVM)

SVM là phương pháp giải quyết vấn đề nhận dạng mẫu 2 lớp sử dụng nguyên lý cực tiêu hĩa rủi ro cĩ cấu trúc (Structural Risk Minimization) đo VanNik

giới thiệu đầu tiên năm 1995 [9]

Cho trước một tập huấn luyện được biểu điễn trong khơng g1an vector trong

đĩ mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng quyết định tốt nhất cĩ thể chia các điểm trên khơng gian này thành hai lớp riêng biệt tương ứng

lớp + và lớp - [9]

Chất lượng của siêu mặt phẳng nảy được quyết định bởi khoảng cách (gọi là

biên) của điểm đữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên

càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phần loại càng chính xác [9] Mục đích thuật tốn SVM tim được khoảng cách biên lớn nhất Ỷ y_ ~ - ao or ee ve _ xen em Trữ fate oe, ga ae ral ch we a“ i a Fae _ oe wen -_ ane 4 - weet aa ae -~ “ -‡- Shp “ _ we ~ ma a ~ - n K— ae ae ww we Sen ooo weet! — _ 7 ae ee ae eee vư N — ll en _ = vui _ BAN A2 “ cence 7 “ eee eee — Hình 2 2 Siêu phẳng phân chia đữ liệu huấn luyện 2.4.2 K-Nearest Neighbor (KNN)

kNN là phương pháp truyền thơng khá nổi tiếng về hướng tiếp cận dựa trên

thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua KNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên tập dữ liệu Reuters

Trang 37

25

Khi cần phân loại một văn bản mới, thuật tốn sẽ tính khoảng cách (khoảng

cách Euclide, Cosine .) của tất cả các văn bản trong tập huấn luyện đến văn bản

này để tìm ra k văn bản gần nhất (gọi là k “láng giềng”), sau đĩ dùng các khoảng

cách này đánh trọng số cho tất cả chủ đẻ Trọng số của một chủ đề chính là tổng tất

cả khoảng cách ở trên của các văn bản trong k láng giềng cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k láng giêng sẽ cĩ trọng số bằng 0 Sau đĩ các chủ đề sẽ được sắp xếp theo mức độ trọng số giảm dần và các chủ đề cĩ trọng số cao sẽ được chọn là chủ đê của văn bản cân phân loại [9] mm a mi an IE Hình 2 3 Mơ hình mồ tả thuật tốn KNN 2.4.3 Naive Bayes (NB)

NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong

lĩnh vực máy học được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào

năm 1961 sau đĩ trở nên phố biến dùng trong nhiều lĩnh vực như trong các cơng cụ

Trang 38

26 Rae ERAN atte 3 te

Hình 2 4 Mơ hình cấu trúc giải thuật NB

Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều

kiện giữa từ và chủ dé dé dự đốn xác suất chủ đề của một văn bản cần phân loại

Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện

của tất cả các từ trong văn bản đều độc lập với nhau Như thế NB khơng tận dụng

được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể [9]

CHả định đĩ làm cho việc tính tốn NB hiệu quả và nhanh chĩng hơn

các phương pháp khác với độ phức tạp theo số mũ vì nĩ khơng sứ dụng việc

kếp hợp các từ để đưa ra phán đốn chủ đề

2.4.4 Neural Network (NNet)

Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo Phương pháp nay được Wiener là người sử dụng đầu tiên để phân loại văn bản, sử dụng 2 hướng tiếp cận: kiến trúc phẳng (khơng sứ dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp

an) Ca hai hé thong trên đều sử dụng một mạng noron riêng rẽ cho từng chủ đề,

NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mơ hình vector của một văn bán vào một chủ đề cụ thé [9]

Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho

việc huấn luyện mạng nơron

Trang 39

27

algorithm) Kiến trúc định nghĩa dạng chức năng (functional form) liên quan gia tri

nhap (inputs) dén giá trị xuất (outputs) [9]

Kién trac phang (flat architecture): Mang phan loai don giản nhất (cịn gọi là mạng logic) cĩ một đơn vị xuất là kích hoạt kết quả (logistic activation) va khéng cĩ lớp ân, kết quả trả về & dang ham (functional form) tương đương với mơ hình hồi

quy logic Thuật tốn tìm kiếm chia nhỏ mơ hình mạng để thích hợp với việc điều

chỉnh mơ hình ứng với tập huấn luyện Ví dụ, chúng ta cĩ thể học trọng số trong mạng kết quả (logistic network) bằng cách sử dụng khơng gian trọng số giảm dan (gradient descent in weight space) hoặc sử dụng thuật tốn interated-reweighted least squares là thuật tốn truyền thống trong hồi quy (logistic regression) [9] sepal L Sapal W Petal L Petal W

Hinh 2 5 M6 hinh mang neural

Kiến trúc mơ đun (modular architecture): Việc sử dụng một hay nhiều lớp ân của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mơi quan hệ giữa những biến nhập và biến xuất Mỗi lớp ân học đề biểu điễn lại đữ liệu đầu vào

bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở

Trang 40

28

2.4.5 Linear Least Square Fit (LLSE)-

LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào

nam1992 Đầu tiên, LLSF được Yang và Chute thử nghiệm trong lĩnh vực xác định từ đồng nghĩa sau đĩ sử dụng trong phân loại vào năm 1994 Các thử nghiệm của

Vang cho thấy hiệu suất phân loại củaLLSF cĩ thể ngang bằng với phương pháp

kNN kinh điển

LLSE sử dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ để cĩ sẵn Tập huấn luyện được biểu diễn dưới dạng một cặp vector đầu vào và đâu ra như sau :

- Vector đầu vào một văn bản bao gồm các từ và trọng số

- Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với vector đầu vào

- Giải phương trình các cặp vector đầu vào/ đầu ra, ta sẽ được ma trận đồng hiện của hệ số hồi quy của từ và chủ đề(matrix of word-cafegory regression coefficients) 1 2 3 A 5 x Hình 2 6 Mơ hình LUSF

Tiêu đề	Nghiên Cứu Trích Rút Và Chú Thích Ngữ Nghĩa Các Thực Thể Có Tên Cho Các Kho Ngữ Liệu Dùng Trong Lĩnh Vực Xử Lý Ngôn Ngữ Tự Nhiên
Tác giả	KS. Trần Thu Thủy
Trường học	Đại Học Đà Nẵng
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Báo Cáo Tổng Kết
Năm xuất bản	2014
Thành phố	Đà Nẵng

Định dạng
Số trang	77
Dung lượng	6,96 MB