Các đặc trƣng cho quá trình học máy

Một phần của tài liệu Trích rút thông tin cá nhân từ văn bản tiếng việt (Trang 47)

Sau đây là các đặc trưng được sử dụng cho quá trình h c máy để trích rút thực thể. Ý nghĩa của số i ở các bảng dưới đây như sau:

+ Nếu i = 0: từ đang xét.

+ Nếu i <0: từ được đề cập đến ở trước từ đang xét |i| vị trí. + Nếu i > 0: từ được đề cập đến ở sau từ đang xét i vị trí

4.4.1 Đặc trƣng ngữ cảnh

Đặc trưng ngữ cảnh kiểm tra các thông tin ngữ cảnh của một từ. Các ngữ cảnh của từ là các từ bao quanh nó.

Bảng 4-1: Mẫu ngữ cảnh về từ vựng:

Mẫu ngữ cảnh Ý nghĩa

word_conj:0 Dữ liệu quan sát được tại vị trí hiện tại. word_conj:i

(i =1, 2, 3)

Ngữ cảnh được đề cập tới là từ ở vị trí i ngay sau từ đang xét.

word_conj:i (i =-1, -2, -3)

Nguyễn Cao Cường 48 Luận văn Thạc sỹ

word_conj: i: (i+1) (i= -3, -2, -1, 0, 1, 2)

Ngữ cảnh được đề cập là hai từ liền nhau, từ ở trước (nếu i <0) hoặc ở sau (i >0) so với từ đang xét (i=0).

word_conj: i: i+1:i+2 (i= -3, -2, -1, 0, 1)

Ngữ cảnh được đề cập là ba từ liền nhau, từ ở trước (nếu i <0) hoặc ở sau (i >0) so với từ đang xét (i=0).

Ví dụ, nếu ta có đoạn văn bản “[công ty] [VNPT]” , thì ngữ cảnh của từ “VNPT” bao gồm từ “công ty”. p dụng nguyên mẫy trên tại vị trí 1 ta được ngữ cảnh w:0:VNPT. Giả sử trong chuỗi dữ liệu trên được gán nhãn I_Org, kết hợp với ngữ cảnh ta có thể rút ra được thuộc tính của chuỗi quan sát là:

gk ={

Khi áp dụng ngữ cảnh này vào một từ ở một vị trí nào đó, ta sẽ nhận được giá trị 1 nếu từ đang xét có ngữ cảnh này và bằng 0 nếu ngược lại. Việc chúng ta tạo ra các đặc trưng có thể cho một từ tố nào đó thực chất chính là việc liệt kê các đặc trưng mà từ tố đáp ứng được (đặc trưng nhận giá trị 1).

4.4.2 Đặc trƣng từ điển

Đặc trƣng từ điển: Đặc trưng từ điển kiểm tra xem một từ tố hay một ngữ cảnh của từ tố có thuộc vào một trong từ điển cho trước hay không. Các từ điển được sử dụng trong đồ án bao gồm từ điển các địa danh, các tổ chức, tên người… Bảng dưới đây liệt một số từ điển c ng một vài phần tử của chúng:

Bảng 4-2: Các từ điển đƣợc sử dụng

Từ điển Ví dụ

Tên các quốc gia trên thế giới Mỹ, Nhật, Nga, Trung Quốc

Các h của người Việt Nguyễn, Lê, Trần, Phan

Các tên thường thấy của người Việt Trang, Minh, An, Linh, Việt

Các tên lót thường thấy của người Việt Kim, Thu, Xuân

Các từ thường là dấu hiệu chỉ sự xuất hiện của một địa điểm trong văn bản tiếng Việt

Quận, Huyện, Xã, Tỉnh

Nguyễn Cao Cường 49 Luận văn Thạc sỹ

một tổ chức trong văn bản tiếng Việt (adsbygoogle = window.adsbygoogle || []).push({});

Các từ chỉ chức vụ, chức danh trong tiếng Việt Bộ trưởng, Thứ trưởng

Các đại từ trong tiếng Việt (thường theo sau bởi tên người)

Bố, Mẹ, Anh, Chị…

Các thành phố, tình, quận, huyện ở Việt Nam Hà Nội, Bắc Giang, Hải Dương, Nam Định

4.4.3 Đặc trƣng chính tả

Đặc trưng từ điển kiểm tra các đặc điểm chính tả của một từ tố hay một ngữ cảnh của từ tố. Nếu một từ tố thỏa mãn một nguyên mẫu đặc trưng nào đó, thì một đặc trưng tương ứng được đặt vào tập đặc trưng của từ tố này. Các đặc trưng chính tả được sử dụng trong đồ án bao gồm các đặc trưng về viết hoa, viết thường, chữ số… Sau đây là các đặc trưng chính tả được sử dụng trong luận văn này:

Bảng 4-3: Các đặc trƣng chính tả

Đặc trƣng Ý nghĩa

initial_cap: 0 Từ viết hoa chữ cái đầu tiên (có khả năng là thực thể) initial_cap: -1 Từ viết hoa chữ cái đầu tiên đứng liền trước từ đang

xét.

initial_cap: 1 Từ viết hoa chữ cái đầu tiên đứng liền sau từ đang xét. all_cap:i (i=0, -1, 1). Từ gồm tòan các chữ cái viết hoa (có khả

năng là ORG, ví dụ: EU, WTO...)

contain_percent_sign: 0 Từ chứa kí tự % (có khả năng là thực thể PCT) contain_slash_sign: 0 Chứa kí tự /

contain_comma_sign: 0 Chứa kí tự ,

first_obsrv Từ đầu tiên của câu (thông tin về viết hoa không có ý nghĩa)

Nguyễn Cao Cường 50 Luận văn Thạc sỹ

(i=0, -1, 1).

mark Dấu câu như các dấu chấm, ph y , hai chấm

4.4.4 Đặc trƣng chính quy và từ loại

Các đặc trưng chính quy trong luận văn được d ng để kiểm tra các từ tố liên quan đến thời gian trong văn bản tiếng Việt. Các đặc trưng từ loại kiểm tra kiểu từ loại của các từ. Việc áp dụng các đặc trưng này cũng tương tự như trên. Bảng dưới đây mô tả đặc trưng chính quy và từ loại được áp dụng hệ thống mà luận văn xây dựng. Bảng 4-4: Đặc trƣng chính qui và từ loại Mẫu ngữ cảnh Ý nghĩa Hour: i (i=-1, 0, -1) Giờ Long_date: i (i=-1, 0, -1) Ngày. Ví dụ: 07/05/2014 short_date: i (i=-1, 0, -1) Ngày. Ví dụ: 07/05 Percentage: i (i=-1, 0, -1) Phần trăm Number: i (i=-1, 0, -1) Số 4.5 Hậu xử lý

Nguyễn Cao Cường 51 Luận văn Thạc sỹ

Hình 4-3: Quá trình hậu xử lý 4.5.1 Xử lý đồng tham chiếu đến thực thể ngƣời

4.5.1.1 Một số đặc điểm Tiếng Việt ảnh hưởng đến việc xử lý đồng tham chiếu đến thực thực người

Định dạng tên đơn giản

Trong tiếng Việt, tên người, tên tổ chức và tên địa điểm là những thực thể có độ phức tạp cao nhất trong số các thực thể và sử dụng rộng rãi trong cộng động trích rút thông tin như là các tiêu chu n để so sánh các hệ thống trích rút thông tin khác nhau. Vì lý do đó, phần dưới đây sẽ chỉ trình bày định dạng tên của ba loại thực thể này. Những định dạng này được kế thừa từ nghiên cứu của các tác giả Nguyễn và Cao [18].

Bảng 4-5: Định dạng tên thực thể

Kiểu thực thể Định dạng Ví dụ

Tên người [tiền tố] + [họ] + [tên đệm] + tên

[Ông] [Đinh] [La] Thăng

Tên tổ chức [tiền tố] + [loại hình] + [loại (adsbygoogle = window.adsbygoogle || []).push({});

công việc] + tên + [địa điểm]

[Công ty] [TNHH] [điện

tử] Việt Nhật, [Hà Nội]

Tên địa điểm [tiền tố] + tên [Đường] Giáp Bát

Các luật đồng tham chiếu về tên trong văn bản tiếng Việt

Các định dạng về tên ở trên cần phải kết hợp với các luật đồng tham chiếu để tạo ra các mẫu tìm kiếm mới. Phần dưới đây nêu ra 11 luật đồng tham chiếu được kế thừa từ các tác giả trong [23]:

Với N1 và N2 là các tên, không mất tính tổng quát, giả sử N1 dài hơn N2. Khi đó, hai tên này c ng tham chiếu đến một thực thể nếu chúng thỏa mãn một trong các tập luật nhóm 1 sau đây:

Văn bản đã gán nhãn thực thể Xử lý đồng tham chiếu đến thực thể ngƣời Hiệu chỉnh nhãn Văn bản đã hiệu chỉnh

Nguyễn Cao Cường 52 Luận văn Thạc sỹ

Luật 1: Hai tên giống nhau

Luật 2: Một tên là phần tên của tên còn lại, ví dụ: “Đinh La Thăng” và

“Thăng”.

Luật 3: Một tên là bí danh của tên khác, ví dụ: “Sài Gòn” và “TP Hồ Chí

Minh”; “Thăng Long” và “Hà Nội”.

Luật 4: Một tên là viết tắt của tên khác, ví dụ: “FIS” và “FPT Information

System”.

Luật 5: k chữ đầu và m chữ cuỗi của hai tên giống nhau, với điều kiện k + m

là số chữ của N2, ví dụ: “Công ty TNHH điện tử Việt Nhật” và “Công ty TNHH Việt

Nhật”.

Luật 6: Ngoại trừ phần tiền tố, tất cả các chữ của N2 đều xuất hiện trong N1 và phần tiền tố của N2 hoặc là giống tiền tố của N1 hoặc là viết tắt phần tiền tố của N1, ví dụ: “Công ty TNHH YILIN Việt Nam”, “Công ty YILIN Việt Nam”, “Công ty

YILIN ” c ng là tên của một công ty.

Luật 7: Một tên là phần cuối của tên còn lại, ví dụ: “Lê Công Vinh” và “Công

Vinh ”.

Luật 8: Phần cuối của một tên là viết tắt kí tự đầu của các chữ trong phần cuối

của tên kia, phần còn lại của hai tên giống nhau, ví dụ, với “Bộ Khoa Học và Công

Nghệ” và “Bộ KH & CN” thì “KH & CN” là viết tắt kí tự đầu của “Khoa Học và Công Nghệ”.

Luật 9: k chữ cuối của hai tên giống nhau, phần đầu của N2 là viết tắt phần đầu của N1, với điều kiện N2 có k + 1 chữ, ví dụ: “Công ty HP VN” và “Cty HP VN”.

Luật 10: Các chữ viết tắt của N2 đều là viết tắt các cụm từ trong N1 và các chữ còn lại trong N2 đều xuất hiện trong N1, ví dụ: “Công ty TNHH Hewlett Packard

Việt Nam”, “Cty HP VN”, “HP VN”, “HP Việt Nam” và “Công ty HP Việt Nam” đều

là tên của c ng một thực thể. (adsbygoogle = window.adsbygoogle || []).push({});

Luật 11: Hai tên xuất hiện liên tiếp trong văn bản theo dạng N1(N2), với điều kiện N2 chỉ có một chữ và thực thể tương ứng thuộc lớp tổ chức. Ví dụ: “Phòng

Nguyễn Cao Cường 53 Luận văn Thạc sỹ Thương mại và Công nghiệp Việt Nam (VCCI)”, hoặc “Liên đoàn Bóng đá Việt Nam (VFF)”.

Từ các luật đồng tham chiếu về tên nói trên, có thể thấy rằng: Một tên có thể xuất hiện nhiều lần trong văn bản dưới nhiều dạng khác nhau. Như vậy, các tên này có thể có c ng một kiểu thực thể do chúng c ng tham chiếu đến một thực thể chung duy nhất. Các luật đồng tham chiếu về tên nói trên sẽ được áp dụng trong luận văn để tạo ra các mẫu tìm kiếm nhằm phát hiện và hiệu chỉnh các thực thể ở bước hậu xử lý được trình bày ở mục 4.5.

Các luật nhận dạng thực thể

Bên cạnh các hiện tượng đồng tham chiếu nói trên, các tác giả trong [23] cũng đưa ra thêm tập luật nhận dạng thực thể như sau (g i là tập luật nhóm 2).

Luật 13: Nếu cụm danh từ (Noun Phrase - NP) có tiền tố thuộc một trong ba

loại từ điển về tên người, tên địa điểm, tên tổ chức thì gán kiểu thực thể tương ứng với tiền tố của chúng.

Ví dụ:

1 “Ngày mai bé Hoài Linh sẽ đi học.”

2 “Công ty Hoài Linh chuyên cung cấp máy lọc nước.”

Thì “Công ty Hoài Linh” được gán nhãn thực thể theo tiền tố “Công ty”.

Luật 14: Nếu cụm từ đang xét nằm trong từ điển về tên người Việt Nam, lĩnh

vực nghiên cứu, địa điểm, cơ quan tổ chức, cụm từ đó được gán nhãn dựa trên từ điển tương ứng.

Các luật từ 15 đến 18 dưới đây chỉ áp dụng với các cụm danh từ có tính chất: cụm danh từ chỉ chứa duy nhất một từ, từ này không thuộc các từ điển về tên người, tên địa điểm, tên tổ chức và tất cả các ký tự đầu tiên của từ này phải viết hoa.

Luật 15: Nếu cụm danh từ được theo sau bởi một chuỗi từ tuân theo định

dạng:

[phụ từ][từ dùng để định nghĩa][trợ từ][từ thuộc 1 trong 3 từ điển tiền tố về

Nguyễn Cao Cường 54 Luận văn Thạc sỹ

Trong đó:

+ Phụ từ: đã, đang, vẫn, rồi, sẽ, …

+ Từ d ng để định nghĩa: là, chính là, làm, chỉ, … + Trợ từ: các, những, m i, một, vài

Từ định nghĩa là bắt buộc, còn hai loại từ kia có thể có hoặc không. Nhãn của NP này là nhãn của từ trong từ điển.

Ví dụ:

(a) Trương Gia Bình là tổng giám đốc tập đoàn FPT. (b) Hồ Chí Minh là con đường huyền thoại.

Trong ví dụ trên, Trương Gia Bình là tên người, dựa vào từ “giám đốc” còn

Hồ Chí Minh là tên địa điểm dựa vào từ “con đường”.

Luật 16: Đứng trước cụm danh từ là 1 từ thuộc một trong hai loại: động từ đi

kèm với từ chỉ nơi chốn (đến, đi, …) hoặc một trạng từ chỉ nơi chối (tại, ở, …) thì cụm danh từ sẽ được gán nhãn là tên địa điểm.

Ví dụ: Tôi có một người bác đang sống tại Hồ Chí Minh. Trong ví dụ này “Hồ Chí Minh” là tên địa điểm dựa vào từ ở.

Luật 17: Nếu cụm danh từ đứng trước một chuỗi có dạng: (adsbygoogle = window.adsbygoogle || []).push({});

[dấu câu ] [các từ định nghĩa] [ từ thuộc 1 trong 3 từ điển tiền tố về tên người,

tên tổ chức, tên địa điểm]

trong đó

+ “Các từ định nghĩa” là: “-“, “,”, ( …

Khi đó cụm danh từ được gán nhãn theo từ thuộc 1 trong 3 từ điển Ví dụ:

Kinh Đô, công ty bánh kẹo nổi tiếng Việt Nam, đang tuyển dụng vị trí giám đốc điều hành.

Trong ví dụ này, Kinh Đô là một thực thể kiểu tổ chức dựa vào từ “công ty” đi sau dấu ph y.

Nguyễn Cao Cường 55 Luận văn Thạc sỹ

Luật 18: Nếu NP đứng trước một chuỗi có dạng:

[từ chỉ số lượng] [từ thuộc một trong 4 từ điển] [một từ nào đó bổ sung ý

nghĩa cho từ thuộc một trong 3 từ điển tên người, tên địa điểm, tên tổ chức] [dấu hai

chấm “:” hoặc các từ chỉ liệt kê] Trong đó:

+ Từ liệt kê gồm có các từ như: như, gồm, gồm có…

+ Từ bổ sung ý nghĩa thường là các tính từ miêu tả (phát triển, tiên tiến…) Thì cụm danh từ và tất cả các từ có tất cả các chữ đều viết hoa đi ngay sau NP này (các dấu ph y đi giữa các từ này được bỏ qua) được gán nhãn thực thể theo từ điển chứa “từ thuộc vào một trong ba từ điển tiền tố”.

Ví dụ: Bãi biển Hàm Rồng vẫn thu hút khách du lịch mặc dù chưa có “thương hiệu” như các bãi biển: Lăng Cô, Cảnh Dương, Thuận An,…

Trong ví dụ trên, “Lăng Cô”, “Cảnh Dương”, “Thuận An” là tên địa điểm căn cứ vào từ “bãi biển” đi trước những từ này.

4.5.1.2 Quá trình xử lý đồng tham chiếu

Mục đích của hậu xử lý là tìm ra các tên đồng tham chiếu, hiệu chỉnh lại các thực thể bị gán nhãn sai. Hậu xử lý sử dụng các luật đồng tham chiếu (xem thêm mục 0) và tập luật nhận dạng thực thể (xem thêm mục 0).

Quá trình xử lý đồng tham chiếu đến thực thể người được thực hiện như sau:

Tập luật nhận dạng thực thể Văn bản đã gán nhãn thực thể Tìm thực thể quan tâm, tạo mẫu đồng tham chiêu Ứng viên hiệu chỉnh Văn bản đã xử lý đồng tham chiếu Tập luật đồng tham chiếu

Nguyễn Cao Cường 56 Luận văn Thạc sỹ

Hình 4-4: Xử lý đồng tham chiếu

Với giả định văn bản đầu vào là tập trung nói về một cá nhân nên kiểu thực thể tên người có thể xuất hiện nhiều lần trong văn bản với các tên khác nhau. Do đó, trước tiên tác giả chính xác một tên nào đó của thực thể người cần quan tâm, sau đó sử dụng tên này để tạo ra các tên khác của chính thực thể đó. Đối với trang web tiếng Việt wikipedia, thực thể tên người cần quan tâm sẽ được nhắc đến ở ngay câu đầu tiên. Những tên tham chiếu đến c ng một thực thể người này sau đó sẽ được tìm kiếm trong văn bản đã gán nhãn thực thể để tìm ra các sự xuất hiện (dưới một hình thức khác) của thực thể và hiệu chỉnh.

Ví dụ: Trong quá hậu xử lý, ta đã xác định được từ “Lê Công Vinh” là một thực thể tên người. Do đó, theo các luật đồng tham chiếu ở mục 0 thì các cụm từ “Công Vinh”, “Vinh” và “Lê Vinh” có khả năng là đồng tham chiếu đến thực thể tên người là “Lê Công Vinh”.

Đến đây, mặc d ta đã tìm ra các ứng cử viên thực thể, nhưng ta vẫn không thể t y tiện đ y các ứng cử viên thực thể này. Do sự nhập nhằng trong ngôn ngữ tiếng Việt nên trong trong quá trình phát hiện, hiệu chỉnh thực thể có thể xảy ra sự nhập nhằng: Tên của ứng cử viên thực thể là con của tên của một thực thể khác.

Tuy nhiên khi tìm thấy từ “Vinh” trong cụm từ “xứ Vinh”, nếu không được xử lý thì ta có thể đưa nhầm từ “Vinh” này là một tên người. Thực tế, thực thể đúng trong trường hợp này là “Vinh” với kiểu tên địa điểm.

Để giải quyết trường hợp nhập nhằng này, tác giả sử dụng thêm cụm danh từ nhỏ nhất chứa các ứng cử viên thực thể. Với mỗi cụm danh từ này chứa ứng cử viên thực thể tìm được, hệ thống đi xác định xem tiền tố của nó có nằm trong một trong hai từ điển tiền tố tên thực thể (tên địa điểm - LOC-INDICATE-NOUN- DICT, tên tổ chức -ORG- INDICATE-NOUN-DICT) hay không. Nếu tiền tố này

Một phần của tài liệu Trích rút thông tin cá nhân từ văn bản tiếng việt (Trang 47)