1. Trang chủ
  2. » Luận Văn - Báo Cáo

Rút trích thông tin từ kết quả phân tích cú pháp

56 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Rút trích thông tin từ kết quả phân tích cú pháp
Chuyên ngành Khoa học máy tính
Thể loại Báo cáo
Năm xuất bản 2011
Định dạng
Số trang 56
Dung lượng 1,57 MB
File đính kèm Rút trích thông tin từ kết quả phân tích cú pháp.rar (1 MB)

Cấu trúc

  • Chương I Giới thiệu (6)
    • 1. Rút trích thông tin là gì? (6)
    • 2. Đặt vấn đề - bài toán (6)
  • Chương II Cơ sở lý thuyết (7)
    • 1. Phân tích cú pháp (7)
    • 2. Các loại phân tích cú pháp (8)
      • 2.1. Full Parsing (8)
      • 2.2. Semantic Parsing (9)
      • 2.3. Shallow Parsing (9)
    • 3. Rút trích thông tin (10)
      • 3.1. Ví dụ về rút trích thông tin (10)
      • 3.2. Một số hệ thống rút trích thông tin khác (12)
      • 3.3. Kĩ thuật rút trích thông tin cơ bản (12)
        • 3.3.1. Tổng quát (12)
        • 3.3.2. Xây dựng cấu trúc và mô hình (13)
        • 3.3.3. Phân tích từ vựng (14)
        • 3.3.4. Name Recognition (Nhập nhằn tên thực thể) (15)
        • 3.3.5. Cấu trúc cú pháp (15)
        • 3.3.6. Scenario Pattern Matching (đồng tham chiếu) (16)
        • 3.3.7. Coreference Analysis (Đồng tham chiếu) (16)
        • 3.3.8. Suy luận và gộp các sự kiện (17)
  • Chương III Một số mô hình rút trích thông tin (18)
    • 1. Mô hình FASTUS (19)
      • 1.1. Giới thiệu (19)
      • 1.2. Triggering (19)
      • 1.3. Noun phrase chunking(nhận diện các cụm từ) (20)
      • 1.4. Recognizing Patterns(nhận dạng mô hình) (21)
      • 1.5. Merging Incidents(hợp nhất các sự kiện) (23)
    • 2. Mô hình trích chọn quan hệ trên Wikipedia tiếng Việt dựa vào cây phân tích cú pháp (24)
      • 2.1. Đặc trưng của Wikipedia (25)
        • 2.1.1. Thực thể trong Wikipedia (25)
        • 2.1.2. Infobox (26)
        • 2.1.3. Mục phân loại (26)
      • 2.2. Cây phân tích cú pháp tiếng Việt (27)
        • 2.2.1. Phân tích cú pháp (27)
        • 2.2.2. Một số thành phần cơ bản của cây phân tích cú pháp tiếng Việt (28)
      • 2.3. Phát biểu bài toán (28)
      • 2.4. Xây dựng tập dữ liệu học (28)
        • 2.4.1. Trích chọn thông tin trên Infox (29)
        • 2.4.2. Tìm kiếm trên Wikipedia (30)
        • 2.4.3. Mô hình hệ thống trích chọn quan hệ (31)
      • 2.5. Mô hình trích rút mẫu quan hệ ngữ nghĩa (36)
      • 2.6. Mô hình hệ thống hỏi đáp tiếng Việt (40)
  • Chương IV Mô hình bài toán (43)
    • 1. Rút trích thông tin từ văn bản(dựa vào kết quả phân tích cú pháp) (43)
      • 1.1. Lấy ra các NNP từ văn bản (43)
      • 1.2. Lấy nội dung từ các cặp thực thể (43)
      • 1.3. Xây dựng khung mẫu để rút trích (44)
    • 2. Mô hình ngữ liệu (48)
  • Chương V Cài đặt thực nghiệm (51)
    • 1. Mô tả chương trình (51)
    • 2. Chuẩn bị (51)
    • 3. Hoạt động của chương trình (52)
  • Chương VI Kết quả đạt được và hướng phát triển (54)
    • 1. Kết quả đạt được (54)
    • 2. Khó khăn và hạn chế (55)
    • 3. Kế hoạch sắp đến để hoàn thiện đề tài (55)
  • Chương VII Phụ lục (55)
  • Chương VIII Tài liệu tham khảo (56)

Nội dung

Phân tích cú pháp thường là bước đầu tiên trong quá trình xử lý ngôn ngữ tự nhiên, nó cung cấp một nền tảng vững chắc cho việc xử lý văn bản thông minh như các hệ thống hỏi đáp, khai phá văn bản và dịch máy. Việc phân tích cú pháp câu có thể chia làm hai mức chính. Mức thứ nhất là tách từ và xác định thông tin từ loại. Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại do bước trước cung cấp.

Giới thiệu

Rút trích thông tin là gì?

Một số ứng dụng của xử lý ngôn ngữ tự nhiên (Natural Language Processing):

 Truy hồi thông tin (IR) : o tìm kiếm, lấy các tài liệu để đáp ứng một yêu cầu về thông tin nào đó

 Rút trích thông tin (IE) : o Lấy thông tin trong một văn bản theo một khuôn mẫu, một yêu cầu,

 Passage Retrieval: o lấy một phần tài liệu để đáp ứng một yêu cầu về thông tin nào đó

Rút trích thông tin là quá trình lấy thông tin từ một hoặc nhiều văn bản mà kết quả thu được sẽ tùy theo yêu cầu cần rút trích:

 Tìm kiếm thông tin của thực thể

Đặt vấn đề - bài toán

Rút ra các sự kiện, danh nhân và địa danh trong văn bản lịch sử là cần thiết để tiết kiệm thời gian cho người đọc và giải quyết các vấn đề như trả lời câu hỏi và tóm tắt nội dung.

Tìm kiếm thông tin về các thực thể trong văn bản là rất quan trọng để tiết kiệm thời gian cho người dùng Hầu hết mọi người thường sử dụng các công cụ tìm kiếm trực tuyến như Google, Bing và Yahoo để thực hiện nhiệm vụ này.

Luận văn được thực hiện để giải quyết quyết 2 vấn đề trên:

 Xây dựng một hệ thống rút trích thông tin rút ra các sự kiện trong văn bản lịch sử

 Xây dựng bộ dữ liệu về các tổ chức, địa danh, con người.

Cơ sở lý thuyết

Phân tích cú pháp

Phân tích cú pháp là công cụ thiết yếu trong xử lý ngôn ngữ tự nhiên, được áp dụng trong hầu hết các ứng dụng liên quan Chẳng hạn, trong hệ thống dịch máy, phân tích cú pháp đóng vai trò quan trọng trong việc phân tích câu nguồn và tạo ra câu đích.

Ví dụ 1: phân tích cú pháp câu “My dog also likes eating sausage”

My/PRP$ dog/NN also/RB likes/VBZ eating/VBG sausage/NN /

(NP (PRP$ My) (NN dog))

Phân tích cú pháp giúp gán nhãn loại cho các từ, từ đó hỗ trợ hiệu quả trong việc rút trích thông tin Ví dụ, việc gán nhãn cụm từ “My dog” là NP cho phép chúng ta dễ dàng trích xuất thực thể này.

Các loại phân tích cú pháp

 Parsing with different Grammar Formalisms o Context-Free Parsing (phân tích theo ngữ cảnh) o Dependency Parsing

- Semantic Parsing (phân tích ngữ nghĩa)

- Shallow Parsing (phân tích cạn)

 Parsing with different Grammar Formalisms o Context-Free Parsing (phân tích theo ngữ cảnh tự do)

Hình 1 Context-Free Parsing o Dependency Parsing

NP -> Det Noun VP-> Verb NP Noun -> Raamu | apple

Verb -> ate Det -> an ate ( raamu , apple )

Det Noun ate an Apple

JJ NNS IN DT NNS VBD VBG NNS Red figures on the screens indicated falling stocks

JJ NNS IN DT NNS VBD VBG NNS

Red figures on the screens indicated falling stocks

Sentence POS Tagging Morpho-syntactic

Word that can be group as chunks (NP,VP,…) Chunking

Relation they have with the main words (subj,obj, loc,…) Relation finding

[NP-SUBJ I /PRP] [VP am /VB] [NP-OBJ a/DT boy/NN]

Phân tích câu “The wiman will give Mary a book”

[The/ Det woman/NN] np-PERSON [will/MD give/VB] vp [Mary/NNP] np-

PERSON [a/Det book/NN] np-MATERIAL – OBJECT

Shallow parsing: tìm kiếm các quan hệ (1)

Hình 5 Phân tích câu “The wiman will give Mary a book” Áp dụng của parser :

 IR: sufficient to find NPs and Vps

 IE, Tóm tắt thông tin.

Rút trích thông tin

3.1 Ví dụ về rút trích thông tin

[The woman] [will] [give Marry] [a book]

Bridgestone Sport Co said Friday it had set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be supplied to Japan

The joint venture , Bridgestone Sport Taiwan Co , capitalized at 20 million new Taiwan dollars, with start production in

January 1990 with production of 20,000 iron and “metal wood” clubs a month

Hình 6 Cách rút trích thông tin của hệ thống FASTUS

Một khuôn mẫu đã được xây dựng để rút trích thực thể và các sự kiện liên quan đến nó

Với loại văn bản khác phải dùng một khuôn mẫu khác:

A German vehicle-firm executive was stabbed to death ……

Jusgen Pfrang , 51, reportedly stumbled upon the robbers on the second floor of his Nanjing home early on Sunday

The deputy general manager of Yaxing Benz , a Sino-German joint venture that makes buses and bus chassis in nearby

Yangzhou, was hacked to death with 45 cm watermeelon knives

“Bridgestone Sport Taiwan Co” Product :

“iron and “metal wood” clubs” Start Date :

3.2 Một số hệ thống rút trích thông tin khác:

 The MUC-4 Terrorism Task (1991) một hệ thống rút trích thông tin từ báo chí các vụ khủng bố từ Nam Mỹ

3.3 Kĩ thuật rút trích thông tin cơ bản:

Quá trình khai thác thông tin bao gồm hai phần chính: đầu tiên, hệ thống rút trích dữ liệu "facts" từ văn bản tài liệu thông qua phân tích tại chỗ; thứ hai, nó tích hợp các vùng dữ liệu này để tạo ra dữ liệu mới thông qua suy luận Cuối cùng, dữ liệu đã được tích hợp sẽ được chuyển đổi sang định dạng đầu ra cần thiết.

Để xây dựng hệ thống xử lý ngôn ngữ tự nhiên hiệu quả, cần rút trích dữ kiện cá nhân thông qua việc tạo ra các mô hình phù hợp với dữ liệu thực tế Sự phức tạp của ngôn ngữ tự nhiên gây khó khăn trong việc mô tả các mô hình này Do đó, việc phân tích cú pháp, ngữ nghĩa và xác định nhóm từ của văn bản đầu vào là rất cần thiết.

Type : Stabbing The killed: Name: Jusgen Pfrang

Age: 51 Profession: Deputy general manager Location: Nanjing, China

3.3.2 Xây dựng cấu trúc và mô hình

Hình 7 Cấu trúc một hệ thống rút trích thông tin

Lexical analysis Name recognition Partial syntactic analysis Scenario pattern matching

Kết hợp các phần tử này tạo thành cấu trúc ngữ nghĩa, được gọi là thực thể (entities) và sự kiện (events) Những cấu trúc này sẽ được sử dụng để xây dựng các mẫu.

Văn bản được đưa vào:

Văn bản sẽ được chia thành nhiều câu, và các phần này sẽ được so sánh với bộ từ điển như Comlex Syntax dictionary để xác định các thành phần câu và loại từ.

Bộ từ điển bao gồm tên các thực thể được phân loại (Company, person, common first names,…) (3)

Các sự kiện của thực thể được rút trích

Sam Schwartz retired as executive vice president of the famous hot dog manufacturer, Hupplewhite Inc, He will be succeeded by Harry Himmel-farb

EVENT leave job PERSON Sam Schwartz POSITION executive vice president COMPANY Hupplewhite Inc

EVENT start job PERSON Harry Himmelfarb POSITION executive vice president COMPANY Hupplewhite Inc

3.3.4 Name Recognition (Nhập nhằn tên thực thể)

Xử lý sự nhập nhằng trong tên các thực thể là một thách thức phức tạp, do tính chất riêng biệt của những tên này khiến chúng ta khó xác định nghĩa chính xác Để phân loại các thực thể, hầu hết chúng ta thường sử dụng từ điển như một công cụ hỗ trợ.

Một đoạn văn đã được phân loại các thực thể:

[name type: personSam Schwartz] retired as executive vice president of the famous hot dog manufacturer, [name type: companyHupplewhite Inc.] He willl be succeded by [name type: personHarry himmelfarb]

Vấn đề nhập nhằng là không thể tránh khỏi

Ví dụ 2: với câu “Humble Hoop reported …” nếu không có “Mr “ chúng ta không thể biết được “Humble Hoop” là người hay một công ty

Các đối số được rút trích thường tương ứng với cụm danh từ trong văn bản, trong khi các mối quan hệ được rút trích thường phản ánh quan hệ chức năng ngữ pháp, giúp xây dựng một cấu trúc thông tin rõ ràng và chính xác.

Xác định cấu trúc cú pháp của một câu là một nhiệm vụ khó khăn, và nhiều hệ thống không phân tích từng phần riêng lẻ mà xem xét toàn bộ câu.

Sam Schwartz, the executive vice president of the renowned hot dog manufacturer Hupplewhite, will be succeeded by Harry Himmelfarb.

Entity e1 Type: person name:”Sam Schwatz”

Entity e2 Type: position value: “excutive vice president”

Entity e4 Type: company name: “Hupplewhite Inc.”

Entity e6 Type: person name: “Harry Himmelfarb”

3.3.6 Scenario Pattern Matching (đồng tham chiếu)

Các quá trình ở trên được dùng để xây dựng các mô hình và dựa vào các mô hình này để rút trích ra các quan hệ, sự kiện,

Ví dụ 3 : hai mô hình cảu hai câu dưới person retires as position và person is succeeded by person

[clause event: e7Sam Schwartz retired as executive vice president of the famous hot dog manafacturer Hupplewhite Inc.][clause event: e8he will be succeeded by

Entity e1 Type: person name: “Sam Schwartz”

Entity e2 Type: position value: “executive vice president” company: e3 Entity e3 Type: manufacturer name: “hupplewhite Inc.”

Entity e6 Type: person name: “Harry Himmelfarb”

Entity e7 Type: leave-job person: e1 postion:e2

Entity e8 Type: succeed person: e6 person2: e5

Các thực thể và sự kiện được rút trích

3.3.7 Coreference Analysis (Đồng tham chiếu)

Giải quyết vấn đại từ, danh từ, cụm từ Ví dụ với từ “he”(e5), cần phải xác định xem đó là ai

Sam Schwartz, the retired executive vice president of the renowned hot dog manufacturer Hupplewhite Inc., will be succeeded by Harry Himmelfarb.

Dựa vào bảng bên dưới, sẽ lấy tên thực thể tên người gần nhất trước nó

Entity e1 Type: person name: “Sam Schwartz”

Entity e2 Type: position value: “executive vice president” company: e3 Entity e3 Type: manufacturer name: “Hupplewhite Inc.”

Entity e6 Type: person name: “Harry Himmelfarb”

Event e7 Type: leave-job person: e1 position: e2

Event e8 Type: succed person1: e6 person2: e5

Nếu có từ “the company” trong ví dụ trên thì nó sẽ lấy thực thể ở vị trí e3

3.3.8 Suy luận và gộp các sự kiện

Trong nhiều trường hợp, thông tin về một sự kiện có thể được “lan truyền” qua một số câu và cần được kết hợp để tạo ra một mẫu hoàn chỉnh Đôi khi, một số thông tin chỉ tồn tại tiềm ẩn và cần được làm rõ thông qua quá trình suy luận.

Chúng ta có thể suy ra được rằng “Harry” sẽ trở thành tổng thống(president)

Có thể xây dựng một hệ thống luật (System rule) như sau:

Leave-job(X-peson, Y-job) & succeed(Z-person, X-person)

Start-job(X-person, Y-job) & succeed(X-person, Z-person)

Dựa vào luật ở trên với đoạn văn bản ví dụ sẽ được kết quả như sau:

Sam was president He was succeeded by Harry

Entity e1 Type: person name: “Sam Schwartz”

Entity e2 Type: position value: “executive vice president” company: e3

Entity e3 Type: manufacturer name: “Hupplewhite Inc.”

Entity e6 Type: person name: “Harry Himmelfarb”

Event e7 Type: leave-job person: e1 position: e2

Event e8 Type: succeed person1: e6 person2: e1

Event e9 Type: start-job person: e6 postion: e2

Một số mô hình rút trích thông tin

Mô hình FASTUS

Việc xử lý tự động một lượng lớn văn bản với tốc độ cao và độ chính xác cao là yếu tố quan trọng trong xử lý ngôn ngữ tự nhiên Hệ thống truy tìm thông tin hiệu quả cần xác định các văn bản liên quan một cách chính xác và phù hợp với nhu cầu Tuy nhiên, việc trích xuất thông tin từ văn bản để giải quyết vấn đề thường tốn nhiều thời gian Để khắc phục điều này, hệ thống FASTUS (Finite State Automata-based Text Understanding System) đã được phát triển nhằm đáp ứng yêu cầu rút trích thông tin từ cấu trúc văn bản với tốc độ và độ chính xác cao Hệ thống này đã được thử nghiệm tại MUC-4, nơi đánh giá khả năng xử lý văn bản và đã chứng minh được hiệu quả của nó.

• Hiệu suất cao (44% Recall và chính xác 55% thử nghiệm trên 100 văn bản)

• Thời gian phát triển mô hình ngắn (3 đến 5 ngày cho việc xử lý sự cố)

• Thời gian xử lý nhanh (văn bản được xử lý với tốc độ hơn 2000 từ /1 phút)

Hệ thống FASTUS bao gồm 4 bước :

Trong 1 câu , những từ kích hoạt (triggers) sẽ được xác định Trong 1 mô hình được định nghĩa có ít nhất 1 từ trigger.Nhìn chung , đây là những từ có mặt thường xuyên trong 1 mô hình.Ví dụ, trong mô hình : take hostage

“hostage" rather than “take" là từ trigger Hiện tại có 253 từ trigger

Ngoài việc xác định tên người trong các câu trước, các từ này được coi là từ trigger trong phần còn lại của văn bản Điều này giúp chúng ta nhận diện ngành nghề của các nạn nhân trong những câu khác.

- Hector Oqueli and Gilda Flores were assassinated yesterday

- Gilda Flores was a member of the Democratic Socialist Party (PSD) of

Cuối cùng, trong phần này, tên đầy đủ được tìm kiếm để sau đó liên kết với họ tương ứng Điều này cho phép xác định rõ ràng mối liên hệ giữa tên và họ trong các câu văn.

Trong bài viết, "Ricardo Alfonso Castellar" không được nhắc đến vụ bắt cóc của anh ta, trong khi câu tiếp theo chỉ đề cập đến vụ việc bằng tên họ của người đàn ông này Chúng ta có thể sử dụng tên đầy đủ "Castellar" trong mẫu Mục tiêu của việc thực hiện FASTUS trên các mẫu tin là để minh họa hiệu suất của phương pháp này Trong mẫu tin, 21 trên 30 câu đã được kích hoạt, trong đó 13 trên 21 câu có liên quan, và 2 trên 9 câu không được kích hoạt nhưng vẫn thực sự có liên quan.

1.3 Noun phrase chunking(nhận diện các cụm từ)

Vấn đề của nhập nhằn cú pháp trong trí tuệ nhân tạo (AI) xuất phát từ việc thiếu hệ thống phân tích cú pháp câu tiếng Anh chính xác Điều này chỉ có thể khắc phục khi chúng ta mã hóa được tri thức từ thế giới thực mà con người diễn đạt bằng ngôn ngữ Cụ thể, việc xác định cụm danh từ không thể thực hiện một cách tin cậy do sự đính kèm của cụm giới từ, mặc dù cấu trúc cú pháp như nhóm danh từ có thể được xác định chính xác Nhóm danh từ bao gồm danh từ chính cùng với các determiners và modifiers, trong khi nhóm động từ bao gồm động từ chính cùng với trợ động từ và trạng từ Phân tích cú pháp giúp nhận diện chính xác các mẫu quan tâm, và FASTUS là một công cụ xác định nhóm danh từ, động từ, bao gồm cả giới từ, đại từ quan hệ, cùng với các từ như “ago” và “that”.

Trang 21 gộp bởi cụm lớn hơn thì bị loại bỏ Hiếm có những cụm từ trùng nhau , nhưng khi chúng xuất hiện thì được giữ lại.Việc lựa chọn các cụm từ được gộp dài nhất có thể dẫn đến việc phân tích thiếu chính xác trong một vài trường hợp liên quan đến sự nhập nhằn giữa danh từ và động từ.Các hình thức thì hiện tại của những động từ cũng giống như các danh từ tương ứng.Vì vậy một cụm danh từ có thể được xây dựng bằng cách lấy những động từ chưa được xác định và đưa lên đầu.Vấn đề nhập nhằn này được giải quyết đơn giản bằng phương pháp thiết lập độ ưu tiên thấp hơn đến bất kỳ thành phần nào có động từ ở thì hiện tại.Vì nguồn văn bản cho việc này là các bài báo về các sự kiện trong quá khứ , việc sử dụng cụm động từ ở thì hiện tại trong câu liên quan là khá hiếm

Thông tin từ vựng được sử dụng trong quá trình biên dịch đã được xây dựng thành một bảng băm, kết hợp với sự biến đổi của một số trạng thái Danh sách bảng băm này chứa các hình thức biến thể của từ, với bộ từ vựng TACICUS gồm 20.000 từ, giúp xác định thông tin từ vựng Hình thái mở rộng của các từ này dẫn đến 43.000 hình thái biến thể trong bảng băm Khi ứng dụng hệ thống chạy trên các văn bản, chỉ có việc chuyển đổi các trạng thái từ bảng băm được hiển thị Trong mẫu tin, có 243 trên 252 cụm từ (96,4%) được xác nhận là chính xác Trong số 9 lỗi, 5 lỗi liên quan đến những danh từ không xác định được là động từ hay động từ như danh từ, trong khi 4 lỗi còn lại là những lỗi phổ biến về code trong quá trình phát triển.

1.4 Recognizing Patterns(nhận dạng mô hình)

Các đầu vào của FASTUS bao gồm danh sách các cụm từ theo thứ tự xuất hiện Những thành phần không có trong cụm từ ở mệnh đề thứ hai sẽ bị loại bỏ trong phần ba Mô hình quan tâm được mã hóa, nơi việc chuyển đổi trạng thái diễn ra qua các cụm từ, với sự chuyển đổi này hướng ra khỏi các từ đầu tiên trong cụm Đây là một thiết lập chuyển đổi trạng thái kết hợp với mỗi cặp cụm từ đầu tiên có liên quan, ví dụ như “mayor-NounGroup”.

“kidnapped- PassiveVerbGroup”, “killing-NounGroup”, and “killing-

GerundVerbGroup”.Ngoài ra , một số từ không ở đầu có thể kích hoạt trạng thái chuyển đổi

Ví dụ 6: “bomb blast” được xem là một vụ đánh bom

Chúng tôi thực hiện 95 mô hình cho các ứng dụng-4 MUC Trong số các mẫu thì những người sau đây có liên quan đến mẫu tin

accused bombwasplacedby on

Khi mô hình được công nhận , sự cố của các cấu trúc được xây dựng lên

-Guerrilla sattacked Merino’s home in San Salvador 5 days ago with explosives Phù hợp với mô hình :

with Đây là nguyên nhân tạo ra sự cố trên

Các loại sự kiện là một cuộc tấn công hoặc bị đánh bom, tùy thuộcvào thiết bị này

FASTUS đề xuất một phương pháp đơn giản để sắp xếp đại từ, chỉ áp dụng khi đại từ đó đại diện cho một con người Mục tiêu đầu tiên là tìm kiếm nhóm danh từ đầu tiên trong câu, từ trái sang phải, lên đến bốn cụm từ trước đại từ Tiếp theo, các câu trước đó cũng được kiểm tra theo cách tương tự để tìm nhóm danh từ gần nhất Quá trình này tiếp tục cho đến khi tìm thấy kết quả hoặc không còn câu nào để kiểm tra Một nhóm danh từ được xem là phù hợp nếu nó có thể là mục tiêu con người và tương ứng với đại từ về số lượng Thuật toán này áp dụng cho 100% các trường hợp liên quan trong 200 thông điệp đầu tiên khi thiết lập Tuy nhiên, vẫn có những trường hợp mà ứng dụng không thành công.

The attorney general was traveling with two bodyguards when an incident occurred, resulting in one bodyguard sustaining injuries, while the driver, Garcia Alvarado, managed to escape unscathed, according to police reports.

1.5 Merging Incidents(hợp nhất các sự kiện)

Khi một sự kiện được phát hiện, nó sẽ được kết hợp với các sự cố khác trong cùng một câu Các phần còn lại của câu sẽ được sáp nhập vào cuối quá trình xử lý, nếu có thể, với sự cố được tìm thấy trong câu trước đó.

Ví dụ 9: trong câu đầu tiên của tin thông điệp 48 của TST2 , các sự cố:

HTarg: “Roberto Garcia Alvarado” killing of Attorney General Roberto Garcia Alvarado

Confid: Suspected or Accused by Authorities

-Được tạo ra từ mệnh đề:

Salvadoran President-elect Alfredo Cristiani accused the Farabundo Marti

Sáp nhập sẽ bị chặn trong trường hợp xảy ra sự cố không tương thích, chẳng hạn như vụ bắt cóc hoặc đánh bom Ngoài ra, việc sáp nhập cũng không được phép nếu có sự không tương thích về ngày hoặc địa điểm.

Mô hình trích chọn quan hệ trên Wikipedia tiếng Việt dựa vào cây phân tích cú pháp

Bài viết trình bày mô hình lựa chọn phương pháp học có giám sát để trích chọn quan hệ, dựa trên phân tích ưu nhược điểm của các phương pháp hiện có Các đặc trưng của quan hệ được khai thác từ cây phân tích cú pháp tiếng Việt và được đưa vào bộ phân lớp sử dụng thuật toán SVM Để giảm thiểu công sức trong việc xây dựng tập dữ liệu học, các đặc trưng từ dữ liệu trên Wikipedia tiếng Việt đã được áp dụng Chương này sẽ giới thiệu các đặc trưng của Wikipedia, cây phân tích cú pháp tiếng Việt, và mô hình trích chọn quan hệ đề xuất trên nền tảng Wikipedia.

Wikipedia gọi tắt là Wiki (phát âm như "Uy-ki"; từ tiếng Hawaii wikiwiki, có nghĩa

Wiki, hay còn gọi là công trình mở, là một loại ứng dụng cho phép xây dựng và quản lý các trang thông tin do nhiều người cùng phát triển, được giới thiệu vào năm 2001 bởi Jimmy Wales và Larry Sanger Wiki được xây dựng dựa trên nguyên tắc phân tán, cho phép người dùng đóng góp và chỉnh sửa nội dung một cách dễ dàng.

Mọi người có thể chỉnh sửa, cập nhật và bổ sung thông tin trên các trang tin mà không cần ghi rõ nguồn gốc của thông tin Điều này khiến nó trở thành một “Bách khoa toàn thư” lớn nhất và phổ biến nhất trên Internet hiện nay.

Wikipedia thu hút sự chú ý trong khai phá dữ liệu và xử lý ngôn ngữ tự nhiên nhờ vào khả năng biểu diễn thông tin phong phú qua các định dạng dữ liệu, liên kết giữa các thực thể và cách phân mục trang.

Trên Wiki, mỗi thực thể thường được liên kết với một trang mô tả cụ thể, tạo ra một mối liên hệ giữa thực thể và thông tin chi tiết về nó Khi một thực thể được tạo ra, tác giả sẽ thiết lập liên kết đến trang Wiki tương ứng, đồng thời tạo ra các liên kết cho mỗi thực thể xuất hiện trên trang đó Điều này giúp người dùng dễ dàng xác định và truy cập thông tin về các thực thể Ví dụ, trang "Đại học Công nghệ, Đại học Quốc gia Hà Nội" trên Wiki cung cấp các liên kết đến các thực thể liên quan.

Trường Đại học Công nghệ (University of Engineering and Technology - UET) thuộc Đại học Quốc gia Hà Nội, được thành lập theo quyết định của Thủ tướng chính phủ vào ngày 25 tháng 5 năm 2004 Đây là một mô hình đại học hiện đại, với GS TSKH Viện sỹ Nguyễn Văn Hiệu là Hiệu trưởng sáng lập.

Infobox trên Wikipedia là một bảng tóm tắt thông tin quan trọng, nằm ở góc trên bên phải của trang, thường chứa các sự kiện và thống kê liên quan đến nội dung của trang wiki Nội dung trong infobox được trình bày dưới dạng các cặp thuộc tính và giá trị, giúp người dùng dễ dàng trích xuất thông tin một cách nhanh chóng và chính xác Ví dụ, infobox của trang "Trường Đại học Khoa học Tự nhiên" minh họa rõ ràng cho cấu trúc này.

Wikipedia cung cấp các mục phân loại, cho phép các tác giả phân nhóm và tạo liên kết tới các mục tương ứng Mỗi trang có thể liên kết tới nhiều mục, và mỗi mục trên Wikipedia có một tên duy nhất Các tác giả có thể tạo ra mục mới theo khuyến cáo của Wikipedia và liên kết các trang tới mục đó Một số thuộc tính quan trọng của mục trên Wikipedia bao gồm tính duy nhất và khả năng liên kết đa dạng.

Một mục có thể bao gồm nhiều mục con và mục cha, với khả năng chứa số lượng trang đa dạng, từ rất nhiều trang đến chỉ một vài trang.

Một trang thuộc mục mở rộng thường không nằm trong các mục cha của nó; ví dụ, trang "Spain" không thuộc mục "Người châu Âu".

 Quan hệ “mục con của một mục” không phải luôn luôn là quan hệ cha con

Ví dụ10: “Bản đồ Châu Âu” là mục con của mục “Châu Âu” nhưng hai mục này không có quan hệ is-a

 Có chu trình trong đồ thị biểu diễn các mục

2.2 Cây phân tích cú pháp tiếng Việt

Trong phần này, chúng tôi sẽ giới thiệu những khái niệm và thành phần cơ bản liên quan đến cây phân tích cú pháp, đóng vai trò quan trọng trong việc biểu diễn các đặc trưng của một mối quan hệ.

Nhận đầu vào là chuỗi từ tố, kết quả của quá trình phân tích từ tố Phân tích cú pháp, hay còn gọi là phân tích cú pháp, là quá trình xác định cấu trúc ngữ pháp của chuỗi từ dựa trên một văn phạm nhất định Cấu trúc ngữ pháp thường được biểu diễn dưới dạng cây, giúp trực quan hóa sự phụ thuộc giữa các thành phần Cây này được gọi là cây phân tích cú pháp.

Hình 9: Ví dụ về cây phân tích cú pháp tiếng Việt

Trường Đại học Công nghệ được thành lập N

2.2.2 Một số thành phần cơ bản của cây phân tích cú pháp tiếng Việt

Cấu trúc của cây cú pháp như sau:

 Nút gốc thể hiện loại câu (trần thuật, nghi vấn, cảm thán, cầu khiến)

 Các nút lá biểu diễn các từ trong câu

 Nút cha của các nút lá này biểu diễn nhãn từ loại tương ứng của nútcon

Các nút trung gian trong câu đóng vai trò quan trọng trong việc thể hiện chức năng ngữ pháp như cụm danh từ, cụm động từ và bổ ngữ Ví dụ, trong câu “Trường Đại học Công nghệ được thành lập ngày 25 tháng 5 năm 2004,” việc phân tích cú pháp cho thấy cấu trúc cây phân tích với 14 nhãn từ loại, 5 nhãn cụm từ và 4 loại nhãn câu, được mô tả chi tiết trong phụ lục.

Bài toán trích chọn quan hệ đã được Roxana Girju [10] phát biểu như ở chương 1, trong trường hợp này có thể được viết lại như sau: Đầu vào:

 Tập dữ liệu D: tập các trang web trên Wikipedia tiếng Việt

 Tập thực thể E = {𝑒 𝑖 } , i = 1, 𝑛̅̅̅̅̅ xuất hiện trong D

 Tập các loại quan hệ R = {Rj} , j = 1, 𝑚̅̅̅̅̅̅; Đầu ra:

 Tất cả các bộ quan hệ ( 𝑒 𝑖1 , 𝑅 𝑗 , 𝑒 𝑖2 ) 1 ≤ i ≤ n , 1 ≤ j ≤ m

2.4 Xây dựng tập dữ liệu học

Một trong những nhược điểm của phương pháp học có giám sát là chi phí cho việc

Trang 29 xây dựng tập dữ liệu là rất tốn kém Dựa vào các đặc trưng của Wikipedia , khóa luận đã đưa ra mô hình xây dựng tập dữ liệu học bán tự động, giảm thiểu được nhiều chi phí xây dựng Mô hình này được mô tả như trong hình 10:

Hình 10: Quá trình xây dựng tập dữ liệu học

2.4.1 Trích chọn thông tin trên Infox:

Thông tin trên infobox là một biểu diễn có cấu trúc, cho phép trích xuất tự động các thể hiện của một quan hệ Mỗi cặp trong infobox tạo ra một bộ ba quan hệ với thực thể trang wiki, có dạng: .

và các cặp thực thể cùng nằm trong quan hệ Ví dụ, trong trường hợp hình 12, ta sẽ trích được bộ ba quan hệ, loại quan hệ, cặp thực thể tương ứng là:

Mục tiêu của xử lý này là tìm ra các câu chứa cả ba thành phần của quan hệ Do infobox là bảng thông tin tóm tắt về nội dung của trang nên sẽ gần như luôn tìm câu mà thể hiện quan hệ

Trường Đại học Khoa học Tự nhiên, Đại học

Tên gọi khác Trường Đại học Đông Dương

Trường Đại học Khoa học Trường Đại học Tổng hợp Hà Nội

Loại hình Trường Đại học công lập

Hiệu trưởng PGS., TS Bùi Duy Cam

Hiệu phó Nguyễn Hữu Dư

Nguyễn Hoàng Lương Nguyễn Văn Nội

Học sinh trên 10.000 sinh viên [1] Địa chỉ 334 Nguyễn Trãi, Thanh

Xuân, Hà Nội, Việt Nam Điện thoại (84) 043-8584615/

Website http://www.hus.edu.vn

Trường Đại học Khoa học

Tự nhiên, Đại học Quốc gia Hà Nội

Tên gọi khác

Trường Đại học Đông Dương

Trường Đại học Khoa học

Trường Đại học Tổng hợp Hà Nội

Năm thành lập

Infobox Mã html tương ứng

Trường Đại học công lập

Hình 11: Cấu trúc biểu diễn của thông tin của infobox

Mô hình bài toán

Rút trích thông tin từ văn bản(dựa vào kết quả phân tích cú pháp)

1.1 Lấy ra các NNP từ văn bản

Ví dụ: “Peter Miller, who organized the conference in New York, does not want to come to Paris.”

Lấy ra các NNP (Peter Miller, NewYork, Paris)

1.2 Lấy nội dung từ các cặp thực thể Ở đây chúng ta sẽ lấy được 2 cặp

Lấy nội dung chứa giữa các cặp

Peter Miller, who organized the conference in New York, does not want to come to Paris

PoS tagging Peter Miller, who organized the conference in New York, does not want to come to Paris

NNP NNP , WP VBD DT NN IN NNP NNP, VBZ RB VB TO VB TO NNP

- Peter Miller - the conference in New York - organized

- Peter Miller – Paris - does not want to come to

Lọc các nội dung lấy được để từ đó xác định mối quan hệ giữa các cặp thực thể

Where the conference in New York

1.3 Xây dựng khung mẫu để rút trích:

Dựa vào cách phân tích câu để xây dựng tập mẫu

Ví dụ 10: subject=company verb=hired object=person

Tập mẫu: company hired person person was hired by company company, which hired person person, who was hired by company person, hired by company

Ví dụ 11: “Vo Nguyen Giap(Human name) returned(Action) to Vietnam(Location name) in 1944(Time)”

Template 1: Person + Action + Location + Time

“In September 1945(Time), Ho Chi Minh(Human name) announced(Action) the formation of the Democratic Republic of Vietnam(Organization name).”

Template 2: Time + Person + Action + Organization

“In December 1953, Navarre set up a defensive complex at Dien Bien Phu”

Template 3: Time + Person + Action + (Object) + Location

“In 1939 Vo Nguyen Giap married Nguyen Thi Quang Thai.”

Template 4: Time + Person + Event + Person

Person Nguyen Thi Quang Thai

Xác định mối liên hệ giữa các từ nhằm làm rõ thông tin được rút trích

Sử dụng Wordnet nhằm làm rõ các mối quan hệ

Hình 17 Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ

Ví dụ: Từ “car” trong WordNet có thể tìm được mối liên hệ với các từ như:

Vehicle, Owner, Wheels, high,… thông qua các mối quan hệ như: is-a, has part, hasOwner, hasSpeed,… (như hình)

Wordnet là một cơ sở dữ liệu từ vựng phong phú trong tiếng Anh, bao gồm các từ và mối quan hệ ngữ nghĩa giữa chúng Các mối quan hệ chính giữa danh từ như hypernymy/hyponymy (is-a), meronymy/holonymy (a-part), synonymy và antonymy được thể hiện rõ ràng Bên cạnh đó, các động từ cũng có các mối quan hệ ngữ nghĩa như cause-to và entail Hơn nữa, attribute thể hiện mối quan hệ giữa tính từ và danh từ, làm phong phú thêm cấu trúc ngữ nghĩa của ngôn ngữ.

Ví dụ về trích rút mối quan hệ ngữ nghĩa hight

Is-a hasOwne r hasColor hasPart hasSpee d hasPart

[Saturday’s snowfall]TEMP topped [a record in Hartford, Connecticut]LOC with

[the total of 12/5 inches]MEASURE, [the weather service]TOPIC said The storm claimed its fatality Thursday when [a car driven by a [college student]PART-

WHOLE]THEME skidded on [an interstate overpass]LOC in [the mountains of

Virginia]LOC/PART-WHOLE and hit [aconcrete barrier]PART-WHOLE, police said

Các mối quan hệ được trích rút như sau:

THEME (car, driven by a college student)

LOC (interstate, overpass) LOC (mountains, Virginia) PART-WHOLE/LOC (mountains, Virginia) PART-WHOLE (concrete, barrier)

Tóm tắt quá trình rút trích ngữ nghĩa:

1.2 Loại bỏ các từ không cần thiết

1.4 Tìm kiếm các mối quan hệ

Various logical views of document

Document with initial logical structure

Hình 17 Các giai đoạn của hệ thống rút trích thông tin

Mô hình ngữ liệu

 Bộ ngữ liệu về văn bản đươc lấy từ trang thanhniennews.com

Công cụ “Ner” tại http://cogcomp.cs.illinois.edu được sử dụng để xác định các thực thể trong mỗi văn bản, từ đó tạo ra một bộ ngữ liệu danh sách các thực thể.

 Chia các thực thể tìm được thành 3 dạng chính :

 Location(vị trí địa lý)

- Lên wikipedia.org lấy thông tin về các thực thể đã có tạo thành một bộ ngữ liệu (các file thông tin lưu ở dạng nguyên gốc HTML)

- Các file Html sẽ được xử lý dể lấy ra những thông tin cần thiết, loại bỏ các thông tin thừa

- Ví dụ: thông tin được lấy từ Wiki (đã được xử lý)

Thông tin thực thể dạng

Thông tiin của chủ tịch Hồ Chí Minh trên wikipedia

Thẻ table chứa thông tin của Charles Holden – kiến trúc sư

Charles Henry Holden

Charles Holden, a notable figure in architecture, is depicted in a portrait by Benjamin Nelson The image showcases Holden's contribution to the field, emphasizing his importance in architectural history This visual representation is accessible through Wikimedia, highlighting the significance of preserving cultural and historical figures in art and architecture.

Portrait of Charles Holden by Benjamin

Born

12 May 1875(1875-05-12)

Great Lever, Bolton, Lancashire, England

 Văn bản được đưa vào ở dạng text

 Sử dụng công cụ Stanford Parser để xác định các cụm danh từ, sau đó so sánh với bộ từ điển lấy và phân loại các thực thể

 Lấy thông tin của thực thể đó trong dữ liệu

Hình 18 Mô của chương trình rút trích thông tin từ văn bản lịch sử.

Cài đặt thực nghiệm

Mô tả chương trình

Chương trình này được thiết kế để rút trích thông tin về các thực thể trong văn bản lịch sử, đồng thời tìm kiếm thông tin liên quan đến các địa danh và nhân vật lịch sử Bộ ngữ liệu được xây dựng dựa trên các thông tin lấy từ Wikipedia, giúp cung cấp dữ liệu chính xác và đáng tin cậy.

Chuẩn bị

a Công cụ dùng để cài đặt : i Ngôn ngữ C# - Net framework 3.5

Trang 52 ii Bộ thư viện Agilityhtml – dùng để xử lý nội dung HTML iii Thư viên sharpNLP – dùng để phân tích cú pháp b HĐH Windows c Xây dựng bộ ngữ liệu.

Hoạt động của chương trình

Văn bản đầu vào sẽ được xử lý qua các giai đoạn:

- Xác dịnh tên các thực thể

- Phân loại thực thể (per, loc, org)

- Phân tích cú pháp đoạn văn

- Lấy ra các sự kiện

- Giải quyết đồng tham chiếu

- Tìm kiếm thông tin về các thực thể trong bộ ngữ liệu

Hoạt động của chương trình:

Sau khi xác định và phân loại các thực thể, chương trình sẽ tô màu cho chúng Người dùng có thể nhấp vào các thực thể (như người) để truy xuất thông tin chi tiết về từng thực thể trong đoạn văn.

- Thông tin rút trích được xuất ra theo mẫu o Time o Object (person) o Event o Location o Subject (person)

Hình 19 Thông tin của thực thể “Nguyen Sinh Cung” được rút trích

Khi click vào một thực thể, thông tin của thực thể đó sẽ hiện ra tại vị trí chuột

Thanh status cho ta biết trạng thái dữ liệu (dữ liệu đã được load hay chưa)

Nếu dữ liệu đã được load (Information loaded), sẽ xuất thông tin ra bằng một tại vị trí thực thể được chọn

Nếu không tìm được thông tin của thực thể trong ngữ liệu, chương trình sẽ tự động dò tìm trên trang web http://wikipedia.org

Hình 20 Thông tin của “Nguyen Sinh Cung” được lấy từ bộ ngữ liệu

Kết quả đạt được và hướng phát triển

Kết quả đạt được

Chúng tôi đã xây dựng một cơ sở dữ liệu phong phú với hơn 30.000 thực thể liên quan đến các vị trí địa lý, hơn 100.000 thực thể về con người và trên 100.000 thực thể về các tổ chức và công ty.

 Khả năng xác định chính xác các thực thể của chương trình khoảng 60% đối với văn bản tiếng anh

 Nắm rõ được quá trình rút trích thông tin của một vài hệ thống cơ bản

 Xây dựng được ứng dụng rút trích thông tin về văn bản lịch sử (Rút trích được khoảng 50 % các sự kiện).

Khó khăn và hạn chế

 Phụ thuộc vào công cụ phân tích cú pháp online Stanford Parser

 Trong dữ liệu còn chứa một số thông tin không chính xác

 Tốc độ xử lý của chương trình còn chậm (do việc phân tích cú pháp với các văn bản phức tạp)

 Một số thông tin về thực thể(wiki) chưa được chính xác

 Xây dựng các bộ mẫu để rút trích sự kiện chưa nhiều.

Kế hoạch sắp đến để hoàn thiện đề tài

 Cố gắng tăng độ chính xác của chương trình lên khoảng 70%

 Xây dựng dữ liệu về các thực thể (tiếng Việt)

 Xây dựng hoàn chỉnh một hệ thống rút trích thông tin

 Hoàn thiện các bộ mẫu phục vụ cho việc rút trích

 Lọc những thông tin cần thiết trong phần truy hồi thông tin.

Ngày đăng: 29/12/2023, 06:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w