1. Trang chủ
  2. » Luận Văn - Báo Cáo

Rút trích thông tin từ kết quả phân tích cú pháp

56 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Phân tích cú pháp thường là bước đầu tiên trong quá trình xử lý ngôn ngữ tự nhiên, nó cung cấp một nền tảng vững chắc cho việc xử lý văn bản thông minh như các hệ thống hỏi đáp, khai phá văn bản và dịch máy. Việc phân tích cú pháp câu có thể chia làm hai mức chính. Mức thứ nhất là tách từ và xác định thông tin từ loại. Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại do bước trước cung cấp.

Báo cáo Đề tài: Rút trích thơng tin từ kết phân tích cú pháp 6/2011 Rút trích thơng tin từ kết phân tích cú pháp 2011 Mục lục Chương I - Giới thiệu Rút trích thơng tin gì? Đặt vấn đề - toán: Chương II - Cơ sở lý thuyết: Phân tích cú pháp: Các loại phân tích cú pháp 2.1 Full Parsing 2.2 Semantic Parsing 2.3 Shallow Parsing: Rút trích thơng tin 10 3.1 Ví dụ rút trích thơng tin 10 3.2 Một số hệ thống rút trích thơng tin khác: 12 3.3 Kĩ thuật rút trích thơng tin bản: 12 3.3.1 Tổng quát 12 3.3.2 Xây dựng cấu trúc mơ hình 13 3.3.3 Phân tích từ vựng 14 3.3.4 Name Recognition (Nhập nhằn tên thực thể) 15 3.3.5 Cấu trúc cú pháp 15 3.3.6 Scenario Pattern Matching (đồng tham chiếu) 16 3.3.7 Coreference Analysis (Đồng tham chiếu) 16 3.3.8 Suy luận gộp kiện 17 Chương III - Một số mơ hình rút trích thơng tin 18 Mơ hình FASTUS 19 1.1 Giới thiệu : 19 1.2 Triggering : 19 1.3 Noun phrase chunking(nhận diện cụm từ) 20 Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 1.4 Recognizing Patterns(nhận dạng mơ hình) 21 1.5 Merging Incidents(hợp kiện) 23 Mơ hình trích chọn quan hệ Wikipedia tiếng Việt dựa vào phân tích cú pháp 24 Đặc trưng Wikipedia 25 2.1 2.1.1 Thực thể Wikipedia 25 2.1.2 Infobox 26 2.1.3 Mục phân loại 26 Cây phân tích cú pháp tiếng Việt 27 2.2 2.2.1 Phân tích cú pháp 27 2.2.2 Một số thành phần phân tích cú pháp tiếng Việt 28 2.3 Phát biểu toán 28 2.4 Xây dựng tập liệu học 28 2.4.1 Trích chọn thơng tin Infox: 29 2.4.2 Tìm kiếm Wikipedia 30 2.4.3 Mơ hình hệ thống trích chọn quan hệ: 31 2.5 Mơ hình trích rút mẫu quan hệ ngữ nghĩa 36 2.6 Mơ hình hệ thống hỏi đáp tiếng Việt 40 Chương IV - Mơ hình tốn: 43 Rút trích thơng tin từ văn bản(dựa vào kết phân tích cú pháp): 43 1.1 Lấy NNP từ văn 43 1.2 Lấy nội dung từ cặp thực thể 43 1.3 Xây dựng khung mẫu để rút trích: 44 Mơ hình ngữ liệu: 48 Chương V - Cài đặt thực nghiệm: 51 Mơ tả chương trình: 51 Chuẩn bị: 51 Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 Hoạt động chương trình: 52 Chương VI - Kết đạt hướng phát triển: 54 Kết đạt được: 54 Khó khăn hạn chế: 55 Kế hoạch đến để hoàn thiện đề tài: 55 Chương VII - Phụ lục: 55 Chương VIII - Tài liệu tham khảo: 56 Thuật ngữ viết tắt Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 IE IR NLP NER Per Loc Org Information Extract Information Retrieval Natural Language Processing Named entity recognition Person Loction Organization Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 Chương I - Giới thiệu Rút trích thơng tin gì? Một số ứng dụng xử lý ngôn ngữ tự nhiên (Natural Language Processing):  Truy hồi thơng tin (IR) : o tìm kiếm, lấy tài liệu để đáp ứng yêu cầu thông tin  Rút trích thơng tin (IE) : o Lấy thông tin văn theo khuôn mẫu, yêu cầu,  Passage Retrieval: o lấy phần tài liệu để đáp ứng yêu cầu thơng tin  Hiểu văn  Trả lời tự động Rút trích thơng tin q trình lấy thơng tin từ nhiều văn mà kết thu tùy theo yêu cầu cần rút trích:  Tạo ngữ liệu  Tìm kiếm thông tin thực thể  Trả lời câu hỏi  … Đặt vấn đề - toán: Việc rút kiện, danh nhân, địa danh văn lịch sử vấn đề cần thiết nhằm làm giảm thời gian người đọc giải số vấn đề trả lời câu hỏi, tóm tắt nội dung, Ngồi việc tìm thông tin thực thể văn vấn đề quan trọng nhằm tiết thời gian để tìm kiếm thơng tin (web, sách báo,…) Và đa số người hay sử dụng máy tìm kiếm thơng tin web để làm cơng việc (Google, Bing, Yahoo,…) Luận văn thực để giải quyết vấn đề trên: Trang Rút trích thơng tin từ kết phân tích cú pháp 2011  Xây dựng hệ thống rút trích thơng tin rút kiện văn lịch sử  Xây dựng liệu tổ chức, địa danh, người Chương II - Cơ sở lý thuyết: Phân tích cú pháp: Phân tích cú pháp công cụ xử lý ngôn ngữ tự nhiên, hầu hết ứng dụng xử lý ngôn ngữ tự nhiên sử dụng phân tích cú pháp giai đoạn đó(Ví dụ: Trong hệ thống dịch máy, giai đoạn phân tích câu nguồn, phát sinh câu đích) Phân tích cú pháp thường bước q trình xử lý ngơn ngữ tự nhiên, cung cấp tảng vững cho việc xử lý văn thông minh hệ thống hỏi đáp, khai phá văn dịch máy Việc phân tích cú pháp câu chia làm hai mức Mức thứ tách từ xác định thông tin từ loại Mức thứ hai sinh cấu trúc cú pháp cho câu dựa từ từ loại bước trước cung cấp Ví dụ 1: phân tích cú pháp câu “My dog also likes eating sausage” Tagging: My/PRP$ dog/NN also/RB likes/VBZ eating/VBG sausage/NN / Parser (ROOT (S (NP (PRP$ My) (NN dog)) (ADVP (RB also)) (VP (VBZ likes) (S (VP (VBG eating) (NP (NN sausage))))) ( .))) Sau phân tích cú pháp từ gắn nhãn loại giúp ích nhiều cho việc rút trích thông tin (Ví dụ: lấy thực thể “My dog” nhờ việc gắn nhãn cụm My dog NP mà dễ dàng trích xuất được) Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 Các loại phân tích cú pháp - - Full/Deep Parsing  Parsing with different Grammar Formalisms o Context-Free Parsing (phân tích theo ngữ cảnh) o Dependency Parsing Semantic Parsing (phân tích ngữ nghĩa) Shallow Parsing (phân tích cạn) 2.1 Full Parsing  Parsing with different Grammar Formalisms o Context-Free Parsing (phân tích theo ngữ cảnh tự do) Raamu ate an apple S NP Noun VP NP Verb Det Raamu ate an ate ( raamu , apple ) Noun Production rules S -> NP VP NP -> Noun NP -> Det Noun VP-> Verb NP Noun -> Raamu | apple Verb -> ate Det -> an Apple Hình Context-Free Parsing o Dependency Parsing Dependency Tree Example JJ NNS IN DT NNS VBD VBG NNS Red figures on the screens indicated falling stocks Hình Dependency Parsing Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 2.2 Semantic Parsing Dependency Tree Example JJ NNS IN DT NNS VBD VBG NNS Red figures on the screens indicated falling stocks Hình Semantic Parsing 2.3 Shallow Parsing: Sentence POS Tagging Morpho-syntactic Class of words Word that can be group Chunking as chunks (NP,VP,…) Relation they have Relation finding with the main words (subj,obj, loc,…) I am boy [NP-SUBJ I /PRP] [VP am /VB] [NP-OBJ a/DT boy/NN] Hình Shallow Parsing Trang Rút trích thơng tin từ kết phân tích cú pháp 2011 Phân tích câu “The wiman will give Mary a book” [The/ Det woman/NN] np-PERSON [will/MD give/VB] vp [Mary/NNP] npPERSON [a/Det book/NN] np-MATERIAL – OBJECT Shallow parsing: tìm kiếm quan hệ.(1) [The woman] [will] [give Marry] [a book] Person Person Material - object Hình Phân tích câu “The wiman will give Mary a book” Áp dụng parser :  IR: sufficient to find NPs and Vps  IE, Tóm tắt thơng tin Rút trích thơng tin 3.1 Ví dụ rút trích thơng tin FASTUS (1993) Bridgestone Sport Co said Friday it had set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be supplied to Japan The joint venture , Bridgestone Sport Taiwan Co , capitalized at 20 million new Taiwan dollars, with start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month Trang 10 Rút trích thơng tin từ kết phân tích cú pháp 2011 Tập mối quan hệ + tập seed Câu hỏi Tiền xử Phân tích Matching mẫu/Trích lý câu hỏi rút câu trã lời Câu trả lời Hình 16 Mơ hình xử lý cho pha phân tích câu hỏi trích xuất câu trả lời Bước 1: Tiền xử lý câu hỏi: - Tiến hành tách từ cho câu hỏi - Loại bỏ từ dừng Bước 2: Phân tích câu hỏi - Dựa vào tập thực thể mở rộng, nhận dạng thực thể có chứa câu hỏi - Xác định nhãn thực thể: Bằng cách so khớp thực thể nhận dạng với thực thể có chứa tập seed - Xác định mẫu quan hệ: Sau xác định thực thể nhãn, xác định mối quan hệ có liên quan tới thực thể tập mẫu tương ứng với mối quan hệ - Vector hoá câu hỏi cách biểu diễn từ câu hỏi dạng vector từ Trang 42 Rút trích thơng tin từ kết phân tích cú pháp 2011 Bước 3: So khớp mẫu - Tính độ tương đồng vector câu hỏi với tập mẫu tương ứng mối quan hệ theo độ đo cosine - Chọn mẫu có độ tương đồng cao Dựa vào đó, ta xác định mối quan hệ mà câu hỏi đề cập tới Bước 4: Trích xuất câu trả lời -Sau xác định mối quan hệ hướng tới mẫu quan hệ tương ứng kết hợp với thực thể ban đầu có câu hỏi xác định Tiến hành trích xuất câu trả lời thành phần lại seed Chương IV - Mơ hình tốn: Rút trích thơng tin từ văn bản(dựa vào kết phân tích cú pháp): 1.1 Lấy NNP từ văn Ví dụ: “Peter Miller, who organized the conference in New York, does not want to come to Paris.” Peter Miller, who organized the conference in New York, does not want to come to Paris PoS tagging Peter Miller, who organized the conference in New York, does not want to come to Paris NNP NNP , WP VBD DT NN IN NNP NNP, VBZ RB VB TO VB TO NNP Lấy NNP (Peter Miller, NewYork, Paris) 1.2 Lấy nội dung từ cặp thực thể Ở lấy cặp - Peter Miller - New York - Peter Miller - Paris Lấy nội dung chứa cặp Trang 43 Rút trích thơng tin từ kết phân tích cú pháp 2011 - Peter Miller - the conference in New York - organized - Peter Miller – Paris - does not want to come to Lọc nội dung lấy để từ xác định mối quan hệ cặp thực thể Who Peter Miller What organized Where the conference in New York 1.3 Xây dựng khung mẫu để rút trích: Dựa vào cách phân tích câu để xây dựng tập mẫu Ví dụ 10: subject=company verb=hired object=person Tập mẫu: company hired person person was hired by company company, which hired person person, who was hired by company person, hired by company Ví dụ 11: “Vo Nguyen Giap(Human name) returned(Action) to Vietnam(Location name) in 1944(Time)” Template 1: Person + Action + Location + Time Person Vo Nguyen Giap Action returned Location Vietnam Time 1944 Trang 44 Rút trích thơng tin từ kết phân tích cú pháp 2011 “In September 1945(Time), Ho Chi Minh(Human name) announced(Action) the formation of the Democratic Republic of Vietnam(Organization name).” Template 2: Time + Person + Action + Organization Time Vo Nguyen Giap Person Ho Chi Minh Action announced Organization In September 1945 “In December 1953, Navarre set up a defensive complex at Dien Bien Phu” Template 3: Time + Person + Action + (Object) + Location Time In December 1953 Person Navarre Action set up (Object) a defensive complex Person Dien Bien Phu “In 1939 Vo Nguyen Giap married Nguyen Thi Quang Thai.” Template 4: Time + Person + Event + Person Time In 1939 Person Vo Nguyen Giap Event Married Person Nguyen Thi Quang Thai Trang 45 Rút trích thơng tin từ kết phân tích cú pháp 2011 Xác định mối liên hệ từ nhằm làm rõ thông tin rút trích Sử dụng Wordnet nhằm làm rõ mối quan hệ Vehicle Is-a Wheels hasPart Car r hasColor hasSpee hight d Owner hasOwne hasPart red Engine Hình 17 Mối liên hệ từ “car” với từ khác thông qua mối quan hệ Ví dụ: Từ “car” WordNet tìm mối liên hệ với từ như: Vehicle, Owner, Wheels, high,… thông qua mối quan hệ như: is-a, has part, hasOwner, hasSpeed,… (như hình) Wordnet bao gồm từ quan hệ phổ biến tiếng Anh Ngoài mối quan hệ danh từ hypernymy/hyponymy(is-a), meronymy/holonymy (a-part), synonymy, antonymy Mối quan hệ ngữ nghĩa cịn có động từ, thể qua mối quan hệ cause-to, entail Ngoài ra, attribute thể mối quan hệ ngữ nghĩa tính từ danh từ Ví dụ trích rút mối quan hệ ngữ nghĩa Trang 46 Rút trích thơng tin từ kết phân tích cú pháp 2011 [Saturday’s snowfall]TEMP topped [a record in Hartford, Connecticut]LOC with [the total of 12/5 inches]MEASURE, [the weather service]TOPIC said The storm claimed its fatality Thursday when [a car driven by a [college student]PARTWHOLE]THEME skidded on [an interstate overpass]LOC in [the mountains of Virginia]LOC/PART-WHOLE and hit [aconcrete barrier]PART-WHOLE, police said Các mối quan hệ trích rút sau: TEMP (Saturday, snowfall) LOC (Hartford Connecticut, record) MEASURE(total, 12.5 inches) LOC (interstate, overpass) LOC (mountains, Virginia) PART-WHOLE/LOC (mountains, Virginia) PART-WHOLE (concrete, barrier) TOPIC (weather, service) PART-WHOLE (student, college) THEME (car, driven by a college student) Tóm tắt q trình rút trích ngữ nghĩa: 1.1 Gắn thẻ loại từ 1.2 Loại bỏ từ khơng cần thiết 1.3 Tìm PNP 1.4 Tìm kiếm mối quan hệ Document Various Facts, with initial logical views information, logical of document knowledge structure Retrieve Parse Extraction document document infomation User Source enviroment Trang 47 Rút trích thơng tin từ kết phân tích cú pháp 2011 Hình 17 Các giai đoạn hệ thống rút trích thơng tin Mơ hình ngữ liệu:  Bộ ngữ liệu văn đươc lấy từ trang thanhniennews.com  Cứ văn lấy sử dụng công cụ “Ner” http://cogcomp.cs.illinois.edu để xác định thực thể tạo thành ngữ liệu danh sách thực thể  Chia thực thể tìm thành dạng :  Person(Con ngươi)  Organization(Tổ chức)  Location(vị trí địa lý) - Lên wikipedia.org lấy thơng tin thực thể có tạo thành ngữ liệu (các file thông tin lưu dạng nguyên gốc HTML) - Các file Html xử lý dể lấy thông tin cần thiết, loại bỏ thơng tin thừa - Ví dụ: thơng tin lấy từ Wiki (đã xử lý) Thông tin thực thể dạng Organization Trang 48 Rút trích thơng tin từ kết phân tích cú pháp 2011 Thơng tiin chủ tịch Hồ Chí Minh wikipedia Trang 49 Rút trích thơng tin từ kết phân tích cú pháp 2011 Charles Henry HoldenPortrait of Charles Holden by Benjamin Nelson, 1910 Born 12 May 1875(1875-05-12) Great Lever, Bolton, Lancashire, England ………… Thẻ table chứa thông tin Charles Holden – kiến trúc sư Mơ hình chương trình: Trang 50 Rút trích thơng tin từ kết phân tích cú pháp 2011  Văn đưa vào dạng text  Sử dụng công cụ Stanford Parser để xác định cụm danh từ, sau so sánh với từ điển lấy phân loại thực thể  Lấy thơng tin thực thể liệu Input IE TEXT ENTITIES S IR Database Query Dictionary INFORMATION OF ENTITIES Output Hình 18 Mơ chương trình rút trích thông tin từ văn lịch sử Chương V - Cài đặt thực nghiệm: Mơ tả chương trình: Chương trình sử dụng để rút trích thơng tin thực thể văn lịch sử Đồng thời tìm kiếm thơng tin địa danh, nhân vật lịch sử từ ngữ liệu xây dựng dựa thông tin lấy từ wiki Chuẩn bị: a Công cụ dùng để cài đặt : i Ngôn ngữ C# - Net framework 3.5 Trang 51 Rút trích thơng tin từ kết phân tích cú pháp 2011 ii Bộ thư viện Agilityhtml – dùng để xử lý nội dung HTML iii Thư viên sharpNLP – dùng để phân tích cú pháp b HĐH Windows c Xây dựng ngữ liệu Hoạt động chương trình: Văn đầu vào xử lý qua giai đoạn: - Xác dịnh tên thực thể - Phân loại thực thể (per, loc, org) - Phân tích cú pháp đoạn văn - Lấy kiện - Giải đồng tham chiếu - Tìm kiếm thơng tin thực thể ngữ liệu Hoạt động chương trình: - Sau xác định thực thể phân loại, chương trình tô màu thực thể, click vào thực thể (person) để lấy thơng tin thực thể đoạn văn - Thơng tin rút trích xuất theo mẫu o Time o Object (person) o Event o Location o Subject (person) Trang 52 Rút trích thơng tin từ kết phân tích cú pháp 2011 Hình 19 Thông tin thực thể “Nguyen Sinh Cung” rút trích Khi click vào thực thể, thơng tin thực thể vị trí chuột Thanh status cho ta biết trạng thái liệu (dữ liệu load hay chưa) Nếu liệu load (Information loaded), xuất thông tin vị trí thực thể chọn Nếu khơng tìm thơng tin thực thể ngữ liệu, chương trình tự động dị tìm trang web http://wikipedia.org Trang 53 Rút trích thơng tin từ kết phân tích cú pháp 2011 Hình 20 Thơng tin “Nguyen Sinh Cung” lấy từ ngữ liệu Chương VI - Kết đạt hướng phát triển: Kết đạt được:  Xây dựng liệu : o 30000 thực thể vị trí địa lý(location) o Trên100000 thực thể người(person) o Trên 100000 thực thể tổ chức, công ty,…( organization)  Khả xác định xác thực thể chương trình khoảng 60% văn tiếng anh Trang 54 Rút trích thơng tin từ kết phân tích cú pháp 2011  Nắm rõ q trình rút trích thơng tin vài hệ thống  Xây dựng ứng dụng rút trích thơng tin văn lịch sử (Rút trích khoảng 50 % kiện) Khó khăn hạn chế:  Phụ thuộc vào công cụ phân tích cú pháp online Stanford Parser  Trong liệu cịn chứa số thơng tin khơng xác  Tốc độ xử lý chương trình cịn chậm (do việc phân tích cú pháp với văn phức tạp)  Một số thông tin thực thể(wiki) chưa xác  Xây dựng mẫu để rút trích kiện chưa nhiều Kế hoạch đến để hoàn thiện đề tài:  Cố gắng tăng độ xác chương trình lên khoảng 70%  Xây dựng liệu thực thể (tiếng Việt)  Xây dựng hoàn chỉnh hệ thống rút trích thơng tin  Hồn thiện mẫu phục vụ cho việc rút trích  Lọc thơng tin cần thiết phần truy hồi thông tin Chương VII - Phụ lục: Từ điển Wordnet: Mối quan hệ Hypernymy (is-a) Hyponymy (reverse is-a) Is-part-of Has-part Is-member-of Has-member Is-suff-of Entail Atribute Các khái niệm liên kết với mối quan hệ Danh từ - Danh từ Động từ - Động từ Danh từ - Danh từ Động từ - Động từ Danh từ - Danh từ Danh từ - Danh từ Danh từ - Danh từ Danh từ -Danh từ Danh từ - Danh từ Động từ - Động từ Tính từ - Danh từ Ví dụ Cat is-a feline Manufacture is-a make Feline reverse is Leg is-part-of table Table has-part leg UK is-member-of NATO NATO has-member UK Carbon is-stuff-of coal To snore entail to sleep Hot atribute temperature Trang 55 Rút trích thơng tin từ kết phân tích cú pháp 2011 Similarity Cause-to Tính từ - Tính từ Động từ - Động từ Abridge smilarity shorten To develop cause-to to growth Chương VIII - Tài liệu tham khảo: 1) Junichi Tsujii, Information Extraction from Scientific Texts 2) Jim Cowie and Yorick Wilks (1996), Information Extraction 3) Ralph Grishman (1997) , Information Extraction Techniques and Challenges 4) Jerry R Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1993) , FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text 5) Miriam Käshammer(2010), Relation extraction from Wikipedia text 6) Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Michele Banko , Michael J Cafarella , Stephen Soderl , Matt Broadhead , Oren Etzioni (2007), Open Information Extraction from the Web 7) J Pustejovsky and P Anick (1988), On the semantic interpretation of nominals Trang 56

Ngày đăng: 29/12/2023, 06:16

Xem thêm:

w