1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phân tích cú pháp bằng phương pháp xác xuất và ứng dụng cho phân tích cú pháp các câu đơn giản của tiếng anh

109 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 109
Dung lượng 783,32 KB

Nội dung

Lời cám ơn -o0o - Tôi xin gửi lời cám ơn chân thành đến cô PGS.TS Phan Thị Tươi, tận tình hướng dẫn, bảo, giúp đỡ động viên tơi hồn thành luận văn Tôi xin chân thành cám ơn tất thầy phịng Sau đại học trường đại học Bách Khoa giúp đỡ, dạy dỗ nhiệt tình thời gian theo học nghiên cứu trường Và xin gửi lời cám ơn đến thầy Dương Tuấn Anh tận tình dẫn cách nghiên cứu trình bày luận văn Cám ơn anh Nguyễn Chí Hiếu, anh Nguyễn Anh Tuấn truyền đạt kinh nghiệm để tơi học hỏi hồn thành luận văn Xin chân thành cám ơn lãnh đạo Văn phòng HĐND UBND tỉnh Khánh Hoà đồng nghiệp tạo điều kiện thuận lợi để theo học nghiên cứu trường Cuối cùng, xin bày tỏ lịng biết ơn gia đình, bạn bè người thân ln động viên, khuyến khích giúp tơi hồnthành nhiệm vụ học tập Ngồi ra, luận văn hoàn thành nhờ nguồn liệu chủ yếu lấy từ Penn Treebank Trong thời gian có hạn, luận văn hồn thành chắn khơng tránh khỏi sai sót, mong dẫn góp ý thêm q thầy bạn Nguyễn Thị Thanh Tâm Tóm tắt -o0o Phân tích cú pháp vấn đề sở đóng vai trị quan trọng tiến trình xử lý ngôn ngữ tự nhiên Hầu hết ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, rút trích thơng tin, nhận dạng văn bản, bắt lỗi tả,… đạt chất lượng cao có hệ thống phân tích cú pháp có độ xác cao Một khó khăn q trình xử lý ngơn ngữ tự nhiên phân tích cú pháp thể “nhập nhằng” (ambiguation) Sự nhập nhằng phân tích cú pháp thường dẫn đến có nhiều phân tích phù hợp với câu đầu vào Trước đây, việc phân tích cú pháp thường xây dựng dựa tập văn phạm tạo tay phạm vi thông tin nhỏ, điều địi hỏi nhiều cơng sức thiếu xác, vấn đề nhập nhằng chưa giải thoả đáng Đề tài vận dụng mơ hình xác suất để giải nhập nhằng phân tích cú pháp với liệu thống kê tập văn phạm rút trích trực tiếp từ Penn treebank (tập phân tích cú pháp mẫu tiếng Anh làm tay nhà ngôn ngữ học) nhằm tìm phân tích cú pháp phù hợp với câu đầu vào Sự biểu diễn treebank có ảnh hưởng đáng kể đến hiệu suất q trình phân tích cú pháp dựa PCFG ước lượng từ treebank Vì vậy, trình xây dựng tập văn phạm, tác giả nghiên cứu cách chuyển đổi “flat trees” treebank sang dạng có gắn thêm vào nút thông tin nút cha (parent anotation trees) Kết đạt cải tiến giá trị trung bình thơng số kiểm định Precision từ 78% lên 85.25% Recall từ 73% lên 84.40% so với việc biểu diễn dạng binary thông thường Tác giả sử dụng giải thuật CKY mở rộng, gọi CKY+ cho việc tìm kiếm phân tích cú pháp phù hợp (có xác suất lớn nhất) Đây giải thuật có độ xác cao, thời gian phân tích nhanh Thời gian trung bình thực giải thuật CKY+ cho q trình phân tích cú pháp thực máy Pentium III, 500mhz, 128Mb RAM cho câu có chiều dài 25 từ khoảng 0.28giây, câu có chiều dài từ 25 đến 40 từ khoảng 3giây câu từ 40 từ trở lên 6.21giây Abstract Parsing is a fundamental problem in language processing for both machines and humans Most natural language applications such as Information Extraction, Machine Translation, Speech Recognition or Spelling Correction would almost certainly benefit from high-accuracy parsing Ambiguity is a major problem in parsing Ambiguity often leads to an input sentence having many possible parse trees In previous approaches, the parsing problem is base on a grammar which is handcrafted, often in some small subcategorization information It cost a lot of time and effort and often inaccurately Ambiguity is not to slove satisfactorily This thesis uses statistical models base on PCFG estimate from treebank to solve ambiguity problem in parsing natural language; statistical approaches assign a probability to each tree, thereby ranking competing trees in order of plausibility The kinds of tree representations used in a treebank corpus can have a dramatic effect on performance of a parser based on PCFG estimate from that corpus So in this thesis, we studied to transform the original trees in the treebank to parent anotation trees This kind of tree representations have improved a treebank PCFG based parser’s average precision from 78% to 85.25% and recall from 73% to 84.40% in compare with normal binarize tree representations The algorithm has been selected to find the most likely parsed tree is an extension of the CKY algorithm, call CKY+ This algorithm is accurate and fast for parsing based on PCFG The average time need to run CKY+ algorithm in parsing process on Pentium III, 500mhz, 18Mb RAM is around 0.28 second for the under 25 word sentence length; second for sentences being over 25 words in length and 6.21 second for sentences being over 40 words CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề Trong lĩnh vực khoa học máy tính, xử lý ngôn ngữ tự nhiên (NLP: Nature Language Processing) ẩn chứa nhiều thách thức nên mục tiêu nghiên cứu nhà khoa học, với mong muốn máy tính bước hiểu ngơn ngữ người Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition), tìm kiếm ngơn ngữ tự nhiên (NLQ: Nature Language Querying), bắt lỗi tả (SC: Spelling Correction), v.v… Trong đó, phân tích cú pháp vấn đề sở đóng vai trị quan trọng tiến trình xử lý cho ngôn ngữ máy ngôn ngữ tự nhiên Hầu hết ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, rút trích thơng tin, nhận dạng văn bản, bắt lỗi tả,… đạt chất lượng cao có hệ thống phân tích cú pháp có độ xác cao Từ quan điểm trên, tìm hiểu phương pháp phân tích cú pháp tốt điều cần thiết Một khó khăn phân tích cú pháp “nhập nhằng” (ambiguation) Sự nhập nhằng xảy văn phạm cho kết nhiều phân tích cú pháp với câu liệu nhập Hầu hết giải thuật phân tích cú pháp phát triển từ năm 1960 ứng dụng nhiều xử lý ngôn ngữ tự nhiên Tuy nhiên, phương pháp trước tồn số khuyết điểm như: chưa giải “nhập nhằng” ngơn ngữ tự nhiên phụ thuộc vào tồn khơng gian tìm kiếm để tìm diễn dịch phù hợp với câu phân tích có giải nhập nhằng cách đưa yếu tố từ bên ngồi vào lại khó thực tốn nhiều thời gian Các phương pháp phân tích trước thường cho kết nhiều phân tích Trong năm gần đây, việc áp dụng xác suất để giải nhập nhằng phân tích cú pháp ngày phát triển mạnh mẽ có nhiều triển vọng nhờ corpus - kho liệu ngơn ngữ tự nhiên có sẵn Với mơ hình phân tích xác suất, gán xác suất vào phân tích cú pháp chọn kết phân tích phù hợp (có xác suất cao nhất) với câu đưa [12][15][17][22][23] Nhằm mục đích nghiên cứu vận dụng kết nghiên cứu vào thực tế, tác giả thực đề tài: “Nghiên cứu phân tích cú pháp phương pháp xác suất (Probabilistic Parsing) ứng dụng cho phân tích cú pháp câu đơn giản tiếng Anh.” Đây lĩnh vực không Việt Nam mà cịn giới, tài liệu, phương pháp tiếp cận nhiều vấn đề bàn bạc Do vậy, phạm vi đề tài nghiên cứu đặt nhằm mục đích lĩnh hội phương pháp vận dụng để xây dựng chương trình mang tính thử nghiệm để ứng dụng giải thuật để phân tích cú pháp số câu đơn giản tiếng Anh Phương pháp phân tích cú pháp xác suất phải dựa ngân hàng liệu ngôn ngữ lớn Xây dựng ngân hàng liệu việc làm cần nhiều thời gian, công sức tài chính, vượt q khn khổ luận văn này, đó, tác giả phải lựa chọn giải pháp sử dụng số ngân hàng liệu có sẵn nhà ngơn ngữ học giới xây dựng kiểm chứng tay với số lượng lớn đáng kể phân tích cú pháp mẫu Tuy nhiên vấn đề quyền tài chính, tác giả luận văn sử dụng phần nhỏ kho liệu công bố mạng để thử nghiệm 1.2 Phương hướng nghiên cứu Phân tích cú pháp, hình thức đơn giản dùng giải thuật tập luật để ánh xạ câu liệu đầu vào thành cấu trúc cú pháp Để trả lời câu có hợp cú pháp hay khơng, cần phải đối chiếu với hệ quy tắc cụ thể Hệ thống chấp nhận xác định hợp cú pháp, khơng chấp nhận xác định khơng hợp cú pháp [23][31] Luận văn chọn cách tiếp cận máy học vấn đề phân tích cú pháp cho câu ngơn ngữ tự nhiên Một hàm câu nhập Ỉ phân tích cú pháp (sentence Ỉ tree)1 suy luận từ tập huấn luyện, tức tập cặp sentenc tree mẫu Một tập thử nghiệm cặp sentence Ỉ tree dùng để đánh giá độ xác mơ hình Hình 1.1 ví dụ minh hoạ cho phân tích cú pháp câu “Sue walked into the store” S NP NNP VP VBD PP IN Sue NP walked into DT NN the store Hình 1.1: Ví dụ phân tích cú pháp Theo cách tiếp cận trước đây, q trình phân tích cú pháp tiến hành sau: văn phạm tạo cách thủ công tay, thường theo số hình thức thống với số lượng lớn thông tin từ vựng đặc trưng theo lĩnh vực Vấn đề nhập nhằng phân tích cú pháp thường khơng giải giải cách sử dụng kinh nghiệm Giả sử định nghĩa tốn phân tích cú pháp mà câu ánh xạ phân tích cú pháp đơn chuyên gia (heurictic), nhiên để tạo heurictic khó tốn nhiều thời gian, nữa, khơng có phương pháp mang tính hệ thống để đánh giá heurictic tốt thực tế [17] Hiện nhà ngôn ngữ học xây dựng nhiều kho ngữ liệu phục vụ lĩnh vực xử lý ngơn ngữ tự nhiên, Penn treebank kho ngữ liệu có số lượng phân tích mẫu đáng kể Do vậy, luận văn nghiên cứu phương pháp thống kê dựa nguồn liệu mẫu Penn treebank để giải vấn đề khó khăn nêu phân tích cú pháp Mơ hình phân tích cú pháp theo phương pháp thống kê ấn định xác suất score(t,s) cho cặp phân tích cú pháp-câu (t,s) Và đó, phân tích cú pháp phù hợp cho câu liệu đầu vào định nghĩa bởi: tbest = arg max Score(t , S ) t Với cách nhìn này, vấn đề phân tích cú pháp chia thành hai phần: (1) Mơ hình: định nghĩa xác suất Score(t,s) cho cặp phân tích cú phápcâu (t,s) (2) Phân tích cú pháp: thực giải thuật để tìm xác suất tbest cho câu nhập [11][23] 1.3 Mục tiêu đề tài Đề tài nghiên cứu nhắm tới mục tiêu sau: • Nghiên cứu phương pháp để hồn thiện giải thuật tạo tập huấn luyện văn phạm phi ngữ cảnh có xác suất từ ngân hàng liệu treebank • Lựa chọn giải thuật phân tích cú pháp xác suất phù hợp có để phát triển ứng dụng vào đề tài • Xây dựng chương trình máy tính ứng dụng cho việc phân tích số câu tiếng Anh đơn giản để kiểm chứng kết nghiên cứu 1.4 Những kết đề tài Những kết đề tài sau: • Xây dựng giải thuật để tạo hệ thống luật văn phạm phi ngữ cảnh có xác suất (PCFG) từ treebank • Lựa chọn phát triển giải thuật tìm phân tích cú pháp xác suất phù hợp với câu liệu đầu vào • Chương trình máy tính để ứng dụng phương pháp phân tích cú pháp xác suất cho việc phân tích số cấu tiếng Anh đơn giản 1.5 Cấu trúc luận văn Luận văn gồm chương, bao gồm nội dung sau: Chương 1: Trình bày cách đặt vấn đề, phương pháp lựa chọn để giải vấn đề Mục tiêu cần đạt được, kết đóng góp đề tài Chương 2: Tóm tắt cơng trình khoa học cơng bố ngồi nước có liên quan đến đề tài Chương làm sáng tỏ thêm sở lý thuyết để thực đề tài Chương 3: Trình bày có chọn lọc sở lý thuyết phương pháp dùng để giải vấn đề đề tài Bao gồm vấn đề như: sở tốn học, kiến thức ngơn ngữ tự nhiên, tiếng Anh, kiến thức, công cụ,… đề tài sử dụng để xây dựng mơ hình giải tốn phân tích cú pháp Chương 4: Trình bày giải thuật phân tích cú pháp xác suất mà đề tài chọn, phương pháp xây dựng văn phạm phi ngữ cảnh có xác suất từ corpus ngơn ngữ có sẵn - Penn Treebank Một số tác vụ kết đạt chương trình thực đề tài Chương 5: Nhận xét, đánh giá kết đạt hạn chế tồn việc giải thực đề tài, đồng thời đưa hướng phát triển đề tài kết luận 1.6 Qui ước thuật ngữ ký hiệu CFG Văn phạm phi ngữ cảnh PCFG Văn phạm phi ngữ cảnh có xác suất P Xác suất S Tập ký hiệu mục tiêu s Câu (sentence) t Cây (Tree) tbest Cây phân tích cú pháp phù hợp với câu nhập arg max t T Chọn t có giá trị lớn thông qua hàm xác định giá trị POS tags (Part-Of-Speech tags), gắn từ loại vào từ Treebank Kho liệu chứa mẫu phân tích cú pháp ∑ Tổng ∏ Tích ∩ Giao tập hợp ĉ Ước lượng c wij , wi j chuỗi từ từ loại w1,w2,… wj G Tập văn phạm V Tập ký hiệu không kết thúc N Tập ký hiệu kết thúc P Tập luật sinh PL A - 15 ''))))))))) (VP VBD) (NP (NP NNP NNP NNP) (PP IN (NP (NP NNP POS) NNP NNP NNP ))))) Sentence 5: From IN 1953 CD to TO 1955 CD , , 9.8 CD billion CD Kent NNP cigarettes NNS with IN the DT filters NNS were VBD sold VBN , , the DT company NN said VBD Prob = 4.63824e-027 Time = Parse_tree = 'ROOT'/[S /[S /[PP /[IN,NP /[NP /[CD],PP /[TO,NP /[CD,,]]]],NP /[NP /[NP /[QP /[CD,CD]],NP /[NNP,NNS]],PP /[IN,NP /[DT,NNS]]],VP /[VBD,VP /[VBN,,]]],NP /[DT,NN],VP /[VBD,.]]] ('ROOT' (S (S (PP IN (NP (NP CD) (PP TO (NP CD ,)))) (NP (NP (NP (QP CD CD)) (NP NNP NNS)) (PP IN (NP DT NNS))) (VP VBD (VP VBN ,))) (NP DT NN) (VP VBD ))) Sentence 660: The DT plant NN , , which WDT is VBZ owned VBN by IN Hollingsworth NNP & CC Vose NNP Co NNP , , was VBD under IN contract NN with IN Lorillard NNP to TO make VB the DT cigarette NN filters NNS Prob = 2.07804e-023 Time = Parse_tree = 'ROOT'/[S /[NP /[NP /[DT,NN,,],SBAR /[WHNP /[WDT],S /[VP /[VBZ,VP /[VBN,PP /[IN,NP /[NNP,CC,NNP,NNP,,]]]]]]],VP /[VBD,SBAR /[IN,S /[NP /[NP /[NN],PP /[IN,NP /[NNP]]],VP /[TO,VP /[VB,NP /[NP /[DT,NN],NNS,.]]]]]]]] ('ROOT' (S (NP (NP DT PL A - 16 NN ,) (SBAR (WHNP WDT) (S (VP VBZ (VP VBN (PP IN (NP NNP CC NNP NNP ,))))))) (VP VBD (SBAR IN (S (NP (NP NN) (PP IN (NP NNP))) (VP TO (VP VB (NP (NP DT NN) NNS )))))))) Summary: 660/660 = 100% test sentences met the length criterion, of which 652/660 = 98.7879% were parsed Sum Time = 150 Time average = 0.227273 PL A - 17 B Cây phân tích cú pháp có chiều dài lớn 25 nhỏ 40 từ Sentence 1: The DT new JJ ad NN plan NN from IN Newsweek NNP , , a DT unit NN of IN the DT Washington NNP Post NNP Co NNP , , is VBZ the DT second JJ incentive NN plan VBP the DT magazine NN has VBZ offered VBN advertisers NNS in IN three CD years NNS Prob = 1.39452e-028 Time = Parse_tree = 'ROOT'/[S /[NP /[NP /[DT,JJ,NN,NN],PP /[IN,NP /[NP /[NP /[NNP,,],NP /[DT,NN]],PP /[IN,NP /[DT,NNP,NNP,NNP,,]]]]],VP /[VBZ,SBAR /[S /[NP /[DT,JJ,NN],VP /[VBP,SBAR /[S /[NP /[DT,NN],VP /[VBZ,VP /[VBN,NP /[NP /[NNS],PP /[IN,NP /[CD,NNS,.]]]]]]]]]]]]] ('ROOT' (S (NP (NP DT JJ NN NN) (PP IN (NP (NP (NP NNP ,) (NP DT NN)) (PP IN (NP DT NNP NNP NNP ,))))) (VP VBZ (SBAR (S (NP DT JJ NN) (VP VBP (SBAR (S (NP DT NN) (VP VBZ (VP VBN (NP (NP NNS) (PP IN (NP CD NNS ) )))))))))))) Sentence 2: When WRB it PRP 's VBZ time NN for IN their PRP$ biannual JJ powwow NN , , the DT nation NN 's POS manufacturing NN titans NNS typically RB jet VBP off RP to TO the DT sunny JJ confines NNS of IN resort NN towns NNS like IN Boca NNP Raton NNP and CC Hot NNP Springs NNP Prob = 1.48008e-034 PL A - 18 Time = Parse_tree = 'ROOT'/[S /[SBAR /[WHADVP /[WRB],S /[NP /[PRP],VP /[VBZ,NP /[NP /[NN],PP /[IN,NP /[PRP$,JJ,NN,,]]]]]],NP /[NP /[DT,NN,POS],NN,NNS],ADVP /[RB],VP /[VBP,PRT /[RP],PP /[TO,NP /[NP /[DT,JJ,NNS],PP /[IN,NP /[NP /[NN,NNS],PP /[IN,NP /[NP /[NNP,NNP],CC,NP /[NNP,NNP,.]]]]]]]]]] ('ROOT' (S (SBAR (WHADVP WRB) (S (NP PRP) (VP VBZ (NP (NP NN) (PP IN (NP PRP$ JJ NN ,)))))) (NP (NP DT NN POS) NN NNS) (ADVP RB) (VP VBP (PRT RP) (PP TO (NP (NP DT JJ NNS) (PP IN (NP (NP NN NNS) (PP IN (NP (NP NNP NNP) CC (NP NNP NNP )))))))))) Sentence 3: Average JJ maturity NN of IN the DT funds NNS ' POS investments NNS lengthened VBD by IN a DT day NN to TO 41 CD days NNS , , the DT longest JJS since IN early JJ August NNP , , according VBG to TO Donoghue NNP 's POS Prob = 1.32807e-032 Time = Parse_tree = 'ROOT'/[S /[S /[NP /[NP /[JJ,NN],PP /[IN,NP /[NP /[DT,NNS,POS],NNS]]],VP /[VBD,PP /[IN,NP /[DT,NN]],PP /[TO,NP /[CD,NNS,,]]]],NP /[NP /[DT,JJS],PP /[IN,NP /[JJ,NNP,,]]],VP /[VBG,PP /[TO,NP /[NNP,POS,.]]]]] ('ROOT' (S (S (NP (NP JJ NN) (PP IN (NP (NP DT NNS POS) NNS))) (VP VBD (PP IN PL A - 19 (NP DT NN)) (PP TO (NP CD NNS ,)))) (NP (NP DT JJS) (PP IN (NP JJ NNP ,))) (VP VBG (PP TO (NP NNP POS ))))) Sentence 4: Pacific NNP First NNP Financial NNP Corp NNP said VBD shareholders NNS approved VBD its PRP$ acquisition NN by IN Royal NNP Trustco NNP Ltd NNP of IN Toronto NNP for IN $ $ 27 CD a DT share NN , , or CC $ $ 212 CD million CD Prob = 1.54775e-026 Time = Parse_tree = 'ROOT'/[S /[NP /[NNP,NNP,NNP,NNP],VP /[VBD,SBAR /[S /[NP /[NNS],VP /[VBD,NP /[NP /[PRP$,NN],PP /[IN,NP /[NP /[NNP,NNP,NNP],PP /[IN,NP /[NNP]]]]],PP /[IN,NP /[NP /[NP /[$,CD],NP /[DT,NN,,]],CC,NP /[QP /[$,CD,CD,.]]]]]]]]]] ('ROOT' (S (NP NNP NNP NNP NNP) (VP VBD (SBAR (S (NP NNS) (VP VBD (NP (NP PRP$ NN) (PP IN (NP (NP NNP NNP NNP) (PP IN (NP NNP))))) (PP IN (NP (NP (NP $ CD) (NP DT NN ,)) CC (NP (QP $ CD CD )))))))))) Sentence 5: The DT House NNP has VBZ voted VBN to TO raise VB the DT ceiling NN to TO $ $ 3.1 CD trillion CD , , but CC the DT PL A - 20 Senate NNP is VBZ n't RB expected VBN to TO act VB until IN next JJ week NN at IN the DT earliest JJS Prob = 1.84793e-029 Time = Parse_tree = 'ROOT'/[S /[S /[NP /[DT,NNP],VP /[VBZ,VP /[VBN,S /[VP /[TO,VP /[VB,NP /[DT,NN],PP /[TO,NP /[QP /[$,CD,CD,,]]]]]]]]],CC,S /[NP /[DT,NNP],VP /[VBZ,RB,VP /[VBN,S /[VP /[TO,VP /[VB,PP /[IN,NP /[NP /[JJ,NN],PP /[IN,NP /[DT,JJS,.]]]]]]]]]]]] ('ROOT' (S (S (NP DT NNP) (VP VBZ (VP VBN (S (VP TO (VP VB (NP DT NN) (PP TO (NP (QP $ CD CD ,))))))))) CC (S (NP DT NNP) (VP VBZ RB (VP VBN (S (VP TO (VP VB (PP IN (NP (NP JJ NN) (PP IN (NP DT JJS )))))))))))) Sentence 100: Next JJ week NN , , the DT Philippine NNP Fund NNP 's POS launch NN will MD be VB capped VBN by IN a DT visit NN by IN Philippine JJ President NNP Corazon NNP Aquino NNP : the DT first JJ time NN a DT head NN of IN state NN has VBZ kicked VBN off RP an DT issue NN at IN the DT Big NNP Board NNP here RB Prob = 1.8265e-042 Time = Parse_tree = 'ROOT'/[S /[NP /[JJ,NN,,],NP /[NP /[DT,NNP,NNP,POS],NN],VP /[MD,VP /[VB,VP /[VBN,PP /[IN,NP /[NP /[DT,NN],SBAR /[IN,S /[S /[ADJP /[JJ,NP /[NNP,NNP,NNP,:]]],NP /[DT,JJ,NN],NP /[NP /[DT,NN],PP /[IN,NP /[NN]]],VP /[VBZ,VP /[VBN,PRT /[RP],NP /[NP /[DT,NN],PP /[IN,NP /[DT,NNP,NNP]]]]]]]]],ADVP /[RB,.]]]]]] ('ROOT' (S (NP JJ NN PL A - 21 ,) (NP (NP DT NNP NNP POS) NN) (VP MD (VP VB (VP VBN (PP IN (NP (NP DT NN) (SBAR IN (S (S (ADJP JJ (NP NNP NNP NNP :))) (NP DT JJ NN) (NP (NP DT NN) (PP IN (NP NN))) (VP VBZ (VP VBN (PRT RP) (NP (NP DT NN) (PP IN (NP DT NNP NNP))))))))) (ADVP RB )))))) Summary: 100/100 = 100% test sentences met the length criterion, of which 100/100 = 100% were parsed Sum Time = 300 Time average = PL A - 22 C Cây phân tích cú pháp có chiều dài > 40 từ Sentence 1: Plans NNS that WDT give VBP advertisers NNS discounts NNS for IN maintaining VBG or CC increasing VBG ad NN spending NN have VBP become VBN permanent JJ fixtures NNS at IN the DT news NN weeklies NNS and CC underscore VBP the DT fierce JJ competition NN between IN Newsweek NNP , , Time NNP Warner NNP Inc NNP 's POS Time NNP magazine NN , , and CC Mortimer NNP B NNP Zuckerman NNP 's POS U.S NNP News NNP & CC World NNP Report NNP Prob = 2.66759e-056 Time = Parse_tree = 'ROOT'/[S /[S /[NP /[NP /[NP /[NNS],SBAR /[WHNP /[WDT],S /[VP /[VBP,NP /[NP /[NNS,NNS],PP /[IN,S /[VP /[VBG,CC,VBG]]]]]]]],NN,NN],VP /[VBP,VP /[VBN,NP /[NP /[JJ,NNS],PP /[IN,NP /[NP /[DT,NN],NNS]]]]]],CC,S /[VP /[VBP,NP /[NP /[NP /[DT,JJ,NN],PP /[IN,NP /[NP /[NP /[NNP,,],NP /[NNP,NNP,NNP,POS]],NNP,NN,,]]],CC,NP /[NNP,NNP,NNP,POS],NP /[NNP,NNP],CC,NP /[NNP,NNP,.]]]]]] ('ROOT' (S (S (NP (NP (NP NNS) (SBAR (WHNP WDT) (S (VP VBP (NP (NP NNS NNS) (PP IN (S (VP VBG CC VBG)))))))) NN NN) (VP VBP (VP VBN (NP (NP JJ NNS) (PP IN (NP (NP DT NN) NNS)))))) CC (S (VP VBP (NP (NP (NP DT JJ NN) (PP IN (NP (NP (NP NNP ,) (NP NNP NNP NNP POS)) PL A - 23 NNP NN ,))) CC (NP NNP NNP NNP POS) (NP NNP NNP) CC (NP NNP NNP )))))) Sentence 2: In IN mid-October NNP , , Time NNP magazine NN lowered VBD its PRP$ guaranteed VBN circulation NN rate NN base NN for IN 1990 CD while IN not RB increasing VBG ad NN page NN rates NNS ; : with IN a DT lower JJR circulation NN base NN , , Time NNP 's POS ad NN rate NN will MD be VB effectively RB 7.5 CD % NN higher JJR per IN subscriber NN ; : a DT full JJ page NN in IN Time NNP costs NNS about IN $ $ 120,000 CD Prob = 1.44074e-059 Time = 12 Parse_tree = 'ROOT'/[S /[SBAR /[IN,S /[NP /[NP /[NNP,,],NNP,NN],VP /[VBD,NP /[NP /[NP /[PRP$,VBN,NN],NN,NN],PP /[IN,NP /[CD]]],PP /[IN,NP /[NP /[ADJP /[RB,VBG],NN,NN],NNS,:]],PP /[IN,NP /[NP /[DT,JJR,NN],NN,,]]]]],NP /[NP /[NNP,POS],NN,NN],VP /[MD,VP /[VB,ADJP /[RB,NP /[CD,NN],JJR,PP /[IN,NP /[NN,:]]],NP /[NP /[DT,JJ,NN],PP /[IN,NP /[NP /[NNP,NNS],PP /[IN,NP /[$,CD,.]]]]]]]]] ('ROOT' (S (SBAR IN (S (NP (NP NNP ,) NNP NN) (VP VBD (NP (NP (NP PRP$ VBN NN) NN NN) (PP IN (NP CD))) (PP IN (NP (NP (ADJP RB VBG) NN NN) NNS :)) (PP IN (NP (NP DT JJR NN) NN ,))))) PL A - 24 (NP (NP NNP POS) NN NN) (VP MD (VP VB (ADJP RB (NP CD NN) JJR (PP IN (NP NN :))) (NP (NP DT JJ NN) (PP IN (NP (NP NNP NNS) (PP IN (NP $ CD ))))))))) Sentence 3: Mr NNP Spoon NNP said VBD the DT plan NN is VBZ not RB an DT attempt NN to TO shore VB up RP a DT decline NN in IN ad NN pages NNS in IN the DT first JJ nine CD months NNS of IN 1989 CD ; : Newsweek NNP 's POS ad NN pages NNS totaled VBD 1,620 CD , , a DT drop NN of IN 3.2 CD % NN from IN last JJ year NN , , according VBG to TO Publishers NNP Information NNP Bureau NNP Prob = 1.42125e-049 Time = 10 Parse_tree = 'ROOT'/[S /[S /[NP /[NNP,NNP],VP /[VBD,SBAR /[S /[NP /[DT,NN],VP /[VBZ,ADVP /[RB]]]]]],NP /[DT,NN],VP /[TO,VP /[VB,PRT /[RP],NP /[NP /[DT,NN],PP /[IN,NP /[NN,NNS]]],PP /[IN,NP /[NP /[DT,JJ,CD,NNS],PP /[IN,NP /[NP /[CD,:],NP /[NNP,POS]]]]],SBAR /[S /[NP /[NN,NNS],VP /[VBD,NP /[NP /[NP /[CD,,],NP /[DT,NN]],PP /[IN,NP /[NP /[CD,NN],PP /[IN,NP /[JJ,NN,,]]]]],PP /[VBG,PP /[TO,NP /[NNP,NNP,NNP,.]]]]]]]]]] ('ROOT' (S (S (NP NNP NNP) (VP VBD (SBAR (S (NP DT NN) (VP VBZ (ADVP RB)))))) (NP DT NN) (VP TO (VP VB (PRT RP) (NP (NP DT NN) (PP IN (NP NN NNS))) PL A - 25 (PP IN (NP (NP DT JJ CD NNS) (PP IN (NP (NP CD :) (NP NNP POS))))) (SBAR (S (NP NN NNS) (VP VBD (NP (NP (NP CD ,) (NP DT NN)) (PP IN (NP (NP CD NN) (PP IN (NP JJ NN ,))))) (PP VBG (PP TO (NP NNP NNP NNP )))))))))) Sentence 100: The DT U.S NNP Chamber NNP of IN Commerce NNP , , still RB opposed VBD to TO any DT mininum-wage NN increase NN , , said VBD the DT compromise NN plan NN to TO lift VB the DT wage NN floor NN 27 CD % NN in IN two CD stages NNS between IN April NNP 1990 CD and CC April NNP 1991 CD `` `` will MD be VB impossible JJ for IN many JJ employers NNS to TO accommodate VB and CC will MD result VB in IN the DT elimination NN of IN jobs NNS for IN American JJ workers NNS and CC higher JJR prices NNS for IN American JJ consumers NNS Parse_failure Summary: 100/100 = 100% test sentences met the length criteron, of which 94/100 = 94% were parsed Sum Time = 621 Time average = 6.21 PL A - 26 PHỤ LỤC C: MỘT SỐ KẾT QUẢ KIỂM TRA, ĐÁNH GIÁ B Kết kiểm tra mơ hình dựa PCFG tạo từ biểu diễn nhị phân thông thường Sentence 1: ((S (INTJ (UH No) (, ,)) (NP (PRP it)) (VP (VBD was) (RB n't) (NP (NNP Black) (NNP Monday) ( .))))) Prob = 1.73115e-011, Precision = 6/6 = 100%, Recall = 6/6 = 100% ('ROOT' (S (INTJ UH ,) (NP PRP) (VP VBD RB (NP NNP NNP )))) Sentence 2: ((S (NP (NP (DT The) (NNP Dow) (POS 's)) (NN decline)) (VP (VBD was) (ADJP (JJ second) (PP (IN in) (NP (NN point) (NNS terms))) (PP (ADVP (RB only)) (TO to) (NP (NP (DT the) (JJ 508-point) (NNP Black) (NNP Monday) (NN crash)) (SBAR (WHNP (WDT that)) (S (VP (VBD occurred) (NP (NNP Oct.) (CD 19) (, ,) (CD 1987) ( .))))))))))) Prob = 1.15099e-027, Precision = 12/17 = 70.5882%, Recall = 12/17 = 70.5882% ('ROOT' (S (NP (NP DT NNP POS) NN) (VP VBD (NP (ADJP JJ (PP IN (NP NN))) NNS) (ADVP RB) (PP TO (NP DT JJ NNP NNP NN)) (SBAR (WHNP WDT) (S (VP VBD (NP NNP CD , CD ))))))) Sentence 1000: PL A - 27 ((S (NP (NNP DWG)) (VP (VBZ is) (NP (NP (DT a) (VBG holding) (NN company)) (VP (VBN controlled) (PP (IN by) (NP (NNP Mr.) (NNP Posner) ( .)))))))) Prob = 3.25901e-012, Precision = 8/9 = 88.8889%, Recall = 8/9 = 88.8889% ('ROOT' (S (NP NNP) (VP VBZ (S (NP DT VBG NN) (VP VBN (PP IN (NP NNP NNP ))))))) Summary; 1000/1000 = 100% test sentences met the length criteron, of which 1000/1000 = 100% were parsed Average precision = (13720/17543) = 78.2078%, Average recall = (13720/18736) = 73.228% C Kết kiểm tra mơ hình dựa PCFG tạo từ biểu diễn có gắn thêm thơng tin nút cha Sentence 1: ((S (INTJ (UH No) (, ,)) (NP (PRP it)) (VP (VBD was) (RB n't) (NP (NNP Black) (NNP Monday) ( .))))) Prob = 1.02682e-010, Precision = 6/6 = 100%, Recall = 6/6 = 100% ('ROOT' (S (INTJ UH ,) (NP PRP) (VP VBD RB (NP NNP NNP )))) Sentence 2: ((S (NP (NP (DT The) (NNP Dow) (POS 's)) (NN decline)) (VP (VBD was) (ADJP (JJ second) (PP (IN in) (NP (NN point) (NNS terms))) (PP (ADVP (RB only)) (TO to) (NP (NP (DT the) (JJ 508-point) (NNP Black) (NNP Monday) (NN crash)) (SBAR (WHNP (WDT that)) (S (VP (VBD occurred) (NP (NNP Oct.) (CD 19) (, ,) (CD 1987) ( .))))))))))) Prob = 3.91423e-025, Precision = 17/17 = 100%, Recall = 17/17 = 100% ('ROOT' (S (NP (NP DT NNP POS) NN) (VP VBD (ADJP JJ (PP IN (NP NN PL A - 28 NNS)) (PP (ADVP RB) TO (NP (NP DT JJ NNP NNP NN) (SBAR (WHNP WDT) (S (VP VBD (NP NNP CD , CD )))))))))) Sentence 999: ((S (PP (IN At) (NP (DT the) (NN time) (, ,))) (NP (DT a) (NN group)) (VP (VBD called) (SBAR (S (NP (NP (NNP R.B.) (NNPS Partners) (NNP Ltd.) (, ,)) (VP (VBG consisting) (PP (IN of) (NP (NP (CD eight)) (PP (IN of) (NP (NP (NNP Arby) (POS 's)) (JJS largest) (NNS franchisees) (, ,))))))) (VP (VBD offered) (NP (QP (JJR more) (IN than) ($ $) (CD 200) (CD million))) (S (VP (TO to) (VP (VB buy) (NP (NP (NP (NNP Arby) (POS 's)) (NNP Inc.) (, ,)) (SBAR (WHNP (WDT which)) (S (VP (VBZ is) (NP (NP (NN part)) (PP (IN of) (NP (NNP DWG) (NNP Corp) ( .))))))))))))))))) Prob = 2.54486e-041, Precision = 28/34 = 82.3529%, Recall = 28/34 = 82.3529% ('ROOT' (S (PP IN (NP DT NN ,)) (NP DT NN) (VP VBD (SBAR (S (NP (NP NNP NNPS NNP ,) (VP VBG (SBAR IN (S (NP (NP CD) (PP IN (NP (NP NNP POS) JJS NNS ,))) (VP VBD (NP (QP JJR IN $ CD CD))))))) (VP TO (VP VB PL A - 29 (NP (NP NNP POS) (NP NNP ,) (SBAR (WHNP WDT) (S (VP VBZ (NP (NP NN) (PP IN (NP NNP NNP )))))))))))))) Sentence 1000: ((S (NP (NNP DWG)) (VP (VBZ is) (NP (NP (DT a) (VBG holding) (NN company)) (VP (VBN controlled) (PP (IN by) (NP (NNP Mr.) (NNP Posner) ( .)))))))) Prob = 2.70599e-011, Precision = 9/9 = 100%, Recall = 9/9 = 100% ('ROOT' (S (NP NNP) (VP VBZ (NP (NP DT VBG NN) (VP VBN (PP IN (NP NNP NNP ))))))) Summary : 1000/1000 = 100% test sentences met the length criteron, of which 1000/1000 = 100% were parsed Average precision = (15814/18550) = 85.2507%, Average recall = (15814/18736) = 84.4044% ... tài: ? ?Nghiên cứu phân tích cú pháp phương pháp xác suất (Probabilistic Parsing) ứng dụng cho phân tích cú pháp câu đơn giản tiếng Anh. ” Đây lĩnh vực không Việt Nam mà giới, tài liệu, phương pháp. .. phân tích cú pháp (a) Câu cần phân tích POS tagging (b) Cây phân tích cú pháp câu (a) (c) Cây phân tích cú pháp viết dạng đóng mở ngoặc(tuyến tính) Theo cách tiếp cận thống kê, phân tích cú pháp. .. thiện [27][28] Các ứng dụng phân tích cú pháp phương pháp xác suất nước chưa thấy công bố Qua cơng trình nêu trên, cho thấy phương pháp phân tích cú pháp xác suất có ưu điểm phương pháp khác giải

Ngày đăng: 09/02/2021, 17:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w