Thu nhập cụm từ vựng dựa trên thuộc tính cú pháp và ngữ nghĩa của các từ tiếng việt bằng phương pháp xác suất

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA - TRƯƠNG KIM MINH THU NHẬN CỤM TỪ VỰNG DỰA TRÊN THUỘC TÍNH CÚ PHÁP VÀ NGỮ NGHĨA CỦA CÁC TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP XÁC SUẤT Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, THÁNG 11 NĂM 2004 i CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS.TS Phan Thị Tươi (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ HỢP ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ngày … tháng … năm 2004 ĐẠI HỌC BÁCH KHOA, ii TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH oo0oo CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc oo0oo – Tp.HCM, ngày … tháng … năm 2004 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Ngày tháng năm sinh: Chuyên ngành: TRƯƠNG KIM MINH 08 - 08 - 1977 Công Nghệ Thông Tin Phái: Nam Nơi sinh: TP.HCM Mã số ngành: 01.02.10 I TÊN ĐỀ TÀI: Thu nhận cụm từ vựng (lexicon acquisition) dựa thuộc tính cú pháp ngữ nghĩa từ tiếng Việt phương pháp xác suất II NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ đề tài nghiên cứu thuật toán thu nhận cụm từ vựng với việc sử dụng thêm thuật toán xác suất để tiến hành phân tích, thu nhận cụm từ vựng từ văn tiếng Việt thêm xác III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) : IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận án tốt nghiệp): V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS Phan Thị Tươi CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH PGS.TS Phan Thị Tươi TS Dương Tuấn Anh BỘ MÔN QUẢN LÝ NGÀNH Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua PHÒNG ĐÀO TẠO SAU ĐẠI HỌC Ngày …… tháng …… năm 2004 KHOA QUẢN LÝ NGÀNH iii LỜI CẢM ƠN Trước tiên, xin gởi lời cảm ơn chân thành đến PGS.TS Phan Thị Tươi, người thầy giáo viên trực tiếp hướng dẫn, giúp đỡ, bảo thời gian học tập suốt thời gian làm luận văn Thạc sĩ Luận văn hồn thành thời hạn, có chất lượng chủ yếu nhờ cơng lao to lớn Cô Kế đến, xin gởi lời cảm ơn đến Thầy, Cô Khoa Công Nghệ Thơng Tin Thầy, Cơ Phịng Sau Đại Học trường Đại Học Bách Khoa TP Hồ Chí Minh rèn luyện, hướng dẫn thời gian tham gia học lớp Cao Học quý trường Xin chân thành cảm ơn bạn Mai Ngọc Anh, Lê Việt Tuấn, Dương Ngọc Hiếu, Lê Văn Tiến Sĩ, Quách Ngọc Đoan Trang bạn học lớp CNTT13, CNTT14 nhiều cách tạo điều kiện thuận lợi tận tình giúp đỡ tơi hồn thành tốt Luận Văn đạt kết khả quan sau kết thúc lớp Cao Học CNTT13 Sau cùng, thật thiếu sót lớn tơi khơng cảm ơn động viên, khích lệ, giúp đỡ gia đình tạo cho tơi động lực mạnh mẽ để làm tốt luận văn iv TĨM TẮT Luận văn có nhiệm vụ giải vấn đề phân tích, thu nhận cụm từ tiếng Việt cách tự động nhằm phục vụ, bổ sung sở liệu từ vựng cho số chương trình dịch máy khác, chương trình có khả xếp, nhóm từ tiếng Việt… có Luận văn đề xuất hướng tiếp cận cách kết hợp thuật tốn thu nhận nhóm từ (collocation) thuật toán thu nhận từ vựng nhằm mục đích thu nhận cụm từ tiếng Việt có độ xác cao Cơng việc bao gồm ba giai đoạn: − Sử dụng thuật toán thu nhận nhóm từ để thu danh sách nhóm từ với tần suất xuất (số lần mà cụm từ có xuất văn huấn luyện) định người dùng (tạm gọi danh sách A) − Sử dụng thuật toán thu nhận từ vựng để thu danh sách cụm từ theo ngữ pháp tiếng Việt (tạm gọi danh sách B) − Tiến hành đối chiếu để lấy từ vựng xuất danh sách A danh sách B Kết thực nghiệm cho thấy độ xác cụm từ thu theo cách tiếp cận cao so với kết thu riêng lẻ danh sách từ A hay B Bên cạnh kết thu theo hướng tiếp cận nêu trên, người dùng có danh sách từ vựng A hay B để sử dụng cho mục đích khác v ABSTRACT This thesis investigates how computers might be enabled to understand natural languages in a more humanlike way by acquiring right lexicons in test corpora These lexicons can be used as vocabulary database for some computer applications which translate texts from another language to Vietnamese, or some applications which can sort or collocate Vietnamese words… The thesis suggests a new method by joining results of some algorithms to acquire collocations and lexicon pharses in order to obtain more suitable lexicons That method can be defined as following three steps: − First, use some algorithms to acquire collocations, the results in this step is called as list A − Second, use some algorithms to acquire lexicons, the results in this second step is called as list B − Finally, comparing and getting those words that are present in both lists (A and B) The demonstration application of this thesis is also to provide the way for users to get individually list A or list B vi MỤC LỤC LỜI CẢM ƠN .iii TÓM TẮT iv ABSTRACT v MỤC LỤC vi DANH SÁCH CÁC BẢNG BIỂU, HÌNH ẢNH ix CHƯƠNG I : GIỚI THIỆU CHƯƠNG II : CÁC NGHIÊN CỨU LIÊN QUAN II.1 A GRAPH MODEL FOR UNSUPERVISED LEXICAL ACQUISITION [5] II.2 USING STATISTICS IN LEXICAL ANALYSIS [11] .10 CHƯƠNG III : CƠ SỞ LÝ THUYẾT 19 III.1 MỘT VÀI NÉT VỀ THUỘC TÍNH NGỮ NGHĨA CỦA CÁC TỪ TIẾNG VIỆT TRONG CÂU [17] 19 III.2 VỊ TRÍ VÀ QUAN HỆ LỆ THUỘC CỦA TỪ [17] 22 III.2.1 III.2.2 III.2.3 III.2.4 III.2.5 III.2.6 III.2.7 Tính từ chi phối trạng từ 24 Tính từ chi phối tính từ 24 Động từ chi phối trạng từ 25 Danh từ chi phối tính từ 25 Động từ chi phối tính từ 26 Động từ chi phối danh từ 26 Danh từ chi phối danh từ 26 III.3 GIỚI THIỆU TỔNG QUÁT VỀ HỆ THỐNG TỪ LOẠI CỦA TIẾNG VIỆT [9][13][15] 27 III.3.1 III.3.2 III.3.3 III.3.4 III.3.5 III.3.6 III.3.7 III.3.8 III.3.9 III.3.10 III.3.11 III.3.12 III.4 Danh từ 27 Động từ 27 Tính từ 28 Thời vị từ 28 Số từ 28 Hệ từ 28 Đại từ 28 Phó từ 29 Giới từ 29 Liên từ 29 Trợ từ 29 Thán từ 30 MỘT SỐ KHÁI NIỆM VỀ TỪ TỔ: [9][15][17] 30 III.4.1 Từ tổ danh từ 30 III.4.1.1 Từ tổ danh từ + danh từ 31 III.4.1.2 Từ tổ danh từ + thời vị từ 31 III.4.1.3 Từ tổ danh từ + số từ 31 III.4.1.4 Từ tổ danh từ + động từ (N V) 31 III.4.1.5 Từ tổ danh từ + tính từ 32 III.4.2 Từ tổ động từ 32 III.4.2.1 Từ tổ động từ + danh từ 32 vii III.4.2.2 Từ tổ động từ + thời vị từ 34 III.4.2.3 Từ tổ động từ + số từ 35 III.4.2.4 Từ tổ động từ + động từ 35 III.4.2.5 Từ tổ động từ + tính từ: 36 III.4.2.6 Từ tổ động từ + trạng từ: 36 III.4.3 Từ tổ tính từ 36 III.4.3.1 Từ tổ tính từ + danh từ 36 III.4.3.2 Từ tổ tính từ + động từ 36 III.4.3.3 Từ tổ tính từ + tính từ 37 III.4.3.4 Từ tổ tính từ + số từ 37 III.4.3.5 Từ tổ tính từ + thời vị từ 37 III.4.3.6 Từ tổ tính từ + trạng từ 37 CHƯƠNG IV : LÝ THUYẾT XÁC SUẤT 38 IV.1 IV.1.1 IV.1.2 IV.1.3 IV.1.4 IV.1.5 IV.1.6 IV.1.7 IV.2 CÁC PHƯƠNG PHÁP THỐNG KÊ ƯỚC LƯỢNG: 38 n-gram model 38 Laplace’s law 39 Maximum Likelihood Estimation (MLE) 40 Lidstone’s law and the Jeffreys-Rerks’s law (ELE) 40 Held out estimation 41 Cross validation (deleted estimation) 43 Good-Turning estimation 44 GIỚI THIỆU VỀ NHÓM TỪ (COLLOCATION) 45 IV.2.1 Frequency 45 IV.2.2 Mean & Variance 46 IV.2.3 Hypothesis Testing 47 IV.2.3.1 t test 47 IV.2.3.2 Hypothesis Testing of differences 47 IV.2.3.3 Pearson’s chi-quare test 48 IV.2.3.4 Likelihood ratios 49 IV.2.4 Mutual Information 50 IV.3 GIỚI THIỆU VỀ BÀI TOÁN THU NHẬN TỪ VỰNG 51 IV.3.1 Evaluation Measure 51 IV.3.2 Verb Subcategorization 52 IV.3.3 Attachment Ambiguity 54 IV.3.4 Selection Preferences 57 IV.3.5 Semantic Similarity 59 IV.3.5.1 Vector space measures 60 IV.3.5.2 Probabilistic measure 61 IV.4 TĨM TẮT CÁC THUẬT TỐN THU NHẬN COLLOCATION VÀ THU NHẬN TỪ VỰNG 62 CHƯƠNG V : HIỆN THỰC ĐỀ TÀI 64 V.1 THIẾT KẾ HỆ THỐNG CHƯƠNG TRÌNH 64 V.1.1 Các nguồn liệu liên quan 64 V.1.1.1 Dữ liệu huấn luyện chương trình 64 V.1.1.2 Từ điển phân loại từ 64 V.1.2 Ngôn ngữ lập trình 65 V.1.3 Thuật giải 65 V.1.4 Quy trình chung tiến hành theo bước sau: 65 V.1.5 Thuật giải chi tiết cho trình thu nhận từ vựng: 66 V.2 KIẾN TRÚC CỦA CHƯƠNG TRÌNH 70 V.3 THIẾT KẾ CƠ SỞ DỮ LIỆU .71 viii V.4 V.4.1 V.4.2 V.5 THIẾT KẾ CÁC ĐỐI TƯỢNG 72 Thơng tin chung số lớp yếu ứng dụng 72 Các chức ứng dụng 73 THIẾT KẾ GIAO DIỆN 73 V.5.1 Dữ liệu đầu vào (input) 73 V.5.2 Dữ liệu đầu (output) 73 V.5.3 Giao diện chương trình 74 V.5.3.1 Menu 74 V.5.3.2 Các giao diện 74 V.6 V.6.1 V.6.2 V.6.3 V.6.4 THỬ NGHIỆM MINH HỌA 76 Văn thử nghiệm 76 Kết thu nhận được: 78 Nhận xét 85 Đánh giá 85 CHƯƠNG VI : KẾT LUẬN 87 VI.1 CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC .87 VI.2 KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO 87 TÀI LIỆU THAM KHẢO 89 PHỤ LỤC A 91 Phụ lục 107 + Q trình biên dịch thành cơng thư mục hành có thêm tập tin có phần mở rộng class + Nếu chương trình thực thi kết thúc chương trình + Chép đè (overwrite) tất tập tin *.class có vào thư mục algorithm Ư Một cập nhật chương trình theo hướng dẫn sau chạy chương trình dịng lệnh sau “javaw -Xmx384M gui.LexiconAcquisitionGUI” (hoặc chạy chương trình thơng qua tập tin run.bat kèm theo sẵn) Ö Để tránh vấn đề xung đột luật cấu tạo từ tổ, trước cập nhật trực tiếp vào chương trình, người dùng nên kiểm tra thật kỹ luật vừa đưa vào Nếu điều kiện cho phép nên viết chương trình thử nghiệm Ví dụ đoạn chương trình java đơn giản sau làm nhiệm vụ kiểm tra luật thêm vào (chú ý: nên bổ sung thêm luật khai báo String[] có nhằm giúp phát lỗi xung đột với luật có) public static void main(String[] args) { String[] szArr = new String[] { "noun noun" , "noun c\u1ee7a noun" , "noun verb" , "noun adjective" , "noun verb noun" , "noun noun verb" , "noun mà verb noun" , "noun noun c\u0169ng verb" , "noun verb noun noun verb" , "noun verb noun noun noun verb" , "noun verb prep noun" , "verb prep noun" , "noun verb noun noun" , "verb noun noun" , "noun mà noun verb noun" , "noun mà noun verb cho noun" , "noun noun verb noun" , "noun verb noun cho noun" , "noun verb noun verb" , "verb noun verb" , "noun mà noun verb verb" , "noun noun verb verb" , "noun noun c\u0169ng verb verb" , "verb noun c\u0169ng verb noun" , "noun verb verb" , "verb verb" , "noun verb verb verb" , "verb verb verb" , "noun adjective verb" , "adjective verb" , "adjective noun c\u0169ng verb" szArr, luật Phụ lục 108 , , , , , , , , , , , , , , , , , , , , , , , , , , "noun adjective noun" "adjective noun" "noun adjective prep noun" "adjective prep noun" "noun verb adjective" "noun adverb adjective" "verb adjective" "noun adverb adjective" "adverb adjective" "article noun" "adjective adverb" "verb adjective adjective" "noun adverb trans verb noun" "adverb trans verb noun" "noun trans verb noun adverb" "trans verb noun adverb" "verb verb noun" "noun adjective adjective" "noun adjective conj adjective" "adjective conj adjective" "prep noun" "noun adjective verb adjective " "adjective verb adjective " "noun adjective adjective verb adjective" "noun adjective adjective verb" "noun adjective verb adjective adjective" }; LexiconCheckStyle myCheck = new LexiconCheckStyle(new StringReader("")); int iSize = szArr.length; for (int i = 0; i < iSize; i++) { String szTmp = szArr[i]; System.out.print("szTmp : " + szTmp); try { myCheck.ReInit(new StringReader(szTmp)); myCheck.Input(); System.out.println(" => Good "); } catch (Exception ex) { ex.printStackTrace(); } catch (Error er) { System.out.println(" =====================> Bad "); } } Phụ lục 109 A.5 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT STT Từ tiếng Anh Từ tiếng Việt 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 algorithm assign cache capitalized word class class-based generalization cluster collocation corpora corpus debug edge generalization hypothesis infection information extraction keyword system lexical acquisition linear interpolation link machine translation machine-readable dictionaries mean member method mode mutual information natural language processing natural language querying node null hypothesis parameter values parse part-of-speed (PoS) tagged corpus pattern phrase preprocessing property punctuation mark giải thuật ấn định từ viết hoa lớp tổng quát hóa theo sở phân cấp cụm nhóm từ tập sưu liệu tập sưu liệu kiểm tra lỗi cạnh Generalization giả thuyết ảnh hưởng lan truyền trích xuất thơng tin hệ thống từ khóa thu nhận từ vựng nội suy tuyến tính đường nối dịch tự động máy từ điển mà máy tính đọc khoảng phận cách thức kiểu, loại thông tin tương hỗ xử lý ngơn ngữ tự nhiên tìm kiếm ngơn ngữ tự nhiên nút giả thuyết rỗng giá trị tham số phân tích ngữ pháp tài liệu gán nhãn từ loại mẫu cụm từ tiền xử lý đặc tính dấu chấm câu Phụ lục 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 random variable seed word seleted set semantic semantic argument semantic similarity semantic similarity sentence similarity-based generalization smoothed values speech recognition spelling correction statistical target set text text corpora training uniform prior unseen events unsupervised method variance vector normalize vector space word word sense disambiguation 110 thay đổi ngẫu nhiên từ gốc tập chọn lựa ngữ nghĩa lập luận ngữ nghĩa tương đồng ngữ nghĩa tương tự ngữ nghĩa câu tổng quát hóa theo sở tương tự giá trị mịn nhận dạng tiếng nói sốt lỗi tả thống kê tập nguồn văn tập tài liệu dạng văn huấn luyện mức độ trường hợp không lường trước phương pháp không cần giám sát khác vector chuẩn hóa khơng gian vector từ giải nhập nhằng nghĩa từ ... Thu nhận cụm từ vựng (lexicon acquisition) dựa thu? ??c tính cú pháp ngữ nghĩa từ tiếng Việt phương pháp xác suất II NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ đề tài nghiên cứu thu? ??t toán thu nhận cụm từ vựng. .. tiếng Việt, từ tổ từ có hai hay nhiều hai thực từ câu có quan hệ với ngữ nghĩa ngữ pháp Nói cách khác, từ tổ hiểu cụm từ Các từ hay nhóm từ tổ phải có quan hệ với mặt từ vựng cú pháp Trong từ tổ... ngôn ngữ tự nhiên, vấn đề ngữ nghĩa (semantic) trở ngại lớn Ngữ nghĩa bao gồm: ngữ nghĩa từ (word), ngữ nghĩa cụm từ (phrase) ngữ nghĩa câu (sentence) Bên cạnh vấn đề ngữ nghĩa thông dụng ngữ nghĩa

Định dạng
Số trang	121
Dung lượng	1,11 MB