Sắp xếp nhóm các từ tiếng việt bằng phương pháp xác xuất ứng dụng cho từ vựng học tính toán

Đại Học Quốc Gia TP.Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA =====//===== LUẬN VĂN THẠC SĨ SẮP XẾP, NHÓM CÁC TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP XÁC SUẤT & ỨNG DỤNG CHO TỪ VỰNG HỌC TÍNH TỐN CHUN NGÀNH: CƠNG NGHỆ THƠNG TIN MÃ SỐ NGÀNH: 01.02.10 ĐÀO HỒNG VIỆT TP.HỒ CHÍ MINH, tháng năm 2004 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS.TS PHAN THỊ TƯƠI Cán chấm nhận xét 1: TS CAO HOÀNG TRỤ Cán chấm nhận xét 2: TS NGUYỄN XUÂN DŨNG Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 29 tháng năm 2004 Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: ĐÀO HOÀNG VIỆT Ngày,tháng,năm sinh: 29/3/1976 Chuyên ngành: CÔNG NGHỆ THÔNG TIN Phái: Nam Nơi sinh: Biên Hoà Mã số: CNTT13.026 I TÊN ĐỀ TÀI: SẮP XẾP, NHÓM CÁC TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP XÁC SUẤT & ỨNG DỤNG CHO TỪ VỰNG HỌC TÍNH TỐN II NHIỆM VỤ VÀ NỘI DUNG: - Xây dựng corpus tiếng Việt Xây dựng bảng chuyển đổi mã cho font tiếng Việt Xây dựng giải thuật để tìm collocation phương pháp t-test, chisquare-test, likelihood ratios Đánh giá độ phức tạp giải thuật phương pháp So sánh kết phương pháp III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương): IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận án tốt nghiệp): V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS PHAN THỊ TƯƠI VI HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1: TS CAO HOÀNG TRỤ VII HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2: TS NGUYỄN XUÂN DŨNG CÁN BỘ HƯỚNG DẪN PGS.TS PHAN THỊ TƯƠI CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÍ NGÀNH TS DƯƠNG TUẤN ANH Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua Ngày 29 tháng năm 2004 PHỊNG QLKH-SĐH KHOA QUẢN LÍ NGÀNH TS CAO HỒNG TRỤ LỜI CẢM ƠN Trong kỷ 21 này, ngành khoa học máy tính ngày phát triển với tốc độ nhanh không phần cứng mà phần mềm vậy, thay đổi nhanh khoa học cơng nghệ Để có thành tựu người phải lao động miệt mài không với ý chí, tư duy, cần cù, mà thân họ không ngừng học hỏi trao đổi kinh nghiệm cho Các hệ sau thừa hưởng thành tựu khoa học nhà khoa học trước để lại Vì hệ phải biết nhìn nhận vấn đề ghi lòng cảm ơn họ Đề tài thực với hướng dẫn nhiệt tình PGS.TS Phan Thị Tươi đóng góp chân tình q hữu gia đình, hồn tất thời hạn cho phép Đề tài tránh sai sót, tác giả mong đóng góp người để đề tài hoàn thiện Một lần tác giả xin chân thành cảm ơn Cô Phan Thị Tươi, quý hữu gia đình TP.HCM, ngày 19 tháng năm 2004 Người thực Đào Hoàng Việt TÓM TẮT LUẬN VĂN THẠC SĨ SẮP XẾP, NHÓM CÁC TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP XÁC SUẤT & ỨNG DỤNG CHO TỪ VỰNG HỌC TÍNH TỐN Sắp xếp nhóm từ (collocation) nhóm từ gồm hai hay nhiều từ chung với tạo nên cụm từ mang ý nghĩa đặc trưng, tức nghĩa cụm từ khơng thể nghĩa từ đơn mà ghép lại, ví dụ như: “Crystal clear”, “middle management”, “nuclear family” and “cosmetic surgery”, từ chung với tạo nên danh từ ghép như: “ridding boot” or “motor cyclist”, Trong tiếng Việt collocation tương đương với từ phức mà từ phức gồm có dạng: từ láy từ ghép, ví dụ như: hội nghị, định, lúng ta lúng túng, lùng bùng, Một số phương pháp số học thống kê dùng đề trích lọc collocation từ corpus mà thân quen là: phương pháp t test, chiSquare test, likelihood ratios, phương pháp đáng tin cậy triển khai trường Đại Học lớn như: Cambridge Unniversity, Oxford University, Edinburgh University ABSTRACT Collocation is the relationship between two words or groups of words that often go together and form a common expression If the expression is heard often, the words becom “glue” together in our minds “Crystal clear”, “middle management”, “nuclear family” and “cosmetic surgery” are examples of collocated pairs of words Some words are often found together because they make up a compound noun, for example “ridding boot” or “motor cyclist” In the Vietnames linguistic, collocation is Tu Phuc that included of Tu Lay and Tu Ghep, for example “Hoi nghi”, “Quyet dinh”, “Lung ta lung tung”, “Lung bung”, etc The application of statistical approaches to problems in natural language processing generally requires large (1,000,000+ words) corpora to produce useful results In this thesis we show that a well-known some statistical technique, such as the t test, the Chisquare test, the Likelihood ratios can be applied to corpora that was previously thought possible to extract collocation, by relying on semantic features rather than lexical items in a corpus of limited domain These methods are more reliable that be used in Cambridge University, Oxford University, Edinburgh University, MỤC LỤC Lời cảm ơn Chương 1: Giới thiệu Chương 2: Những nghiên cứu có liên quan 10 hướng giải Chương 3: Cơ sở lý thuyết thống kê 13 Chương 4: Cơ sở lý thuyết ngôn ngữ học 25 Chương 5: Sắp xếp nhóm từ (collocation) 34 Chương 6: Hiện thực chương trình DEMO 61 Chương 7: Kết luận 85 Tài liệu tham khảo 88 CHƯƠNG GIỚI THIỆU Ngôn ngữ với tư cách công cụ giao tiếp tư người, ngôn ngữ xem phương tiện trọng yếu dùng để chuyển tải tri thức khoa học ngành khoa học Khơng có mơn khoa học mà khơng sử dụng phương tiện ngôn ngữ công cụ để nắm bắt lưu giữ thơng tin Vì vậy, khoa học nghiên cứu ngơn ngữ có tác dụng hỗ trợ cho ngành khoa học khác sử dụng cơng cụ ngơn ngữ bình diện cách có hiệu Khơng thế, ngơn ngữ học cịn mơn khoa học đời lâu chưa phát triển triệt để, mơn khoa học xem hồn thiện cho hầu hết ngơn ngữ thuộc Quốc gia Thế giới nói chung Việt Nam nói riêng Ngơn ngữ học nghiên cứu vấn đề ngơn ngữ tự nhiên, vấn đề là: văn phạm, cú pháp, ngữ nghĩa, phát âm, để làm điều cách hiệu nhanh chóng việc xử lí vấn đề liên quan ngơn ngữ hay cịn gọi xử lí ngơn ngữ tự nhiên cần phải có cơng cụ trợ giúp – máy tính Vì Ngành khoa máy tính xem cơng cụ hổ trợ đắc lực khơng cho ngành ngơn ngữ học nói riêng mà cho tất ngành nghề thuộc lĩnh vực khác Trên giới người ta đạt nhiều thành công ứng dụng liên quan đến vấn đề xử lí ngơn ngữ tự nhiên, ví dụ như: phân tích câu có văn phạm, cú pháp hay không ?, ứng dụng biên dịch từ ngôn ngữ sang ngôn ngữ khác cụ thể dịch tiếng Anh sang tiếng Việt ngược lại [4], phần mềm ứng dụng nhận dạng tiếng nói người từ thực số chức nhằm đáp ứng ý muốn người u cầu Ngơn ngữ tự nhiên có nhiều khía cạnh đáng quan tâm nghiên cứu, khía cạnh mà đề tài muốn đề cập đến Collocation – thu gom xếp từ cách hợp lý Để giản tiện đề tài dùng từ collocation cho ngắn gọn Việc thu gom xếp từ cách hợp lý có nghĩa tài liệu tìm cụm từ mà chúng có nghĩa đặc biệt tức nghĩa cụm từ không dẫn xuất từ nghĩa thành phần cụm từ đó, chí khơng thể thay thành phần cụm từ từ khác cụm từ gọi collocation hay nói cách khác collocation mối quan hệ từ hay nhóm từ mà thường chung với lập nên thể thơng thường (common expression), ví dụ collocation: Crystal clear, middle management, nuclear family cosmetic survey, strong tea, make a decision, make up, Khơng thể thay thành phần cụm từ “strong tea” “powerful tea”, hay cụm từ “make a decision” từ khác chẳng hạn do, take Một số từ thường chung với chúng tạo nên danh từ ghép riding boots, motor cyclist Một ví dụ khác collocation cụm từ: locked in mortal combat (involed in a aeriuos fight), bright eyed and bushy tailed (fresh and reday to go), red in the face (embarrassed), blue in the face (angry) Nhưng không sử dụng: yellow in the face hay green in the face Do từ “red” hay “blue” thường chung với “in the face” Bên cạnh khơng thể khơng nói đến cụm từ mà hầu hết người người xứ phải học thuộc hiểu nghĩa câu thành ngữ, câu thành ngữ (cụm từ) xem corpus tất yếu khơng cần giải thích – mang tính thừa nhận, hay hiểu theo nghĩa khác chúng tồn dạng mẫu qui ước, thay đổi CHƯƠNG NHỮNG NGHIÊN CỨU CÓ LIÊN QUAN & HƯỚNG GIẢI QUYẾT 2.1 Những nghiên cứu có liên quan Ngơn ngữ có hai mặt: mặt cấu trúc mặt chức Hai mặt có tính độc lập tương đối; đồng thời, có gắn bó khăng khít với Ðề cập tới mặt chức nhắm tới phạm vi vấn đề xã hội - ngơn ngữ học, đó, tương tác ngôn ngữ với khoa học xã hội khác mối quan hệ hai chiều, chẳng hạn mối quan hệ ngôn ngữ học với dân tộc học, lịch sử học, tâm lý học, địa lý học, văn học, Trên giới, nghiên cứu triển khai ứng dụng collcation vào q trình xử lí ngơn ngữ tự nhiên thống kê (statistical Natural Language Processing – statistical NLP) áp dụng ngôn ngữ cụ thể tiếng Anh, tiếng Pháp, Ngoài cịn có phối hợp chặt chẻ với ngành khoa học máy tính - xem cơng cụ hổ trợ đem lại nhiều thành công Hơn nữa, collocation cịn có vai trị quan trọng đến lĩnh vực statistical NLP chẳng hạn như: 1) Dịch máy (machine translation) - từ dịch theo nhiều nghĩa khác tùy thuộc vào collocation mà từ xuất corpus; 2) Phục hồi thông tin (information retrieval) hệ thống thiết lập hay nhiều bảng bảng mục lục để lưu trữ cụm từ đáng quan tâm, có nghĩa, cụm từ mang nghĩa đặc biệt hay collocaion rút trích từ corpus tích luỹ collocation tạo nên sở liệu collocation, bổ sung vào từ điển học dùng cho nhiều mục đích sau Sau số kết nghiên cứu ngồi nước có liên quan đến đề tài: Những kết nghiên cứu nước Do đề tài chưa triển khai nước cho lĩnh vực tiếng Việt, chưa có đề án nghiên cứu khác có liên quan đến đề tài Những kết nghiên cứu nước 1) Scale log likelihood ratios for detection of abbreviations in text corpora Tibor Kiss and Jan Strunk, Ruhr-Universiti Bochum ([15]) 10 Tìm collocation phương pháp likelihood ratios (File thử nghiệm test-0.txt) 76 Tiếp theo phương pháp likelihoodRatios test ( ) 77 Kết chương trình demo Chương trình DEMO sử dụng nguồn liệu cho đầu vào để thủ nghiệm file corpus tiếng Việt: filetest.txt, chứa khoảng 27 ngàn từ với nội dung corpus bao gồm nhiều lĩnh vực văn hố xã hội Sau chạy chương trình DEMO (sử dụng phương pháp thống kê số học: t-test, chisquare test, likelihood ratios), ta có file chứa liệu sau: List of word.txt: thống kê số lần xuất từ đơn List of couple word.txt: thống kê số lần xuất cặp từ Collocation for t_test.txt: collocation thu gom áp dụng phương pháp t-test Collocation for likelihoodRatios.txt: collocation thu gom áp dụng phương pháp likelihood ratios Collocation for ChiSquare test.txt: collocation thu gom áp dụng phương pháp ChiSquare test Nhận định độ xác phương pháp: - Phương pháp t-test thu lượm số lượng collocation cho kết xác khoảng 72% - Phương pháp chiSquare test phương pháp thu lượm số lượng collocation nhiều nhất, với độ xác khoảng 60% - Phương pháp likelihood ratios thu lượm số lượng collocation trung bình so với phương pháp trên, độ xác khoảng 70% Việc đánh giá độ xác phương pháp mang tính tương đối, độ xác kết cịn tuỳ thuộc vào liệu đầu vào (sự rời rạc liệu) Mặt khác, kết có từ phương pháp cặp từ thoả điều kiện mức ngưỡng để trở thành collocation, tiếng Việt có số cặp từ collocation, việc xác định chúng có collocation hay khơng? chủ yếu dựa tiêu chí “cấu tạo từ tiếng Việt” (chương 4) sở cho việc đánh giá độ xác (tương đối) phương pháp số học Sau bảng thống kê so sánh kết chạy chương trình DEMO corpus tiếng Việt với kích thước liệu đầu vào khác nhau: 78 File để thử nghiệm test.txt (3KB) File để thử nghiệm test-2.txt (71KB) File để thử nghiệm Phương pháp test t-test Likelihood ratios Chisquare test Phương pháp test t-test Likelihood ratios Chisquare test Phương pháp test Số token N Số collocation 416 416 Số cặp từ thông thường 332 332 416 332 328 Số token N Số collocation 10947 10947 Số cặp từ thông thường 4388 4388 10947 4388 4045 Số token N Số cặp từ thông thường 18098 18098 Số collocation 18098 16242 Số cặp từ thông thường 46858 46858 Số collocation 46858 No execute Số cặp từ thông thường 63790 63790 Số collocation 63790 No execute t-test 46075 test-3.txt Likelihood 46075 ratios (285KB) Chisquare test 46075 (phương pháp ChiSquare-test chạy lâu) File để thử nghiệm Phương pháp test Số token N t-test 162830 test-4.txt Likelihood 162830 ratios (1000KB) Chisquare test 162830 (phương pháp ChiSquare-test chạy lâu) File để thử nghiệm Phương pháp test Số token N t-test 245106 Likelihood 245106 ratios Chisquare test 245106 (phương pháp ChiSquare-test chạy lâu) test-5.txt (1511KB) 255 117 1914 612 7571 2566 14693 3858 19517 79 File để thử nghiệm Phương pháp test Số token N Số cặp từ thông thường 124456 124456 t-test 613974 Likelihood 613974 ratios Chisquare test 613974 124456 (phương pháp ChiSquare-test chạy lâu) test-6.txt (3804KB) Số collocation 10856 37027 No execute Tiếp theo phần đánh giá độ phức tạp giải thuật ứng với phương pháp thống kê số học 80 6.2 ĐÁNH GIÁ ĐỘ PHỨC TẠP CỦA GIẢI THUẬT (phương pháp t-test & likelihoodRatios & ChiSquare-test) STT Phương thức main() staticWord() t_test_Method() likelihoodRatios_Method() chiSquare_test_Method() saveListOfWord() saveListOfCoupleWord() saveListOfCollocation_t_test() saveListOfCollocation_likelihoodRatios() saveListOfCollocation_chiSquare_test() Độ phức tạp 0(nk)/ 0(ln2) 0(nk) 0(nk) 0(nk) 0(ln2) 0(nk) 0(nk) 0(nk) 0(nk) 0(nk) staticWord() while(n){ if(stringRejectIndexOf()) -> else processingOftainedOfTemp() -> k } if(i>0) processingOftainedOfTemp() -> k 0(nk) 0(nk) processingOftainedOfTemp() doWith_LISTWORDS() doWith_COUPLEWORDS() signTempToTempSE() 0(k) 0(k) 0(k) 0(k) doWith_LISTWORDS() processingBeforInsertItemIntoDatabase() if(!checkExistOfTempInDatabase()) -> insertTempIntoDatabase() -> k else updateTempInDatabase() -> k 0(k) 0(k) doWith_COUPLEWORDS() If(tempSE[0] != 0) if(!checkExistOfCoupleWordInDatabase ()) -> insertCoupleWordIntoDatabase() -> k else updateCoupleWordInDatabase() -> k 0(k) copyTempToTempSE() for(độ dài temp[]) -> k 0(k) checkNullHypothesis_OF_t_test() t = valueOfTesting() -> if(t < t_alpha4) -> 0(1) 81 temp =true else temp = false checkNullHypothesis_OF_likelihoodRatios() minus2Alpha = valueOfminus2logAlpha() -> if(minus2Alpha < Xsquare_alpha) -> temp =true else temp = false 0(1) checkNullHypothesis_OF_chiSquare_test() valueOfChiSquare() -> ln 0(ln) 10 valueOFChiSquare() chiSquare_notW1_W2() -> ln chiSquare_W1_notW2() -> ln 0(ln) 11 chiSquare_notW1_W2() for(số từ couple_words) -> ln 0(ln) 12 chiSquare_W1_notW2() for(số từ couple_words) -> ln 0(ln) 13 insertCollocationIntoDatabase_OF_t_test() 0(1) 14 insertCollocationIntoDatabase_OF_likelihoodRat ios() 0(1) 15 processingBeforeInsertItemIntoDatabase() while(độ dài biến temp[]) -> k 0(k) 16 savListOfWord() for(số từ d/s list_words) -> n for(độ dài chuỗi - từ) -> k 0(nk) 17 savListOfCoupleWord() for(số từ d/s couple_words) -> n/3 for(độ dài chuỗi - cặp từ) -> 2k 0(nk) 18 savListOfCollocation_t_test() for(số cặp từ d/s collocation_t_test) -> n for(độ dài chuỗi - cặp từ) -> 2k 0(nk) 19 savListOfCollocation_likelihoodRatios() for(số cặp từ d/s collocation_likelihoodRatios) -> n for(độ dài chuỗi - cặp từ) -> 2k 0(nk) 20 valueOfTesting_t() average_general = P(x) x P(y) 0(1) 82 21 valueOfminus2logAlpha() 0(1) 22 Px() 0(1) 23 Pxy() 0(1) 24 resetVariable_TEMP() for(độ dài biến temp[]) -> k 0(k) 25 resetVariable_TEMP2() for(độ dài biến temp2[]) -> k 0(k) 26 sumOfComponent_OF_TEMP() while(độ dài biến temp[]) -> k 0(k) 27 signTempToTempSE() copyTempToTempSE() -> k resetVariable_TEMP() -> k 0(k) 28 checkExistOfTempInDatabase() 0(1) 29 checkExistOfCoupleWordInDatabase() changeTempSEFromIntToString() -> k changeTempFromIntToString() -> k 0(k) 30 t_test_Method() for(số từ d/s couple_words){ -> ln nullHypothesis = checkNullHypothesis_OF_t_test() -> if(!ullHypothesis){ insertCollocationIntoDatabase_O F_t_test() -> } } 0(ln) 31 likelihoodRatios_Method() for(số từ d/s couple_words){ -> ln nullHypothesis = checkNullHypothesis_OF_likelihoodRat ios() -> if(!ullHypothesis){ insertCollocationIntoDatabase_O F_likelihoodRatios() -> } } 0(ln) 32 chiSquare_test_Method() for(số từ d/s couple_words){ -> ln nullHypothesis = checkNullHypothesis_OF_chiSquare_tes t() -> ln if(!ullHypothesis){ insertCollocationIntoDatabase_O F_chiSquare_test() -> 0(ln2) 83 } } 33 updateCoupleWordInDatabase() changeTempSEFromIntToString() -> k changeTempFromIntToString() -> k 0(k) 34 insertCoupleWordIntoDatabase() changeTempSEFromIntToString() -> k changeTempFromIntToString() -> k 0(k) 35 insertTempIntoDatabase() changeTempFromIntToString() -> k 0(k) Qua bảng đánh giá độ phức tạp phương thức phương pháp giải thuật, ta có đánh giá chung độ phức tạp phương pháp: - Nếu sử dụng phương pháp t-test: 0(nk) 30, độ dài biến temp[]) (trong k = - Nếu sử dụng phương pháp likelihoodRatios: 0(nk) (trong k = 30, độ dài biến temp[]) - Nếu sử dụng phương pháp chiSquare-test: 0(ln2) (trong l < 1) (xét phương thức main()) Căn vào nhận xét đánh giá ta rút kết luận sau: - Phương pháp t-test phương pháp likelihood ratios tuyến tính với liệu đầu vào, giải thuật chạy nhanh - Phương pháp chisquare test độ phức tạp tỉ lệ với bình phương liệu đầu vào, kích thước liệu đầu vào lớn (>= 46 ngàn từ) chương trình chạy lâu Do phương pháp khơng khả thi chạy với liệu đầu vào lớn 84 CHƯƠNG Kết luận Sắp xếp, nhóm từ tiếng Việt phương pháp xác suất ứng dụng cho từ vựng học tính tốn hay nói tóm gọn theo tiếng Anh Collocation, đề tài thực nhiều ngôn ngữ tiếng Anh (Oxford University Press, Cambridge University Press, Bublin city University, Prentice Hall, ), tiếng Đức (Tubingen Gunter Narr, Univertitat des Saarlandes, ), tiếng Nhật (Nara Instintute of Science and Technology, Central Research Laboratoty Hitachi Ltd, ), riêng Việt Nam chưa có đề tài thực phần Kết phần thực sở liệu collocation, sở liệu bổ sung vào từ điển học nhằm làm phong phú đa dạng nội dung, đồng thời phục vụ cho đề tài liên quan đến xử lý ngôn ngữ tự nhiên sau Sau kết mà đề tài đạt được, bên cạnh cịn có hạn chế mà đề tài chưa khắc phục hạn chế thời gian Kết mà đề tài đạt - Xây dựng bảng mã chuyển đổi cho gõ tiếng Việt khác nhau, quan tâm gõ thông dụng nay: VietFLEX, VietKEY - Xây dựng đoạn code xử lý corpus mà nội dung bên có sử dụng gõ - Xây dựng corpus tiếng Việt cách thu thập đoạn văn website, tập tin văn có sẵn, thuộc nhiều chủ đề như: chủ đề xã hội, văn hoá, giáo dục, gia đình, luật pháp, với số lượng từ khoảng 600 ngàn từ - Xây dựng giải thuật để tìm collocation phương pháp thống kê số học: t-test, chisquare test, likelihood ratios - Xây dựng chương trình DEMO để thực giải thuật corpus tiếng Việt Do sử dụng phương pháp thống kê số học nên kết đem lại xác 75% , corpus lớn độ xác cao (đó ưu điểm thống kê số học) - Căn vào kết thực thi phương pháp ta thấy ưu khiếm khuyết chúng 85 Những hạn chế đề tài - Khơng có sẵn corpus tiếng Việt - Chưa có sẵn sở liệu phân loại từ để phối hợp phương pháp Hypothesis testing với Heuristic Filter để tăng độ xác kết (nhằm loại bỏ số bigram xuất với tần suất ngẫu nhiên cao thoả điều kiện mức ngưỡng để trở thành collocation) Ứng dụng collocation lĩnh vực xử lý ngơn ngữ tự nhiên - Phân tích văn phạm câu ([1]) - Trong hệ thống dịch máy ([1],[28]) - Tạo sinh ngôn ngữ - đảm bảo cho đầu ứng dụng nghe hợp lí tự nhiên, tránh mắc phải sai lầm “powerful tea” hay “take a decision” ([1]) - Tính tốn từ vựng - xác định collocation cách tự động sau đưa vào danh sách từ điển ([1]) - Phân tích nghiên cứu ngơn ngữ, ví dụ nghiên cứu ngơn ngữ giao tiếp – xã hội, làm tăng tính phong phú đa dạng kiểu mẫu văn hố thơng qua ngôn ngữ (Stubbs 1996, [1]) - Sử dụng collocation cho vấn đề phân đoạn chủ đề phát mối liên kết ([29]) - Sử dụng Reiteration collocation cho text segmentation ([30]) Hướng phát triển đề tài - Xây dựng đoạn code xử lý chung cho gõ (VietKey, VietFlex, UniKey, VPSKeys, WinVNKeys, VNI, VietWare ) font tiếng Việt (BK, VNI, UNICODE, ABC) - Xây dựng sở liệu phân loại từ, phối hợp với Heuristic POS để lọc cặp từ thoả điều kiện mức ngưỡng để trở thành collocation thực chất collocation mà chúng xuất cách ngẫu nhiên, cặp từ gọi Function word, nhằm làm tăng độ xác kết - Có thể song song hoá giải thuật (chỉ triển khai phương pháp thống kê t-test likelhood ratios) Do đó, giải thuật sau viết lại dạng thực thi song song để chạy mơ hình nhiều máy hay máy có nhiều 86 processors (hỗ trợ thực thi song song) thời gian khơng vấn đề 87 Tài liệu tham khảo [1] Christopher D.Maning And Schütze, Foundation of Statical Natural Language Processing, The MIT Press Cambridge, Massachusetts London, England [2] James Allaen, Natural Language Understanding, University of Rochester [3] Chris Gledhill, Collocation and the rhetoric of scientific ideas Corpus linguistics as a methodology for genre analysic, Aston University, LES, Birmingham B4 7ET, UK [4] Garside, R.G (1993) The Large-scale Production of Syntactically-analysised Corpora, Literary and Linguistic Computing [5] Garside, R.G, Leech, G.N, and Sampson, G.R (eds) (1987) The Computational Analysis of English: A Corpus-based Approach Longman, London [6] Leech, G.N, and Garside, R.G (1991), Running a Grammar Factory: the Production of Syntacally Analysed Corpora or “Treebanks” In English Computer Corpora: Selected Papers and Research Guide edited by S.Johansson and A.Stenstronm, Mouton de Gruyter, Berlin [7] Marshall, I(1983) Choice of Grammatical Word-class without Global Syntactic Analysis: Tagging Words in the LOB Corpus [8] J.R.Firth (1930’s), M.A.K.Halliday, John Sinclair and Dr.Paul Hays Lexis, collocation, and corpus studies [9] K.W.Church – A stochastic parts program and noun phrase parser for unrestricted text Proceedings of the Second Conference on Applied Natural Language Processing, 1988 [10] E.Brill – A Corpus-Based Approach to Language Learning PhD Thesis, University of Pennsylvania, 1993 [11] Dorothy Kenny, Poster – Creatureof Habit? What collocation can tell us about translation [12] Oliver Ferret, Using collocation for topic segmentation and link detection, Rout du Panorama – BP6 [13] Pavel Kveton and Karel Oliva, (Semi) Automatic detection of errors in PoS-Tagged copora [14] Reinhard Rapp, The computation of word associations: Coparing syntagmatic and paradigmatic approaches, University of Mainz, FASK [15] Tibor Kiss and Jan Strunk, Scaled log likelihood ratios for detection of abbreviation in text corpora [16] Eisner, Jason, Three new probabilistic models for dependency parsing, 1996 88 [17] Phan Thị Tươi, “Trình Biên Dịch”, Nhà xuất Giáo dục, 1996 [18] Phan Thị Tươi, Báo cáo nghiệm thu đề tài nghiên cứu khoa học - “Xử lý ngơn ngữ tự nhiên máy tính ứng dụng việc dịch xuôi, ngược Anh - Việt” [19] Đinh Điền, Thái Nguyễn Hoàng Nhã, Tiền xử lý dịch máy Anh – Việt, Đại Học Quốc Gia Tp.HCM [20] GS.TSKH Hoàng Kiếm, Đinh Điền, Văn phạm CASE dịch máy, Đại Học Quốc Gia Tp.HCM [21] Lê Trung Tương, Lê Hồng Vân, Huỳnh Văn Sáu, “Giáo trình lý thuyết xác suất thống kê toán học”, Trường Đại Học Bách Khoa Tp.HCM, 1992 [22] Hoàng Ngọc Nhậm, “Xác suất thống kê”, Trường Đại Học Kinh Tế, 1996 [23] Hoàng Văn Sơn, “Giáo trình lý thuyết thống kê”, Trường Đại Học Kinh Tế, 2004 [24] Diệp Quang Ban – Ngữ pháp tiếng Việt (2 tập), NXB Giáo dục, 2001 [25] Bùi Quang Tịnh, Bùi Thị Tuyết Khanh, Từ Điển tiếng Việt, Viện Ngôn Ngữ Học, 2001 [26] Tài liệu tiếng Việt Văn phạm Ngữ nghĩa, NXBGD 1989 [27] Lukasz Debowski, Statistical tests for detection of collocations, Institute of computer science, Polish Academy of Sciences, 10/2000 [28] Teaching collocation: Further Developments in the Lexical Approach, Oxford University Press, http://wwwwriting.berkeley.edu/TESL-EJ/ej16/r12.html [29] Olivier FERRET, Using collocations for topic segmentation and link detection, Route du Panorama, olivier.ferret@cea.fr [30] Jobbins A And Evett L (1988), Text segmentation Using Reiteration and Collocation, ACL-COLLING, 1998 [31] Title Details – Cambridge University Press, http://titles.cambridge.org/catalogue 89 TÓM TẮT LÝ LỊCH TRÍCH NGANG Họ tên: ĐÀO HỒNG VIỆT Ngày, tháng, năm sinh: 29/3/1976 Nơi sinh: TP Biên Hoà Địa liên lạc: 557/T14 Nguyễn Tri Phương, P.14, Q.10, TP Hồ Chí Minh Q TRÌNH ĐÀO TẠO - Từ năm 1993 đến năm 1998: Học Đại Học Bách Khoa TP.HCM, chuyên ngành Địa Chất Dầu Khí - Từ năm 1999 đến năm 2001: Học Đại Học Bách Khoa TP.HCM, chuyên ngành Công Nghệ Thông Tin - Từ năm 2002 đến 2004: Học cao học khoá 13 (niên khoá 2002), trường Đại Học Quốc Gia TP.HCM, Đại Học Bách Khoa Q TRÌNH CƠNG TÁC - Từ năm 2000 đến năm 2001: Công tác Trường SaiGonTech, Trung Tâm Công Nghệ Phần Mềm Quang Trung - Từ năm 2003 đến năm 2004: Công Tác Cty TNHH XÂY DỰNG NAM LONG 90 ... Hồng Việt TĨM TẮT LUẬN VĂN THẠC SĨ SẮP XẾP, NHÓM CÁC TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP XÁC SUẤT & ỨNG DỤNG CHO TỪ VỰNG HỌC TÍNH TỐN Sắp xếp nhóm từ (collocation) nhóm từ gồm hai hay nhiều từ chung... khác biệt quan trọng với từ Việt Ngoài lớp từ vay mượn từ tiếng Hán, hệ thống từ vựng tiếng Việt cịn có lớp từ vay mượng từ tiếng Pháp, tiếng Anh Chẳng hạn: - Từ tiếng Pháp: khăn mù xoa, cà vạt,... phú thêm cho lớp từ vựng chung - từ toàn dân Thường tiếng Việt, nhà ngơn ngữ học nhìn nhận 32 có hai lớp từ vựng địa phương bản, từ địa phương Bắc bộ, thường xem từ toàn dân, từ địa phương Nam

Định dạng
Số trang	90
Dung lượng	1,4 MB