Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 121 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
121
Dung lượng
1,11 MB
Nội dung
Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA - TRƯƠNG KIM MINH THU NHẬN CỤM TỪ VỰNG DỰA TRÊN THUỘC TÍNH CÚ PHÁP VÀ NGỮ NGHĨA CỦA CÁC TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP XÁC SUẤT Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, THÁNG 11 NĂM 2004 i CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS.TS Phan Thị Tươi (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ HỢP ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ngày … tháng … năm 2004 ĐẠI HỌC BÁCH KHOA, ii TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÒNG ĐÀO TẠO SĐH oo0oo CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc oo0oo – Tp.HCM, ngày … tháng … năm 2004 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Ngày tháng năm sinh: Chuyên ngành: TRƯƠNG KIM MINH 08 - 08 - 1977 Công Nghệ Thông Tin Phái: Nam Nơi sinh: TP.HCM Mã số ngành: 01.02.10 I TÊN ĐỀ TÀI: Thu nhận cụm từ vựng (lexicon acquisition) dựa thuộc tính cú pháp ngữ nghĩa từ tiếng Việt phương pháp xác suất II NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ đề tài nghiên cứu thuật toán thu nhận cụm từ vựng với việc sử dụng thêm thuật toán xác suất để tiến hành phân tích, thu nhận cụm từ vựng từ văn tiếng Việt thêm xác III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) : IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận án tốt nghiệp): V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS Phan Thị Tươi CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH PGS.TS Phan Thị Tươi TS Dương Tuấn Anh BỘ MÔN QUẢN LÝ NGÀNH Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua PHÒNG ĐÀO TẠO SAU ĐẠI HỌC Ngày …… tháng …… năm 2004 KHOA QUẢN LÝ NGÀNH iii LỜI CẢM ƠN Trước tiên, xin gởi lời cảm ơn chân thành đến PGS.TS Phan Thị Tươi, người thầy giáo viên trực tiếp hướng dẫn, giúp đỡ, bảo thời gian học tập suốt thời gian làm luận văn Thạc sĩ Luận văn hồn thành thời hạn, có chất lượng chủ yếu nhờ cơng lao to lớn Cô Kế đến, xin gởi lời cảm ơn đến Thầy, Cô Khoa Công Nghệ Thơng Tin Thầy, Cơ Phịng Sau Đại Học trường Đại Học Bách Khoa TP Hồ Chí Minh rèn luyện, hướng dẫn thời gian tham gia học lớp Cao Học quý trường Xin chân thành cảm ơn bạn Mai Ngọc Anh, Lê Việt Tuấn, Dương Ngọc Hiếu, Lê Văn Tiến Sĩ, Quách Ngọc Đoan Trang bạn học lớp CNTT13, CNTT14 nhiều cách tạo điều kiện thuận lợi tận tình giúp đỡ tơi hồn thành tốt Luận Văn đạt kết khả quan sau kết thúc lớp Cao Học CNTT13 Sau cùng, thật thiếu sót lớn tơi khơng cảm ơn động viên, khích lệ, giúp đỡ gia đình tạo cho tơi động lực mạnh mẽ để làm tốt luận văn iv TĨM TẮT Luận văn có nhiệm vụ giải vấn đề phân tích, thu nhận cụm từ tiếng Việt cách tự động nhằm phục vụ, bổ sung sở liệu từ vựng cho số chương trình dịch máy khác, chương trình có khả xếp, nhóm từ tiếng Việt… có Luận văn đề xuất hướng tiếp cận cách kết hợp thuật tốn thu nhận nhóm từ (collocation) thuật toán thu nhận từ vựng nhằm mục đích thu nhận cụm từ tiếng Việt có độ xác cao Cơng việc bao gồm ba giai đoạn: − Sử dụng thuật toán thu nhận nhóm từ để thu danh sách nhóm từ với tần suất xuất (số lần mà cụm từ có xuất văn huấn luyện) định người dùng (tạm gọi danh sách A) − Sử dụng thuật toán thu nhận từ vựng để thu danh sách cụm từ theo ngữ pháp tiếng Việt (tạm gọi danh sách B) − Tiến hành đối chiếu để lấy từ vựng xuất danh sách A danh sách B Kết thực nghiệm cho thấy độ xác cụm từ thu theo cách tiếp cận cao so với kết thu riêng lẻ danh sách từ A hay B Bên cạnh kết thu theo hướng tiếp cận nêu trên, người dùng có danh sách từ vựng A hay B để sử dụng cho mục đích khác v ABSTRACT This thesis investigates how computers might be enabled to understand natural languages in a more humanlike way by acquiring right lexicons in test corpora These lexicons can be used as vocabulary database for some computer applications which translate texts from another language to Vietnamese, or some applications which can sort or collocate Vietnamese words… The thesis suggests a new method by joining results of some algorithms to acquire collocations and lexicon pharses in order to obtain more suitable lexicons That method can be defined as following three steps: − First, use some algorithms to acquire collocations, the results in this step is called as list A − Second, use some algorithms to acquire lexicons, the results in this second step is called as list B − Finally, comparing and getting those words that are present in both lists (A and B) The demonstration application of this thesis is also to provide the way for users to get individually list A or list B vi MỤC LỤC LỜI CẢM ƠN .iii TÓM TẮT iv ABSTRACT v MỤC LỤC vi DANH SÁCH CÁC BẢNG BIỂU, HÌNH ẢNH ix CHƯƠNG I : GIỚI THIỆU CHƯƠNG II : CÁC NGHIÊN CỨU LIÊN QUAN II.1 A GRAPH MODEL FOR UNSUPERVISED LEXICAL ACQUISITION [5] II.2 USING STATISTICS IN LEXICAL ANALYSIS [11] .10 CHƯƠNG III : CƠ SỞ LÝ THUYẾT 19 III.1 MỘT VÀI NÉT VỀ THUỘC TÍNH NGỮ NGHĨA CỦA CÁC TỪ TIẾNG VIỆT TRONG CÂU [17] 19 III.2 VỊ TRÍ VÀ QUAN HỆ LỆ THUỘC CỦA TỪ [17] 22 III.2.1 III.2.2 III.2.3 III.2.4 III.2.5 III.2.6 III.2.7 Tính từ chi phối trạng từ 24 Tính từ chi phối tính từ 24 Động từ chi phối trạng từ 25 Danh từ chi phối tính từ 25 Động từ chi phối tính từ 26 Động từ chi phối danh từ 26 Danh từ chi phối danh từ 26 III.3 GIỚI THIỆU TỔNG QUÁT VỀ HỆ THỐNG TỪ LOẠI CỦA TIẾNG VIỆT [9][13][15] 27 III.3.1 III.3.2 III.3.3 III.3.4 III.3.5 III.3.6 III.3.7 III.3.8 III.3.9 III.3.10 III.3.11 III.3.12 III.4 Danh từ 27 Động từ 27 Tính từ 28 Thời vị từ 28 Số từ 28 Hệ từ 28 Đại từ 28 Phó từ 29 Giới từ 29 Liên từ 29 Trợ từ 29 Thán từ 30 MỘT SỐ KHÁI NIỆM VỀ TỪ TỔ: [9][15][17] 30 III.4.1 Từ tổ danh từ 30 III.4.1.1 Từ tổ danh từ + danh từ 31 III.4.1.2 Từ tổ danh từ + thời vị từ 31 III.4.1.3 Từ tổ danh từ + số từ 31 III.4.1.4 Từ tổ danh từ + động từ (N V) 31 III.4.1.5 Từ tổ danh từ + tính từ 32 III.4.2 Từ tổ động từ 32 III.4.2.1 Từ tổ động từ + danh từ 32 vii III.4.2.2 Từ tổ động từ + thời vị từ 34 III.4.2.3 Từ tổ động từ + số từ 35 III.4.2.4 Từ tổ động từ + động từ 35 III.4.2.5 Từ tổ động từ + tính từ: 36 III.4.2.6 Từ tổ động từ + trạng từ: 36 III.4.3 Từ tổ tính từ 36 III.4.3.1 Từ tổ tính từ + danh từ 36 III.4.3.2 Từ tổ tính từ + động từ 36 III.4.3.3 Từ tổ tính từ + tính từ 37 III.4.3.4 Từ tổ tính từ + số từ 37 III.4.3.5 Từ tổ tính từ + thời vị từ 37 III.4.3.6 Từ tổ tính từ + trạng từ 37 CHƯƠNG IV : LÝ THUYẾT XÁC SUẤT 38 IV.1 IV.1.1 IV.1.2 IV.1.3 IV.1.4 IV.1.5 IV.1.6 IV.1.7 IV.2 CÁC PHƯƠNG PHÁP THỐNG KÊ ƯỚC LƯỢNG: 38 n-gram model 38 Laplace’s law 39 Maximum Likelihood Estimation (MLE) 40 Lidstone’s law and the Jeffreys-Rerks’s law (ELE) 40 Held out estimation 41 Cross validation (deleted estimation) 43 Good-Turning estimation 44 GIỚI THIỆU VỀ NHÓM TỪ (COLLOCATION) 45 IV.2.1 Frequency 45 IV.2.2 Mean & Variance 46 IV.2.3 Hypothesis Testing 47 IV.2.3.1 t test 47 IV.2.3.2 Hypothesis Testing of differences 47 IV.2.3.3 Pearson’s chi-quare test 48 IV.2.3.4 Likelihood ratios 49 IV.2.4 Mutual Information 50 IV.3 GIỚI THIỆU VỀ BÀI TOÁN THU NHẬN TỪ VỰNG 51 IV.3.1 Evaluation Measure 51 IV.3.2 Verb Subcategorization 52 IV.3.3 Attachment Ambiguity 54 IV.3.4 Selection Preferences 57 IV.3.5 Semantic Similarity 59 IV.3.5.1 Vector space measures 60 IV.3.5.2 Probabilistic measure 61 IV.4 TĨM TẮT CÁC THUẬT TỐN THU NHẬN COLLOCATION VÀ THU NHẬN TỪ VỰNG 62 CHƯƠNG V : HIỆN THỰC ĐỀ TÀI 64 V.1 THIẾT KẾ HỆ THỐNG CHƯƠNG TRÌNH 64 V.1.1 Các nguồn liệu liên quan 64 V.1.1.1 Dữ liệu huấn luyện chương trình 64 V.1.1.2 Từ điển phân loại từ 64 V.1.2 Ngôn ngữ lập trình 65 V.1.3 Thuật giải 65 V.1.4 Quy trình chung tiến hành theo bước sau: 65 V.1.5 Thuật giải chi tiết cho trình thu nhận từ vựng: 66 V.2 KIẾN TRÚC CỦA CHƯƠNG TRÌNH 70 V.3 THIẾT KẾ CƠ SỞ DỮ LIỆU .71 viii V.4 V.4.1 V.4.2 V.5 THIẾT KẾ CÁC ĐỐI TƯỢNG 72 Thơng tin chung số lớp yếu ứng dụng 72 Các chức ứng dụng 73 THIẾT KẾ GIAO DIỆN 73 V.5.1 Dữ liệu đầu vào (input) 73 V.5.2 Dữ liệu đầu (output) 73 V.5.3 Giao diện chương trình 74 V.5.3.1 Menu 74 V.5.3.2 Các giao diện 74 V.6 V.6.1 V.6.2 V.6.3 V.6.4 THỬ NGHIỆM MINH HỌA 76 Văn thử nghiệm 76 Kết thu nhận được: 78 Nhận xét 85 Đánh giá 85 CHƯƠNG VI : KẾT LUẬN 87 VI.1 CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC .87 VI.2 KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO 87 TÀI LIỆU THAM KHẢO 89 PHỤ LỤC A 91 Phụ lục 96 tin sau ta phân tích từ vựng tập tin thử nghiệm khác nói lĩnh vực khoa học kết thu xác tập tin thử nghiệm thuộc y học − Để chọn tập tin huấn luyện, bấm nút chọn chức menu tiến hành chọn tập tin cần thiết Có thể chọn nhiều tập tin lúc cách phối hợp chọn tập tin với phím Ctrl hay Shift Sau chọn, danh sách tập tin chọn hiển thị sau: Hình A-5: Danh sách tập tin chọn để huấn luyện − Sau hồn tất q trình chọn tập tin huấn luyện, người dùng chọn cách phân tích 2-gram, 3-gram, 4-gram 5-gram sau Mặc nhiên cách phân tích theo 2-gram chọn Và tối thiểu người dùng phải chọn cách phân tích tiến hành huấn luyện Phụ lục 97 − Để bắt đầu cho chương trình thực huấn luyện, chọn nút Trong trình chương trình chạy thao tác để huấn luyện, thông tin tối thiểu hiển thị bên danh sách chọn tập tin hình sau Hình A-6: Một số thơng báo chương trình thực huấn luyện − Sau trình huấn luyện kết thúc, danh sách cụm từ số lần xuất chúng văn huấn luyện liệt kê bên cạnh danh sách chọn tập tin hình minh họa sau Phụ lục 98 Hình A-7: Danh sách cụm từ số lần xuất − Trong trường hợp muốn xóa danh sách tập tin cần huấn luyện, chọn nút trả lời Yes cửa sổ xác nhận − Chú ý: theo mặc nhiên, chương trình hiển thị danh sách cụm từ xuất với số lần xuất lớn 3, để thay đổi giá trị này, người Phụ lục 99 dùng cần nhập giá trị ô sau bấm nút A.2.2 Với tab “Thu nhận từ vựng” Tương tự với tab “Huấn luyện”, trình chọn tập tin để chương trình rút kết từ vựng giống trình chọn tập tin để huấn luyện Để tiến hành thu nhận từ vựng, người dùng bấm vào nút Dù người dùng chọn tập tin với số lượng từ tốt nên chọn tập tin để thu nhận từ vựng có số lượng từ khơng 10.000 từ Các thao tác nội bên chương trình hiển thị phần hình sau Hình A-8: Một vài thơng tin chương trình tiến hành thu nhận từ vựng Sau trình thu nhận từ vựng kết thúc, danh sách từ vựng thu nhận với kiểu từ loại hiển thị bên trái danh sách tập tin cần thu nhận từ vựng hình sau Phụ lục 100 Hình A-9: Danh sách cụm từ tổ thu sau trình thu nhận A.2.3 Với tab “Kết quả” Trong phần này, để có ba danh sách từ (danh sách từ vựng thu theo thuật tốn thu nhận nhóm xác suất, danh sách từ vựng thu theo thuật toán thu nhận từ vựng danh sách từ vựng có hai danh sách trên) nhất, người dùng cần chọn thuật tốn thu nhận nhóm từ đồng thời xác định mức ngưỡng bấm nút Phụ lục 101 Hình A-10: Danh sách từ vựng thu tab Kết Khi liệu xuất ba danh sách trên, bên cạnh xem trực tiếp hình, người dùng cịn chọn chức lưu kết vào tập tin text tập tin Word cách chọn vào phần , trước nút chọn nút A.3 SƠ LƯỢC VỀ MỘT SỐ THƯ VIỆN ĐƯỢC ĐÃ ĐƯỢC SỬ DỤNG A.3.1 JavaCC (Java Compiler Compiler) JavaCC thư viện mã nguồn mở thông dụng cho phép người dùng tạo lớp (class) chuyên dụng để phân tích ngữ pháp (parser) Ngữ pháp hiểu không đơn ngữ pháp ngơn ngữ tự nhiên mà cịn bao hàm ngữ pháp cho ngôn ngữ khác chẳng hạn ngơn ngữ lập trình, ngữ pháp cho yêu cầu đặc biệt khác… Nguyên tắc hoạt động JavaCC theo chế: người sử dụng cung cấp cho JavaCC hay nhiều tập tin định nghĩa ngữ pháp theo cấu trúc quy định trước JavaCC, trình phân tích JavaCC tiến hành phân tích phát sinh số tập tin Java mà thực thi chúng, ngữ pháp Phụ lục 102 định nghĩa tập tin định nghĩa nói kiểm tra theo quy tắc mong muốn Bên cạnh đó, JavaCC cịn cung cấp cho người dùng cơng cụ khác cho phép phân tích phát sinh hành động, chức hỗ trợ kiểm tra lỗi (debug), xây dựng phân tích… Tại thời điểm báo cáo viết, phiên cung cấp trang chủ https://javacc.dev.java.net 3.2 có dung lượng cỡ 655Kb Các tính đặc trưng JavaCC: − TOP-DOWN parser: cách thức phân tích thông dụng phần lớn loại ngữ pháp Nó cung cấp tiện lợi cho q trình kiểm tra lỗi, có khả phân tích điểm chưa kết thúc (non-terminal) văn phạm, có khả chuyển giá trị (hay thuộc tính) xuống lên phân tích q trình phân tích − Cộng đồng người sử dụng lớn: ngày nhiều người dùng sử dụng JavaCC để phục vụ cho mục tiêu họ ứng dụng sử dụng Java Người dùng tham khảo download xuống từ internet tập tin văn phạm cho ngôn ngữ thông dụng, chẳng hạn như: Ada, ASN.1, C, C++, DCL, DTD, EcmaScript, HTML, IDL, Java 1.4, Python, Rational Rose, SQL, VRML, Visual Basic, XML − Từ vựng văn phạm định nghĩa tập tin: điều cho phép văn phạm dễ đọc dễ cập nhật − Phát sinh tập tin tài liệu cho tập tin văn phạm − JavaCC hỗ trợ Unicode sử dụng rộng rãi cho nhiều quốc gia − Kiểm tra trước theo cú pháp ngữ nghĩa (syntactic and semantic lookahead) q trình phân tích Điều thuận tiện cho việc xử lý trường hợp nhập nhằng văn phạm Phụ lục 103 Ư Để có thêm thơng tin chi tiết cách sử dụng JavaCC, xin vui lòng truy cập vào trang chủ JavaCC để tham khảo thêm A.3.2 Hệ quản trị sở liệu (DBMS) HSQLDB Connection Pool (PoolManager) A.3.2.1 Hệ quản trị sở liệu HSQLDB HSQLDB hệ quản trị sở liệu mã nguồn mở Java cung cấp HSQLDB Development Group http://hsqldb.sourceforge.net Phiên mạng thời điểm báo cáo viết 1.7.2 Các chương trình nhỏ cung cấp kèm theo HSQLDB bao gồm: + HSQLDB RDBMS + HSQLDB JDBC Driver + Database Manager (Swing and AWT versions) + Transfer Tool (AWT version) + Query Tool (AWT) + Sql Tool (command line) Trong HSQLDB RDBMS HSQLDB JDBC Driver hai thành phần hệ Tương tự hệ quản trị sở liệu khác, HSQLDB cung cấp phần lớn truy vấn, thao tác CSDL theo dạng SQL chuẩn 92, 99 2003 HSQLDB chạy dạng + HSQLDB Server: thực mode này, CSDL chạy JVM chờ đợi kết nối từ ứng dụng khác từ máy tính máy tính khác mạng Trong mode này, HSQLDB quản lý tổng cộng đến 10 database Phụ lục 104 + HSQLDB Web Server: chạy mode này, HSQLDB lắng nghe kết nối đến database theo protocol HTTP Mode cung cấp nhằm giải hạn chế số ứng dụng hay máy tính khác bị giới hạn firewall + HSQLDB Servlet: sử dụng giao thức Web Server Tuy nhiên, mode phải khởi tạo từ lúc Servlet khởi tạo Ở mode này, HSQLDB cung cấp việc liên kết đến database + In-Process (Standalone): mode dùng phần ứng dụng JVM Chính thế, ứng dụng khởi tạo liên kết đến database khơng ứng dụng khác truy cập đến database Mode khởi tạo JDBC + Memory-Only Databases: mode thực database khởi tạo lưu giữ nhớ Mode sử dụng nội ứng dụng mà địi hỏi liệu xử lý tạm nhớ theo cấu trúc bảng Ư Để có thêm thơng tin chi tiết cách sử dụng HSQLDB, xin vui lòng truy cập vào trang chủ HSQLDB để tham khảo thêm A.3.2.2 Connection Pool (PoolMan) Bên cạnh việc người dùng tự quản lý thao tác truy cập, truy xuất, tạo kết nối… đến sở liệu, người dùng giao hết thao tác quản lý đến Connection Pool – PoolMan PoolMan thư viện mã nguồn mở cung cấp cho người dùng chế (cache), quản lý tự động thao tác với sở liệu Nó cung cấp mơi trường thật tốt giúp người dùng yên tâm việc truy xuất, cập nhật sở liệu Nó tối ưu tài nguyên hệ thống Phụ lục 105 cách xem xét sử dụng lại truy xuất yêu cầu truy cập đến CSDL Để có thêm thơng tin PoolMan, xin vui lịng truy cập vào trang chủ PoolMan http://sourceforge.net/projects/poolman A.3.3 JCOM (Java-COM bridge) − JCOM thư viện mã nguồn mở cung cấp địa http://sourceforge.net/projects/jcom Nó cho phép người dùng làm việc với COM (Common Object Model), mơ hình đối tượng đề xướng Microsft, ứng dụng viết Java − Hiện JCOM dùng làm cầu nối để làm việc với tập tin chương trình Microsoft Word, Microsoft Excel − Để thực thao tác với tập tin Word/Excel chẳng hạn mở tập tin, đọc nội dung đoạn hay trang, gởi nội dung tập tin máy in địi hỏi lập trình viên phải biết thêm ngơn ngữ VBA (Visual Basic for Application) Ngơn ngữ lập trình tham khảo thêm phần hướng dẫn Microsoft Office − Một ví dụ đơn giản thao tác mở, đọc nội dung tập tin Word (theo paragraph) đóng tập tin lại public String readContent_Paras (String p_szFileName) { StringBuffer sbCont = new StringBuffer(); Object[] argList = new Object[1]; argList[0] = p_szFileName; IDispatch wdDocument = null; try { wdDocument = (IDispatch)m_wdDocuments.method("Open", argList); // Get text IDispatch wdParas = (IDispatch)wdDocument.get("Paragraphs"); int iParasCount = ((Integer)wdParas.get("Count")).intValue(); Object[] index = new Object[1]; for (int i = 0; i < iParasCount; i++) { Phụ lục 106 index[0] = new Integer(i + 1); IDispatch wdItem = (IDispatch)wdParas.method("Item", index); IDispatch wdRange = (IDispatch)wdItem.get("Range"); sbCont.append(wdRange.get("Text")); } wdDocument.method("Close", null); } catch (JComException ex) { ex.printStackTrace(); } return sbCont.toString(); } Trong “Open”, “Paragraphs”, “Count”, “Item”, “Range”, “Text” “Close” cách thức (methods) đặc tính (properties) đối tượng Word theo COM A.4 CÁCH CẬP NHẬT BỘ KIỂM TRA NGỮ PHÁP CÁC CỤM TỪ TỔ Để thực q trình cập nhật địi hỏi người dùng phải có kiến thức sử dụng Java (ví dụ biên dịch tập tin java, khái niệm class, package…) + Trên sở nội dung tập tin mẫu dùng để tạo kiểm tra ngữ pháp “lexicon.jj” (đã nhắc đến chương V), tiến hành bổ sung luật vào + Dùng thư viện javaCC để biên dịch tập tin “lexicon.jj” Q trình biên dịch hồn tất khơng có lỗi tạo tập tin sau thư mục hành: LexiconCheckStyle.java, LexiconCheckStyleConstants.java, LexiconCheckStyleTokenManager.java, ParseException.java, SimpleCharStream.java, Token.java TokenMgrError.java + Thêm nguyên văn dòng sau (phần nằm cặp dấu ngoặc kép) vào đầu nội dung tất tập tin java vừa tạo phía (nếu chưa có): “package algorithm;” + Tiến hành biên dịch tất lớp java có Phụ lục 107 + Q trình biên dịch thành cơng thư mục hành có thêm tập tin có phần mở rộng class + Nếu chương trình thực thi kết thúc chương trình + Chép đè (overwrite) tất tập tin *.class có vào thư mục algorithm Ö Một cập nhật chương trình theo hướng dẫn sau chạy chương trình dịng lệnh sau “javaw -Xmx384M gui.LexiconAcquisitionGUI” (hoặc chạy chương trình thơng qua tập tin run.bat kèm theo sẵn) Ö Để tránh vấn đề xung đột luật cấu tạo từ tổ, trước cập nhật trực tiếp vào chương trình, người dùng nên kiểm tra thật kỹ luật vừa đưa vào Nếu điều kiện cho phép nên viết chương trình thử nghiệm Ví dụ đoạn chương trình java đơn giản sau làm nhiệm vụ kiểm tra luật thêm vào (chú ý: nên bổ sung thêm luật khai báo String[] có nhằm giúp phát lỗi xung đột với luật có) public static void main(String[] args) { String[] szArr = new String[] { "noun noun" , "noun c\u1ee7a noun" , "noun verb" , "noun adjective" , "noun verb noun" , "noun noun verb" , "noun mà verb noun" , "noun noun c\u0169ng verb" , "noun verb noun noun verb" , "noun verb noun noun noun verb" , "noun verb prep noun" , "verb prep noun" , "noun verb noun noun" , "verb noun noun" , "noun mà noun verb noun" , "noun mà noun verb cho noun" , "noun noun verb noun" , "noun verb noun cho noun" , "noun verb noun verb" , "verb noun verb" , "noun mà noun verb verb" , "noun noun verb verb" , "noun noun c\u0169ng verb verb" , "verb noun c\u0169ng verb noun" , "noun verb verb" , "verb verb" , "noun verb verb verb" , "verb verb verb" , "noun adjective verb" , "adjective verb" , "adjective noun c\u0169ng verb" szArr, luật Phụ lục 108 , , , , , , , , , , , , , , , , , , , , , , , , , , "noun adjective noun" "adjective noun" "noun adjective prep noun" "adjective prep noun" "noun verb adjective" "noun adverb adjective" "verb adjective" "noun adverb adjective" "adverb adjective" "article noun" "adjective adverb" "verb adjective adjective" "noun adverb trans verb noun" "adverb trans verb noun" "noun trans verb noun adverb" "trans verb noun adverb" "verb verb noun" "noun adjective adjective" "noun adjective conj adjective" "adjective conj adjective" "prep noun" "noun adjective verb adjective " "adjective verb adjective " "noun adjective adjective verb adjective" "noun adjective adjective verb" "noun adjective verb adjective adjective" }; LexiconCheckStyle myCheck = new LexiconCheckStyle(new StringReader("")); int iSize = szArr.length; for (int i = 0; i < iSize; i++) { String szTmp = szArr[i]; System.out.print("szTmp : " + szTmp); try { myCheck.ReInit(new StringReader(szTmp)); myCheck.Input(); System.out.println(" => Good "); } catch (Exception ex) { ex.printStackTrace(); } catch (Error er) { System.out.println(" =====================> Bad "); } } Phụ lục 109 A.5 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT STT Từ tiếng Anh Từ tiếng Việt 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 algorithm assign cache capitalized word class class-based generalization cluster collocation corpora corpus debug edge generalization hypothesis infection information extraction keyword system lexical acquisition linear interpolation link machine translation machine-readable dictionaries mean member method mode mutual information natural language processing natural language querying node null hypothesis parameter values parse part-of-speed (PoS) tagged corpus pattern phrase preprocessing property punctuation mark giải thuật ấn định từ viết hoa lớp tổng quát hóa theo sở phân cấp cụm nhóm từ tập sưu liệu tập sưu liệu kiểm tra lỗi cạnh Generalization giả thuyết ảnh hưởng lan truyền trích xuất thơng tin hệ thống từ khóa thu nhận từ vựng nội suy tuyến tính đường nối dịch tự động máy từ điển mà máy tính đọc khoảng phận cách thức kiểu, loại thông tin tương hỗ xử lý ngôn ngữ tự nhiên tìm kiếm ngơn ngữ tự nhiên nút giả thuyết rỗng giá trị tham số phân tích ngữ pháp tài liệu gán nhãn từ loại mẫu cụm từ tiền xử lý đặc tính dấu chấm câu Phụ lục 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 random variable seed word seleted set semantic semantic argument semantic similarity semantic similarity sentence similarity-based generalization smoothed values speech recognition spelling correction statistical target set text text corpora training uniform prior unseen events unsupervised method variance vector normalize vector space word word sense disambiguation 110 thay đổi ngẫu nhiên từ gốc tập chọn lựa ngữ nghĩa lập luận ngữ nghĩa tương đồng ngữ nghĩa tương tự ngữ nghĩa câu tổng quát hóa theo sở tương tự giá trị mịn nhận dạng tiếng nói sốt lỗi tả thống kê tập nguồn văn tập tài liệu dạng văn huấn luyện mức độ trường hợp không lường trước phương pháp không cần giám sát khác vector chuẩn hóa khơng gian vector từ giải nhập nhằng nghĩa từ ... Thu nhận cụm từ vựng (lexicon acquisition) dựa thu? ??c tính cú pháp ngữ nghĩa từ tiếng Việt phương pháp xác suất II NHIỆM VỤ VÀ NỘI DUNG: Nhiệm vụ đề tài nghiên cứu thu? ??t toán thu nhận cụm từ vựng. .. tiếng Việt, từ tổ từ có hai hay nhiều hai thực từ câu có quan hệ với ngữ nghĩa ngữ pháp Nói cách khác, từ tổ hiểu cụm từ Các từ hay nhóm từ tổ phải có quan hệ với mặt từ vựng cú pháp Trong từ tổ... ngôn ngữ tự nhiên, vấn đề ngữ nghĩa (semantic) trở ngại lớn Ngữ nghĩa bao gồm: ngữ nghĩa từ (word), ngữ nghĩa cụm từ (phrase) ngữ nghĩa câu (sentence) Bên cạnh vấn đề ngữ nghĩa thông dụng ngữ nghĩa