Xây dựng kho dữ liệu từ vựng song ngữ Việt-Bhnong

26 352 0
Xây dựng kho dữ liệu từ vựng song ngữ Việt-Bhnong

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN VĂN TOÀN XÂY DỰNG KHO DỮ LIỆU TỪ VỰNG SONG NGỮ VIỆT - BHNONG Chuyên ngành: KHOA HỌC MÁY TÍNH , Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 Footer Page of 126 Header Page of 126 Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 2: PGS.TS ĐOÀN VĂN BAN Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 16 tháng 10 năm 2011 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 MỞ ĐẦU Lý chọn ñề tài Việt Nam quốc gia ña dân tộc Theo tài liệu Tổng cục Thống kê năm 1999, thay mặt Nhà nước Việt Nam công bố, nước ta có 54 thành phần dân tộc anh em Mỗi thành phần dân tộc có nguồn gốc hình thành ñiạ bàn khác Hiện nay, người Bhnong chưa có chữ viết Vì vậy, thầy giáo Nguyễn Văn Thanh, phó chủ tịch Hội ñồng Nhân dân huyện Phước Sơn ñã ñang hợp tác với chuyên gia Viện Ngôn Ngữ Học Việt Nam già làng trưởng huyện Phước Sơn xây dựng ñề tài “Nghiên cứu xây dựng, hoàn chỉnh chữ viết tiến hành biên soạn sách công cụ tiếng Giẻ - Triêng (Bhnong)” Bộ sách gồm có bốn quyển, bao gồm: chữ viết Bhnong, ngữ pháp tiếng Bhnong, sách học tiếng Bhnong từ ñiển Việt - Bhnong, từ ñiển Việt - Bhnong có khoảng 5.000 từ thông thường sống Hiện tại, Ủy ban nhân dân tỉnh Quảng Nam Ủy ban nhân dân huyện Phước Sơn ñang có chủ trương bắt buộc cán bộ, công nhân, viên chức huyện phải biết ñược tiếng nói người Bhnong ñể tiếp xúc tuyên truyền chủ trương, ñường lối, sách Đảng Nhà nước, việc dạy người Bhnong làm kinh tế, v.v… Đặc biệt ñội ngũ giáo viên, người trực tiếp dạy em học sinh người Bhnong xã vùng sâu, vùng xa ñịa bàn tỉnh Quảng Nam ñể dễ dàng hiểu ñược tâm tư, nguyện vọng em việc vận ñộng em ñến trường ñúng ñộ tuổi Footer Page of 126 Header Page of 126 Do hạn chế giáo trình học tập, tài liệu tham khảo học tập tiếng Bhnong, nên người học môi trường ñể rèn luyện khả ñọc hiểu viết tiếng Bhnong Xuất phát từ thực tế mạnh dạng chọn ñề tài “XÂY DỰNG KHO DỮ LIỆU TỪ VỰNG SONG NGỮ VIỆT BHNONG” ñể góp phần công sức nhỏ bé vào việc quản bá chữ viết số ñặc ñiểm văn hóa, tín ngưỡng người Bhnong sau tận dụng kho ngữ liệu ñể ña ngữ hóa website huyện Phước Sơn Mục ñích nghiên cứu - Tạo từ ñiển song ngữ Việt - Bhnong giúp cho việc tra cứu dễ dàng - Xây dựng chương trình tiện ích trợ giúp trình sử dụng, giúp cho cán công tác vùng dân tộc thiểu số miền núi có ñiều kiện gần gũi tiếng nói, chữ viết, phong tục tập quán ñồng bào dân tộc, nhằm tiếp cận, phục vụ làm tốt công việc ñược giao Đối tượng phạm vi nghiên cứu - Các phương pháp xây dựng kho ngữ vựng từ ñiển song ngữ - Nghiên cứu từ vựng, ngữ pháp tiếng Bhnong - Các phương pháp thiết kế chương trình sở liệu từ vựng song ngữ Phương pháp nghiên cứu - Nghiên cứu phương pháp thiết kế sở liệu từ ñiển ñơn ngữ, ña ngữ - Nghiên cứu cấu trúc ngữ pháp, từ vựng tiếng Giẻ Triêng(Bhnong) Footer Page of 126 Header Page of 126 - Tìm hiểu cấu trúc tập tin văn RTF Winword cấu trúc tài liệu XML Ý nghĩa khoa học thực tiễn ñề tài Về mặt khoa học Bản thân nắm ñược sở lý thuyết tổng quan loại từ ñiển giấy từ ñiển máy tính Cách tổ chức xây dựng sở liệu từ vựng song ngữ Về thực tiễn Tạo phần mềm từ ñiển song ngữ góp phần củng cố ñoàn kết dân tộc, am hiểu dân tộc Bhnong với dân tộc khác Đối với giáo dục, từ ñiển công cụ hữu ích giúp cho cán bộ, công chức, viên chức, nhà khoa học nhân dân học, tra cứu, nghiên cứu, tìm hiểu ngôn ngữ văn hóa Bhnong cách dễ dàng tiết kiệm Bố cục luận văn Bố cục luận văn bao gồm: phần mở ñầu, tài liệu tham khảo, phụ lục chương sau: Chương Trình bày sở lý thuyết ñề tài Chương Trình bày kiến thức xây dựng kho liệu từ vựng song ngữ Việt - Bhnong Chương Nêu số nội dung thiết kế giao diện từ ñiển Chương Trình bày thuật toán; triển khai chương trình kết Demo Footer Page of 126 Header Page of 126 CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Vấn ñề từ ñiển học 1.1.1 Khái niệm từ ñiển Theo “Từ ñiển Tiếng Việt” Viện Ngôn ngữ học; Hoàng Phê chủ biên; Nhà xuất Đà Nẵng Trung tâm Từ ñiển học xuất năm 2000 ñịnh nghĩa: “Từ ñiển sách tra cứu tập hợp ñơn vị ngôn ngữ (thường ñơn vị từ vựng) xếp theo trật tự dễ tra tìm, cung cấp số kiến thức cần thiết ñối với ñơn vị” Còn Từ ñiển thuật ngữ ngôn ngữ học Nguyễn Như Ý; Nhà xuất Giáo dục xuất năm 2001 viết: Sách tra cứu bao gồm từ, ngữ ñược xếp theo trật tự ñịnh, giải thích ý nghĩa ñơn vị ñược miêu tả, cung cấp thông tin khác chúng dịch chúng ngôn ngữ khác, thông báo kiến thức ñối tượng chúng biểu thị [5] Như vậy, theo ñịnh nghĩa người ta muốn mô tả trước hết từ ñiển sách Vậy ta kết luận từ ñiển ñây ñược hiểu từ ñiển giấy Vì muốn tra cứu cần phải có sách cần, lật giở trang sách tìm ñến mục từ cần tra Tóm lại, từ ñiển, ñược gọi từ vựng, ngữ vựng, từ vựng, tập hợp từ nhiều ngôn ngữ cụ thể, thường ñược liệt kê theo bảng chữ , với thông tin sử dụng, ñịnh nghĩa , tên gọi, ngữ âm, cách phát âm, thông tin khác 1.1.2 Một số từ ñiển thông dụng 1.1.2.1 Từ ñiển giấy Từ ñiển giấy gồm nhiều loại khác Chẳng hạn [14]: Footer Page of 126 Header Page of 126 Từ ñiển Anh - Việt/Từ ñiển Việt/Anh: phục vụ tra cứu từ vựng tiếng Anh/Việt, từ loại, nghĩa tiếng Việt/Anh tương ñương Từ ñiển Pháp - Việt/Từ ñiển Việt/Pháp: phục vụ tra cứu từ vựng tiếng Pháp/Việt, từ loại, nghĩa tiếng Việt/Pháp tương ñương Từ ñiển tiếng Việt: phục vụ việc giải nghĩa tiếng Việt Từ ñiển ñồng nghĩa/phản nghĩa: phục vụ tìm hiểu từ ñồng nghĩa/ phản nghĩa Từ ñiển giải thích thành ngữ tiếng Việt: phục vụ tìm hiểu ý nghĩa câu thành ngữ phổ biến tiếng Việt Ngoài ra, có nhiều loại từ ñiển khác như: Từ ñiển Thương mại; Từ ñiển Tin học; Từ ñiển du lịch, từ ñiển sinh học, Từ ñiển khoa học Kỹ thuật loại từ ñiển phục vụ chuyên ngành nghề riêng biệt Các loại từ ñiển thường sử dụng ñơn ngữ song ngữ 1.1.2.2 Một số từ ñiển máy tính thông dụng Hiện nay, máy tính có nhiều từ ñiển ñược sử dụng, chẳng hạn LACVIET MTD2004-FVP, Lạc Viet mtd9-EVA, Just Click and See, EVtrans, Babylon, số từ ñiển ñược nhiều người biết ñến phần mềm từ ñiển Lac Viet mtd9 1.1.3 Sự khác từ ñiển giấy từ ñiển máy Từ ñiển giấy Dễ bào quản, khóa xảy hư hỏng, mát liệu Dễ sử dụng, không ñòi hỏi thiết bị phần cứng trình ñộ người sử dụng Nhỏ gọn, dễ dàng ñem ñi nơi lúc Tốn nhiều thời gian công sức cho việc tra cứu nhiều từ Từ ñiển máy Giúp tra cứu nhanh chóng hiệu Footer Page of 126 Header Page of 126 Dễ dàng tạo nhiều ñể lưu trữ, thêm bớt từ vào từ ñiển Có nhiều hình thức tra cứu nội dung phong phú cách thể hiện, giao diện, nghe ñược âm từ cần tra Tuy nhiên ñể tra ñược từ ñiển máy tính NSD cần có hiểu biết ñịnh trình ñộ máy vi tính, lúc phải tra từ ñiển máy tính ñược cần phải có thiết bị phần cứng máy vi tính, thiết bị cầm tay ñiện thoại, nettop, PDA,v.v… 1.1.4 Phương pháp xây dựng từ ñiển máy Quy trình xây dựng từ ñiển gồm nhiều công ñoạn tương ứng với ba phương diện sau: Phương diện từ vựng cung cấp nội dung, dạng từ ñiển tiêu chuẩn ñơn vị từ vựng Phương diện tin học cung cấp phương pháp luận công cụ ñể xây dựng từ ñiển giao diện tương tác hệ thống người sử dụng Phương diện biên soạn từ ñiển ñể cập nhật: bổ sung hay sửa ñổi ñơn vị từ vựng ñã có Như việc tạo công cụ tin học cho từ ñiển phải giải nhiều vấn ñề liên quan[9] 1.2 Tổng quan sở liệu từ vựng 1.2.1 Tìm hiểu CSDL Cơ sở liệu từ vựng (tiếng Anh Lexical database) ñược hiểu theo cách ñịnh nghĩa kiểu kĩ thuật tập hợp thông tin có cấu trúc Tuy nhiên, thuật ngữ thường dùng công nghệ thông tin thường ñược hiểu rõ dạng tập hợp liên kết liệu, thường ñủ lớn ñể lưu thiết bị Footer Page of 126 Header Page of 126 lưu trữ ñĩa hay băng Dữ liệu ñược trì dạng tập hợp tập tin hệ ñiều hành hay ñược lưu trữ hệ quản trị sở liệu Sau ñây số ưu ñiểm mà CSDL mang lại: - Giảm trùng lặp thông tin xuống mức thấp Do ñó ñảm bảo thông tin có tính quán toàn vẹn liệu - Đảm bảo liệu có thẻ ñược truy suất theo nhiều cách khác - Nhiều người sử dụng sở liệu 1.2.2 CSDL từ vựng ña ngữ Một CSDL ñược gọi ña ngữ chúng làm việc CSDL ñó với hai hay nhiều ngôn ngữ khác [4] Tại phải ña ngữ hóa CSDL? Có nhiều nguyên nhân khác ñể thực ña ngữ CSDL ứng dụng Chúng xin trình bày số nguyên nhân mà phải ña ngữ hóa CSDL ứng dụng…[4] Nguyên nhân ñầu tiên dân tộc giới ñều nói viết ngôn ngữ riêng Nhưng nay, phần mềm ñiều dùng ngôn ngữ tiếng Anh Vì gây không khó khăn cho hâu hết người sử dụng máy tính tiếng Anh…[4] Nguyên nhân thứ hai nhà sản xuất phần mềm muốn bán ñược ngày nhiều sản phẩm nước ngoài…[4] Nguyên nhân thứ ba công nghệ cho phép phát triển ứng dụng ña ngữ cách dễ dàng [4] 1.2.3 Những vấn ñề cần xử lý xây dựng CSDL từ vựng ña ngữ Khi xây dựng CSDL từ vựng ña ngữ ta cần phải giải vấn ñề sau ñây: Footer Page of 126 Header Page 10 of 126 10 Vấn ñề thứ phải tìm cách tổ chức logic cho CSDL từ vựng ña ngữ, thể chổ chuẩn bị liệu nhiều ngôn ngữ khác Lựa chọn gõ phím, hệ thống mã hóa hệ thống phông chữ phù hợp cho ngôn ngữ cần thể hiện[4] Lựa chọn công cụ ñể lưu trữ liệu ña ngữ Theo khuyến cáo nhà tin học công ty phần mềm hàng ñầu XML ñược xem chuẩn tốt dành cho liệu ña ngữ Đặc ñiểm XML có cấu trúc mềm dẻo, dễ sử dụng khai thác nhiều hệ thống máy tính khác nhau…[4] Cuối khai thác CSDL từ vựng ña ngữ tùy theo mục ñích mà khai thác CSDL từ vựng ña ngữ theo hứng nhiều công cụ khai thác liệu khác nhau…[4] 1.3 Tìm hiểu ngôn ngữ CSDL từ vựng ña ngữ Việt - Bhnong 1.3.1 Tộc người Bhnong Ở huyện Phước Sơn, Trà My Hiệp Đức tỉnh Quảng Nam Việt Nam có tộc người tự gọi bno Tên gọi ñã xuất số tài liệu, ñã ñược ghi nhiều hình kí hiệu chữ viết khác nhau: Ba Noong, Pa Noong, Pơ Noong, Bhnoong, Bh'noong,v.v Theo cách phát âm giọng Kañhoăt M ng (thôn 2, xã Phước Mỹ, huyện Phước Sơn, tỉnh Quảng Nam), tên gọi ñược phát âm bnoη Và từ ñây trở ñi, ñề tài gọi người Bhnong 1.3.2 Tiếng Bhnong 1.3.2.1 Vốn từ tiếng Bhnong xét góc ñộ cội nguồn Chúng ta xem xét vốn từ tiếng Bhnong ñể xác ñịnh vị trí ngôn ngữ chi Bana, nhóm Môn Khme hệ Nam Á nói chong xem xét xa Hiện ñất nước Việt Nam, khu vực cư trú người Footer Page 10 of 126 Header Page 12 of 126 12 Theo nghĩa thứ nhất, hoàn toàn hiểu ñược số lượng chữ chữ viết ghi âm số lượng âm vị (phoneme) ngôn ngữ ñó, hay nói cách khác, ngôn ngữ ñó có âm vị có nhiêu chữ b) Bảng chữ tiếng Bhnong Nhóm nghiên cứu tiếng Bhnong ñã xác ñịnh Phương án chữ viết tiếng Bhnong có 39 chữ Bao gồm 19 nguyên âm 20 phụ âm Nguyên âm chữ viết Bhnong gồm 19 nguyên âm ñơn, 12 nguyên âm ñôi, 32 phụ âm ñơn - ñầu, 16 tổ hợp phụ âm ñầu 16 phụ âm cuối Như vậy, chữ tiếng Bhnong gần giống bảng chữ tiếng Việt, chữ tiếng Anh Nhưng có nguyên âm ñặc biệt: , , , , , , , 1.3.2.6 Chính tả cách viết từ tiếng Bhnong Chính tả ñây hệ thống quy tắc viết âm, vần từ tiếng Bhnong Tiếng Bhnong tạo từ cách phối hợp phụ âm với nguyên âm, không sử dụng dấu giống tiếng Việt Do vậy, ñể thuận lợi cho việt ñưa tám ký tự ñặc biệt tiếng Bhnong vào sở liệu từ vựng Việt - Bhnong Tôi ñã xây dựng thêm (các nguyên âm ñặc biệt) dạng hình chữ x (dạng hoa dạng thường) = 16 dạng hình chữ dành cho tiếng Bhnong, cụ thể mục 2.5.5 1.3.2.7 Sự khác tả tiếng Bhnong tiếng Việt a) Về âm tiết Âm tiết ñơn vị phát âm tự nhiên nhỏ ngôn ngữ Trong tiếng Việt, âm tiết ñược phát với ñiệu, tách rời với âm tiết khác khoảng trống Trên chữ viết, âm tiết tiếng Việt ñược ghi thành "chữ" ñọc Footer Page 12 of 126 Header Page 13 of 126 13 thành "tiếng" Ví dụ: từ "hoa hồng bạch" gồm chữ, tiếng âm tiết Trong tiếng Bhnong, không sử dụng dấu tiếng Việt, chữ có nhiều âm tiết cấu tạo thành b) Nguyên âm Các nguyên âm tiếng Việt a, ă, â, e, ê, i, o, ô, ơ, u, y Trong ñó, nguyên âm có dấu phụ ă, â, ê, ô, Chỉ có trường hợp oa, oe, uy có o u bán nguyên âm, ñóng vai trò ñệm cho nguyên âm Có nghĩa o u không ñược xem nguyên âm tổ hợp âm tiết Các nguyên âm tiếng Bhnong bao gồm nguyên âm tiếng Việt có thêm tám nguyên âm ñặc biệt , , , , , , , Trong tiếng Bhnong có mười hai nguyên âm ñôi iê, êi, êe, eê, ea, âơ, uô, ôu, ôo, oô, oă, ăo c) Phụ âm Trong tiếng Việt có phụ âm b, c, d, ñ, g, h, k, l, m, n, p, q, r, s, t, v, x Tiếng Bhnong bao gồm phụ âm tiếng Việt thêm phụ âm j, w, z CHƯƠNG XÂY DỰNG KHO DỮ LIỆU TỪ VỰNG VIỆT - BHNONG 2.1 Sơ ñồ cấu trúc sở liệu(CSDL) từ vựng song ngữ Việt Bhnong Cơ sở liệu phần quan trọng ñối với ứng dụng từ ñiển Việc xây dựng CSDL cho từ ñiển phải ñảm bảo truy cập nhanh liệu từ ñiển thường lớn ngày lớn trình cập nhật thường xuyên vào kho CSDL Do ñó ta ñưa tiêu chí sau ñể tổ chức lưu trữ CSDL như: kích thường Footer Page 13 of 126 Header Page 14 of 126 14 tệp lưu trữ CSDL bé tốt, tốc ñộ tra cứu nhanh, dễ cập nhật, dễ xây dựng ứng, có tính kế thừa, dễ tương thích với môi trường, v.v… 2.2 Mô hình thực thể - kết hợp CSDL từ vựng song ngữ Việt - Bhnong 2.3 Mô hình logic Mô hình ý niệm liệu ñược xây dựng hình 2.2, mô hình nhị nguyên, ta chuyển ñổi sang mô hình logic thông qua tập tin MDB Access, tập tinh DBF Foxpro, tập tin RTF Word tập tin XML, v.v… 2.4 Mã hóa Việt cập nhật liệu tiếng Việt tiếng Bhnong khó khăn nhiều so với tiếng Anh Vì tất mẫu tự tiếng Anh ñều có bàn phím chuẩn Còn tiếng Việt Bhnong mẫu tự Latin giống tiếng Anh, có mẫu tự ñặc biệt khác nhau, bàn phím chuẩn Do cần phải có giải pháp xử lý ký tự ñặc biệt 2.5 Xử lý tiếng Việt 2.5.1 Đặt vấn ñề Các ngôn ngữ sử dụng chữ Latinh ñều ñược mã hóa theo nhiều mã tiêu chuẩn ISO khác nhau, chẳng hạn ISO-8859/x Tiếng Việt phải ñược xử lý tương tự ñể tương thích giao tiếp ñược với nhiều ngôn ngữ khác Trên sở vận dụng chữ Latin chuẩn sẵn có, xây dựng thêm chữ chưa có bảng mã ñể cho việc xử lý tiếng Việt máy tính ñược thuận lợi Footer Page 14 of 126 Header Page 15 of 126 15 2.5.2 Các gõ tiếng Việt Đã có nhiều nghiên cứu mặt lý thuyết số phần mềm ñã ñược xây dựng ñể phục vụ cho việc xử lý tiếng Việt máy vi tính Các nghiên cứu phần mềm nhằm mục ñích quy ñịnh mã, cung cấp gõ ñể tạo dấu phông chữ ñể hiển thị tiếng Việt Tuy nhiên, thời gian qua có nhiều phần mềm sử dụng nhiều gõ phong chữ khác như: VIETWARE, VNI, ANC, v.v… gây nên nhiều khó khăn cho việc sử dụng, trao ñổi thông tin máy tính Hiện nay, với ñời ứng dụng rộng rãi Unicode việc thống sử dụng hệ thống mã hóa hệ thống phông chữ xem ñã ñược giải tạo thuận lợi to lớn cho người sử dụng 2.5.3 Vấn ñề chuẩn mã tiếng Việt Đã có nhiều giải pháp thống mã tiếng Việt máy vi tính ñược ñưa ra, cho ñến giải pháp hợp lý ñang ñược ủng hộ rộng rãi ñó áp dụng mã Unicode Xu hướng toàn cầu hóa ñang diễn mạnh mẽ, ñể phần mềm ñược áp dụng rộng rãi giới, phải xử lý ñược tập ký tự quốc gia giới Mặc tập ký tự quốc gia riêng lẻ không lớn hội tập ký tự quốc gia giới lớn 2.5.4 Khả sử dụng Unicode Theo ñịnh Chính phủ, từ 1/1/2003 thông tin ñiện tử chữ Việt quan hành chính, phủ người dân ñược dùng mã TCVN 6909, tương hợp Unicode Ưu ñiểm Unicode cho phép tiếng Việt hội nhập với ngôn ngữ khác giới Chúng ta gõ tiếng Việt, Footer Page 15 of 126 Header Page 16 of 126 16 Nga, Pháp, Đức, v.v… nhiều thức tiếng khác phông Ưu ñiểm Unicode có không gian mã rộng nên chứa ñầy ñủ tất ký tự tiếng Việt ngôn ngữ khác 2.5.5 Xử lý tiếng Bhnong Để sử dụng bảng mã Unicode, gõ Vietkey hay Unikey kiểu gõ Telex, cho hiển thị ñược thứ tiếng: Việt Bhnong, ñã xây dựng phông riêng có tên Bhn Time New Roman Với phông này, việc gõ tiếng Việt bình thường phông Unicode khác, ñối bảng chữ Bhnong có thêm nguyên âm ñặc biệt, xây dựng giải pháp kết hợp phím Ctrl, Shift số từ ñến ñể thể ký tự ñặc biệt ñó sau: Ấn tổ hợp phím Ctrl Cho kết Và Ấn tổ hợp Ctrl+shift Cho kết 2.6 Xây dựng CSDL song ngữ Việt - Bhnong dạng WinWord 2.7 Tổ chức sở liệu từ vựng song ngữ 2.7.1 Cơ sở liệu dạng Winword 2.7.1.1 Tổ chức CSDL Cơ sở liệu từ ñiển ña ngữ gồm khối liệu tệp văn Winword ñược ñịnh nghĩa quán theo mẫu văn xác ñịnh Mẫu văn tập hợp phần từ dạng thức (style) Mỗi dạng thức thể cách ñịnh dạng (Format) ñoạn văn (paragrap) ñược ñịnh nghĩa lệnh ñơn ñịnh dạng Font chữ sử dụng (Format_Font), v.v , kiểu trình bày ñoạn (Format_Paragraph), v.v Mỗi dạng thức dùng ñể biểu diễn Footer Page 16 of 126 Header Page 17 of 126 17 thành phần từ ñiển ña ngữ Chính khác cách trình bày ñoạn cho phép phân biệt thành phần từ ñiển mục từ nội dung mục từ, hình loại ngữ pháp, nghĩa tương ñương, v.v… Dữ liệu từ ñiển dạng Word ñược tổ chức thành tệp văn bản, tệp ñược ñặt tên theo vần chữ tiếng Việt tương ứng chữ ñầu mục từ từ ñiển Cấu trúc tệp ngữ vựng gồm hai phần: phần ñầu phần ñịnh dạng, phần thứ hai phần hiển thị nội dung Các yếu tố thuộc mục từ tệp RTF Style Microsoft Word, Style bao gồm thành phần: tên kiểu (Stylename), tên Font(Fontname), kích cỡ chữ (Fontsize), v.v 2.7.1.2 Cấu trúc mục từ Khái niệm “mục từ” ñây ñược hiểu ñoạn văn thuộc CSDL từ vựng RTF có ñầy ñủ phần nghĩa (từ vựng) Việt, Bhnong yếu tố từ loại, ví dụ, v.v… Tức là, ñoạn văn ñó ñược bắt ñầu từ vựng tiếng Việt cho ñến trước từ vựng tiếng Việt Cấu trúc yếu tố thuộc mục từ CSDL từ vựng RTF ñược tổ chức dạng Style Microsoft Word Trong ñó, Style ñược ñịnh dạng bao gồm thành phần: tên kiểu (StykeName), tên font (FontName), kích thước (Fontize), khoảng cách lề (TextIndent), Màu (Color), in ñậm (Bold),gạch (Underline), v.v… nhằm xác ñịnh yếu tố ngôn ngữ ñó 2.7.1.3 Ưu nhược ñiểm CSDL dạng Winword a/ Ưu ñiểm Có thể bổ sung, cập nhật liệu thời ñiểm mà không cần xây dựng ứng dụng Footer Page 17 of 126 Header Page 18 of 126 18 Do không cần phải xây dựng phần mềm ứng dụng, nên không cần phải tốn thời gian tìm hiểu cấu trúc thành phần, yếu tố khác liên quan ñến tổ chức liệu b/ Nhược ñiểm Kích thước tệp tin RTF thường lớn so với tệp ñịnh dạng khác, cụ thể HTML, MDB, XML, v.v biểu diễn lượng thô tin Khó khăn việc tra cứu., tốc ñộ chậm Giữa mục từ mối liên hệ logic với 2.7.2 Chuyển ñổi sang XML 2.7.2.1 Giới thiệu XML XML, Extensible Markup Language (ngôn ngữ ñánh dấu mở rộng), ngôn ngữ ñánh dấu mà ta sử dụng ñể tạo thẻ riêng Nó ñược tạo nên Liên minh mạng toàn cầu nhằm khắc phục hạn chế HTML - ngôn ngữ ñánh dấu siêu văn bản, sở trang Web Giống HTML, XML ñược dựa SGML – Standard Generalized Markup Language Mặc SGML ñược sử dụng ngành công nghiệp xuất nhiều thập kỷ, phức tạp ñều khiến sử dụng mà cách khác phải thấy mệt mỏi (một cách nói vui, SGML "Sounds great, maybe later") 2.7.2.2 Tổ chức CSDL Việt Bhnong dạng XML Đầu tiên ta xây dựng phần tử gốc có tên dictionary, dictionary có nhiều phần tử word chứa thẻ liệu tương ứng với style ñược ñịnh nghĩa tệp RTF, ñó phần tử VietEntry Mỗi phần tử VietEntry chứa thẻ liệu EntryName; VietCat; BhnongEqu; BhnongPron; BhnongPhr; VietExp; BhnongExp; VietIdi; BhnongIdi Footer Page 18 of 126 VietPhr; Header Page 19 of 126 19 Việc ñịnh nghĩa thẻ ñược thể qua cú pháp tổng quát sau: [dữ liệu cần hiển thị] Bảng 2.2 Mô tả thẻ tệp XML Tên thẻ Nội dung hiển thị Word Mục từ EntryName Tên mục từ VietCat Từ loại BhnongEqua Nghĩa tiếng Bhnong tương ñương BhnongPron Phiên âm tiếng Bhnong VietPhr Cụm từ tiếng Việt BhnongPhr Cụm từ tiếng Bhnong tương ñương VietExp Câu ví dụ tiếng Việt BhnongExp Câu ví dụ tiếng Bhnong tương ñương VietIdi Câu thành ngữ tiếng Việt BhnongIdi Câu thành ngữ tiếng Bhnong tương ñương 2.7.2.3 Ví dụ minh họa Ví dụ mục từ tập tin a.XML ñây thể phần CSDL từ vựng song ngữ Việt - Bhnong với mục từ bắt ñầu chữ A, Ă, Â: dung tap tin a.XML > Đại từ Footer Page 19 of 126 Header Page 20 of 126 20 bhơo Ai ñấy? bhơo ki? Ai có bố mẹ bhơo w y eê bheaq ăn Động từ cha Ăn cơm cha pŏư Nó kẻ ăn chơi Kon êi cha Footer Page 20 of 126 m m Header Page 21 of 126 21 2.7.2.4 Chuyển ñổi sở liệu từ dạng RTF sang XML Từ sở liệu dạng tập tin Winword ñã có, ta xây dựng macro chuyển ñổi tập tin Winword sang dạng tệp XML, với 24 file từ a.RTF, b.RTF ñến z RTF ta chuyển thành 24 file XML a.XML, b.XMl ñến z.XML tương ứng Việc tạo CSDL từ vựng song ngữ dạng tập tin XML tạo ñiều kiện thuận lợi mô tả cấu trúc mục từ, dễ dàng thay ñổi lại hay bổ sung thêm, hoàn toàn có tính mở Có thể truy xuất liệu trực tiếp thông qua tên thẻ cách dùng mã lệnh JavaScrip, ñịnh dạng thông qua tập tin CSS, XSL Đồng thời kích thước tập tin nhỏ nhiều lần so với ñịnh dang DOC, RTF Tuy nhiên việc cập nhật, bổ sung thông qua giao diện khai thác vào tập tin XML tai khó khăn, tập tin văn CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH 3.1 Các tiêu chí thiết kế giao diện Có nhiều kiểu thiết kế giao diện ñã ñược tạo nhằm mục ñích phục vụ cho việc tương tác người máy tính Mỗi kiểu ñều có tính ñặc ñiểm khác Song ñiều quan trọng kiểu thiết kế phải phù hợp với nhiệm vụ ñược giao với người sử dụng ñối tượng tham gia vào ñối thoại với máy vi tính Vậy tiêu chí quan trọng cần có ñể ñanh giá cho ñối thoại là: • Tính dễ sử dụng: Giao diện ñó phải dễ sử dụng ñối với tất người • Dễ học: Các lệnh chức giao diện phải dễ học • Tốc ñộ thao tác: Giao diện phải có hiệu bước thao tác, chuột, bàn phím tốc ñộ trả lời Footer Page 21 of 126 Header Page 22 of 126 22 • Dễ phát triển 3.2 Các kiểu thiết kế giao diện Dưới ñây số kiểu thiết kế thường hay sử dụng: • Giao diện hỏi ñáp • Giao diện ñơn • Các họa tiết • Điền mẫu 3.3 Thiết kế giao diện 3.3.1 Ý tưởng thiết kế Việc trình bày hình quan trọng trình thiết kế giao diện Trong thiết kế tồn nhiều trạng thái mẫu thuẫn với Vậy cần xếp theo thứ tự mức ñộ quan trọng trường hợp riêng biệt [10] 3.3.2 Hiển thị thông tin Nếu không tin ñược thể qua giao diện không ñầy ñủ (incomplete), mơ hồ hay khó hiểu ứng dụng không ñáp ứng ñược nhu cầu người sử dụng Có nhiều cách ñể hiển thị thông tin khác nhau: văn bản, hình ảnh, âm thanh, vị trí, kích thước, chuyển ñộng, màu sắc v.v… 3.3.3 Xử lý lỗi 3.3.4 Công cụ trợ giúp 3.3.5 Thiết kế giao diện từ ñiển Việt - Bhnong Từ ñiển song ngữ Việt - Bhnong từ ñiển ña ngữ, không ñể làm chất tính ña ngữ giao diện thiết kế cần phải ñược thiết kế cho ñảm bảo thể ñược ñầy ñủ thông tin cần thiết Một yêu cẩu cần thiết ñối với từ ñiển song ngữ là: Footer Page 22 of 126 Header Page 23 of 126 23 Tận dụng không gian hình ñến mực tối ña thể thể ñược nhiều ngôn ngữ Cho phép thực khả quan trọng như: xem nội dung mục từ, xem danh sách tất mục từ theo chữ vần ñầu tiên, xem trợ giúp Cuối cùng, không phần quan trọng tổ chức CSDL từ vựng cho giảm kích thước lưu trữ ñến mực tối ña 3.4 Triển khai chương trình chạy thử nghiệm 3.4.1 Thuật toán tìm kiếm hiển thị mục từ Tìm kiếm tác vụ chủ yếu nhất, thường xuyên làm việc CSDL từ vựng song ngữ Việt - Bhnoong Vì thuật toán tìm kiếm thuật toán chương trình xứ lý CSDL từ vựng song ngữ dạng tập tin XML Ở ñây ta thực tìm kiếm dựa việc so khớp mục từ tiếng Việt người dùng nhập vào Chúng ta xây dựng trang a.HTML sử dụng ñối tượng DSO (Data Source Objects) tìm kiếm in kết hiển thị nội dung ứng với mục từ tiếng Việt bắt ñầu A, Ă, Â Tương tự xây dựng trang b.HTML sử dụng ñối tượng DSO tìm kiếm in kết hiển thị nội dung ứng với mục từ tiếng Việt bắt ñầu B, v.v… chi ñến Z Khi liệu nhập xong, ta kích chuột vào nút xem mục từ yêu cầu hàm findMates() thực thi, tìm thấy mục từ hiển thị nội dung tương ứng, ngược lại hình hiển thị không hiển thị 3.4.2 Giao diện khai thác Để thiết kế giao diện từ ñiển ña ngữ Việt - Bhnong, ñã sử dụng Microsoft Visual Basic Net Microsoft Visual Studio Net 2005 hãng Microsoft Kết thiết kế giao diện khai thác từ ñiển song ngữ Việt - Bhnong có chức sau: Footer Page 23 of 126 Header Page 24 of 126 24 Tra cứu từ ñiển: Cho phép từ ñiển hiển thị Việt - Bhnong Thêm mới: Cho phép người sử dụng thêm mục từ vào từ ñiển Hiệu chỉnh: Sửa chữa nội dung giải nghĩa mục từ Xóa: Cho phép người sử dụng xóa mục từ từ ñiển Hướng dẫn: Chức hướng dẫn sử dụng chương trình 3.4.3 Một số kết ñã ñạt ñược Luận văn ñã tạo ñược phông Bhn Time New Roman Nhờ phông này, nghĩa tiếng Bhnong, câu ví dụ tiếng Bhnong tương ñương,v.v … hiển thị ñúng với tiếng Bhnong thông qua ñịnh dạng phông Đã xây dựng ñược sở liệu từ vựng song ngữ với khoảng 1.000 từ thông dụng ñời sống xã hội Đã sưu tập ñưa vào sơ sở liệu 300 câu tiếng Bhnong thông dụng, góp phần làm phong phú thêm cho sở liệu KẾT LUẬN Những ñóng góp ñề tài Đã tìm hiểu tình hình, nhu cầu học tập sử dụng tiếng Bhnong công cụ hỗ trợ nghiên cứu học tập tiếng Bhnong ñịa phương huyện Phước Sơn nói riêng ñịa phương có sử dụng tiếng Bhnong nói chung Trên sở ñó, ñã xây dựng chương trình hỗ trợ cho việc tra từ ñiển Việt Bhnong Về mặt lý thuyết, luận văn ñã thiết kế ñược mô hình ý niệm liệu, từ ñó xâng dựng nguồn liệu từ vựng song ngữ Việt Bhnong Đưa giải pháp chọn nguồn sở liệu từ vựng ñể xây Footer Page 24 of 126 Header Page 25 of 126 25 dựng sở liệu từ vựng Việt - Bhnong Trong tương lai, tiếp tục xây dựng thêm kho ngữ vựng song ngữ Bhnong - Việt Từ liệu từ vựng song ngữ ñã xây dựng ñược, luận văn ñã thiết kế giao diện khai thác tra cứu từ vựng Việt - Bhnong dạng chương trình Điều cho phép người sử dụng tra cứu tiếng Việt tiếng Bhnong Luận văn ñã tạo ñược phông Bhn Time New Roman Nhờ phông này, nghĩa tiếng Bhnong, câu ví dụ tiếng Bhnong tương ñương,v.v … hiển thị ñúng với tiếng Bhnong thông qua ñịnh dạng phông Hơn nữa, sau ñã ñưa phông vào hệ thống, tất ứng dụng có cho phép chọn phông ñều sử dụng ñược phông Bhn Time New Roman mà không phụ thuộc vào ứng dụng gõ Như vậy, sử dụng phông Bhn Time New Roman ứng dụng soạn thảo văn bản, bảng tính ñiện tử, v.v… Nhờ phần mềm này, sau nhờ chuyên gia chữ viết ngữ pháp tiếng Bhnong thêm trực tiếp vào phần mềm từ chưa có hay từ chuyên khoa học kỹ thuật thiếu từ ñiển Việt - Bhnong thầy giáo Nguyễn Văn Thanh Hạn chế Chương trình chưa giải ñược khả tra từ ứng dụng khác kích chuột trực tiếp hình Do chưa thiết kế ñược ký tự ñặc biệt ñể phiên âm nên phần phiên âm tiếng Bhnong thiếu, phần phát âm chưa có Hiện số người hiểu chữ viết Bhnong hạn chế nên việc nhờ chuyên gia cập nhật liệu vào phần mềm khó khăn Phần từ loại sở liệu thiếu nhiều Footer Page 25 of 126 Header Page 26 of 126 26 Chưa tìm hiểu phương pháp cập nhập từ ñộng nên chương trình làm giàu kho ngữ vựng phương pháp thủ công làm giàu kho ngữ vựng nhiều phương pháp cập nhật tự ñộng Hướng phát triển Từ phân tích hạn chế trên, cần tiếp tiếp tục hoàn thiện CSDL từ vựng song ngữ Việt - Bhnong cách nghiên cứu bổ sung dầy ñủ từ loại, nghĩa, câu thành ngữ, phần phiên âm, phần phát âm, v.v… tiếp tục xây dựng kho ngữ vựng từ ñiển song ngữ Bhnong - Việt Tiếp tục xây dựng bổ sung chức tra cứu khác tra cứu trực tiếp ứng dụng khác, tra từ cách kích chuột tra trực tiếp từ hình Tìm hiểu sâu cấu trúc ngữ pháp tiếng Bhnong ñể dịch câu, ñoạn hay văn từ tiếng Việt tiếng Bhnong Tiếp tục nghiên cứu phương pháp cập nhật tự ñộng ñể xây dựng website giới thiệu người, văn hóa ñời sống phong tục tập quán người Bhnong Thông qua trang web này, ta tra từ, thêm từ, xóa chỉnh sửa từ vào kho ngữ vựng Hoặc cập nhật tự ñộng vào kho ngữ vựng từ nguồn văn bản, hay báo, v.v… tiếng Bhnong mạng Thiết kế trò chơi ñể cho người chơi tự ñộng thêm từ vào kho ngữ liệu nhiều hình thức khác nhau: ví dụ cho từ tiếng Việt có bốn nhiều ñáp án tiếng Bhnong người chơi chọn ñáp án tiếng Bhnong ñúng Hoặc thông qua trò chơi hỏi ñáp v.v… Footer Page 26 of 126 ... liệu từ vựng ñể xây Footer Page 24 of 126 Header Page 25 of 126 25 dựng sở liệu từ vựng Việt - Bhnong Trong tương lai, tiếp tục xây dựng thêm kho ngữ vựng song ngữ Bhnong - Việt Từ liệu từ vựng. .. CHƯƠNG XÂY DỰNG KHO DỮ LIỆU TỪ VỰNG VIỆT - BHNONG 2.1 Sơ ñồ cấu trúc sở liệu( CSDL) từ vựng song ngữ Việt Bhnong Cơ sở liệu phần quan trọng ñối với ứng dụng từ ñiển Việc xây dựng CSDL cho từ ñiển... nghiên cứu - Các phương pháp xây dựng kho ngữ vựng từ ñiển song ngữ - Nghiên cứu từ vựng, ngữ pháp tiếng Bhnong - Các phương pháp thiết kế chương trình sở liệu từ vựng song ngữ Phương pháp nghiên cứu

Ngày đăng: 20/05/2017, 05:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan