DSpace at VNU: Mô hình dữ liệu từ vựng của từ điển tin học tiếng địa phương Nghệ-Tĩnh

13 193 0
DSpace at VNU: Mô hình dữ liệu từ vựng của từ điển tin học tiếng địa phương Nghệ-Tĩnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TAP CHÍ KHOA HỌC ĐHQGHN, KHTN & CN T.xx., Số 1, 2004 M Ò H ỈN H D Ử L IỆ U T Ừ V ự N G C Ủ A T Ừ Đ IE N t in h ọ c T IẾ N G Đ ỊA P H Ư Ơ N G N G H Ệ -T ĨN H P h a n Huy K h án h Đại học Đà N ă n g Vân để sở d ữ liê u từ vự n g t iế n g đia ph ơng Trong lĩnh vực nghiên cứu ứng dụng tin học xử lý ngôn ngữ tự nhiên, người ta phải xây dựng tích luỹ sở liệu (CSDL) từ vựng (lexical database) đê từ khai thác nhờ t điên chuyên dụng khác Đặc điểm chung CSDL từ vựng nguồn liệu lớn, không cách tổ chức không cách biếu diễn bên máy tính Việc bảo trì, cập n h ậ t khai thác thường gặp r ấ t nhiêu khó khăn Một nh ững nguyên n h â n nguồn liệu từ vựng lấy từ nhiều nơi, từ từ điên giấy, t internet, không đồng n h ấ t cách tổ chức, khơng hồn tồn giơng n h a u nội dung Lấy ví dụ từ điển tiếng Việt, tác giả có cách riêng đê tố chức diễn giải mục từ (entry/headword), nhiều khác n h a u quan niệm, vê th uật ngữ Đê có nh ữ n g từ điên phù hợp vói nhu cầu sử dụng khác n h a u máy tính, ngày dịch vụ mạng, internet phổ cập rộng rãi, cần có giải pháp tổ chức phù hợp cho nguồn liệu từ vựng Trong phương pháp p hân tích thiết kê hệ thơng th n g tin (cấu trúc, hay hướng đôi tượng), đè có đối tượng xử lý CSDL vật lý, c ần xây dựng mơ hình ý niệm liệu (data conceptual model), trưốc chuyên đôi mơ hình lơgic liệu (data logical model) Đây giai đoạn quan trọng mang tính định chất lượng hệ thơng thơng tin Vì cần có mơ hình ý niệm liệu xây dựng CSDL từ vựng Hiện nay, n hiều từ điển đơn ngữ, đa ngữ tiếng Việt xây dựng, sử dụng nhiều hình thức cài đặt máy, t r a cứu qua m ạng [13] Nhờ phương tiện tin học, dễ dàng sưu tập tích luỹ nguồn liệu từ vựng phong phú đế có từ điên chuyên dụng đê xử lý tiếng Việt, nhiên chưa có từ điên tin học tiếng địa phương Như [1] ra, nghiên cứu tiếng địa phương (hay phương ngơn, phương ngữ) khơng giúp ích cho việc chu ẩn hóa, dạy-học làm phong phú tiêng Việt, mà giúp thực cơng trình nghiên cứu tiêng địa phương Trong báo này, đê x u ấ t giải pháp xây dựng mơ h ì n h ý niệm liệu để t tạ o nguồn liệu từ vựng cho t điên tiếng địa phương Nghệ-Tĩnh (TĐPNT) có tên Nghê-Tinh Dialectal Dictionary C húng tơi chọn mơ hình thực thế-kêt hợp (entity-association model) theo phương ph áp p h â n tích cấu trúc Chúng chọn tiêng địa phương Nghệ-Tĩnh n h ví dụ m ẫ u đầu tiê n m in h hoạ t r ì n h thiế t kê hệ t h ô n g từ mô h ình liệu xây dựng Các t iế n g địa phương v iệt 28 P han Huy K hánh Nam khác n h B ìn h -T rị-T h iê n -H u ế, xứ Quảng, N a m T r u n g Bộ, N a m Bộ tiếp tục đưa vào CSDL từ vựng lớn từ mơ h ìn h Riêng vấ n đề p h t âm theo đ ún g giọng địa phương chưa giải p hạ m vi báo X ây d ự n g m ô h ì n h d ữ liệ u từ v ự n g 2.1 Mơ h ì n h ý n i ê m d ữ liê u Dựa theo cấu trúc sô" từ điển tiếng Việt (8, 9, 10, 11, 12) [1], từ điển tin học TĐPN T tập hợp mục từ Mỗi mục t p hiên theo cách viết (phục vụ p h t âm) có t đến nhiều cách giải nghĩa Mỗi cách giải nghĩa tương ứng với từ loại (word-category) có từ đến n h iều nghĩa phổ thông (popular meaning) Mỗi nghĩa phổ thơng có th ể có ví d ụ : nh iều cụm từ, t h n h ngữ (phrase), câu (sentence) trích r a từ th ể loại : ca dao, h t giặm, h t phường vải, h t ví hò-vè Nghệ-Tĩnh Để đơn giản, mục t đồng âm khác cách giải nghĩa [1] xem mục từ M ặ t khác, nghĩa phổ thông x u ấ t CSDL quy ước “duy n h ấ t ” (dãy ký tự có m ặt lần) Các từ ngữ phổ thông không đưa vào làm mục từ từ điển H ình Mơ hình thực thể-kết hợp cho từ điển tin học TĐPNT Mơ h ìn h có thực thể: mục từ (NT_ENTRY), cách giải nghĩa (EXPLANATION), nghĩa phổ thông (MEANING), cụm t (NT_PHRASE) câu (NT_SENTENCE) Mỗi thực thể có khóa thuộc t í n h in đậm, ví dụ NT_Entry Các kết hợp thực thể p h â n cấp, có i cặp b ả n số (1-n) (1-1) C hẳ n g hạ n, kết hợp i thực t h ể NT ENTRY EXPLANATION hiểu : mục từ có tối th iể u có tối đa n > l cách giải nghĩa, cách giải nghĩa thuộc mục từ Trong h ìn h 1, thực t h ể h ìn h chữ nhật, môi kết hợp p h â n cấp hìn h ơvan nối với thực t h ể b ằ n g đoạn t h ẳng ghi sô" (cặp sô n g uyên 0, 1, n) Mơ h ìn h d liêu từ vưng từ đ iển tin hoc 29 Ví dụ mục từ b n g (trong [1] có mục từ riêng) có bốn cách giải nghĩa dựa theo mơ h ì n h ý niệm n h sau : b ứ n g động từ , có nghĩa phổ thơng m n g (nói m ụ n n h ọt hay vết thương sưng to, p h t sốt) Ví d ụ bưrtg mủ b n g d a n h từ , có nghĩa phổ thơng ch e Ví dụ, vè N g h ệ - T ln h : L tơi nón che sương Đất m bưrtg che gió b ứ n g động từ , có nghĩa phổ thơng che lại, bịt lại Ví dụ, h t giặm N g h ệ -T ĩn h : G ánh m ột g n h đấ t Vắt ba tră m nồi Đập đồi B ng mười trống b n g động từ , có hai nghĩa phổ thơng - bê (dùng t a y n â n g hay bê lên) Ví dụ, h t giặm N g h ệ - T ĩn h : Cỗ bàn rập rinh B n g i dãy Ví d ụ khác, h t giặm N g hệ -T ĩn h : Cỗ n ă m m ột bưng - khiêng Ví dụ h t giặm Ngh ệ -T ĩnh : Hòn đ ấ t to bưng m nỏ 2.2 M h ì n h lơ g ic h d liệ u Bưốc tiếp theo, chuyển mơ h ì n h ý niệm liệu mơ h ì n h lơgic liệu, dạng bảng liệu môi q u a n hệ (liên kết lơgic) n g (có t h ể biểu diễn lược đồ q u a n hệ) EXPLANATION NT_ NT_ PHRASE VjSENTENCE^ NT_Sentence NT_Genre H inh Mơ hình logic liệu cho từ điển tin học TĐPNT 30 Phan H uy K hánh Cách chu y ển đổi thực n h sau : thực th ể mô h ìn h ý n iệm liệu trở t h n h bả n g liệu có k hóa với thực thể Kết hợp h a i th ực th ể trở t h n h q u a n hệ hai b ả n g cách đ ặ t th êm vào b ả n g “con” (phía b ả n sơ' 11) khóa “ngoại” khóa b ả n g “c ” (phía b ả n sơ" 1-n) C h ẳ n g h n th ực thể EXPLANATION t h n h b ả n g EXPLANATION có khóa ngoại NT _Entry Mối q u a n hệ m ộ t-n h iều b ả n g đường mũi tên tron g h ì n h với quy ước chiều từ đến nhiều Từ đây, liệu t vựng cập n h ậ t trực tiếp vào b ản g để n h ặ n tệp CSDL v ậ t lý tro n g d n g q u en thuộc tron g Windows, n h Access MDB, FoxPro DBF, h a y Excel XLS Để cập n h ậ t liệu t h u ậ n tiệ n sử d ụ n g hệ thơng k hai th ác từ điển có ( th am khả o [2, 4, 5, 6, 7]), ch ún g sử d ụ n g mẫu văn b ả n WinWord (docum ent tem p late) để làm mơ h ì n h logic liệu Mơ h ì n h biểu diễn CSDL từ vựng từ điển tin học TĐ PN T có đạn g tổng q u t nh sa u : Cấu trúc mâu văn Giải thích N TJE ntry M ụ c từ N T_Pronciation P h iê n cá ch v iế t m ụ c từ (đ ề p h t â m ) EXPL_Num_1 Cách giải nghĩa l EXPL_Category_1 T lo i Meaning_1.1 Nghĩa phổ thông cho cách giải nghĩa NT Phrase 1.1.1 Cụm từ ví dụ cho nghĩa N T_P hrase_1.1.K Cụm từ thứ K, K> 0, ví dụ cho nghĩa PT NT_G enre_1.1.1 Thể loại ví dụ cho nghĩa PT N T_Sentence_1.1.1 Câu tng ng vi th loi PT ô N T G enre 1.1 L Thể loại thứ L, L> 0, ví dụ cho nghĩa PT N T_ S en ten ce _1 L Câu M eaning_1.M EXPL_Num _N tương ứng vớ i thể lo i L Nghĩa phổ thông M, M> 1, cách giải nghĩa Cách giải nghĩa thứ N, N> H ìn h Mẫ u văn b ản WinWord từ diển tin học TĐPNT Mẫu v ăn b ả n gồm d n g thức (style) Mỗi d n g thức t h ể c ách định d ạn g (format) đoạn v ă n b ả n ( p a r a g r a p h ) cách sử d ụ n g phông chữ (font) đoạn th ể thức t r ì n h bày đoạn H ìn h m in h hoạ nội d u n g c ủ a mục từ bưng Mơ h ìn h d ữ liêu từ v n g từ điển tin hoc 31 Ví dụ mục từ bung Tên dạng thức tương ímg bưng BUWNG động từ mưng (mụn nhọt hay vết thương sưng to, phát) bưng mủ danh từ che vè Nghệ Tĩnh : Lấy tơi nón che sương Đất làm bung che gió động từ che lại, bịt lại hát RỈặnt Nghệ Tình : Gánh gánh đất Vắt ba trăm nồi Đập đồi Bung mười trống động từ dùng tay nâng hay bẽ lên hát giạm Nghệ Tĩnh : Cơ bùn rập rình Bung hai dãy hát giam Nghệ Tĩnh : Cô năm bimg khiêng hát giạm Nghệ Tĩnh : Hòn đất to bưng mà nò nối N T E n try NTPronciation EXPLNum EXPLCategory Meaning N T P h rase EXPLJNum EXPLCategory N T Genre NTSentence EXPL Num EXP L Category Meaning N T Genre NTSentence EXPL Num EXPLjCategory Meaning N T Genre NTSentence N T Genre NTJSentence Meaning N T Genre NT Sentence H ìn h Ví dụ mục từ bưng từ điển tin học TĐPNT Từ điển tiếng địa phương Ngh ệ -T ĩn h [1] có t ấ t 5901 đơn vị mục từ xếp theo t h ứ tự 30 chữ : A(53), Ả(43), Â ( l l ) , B(528), C(891), D(312), Đ(395), DZ(54), E(12), Ê(7), G(238), H(204), 1(12), K(238), L(416), M(437), N(678), 0(36), 0(29), ơ(3), P ( 66), Q(40), R(273), S(196), T(397), TL(15), U(14), Ư(22), V(168), X(113) Các sô" cặp d ấu ngoặc đứng sau chữ số lượng mục từ tương ứng Từ mơ h ìn h lơgic liệu, xây dựng sơ đồ XML ( ex tensible M a r k u p Language) [3, 8, 13] b ằ n g cách sử d ụ n g lại tên d n g thức tro n g m ẫ u v ăn b ản WinWord t r ê n cho th ẻ (tag) XML 32 P han H uy K hánh bưng /BUVVNG/ động từ mưng (mụn nhọt hay vết thương sưng to, phát) bưng mù danh từ che vè Nghệ Tĩnh : Lấy tơi nón che sương Đắt làm bưng che gió _ H ình Sơ đồ XML tổ chức liệu cho từ điển tin học TĐPNT Trong sơ đồ, sau p h ầ n tiêu đề k hai báo phiên b ả n XML SC) khai báo tuỳ chọn khác, k h a i báo cấu trúc từ điển gồm k hai báo mục từ n ằ m cặp thẻ Mỗi mục từ, n ằ m cặp thẻ , tổ hợp p h ầ n tử XML tương ứng vối đoạn m ẫu văn b ả n biểu diễn cấu trúc lôgic từ điển tin học TĐPNT Ví dụ p h ầ n t , V V Từ cách biểu diễn này, ta n h ậ n tệp XML có tên tệp (filename) chứa p h ầ n mở rộng XML Để gọi t r ì n h duyệt du y ệt xem tệp XML, cần xây dựng tệp định ng hĩa kiểu v ăn b ả n DTD (Document Type Definition) tệp định nghĩa kiểu t r ì n h bày c s s (Cascade Style Sheet) 2.3 C h o n m ã tiế n g V iêt Dữ liệu t điển tin học TĐ PN T tiếng Việt n ên cần p h ả i chọn mã để biểu diễn Cho đến có n hiều mã tiếng Việt khác n h a u xây dựng sử dụng q uen thuộc Việt n a m n h TCVN3-ABC, Vietw are, VNI, BK TPHCM H ầ u h ế t mã xây dựng t r ê n mã ÁS CII (1) mở rộng, sử dụng 128 vị trí sa u bảng, từ 129 đến 256, theo phương p h p "dựng sẵn" (mã hoá 134 chữ Việt viết hoa, viết thường, ghép nguyên âm d ấ u th an h ) Vì chưa có mã tiếng Việt thơng n h ấ t (2) , việc trao đổi tìm kiếm t hơ n g tin tro n g máy tính, t r a n g Web, gặp n hiều khó k h ă n p hiền phức Giải p h p t r u n g gian (!) Hầu hết mã tiếng Việt khác số bai (byte) sử dụng (1 bai bai), cách xếp thú tự dấu thanh, cách bố trí chữ Việt có dấu (dựng sẵn) mã *2) Nhiều chuyên gia đề nghị sử dụng Unicode để thống tất mã tiếng Việt Mô h ìn h d liêu từ vitng từ điển tin hoe 33 sử d ụ n g mã trục (pivot code) để ch u yển đổi qua lại dễ dàng mã Telex chọn làm mã trục telex sử d ụ n g ký tự ASCII q uen thuộc với n h iề u người Ví dụ chuyển từ TCVN3-ABC q ua telex từ telex qua Unicode, v.v Mã telex chọn để biểu diễn liệu từ vựng tiếng Việt từ điển [4, 5] 2.4 N h ả p n g u n d liệ u cho từ đ iê n Nguồn liệu cho từ điển tin học TĐPNT chủ yếu lấy từ [1] Chúng sử d ụ n g phương p h p đ n h dấu quy ước cho bảng dưói để thao tác cập n h ậ t dề d n g t ă n g tốc độ n h ậ p liệu cho nguồn: Dãy kỷ tự Vị trí Kiêu đoạn (style) @ n đầu đoạn NT_Entry @bưng đầu đoạn EXPL_Num Space/Tab đầu đoạn EXPL_Category đầu đoạn NT_Phrase bư ng m ủ k đầu đoạn NT_Genre / cuối đoạn NT_Sentence Ví dụ gõ vào Kêí quà sau xử lý bưng dt động từ Lấy tơi n ón ch e s n g /Đ ấ t làm bư n g c h e g ió bưng IĨ1Ù vè N g h ệ Tĩnh : Lấy tơi nón che sương Đất làm bưng che gió H ìn h Bảng đánh dấu quy ưốc nhậ p liệu Người sử d ụ n g (NSD) n h ậ p liệu tiếng Việt b ằ n g phương p h p telex tr ìn h soạn th ảo v ă n b ả n tùy ý, không n h ấ t th iế t định d n g (như NotePad, NC Editor ), n h ậ p trực tiếp t r a n g v ăn b ả n WinWord theo m ẫu văn xây dựng t r ê n Kiểu đoạn đoạn xác đị nh đ ặ t th êm dãy ký tự quy ước tương ứng cho bảng, vị tr í đ ầ u đoạn, cuối đoạn, kết thúc p h ím E n t e r (tương đương với ký hiệu p a r a g r a p h - m a r k ìl) Giá trị n = 1, cho biết cách giải nghĩ a th ứ m tr o n g mục từ Các từ loại quy ưốc viết t ắ t n h sau : d d a n h từ dg t d ph ụ từ, h ay tổ hợp p h ụ từ động từ p k tín h từ tr trợ từ, hay tổ hợp trợ từ đại từ th t h n (cảm) từ, h ay tổ hợp t h n từ kết từ, hay tổ hợp k ế t từ Giá trị k = quy ước ca dao, h t giặm, h t phường vải, h t ví h t vè N g hệ-Tĩnh Ký hiệu / để n g ắ t dòng câu trích đoạ n ví dụ tương ứng với th ể loại k, tương đương vối ký hiệu J ( m an u a l- lin e- b r e ak ) Các đoạn nghĩa phổ thông gõ bì nh thường, khơng cần đ ặ t ký tự quy ưỏc Cuối cùng, NSD không cần gõ p h ầ n p h iê n theo cách viết theo kiểu gõ telex tạo cách tự động Toàn liệu lưu trữ 21 tệp có tên chữ đầu mục từ tệp A, B, c, D, E, G, H, I, K, L, M, N, o , p, Q, R, s, T, u, V X Như vậy, CSDL nguồn cho từ điển tin học TĐPNT tạo xong gồm tệp văn đánh dấu quy ước dạng mã ASCII Ví dụ đoạn mã tương ứng với mục từ bưng: 34 P han Huy K hánh @ buwng dg muwng (m ujn nhojt hay veest thuw owng suwng to, phast) buwng mur d taasm che Laasy towi nosn che suw ow ng/D D aast lafm buwng Che gios dg che taji, bijt laji Gasnh m oojt gasnh d d a a s W a w s t dduw ow jc ba trawm casi noofi/DD aajp m oojt ddoofi/Buwng dduw ow jc m uwowfi casi troosng dg dufng tay naang hay bee leen Coox bafn raajp rifnh/Buw ng hai daxy Coox nawm moojt buwng khieeng Hofn ddaast to buwng m af nor noori _ H ình Đoạn liệu nguồn đá nh dấu quy ước mục từ bưng mã telex Từ tệp liệu nguồn đ n h dấu quy ưốc, dễ d n g viết t h ủ tục b ằng Macro VBA để chuyển c húng sang văn WinWord DOC/RTF nhờ t h u ậ t toán tổng q u t hìn h Nếu nguồn liệu tiếng Việt d ạng mã telex, có t h ể sử dụng trìn h chuyển mã ƯniKey, hoậc VietKey, v.v để chuyển từ mã telex t h n h mã TCVN3-ABC, Unicode, chuyển san g mã mong mn, trước chuyển sa n g văn b ả n WinWord Thuật toán : C onvert_S rcText_to_W inw ord_D ocum ent Khởi tạo biến làm việc trung gian Xác định tệp nguồn Do While Chưa hết tệp nguồn Mờ tệp nguồn Xác định tham biên tìm kiếm/thay Xác định kiêu đoạn cần thay : R eplacem ent.style = NT_Entry Do W ith Selection.Find Text = Dãy ký tự đánh dấu quy ước, chằng hạn “ k \ R eplacem ent.Text = " " Forward = True W rap = w dFindC ontinue Form at = True End W ith S election.F ind.E xecute Replace := wdReplaceAII Loop Until X lý hết dãy ký tự đánh dấu quy ước Loop ‘ Hết tệp nguồn Ket thúc H ình T h u ậ t tốn chuyển nguồn sang văn WinWord Jh Mơ h ìn h d liêu từ v ng t ù điên tin hoc 35 Tuy nhiên, việc chuyển mã không q u phức tạp n ên ch ú ng xây dựng t h u ậ t to án (Convert_TelexCode_to) để giải vấn đề Các bước xử lý tương tự t h u ậ t to n 1, xây dựng vòng lặp tìm kiếm đoạn mã telex chữ Việt có dấu (nguồn) tệp văn b ả n mở để t h a y t h ế mã (đích) tương ứng Đầu tiên xử lý (tìm kiếm /th a y thế) đoạn m ã telex có độ dài 3, c hẳng h n aaf/ầ, aar/ẩ , sa u xử lý đoạn mã telex có độ dài 2, c hẳng h n aa/â, aw/ă Trong trường hợp cần tạo nguồn t liệu tiếng Việt không mã telex, t h u ậ t toán (Convert_to_TelexCode) thực chuyển từ mã h n h t h n h mã telex Có th ể minh hoạ t r ì n h ch uyển liệu nguồn đ n h dấu quy ước sang tệp văn b ản W i n W o r d t r o n g m ộ t m ã đ í c h n o đó, c h ẳ n g h n TCVN3-ABC, t r o n g t h u ậ t t o n s a u : Xác định tệp nguồn đánh dấu quy ước If Mã nguồn telex Then C onvert_T elexC ode_to ‘X lý chuyên mã từ telex sang TCVN3-ABC Else C onvert_to_T elexC ode ‘ Xừ lý chuyên mã từ TCVN3-ABC sang telex End If Xác định lại tệp nguồn có mã TCVN3-ABC C onvert_S rcText_to_W inw ord_D ocum ent H ìn h T hu ật toán chuyển mã Sau ch uy ển nguồn đ n h d ấu quy ước chuyển mã, c h ú n g n h ậ n CSDL t vựng từ điển tin học TĐPNT d i d ạn g tệp văn b ả n W i n W o r d DOC/RTF Từ in giấy thành từ điển tra cứu theo mẫu in tùy ý, chuyển sang HTML/XML để sử dụng trình duyệt [5, 6], hay cài đặ t CD-ROM X ây d ự n g t đ i ể n t i n h ọ c T Đ P N T Cửa sổ làm việc c h ín h t điển t in học TĐ PN T N g h ê - T in h Dialectal Dictionary gồm vùng Vùng có t h a n h tiêu đề t r ê n t h a n h t r n g t h i cửa sổ Vù ng gồm lệnh HệThông, ThaoTác, TrợGiúp Vùng gồm n ú t l ệ n h dễ n h ậ n biết sử dụng Vù ng để t r a cứu từ điển, gồm cột danh sách mục t bên t r i nội dung tương ứng cột bên phải Hệ t hô n g t r a cứu từ điển TĐ PN T p h t triể n từ mã nguồn mở hệ t h ô ng k h a i thác CSDL từ vựng đa ngữ [5, , 7] Nguyên tắc h oạt động hệ thông n h sa u : tệp liệu văn DOC ch uy ển đổi t h n h RTF trước k hi chuyển đổi sa n g CSDL t r u n g gian Access MDB nhò lệnh chuyển (data import) Tiếp theo, hệ t h ôn g đưa k ế t lên m àn h ì n h để ph ụ c vụ t r a cứu 36 P han Huy Khánh •Ì5 Nghê-Tinh Dialectal Dictionary Hệ thống IhôOĨđc Trdộúp im l i a £) M — — ■ — m bưng /s * BUWNO động từ mưng (mụn nhọt hay vết thương sưng to, phát) bưng mủ bừng bựng bươi bư&i bị bư&i đường bười đường đúc bười Phúc Trạch bưỡi Tàu bứt bữtcò.bỏ ì&m danh từ che vè Nghệ Tĩnh : Lây tơi nón che sương Đất lảm bưng che gió động từ V NUM Typ* or click from Hal Box 5:23 PM V «r4on1.1 H ìn h 10 Giao diện ch ín h t điển tin học T Đ PN T Các th ao tác n h sa u : sử d ụn g N g h ê - T in h D ia le ctal Diction ary lầ n đầu tiên, hệ thông đư a lời nh ắc NSD cần đọc CSDL từ vựng (giai đ o n i m p o r t d a t a to dictionary) từ tệp v ăn b ả n WinWord RTF để ch uy ển t h n h CSDL t r u n g gian Access MDB B ằ n g cách gọi lệnh đơn Chuyển liệu, chọn mục việc Tạo CSDL mới, đó, tệp v ăn b ản RT F nguồn chuyển t ả i vào t điển N h ữ n g lần chạy chương t r ì n h sa u này, hệ thông mặc n h iê n sử d ụ n g CSDL t r u n g gian MDB có sẵn Tuy nhiên, NSD v ẫn có th ể chọn lệnh bổ sung liệu mối từ m ộ t tệp văn b ả n nguồn RTF hợp lệ (lệnh Kết nối vào CSDL), mở lại CSDL MDB đ ã có (lệnh Mở CSDL có sẵn) t u ỳ theo yêu cầu H ìn h 11 m inh họa hộp t h o i c ủ a lệnh HệThỐngChuyể n liệu •ỉa Im port Data N g u Ổn RTF iDATuDienDPNgheTinhSData'Artf Đích MDB r ):VT.úD«wPNQhéTinrm DĐPNT MDB Chọn việc Mờ CSDL có Bẩn Chấp n h ậ n ị Kết nối vào CSDL r lạ o CSDLmới Hủy H ìn h 11 Hộp tho ại lệnh đơn đọc liệu n g uồ n vào t điển Mơ h ìn h d ữ liêu từ v itng củ a từ điển tin hoc 37 Khi từ điển có liệu sẵn sàng làm việc, NSD tìm chọn để đọc-xem mục từ từ d a n h sách mục từ xếp theo t h ứ tự chữ (xem mục 2.1 t r ê n đây) d ấu t h a n h : kh ô n g dấu, huyền, ngã, hỏi, sắc, nặng NSD có th ể chép m ụ c t v i n r a g i ấ y n ộ i d u n g m ụ c t đó, h a y có t h ể s a l i m ụ c t n h l ệ n h ThaoT ác-Sửa lại Mục t (p hím t ắ t AE) Hệ thống cho phép NSD tìm xem lại mục từ mục t t r a trước từ d a n h sách, t h ê m mục từ mới, xoá bỏ m ộ t mục từ He thong K J P TroGiup chuyen Du Lieu ĩhaoĩac Q Q ỊỊQ Ị Q rl+ Ỉ Ị1 In Noi dung Muc tu ctrl+p Thoat F4 Dóc Xem Mùc tu Ctrl+R Sua lai Muc tu Ctrl+E Thêm Muc tu moi Ctri+A Xoá Muc tu Ctrl+D Danh sách Tu da tra Ctrl+H FI í ' L Muc tu truoc F3 H ìn h 12 Một số lệnh đơn từ điển tin học TĐPNT Khi chạy chương t r ì n h , NSD nhắp chuột n ú t đọc nghe đọc mục từ b ấ t kỳ h iện đan g t r a cứu t r ê n t h a n h công cụ để K ế t l u ậ n Từ điển tin học T Đ P N T chạy Windows 9x Đây đóng góp ch úng tơi q u t r ì n h n g h iê n cứu ứng dụng tin học cho lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý tiế n g Việt, góp p h ầ n giải bước n h ữ n g vấn đề đa ngữ tiếng Việt đ ặ t T r o n g bối c ả n h này, đ a n g tiếp tục nghiên cứu xử lý tin học tiế ng Việt n h xử lý văn b ản tiếng ÊĐê, tiếng Chăm, chữ H n (tiêng T ru n g quốíc, t r ê n sở t H án-Việt) xây dựng từ điển đơn ngữ, đa ngữ Từ điển tin học T Đ P N T giúp NSD nghe hiểu lời nói, chữ viết tiếp xúc với người N g h ệ - T ĩn h , hiểu th ê m lịch sử tiếng Việt, hiểu t h ê m b ả n sắc v ăn hoá địa phương v ù n g đ ấ t miền Trung Từ điển giúp dạy-học môn Tiêng Việt tốt Từ k ế t q u ả có, có th ể xây dựng công cụ kiểm sửa lỗi ch ín h tả, ngữ pháp mà NSD, người N ghệ-Tĩnh, thường mắc phải Đây n h ữ n g yêu tô cần thiết để tiếp tục xây d ự n g từ điển tin học tiếng địa phươ ng khác t r ê n đất nước Việt Nam Với nguồn liệu từ vựng có với k h ả n ă n g cập n h ậ t, sửa đổi, từ điển tiếp tục bổ s u n g mục từ, trích đoạn từ th ể loại hò, h t giặm, h t phường vải, h t ví, h t vè, h a y trích đoạn văn, thơ, ca dao có sử d ụ n g từ địa phương N g hệ -T ĩn h Để t điển tin học TĐPN T trở t h n h s ả n p h ẩ m hoàn chỉnh, p h t triể n p h ổ b iến sử d ụ n g rộng rãi theo hướng mã ng uồn mở, thoả mãn điều kiện mã tiế n g Việt đọc đượ c (readability), cần tiêp tục bổ s un g chức năn g cho N g h ê - T in h D iale ctal Dictionary k h ả n ă n g t r a chéo mục từ (tra cứu từ nằm p h ầ n giải nghĩa), t r a cứu b ằ n g n h iề u phương p h p (click-and-see, autolook ), t ì m đ a r a c c c â u n ó i t i ế n g đ ị a p h n g t n g đ n g , v v P h a n H uy K h n h 38 Lời c ả m ơn: Bài báo tham khảo kết đồ án tốt nghiệp kỹ sư ngành CNTT em Lê Thị Phương, sinh viên khố 1998, bảo vệ th àn h cơng th án g 6/2003: “Xây dựng từ điển địa phương tiếng Nghệ-Tĩnh” tác giả hướng dẫn trực tiếp, khoa CNTT ĐTVT, trường Đại học Kỹ thuật, Đại học Đà Nằng Tác giả chân th n h cảm ơn Tài liệu t h a m k h ả o Nguvền Nhã Bản, Phan Mậu Cảnh, Hoàng Trọng Canh, Nguyền Hoài Nguyên, Từ điển tiếng địa phương N g h ệ -ĩĩn h , NXB Văn hóa Thơng tin, Hà Nội, 1999, 460tr Phan Huy Khánh, Thiết kế từ điển phát âm tiếng Việt Microsoft Windows, Tạp chí Khoa học Cơng nghệ Số 19+20, 1999, tr.21-27 Phan Huy Khánh (chủ trì), Thiết kê hệ thơng khai thác sở liệu từ vựng đa ngừ Pháp-Anh-Việt, Đề tài N C K H cấp Bộ, m ã sô B2001-15-04, Đà N a n g 2001-2002, Lưu Bộ Giáo dục Đào tạo Phan Huy Khánh, Võ Trung Hùng Thiết kế sỏ liệu đa ngữ ngữ pháp tiếng Việt Tạp chí Khoa học Cơng nghệ, No 36+37, 2002, tr 19-24 Phan Huy Khánh, Xây dựng sở liệu từ vựng đa ngữ sử dụng, dạng thức văn RTF WinWord, Kỷ yếu Hội thảo Khoa học Quốc gia L ần th ứ n h ấ t, ICT.rda’2003 HàNội, 2003, trl03-110 M Mangeot-Lerebours, Environnements centralises et distribués pour lexicographes et lexico-logues en contexte multilingue, L uận án Tiến sĩy 9/2001, UJF, CH Pháp, ĐHTH Joseph Fourrier Hoàng Phê, Từ điên tả , Trun g tâm Từ điển học, NXB Đà Nẵng, 1995, 511tr Hoàng Phê, T điển tiếng V iệt, Trun g tâm Từ điển học, NXB Đà Nẳng, 1997, 1130tr Nguyền Kim Thản, N gữ pháp tiếng Việt, NXB Giáo dục, 1997, 232 tr 10 Nguyễn Như Ý, Đại từ điển tiếng V iệt, NXB Văn hóa-T hơng tin, Hà Nội 1999, 1892 tr Mơ h ỉn h d ữ liêu từ vitng từ điển tin hoc 39 VNU JOURNAL OF SCIENCE, Nat Sci & Tech., T.xx, N01, 2004 DATA MODELS FOR THE NGHE-TINH DIALECTAL DICTIONARY P h a n Huy K h an h The U niversity o f D anang In th e res ea rch of n a t u r a l language processing (NLP), one m u s t always a cc u m ulate a nd u p d a t e of more from m an y of lexical d a t a resources of heterogeneous form ats for various applications Thes e resources are often difficult to m a i n t a i n a nd to m a n ip u la te It is necessary rec o n stru ctin g a specific dictionary for every new application Following the m ethods of analy sis a nd design of the inf or mation systems, it is necessary to create a d a t a conceptual model a nd th en convert it in a d a t a logical model in order to co n stru ct a lexical d a t a base C urrently in Vietnam, t h ere are a lre ady some Vietnamise diction aries on computer, b u t it doesn't exist more dialectal dictionary We p r e s e n t in th is p a p e r a solution of co nstru ctin g of d a t a models in order to create a N g h e -T in h dialectal dictionary We c on struct a n e ntity-associatio n model to r e p r e s e n t the r e l a ti o n s h i f betw een the e n tr y (headword), explanation, popu lar meaning, p h r a s e et sentenc e from a publish pa p e r N g h e - T in h dialectal dictionary This model is convert into WinWord docum ent form at to u p d a te th e Ngh e-Tinh dialectal lexical d a t a b a s e in the pivot telex code By using a n open sources of a software system of consulting th e multiligua l lexical d a ta b a s e developed by us at the Univers ity of D a n an g, we have build a first version of N g h e - T in h dialectal dictionary on computer The lexical resource of th is dictionary c o nta in s about 5000 entries with the possibility of u p d a te a nd rea dable In th e sam e time, the entityassociation model is also converted into Access MDB table a nd XML format ... chuyển từ TCVN3-ABC q ua telex từ telex qua Unicode, v.v Mã telex chọn để biểu diễn liệu từ vựng tiếng Việt từ điển [4, 5] 2.4 N h ả p n g u n d liệ u cho từ đ iê n Nguồn liệu cho từ điển tin học. .. lệnh đơn đọc liệu n g uồ n vào t điển Mô h ìn h d ữ liêu từ v itng củ a từ điển tin hoc 37 Khi từ điển có liệu sẵn sàng làm việc, NSD tìm chọn để đọc-xem mục từ từ d a n h sách mục từ xếp theo... ự n g từ điển tin học tiếng địa phươ ng khác t r ê n đất nước Việt Nam Với nguồn liệu từ vựng có với k h ả n ă n g cập n h ậ t, sửa đổi, từ điển tiếp tục bổ s u n g mục từ, trích đoạn từ th ể

Ngày đăng: 11/12/2017, 12:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan