Nguồn dữ liệu từ điển LDOCE

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 28)

f) Quan hệ bộ phân và tồn thể

3.1.4.2. Nguồn dữ liệu từ điển LDOCE

LDOCE được tổ chức theo ngữ nghĩa ở dạng phân cấp. Gồm 32 mã ngữ nghĩa khác nhau được sử dụng trong LDOCE: Một sự phân biệt được tạo ra giữa 19 mã cơ bản và 13 mã nối kết của những mã căn bản đĩ.Hầu hết các nghĩa của danh từ cĩ một mã ngữ nghĩa. Đối với mã ngữ nghĩa là cơ sở để phân loại ngữ nghĩa của từ và giới hạn sử dụng đối số. Từ điển LDOCE là một từ điển cĩ kích thước trung bình khoảng 45.000 mục từ và 75.000 nghĩa. Mục từ được phân biệt dựa trên nguồn gốc của từ và từ loại của chúng mà mỗi mục từ cĩ thể cĩ một hoặc nhiều mục nghĩa. Nghĩa của mục từ được phân biệt dựa trên từ loại chính của chúng.

LDOCE được tổ chức theo ngữ nghĩa ở dạng phân cấp. Tổng cộng cĩ 32 mã ngữ

nghĩa khác nhau được sử dụng trong LDOCE. Một sự phân biệt được tạo ra giữa 19 mã cơ bản và 13 mã nối kết của những mã căn bản đĩ.

LLOCE là một loại từ điển nhỏ cĩ nguồn gốc từ từ điển LDOCE và được tổ chức dựa theo nguyên tắc ngữ nghĩa. Sự phân lớp ngữ nghĩa trong LDOCE được phân thành 3 cấp theo mức độ cụ thể của khái niệm tăng dần gồm 14 phân lớp --» 127 nhĩm --» 2441 tập hợp.

Danh sách 14 phân lớp của từđiển LDOCE: <A> Đời sống và vật sống

<B> thân thể, chức năng <C> con người và gia đình <D> nhà cửa, quần áo <E> Thực phẩm, đồ uống <F> cảm xúc, cảm giác

<G> tư duy, thơng tin, ngơn ngữ, văn phạm <H> vật liệu, chất liệu

<I> Nghệ thuật, khoa học, cơng nghệ

<J> Số, độđo, tiền , thương mại <K> giải trí, thể thao

<L> khơng gian, thời gian

<M> di chuyển, vị trí, du lịch, vận chuyển <N> từ tổng quát và trừu tượng

Chi tiết của 14 phân nhĩm như sau:

A1#tồn tại,sống,hiện cĩ,hiện hữu,tạo ra,sáng tạo,tạo nên,tạo thành,làm sống

động,cổ vũ,tạo sự sống,làm sinh động,làm sơi nổi,làm phấn khởi,đầy sức sống,cĩ sinh khí,nhộn nhịp,náo nhiệt,sơi nổi,hoạt hình,làm nảy sinh ra,tích cực,ủng hộ,động viên,làm vui lên,làm hăng lên,làm náo nhiệt,làm nhộn nhịp,

B1#thể xác,thân thể,thân xác,vật thể,thể hình,vĩc người,dáng người,tầm vĩc,khổ

người,thể trạng,thể chất,thân hình,ngoại hình,thân,tạng người,

C1#người,người ta,con người,người dân,giới,dân tộc,dân gian,người thân thuộc,lồi người,nhân loại,cơ thể bằng da bằng thịt,

D1#xây dựng,xây cất,dựng nên,lập nên,làm nên,để lên,đặt lên,nâng lên,lắp

đặt,treo,tạo ra,tổng hợp,kết hợp,dựng lên,

E1#đồăn,mĩn ăn,thức ăn,thực phẩm,chất dinh dưỡng,lương thực,thức ăn bổ

dưỡng,chất bổ dưỡng,thức ăn thức uống,thực phẩm dự trữ,chếđộăn kiêng,phần

ăn,khẩu phần,sản phẩm chủ yếu,lương thực chính,thực phẩm chính,đồ nhậu,chất xơ,chếđộăn,

F1#cảm giác,cảm thấy,trạng thái,ý thức,thấy,trải qua,thích thú,khối,đau,đau đớn,cĩ cảm giác,cĩ cảm tưởng,

Tập hợp cấu thành LDOCE gồm các từ cĩ liên quan mà khơng cần phải đồng nghĩa. LDOCE cĩ hai tập tin:

1. CVDIC : chứa các nhĩm từ, mỗi nhĩm từ cĩ mã phân lớp (A,B,…, N), nhĩm và tập hợp. Các giá trị này được gọi chung là mã từ ( WordID). CVDIC cĩ 2446 nhĩm từ 2. VCDIC: chứa từ, tập các mã từ. CVDIC cĩ 29.856 mục từ. người#A50,C1,C3,G261,G285, người an dưỡng#B167, người anh hùng#F133, người ba phải#C43, người biên tập#G172, người biểu diễn#K39,K82, người biểu diễn thăng bằng#K88, người biết nĩi tiếng bụng#K88, người buơn bán#J139,J188, người buơn hàng dệt kim#J193,

người bà con#C16, người bảo trợ#K83,

Ví dụ mục từ người ứng với bản ghi sau: người#A50,C1,C3,G261,G285, Chi tiết của các nhĩm từ cĩ liên quan:

A50#người,con người,lồi người,khỉ,khỉ khơng đuơi,khỉ dạng người,vượn người,đại tinh tinh,hắc tinh tinh,khỉđuơi dài,gơrila,tinh tinh,vượn,khỉđầu chĩ,khỉ châu á,khỉ đuơi sĩc,đười ươi,cơ thể bằng da bằng thịt,

C1#người,người ta,con người,người dân,giới,dân tộc,dân gian,người thân thuộc,lồi người,nhân loại,cơ thể bằng da bằng thịt,

C3#phụ huynh,bố,mẹ,bố mẹ,người giữ trẻ,người giám hộ,trẻ em,con,con nít,trẻ

con,con hoang,con ngồi giá thú,đứa trẻ cịn nhỏ tuổi,trẻ sơ sinh,trẻ mới sinh,trẻ

sinh đơi,trẻ sinh ba,sinh tư,đứa trẻ sinh năm,người,cơ nhi,trẻ mồ cơi,đầu người,đầu, G261#số,giống,con người,người,thì,tiếng nĩi,giọng nĩi,lối,thức,thể,mức độ so sánh G285#cái,con,người,này,cái này,điều này,đĩ,cái đĩ,điều đĩ,

3.1.4.3.Từ điển các từ gần nghĩa trong lĩnh vực cơng nghệ thơng tin

Chúng tơi sưu tầm và biên soạn từđiển các từ cĩ nghĩa liên quan trong lĩnh vực CNTT. Các từ này cĩ khuynh hướng xuất hiện đồng thời và cĩ liên quan nhau. Tổng số từ cĩ liên quan là 3.200 từ.

− bảo mật dữ liệu,mã hĩa dữ liệu,an tồn dữ liệu,che giấu dữ liệu,bảo vệ dữ

liệu,

− bảo trì,sửa chữa,cập nhật,thay đổi,làm mới,chỉnh sửa

− bảo trì,lỗi,kiểm lỗi,nâng cấp,phiên bản,

− bảo trì,lỗi,kiểm lỗi,nâng cấp,phiên bản,

− bẫy lỗi (break point),tìm lỗi (debug),mã nguồn,chạy từng bước,

− bí danh,tên khác,

− biến,khai báo,kiểu dữ liệu,giá trị,địa chỉ,cấp phát bộ nhớ,giải phĩng bộ

nhớ,tồn cục,cục bộ

− biến,hằng,giá trị,tham số,giá trị trả về,

− biến,hằng,giá trị,tham số,giá trị trả về,

− biên dịch,mã nguồn,thực thi,mã máy,hợp ngữ,

− biên dịch,trình biên dịch,mã nguồn,chương trình,lỗi,thơng dịch,

− biên dịch,trình biên dịch,mã nguồn,chương trình,lỗi,thơng dịch,

− biểu thức chính quy,ngơn ngữ,ký hiệu,chuỗi ký tự,tập hợp ký tự,tập ký tự,

− biểu thức điều kiện,so sánh,cấu trúc rẻ nhánh,

− biểu tượng,hình ảnh,lơ gơ,

− bộ dữ liệu,tập hợp dữ liệu,khối dữ liệu,tập dữ liệu,danh mục dữ liệu,

− bộ nhớ,bộ nhớ chính,bộ nhớ truy xuất ngẫu nhiên,

− bộ nhớ,hệđiều hành,hệ thống tập tin,lập lịch,tiến trình,tiểu trình,

− bộ phận,phần,thành phần,

− bộ sinh địa chỉ dữ liệu,bộ tạo địa chỉ dữ liệu,

− bộ vi xử lý,bộ xử lý trung tâm,

− bus dữ liệu,đường truyền chính dữ liệu,

− ...

3.1.4.4.Từ điển tin học Anh Việt

Số thuật ngữ tin học trên 6.000 thuật ngữ.Sau đây là một vài thuật ngữ tin học kèm giải thích.

@disk capacity

#dung lượng đĩa, sức chứa của đĩa

% Khả năng lưu trữ của đĩa cứng hoặc đĩa mềm, được tính theo đơn vị kilobyte ( K) hoặc megabyte ( M). Dung lượng đĩa mềm phụ thuộc vào kích thước đĩa, và vào mật độ của các hạt từ phủ trên bề mặt của nĩ. Hai cỡđĩa phổ biến nhất là 51 / 4 inch và 31 / 2 inch. Loại đĩa một mặt đã một thời phổ dụng nhưng hiện nay khơng cịn nữa, bây giờđĩa hai mặt là định chuẩn. Tiêu chuẩn hiện nay đồng thời cũng là các loại đĩa mật độ kép ( double density-DD) và mật độ cao ( high density-HD).

@disk drive

#ổ đĩa Thiết bị lưu trữ thứ cấp như ổ đĩa mềm hoặc cứng. Thuật ngữ này cũng thường được dùng để chỉ các ổ đĩa mềm. ổ đĩa mềm là một phưng tiện lưu nhớ thứ

cấp rất kinh tế, nĩ dùng loại đĩa từ cĩ thể tháo rời, cĩ thể ghi vào, xố, và dùng lại nhiều lần. Các thao tác ghi và xố được thực hiện bởi một đầu từ đọc/ghi chuyển

động khắp mặt đĩa, làm cho ổđĩa cĩ khả năng truy cập ngẫu nhiên.

3.1.4.5. Computer ontology của Yahoo.com

Chúng tơi download và dịch computer ontology của yahoo.com Ví dụ: mục từ Group= 4=storage storage hard_disk_drives scsi optical_storage cd_r_and_cd_rw dvd cd_rom ata__ide__and_atapi_interfaces serial_ata flash_memory raid___redundant_array_of_independent_di removable_storage Tổng số mục từđã dịch là 3500 mục từ

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 28)