MỤC LỤC
Ngoài ra còn có thêm nhiều công trình nghiên cứu: Công cụ tách từ JVNSegmenter [51], vnTokenizer, ứng dụng phương pháp Pointwise vào tách từ tiếng Việt [24]… Xây dựng kho ngữ liệu tiếng Việt: Trung tâm từ điển học Vietlex đi đầu trong xây dựng kho ngữ liệu (KNL) tiếng Việt từ năm 1998 đến nay; kết quả, KNL tiếng Việt chứa khoảng 100 triệu âm tiết, được thu thập từ nhiều nguồn dữ liệu khác nhau. Ngoài các kết quả đang chú ý nêu trên, còn có các công trình nghiên cứu khác như: xử lý tiếng nói cho tiếng Việt của Viện CNTT và Trung tâm nghiên cứu quốc tế Thông tin đa phương tiện, truyền thông và ứng dụng (MICA) của trường ĐHBK Hà Nội; các đề tài nghiên cứu ở một số trường ĐH (ĐHBK và ĐH Khoa học tự nhiên HCM, ĐHBK Đà Nẵng, ĐHBK và ĐH Khoa học tự nhiên Hà Nội,…).
Nghiên cứu từ trong ngữ cảnh còn giúp làm sáng tỏ bản chất nghĩa của hiện tượng tỉnh lược trong lời nói (bỏ bớt từ khi nói). Phương pháp phân tích nghĩa của tư theo ngữ cảnh. Phương pháp phân tích ngữ cảnh của từ theo ngữ cảnh gồm các bước:. Tập hợp ngữ cảnh: Xác định ngữ cảnh của một từ trong các loại văn bản khác nhau và tập hợp chúng lại. Phân loại ngữ cảnh: Những ngữ cảnh cùng hiện thực hóa một nghĩa của từ được xếp vào một nhóm ngữ cảnh cùng loại. Đây là công việc đặc biệt quan trọng, sự chuẩn xác tạo điều kiện cho việc tách nghĩa chuẩn xác trong từ. Phân tích nghĩa: Đối với các từ đơn, ta so sánh nó với các từ trong trường nghĩa để phát hiện ra nét nghĩa. Đối với từ đa nghĩa, trước khi tiến hành bước trên ta phải tách ra các nghĩa, xác định chính xác số lượng nghĩa trong từ, tìm nghĩa gốc của từ, xác định và loại bỏ các nghĩa ngữ cảnh. Tư nhiều nghĩa và quan hệ nghĩa trong tư vựng. Từ nhiều nghĩa là từ có hai nghĩa trở lên nhằm biểu đạt các đối tượng, khái nhiệm khác nhau, đồng thời các nghĩa có mối liên hệ với nhau được sắp xếp theo một tổ chức nhất định. Hiện tượng đồng õm là hiện tượng cỏc từ giống nhau về vừ ngữ õm nhưng hoàn toàn khác nhau về nghĩa. Phân biệt đồng âm với đa nghĩa: Đồng âm là hiện tượng xảy ra giữa các từ, nhiều nghĩa là hiện tượng xảy ra trong một từ. Giữa các nghĩa của những từ đồng âm hoàn toàn khác nhau không có mối liên hệ nào, trong khi đó, từ đa nghĩa thường có một nghĩa gốc, các nghĩa còn lại phát sinh từ nghĩa gốc; giữa các nghĩa của một từ nhiều nghĩa thường có một nét nghĩa chung, móc nối chúng lại thành một kết cấu, và giữa các từ đa nghĩa có sự chuyển nghĩa. Sự biến đổi của tư vựng và ngữ nghĩa. Sự biến mất các tư ngữ trong tư vựng: Ngôn ngữ chỉ lưu giữ lại những yếu tố hữu ích; những yếu tố thừa, không phù hợp với nhu cầu sử dụng sẽ bị loại bỏ. Sự biến mất những từ ngữ tuân theo nguyên tắc này. Nguyên nhân trong ngôn ngữ: Từ biến mất do đã có một từ đồng nghĩa thay thế, từ rơi rụng này; từ biến mất do biến đổi ngữ âm, ngữ âm cũ mất đi, ngữ âm mới hình thành và thay thế. Từ ngữ gốc dần dần nhường chỗ cho từ rút gọn hơn, ví dụ. Nguyên nhân ngoài ngôn ngữ: Từ bị rơi rụng do đối tượng được từ gọi tên bị mất đi, đó là các từ lịch sử. Sự xuất hiện các tư ngữ mới trong tư vựng: Sự xuất hiện các từ ngữ mới để thỏa mãn nhu cầu định danh các sự vật hiện tượng trong đời sống. Cấu tạo từ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân tộc; con đường hình thành từ mới này thông qua các phương thức:. a) Phương thức phức hợp: Hòa đúc hai từ sẵn có tạo nên từ mới, giữ lại các yếu tố được coi là giá trị nhất về mặt ngữ nghĩa của cả hai từ để tạo ra một đơn vị hoàn chỉnh. b) Phương thức rút gọn: Phương thức rút gọn là phương thức tạo từ mới bằng cách lược bớt một phần của đơn vị đó. c) Phương thức viết tắt: Phương thức ghép các con chữ (âm) ở đầu, cuối, vị trí nào đó trong một nhóm từ với nhau để tạo nên từ mới. Kiểm tra chất lượng sản phẩm => KCS. Vay mượn ngôn ngữ khác: Đây là quá trình tiếp nhận thêm từ ngôn ngữ khác hình thành nên lớp từ vay mượn. b) Quá trình đồng hóa từ vay mượn: Từ ngữ vay mượn chịu sự biến đổi theo quy luật ngôn ngữ tiếp nhận, là quá trình vay mượn các ngôn ngữ chủ thể. Xử lý nhập nhằng nghĩa của từ được nhiều nhà nghiên cứu XLNNTN quan tâm đến, là vấn đề xuất hiện sớm và lâu đời nhất của lĩnh vực này (những năm 40 của thế kỷ 20), đóng vai trò quan trọng, làm cơ sở cho nhiều bài toán XLNNTN khác… Để khử nhập nhằng nghĩa của từ, các nhà nghiên cứu phải sử dụng nhiều thông tin của ngữ cảnh ở nhiều cấp độ (hình thái, ngữ pháp, ngữ nghĩa,..) cùng với các luật suy diễn ngữ nghĩa.
Chẳng hạn, trong tiếng Việt, cách viết tắt một chữ X, trong toán học thường có nghĩa là ẩn số phương trình, nhưng có khá nhiều biến động ngữ nghĩa hoán dụ: thế hệ 6X, 7X … Ẩn dụ cũng là phương thức biến đổi ý nghĩa của CVT bằng cách lấy tên gọi của sự vật, hiện tượng này để chỉ sự vật, hiện tượng khác trên cơ sở của sự giống nhau về một khía cạnh nào đấy giữa hai sự vật hay hiện tượng ấy. Nghiên cứu [42] đề xuất xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập, [43] xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; [6] đưa ra khả năng khắc phục trong soạn thảo văn bản, nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt.
TểM TẮT CHƯƠNG 1
Trong hình 2.2, phần giao nhau giữa các khối thể hiện việc sử dụng các “chất liệu” cơ bản (ký tự, âm tiết, tiếng) để hình thành CVT. Các phần không giao nhau giữa các khối thể hiện sự sáng tạo trong hình thành CVT của NSD. Mô hình trên cũng thể hiện được từ điển chỉ lưu trữ một phần nhỏ tập các CVT. Trong thực tế, không phải lúc nào từ điển cũng có thể cập nhật đầy đủ CVT, vì việc hình thành CVT rất phong phú và đa dạng. Sự sáng tạo CVT của con người không ngừng tăng lên trong cuộc sống, trong phát triển ngôn ngữ, trong nghiên cứu và ứng dụng khoa học. Việc mô hình hóa sự hình thành CVT nhằm giúp cho NSD có cái nhìn toàn diện, đầy đủ về nguồn gốc hình thành dữ liệu CVT. Đặc điểm hình thành chữ viết tắt tiếng Việt. Nghiên cứu [29] đã phân loại nói tắt và viết tắt theo nguồn gốc: Nội sinh và ngoại nhập, chỉ ra tính “lâm thời và ổn định”, nêu lên các dạng thức của nói tắt và viết tắt.. Tuy vậy, nghiờn cứu cũng núi rừ “tỏc giả chưa trực tiếp bàn đến vấn đề xỏc lập quy tắc cấu tạo và sử dụng các dạng thức nói tắt và viết tắt từ ngữ”. Nghiên cứu lý thuyết và thực tiễn sử dụng CVT, luận án tổng hợp vài đặc điểm hình thành CVT để làm cơ sở xây dựng các quy tắc hình thành CVT:. 1) Vấn đề CVT liên quan đến sự biến đổi chữ viết, viết tắt cũng là một hướng làm biến đổi chữ viết có thể được xem là cải tiến chữ viết. 2) Phương thức viết tắt tạo nên từ, ngữ mới trong kho ngữ vựng; phương thức này tạo ra số lượng CVT rất lớn và không ngừng phát triển. 3) Phương thức biến đổi ý nghĩa của CVT là cách thức bổ sung nghĩa mới cho CVT không kèm theo sự biến đổi về ngữ âm, làm cho CVT trở thành CVT nhiều nghĩa. 4) CVT hình thành ngay trong chính ngôn ngữ tiếng Việt (nội sinh), nhưng CVT cũng hình thành bằng cách vay mượn tiếng nước ngoài (ngoại nhập); hoặc kết hợp giữa nội sinh và ngoại nhập. 5) Vấn đề đọc các CVT: Khi đọc các CVT, có thể hình dung và khôi phục ngay nguồn gốc CVT, chỉ đọc các tên chữ cái trong CVT mà không cần đọc đầy đủ nguồn gốc hình thành CVT. Cách đọc này vay mượn theo cách đọc các chữ cái tiếng nước ngoài. 6) Những yếu tố khác ảnh hưởng đến thành lập CVT: Yếu tố về số lượng ký tự (hay độ dài CVT); yếu tố dấu thanh trong tiếng Việt; yếu tố tâm linh người Á Đông; yếu tố âm tiết (khi đọc). Trong cách đặt tên viết tắt cho tên doanh nghiệp, thương hiệu, nhãn hiệu hàng hoá… Không phải tất cả CVT đều chọn lựa số lượng ký tự trước, nhưng nhiều người cố ý chọn cho mình một chữ trong hệ đếm “cơ số 4” này (thường là Sinh hoặc Lão) để định trước chiều dài cho CVT. Yếu tố tâm linh này có ảnh hưởng ít nhiều đến cách thành lập CVT. Những trường hợp không nên viết tắt: Sau đây là những trường hợp không nên viết tắt:. a) Trong các bài thi vì thí sinh có thể bị đánh giá sai. b) Trong giao dịch kinh doanh vì tạo cho người đọc cảm giác không được tôn trọng, hiểu sai. c) Trong hồ sơ bệnh án, ngoại trừ những CVT chuyên môn đã quy định, chỉ dùng ký hiệu CVT phổ thông khi thật cần thiết, không nên viết tắt tránh gây nhầm lẫn. d) Trong các văn bản hành chính pháp quy, đơn từ. e) Trong giao tiếp Email, chatting cần tránh việc lạm dụng và biến tướng CVT tới mức làm biến dạng ngôn ngữ, gây phản cảm cho người đọc. Quy định ngữ pháp chữ viết tắt tiếng Việt. Ngữ pháp tiếng Việt quy định: Khi tên gọi xuất hiện lần đầu trong văn bản thì không được viết tắt, mà phải viết dạng đầy đủ và ghi chú CVT trong ngoặc đơn. Trước khi sử dụng CVT trong văn bản nói chung, người viết phải định nghĩa CVT. Có hai trường hợp:. Sử dụng CVT có sẵn: CVT đã được định nghĩa, hoặc thông dụng, nhiều người biết, không mập mờ, phản nghĩa khi dùng; hoặc đã có quy định, chẳng hạn như đã đăng ký nhãn hiệu, quy định bảng hay danh mục CVT … thì sử dụng trực tiếp mà không cần định nghĩa lại. Sử dụng CVT mới định nghĩa: Định nghĩa và sử dụng CVT ngay khi xuất hiện lần đầu trong văn bản theo dạng thức:. Dấu hiệu nhận biết chữ viết tắt tiếng Việt: Từ các quy tắc thành lập, sử dụng CVT, ta đưa ra dấu hiệu nhận biết CVT tiếng Việt trong văn bản:. 1) CVT nằm trong dấu ngoặc đơn (.) ngay sau cụm từ viết đầy đủ khi CVT được định nghĩa lần đầu. 2) CVT là chữ in hoa (có số ít trường hợp viết chữ thường). Đọc các chữ viết tắt tiếng Việt: Vấn đề đọc các CVT có các trường hợp:. 1) Khi đọc CVT, đọc đầy đủ cụm chữ gốc hình thành nên CVT, người đọc có thể hình dung và khôi phục ngay nguồn gốc CVT. Trường hợp này là khá phổ biến: MTTQ: Mặt trận tổ quốc, UBND: Uỷ ban nhân dân. 2) Đọc ghép các CVT theo kiểu phát âm tiếng Việt thông thường, tách từng nhóm ký tự hình thành nên CVT, người nghe dễ hình dung ra nguồn gốc CVT.
Các CSDL của CVT trong Winword được xây dựng trước khi cập nhật có cấu trúc dạng mẫu văn bản (document template) đã được phát triển ở Khoa CNTT, Đại học Đà Nẵng [44] [45]. Từ các CSDL văn bản Winword, tiếp tục chuyển đổi qua dạng XML hoặc dạng CSDL khai thác sử dụng bằng MySQL. Do số lượng CVT lớn, phân ra nhiều lĩnh vực khác nhau, để từng bước làm đầy kho ngữ liệu CVT, đối với những CVT phát sinh trong thực tiễn, hiện nay ta sử dụng cách cập nhật trực tuyến thủ công bởi hệ thống website hoàn chỉnh, thực hiện quản trị và biên tập cập nhật, tiến đến cung cấp cho NSD cập nhật trực tuyến. Cách thu thập thông tin trực tuyến là cách huy động nguồn lực và trí tuệ tập thể nhiều người để làm giàu kho dữ liệu. Thu thập dữ liệu tự động. Từ kết quả cập nhật thủ công, trực tuyến nêu trên, tiếp tục làm giàu CSDL của CVT một cách tự động từ môi trường Internet hoặc các tập tin dữ liệu đã có. Đây là giải pháp cập nhật tự động dữ liệu. Giải pháp cập nhật tự động giới hạn trong việc tìm kiếm những CVT mới tiếng Việt. Nguồn dữ liệu được thu thập từ các website trên mạng Internet, các tập tin dữ liệu dạng *. HTM, tập tin dữ liệu văn bản phổ biến như *.DOC. Có lưu lại nguồn tham khảo, trích dẫn CVT, người cập nhập, người biên tập dữ liệu. Phương pháp thực hiện: Dựa vào các dấu hiệu nhận biết CVT trong một văn bản, trích lọc ra các CVT mới để bổ sung vào CSDL. Hai phương pháp đề xuất:. 1) Cập nhật CVT mới tư tập tin văn bản DOC. Nghiên cứu CVT và sự ứng dụng trong xây dựng bộ mã chuyên ngành, luận án đề xuất ý tưởng về một giải pháp có tính chất tăng cường quản lý trong CNTT và truyền thông: Nhà nước cần có cơ quan nghiên cứu ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng CVT để có tính gợi nhớ, dễ hiểu, dễ sử dụng, nhất là đối với đội ngũ chuyên gia thiết kế CSDL, lập trình viên, bảo trì, bảo dưỡng phần mềm, tạo điều kiện trao đổi chia xẻ thông tin, khai thác CSDL quốc gia được dễ dàng và đồng bộ.
Quy tắc đặt tên SMS Brandname: Yêu cầu căn bản của Brandname là giới hạn trong 11 ký tự (có thể phải tận dụng tối đa 11 ký tự, hạn chế tối đa ký tự trống). Cần áp dụng các quy tắc tạo sinh CVT để đặt tên Brandname, nhằm phản ảnh nhận diện thương hiệu của doanh nghiệp. Thực chất vấn đề đặt tên thương hiệu Brandname là dùng CVT đại diện, trong CVT đó cần hội đủ các yếu tố đại diện, trợ giúp doanh nghiệp phát triển thương hiệu. 4.2.2.Các bước xây dựng công cụ tư vấn đặt tên Brandname Xây dựng công cụ tư vấn đặt tên Brandname qua các bước:. 1) Bước 1: Xây dựng CSDL quản trị Brandname; tích hợp vào hệ thống CSDL kho ngữ vựng chữ viết tắt. 2) Bước 2: Xây dựng quy tắc tạo sinh chữ viết tắt Brandname, mô phỏng dùng công cụ lập trình tạo sinh. 3) Bước 3: Xây dựng công cụ phần mềm quản lý SMS Brandname, công cụ tư vấn doanh nghiệp đặt tên và quản trị Brandname. 4) Bước 4: Triển khai áp dụng vào thực hiện hoạt động kinh doanh, cung cấp cho khách hàng có nhu cầu sử dụng tin nhắn SMS Brandname. Nếu đã có các CVT thì đưa ra sử dụng, nều không có các CVT, thì thành lập các CVT của chuỗi ni (theo các quy tắc hình thành CVT); đồng thời lưu vào tập huấn luyện để sử dụng lần sau. 3) Sau khi xử lý từng chuỗi ni, thực hiện tổ hợp kết quả theo thứ tự các chuỗi n1,. nk để đề xuất các CVT có thể có của chuỗi đầu vào. 4) So khớp trong bảng NGHIA_CVT_DATBIET để hiển thị các nghĩa tích cực, nghĩa tiêu cực kèm theo, để giúp NSD có thể có diễn dịch ý nghĩa tích cực hay tiêu cực, từ đó chọn lọc CVT làm các Brandname.
Hoặc có thể CVT đã được định nghĩa trước đó (nhưng không có trong bảng CVT của văn bản), trường hợp này NSD sẽ gặp khó khăn, xem như CVT chưa định nghĩa được phân tích dưới đây. CVT chưa định nghĩa: Tình huống này, trong văn bản không có bảng định nghĩa các CVT, NSD sẽ thực hiện:. a) Tra cứu CVT trên mạng (website, từ điển CVT trên máy di động). (3) Các dấu hiệu nhận biết CVT dùng trong văn bản:. a) CVT nằm trong dấu ngoặc đơn (.) ngay sau cụm từ viết đầy đủ khi CVT được định nghĩa lần đầu, CVT này được sử dụng từ đó về sau. b) Thông thường CVT là chữ in hoa (có số ít trường hợp viết chữ thường). d) CVT tiếng Việt phần lớn dùng phụ âm, không dùng các nguyên âm Â, Ă, Ơ, Ê, Ô… không dùng các dấu thanh huyền, sắc, hỏi ngã, nặng.
CurentFrequency(D,W,F) Lấy giá trị trọng số tần suất sử dụng lớn nhất của các CVT có trùng lặp, nhập nhằng nghĩa trong D CurentContext (D,W,C) Lấy giá trị ngữ cảnh của CVT (thuộc tính lĩnh. (3)Trường hợp 3: Nếu phát hiện W là thỏa các dấu hiệu nhận biết CVT trong. Xác định khả năng W là CVT; và nếu không tìm thấy W trong bảng T và không có định nghĩa trước đú, thỡ đõy cũng là sự nhập nhằng, khụng rừ nghĩa CVT. a) Nếu tìm thấy có thể đưa ra nhận diện CVT. Trường hợp CVT có nhập nhằng ngữ nghĩa, ta dựa vào tần suất sử dụng cao nhất để có thể chọn CVT đề xuất, nhận diện. b) Nếu không tìm thấy thì không thể chỉ ra ngữ nghĩa CVT là gì, có cảnh báo việc sử dụng CVT này chưa chính xác trong văn bản.
Xác định khả năng W là CVT; và nếu không tìm thấy W trong bảng T và không có định nghĩa trước đú, thỡ đõy cũng là sự nhập nhằng, khụng rừ nghĩa CVT. a) Nếu tìm thấy có thể đưa ra nhận diện CVT. Trường hợp CVT có nhập nhằng ngữ nghĩa, ta dựa vào tần suất sử dụng cao nhất để có thể chọn CVT đề xuất, nhận diện. b) Nếu không tìm thấy thì không thể chỉ ra ngữ nghĩa CVT là gì, có cảnh báo việc sử dụng CVT này chưa chính xác trong văn bản. Trong mô hình (hình 5.3), văn bản chưa xử lý nhập nhằng có thể bao gồm ba loại tệp văn bản (.html,.doc,.text); văn bản này được tách thành đoạn, từng câu, từ. Sau đó kiểm tra từng từ, nếu có dấu hiệu nhận biết CVT, sẽ kiểm tra theo thuận toán. trình bày trong mục 5.3.3 để kết hợp với cơ sở luật đã xây dựng và CSDL chữ viết tắt để khử bỏ nhập nhằng. Việc thực hiện khử một phần các hiện tượng nhập nhằng CVT đối với văn bản tiếng Việt còn dựa trên các vấn đề:. a) Sử dụng một cơ sở luật để nhận diện CVT nhập nhằng. b) Dựa trên tiêu chuẩn thống kê được tần số, tần suất sử dụng CVT.
CSDL CVT (mục 3.4.1) được xem như bảng dữ liệu đầu vào cần đánh giá tần suất sử dụng CVT. Giải pháp đánh giá tần số CVT tiếng Việt trên Internet: Các bước đề xuất tìm kiếm cập nhật dữ liệu tính toán tần số sử dụng CVT trên Internet:. 1) Bước 1: Chuẩn bị bảng dữ liệu CVT, thiết kế các trường lưu giữ kết quả tần số sử dụng. 2) Bước 2: Thiết lập phạm vi, giá trị cần tìm kiếm CVT trên hệ thống website tìm kiếm chuyên nghiệp. 3) Bước 3: Xây dựng chương trình tìm kiếm giả lập như thao tác tìm kiếm từ người sử dụng. 4) Bước 4: Thực hiện chạy chương trình tìm kiếm, ghi nhận thời gian, giá trị tìm kiếm CVT vào CSDL. 7) Bước 7: So sánh dữ liệu, đánh giá sự biến động giá trị tần số sử dụng sau một chu kỳ thời gian. Giải pháp đánh giá tần suất xuất hiện CVT tiếng Việt trên Internet: Sau khi có kết quả cập nhật dữ liệu tính toán tần số sử dụng CVT trên môi trường Internet, cách đánh giá tần suất xuất hiện CVT tiếng Việt như sau:. 3) Bước 3: Lựa chọn phạm vi tần số xuất hiện để thực hiện tính toán tần suất xuất hiện CVT theo công thức:. Trong đó: N: Tổng số các CVT giống nhau nhưng có ngữ nghĩa khác nhau, ni là tần số sử dụng của chữ viết tắt xi. 6) Bước 6: So sánh dữ liệu, đánh giá sự biến động giá trị tần suất xuất hiện sau một chu kỳ thời gian. Do đó, các tệp đầu vào cần phải tách dữ liệu mức độ vừa phải (nên dưới 50 dòng) để Yahoo không từ chối phục vụ. Để chạy chương trình số lượng lớn dữ liệu, cần phải sử dụng nhiều máy tính, trong nhiều khoảng thời gian để có kết quả như mong đợi. Kết quả thực nghiệm và đánh giá. Sử dụng nhiều máy tính chạy chương trình, trong nhiều khoảng thời gian. Dữ liệu đầu ra với gần 100 file tương ứng, sau đó được ghép lại bảng dữ liệu tổng thể tần số sử dụng CVT. Sau khi có bảng dữ liệu tần số sử dụng CVT, thực hiện tính toán tần suất sử dụng theo các bước đã đề xuất trong giải pháp trên đây. Trước mắt, kết quả đưa ra. được hơn 30 bảng tần suất xuất hiện các CVT với những cụm viết tắt giống nhau. Kết quả thực hiện tính toàn tần số sử dụng, tần suất xuất hiện CVT. STT Chữ viết tắt. Phân tích bảng trên, với 6 giá trị ngữ nghĩa khác nhau chữ viết tắt PT:. Giá trị này cho thấy ngữ nghĩa “Phương trình” của chữ viết tắt PT là phổ biến hơn cả. Chỉ số cao nhất này chỉ dấu với một chữ viết tắt PT, ngữ nghĩa “Phương trình” là có xác suất xuất hiện cao nhất. Nhờ chỉ số tần suất này, vấn đề xử lý nhập nhằng ngữ nghĩa CVT có một hướng tiếp cận giải quyết, tức là chọn ngữ nghĩa CVT theo tần suất sử dụng cao nhất. 3) Công bố trên www.chuviettat.com [74] về kết quả tần số, tần suất xuất hiện các CVT, dự kiến sẽ công bố giá trị tăng giảm tần suất sau một thời.
Chỉ số tần suất xuất hiện: Cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa, nhận diện CVT dựa trên chỉ số tần suất CVT. Các CVT có chỉ số tần suất fi cao được ưu tiên gán ngữ nghĩa tương ứng, tính phổ dụng CVT càng cao, có sức sống trong thực tiễn.