Bảng từ loại tiếng Trung

Một phần của tài liệu (LUẬN văn THẠC sĩ) các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm (Trang 42)

1.3. Tiểu kết

Cơng cụ tìm kiếm là một bộ máy tìm kiếm đặc trưng cho một xã hội thơng tin với nhu cầu tìm kiếm khổng lồ từ khắp mọi nơi trên thế giới. Nguồn dữ liệu tiếng Việt trên các cơng cụ tìm kiếm hiện nay ngày càng trở nên phong phú và đáp ứng được phần nào nhu cầu tìm kiếm của người Việt: google Việt, yahoo Việt, bing Việt…Điều mà những người làm công nghệ thông tin muốn hướng tới là một cơng cụ hiểu tiếng và văn hóa Việt hơn. Bản thân đề tài đặt ra là muốn nghiên cứu các vấn đề về tiếng Việt thì phải hiểu bản chất từ vựng và ngữ pháp của nó. Quan niệm càng có tính chính xác thì kết quả càng chính xác. Quan niệm về từ và xác định ranh giới từ là khá khó nhưng nếu với quan niệm từ như tác giả Đinh Điền và từ điển tiếng Việt của tác giả Hoàng Phê chúng ta sẽ phần nào phân giới được số lượng từ lớn trong tiếng Việt. Những từ mang tính nhập nhằng hoặc cịn chưa thống nhất sẽ tạo ra một ngoại lệ để xử lý. Việc phân định đó sẽ có tác dụng cho việc phân loại từ loại stop words.

Với bảng phân loại khá đầy đủ của các nhà nghiên cứu đi trước, chúng tôi xin tiếp thu cách phân loại và công cụ phân loại từ loại tiếng Việt. Tuy nhiên, để

phù hợp với đối tượng nghiên cứu không yêu cầu đi sâu phân loại quá nhỏ và cũng để đơn giản trong quá trình xử lý máy, chúng tôi đưa ra quan điểm phân loại một cách khái quát phù hợp với khối liệu nghiên cứu sẵn có như sau:

 Thực từ: Danh từ (N), Động từ (V), Tính từ (A), Đại từ sở hữu (P), Số từ và Định từ (Đ).

 Hư từ: Phụ từ (R), Giới từ (Prep), Liên từ (C), Cảm từ (O)…

Quan niệm này thể hiện sự đơn giản hóa phân loại từ loại tiếng Việt. Vì liên quan đến vấn đề nghiên cứu, đề tài không cần phải đi quá sâu vào việc phân loại thành những tiểu từ loại. Bài toán này khác hẳn với các bài toán tách từ hoặc lập chỉ mục từ phức tạp khác:

Thực từ là từ có "nghĩa thực" (hoặc nghĩa từ vựng) về sự vật, hiện tượng, loại nghĩa mà nhờ nó có thể làm được sự liên hệ giữa các từ với sự vật, hiện tượng nhất định. Ví dụ: cơm, bánh, ăn, sản xuất, ngon, giỏi, tích cực... Thực từ có thể dùng làm phần đề và phần thuyết trong một nòng cốt câu. Với hai thực từ đã có thể cấu tạo được một nịng cốt câu đơn. Ví dụ: Xe // chạy. Lúa // tốt.

Hừ từ trái lại là những từ có “nghĩa hư” loại nghĩa mà khơng thể nhờ nó làm sự liên hệ với sự vật, hiện tượng. Ví dụ: rất, với, thì, là…Cho nên, khi nói đến

“nghĩa hư” là nói đến vai trị ngữ pháp của hư từ. Hư từ được dùng để cùng với thực từ cấu tạo ngữ trong đó thực từ được bổ sung các nghĩa ngữ pháp. Hư từ biểu thị quan hệ cú pháp (liên hợp, hạn định). Số lượng thực từ nhiều hơn so với hư tư nhưng tần suất sử dụng của hư từ lại cao hơn hẳn so với hư từ, và hệ thống hư từ cũng không phát triển nhanh như thực từ. [71, Tr.68]

Bảng từ loại mà chúng tôi đưa ra với quan niệm hư từ và thực từ gần với quan niệm của tác giả Đinh Văn Đức nhất đặc biệt là việc phân chia tiểu loại nhỏ hơn. Quan niệm này vừa đơn giản và phù hợp với mục tiêu nghiên cứu của chúng tôi.

Phần lý thuyết của chương 1 là cơ sở lý luận để chúng tơi có thể định hướng xử lý những vấn đề ngơn ngữ trong q trình phân tích dữ liệu. Đây là nền tảng để đưa ra bản chất stop words theo ngơn ngữ học.

CHƯƠNG 2: TỔNG QUAN VỀ CƠNG CỤ TÌM KIẾM VÀ ĐÁNH CHỈ MỤC VĂN BẢN

2.1. Tổng quan về cơng cụ tìm kiếm

2.1.1. Khái niệm cơng cụ tìm kiếm

Khi nói tới cơng cụ tìm kiếm, ta thường nghĩ ngay đến các dịch vụ nổi tiếng như Google Search, Yahoo! Search hay MSN Search, Bing Search hay như các cơng cụ tìm kiếm tiếng Việt hiện nay như: Wada search, Coccoc search, Socbay search v.v…Tuy nhiên, bộ phận tìm kiếm trong một website cụ thể cũng được coi

là công cụ tìm kiếm (search phim, nhạc, tra cứu thông tin…). Mạng internet chứa hầu như tất cả những thông tin liên quan tới mọi lĩnh vực, mọi ngõ ngách trong cuộc sống mà con người muốn tìm kiếm. Tuy nhiên, phạm vi của internet rất rộng, khơng ai có thể kiểm sốt được. Diện mạo của internet lại thay đổi quá nhanh chóng và mạnh mẽ. Hạt nhân của internet là Word Wide Web, với số lượng lên tới hàng chục tỉ trang, được lưu trữ trong hàng triệu máy chủ đặt khắp nơi trên toàn thế giới.

Internet là một kho dữ liệu khổng lồ như cát trên bãi biển. Trong đời sống hàng ngày, nhu cầu tìm kiếm thơng tin đóng vai trị vơ cùng to lớn, và một trong những vấn đề bức thiết nhất của công nghệ hiện nay là làm sao "đãi cát tìm vàng", khai thác nguồn tài nguyên này một cách hợp lí, đem lại lợi ích tốt nhất cho con người.

Tìm kiếm thơng tin trên mạng internet quả thật là một thách thức lớn lao. Nó khơng giống như việc bới các hạt đỗ đen nằm lẫn lộn trong thùng gạo, bởi dữ liệu trên mạng internet do con người đưa vào, chúng cũng có cấu trúc và tổ chức xác định (mặc dù thiếu tính nhất qn), trong khi đó thì các hạt đỗ đen lại nằm rải rác và lộn xộn, khơng có một vị trí hay qui luật nào. Tuy nhiên, bài tốn tìm kiếm khó hơn bài tốn nhặt đỗ đen rất nhiều. Muốn tìm tất cả các hạt đỗ đen, bạn đơn giản chỉ cần thiết kế một cái sàng hình cầu đủ lớn để có thể đổ cả thùng gạo vào đó, với những chiếc lỗ có kích thước phù hợp sao cho hạt gạo chui lọt còn hạt đỗ đen thì khơng, và quay đủ số vịng để tất cả các hạt gạo đều có cơ hội bay ra ngồi. Việc tìm kiếm thơng tin trên Internet lại hồn tồn khác.

Có tới hàng chục tỉ trang web tràn ngập trên mạng internet và vấn đề là làm sao ta thu thập được thơng tin một cách chính xác và nhanh chóng. Hơn thế nữa, người dùng cũng không đủ kiên nhẫn để ngồi duyệt qua tất cả các trang web chứa thơng tin cần tìm. Trên thực tế, người dùng hiếm khi vào quá mười trang web kết quả, và vì thế, một u cầu khó khăn nữa cần giải quyết, đó là: những gì phù hợp nhất phải được đặt lên hàng đầu. Đây là một trong những phần quan trọng trong các kế hoạch SEO (Search Engine Optimization6) của các công ty muốn biến cơng cụ tìm kiếm trở thành nơi quảng bá sản phẩm của mình.

Trước đây, người ta thường chia dữ liệu cần lưu trữ làm nhiều mục, đến lượt các mục con này lại được chia nhỏ hơn. Người dùng tìm kiếm thơng tin thông qua việc duyệt qua liên kết giữa các mục. Tuy nhiên, những chủ đề được nêu trong Internet đã rộng lớn đến nỗi sự phân chia này trở nên cực kì cồng kềnh và bất tiện và ngày nay họ sử dụng CƠNG CỤ TÌM KIẾM trở thành nguồn tìm kiếm thơng tin chủ yếu.

Đối với mỗi cơng cụ tìm kiếm (Google, Yahoo, MSN, v.v…), người dùng sử dụng truy vấn (query) tìm kiếm tức là nhập vào một số từ khóa liên quan đến chủ đề cần tìm và nhận được một danh sách các trang kết quả (thông thường là những trang web chứa các từ khóa cần tìm kiếm), được sắp xếp theo một tiêu chí nào đó. Những tiêu chí này tùy theo các CƠNG CỤ TÌM KIẾM nhưng đều nhằm mục đích "đưa ra kết quả phù hợp nhất với u cầu tìm kiếm". [http://www.ticsoft.com/tu-van-quang-

ba-website/Tim-hieu-ve-he-thong-may-tim-kiem-Search-Engine/168/]

Như vậy, ta có thể hiểu cơng cụ tìm kiếm trên internet hay các cơng cụ tìm kiếm là các site đặc biệt trên web, được thiết kế để giúp mọi người tìm kiếm thơng tin được lưu trên các site khác nhau. Có nhiều cách khác nhau trong cách tìm kiếm này, nhưng tất cả chúng đều thực hiện ba nhiệm vụ cơ bản:

 Tìm kiếm internet – hoặc chọn các mẩu thông tin trên internet – dựa trên các từ quan trọng;

 Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng;

 Cho phép người dùng tìm kiếm các từ hoặc cụm từ được tìm kiếm trong chỉ mục đó.

Các cơng cụ tìm kiếm trước kia đều giữ chỉ mục của hàng trăm ngàn trang web và tài liệu, chúng thường nhận có thể một hoặc hai nghìn u cầu tìm kiếm mỗi ngày. Ngày nay, cơng cụ tìm kiếm hàng đầu đánh chỉ mục hàng trăm triệu trang và đáp trả đến hàng chục triệu yêu cầu.

Khi hầu hết mọi người nói về các cơng cụ máy tìm kiếm internet, họ đều cho đó là cơng cụ tìm kiếm World Wide Web. Tuy nhiên trước khi web trở thành phần dễ thấy nhất của internet thì thực sự đã có các cơng cụ tìm kiếm để giúp mọi người có thể tìm được các thơng tin trên mạng. Các chương trình với những cái tên như “Gopher” và “Archie” đã giữ chỉ số của các tệp tin (file) được lưu trên máy chủ kết nối với internet, đã giảm được một cách rõ rệt số lượng thời gian cần thiết để tìm kiếm các chương trình và tài liệu. Vào những năm cuối thập kỷ 80, việc có được các giá trị quan trọng từ Internet có nghĩa là biết cách sử dụng Gopher, Archie, Veronica và một số chương trình tương tự khác.

Đặc biệt là mỗi cơng cụ tìm kiếm sẽ mang đặc thù của ngơn ngữ mà nó hiển thị như cơng cụ tìm kiếm tiếng Việt phải giải quyết những vấn đề đặc trưng của tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong tiếng Việt. Tương tự như cơng cụ tìm kiếm tiếng Anh, tiếng Trung…cũng sử dụng và nghiên cứu những đặc thù của thứ tiếng hiển thị để đưa ra những kết quả tìm kiếm tốt hơn.

2.1.2. Các phương thức tìm kiếm

 Tìm theo từ khố – Keyword searching

Đây là phương pháp được áp dụng với hầu hết các cơng cụ tìm kiếm. Trừ khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào cơng cụ tìm kiếm. Như vậy các công cụ tìm kiếm sẽ tự mình chọn và đánh chỉ mục cho những từ mà chúng cho quan trọng có thể giúp phân biệt các tài liệu khác nhau. Các từ được đề cập trong phần 2 chương 2 hoặc các từ lặp lại nhiều lần đều được chú ý. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản.

Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems) đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có những cơng cụ tìm kiếm cịn phân biệt cả chữ hoa lẫn chữ thường.

Cơng cụ tìm kiếm thường gặp rắc rối với những từ đồng âm khác nghĩa (ví dụ hard cider, hard stone, a hard exam, hard drive) hoặc những từ có các biến thể khác nhau do có tiền tố và hậu tố như big, bigger, student, students,… Bên cạnh đó cơng cụ tìm kiếm cũng khơng thể trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.

Tìm theo ngữ nghĩa – Concept-based searching

Excite đã từng nổi tiếng với chiến thuật tìm theo ngữ nghĩa nhưng giờ đây chiến thuật này khơng cịn được sử dụng nữa. Khơng giống các hệ thống tìm theo từ khố, hệ thống tìm theo ngữ nghĩa sẽ ‘đốn’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngơn ngữ học, các thuyết về trí tuệ nhân tạo. Excite tiếp cận dựa vào phương pháp tính tốn bằng cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm từ có nghĩa đặt gần nhau trong tài liệu thì Excite sẽ cho rằng chúng đang ám chỉ một chủ đề nào đó.

Ví dụ, khi từ heart đứng gần các từ như attack (cơn đau tim), blood (sự

sống), stroke (sự say nắng), thì cơng cụ tìm kiếm sẽ xếp những trang chứa các từ

này vào chủ đề y học và sức khoẻ. Ngược lại, khi từ heart đứng gần các từ flowers, candy, … thì cơng cụ tìm kiếm sẽ xếp những trang chứa các từ này vào chủ đề trữ

tình.

2.1.3. Các cơng cụ tìm kiếm phổ biến

Tìm kiếm thơng tin đang trở thành một trong những nhu cầu cấp thiết của mỗi người. Người Việt đã quá quen thuộc đối với việc tìm kiếm trên mạng qua các cơng cụ tìm kiếm phổ biến. Nắm bắt được nhu cầu ngày càng tăng này, nhiều công ty công nghệ đã cho ra mắt cũng như nghiên cứu lĩnh vực CƠNG CỤ TÌM KIẾM dành cho người dùng Việt. Đặc điểm của các CÔNG CỤ TÌM KIẾM này là phục vụ cho nhu cầu của người Việt, hướng tới việc hiểu người Việt và đưa ra những thơng

tin chính xác hơn so với các cơng cụ tìm kiếm quốc tế. Lĩnh vực này đang thu hút được rất nhiều sự quan tâm của giới công nghệ và hàng loạt các sản phẩm cơng cụ tìm kiếm ra đời phong phú hơn so với giai đoạn sơ khai khi mới xâm nhập vào Việt Nam. Có thể kể tên những cơng cụ tìm kiếm như sau:

 Xalo Search  Socbay Search  Vinaseek  Panvietnam  Wada Search  Coccoc Search

Lịch sử ra đời sớm hơn, vì vậy bộ máy tìm kiếm ở nước ngoài rất đa dạng và phong phú, vấn đề là bạn phải biết cách tìm kiếm như thế nào để có được thơng tin mình cần tìm.  Yahoo Search  Altavista  Infoseek  Go.com Search  Excite – Lycos

 Hotbot Lycos Search

 Snap Search - Google

 Lookmart - Aj Search

 AboutSearch

 Asiaco

 Metacrawler

 Webcrawler

 American Online Search

 Simple Search

 Businesseek

 Company Site Locator

 Netscape Search

 Direct Hit

 Ask

 Bing

Nhưng phổ biến và tiêu biểu có bốn bộ máy sau thường dung để tìm kiếm thơng tin, có thể nói đây là những bộ máy thơng dụng và cho chúng ta những tài liệu cần tìm kiếm một cách nhanh chóng :

 Google

 Alltheweb (trước đây là "Fast Search")

 AltaVista

 Bing

Một số web thì tìm kiếm theo mục đích hoặc chủ đề nhất định:

http://directory.google.com ( Google Directory)

Duyệt Web theo những chủ đề phân loại nhất định.

http://answers.google.com (Google Answers)

Hỏi và nhận câu trả lời từ những chun gia về những vấn đề khó. Trả phí 2.5 $/ mỗi câu hỏi.

http://www.google.com/advanced_search ( Google Advanced Search)

Tìm từ đây nếu bạn muốn thiết lập nhiều điều kiện tìm kiếm.

http://groups.google.com (Google Groups)

Duyệt kho lưu trữ của các nhóm tin Usenet từ cuối thập niên 1970, hoặc gửi tin mới tới các nhóm thảo luận.

http://news.google.com

Tin tức chọn lọc từ các site tin tức trên khắp thế giới, cập nhật mỗi 5 phút Tổng quan vài nét về các đặc trưng của một số cơng cụ tìm kiếm thơng dụng trên thế giới như sau: [46, tr. 46]

Search Engine Google AlltheWeb AltaVista Teoma

Database google.com alltheweb.com altavista.com teoma.com Kích thước (# trang) Khoảng 4 tỉ (1 tỉ không đánh chỉ mục trên toàn văn bản) Khoảng 3 tỉ, chỉ mục trên toàn văn bản. Khoảng 1 tỉ Khoảng 1 tỉ

Đa phương tiện (multimedia)

Hỗ trợ Hỗ trợ Hỗ trợ Khơng hỗ trợ

Tốn tử

Mặc định AND AND AND AND

Loại trừ - - - -

Cụm từ Dùng dấu “ “ Dùng dấu “ ” Dùng dấu “ ” Dùng dấu “ “ Rút gọn Không hỗ trợ Dùng ký tự * để thay thế cho các ký tự trong dấu “ “ Không hỗ trợ Dùng ký tự * Không hỗ trợ Boolean OR (chỉ dùng cho danh từ riêng ) AND, OR, ANDNOT, RANK, () AND, OR, ANDNOT, NEAR, () OR (chỉ dùng cho tên riêng)

Stop words Thông thường bỏ qua các từ thơng dụng + nếu muốn tìm và phải đặt trong cặp dấu “ “ Dùng dấu “ “ trong search cơ bản Bỏ qua trong search nâng cao Thông thường bỏ qua các từ thơng dụng + nếu muốn tìm

Giới hạn field cần tìm intitle:inurl: allintitle: allinurl:

Một phần của tài liệu (LUẬN văn THẠC sĩ) các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm (Trang 42)

Tải bản đầy đủ (PDF)

(119 trang)