các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm

Các vấn đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm Nguyễn Thị Minh Tâm Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội Luận văn Thạc sĩ. Ngôn ngữ học; Mã số: 60 22 01 Nghd: TS Nguyễn Ái Việt Năm bảo vệ: 2014 Keywords: Ngôn ngữ học; Tiếng Việt Contents: PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Ngôn ngữ học ứng dụng là một nhánh của ngành ngôn ngữ học, tập trung vào việc xác định, điều tra và cung cấp các giải pháp cho các vấn đề có liên quan đến ngôn ngữ trong thực tiễn cuộc sống. Ngôn ngữ học ứng dụng bao gồm tất cả các ứng dụng của lý thuyết ngôn ngữ học và là sự tích hợp chuyên môn liên quan đến nhiều ngành học, như ngôn ngữ học, nhân học, tâm lý họcvà giáo dục học, ngôn ngữ học xã hội và mới đây nhất là ngành công nghệ thông tin. Ứng dụng ngôn ngữ học trong ngành công nghệ thông tin mang tính thực tiễn rất cao và không ngừng thay đổi. Việc chuyển mình theo sự thay đổi đó đòi hỏi ngôn ngữ đóng vai trò như nguồn dữ liệu khổng lồ cần được xử lý và việc quan tâm đến từng ngóc ngách của nó sẽ giúp cho việc xử lý ngôn ngữ tự nhiên bằng máy được chính xác và hiệu quả hơn. Những nghiên cứu ngôn ngữ trong lĩnh vực công nghệ thông tin đánh dấu những ngành khoa học liên ngành mới như ngôn ngữ học khối liệu mang tính ứng dụng nhiều hơn so với những suy nghĩ hàn lâm về ngôn ngữ. Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của Internet và World Wide Web, việc tìm kiếm thông tin đang trở nên dễ dàng đối với người dùng internet. Nhờ đó có sự xuất hiện của hàng loạt các máy tìm kiếm (search engine) như Google, Bing!, Yahoo, Ask, MSM… người ta có thể tìm kiếm mọi thông tin bằng chính bản ngữ của mình vì các công cụ quốc tế này đáp ứng nhu cầu tìm kiếm với hơn 200 ngôn ngữ khác nhau. Sử dụng các máy tìm kiếm đã trở thành một kỹ năng không thể thiếu trong công việc và sinh hoạt thường ngày của con người hiện đại. Với sự phát triển không ngừng của công nghệ thông tin, các máy tìm kiếm ngày càng cải thiện được hiệu năng tìm kiếm và nhanh chóng chiếm được niềm tin của người dùng Internet trên toàn thế giới. Bản chất của các máy tìm kiếm hiện đại là sử dụng các bộ thu thập (crawler) thu thập thông tin từ tất cả các trang web trên thế giới vào một kho dữ liệu khổng lồ. Khi người dùng sử dụng một trình duyệt như Firefox, Internet Explorer, Chrome, Opera, Cờ-rôm (Việt Nam)… đưa ra một đoạn văn bản trên trang tìm kiếm, máy tìm kiếm sẽ phân tích đoạn văn bản này và tìm kiếm trong kho dữ liệu khổng lồ nói trên các thông tin cần thiết và sắp xếp chúng theo một thứ tự ưu tiên nhất định (thí dụ như sắp xếp page của Google với link đầu là mười kết quả tốt- phổ biến nhất). Các máy tìm kiếm thường được đánh giá theo hai tiêu chuẩn: a. Chất lượng tìm kiếm: Máy tìm kiếm thông thường có thể đưa ra kết quả hàng trăm nghìn bản ghi, thậm chí nhiều khi tới hàng trăm triệu bản ghi. Do vậy, các kết quả này cần được sắp xếp theo thứ tự ưu tiên nhất định để người dùng có thể truy cập đến các thông tin cần tìm nhanh nhất. Để việc sắp xếp này có chất lượng cao, máy tìm kiếm cần phân tích để “hiểu” được nội dung cần tìm. Trong việc phân tích như vậy việc xử lý ngôn ngữ của đoạn văn cần tìm đóng vai trò hết sức quan trọng. Chính vì vậy, các máy tìm kiếm bản địa tại Trung Quốc, Hàn Quốc, Nhật, Nga,… chiếm được ưu thế so với các máy tìm kiếm quốc tế như Google, Yahoo, Bing… thông qua việc xử lý ngôn ngữ bản địa. b. Thời gian đáp ứng: Việc tìm kiếm phân tích kho dữ liệu khổng lồ để đưa ra khối lượng kết quả khổng lồ, vừa phục vụ hàng chục triệu người dùng trên toàn thế giới, phải diễn ra trong thời gian ngắn nhất (từ 3-5 giây). Bên cạnh một mạng lưới máy tính lớn và các phương pháp tính toán nhanh ngày càng hoàn thiện, xử lý ngôn ngữ có vai trò vô cùng quan trọng trong việc tối ưu hoá thời gian tìm kiếm bằng cách lọc bỏ các thông tin thừa. Như vậy, ngôn ngữ học có một vai trò quan trọng trong việc cải tiến các máy tìm kiếm. Chính vì thế, ngôn ngữ học và công nghệ thông tin ngày càng xích lại gần nhau để tạo ra nhiều ứng dụng thực tế có ích cho đời sống. Hơn nữa quá trình đó cũng đặt ra những vấn đề nghiên cứu cơ bản mới mang tính liên ngành và cho mỗi ngành. Do đặc điểm khác biệt về ngôn ngữ, văn hóa mang tính vùng miền mà đôi khi các công cụ tìm kiếm mang tính quốc tế này chưa thực sự hiểu mục đích tìm kiếm thông tin của người dùng và kết quả trả về chưa chính xác như mong muốn. Điển hình như Trung Quốc và nhiều nước có hệ chữ viết (chữ tượng hình và chữ chắp dính) khác biệt với hệ chữ latinh thì việc tìm kiếm trên các công cụ quốc tế khó khăn hơn và ít kết quả có thể đáp ứng được nhu cầu tìm kiếm của người tìm kiếm. Hệ quả là công cụ tìm kiếm riêng của Trung Quốc và các nước không sử dụng chữ cái Latinh làm chữ viết vượt trên cả những “gã khổng lồ” về công cụ tìm kiếm như Baidu thắng thế so với Google tại thị trường Trung Quốc. Tình hình ở Việt Nam lại khác, tiếng Việt là ngôn ngữ có chữ viết theo hệ chữ cái latinh nên đối với việc tìm kiếm thông tin trên các công cụ tìm kiếm quốc tế khá dễ dàng. Cũng phải thừa nhận rằng, công cụ tìm kiếm ở Việt Nam chưa thể bằng công nghệ các công cụ tìm kiếm của các công ty có hơn chục năm hoạt động trên thị trường tìm kiếm trên thế giới. Nhưng những kĩ sư công nghệ thông tin vẫn có tham vọng xây dựng một công cụ tìm kiếm dành riêng cho người Việt, gần gũi với người Việt và hiểu người Việt. Tức là một công cụ thể hiện văn hóa, nhận thức của người Việt. Trên công cụ tìm kiếm này, các kĩ sư phải giải quyết được vấn đề xử lý tiếng Việt để kết quả tìm kiếm được tốt hơn. Đây cũng là lý do chúng tôi chọn đề tài “Các vấn đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm”. Vấn đề xử lý tiếng Việt ứng dụng trong tìm kiếm là một nội dung rộng. Trong luận văn này, chúng tôi chỉ tập trung tìm hiểu hai vấn đề: Việc đánh chỉ mục cho văn bản tiếng Việt và tìm bản chất từ loại của các stop words trong tiếng Việt. Đánh chỉ mục (indexing) là việc sắp xếp dữ liệu vào một hệ thống để tìm kiếm cho nhanh nhất. Việc tìm kiếm sẽ dựa vào các chỉ mục, do đó việc lập chỉ mục sẽ quyết định tốc độ tìm kiếm. Trong quá trình lập chỉ mục, các quy tắc của ngôn ngữ sẽ giúp cải thiện được chất lượng và tốc độ tìm kiếm. Các stop words là các từ mà các công cụ tìm kiếm thường lược bỏ để tăng tốc độ cũng như chất lượng tìm kiếm. Trong thực tiễn, các chuyên gia công nghệ thông tin thường dựa trên kinh nghiệm của mình để đưa ra danh sách các stop words cho mỗi ngôn ngữ. Qua việc khảo sát các danh sách stop words thông dụng tiếng Anh, Trung, Việt mà chúng tôi sưu tầm được, chúng tôi có thể kết luận, bản chất từ loại của stop words khá phong phú. Do các danh sách này chủ yếu dựa trên kinh nghiệm, chúng không bao gồm toàn bộ các stop words trong mỗi ngôn ngữ. Việc tìm ra quy luật của các stop words sẽ có ý nghĩa quan trọng trong việc mở rộng các danh sách này để nâng cao hiệu năng và chất lượng của các máy tìm kiếm. Việc nghiên cứu bản chất từ loại của các stop words sẽ là bước đầu cho công việc này. Chúng tôi chưa tìm thấy một nghiên cứu nào trước đây về bản chất ngôn ngữ của các stop words tiếng Việt. Trên thế giới chúng tôi cũng chưa tìm thấy một công trình nào bàn về vấn đề này một cách có hệ thống. Vấn đề này xuất phát từ một yêu cầu thực tế, nhưng có một ý nghĩa nhất định trong việc trả lời câu hỏi có tính lý luận về xử lý dữ liệu. Đối với nghiên cứu khoa học, luận văn chúng tôi đóng góp phần lý luận ban đầu cho việc triển khai nghiên cứu stop words, qua đó giúp các nhà công nghệ có thể dựa vào những bản chất nội tại của chúng để đưa ra một danh sách hoàn chỉnh có tính ứng dụng và tương đối phù hợp với công cụ tìm kiếm Việt Nam. Đối với ứng dụng thực tiễn, như đã trình bày ở trên, stop words là một phần rất nhỏ trong quá trình xử lý ngôn ngữ tự nhiên nói chung và xây dụng cộng cụ tìm kiếm nói riêng. Tuy nhiên vấn đề này vẫn chưa được quan tâm đúng mức, chúng ta không nên bỏ sót bất cứ một nhập nhằng hay một vấn đề nào để biến công cụ của mình thành mạnh nhất và cạnh tranh với các đối thủ còn lại. Stop words giống như một ốc vít của bộ máy kết nối các bộ phận với nhau để bộ máy có thể hoạt động trơn tru và hiệu quả. 2. Lịch sử nghiên cứu Những nghiên cứu xử lý ngôn ngữ tự nhiên và ứng dụng ngôn ngữ trong công nghệ thông tin ngày càng phát triển, kéo theo đó là sự xuất hiện nhiều sản phẩm có tính thực tiễn trong đời sống hàng ngày như xây dựng từ điển, phần mềm dịch thuật, công cụ xử lý tiếng nói, công cụ tìm kiếm…v.v. Chúng ta có thể gõ bất kỳ một cụm từ liên quan đến “xử lý ngôn ngữ tự nhiên” (Natural language processing) trên máy tìm kiếm là thấy được rất nhiều kết quả trả về liên quan và được trình bày hết sức tổng quan. Trong luận văn này, chúng tôi tìm hiểu tính ứng dụng của nó trong công cụ tìm kiếm nên phần lớn quan tâm tới những tài liệu liên quan đến mảng ứng dụng tìm kiếm. Đây cũng là một trong những mảng ứng dụng khá sôi động, và được các nhà nghiên cứu quan tâm nhưng phần lớn tập trung vào những vấn đề nhất định phù hợp với đề tài nghiên cứu của mình, ví dụ như các nhà công nghệ quan tâm đến việc xây dựng công cụ tìm kiếm như thế nào thì sẽ quan tâm về ứng dụng xử lý ngôn ngữ tự nhiên theo hướng đó. Tiêu biểu là một số bài báo đáng chú ý như sau: The Infocious Web Công cụ tìm kiếm: Improving Web Searching Through Linguistic Analysis (Công cụ tìm kiếm web Infocious: Cải thiện tìm kiếm web thông qua phân tích ngôn ngữ) của các tác giả Alexandros Ntoulas, Gerald Chao, Junghoo Cho, của UCLA Computer Science: Tập trung nghiên cứu trên máy tìm kiếm InfociousWeb giải quyết các vấn đề từ khóa, các vấn đề nhập nhằng ngôn ngữ. Công cụ tìm kiếm này tập trung vào tiêu điểm nội dung thông tin thay vì kết quả trả về dựa trên từ khóa. Ưu điểm của SE 1 này là hiểu biết tốt hơn về nội dung trang web, phù hợp với truy vấn của người sử dụng với các tài liệu đã được lập chỉ mục do đó có thể cải thiện kết quả tìm kiếm. Ưu điểm thứ hai là CÔNG CỤ TÌM KIẾM sắp xếp kết quả một cách trực quan hơn. Các tác giả đưa ra công nghệ xử lý ngôn ngữ, kiến trúc và hiệu suất có được khi đi theo hướng này. Hay như bài báo “Specialized Search in Linguistics and Languages” (Tìm kiếm chuyên ngành trong ngôn ngữ học và ngôn ngữ) của tác giả Zhiping Zheng và Gregor Erbach của Computational Linguistics Department, Đại học Saarland, hướng về công cụ tìm kiếm chuyên ngành và đánh giá kết quả tìm kiếm đạt hiệu quả cao nhất vì dữ liệu thường được xử lý bán thủ công đôi khi có sự giúp đỡ của các công nghệ chuyên ngành nên kết quả tìm kiếm hoàn toàn không phải bàn cãi. Từ đó các tác giả cố gắng dựa vào những thành tựu đi trước để có thể tự động hóa xử lý dữ liệu theo hướng chuyên ngành này. Đôi khi các tác giả cũng chỉ tập trung vào tìm kiếm web theo tên miền, ví dụ Getess của các tác giả trường đại học Rostock với bài báo “ Getess: constructing a linguistic search index for an Internet Công cụ tìm kiếm” (Getess: xây dựng một chỉ mục tìm kiếm ngôn ngữ cho một 1 Viết tắt SE = Search engine Internet Công cụ tìm kiếm). Đối với các công cụ tìm kiếm nói chung, các tác giả thường quan tâm đến cơ sở dữ liệu phần chỉ mục, nơi ảnh hưởng trực tiếp đến kết quả cũng như hiệu quả tìm kiếm tiêu biểu như bài báo “Indexing and querying linguistic metadata and document content” (Lập chỉ mục và truy vấn siêu dữ liệu ngôn ngữ và nội dung tài liệu) của các tác giả Niraj Aswani và Valentin Tablan, Kalina Bontcheva, Hamish Cunningham của Department of Computer Science, Đại học Sheffield. Trong công trình này, các tác giả đưa ra hệ thống ANNIC để xử lý ngôn ngữ tự nhiên bằng việc chú thích ngôn ngữ và các tính năng để cho phép người dùng xây dựng truy vấn đa năng giữ từ khóa và thông tin ngôn ngữ để các kết quả bao gồm các văn bản phù hợp trong ngữ liệu hiện thị trong bối cảnh được chú thích. Ngoài những công trình trên còn có rất nhiều những công trình nghiên cứu khác tập trung giải quyết những vấn đề trong bộ máy tìm kiếm: từ khóa, ngữ nghĩa, website, chủ đề… Phần này sẽ được chúng tôi trình bày kỹ hơn ở chương hai. Đối với vấn đề chúng tôi nghiên cứu, stop words trong bộ máy tìm kiếm, hiện nay, trên ngữ liệu tiếng Anh mà chúng tôi thu thập được, đã có rất nhiều công trình nghiên cứu đề cập đến vai trò và cách giải quyết nó tiêu biểu như: Công trình “Influence of Stop-Words Removal on Sequence Patterns Identification within Comparable Corpora”( Ảnh hưởng của bỏ Stopwwords trên mẫu xác định thứ tự trong so sánh Corpora) của các tác giả Daša Munková, Michal Munk, Martin Vozár : quan niệm stop words là những dữ liệu ồn như khẩu hiệu, cụm từ, từ, ký hiệu cần phải lọc ra khỏi dữ liệu quan trọng. Mục đích của việc này là xác định được mức độ nào đó trước khi lọc bỏ dữ liệu, loại bỏ sự ảnh hưởng của nó bằng cách trích xuất và chỉ có ngôn ngữ tác động đáng kể cả về số lượng và chất lượng trích xuất. Bài nghiên cứu “An Empirical Evaluation of Stop Word Removal in Statistical Machine Translation” (Một số đánh giá về loại bỏ stop words trong dịch máy phân tích) của AChong Tze Yuang, Rafael E. Banchs và Chng Eng Siong đánh giá khả năng cải thiện hiệu suất của hệ thống dịch máy bằng việc loại bỏ những từ thường xuyên và những vấn đề dự đoán từ từ vựng ngôn ngữ. Những từ này được loại bỏ sẽ làm giảm sự nhầm lẫn trong văn bản. Và “Effective Listings of Function Stop words for Twitter” (Danh sách hiệu quả của các stop words chức năng cho Twitter) của Murphy Choy đánh giá những stop words là những từ tái hiện rất thường xuyên nhưng cơ bản là vô nghĩa khi tham gia câu, không đóng góp vào bối cảnh và nội dung của văn bản. Vì tần số cao của chúng nên gây trở ngại trong việc khai thác văn bản. Để giải quyết vấn đề này, các phương pháp sử dụng đều là dùng phần mềm hoặc sử dụng danh sách stop words cho sẵn để loại bỏ những từ đó. Các tác giả đề xuất kiểm tra việc sử dụng nhưng loại có tần suất xuất hiện nhiều, lập danh sách cho nguồn dữ liệu Twitter. Họ xây dựng một kỹ thuật mới sử dụng giá trị tổ hợp như là một biện pháp thay thế để đưa là danh sách stop words hiệu quả. Các công trình nghiên cứu về stop words thường là những bài báo được trích dẫn trong các luận văn hoặc báo cáo của các tác giả tùy thuộc vào yêu cầu của ứng dụng. Những quan điểm và cách xử lý về loại từ này đều được thống nhất. Ở Việt Nam, những công trình nghiên cứu về xử lý ngôn ngữ tự nhiên thì rất nhiều nhưng lại chưa có một công trình cụ thể nào về stop words. Về xử lý ngôn ngữ tự nhiên, chúng ta có thể kể đến một số tác giả nghiên cứu chuyên sâu về ngữ pháp ngôn ngữ trong việc tách từ, phân chia từ loại và xử lý nhập nhằng như TS Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương: Nghiên cứu xây dựng từ điển tiếng Việt cho máy tính, Sử dụng bộ gán nhãn từ loại xác suất Qtag cho văn bản tiếng Việt (2003). Ngoài ra có những tác giả, có những nghiên cứu khái quát về xử lý tiếng Việt và đặc điểm tiếng Việt trong ứng dụng công nghệ thông tin để người đọc có thể tìm hiểu được sự giống và khác nhau giữa quan niệm trọng yếu “từ”, khó khăn trong việc xử lý so với các thứ tiếng khác tiêu biểu là các tác giả Đinh Điền, Hồ Bảo Quốc: Vấn đề ranh giới từ trong ngữ liệu song ngữ Anh-Việt. Xây dựng bộ máy tìm kiếm là một trong những ứng dụng có nhiều người quan tâm nhất bởi sản phẩm thực tiễn của nó có vai trò quan trọng đối với con người trong thời đại bùng nổ thông tin. Vấn đề xây dựng bộ máy tìm kiếm tiếng Việt không mới so với ngành công nghệ thông tin hiện nay. Có rất nhiều nghiên cứu về bộ máy tìm kiếm và có những chuyên luận viết về ngôn ngữ trên công cụ tìm kiếm tiếng Việt như: Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt (Đồng Thị Bích Thủy, Hồ Bảo Quốc- Khoa Công Nghệ Thông Tin - Đại học khoa học tự nhiên TP. Hồ Chí Minh); Xây dựng một công cụ hỗ trỡ tra cứu và tổng hợp thông tin trong thư viện số (Báo cáo khoa học TS Đỗ Phúc và Ths. Nguyễn Minh Hiệp, TP Hồ Chí Minh, 2003); Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản (Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Tạp chí khoa học và công nghệ Đại học Đà Nẵng- số 4 (39) 201); Dương Đình Thiện (2012) Xây dựng bộ tìm kiếm (công cụ tìm kiếm), Luận văn thạc sĩ, Đại học Đà Nẵng; Vũ Đức Thìn, Hoàng Văn Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm, Luận văn Thạc sỹ Cho đến nay, chúng ta có rất nhiều bài viết về công cụ tìm kiếm tiếng Việt phải kể đến các website, forum bàn luận khá sâu về vấn đề này: caohocviet.net, viet.jnlp.org, nlp.hcmut.edu.vn…Tuy nhiên, các bài viết chủ yếu nhìn nhận từ cách nhìn của các nhà công nghệ thông tin về kĩ thuật xây dựng công cụ tìm kiếm. Các bài viết đi sâu vào nghiên cứu việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên, tuy nhiên chưa thật sự có một công trình nào ở Việt Nam bàn về vấn đề nghiên cứu stop words. Dù chỉ là một phần rất nhỏ trong cả một hệ thống xây dựng công cụ tìm kiếm nhưng stop words vẫn cần một nghiên cứu đầy đủ để định hướng cho các kĩ sư công nghệ đưa ra được danh sách hợp lý và độ chính xác cao. Vì vậy chúng tôi mong rằng luận văn sẽ góp phần cải thiện kết quả tìm kiếm của các công cụ tìm kiếm qua việc nghiên cứu vấn đề còn mới mẻ này. 3. Đối tượng nghiên cứu Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất cho nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt, người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept) Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng giữa chúng. Hơn nữa, ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt. Trong luận văn này chúng tôi trình bày về các vấn đề xử lý ngôn ngữ tự nhiên trong hệ thống tìm kiếm thông tin nói chung đặc biệt là việc xử lý tiếng Việt trên công cụ tìm kiếm. Xử lý ngôn ngữ tự nhiên đối với tiếng Việt, chúng ta có rất nhiều vấn đề cần phải quan tâm như bài toán tách từ, xây dựng từ điển, xây dựng chỉ mục cho máy tìm kiếm. Tuy nhiên, chúng tôi quan tâm đến việc xử lý stop words một trong những quá trình xử lý nhập nhằng nhỏ nhưng đóng vai trò quan trọng trong việc kiểm soát hiệu năng công cụ tìm kiếm. Stop words giống như một mắt xích không thể thiếu để tăng tốc cũng như cải thiện kết quả tìm kiếm. Hai điều này quan trọng để đánh giá công cụ tìm kiếm này có hiệu quả hay không. Trong quá trình tiếp cận vấn đề, chúng tôi cũng trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Mục đích cuối cùng là đảm bảo kết quả tìm kiếm là chính xác nhất, hiệu quả nhất, đáp ứng được nhu cầu tìm kiếm của người Việt. 4. Phương pháp nghiên cứu Với luận văn này, ngoài việc sử dụng các thủ pháp nghiên cứu chung trong khoa học như diễn dịch, quy nạp, so sánh, thống kê…, chúng tôi còn sử dụng các phương pháp nghiên cứu sau: Phương pháp phân tích từ và từ loại: Dựa vào quan niệm từ loại và đặc điểm từ loại trong việc xử lý ngôn ngữ trên công cụ tìm kiếm so sánh với quan niệm từ và từ loại thông thường của ngôn ngữ học lý thuyết. Với phương pháp này chúng tôi xử lý dữ liệu cho sẵn bao gồm các tổ hợp từ có tần suất xuất hiện tương đối lớn trong các văn bản mà máy thu thập được bằng cách phân loại từ, cụm từ và phân tích từ theo từ loại. Phương pháp phân tích khối liệu: Trong quá trình nghiên cứu, chúng tôi sử dụng công cụ tách lọc những khối liệu cần thiết để đưa vào luận văn nhằm phân tích khối liệu và đưa ra bản chất của vấn đề. Phương pháp mô tả, so sánh và đối chiếu: Số lượng tư liệu thu thập được từ stop words tiếng Anh, tiếng Trung và tiếng Việt đã được tập hợp từ các bài nghiên cứu cũng như danh sách tạm thời sẵn có để đưa vào phân tích đối chiếu. So sánh stop words giữa tiếng Việt và hai tiếng Anh, Trung sẽ cho thấy được những nét đặc thù khác biệt trong việc xử lý tiếng Việt. Qua đối chiếu, chúng tôi muốn đi sâu vào bản chất stop words tiếng Việt để sau này khi xác lập danh sách của nó có thể bớt hoặc thêm những từ có ảnh hưởng đến chỉ mục và dữ liệu máy. 5. Phạm vi nghiên cứu Chúng tôi tập trung khảo sát cách xử lý ngôn ngữ tự nhiên trên các công cụ tìm kiếm tiếng Việt phổ biến hiện nay như: xalo, itim, google, yahoo, bing… Đặc biệt chúng tôi lưu tâm đến các kết quả trả về trên công cụ google search- một trong những công cụ tìm kiếm tiếng Việt mạnh nhất hiện nay. Những công cụ tìm kiếm này có công cụ chỉ dành riêng cho việc tìm kiếm bằng tiếng Việt và các công cụ quốc tế như yahoo, bing, google có ứng dụng cho rất nhiều ngôn ngữ khác. Những dữ liệu phục vụ nghiên cứu được thu thập trên cơ sở dữ liệu đã có từ trước trên các trang web chuyên về tìm kiếm. Chúng tôi cũng sử dụng máy để tách lọc qua khối liệu từ các bài báo trên mạng để đưa ra danh sách từ có tần suất xuất hiện cao để phân tích. 6. Bố cục luận văn Luận văn gồm 3 phần: Mở đầu, Nội dung và Kết luận Phần chính là phần Nội dung được chia thành 3 chương Chương 1: Tổng quan cơ sở lý luận của đề tài Đối với chương một, chúng tôi đưa ra những vấn đề lý thuyết còn nhập nhằng trên công cụ tìm kiếm thông tin như từ, từ loại. Chúng tôi cũng lựa chọn quan niệm thích hợp với đối tượng nghiên cứu của mình. Chương 2: Tổng quan về công cụ tìm kiếm và đánh chỉ mục văn bản Trong chương này, chúng tôi tập trung mô tả máy tìm kiếm và vấn đề xử lý ngôn ngữ tự nhiên trong máy như xây dựng từ điển, lập chỉ mục… Chương 3: Stop words tiếng Việt Dựa vào yêu cầu thực tiễn trong quá trình xử lý ngôn ngữ, chúng tôi lựa chọn stop words làm đối tượng nghiên cứu và kết quả nghiên cứu hoàn toàn mới góp phần vào việc xây dựng máy tìm kiếm cho người Việt được tốt hơn. Phần cuối: Kết luận [...]... định nhóm cụm từ tiếng Việt, Báo cáo kỹ thuật SP8.4 46 Lê Thúy Ngọc, Đỗ Mỹ Nhung (2006), Tìm hiểu về Công cụ tìm kiếm và xây dựng ứng dụng minh họa cho Công cụ tìm kiếm tiếng Việt, Đại học công nghệ- Đại học quốc gia Hà Nội 47 Vũ Thanh Nguyên, Thi Minh Thuyễn (?), Một số cải tiến của bài toán phân lớp văn bản sử dụng thuật toán SVM và áp dụng trong phân tích cảm xúc tiếng Việt, trường ĐH Công nghệ... phân cụm dữ liệu trong phân cụm kết quả tìm kiếm, Đề án, pdf online 62 Lê Quang Thiêm (2008), Ngữ nghĩa học, NXB Giáo dục 63 Dương Đình Thiện (2012) Xây dựng bộ tìm kiếm (công cụ tìm kiếm) , Luận văn thạc sĩ, Đại học Đà Nẵng 64 Vũ Đức Thìn, Hoàng Văn Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm, Luận văn Thạc sỹ 65 Ks Nguyễn Ngọc Tuấn, Hồng Phúc (2006), 100 thủ thuật cao. .. với công cụ tìm kiếm google, NXB Giao thông vận tải 66 Vương Hoài Thu (2009), Phân tích cú pháp tiếng Việt theo tiếp cận thống kê, Khóa luận tốt nghiệp, trường ĐH Công nghệ, ĐHQG Hà Nội 67 Đoàn Thiện Thuật (2007), Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội 68 Đồng Thị Bích Thủy- Hồ Bảo Quốc (?), Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ thống tìm kiếm thông tin trên văn bản tiếng Việt, Khoa Công. .. 18:151-162 Tài liệu website: 101 An Introduction to Chinese Grammar, http://chinesenotes.com/grammar.php 102 Các công cụ trong nghề Seo và Sem (tối ưu web cho bộ máy tìm kiếm và tiếp thị trên công cụ tìm kiếm) , pdf online 103 Công cụ tìm kiếm thông tin Internet, Nguyễn Hoàng Nam, www vietSEO.net 104 Cách tìm kiếm thông tin trên Internet, www.buaxua.vn wiki 105 Nhãn từ loại trong từ điển VCL, http://vlsp.vietlp.org:8080/demo/vcl/PoSTag.htm... (2006), Phân đoạn từ tiếng Việt sử dụng mô hình crfs, Khóa luận tốt nghiệp, Đại học Công nghệ- Đại học Quốc Gia Hà Nội 31 Nguyễn Thị Thanh Hà, Nguyễn Trung Hiếu (2005), Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là các từ ghép, Luận văn thạc sỹ, Đại học công nghệĐại học quốc gia Hà Nội 32 Hoàng Văn Hành (chủ biên) – Hà Quang Năng – Nguyễn Văn Khang (1998), Từ tiếng Việt: hình thái... Thị Tuyết Mai, Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt- Anh- Hoa, Luận văn Thạc sỹ 49 Trần Thị Oanh (2008), Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt, Luân văn thạc sĩ 50 Hoàng Phê (1968), Mấy vấn đề về giữ gìn sự trong sáng của tiếng Việt, Nghiên cứu ngôn ngữ học, tập 1, NXB Khoa học xã hội 51 Hoàng Phê chủ biên (2006), Từ điển tiếng Việt 2006, NXB Đà Nẵng... Việt: hình thái – cấu trúc – từ láy – từ ghép – chuyển loại, NXB KHXH, Hà Nội 33 Cao Xuân Hạo (1999), Tiếng Việt- mấy vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục 34 Cao Xuân Hạo (1991), Tiếng Việt sơ thảo chức năng, NXB Khoa học xã hội 35 Nguyễn Thị Thu Hằng (2007), Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm, Luận văn thạc sĩ, Hà Nội 36 Nguyễn Văn Hiệp (2008), Cơ sở ngữ nghĩa phân... Tú (?), Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê, Đại học công nghệ- Đại học Quốc gia Hà Nội 38 Đinh Trung Hiếu, Vũ Bội Hằng, Nguyễn Cẩm Tú (2004), Giải pháp tìm kiếm theo lĩnh vực trong máy tìm kiếm, Báo cáo nghiên cứu khoa học Khoa Công nghệ, ĐHQG Hà Nội 39 Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật... (2007), Các kỹ năng cơ bản tìm kiếm trên internet, Đại học Thủy Lợi, Hà Nội 2 Nguyễn Thị Việt Ánh (2007), Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai, Khóa luận tốt nghiệp, ĐHDL Hải Phòng 3 Diệp Quang Ban (1987), Câu đơn tiếng Việt, NXB Giáo dục 4 Diệp Quang Ban (2003), Giao tiếp văn bản, mạch lạc, liên kết, đoạn văn, NXB Khoa học xã hội 5 Diệp Quang Ban (2005), Ngữ pháp tiếng Việt, NXB... từ và từ tiếng Việt, NXB ĐHQG Hà Nội 12 Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ (2006), Gán nhãn từ loại cho tiếng Việt dựa trên văn phong và tính toán xác suất, Tạp chí Phát triển KH và KT, tập 9, số 22006 13 Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến (1997), Cơ sở ngôn ngữ học và tiếng Việt Nxb Giáo dục, H 14 Nguyễn Hồng Cổn (2003), Vấn đề phân định từ loại trong Tiếng Việt, Tạp chí ngôn . Đây cũng là lý do chúng tôi chọn đề tài Các vấn đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm . Vấn đề xử lý tiếng Việt ứng dụng trong tìm kiếm là một nội dung rộng. Trong. với việc tìm kiếm thông tin trên các công cụ tìm kiếm quốc tế khá dễ dàng. Cũng phải thừa nhận rằng, công cụ tìm kiếm ở Việt Nam chưa thể bằng công nghệ các công cụ tìm kiếm của các công ty có. một công cụ thể hiện văn hóa, nhận thức của người Việt. Trên công cụ tìm kiếm này, các kĩ sư phải giải quyết được vấn đề xử lý tiếng Việt để kết quả tìm kiếm được tốt hơn. Đây cũng là lý do

Định dạng
Số trang	18
Dung lượng	463,59 KB