Các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm

138 24 0
Các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN - NGUYỄN THỊ MINH TÂM CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG CAO HIỆU NĂNG CỦA CƠNG CỤ TÌM KIẾM LUẬN VĂN THẠC SĨ Chun ngành: Ngôn ngữ học Hà Nội-2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN -* - NGUYỄN THỊ MINH TÂM CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG CAO HIỆU NĂNG CỦA CƠNG CỤ TÌM KIẾM Luận văn Thạc sĩ chuyên ngành Ngôn ngữ học Mã số: 60 22 01 Người hướng dẫn khoa học: TS Nguyễn Ái Việt Hà Nội-2014 LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung số liệu luận văn tự nghiên cứu, khảo sát thực Luận văn trung thực chưa cơng bố cơng trình khác Học viên Nguyễn Thị Minh Tâm LỜI CẢM ƠN Tôi xin trân trọng cảm ơn quý thầy cô khoa Ngôn ngữ học, trường Đại học Khoa học Xã hội Nhân văn Hà Nội tạo sở tảng kiến thức cho tơi suốt q trình học tập Đặc biệt, xin gửi lời cảm ơn chân thành sâu sắc đến thầy hướng dẫn mình- Tiến sĩ Nguyễn Ái Việt, Viện trưởng Viện công nghệ thông tin, Đại học Quốc Gia Hà Nội, người thầy dành nhiều thời gian, tâm huyết giúp đỡ tơi hồn thành luận văn thạc sĩ Mặc dù tơi cố gắng hồn thiện luận văn tất nhiệt tình lực khơng thể tránh khỏi thiếu sót, tơi mong nhận đóng góp quý báu quý thầy cô bạn Xin chân thành cảm ơn Hà Nội, ngày…tháng…năm 2014 Học viên Nguyễn Thị Minh Tâm BẢNG THUẬT NGỮ TIẾNG ANH Thuật ngữ tiếng Anh Concept-based searching Crawler of high frequency Hyperlink Indexing Keyword searching Natural language processing - NLP Search engine- SE Stop words Semantical clustering Text Information Retrieval System Word segmentation MỤC LỤC PHẦN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1 Từ tiếng Việt 1.1.1 Quan niệm từ tiếng Việt 1.1.2 Quan niệm từ công nghệ thông tin 1.1.3 Những khó khăn việc giải vấn đề tả từ tiếng Việt cơng cụ tìm kiếm 1.2 Từ loại tiếng Việt 1.2.1 Quan niệm từ loại tiếng Việt 1.2.2 Quan niệm từ loại xử lý ngôn ngữ tự nhiên 1.2.3 Bảng phân loại từ loại xử lý ngôn ngữ tự nhiên 1.3 Tiểu kết CHƯƠNG 2: TỔNG QUAN VỀ CƠNG CỤ TÌM KIẾM VÀ ĐÁNH CHỈ MỤC VĂN BẢN 2.1 Tổng quan cơng cụ tìm kiếm 2.1.1 Khái niệm cơng cụ tìm kiếm 2.1.2 Các phương thức tìm kiếm 2.1.3 Các cơng cụ tìm kiếm phổ biến 2.2 Xây dựng cơng cụ tìm kiếm 2.2.1 Những phận cấu thành nên cơng cụ tìm kiếm 2.2.2 Nguyên lý hoạt động Cơng cụ tìm kiếm 2.2.3 Xử lý ngôn ngữ tự nhiên công cụ tìm kiếm 2.3 Tiểu kết CHƯƠNG 3: STOP WORDS TIẾNG VIỆT 3.1 Tổng quan stop words 3.1.1 Stop words 3.1.2 Vị trí stop words 3.2 Quan niệm stop words 3.2.1 Định nghĩa stop words 3.2.2 Ý nghĩa stop words máy tìm kiếm 3.3 Stop words tiếng Việt 3.3.1 Đặt vấn đề 3.3.2 Bản chất ngôn ngữ stop words 77 3.3.3 Quy trình xử lý stop words 86 3.4 Tiểu kết 88 PHẦN KẾT LUẬN 89 TÀI LIỆU THAM KHẢO 91 PHỤ LỤC 100 DANH MỤC BẢNG BIỂU Bảng 1.1: Những tiêu chuẩn ngữ nghĩa 18 Bảng 1.2: Những tiêu chuẩn hình thức 19 Bảng 1.3: So sánh đặc điểm tiếng Việt tiếng Anh 23 Bảng 1.4: Bảng phân loại từ loại tác giả Nguyễn Hồng Cổn 31 Bảng 1.5: Phân loại từ loại theo VLSP 34 Bảng 1.6: Tập nhãn từ loại Viet tree bank 35 Bảng 1.7: Tập nhãn từ loại VnPOS 36 Bảng 1.8: Bảng từ loại tiếng Anh 36 Bảng 1.9: Bảng từ loại tiếng Trung 37 Bảng 2.1: Bảng hướng dẫn nhanh cách sử dụng search engine phổ biến giới 47 Bảng 3.1: Số lượng từ liệu văn 75 Bảng 3.2: Số lượng stop words ngôn ngữ 75 Bảng 3.3: Stop words từ láy 80 Bảng 3.4: Từ loại stop words 81 Bảng 3.5: Nhập nhằng từ loại việc xác định stop words 84 Bảng 3.6: Bảng dịch stop words tiếng Trung sang tiếng Việt 86 Bảng 3.7: Bảng dịch stop words tiếng Anh sang tiếng Việt 86 Bảng 3.8: Kết xử lý stop words trình lập mục 71 DANH MỤC HÌNH MINH HỌA Hình 1.1: Sơ đồ hệ thống từ loại tiếng Việt theo quan niệm tác giả Đinh Văn Đức 28 Hình 1.2: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm tác giả Diệp Quang Ban - Hoàng Văn Thung 29 Hình 1.3: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm tác giả Lê Biên 29 Hình 1.4: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm tác giả Nguyễn Tài Cẩn 30 Hình 2.1: Spider lấy nội dung trang web tạo từ khóa tìm kiếm phép người dùng trực tuyến tìm trang mong muốn 49 Hình 2.2: Googebot, Web Crawler Google 50 Hình 2.3: Kết tìm kiếm với từ khóa “tơ tranh” 58 Hình 3.1: Vị trí stop words q trình lập mục 62 Hình 3.2: Stop words, Frequency words 76 Hình 3.3: Các đại từ tiếng Việt (Nguồn: wiki) 82 PHẦN MỞ ĐẦU Lý chọn đề tài Ngôn ngữ học ứng dụng nhánh ngành ngôn ngữ học, tập trung vào việc xác định, điều tra cung cấp giải pháp cho vấn đề có liên quan đến ngơn ngữ thực tiễn sống Ngôn ngữ học ứng dụng bao gồm tất ứng dụng lý thuyết ngôn ngữ học tích hợp chun mơn liên quan đến nhiều ngành học, ngôn ngữ học, nhân học, tâm lý họcvà giáo dục học, ngôn ngữ học xã hội ngành công nghệ thông tin Ứng dụng ngôn ngữ học ngành công nghệ thơng tin mang tính thực tiễn cao khơng ngừng thay đổi Việc chuyển theo thay đổi địi hỏi ngơn ngữ đóng vai trị nguồn liệu khổng lồ cần xử lý việc quan tâm đến ngóc ngách giúp cho việc xử lý ngôn ngữ tự nhiên máy xác hiệu Những nghiên cứu ngôn ngữ lĩnh vực công nghệ thông tin đánh dấu ngành khoa học liên ngành ngơn ngữ học khối liệu mang tính ứng dụng nhiều so với suy nghĩ hàn lâm ngôn ngữ Ngày với bùng nổ thông tin, phát triển mạnh mẽ Internet World Wide Web, việc tìm kiếm thơng tin trở nên dễ dàng người dùng internet Nhờ có xuất hàng loạt máy tìm kiếm (search engine) Google, Bing!, Yahoo, Ask, MSM… người ta tìm kiếm thơng tin ngữ cơng cụ quốc tế đáp ứng nhu cầu tìm kiếm với 200 ngơn ngữ khác Sử dụng máy tìm kiếm trở thành kỹ thiếu công việc sinh hoạt thường ngày người đại Với phát triển không ngừng công nghệ thơng tin, máy tìm kiếm ngày cải thiện hiệu tìm kiếm nhanh chóng chiếm niềm tin người dùng Internet toàn giới Bản chất máy tìm kiếm đại sử dụng thu thập (crawler) thu thập thông tin từ tất trang web giới vào kho liệu khổng lồ Khi người dùng sử dụng trình duyệt Firefox, Internet Explorer, Chrome, Opera, Cờ-rôm (Việt Nam)… đưa đoạn văn trang tìm kiếm, máy tìm kiếm phân tích đoạn văn tìm kiếm kho liệu khổng lồ nói thơng tin cần thiết xếp chúng theo thứ tự ưu tiên định (thí dụ xếp page Google với link đầu mười kết tốt- phổ biến nhất) Các máy tìm kiếm thường đánh giá theo hai tiêu chuẩn: a Chất lượng tìm kiếm: Máy tìm kiếm thơng thường đưa kết hàng trăm nghìn ghi, chí nhiều tới hàng trăm triệu ghi Do vậy, kết cần xếp theo thứ tự ưu tiên định để người dùng truy cập đến thơng tin cần tìm nhanh Để việc xếp có chất lượng cao, máy tìm kiếm cần phân tích để “hiểu” nội dung cần tìm Trong việc phân tích việc xử lý ngơn ngữ đoạn văn cần tìm đóng vai trị quan trọng Chính vậy, máy tìm kiếm địa Trung Quốc, Hàn Quốc, Nhật, Nga,… chiếm ưu so với máy tìm kiếm quốc tế Google, Yahoo, Bing… thông qua việc xử lý ngôn ngữ địa b Thời gian đáp ứng: Việc tìm kiếm phân tích kho liệu khổng lồ để đưa khối lượng kết khổng lồ, vừa phục vụ hàng chục triệu người dùng toàn giới, phải diễn thời gian ngắn (từ 3-5 giây) Bên cạnh mạng lưới máy tính lớn phương pháp tính tốn nhanh ngày hồn thiện, xử lý ngơn ngữ có vai trị vơ quan trọng việc tối ưu hố thời gian tìm kiếm cách lọc bỏ thông tin thừa Như vậy, ngôn ngữ học có vai trị quan trọng việc cải tiến máy tìm kiếm Chính thế, ngơn ngữ học cơng nghệ thơng tin ngày xích lại gần để tạo nhiều ứng dụng thực tế có ích cho đời sống Hơn q trình đặt vấn đề nghiên cứu mang tính liên ngành cho ngành Do đặc điểm khác biệt ngơn ngữ, văn hóa mang tính vùng miền mà đơi cơng cụ tìm kiếm mang tính quốc tế chưa thực hiểu mục đích tìm kiếm thơng tin người dùng kết trả chưa xác mong muốn Điển Trung Quốc nhiều nước có hệ chữ viết (chữ tượng hình chữ khơng_làm ở_đó chẳng_hạn nỗi o nói_chung gần_như nghĩ_rằng cần_có ln_ln khơng_ít vì_sao trở_lên làm_được ra_đi đặt_ra dựa_trên ngay_từ mi tất_nhiên thuộc_về giờ_đây đáng_kể q_nhiều ra_sao nói_gì một_lúc tri ra_đời đôi_khi 106 phải_chăng hầu_như lãnh mới_đây trước_hết phía_sau hàng_ngày biết_được đem_lại mỗi_lần ngũ tịnh đi_qua đột_nhiên ko tin_rằng để_được chừng từ_khi hình_như phải_khơng tuyệt_vời mỗi_khi đỡ cho_hay dựa_vào đa_số sẵn đến_ngày không_những chúng_con bấy_giờ theo_hướng việc_này mua_vào cang đến_từ không_để cho_dù vào_lúc phải_đi do_vậy từ_đầu chỉ_được phía_trước hy có_khi nhơn đến_nỗi chư cùng_nhau đến_khi dùng_để lên_đến đi_lại ở_bên vẫn_có sắp_tới từ_lâu tớ miên trơng_thấy nhu mọi_thứ những_ai từ_từ có_tiếng thể_nào thất dĩ_nhiên đến_mức thực_ra ty được_không bao_lâu tụi dần_dần buộc_phải không_sao hơn_cả hoạch chưa_thể điệp vẫn_phải ngay_lập_tức hay_sao thật_ra nói_riêng quả_thật ả tuy_vậy một_khi phần_nào niên làm_theo không_ngừng chưa_từng cực_kỳ lúc_ấy từng_bước làm_rõ cũng_vậy đi_ra đâu_có chỉ_vì thỉnh_thoảng lần_lượt tùy_theo tạm_thời ngãi nào_khác 107 thêm_vào mãi_mãi một_lát trước_kia không_khỏi vừa_mới xem_ra sao_cho ngay_khi bởi_vậy kha cư chút_nào dù_sao trôi_qua phàm chưa_kể như_không như_trên trái_lại như_thể từ_lúc lẽ lúc_đầu khi_khơng được_cái chẳng_lẽ sở_dĩ ối đương nhìn_chung hi nhất_thiết cứ_như tóm_lại đứng_ra tịch ngỏn nghẻn tức xớn xác nghĩa gọi khắn khít phừn phựt phệnh phạo thảng lúng túng ríu ran xèo xèo nhoen nhoét lúi cúi khoằm khoằm phừng phực xôn xao ngổn ngang bất_thành văn mười_hai ai_nấy ri biết_đâu ê chưa_hề bỗng_nhiên mặc_dầu nguầy nguậy khèng khẹc loăn quăn loạch xoạch khành khạch ngun ngút bẵng lâu_nay loáy hoáy lướp tướp 108 huyễn trùng_trùng điệp_điệp nườm nượp ngoao ngoao miễn nước_mẹ bầm dập lồm ngồm loanh quanh đìu hiu mươn mướt huênh hoang tuềnh toàng ngoăn ngoắt mánh mung rọt rẹt nghềnh ngàng bâng khuâng rủng rỉnh thùm thùm sền sệt loắt choắt xồnh xoạch mịng mịng đồnh đồnh thật rủi ro khuỳnh khuỳnh ái_chà chà bập bập mủm mỉm quác quác rồn rột choen choét nheo nheo chơn chánh 109 dửng dưng vùn chíu chíu đằng trước chếnh chống rờn rờn èè èo ọt liếu điếu nhồn nhột ngùn ngụt oành oành khòng khòng khềnh khệch gờm gờm lẩm bẩm chiếp chiếp lụp xụp thùn thụt khậm khạc khề khà bẽn lẽn phới phới loạng choạng rù rù đoàng đoàng lộp chộp gờn gợn ối_chà chà mà lẻng xẻng choác choác chới với ùm ùm ngoằn ngoèo oặt ẹo dọ dẫm ngấp nghé khảo sát choe choét bọn ta toe toe ngoeo ngoeo ỏe họe liu riu nhuôm nhuôm mà nhẽo nhợt loay hoay im phăng_phắc loảng xoảng trâng tráo thoang thoảng sột soạt mênh mang quằn quại khập khiễng toen hoẻn nhoang nhoáng nhốn nháo mướt mát ngơ ngơ nhởn nhơ lắt léo nhễ nhại thẫn thờ bềnh bồng ráu ráu tức bấp bênh phũ phàng nhõng nhẽo bép xép 110 liểng xiểng ngúc ngoắc nhộn nhịp ngây ngây đòm đòm phau phau cẳn_nhẳn cằn_nhằn gặc gặc queng quéc đâu mà bẽ bàng lảo đảo nhằng nhằng hoay hốy mà nhồm nhồm chớp chớp chễm chệ hi hữu duỗi dài nhúc nhích thảnh thơi lổn nhổn bợp chợp lổn ngổn ảm đạm lom khom cuồn cuộn lộp cộp lộp bộp nhơm nhớp ca ca nhống nhồng rạo rực lênh đênh vẻn vẹn thầm nghênh nghênh ngẫm ngợi càu nhàu kin kít lí lắc tưng bừng xớ rớ kíu kíu e loẹt quẹt thỏa thuê khấm khúm núm xoai xoải dạo trước nhè nhè lẹt bẹt oang oang lâng lâng tẽn tị ngúng nguẩy ngồm ngồm hoăng hoăng mảy may hây hây phọt phẹt rưng rưng quèo quẹo ngẩn ngơ cộc cộc lổm ngổm nhem_nhẻm nhèm_nhem tanh hiu hắt hâm hâm đàng ngào ngạt sướt mướt dằng dặc tíu tít ngịn sỗ sàng nây nây khơi khơi ọp ẹp vè vè phơ phơ lơm nhơm hệch mồm nghí ngốy phành phạch mn vạn cheo leo ngấp ngó lủa tủa choạc choạc õng ẹo chòng chành nghe rầm rộ nấn ná phềnh phềnh rột roạt khệnh khạng hớn hở ịị rắc rắc mà thơi ồn ĩ ràn rụa lưa thưa lòa xòa 111 chẳng_hề chi huỵch huỵch trọi se sắt chộn rộn rành rõ lẩy bẩy mằn mặn chà chà thay thum thủm ran ran èo èo lất phất mồn thoăn lia lủng bủng lè lè nguôi ngi đủng đỉnh ồn ồn chặp tối lụ khụ dớ dẩn đàng trước biêng biếc gằn gằn se se ríu rít rền rền khị khè kêu ong ong giãy giụa nhang nhác lâu ngồ ngộ đời trước móm mém hùm hụp choai choai hênh lìm lịm thút thít nhè nhẹ chầm chậm ngong ngóng bui bui íẹ ồng ồng chem chép kể từ túc tắc đăm đăm ú òa bong bong rục rịch líu lo tẻo teo thênh thênh vò vò tuốt tuồn_tuột vằng vặc khăng khăng rợn rợn câng câng bợt nơm nớp xì xì lỏa tỏa lớ rớ dàn 112 biết_chừng hờ hờ lợ lợ rón vung vít ví dầu mà lại áy náy chờm bơm bịng bong dạo lắc rắc lom lom cho nhiêu chi chiều chiều chớ_gì lém lém lựa lênh phênh hổn hển xun xoe biết dàu dàu nhúc nhắc khơng_thể mơn mởn nên chờn vờn khéo bao gồm chề chề hầu hết gừ gừ thoải thoải dài dài 113 ối trời_ơi tùm lum rình rình xiêu xiêu bời bời luyên thuyên rưng rức không thể_nào sù sụ tành tạch làu làu mà càn bậy canh thâu cịng cịng tị te lóc xóc lúi húi láu táu ba chục day day ành ạch ngượng ngượng chùn chụt tưng tửng um tùm loáng quáng rốt đến chà khò khử khò khò xập xệ lèo tèo chi sặc sặc dường có hơm qua hằm hằm dường oi oi chốc đà hì hì ngấm ngầm chửa biết_chừng êm đềm chẳng lồi lồi đương nhiên thin thít nheo nhẻo lớ ngớ thơi leng keng thoang thống ùn ùn bữa mai số vuông vuông nhăm nhe vèo 114 ... người Việt Tức cơng cụ thể văn hóa, nhận thức người Việt Trên cơng cụ tìm kiếm này, kĩ sư phải giải vấn đề xử lý tiếng Việt để kết tìm kiếm tốt Đây lý chọn đề tài ? ?Các vấn đề xử lý tiếng Việt để nâng. .. cơng cụ tìm kiếm mang đặc thù ngơn ngữ mà hiển thị cơng cụ tìm kiếm tiếng Việt phải giải vấn đề đặc trưng tiếng Việt, cụ thể vấn đề bảng mã, ngữ pháp tiếng Việt Tương tự công cụ tìm kiếm tiếng. .. để nâng cao hiệu cơng cụ tìm kiếm? ?? Vấn đề xử lý tiếng Việt ứng dụng tìm kiếm nội dung rộng Trong luận văn này, chúng tơi tập trung tìm hiểu hai vấn đề: Việc đánh mục cho văn tiếng Việt tìm chất

Ngày đăng: 27/10/2020, 20:39

Tài liệu cùng người dùng

Tài liệu liên quan