Nhận dạng thực thể có tên tiếng việt

1 TĨM TẮT Web ngày thơng minh, kho liệu sinh động đóng góp lớn vào phát triển tri thức Để khai thác kho tàng vơ giá cách có hiệu quả, cơng cụ tìm kiếm, khai phá liệu rút trích thơng tin khơng ngừng phát triển ngày hồn thiện Chúng tơi tìm hiểu hệ thống rút trích thơng tin việc nhận dạng thực thể có tên, đặc biệt hệ thống GATE-ANNIE, VN-KIM Semtag Những hệ thống có thành phần thành phần rút trích thơng tin Việc rút trích thơng tin dựa vào phương pháp xác định : rút trích thơng tin dựa vào luật, dựa vào mẫu, dựa vào phương pháp thống kê, suy dẫn Wrapper nhiều phương pháp khác Những phương pháp huấn luyện nhờ vào tập mẫu tạo tay hay học máy Theo phương pháp vận dụng vào việc nhận dạng thực thể có tên Tiếng Việt Chúng dựa vào giải thuật TBD (Taxonomy Based Disambiguation : làm rõ nghĩa dựa vào phân loại) phương pháp Semtag, giải thuật thống kê dựa vào thường xuyên xuất từ ngữ cảnh quanh loại thực thể có tên, thực thể phát dựa vào việc so trùng tên thực thể với danh hiệu phân loại TAP Giải thuật áp dụng cho Web Tiếng Anh trình bày tổng quát, thực máy đơn với tập liệu thu thập tay Web Tiếng Việt Chúng xây dựng hệ thống nhận dạng thực thể có tên Tiếng Việt vận dụng giải thuật TBD dùng phân loại nhỏ dựa theo sở tri thức VN-KIM, với kết thử nghiệm tương đối tốt Trong hệ thống ý tới việc xây dựng hàm tương tự theo tích vector Việc tạo hàm tương tự tốt có nhiều ý nghĩa việc nhận dạng xác thực thể có tên vận dụng cho nhiều lãnh vực định khác MỤC LỤC CHƯƠNG 1: GIỚI THIỆU 1.1 1.2 Phạm vi, động cơ, mục tiêu Cấu trúc luận văn CHƯƠNG 2: CÁC HỆ THỐNG CHÚ THÍCH NGỮ NGHĨA 10 2.1 Tổng quan toán NER 10 2.1.1 Tổng quan 10 2.1.2 Bài toán NER (Named Entity Recognition) .12 2.2 Các thành phần quan tâm 15 2.2.1 Cơng cụ rút trích thơng tin 15 2.2.2 Ontology khởi đầu 15 2.3 Phân loại hệ thống thích 16 2.3.1 Dựa vào mẫu 16 2.3.2 Dựa vào học máy 17 2.4 Một số hệ thống thích 17 2.4.1 AeroDAML .17 2.4.2 Amadillo 18 2.4.3 KIM 19 2.4.4 MnM 20 2.4.5 MUSE .21 2.4.6 Ont-O-MAT 21 2.4.7 Semtag 22 2.4.8 Tóm tắt hệ thống thích 22 CHƯƠNG 3: CÁC HỆ THỐNG CHÚ THÍCH LIÊN QUAN 25 3.1 GATE-ANNIE 25 3.1.1 Giới thiệu 25 3.1.2 Các thành phần ANNIE 27 3.2 VN-KIM 30 3.2.1 Giới thiệu 30 3.2.2 Thành phần sở tri thức 32 3.2.3 Thành phần thích ngữ nghĩa tự động 33 3.2.4 Thành phần truy hồi thông tin 34 3.3 Semtag 35 3.3.1 Giới thiệu 35 3.3.2 Phân loại TAP 37 3.3.3 Giải thuật TBD (Taxonomy Based Disambiguation) .39 3.3.4 Xử lý liệu .49 3.3.4 Sơ đồ hoạt động 53 CHƯƠNG 4: NHẬN DẠNG THỰC THỂ CÓ TÊN TIẾNG VIỆT 57 4.1 Vấn đề thực nhận dạng thực thể có tên Tiếng Việt .57 4.2 Tạo phân loại 59 4.3 Thu thập liệu 61 4.4 Các tham số đầu vào .63 4.4.1 Hàm tương tự 63 4.4.2 Các độ đo mau msu 63 4.5 Xây dựng hệ thống 64 4.5.1 Các thành phần chương trình .64 4.5.2 Quá trình huấn luyện .65 4.5.3 Trường hợp thực thể có nhiều vị trí phân loại .65 CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 67 5.1 5.2 Thử nghiệm 67 Đánh giá hệ thống 73 CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 74 DANH MỤC HÌNH Hình 1-1 : Đánh dấu thẻ ngữ nghĩa Hình 2-1 : Kiến trúc chung hệ thống thích ngữ nghĩa 11 Hình 2-2 : Q trình tạo thích KIM 19 Hình 2-3 : Tóm tắt hệ thống thích 22 Hình 2-4 : Độ xác hệ thống .24 Hình 3-1 : Giao diện GATE 26 Hình 3-2 : Q trình rút trích thơng tin dùng ANNIE 26 Hình 3-3 : Tổng quan VN-KIM 31 Hình 3-4 : Phân loại VN-KIM .32 10 Hình 3-5 : Phân bố số lượng thực thể VN-KIM 33 11 Hình 3-6 : Kiến trúc Semtag 36 12 Hình 3-7 : Phân loại TAP .38 13 Hình 3-8 : Giải thuật Sim .42 14 Hình 3-9 : Hoạt động theo giải thuật Sim 43 15 Hình 3-10 : Minh họa giải thuật Sim .45 16 Hình 3-11 : Giải thuật TBD .46 17 Hình 3-12 : Miền kết theo TBD 47 18 Hình 3-13 : Biểu diễn vector 53 19 Hình 3-14 : Hoạt động Semtag 54 20 Hình 3-5 : Độ xác tập kiểm tra cho giải thuật TBD .55 21 Hình 4-1 : Cấu trúc phân loại 60 CHƯƠNG 1: 1.1 GIỚI THIỆU Phạm vi, động cơ, mục tiêu Hiện WWW kho tri thức khổng lồ, số lượng trang web không ngừng phát triển với tốc độ vô nhanh chóng Nhưng liền với nó, vấn đề lớn đặt làm để tìm thơng tin cần thiết kho thông tin khổng lồ không nhờ vào số kỹ thuật Một hướng tiến triển tạo trang web có nhúng vào thích dạng thích hợp để giúp cho người sử dụng có nhiều thơng tin đối tượng họ cần tìm hiểu, đặc biệt thơng tin theo dạng chuẩn để máy hiểu Một đoạn văn mã nguồn trang web viết dạng sau : Với đội ngũ giảng viên ưu tú truyền thống đào tạo hàng đầu nước, Trường Đại học Bách Khoa Tp HCM phấn đấu trở thành trường đại học đạt tiêu chuẩn quốc tế Ở thích nhúng vào trang web dạng thẻ : Trường Đại học Bách Khoa Tp HCM cho biết địa “http://vnk.hcmut.edu.vn/Daihoc/BachkhoaTpHCM” chứa thơng tin mà ta truy vấn để nhận nhiều thơng tin chi tiết Trường Đại học Bách Khoa Tp HCM Bên cạnh cần có chương trình ứng dụng khai thác thơng tin để phục vụ cho nhiều nhu cầu khác người dùng : tìm hiểu thơng tin mở rộng đối tượng xuất trang web, tìm hiểu chủ đề trang web, tìm kiếm thơng tin người đó, tổ chức đó… Thế người làm web chưa bỏ nhiều công sức để tạo thích ngữ nghĩa tạo trang web cơng cụ hỗ trợ cho chưa nhiều, đồng thời ứng dụng để sử dụng thích trang web chưa phổ biến Do phần lớn trang web dạng bình thường, chưa có nhúng vào thích Như biết Web thơng minh có ngữ nghĩa (liên quan tới lãnh vực Web có ngữ nghĩa (Semantic Web)) cần phải có điều kiện : trang web phải có thích có ứng dụng để khai thác thích Thế điều kiện tương ứng với khối lượng công việc vô to lớn chưa thực hàng triệu triệu trang web chưa có thích ngữ nghĩa Để giải vấn đề này, song song với phương pháp chuẩn hoá biểu diễn thơng tin, biểu diễn tri thức, tìm phương thức thích ngữ nghĩa thích hợp, tạo ứng dụng…, số phương pháp rút trích thơng tin dùng để thích ngữ nghĩa phát triển Những phương pháp nhằm cung cấp thích ngữ nghĩa mà ứng dụng khác sử dụng, việc rút trích thơng tin tự động khối lượng lớn tài liệu Web có ý nghĩa vô quan trọng Những phương pháp ([4]) : Phương pháp bán tự động : phương pháp dựa vào người chính, độ xác cao : MnM, S-Cream, AERODAML … Phương pháp tự động (khơng hồn tồn tự động) : độ xác mức độ tương đối, thường phù hợp với việc xử lý tài liệu lớn : KIM, Semtag, Swan, hTechSight … Để thực việc rút trích thơng tin người ta dùng giải pháp : Kỹ thuật tri thức (Knowledge Engineering) : dựa vào luật chuyên gia ngôn ngữ phát triển, kết tương đối xác nhiều thời gian Hệ thống học (Learning System) : dùng phương pháp thống kê học máy, đòi hỏi tập huấn luyện lớn, không cần chuyên gia ngôn ngữ… Nhiều phương pháp rút trích thơng tin dùng ontology (chứa định nghĩa lớp thực thể giới thực với quan hệ thuộc tính chúng) dùng ngôn ngữ RDF (Resource Definition Framework [1]) để thích ngữ nghĩa, thường khơng ghi thích ngữ nghĩa trực tiếp vào trang web gốc mà lưu trữ thông tin sở liệu dạng chia sẻ cho ứng dụng khác Hình trình bày việc đánh dấu thẻ ngữ nghĩa (Semantic Tagging) thực thể câu tiếng Anh theo KIM (Knowledge & Information Management), hệ thống KIM trình bày chi tiết phần sau Hình 1-1 : Đánh dấu thẻ ngữ nghĩa ([8]) Rất nhiều hệ thống phát triển không ngừng cải thiện để đạt kết tốt nhất, phương pháp thường có ưu điểm riêng thường sử dụng ngôn ngữ Tiếng Anh Trong Tiếng Việt có số nghiên cứu nhằm sử dụng tốt thông tin Web Tiếng Việt, VN-KIM ([2]) hệ thống xây dựng theo đề tài nghiên cứu khoa học cấp quốc gia Khoa Công nghệ Thông tin Trường Đại học Bách Khoa Tp.HCM thực Hệ thống tạo thích qua nhận dạng thực thể có tên, phương pháp có ý nghĩa thực tiễn tên thực thể chứa đựng nhiều thông tin cần thiết Chúng tìm hiểu phương pháp tạo thích tự động ANNIE, VN-KIM Semtag, vận dụng để tạo hệ thống nhỏ dùng để nhận dạng thực thể có tên Tiếng Việt số lãnh vực giới hạn dựa vào phương pháp thống kê Trong đề tài tập trung vào việc nhận dạng tên thực thể dựa vào phương pháp thống kê theo giải thuật TBD (Taxonomy Based Disambiguation : làm rõ nghĩa dựa vào phân loại) mà công bố cách tổng qt dùng ngơn ngữ Tiếng Anh Từ thực hệ thống tương tự nhận dạng thực thể có tên Tiếng Việt Trong hệ thống phần thực thực giải thuật nhận dạng, nhiều thành phần hệ thống tạo thích đầy đủ thu nhỏ việc thu thập liệu cho việc thực giải thuật thực tay Những tên thực thể ngữ cảnh số từ liền phía trước liền phía sau hệ thống xác định thuộc loại thực thể phân loại khơng có phân loại hệ thống 1.2 Cấu trúc luận văn Luận văn gồm phần : Phần : Phạm vi, mục tiêu, động cấu trúc luận văn trình bày Để cho Web thơng minh cần phải có thích, liên quan tới việc rút trích thơng tin, tạo thích, có nhận dạng thực thể có tên Web Tiếng Việt Phần : Tổng quan rút trích thơng tin, số phương pháp ứng dụng xem xét khái quát hệ thống thích phổ biến Phần trình bày tốn nhận dạng thực thể có tên : Nhu cầu rút trích thơng tin từ ngơn ngữ tự nhiên cơng việc khó khăn, hướng nhận dạng thực thể có tên hướng tương đối hiệu Phần : Trong phần trình bày số hệ thống tạo thích có liên quan tới đề tài : ANNIE, VN-KIM, Semtag Phần : Hiện thực giải thuật nhận dạng thực thể có tên Tiếng Việt bao gồm cơng việc : tạo phân loại, thu thập xử lý liệu, vận dụng giải thuật Phần : Thử nghiệm đánh giá kết tập kiểm tra qua đánh giá hệ thống tạo Phần : Trình bày hướng phát triển vận dụng hệ thống thực tiễn 10 CHƯƠNG 2: CÁC HỆ THỐNG CHÚ THÍCH NGỮ NGHĨA 2.1 Tổng quan tốn NER 2.1.1 Tổng quan Web có ngữ nghĩa cung cấp thông tin phong phú dựa vào nguồn thông tin dồi ngữ nghĩa mà máy hiểu Nguồn thơng tin dồi truy xuất từ sở tri thức, chứa mô tả loại thực thể, dựa vào tham chiếu từ thể thực thể tài liệu vào sở tri thức Web có ngữ nghĩa sử dụng kết nghiên cứu lãnh vực : rút trích thơng tin, tích hợp thông tin, học máy, suy diễn Wrapper (Wrapper Induction)… Những tiện ích Web có ngữ nghĩa hệ thống truy vấn dùng để tìm kiếm theo khái niệm tìm kiếm theo từ khóa, tạo trang web tùy biến theo ngữ cảnh, cung cấp thông tin theo nhu cầu người dùng, cung cấp hệ thống truy vấn thơng tin… Để tất tiện ích đạt mục tiêu, thiết phải có thích tạo q trình tạo thích ngữ nghĩa Trong việc thích cho thực thể có tên đóng vai trị quan trọng chứa đựng nhiều thơng tin cho trang web Trước có hệ thống tự động bán tự động, cần thiết phải có hệ thống thích làm tay Việc thích tay gặp nhiều trở ngại, phải sử dụng nhiều công sức, tốn kết tốt nhiều hạn chế người Con người thích với độ xác định, tri thức sinh sơi có thay đổi giới thực đồng thời với kích cỡ khổng lồ Web việc thích tay gánh nặng vô to lớn Những hệ thống tự động nghiên cứu việc hoàn toàn tự động chưa mang lại kết mong muốn Hiện nhiều hệ thống hướng tới tự động 65 Trình thực thi giải thuật TBD 4.5.2 Quá trình huấn luyện Để hệ thống thực thi cần phải có thơng số đầu vào cho giải thuật : Phải mơ tả phân loại gồm có 18 nốt nội nốt chọn, tập vector 2.000 từ để tạo chiều cho vector, có độ đo mau msu kết hợp với nốt chọn, vector kết hợp với 18 nốt nội tập danh hiệu nốt Những “cửa sổ” thu thập tay dùng tạo tập huấn luyện, tập thống kê, tập kiểm tra bổ sung vào file liệu thích hợp theo nốt Từ liệu ta xác định từ 2.000 từ để tạo chiều cho vector Các tên thực thể “cửa sổ” phân bổ vào file chứa danh hiệu nốt đồng thời bổ sung số danh hiệu có sẵn từ VN-KIM Xây dựng vector kết hợp với nốt lưu trữ vào file Tạo độ đo mau msu cách thống kê tập đánh giá tập kết chạy giải thuật Sim cho tập đánh giá Cuối chạy thử hệ thống kiểm tra kết quả, tiếp tục cải tiến chương trình, cho máy học thêm để đạt kết tốt Các tập liệu cần phải nhiều thu thập cố gắng đảm bảo tính thống kê Trong trình huấn luyện từ (2.000 từ) thay đổi, có thực thể có tên “cửa sổ” bị nhận dạng sai phải xem xét bổ sung từ đặc trưng cho ngữ cảnh từ, bỏ bớt số từ dễ tạo nhập nhằng 4.5.3 Trường hợp thực thể có nhiều vị trí phân loại Trong phân loại TAP việc nhập nhằng thường tên thực thể quét với nốt phân loại thực thể ngữ cảnh thực khơng có phân loại Khi phân loại lớn hơn, phức tạp trường hợp tên thực thể có nhiều vị trí 66 phân loại xảy thường xuyên Trong trường hợp kết luận dựa vào đặc tính hàm tương tự, giá trị hàm tương tự nốt lớn (hoặc nhỏ tùy vào hàm tương tự) khả thuộc lớp nốt cao Trong thực nhận dạng thực thể Tiếng Việt, tên thực thể thuộc nhiều nốt phân loại (hay cịn gọi nhiều vị trí phân loại) ta thực giải thuật làm rõ nghĩa cho nốt hay vị trí Như thích cho thực thể nhiều : thực thể không thuộc phân loại, thực thể thuộc nốt phân loại, thực thể thuộc nhiều nốt khác phân loại Có trường hợp khơng rõ nghĩa : Thực thể có tên trùng với danh hiệu nốt thực thực thể không thuộc phân loại Chẳng hạn tên thực thể Đồng Tháp trùng với nhãn Đồng Tháp lớp Câu lạc bóng đá thực tế thực thể không thuộc phân loại Tỉnh Đồng Tháp Tên thực thể Kinh Đô trùng với danh hiệu Kinh Đô lớp công ty xây dựng bất động sản thực tế khách sạn có tên Kinh Đơ Sài Gịn Tên thực thể trùng với danh hiệu nhiều nốt phân loại Chẳng hạn Đà Nẵng Trường đại học Đà Nẵng mà Câu lạc bóng đá Đà Nẵng Câu lạc bóng chuyền Đà Nẵng Trong trường hợp cần phải làm rõ nghĩa tức xác định thực thể ngữ cảnh loại thực thể Trường hợp nhận dạng tên thực thể chẳng hạn Bình Dương tên Đội bóng đá Bình dương thực tế văn tên thực thể đầy đủ Cơng ty TNHH Thương mại & dịch vụ Bình Dương tới thực thể thuộc lớp công ty từ trước sau tên thực thể từ liên quan tới Công ty khơng phải Đội bóng đá 67 CHƯƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ 5.1 Thử nghiệm Chúng thử tập “cửa sổ” thu thập bình thường tập “cửa sổ” chứa nhiều thực thể nhập nhằng, thực thể thuộc nhiều vị trí phân loại khơng có phân loại Trong rút trích thơng tin thách thức lớn việc làm rõ nghĩa hay phân giải nhập nhằng nên chọn thêm tập chứa nhiều thực thể nhập nhằng để nghiên cứu kiểm tra giải thuật Những “cửa sổ” ghi file văn chứa tên thực thể ngữ cảnh quét với danh hiệu để phân bố vào nốt làm rõ nghĩa giải thuật TBD Kết thích xuất file kết Một tên thực thể khơng có thích có thích nhiều thích, kết xem xét để đánh giá độ xác Một số thích cho kết : Kết luận “khơng có thích cho tên thực thể” tức thực thể phát qua so trùng danh hiệu phân loại giải thuật xác định thực thể không thuộc phân loại, kết luận “đúng” “sai” Kết luận “có thích cho tên thực thể” tức giải thuật xác định tên thực thể thuộc hay nhiều loại thực thể o Trong trường hợp thực thể có tên nhận dạng thuộc vị trí phân loại kết “đúng” “sai” o Trong trường hợp thực thể có tên nhận dạng thuộc nhiều vị trí phân loại kết luận : “Đúng 1” có thích thích đúng, “Đúng 1/2" có thích dĩ nhiên có 68 thích đúng, “Đúng 1/3" có thích dĩ nhiên có thích Kết từ thử nghiệm đánh giá theo độ xác Độ xác = Tổng số mẫu / Tổng số mẫu xét Trong trường hợp có nhiều thích cho tên thực thể, có thích Để đánh giá cần xác định độ đo Độ đo xác định sau : Đúng với thích : tính mẫu Đúng với thích : tính 1/2 mẫu Đúng với thích : tính 1/3 mẫu Sau kết ghi nhận tập kiểm tra ứng với tập huấn luyện khác : Tập kiểm tra thứ : có 212 “cửa sổ” thu thập bình thường tập 96 “cửa sổ” nhiều nhập nhằng, với tập huấn luyện 800 “cửa sổ” Tập kiểm tra thứ : có 458 “cửa sổ” thu thập bình thường tập 176 “cửa sổ” nhiều nhập nhằng , với tập huấn luyện 1540 “cửa sổ” Kết tập kiểm tra thứ : Kết chạy tập 212 “cửa sổ” thu thập bình thường : a Một vị trí phân loại : 199 mẫu mẫu mà tên thực thể thuộc vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : 42 mẫu Đúng : 25 mẫu 69 Sai : 17 mẫu (Vì thực có phân loại) ii Có thích cho tên thực thể : 157 mẫu Đúng : 157 mẫu Sai : mẫu b Nhiều vị trí phân loại : 13 mẫu mẫu mà tên thực thể thuộc nhiều vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : mẫu Đúng : mẫu Sai : mẫu (Vì thực có phân loại) ii Có thích cho tên thực thể : 12 mẫu Đúng : 10 mẫu a Đúng : mẫu b Đúng 1/2: 10 mẫu c Đúng 1/3: mẫu Sai : mẫu (Sai loại thực thể) Kết chạy tập 96 “cửa sổ” nhiều nhập nhằng : a Một vị trí phân loại : 63 mẫu mẫu mà tên thực thể thuộc vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : 61 mẫu Đúng : 61 mẫu Sai : mẫu ii Có thích cho tên thực thể : mẫu 70 Đúng : mẫu Sai : mẫu (Sai loại thực thể) b Nhiều vị trí phân loại : 33 mẫu mẫu mà tên thực thể thuộc nhiều vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : mẫu Đúng : mẫu Sai : mẫu (Vì thực có phân loại) ii Có thích cho tên thực thể : 30 mẫu Đúng : 20 mẫu a Đúng : 14 mẫu b Đúng 1/2 : mẫu c Đúng 1/3: mẫu Sai : 10 mẫu (Sai loại thực thể) Kết thử nghiệm : Trên tập 212 “cửa sổ” Độ xác = 187/212 = 88% Trên tập 96 “cửa sổ” Độ xác = 80/96 = 83% Kết tập kiểm tra thứ : Kết chạy tập 458 “cửa sổ” thu thập bình thường : a Một vị trí phân loại : 406 mẫu mẫu mà tên thực thể thuộc vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : 71 i Khơng có thích cho tên thực thể : 56 mẫu Đúng : mẫu Sai : 47 mẫu (Vì thực có phân loại) ii Có thích cho tên thực thể : 350 mẫu Đúng : 349 mẫu Sai : mẫu b Nhiều vị trí phân loại : 52 mẫu mẫu mà tên thực thể thuộc nhiều vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : 22 mẫu Đúng : 16 mẫu Sai : mẫu (Vì thực có phân loại) ii Có thích cho tên thực thể : 30 mẫu Đúng : 28 mẫu a Đúng : mẫu b Đúng 1/2: 24 mẫu c Đúng 1/3: mẫu Sai : mẫu (Sai loại thực thể) Kết chạy tập 176 “cửa sổ” nhiều nhập nhằng : a Một vị trí phân loại : 92 mẫu mẫu mà tên thực thể thuộc vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : 81 mẫu Đúng : 77 mẫu 72 Sai : mẫu ii Có thích cho tên thực thể : 11 mẫu Đúng : mẫu Sai : mẫu (Sai loại thực thể) b Nhiều vị trí phân loại : 84 mẫu mẫu mà tên thực thể thuộc nhiều vị trí phân loại quét để so trùng tên thực thể với danh hiệu phân loại Kết nhận dạng : i Khơng có thích cho tên thực thể : 45 mẫu Đúng : 32 mẫu Sai : 13 mẫu (Vì thực có phân loại) ii Có thích cho tên thực thể : 39 mẫu Đúng : 31 mẫu a Đúng : 14 mẫu b Đúng 1/2 : 17 mẫu c Đúng 1/3: mẫu Sai : mẫu (Sai loại thực thể) Kết thử nghiệm : Trên tập 458 “cửa sổ” Độ xác = 390/458 = 85,15% Trên tập 176 “cửa sổ” Độ xác = 139.5/176 = 79,26% 73 5.2 Đánh giá hệ thống Hệ thống đơn giản, phân loại không phong phú, việc lưu trữ, xử lý, tính tốn dựa việc đọc ghi file văn đơn giản, chưa có hệ thống lưu trữ hiệu Hệ thống đạt kết định giúp cho việc hiểu rõ phương pháp, phát giải số vấn đề thực xử lý Tiếng Việt Hệ thống sử dụng phương pháp thống kê dựa vào tập huấn luyện từ đánh giá người, không cần sử dụng luật phức tạp ngôn ngữ tự nhiên đạt kết tương đối việc nhận dạng thực thể Do việc thực song song với tìm hiểu hệ thống chưa thiết kế tốt, việc thiết kế thành phần vơ quan trọng, giúp cho hệ thống linh động phát triển thay thành phần cách dễ dàng thuận lợi Trong phát triển hệ thống, việc thay đổi, bổ sung việc làm thường xuyên; hướng nghiên cứu mới, thay đổi công nghệ biến động giới thực đòi hỏi thay đổi phù hợp Hệ thống chưa có giao diện người dùng tốt, thành phần hỗ trợ thu thập liệu từ WWW Hệ thống cần phải có thành phần dùng cho phát triển để qua trình hoạt động, hệ thống ngày hồn thiện, thích ngày nhiều, ontology ngày phong phú, hiệu độ xác ngày cao 74 CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Việc nhận dạng thực thể có tên Tiếng Việt cần có phương pháp riêng đặc thù riêng đất nước ngôn ngữ Nhận diện thực thể có tên phương pháp thống kê có khả tạo tự động thích với số lượng lớn, có ý nghĩa việc cung cấp lượng lớn thích với độ xác cao cịn bỏ sót nhiều loại thực thể khơng có phân loại khơng thể tiến tới độ xác cao số phương pháp khác Trong nhận dạng thực thể việc giải nhập nhằng cho tên thực thể (làm rõ nghĩa) tức xác định xác loại thực thể sau nhận diện tên thực thể vấn đề quan trọng nhất, cần phải nghiên cứu thêm phương pháp nhận dạng khác áp dụng cho Tiếng Việt Để nhận dạng tên thực thể phải có ngữ cảnh, ví dụ để xác định Thể cơng có phải đội bóng chuyền khơng phải có từ trước sau phải chứa từ liên quan tới bóng chuyền : chắn bóng, chuyền hai, chủ cơng, clb bóng chuyền, chạm tay vào lưới Ngoài để nâng cao chất lượng nhận dạng quan tâm tới phân loại, tập danh hiệu Phân loại phải có đặc điểm thực thể thuộc nhánh khác có đặc điểm thống kê khác biệt Rất khó phân biệt thực thể có ngữ cảnh khác biệt : Câu lạc bóng chuyền Câu lạc bóng đá ngữ cảnh chúng gần giống nhau, từ thường xuất giống ngữ cảnh : câu lạc bộ, cầu thủ, vô địch, huấn luyện viên Trong việc tạo danh hiệu thực thể nên tránh trường hợp nhập nhằng đồng thời phải có phong phú để nhận dạng nhiều thực thể Hiện thực giải thuật Semtag cần quan tâm tới việc tạo từ để tạo chiều cho Trong Tiếng Việt ta phải sử dụng chọn lọc từ liên quan tới miền phân loại Hệ 75 thống cần phải mở rộng phân loại, nâng cao số lượng danh hiệu tăng cường số lượng từ cho vector từ Hệ thống tạo vận dụng phương pháp tạo thích tìm hiểu vận dụng giải thuật làm rõ nghĩa TBD việc nhận dạng thực thể có tên Tiếng Việt Tuy hệ thống đơn giản giúp tìm hiểu nghiên cứu sâu giải thuật việc vận dụng, cải tiến phương pháp thực Để hệ thống ứng dụng cần phải có thành phần hỗ trợ cho việc thống kê lưu trữ truy xuất thơng tin tiện lợi, cần phải có sở tri thức để cung cấp thông tin dịch vụ đáp ứng cho nhu cầu người dùng Hệ thống áp dụng cho hệ thống khác nhằm dùng phương pháp thống kê để đưa kết luận rõ ràng với độ xác cần thiết Qua q trình tìm hiểu thực giải thuật để tài nhận thấy hướng làm việc : Hàm tương tự xây dựng phương pháp đo lường để tạo định tương tự, việc vận dụng ứng dụng nhận dạng thực thể tìm hiểu thêm để đạt hiệu tốt Nó phương pháp áp dụng cho nhiều lãnh vực tạo định khác Nếu ta có hàm tương tự với độ xác cao, với tên thực thể chưa biết, bí danh với ngữ cảnh ta phát thực thể có thuộc phân loại hay không hàm tương tự Việc áp dụng phát thực thể chưa có danh hiệu phân loại, xác định bí danh hay thay cho thực thể 76 Có thể tách miền phân loại lớn thành nhiều miền phân loại nhỏ, áp dụng giải thuật cho miền phân loại nhỏ mang lại độ xác cao cho nhận dạng việc thực tốn nhiều công sức Hệ thống muốn ứng dụng thực tiễn phải có thành phần hỗ trợ, sở tri thức lớn cung cấp dịch vụ người dùng đồng thời phải vận dụng thêm phương pháp mẫu để cung cấp thích đầy đủ xác 77 Tài liệu tham khảo [1] Brikley D Và Guha R.V Rdf schema http://www.w3.org/TR/rdf-schema/ [2] Cao Hoàng Trụ (2005) VN-KIM cho web Việt có ngữ nghĩa Trong kỷ yếu hội nghị Khoa Học Và Công Nghệ lần thứ 9, 10/10/2005, ĐHBK TP HCM, Việt Nam [3] Cunningham H et al (2005) Developing Language Processing Components with GATE Tài liệu hướng dẫn sử dụng Gate version 3.0, 2005 [4] Diana M(2004) Technologies for (semi-) automatic metadata creation Trong kỷ yếu hội nghị “KnowledgeWeb WP 1.3” 14/5/2004 [5] Dill S et al SemTag and Seeker (2003) Bootstrapping the semantic web via automated semantic annotation Trong kỷ yếu hội nghị “ISWC2003” [6] James A (1995) Natural Language Understanding The Benjamin/Cumming Publishing Company, Inc 1995 Trang 310-314 [7] Guha R McCool R Tap: Toward a web of data http://tap.stanford.edu [8] Popov B et al (2003) KIM – Semantic annotation platform Trong kỷ yếu hội nghị quốc tế lần thứ “Semantic Web”, 23/10/2003, Florida, Mỹ [9] Cao Hoàng Trụ, Đỗ Thanh Hải, Phạm Trần Ngọc Bảo, Huỳnh Ngọc Tuyên, Vũ Quang Duy (2005) Conceptual graphs for knowledge querying in VN-KIM Trong kỷ yếu hội nghị quốc tế lần thứ 13 “Conceptual Structures”, 1822/7/2005, Kassel, Đức [10] Cao Hoàng Trụ, Huỳnh Tấn Đạt (2005) Approximate retrieval of knowledge graphs Trong kỷ yếu hội nghị lần thứ 11 “International Fuzzy Systems Association”, 28-31/2005, Bắc Kinh, Trung Quốc 78 [11] Kiryakov A., Popov B., Ognyanoff D., Manov D., Kirilov A., Goranov M (2003) Semantic Annotation, Indexing, and Retrieval Trong kỷ yếu hội nghị “ISWC2003”, Florida, USA LNAI Vol 2870, pp 484-499, Springer-Verlag Berlin Heidelberg, 20-23 October, 2003 [12] Cao Hoàng Trụ (2005) Homepage http://dit.hcmut.edu.vn/~tru/VNKIM.html [13] Cunningham H., Maynard D., Bontcheva K and Tablan V (2002) GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications Trong kỷ yếu hội nghị lần thứ 40 “Computational Linguistics” [14] University of sheffield (2002) Amilcare http://nlp.shef.ac.uk/amilcare.html [15] Vargas_Vera, M., G., Karkaletsis, V., & Paliouras, G (2002) MnM: Ontology Driven Semi-Automatic and Automatic Support fo Semantic Markup Trong kỷ yếu hội nghị lần thứ 13 “Knowledge Engineering and Management (EKAW 2002)”, 379-391 [16] Handschuh, Sandchuh, S., Staab, S., &Ciravegra, F (2002) S-CREAM – Semi-automatic CREAtion of Metadata SAAKM 2002 –Semantic Authoring, Annotation & Knowledge Marku [17] Kogut, P., & Holmes, W (2001) AeroDAML: Applying Information Extraction to Generate DAML Annotation from Web pages Trong kỷ yếu hội nghị lần thứ “knowledge Capture (K-CAP 2001)”, Victoria, BC [18] Ray, S., & Craven, M (2001) Representing Sentence Structure in Hidden Markov Models for Information Extraction Trong kỷ yếu hội nghị lần thứ 17 “Articial Intelligence”, Seattle, WA, 427-433 79 [19] Cunningham, H., Maynard, D., & Tablan, V (2000) JAPE : A java annotation patterns engine [20] Cutting, D (2004) Apache Jakarta Lucene [21] Reeve, H., Han H (2004) Semantic Annotation Platforms Trong kỷ yếu hội nghị “ISWC2004” ... nhận dạng thực thể có tên tài liệu rút trích thông tin liên quan tới tên thực thể dựa vào ontology Để nhận dạng thực thể cần có bước : phát tên thực thể tài liệu, xác định tên riêng ứng với thực. .. .49 3.3.4 Sơ đồ hoạt động 53 CHƯƠNG 4: NHẬN DẠNG THỰC THỂ CÓ TÊN TIẾNG VIỆT 57 4.1 Vấn đề thực nhận dạng thực thể có tên Tiếng Việt .57 4.2 Tạo phân loại 59 4.3... bố cách tổng quát dùng ngôn ngữ Tiếng Anh Từ chúng tơi thực hệ thống tương tự nhận dạng thực thể có tên Tiếng Việt Trong hệ thống phần thực thực giải thuật nhận dạng, nhiều thành phần hệ thống

Định dạng
Số trang	79
Dung lượng	788,63 KB