Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
580,12 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc Đạt PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc Đạt PHƯƠNG PHÁP HỌC GẦN KHƠNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: TS Nguyễn Trí Thành HÀ NỘI – 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên em muốn gửi lời cảm ơn sâu sắc đến thầy giáo, TS Nguyễn Trí Thành, người giúp em chọn đề tài, đưa nhận xét quý giá trực tiếp hướng dẫn giúp em hoàn thành luận văn tốt nghiệp Em xin chân thành cảm ơn thầy cô giáo khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội truyền đạt kiến thức cho em suốt thời gian học tập trường Trong suốt thời gian làm khóa luận, em nhận nhiều giúp đỡ, động viên từ gia đình, thầy bạn bè Em xin gửi lời cảm ơn tới người bạn em, bên cạnh em để chia kiến thức, kinh nghiệm học tập sống Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình mình, nguồn động viên cổ vũ lớn lao, động lực giúp em thành công công việc sống Sinh viên Vũ Quốc Đạt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt nội dung Trích chọn thơng tin lĩnh vực quan trọng khai phá liệu, trích chọn thực thể tốn con, đóng vai trị quan trọng Nó sử dụng để hỗ trợ cho phương pháp tìm kiếm – tìm kiếm hướng thực thể, góp phần quan trọng cho việc xây dựng web ngữ nghĩa Có nhiều phương pháp tiếp cận khác cho tốn trích chọn thực thể phương pháp học máy HMM, … Trong khóa luận em trình bày phương pháp để trích chọn thực thể tên tổ chức tiếng Việt văn tiếng Việt môi trường Web Phương pháp dựa ý tưởng Sergey Brin mà cụ thể thuật tốn DIPRE việc trích chọn cặp quan hệ tên sách tác giả sách tiếng Anh môi trường Web Ưu điểm phương pháp cần can thiệp người, khơng cần hỗ trợ ứng dụng phụ xác định từ loại (POS – tag) Kết thực nghiệm văn tiếng Việt cho thấy phương pháp tương đối khả quan LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Lời cảm ơn Tóm tắt nội dung Bảng từ viết tắt .0 Mở đầu CHƯƠNG SƠ LƯỢC BÀI TỐN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 1.1 Tổng quan trích chọn thơng tin 1.2 Bài tốn rút trích thực thể tên tổ chức 1.3 Ý nghĩa toán rút trích thực thể tên tổ chức .5 CHƯƠNG HƯỚNG TIẾP CẬN BÀI TỐN TRÍCH CHỌN THỰC THỂ .6 2.1 Rút trích cặp quan hệ (title, author) sách tài liệu web 2.1.1 Occurrences sách .6 2.1.2 Patterns sách 2.1.3 Quy trình rút trích 2.1.4 Thuật toán sinh Patterns 2.2 Thu thập tên miền tương ứng từ tập tài liệu web .9 2.3 Hệ thống Snowball 13 2.3.1 Sinh patterns 13 2.3.2 Sinh cặp quan hệ 15 2.4 Tổng kết chương 16 CHƯƠNG 17 3.1 Mơ hình tổng qt .17 3.2 Mơ hình chi tiết .19 3.2.1 Find_IndexsOfPrefixPattern 20 3.2.2 Extract_CandidateStrings .21 3.2.3 Trim 22 3.2.4 Filter_Entities 22 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.5 Find_PrefixStrings 23 3.2.6 Generate_NewPrefixPattern 23 3.3 Biểu diễn PrefixString quy tắc cho PrefixPattern 24 3.3.1 Biểu diễn PrefixString 24 3.3.2 Thuật toán sinh PrefixPattern .25 3.4 Quy tắc cắt tỉa .27 3.4.1 Extract_By_Capitalize_Rule 29 3.4.2 Extract_By_Left_Rule 29 3.4.3 Extract_Standard_Name 30 3.4.4 Compare_Discard_Name .30 3.4.5 Các trường hợp cắt tỉa khác 30 CHƯƠNG THỰC NGHIỆM 31 4.1 Chuẩn bị đầu vào 31 4.1.1 Thu thập liệu .31 4.1.2 Xây dựng PrefixPattern (Initial) 31 4.1.3 Xây dựng Luật (Rule) 32 4.2 Môi trường thực nghiệm .32 4.2.1 Phần cứng .32 4.2.2 Phần mềm .33 4.3 Kết thực nghiệm 33 4.4 Nhận xét 35 Kết Luận .35 Tài liệu tham khảo: .38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng từ viết tắt Từ cụm từ Viết tắt Dual Iterative Pattern Relation Expansion DIPRE Mơ hình Markov ẩn HMM LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Trích chọn thực thể tốn đơn giản tốn trích chọn thơng tin Tuy lại đóng vai trị quan trọng, hỗ trợ hệ thống tóm tắt văn tự động, ứng dụng cho máy tìm kiếm hướng thực thể … Bài tốn trích chọn thực thể tên tiếng Việt nghiên cứu vài năm gần đây, có nhiều phương pháp giải đưa với kết thu tương đối khả quan Trong khóa luận này, em đưa phương pháp “học gần khơng giám sát” để áp dụng cho tốn Tuy nhiên, phạm vi khóa luận em thực rút trích loại thực thể thực thể tên tổ chức Luận văn chia thành chương: ¾ Chương Giới thiệu qua trích chọn thơng tin tốn trích chọn thực thể tên tổ chức ý nghĩa ¾ Chương trình bày hướng tiếp cận để giải toán Chương đưa toán rút trích cặp quan hệ hệ khác tập tài liệu (quan hệ , , ) Ý tưởng tồn dựa vào thông tin ngữ cảnh đối tượng cần rút trích để biểu diễn chúng dạng mẫu (pattern), từ mẫu rút trích đối tượng Bài toán Brin – rút trích cặp quan hệ Kỹ thuật quay vịng áp dụng để rút trích thực thể, dựa vào thuật tốn DIPRE Vịng lặp sau sử dụng kết vòng lặp trước làm đầu vào Các thực thể rút trích vịng, kết thúc vòng lặp thỏa mãn điều kiện dừng cho Mỗi tốn đưa có cách biểu diễn mẫu riêng, phù hợp với ngữ cảnh quan hệ cần rút trích.Từ tốn Pasca ý nghĩ phương pháp học gần không giám sát để áp dụng cho tốn khóa luận Hệ thống Snowball độc đáo với cách biểu diễn pattern phương thức đánh giá chất lượng thực thể thu ¾ Chương trình bày mơ hình tổng quát bước chi tiết toán rút trích thực thể tên tổ chức Mơ hình tổng qt dựa tốn Brin rút trích cặp quan hệ , đặc biệt kỹ thuật DIPRE Tuy nhiên, điểm xuất phát ban đầu giống với toán Pasca – xuất phát patterns Với cách xuất phát giảm số vòng lặp thực Chi tiết bước thực là: Ban đầu cho mẫu (pattern) để đoán nhận tiền tố tên tổ chức; ước lượng xâu (được LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com kỳ vọng có chứa tên thực thể) sau tiền tố đó; cắt tỉa xâu thu tên thực thể; chọn lọc thực thể đại diện từ tập thực thể thu được; ánh xạ ngược thực thể đại diện vào liệu để tìm xâu tiền tố; sinh pattern từ tập xâu tiền tố đó; tiếp tục vịng lặp mới… Chương trình bày thuật toán sinh pattern từ cho tiền tố thực thể; cuối đưa số nhập nhằng cách biểu diễn tên, từ xây dựng chiến lược cắt tỉa để thu tên hợp lý ¾ Chương phần thực nghiệm Dữ liệu chuẩn bị, môi trường thực nghiệm kết thực nghiệm Chỉ đưa số kết thực nghiệm đại diện để thể tính chất tốn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG SƠ LƯỢC BÀI TỐN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 1.1 Tổng quan trích chọn thơng tin Với bùng nổ Internet phương tiện lưu trữ tạo lượng thơng tin khổng lồ Bên cạnh nhu cầu tốc độ xử lý thông tin, tính xác ngày tăng Do toán đặt nhà nghiên cứu tìm phương pháp mới, hiệu cho việc xử lý thông tin đáp ứng nhu cầu sử dụng Hiện nay, máy tìm kiếm (search engine) thực việc tìm trang web phù hợp với yêu cầu câu hỏi người dùng Tuy nhiên đối tượng tác động trang Web hệ thống tài liệu, nên miền tri thức thu đơi khơng đủ để đáp ứng u cầu tìm kiếm người dùng Vẫn tiềm ẩn giá trị câu, phận trang Web Do khai thác tri thức mang lại nhiều thơng tin bổ ích Đó lĩnh vực mà “trích chọn thơng tin” nghiên cứu Trích chọn thơng tin lĩnh vực quan trọng khai phá liệu, thực việc rút trích thơng tin có cấu trúc từ tập tài liệu thơ – khơng có cấu trúc Khơng giống hiểu tồn văn bản, hệ thống trích chọn thơng tin cố gắng nhận biết số thông tin đáng quan tâm lĩnh vực Hay nói cách khác, cho mẫu (template) bao gồm trường thực thể, quan hệ thực thể …., hệ thống trích chọn thơng tin có nhiệm vụ phân tích tài liệu thơ để tìm thơng tin thích hợp điền vào trường tương ứng mẫu Ví dụ hệ thống trích chọn thơng tin : LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com này, chạy đến vòng thứ kết thu khơng ý muốn sử dụng kết vịng đầu thực thể rút trích 3.3 Biểu diễn PrefixString quy tắc cho PrefixPattern Dựa vào quy trình thực tốn Brin, Pasca hay hệ thống Snowball, thấy thực thể rút trích patterns sinh có quan hệ tương hỗ với Nghĩa “chất lượng” ảnh hưởng đến chất lượng Khơng cịn ảnh hưởng đến chất lượng vịng lặp Bài tốn rút trích thực thể tên tổ chức vậy, cụ thể PrefixPattern thực thể tên tổ chức Do đó, sinh PrefixPattern tốt điều quan trọng, ảnh hưởng đến chất lượng tồn quy trình PrefixString liệu vào cho thuật tốn sinh PrefixPatern, nên cần có cách biểu diễn hợp lý để thuận tiện cho thuật toán sinh Chi tiết PrefixString PrefixPattern đề cập 3.3.1 Biểu diễn PrefixString PrefixString xâu “tiền tố” tên thực thể, đốn nhận biểu thức quy PrefixRegularExpression Trong văn bản, thực thể có nhiều PrefixString xâu PrefixString “tiền tố” cho nhiều thực thể Ứng với thực thể, ánh xạ ngược vào tập liệu ta thu tập PrefixString Mỗi PrefixString biểu diễn theo dạng : S : Xâu nội dung PrefixString – Tức xâu tiền tố thực thể N: Tên thực thể C: Count – Số lần S “tiền tố” N Biểu diễn theo cách để thuận tiện cho thủ tục sinh PrefixPattern Bởi PrefixPattern coi “đại diện” cho tập PrefixString để rút trích thực thể nên pattern phải có quan hệ với PrefixPattern Mỗi PrefixString có “độ ưu tiên” khác việc lựa chọn tham gia sinh pattern Độ ưu tiên dựa theo số lượng thực thể nhận làm tiền tố Chi tiết trình bày mục 24 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.2 Thuật tốn sinh PrefixPattern PrefixPattern có dạng tổng quát A1|A2|….|An Vấn đề từ tập PrefixStrings, tìm quy tắc hợp lý để sinh thành phần A1, A2, … An Một PrefixPattern coi tốt thành phần A1, A2,…., An sinh từ nhiều PrefixStrings, phải PrefixStrings nhiều thực thể khác để đảm bảo PrefixPattern khơng riêng biệt khơng chung chung Thủ tục sinh thành phần Ai mô tả sau: procedure GeneratePattern ( D ) Đầu vào: tập PrefixString D Đầu ra: danh sách {Ai} Begin L={}; 1) Chia D thành miền D1, D2, … Dk cho: - Di ∩ Dj = Ө ( i≠j) - Các PrefixString miền Di có thành phần S khớp với “phải nhất” (tính từ cuối xâu) từ (word) – gọi xâu Si 2) For each Di Do Gọi CNi tổng số thực thể khác Di.; Gọi CCi = Ci0 + Ci1 + … + Cik (k = | Di | ) If (CNi > m) AND (CCi > n) Then L=L+{Si}; End If End For Return L; End Xét ví dụ minh họa cho thủ tục trên: 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - D ban đầu gồm PrefixStrings sau : { ; ; ; } - Sau bước thứ chia làm miền D1, D2 là: D1 ={< ”Tổng công ty”,”Thép Việt Nam”, 10 > ; < ”công ty”, “Thép Việt Nam”, >} D2 = { < ”Theo Hiệp hội”, “Thép Việt Nam”, >; } Và S1 = “công ty”, S2 = “Hiệp hội”; - Bước thứ thu được: CN1 = 1, CN2 = 2; CC1 = 17, CC2 = 11; Giả sử m = n = 10 kết trả L = { “Hiệp hội” } Và PrefixPattern sinh : PrefixPattern = (Hiệp hội) Thủ tục tương đối đơn giản, thành phần Ai phần khớp phải ( Si ) miền Di Do cần chọn lọc Si tin cậy để gán cho Ai Xác định độ tin cậy Si theo biểu thức: CNi > m AND CCi > n (như thủ tục trên) m, n “ngưỡng” tùy chọn – dựa vào thực nghiệm để tìm giá trị phù hợp Thỏa mãn thỏa mãn điều kiện CNi > m nghĩa thành phần Ai “sinh ra” nhiều m thực thể, tức khơng riêng biệt cho thực thể Điều cần thiết, phải “đóng góp” nhiều thực thể thể “đại diện” cho tiền tố tên Thỏa mãn CCi > n nghĩa đại diện cho n tiền tố thực thể Do CCi lớn độ tin cậy cao Xác định ngưỡng m, n không dễ dàng Bằng nhiều thực nghiệm khác với cặp giá trị (m, n) thay đổi khác quan sát kết đạt tương ứng để chọn giá trị m,n hợp lý Vẫn có trường hợp Ai chọn lọc bước chúng từ “nghèo” giá trị từ với tính chất liệt kê, liên kết … Do đó, tìm quy 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tắc để chọn lọc tiếp thu PrefixPattern tốt Liệt kê tất trường hợp điều khó khăn, khóa luận em hạn chế theo giới hạn Cụ thể, Ai PrefixPattern xâu gồm từ, mà từ gồm ký tự bị loại bỏ Ví dụ từ : “và, do, …” bị loại bỏ Kết thu PrefixPattern hợp lý để sử dụng cho vòng lặp 3.4 Quy tắc cắt tỉa Như mục 3.3.2 trình bày, CandidateString xâu “kỳ vọng” có chứa tên thực thể thích hợp Ban đầu xâu đốn nhận biểu thức quy CandidateRegularExpression (như CandidateString có độ dài từ đến từ) nên cần phải cắt tỉa chuẩn hóa để thu tên xác Chính đa dạng cách viết tiếng Việt, thông tin viết Web không thật theo chuẩn – chuẩn ngữ pháp, chuẩn chữ hoa chữ thường… khiến cho việc việc cắt tỉa gặp nhiều khó khăn, nên cần xét kỹ nhiều trường hợp để cắt tỉa cách hợp lý Các bước cắt tỉa CandidateString mơ tả hình đây: 27 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 7: Quy tắc cắt tỉa Các thủ tục diễn giải sau: Input : CandidateString – Xâu ban đầu cần cắt tỉa 1) EndIsCapitalizedWord Å Extract_By_Capitalize_Rule (CandidateString) Rút trích từ CandidateString xâu dài thỏa mãn từ cuối có ký tự đầu viết hoa 2) Standard_Left Å Extract_By_Left_Rule (EndIsCapitalizedWord, LeftRule) Từ EndIsCapitalizedWord rút trích xâu trái nhất, dài thỏa mãn không chứa phần tử tập LeftRule 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3) Standard_Name Å Extract_By_Right_Rule (StandardLeft, RightRule) Từ StandardLeft rút trích xâu phải nhất, dài thỏa mãn không chứa phần tử tập RightRule 4) ExactName Å Compare_Discard_Name (StandardName, DiscardName) So sánh Standard_Name với tên tập DiscardName Nếu khác hồn tồn trả – StandardName Ngược lại trả xâu rỗng (tên không hợp lệ) Output : ExactName – tên rút trích Các mục giải thích rõ 3.4.1 Extract_By_Capitalize_Rule Đặc điểm tên tổ chức từ cấu tạo nên thường viết hoa ký tự đầu Hoặc tất từ viết hoa số từ viết hoa Tuy nhiên kết thúc tên phải từ mà ký tự đầu viết hoa Đó dấu hiệu cho việc cắt tỉa Thủ tục Extract_By_Capitalize_Rule có nhiệm vụ cắt tỉa xâu CandidateStrings để trả kết xâu EndIsCapitalizedWord có tính chất Ví dụ CandidateString : “Hàng không Việt Nam liên tiếp gặp nhiều” EndIsCapitalizedWord : “Hàng khơng Việt Nam” 3.4.2 Extract_By_Left_Rule Những từ : “tại, ở, đến …” ( tạm gọi từ “thừa” ) thường sau địa điểm Do EndIsCapitalizedWord có chứa từ “cắt” phần đằng sau đó, lấy phần bên trái Tập từ “thừa” gọi LeftRule Thủ tục Extract_By_Left_Rule nhận tham số đầu vào EndIsCapitalizedWord LeftRule thực cơng việc đó, kết trả StandardLeft Ví dụ EndIsCapitalizedWord : “Du lịch Việt Nam Hà Nội” từ “thừa” “tại” StandardLeft : “Du lịch Việt Nam” 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4.3 Extract_Standard_Name Những từ : ”như, là, …” (từ “liệt kê”) thường dùng để liệt kê Đằng sau xác một, nhiều tên tổ chức Do StandardLeft có chứa từ “liệt kê” vậy, cắt phần bên trái lấy phần bên phải từ “liệt kê” Tập từ liệt kê gọi RightRule Thủ tục Extract_Standard_Name với tham số đầu vào StandardLeft RightRule thực công việc trên, thu StandardName Ví dụ StandardLeft : “kinh doanh gas Vinagas” StandardName là: “Vinagas” 3.4.4 Compare_Discard_Name Giả sử có đoạn text:” Nhiều cơng ty Việt Nam tiến hành nhập …” với PrefixPattern “cơng ty”, rút trích bước thu StandardName “Việt Nam” Tuy nhiên, tên khơng xác cần loại bỏ Đấy trường hợp ngoại lệ mà tên thu “phổ biến” thực chất lại không xác… Tập tên ngoại lệ gọi DiscardName Thực thủ tục Compare_Discard_Name(StandardName, DiscardName) kết thu ExactName ExtractName nhận giá trị StandardName khơng có phần tử DiscardName trùng với StandardName, ngược lại ExtractName nhận trị xâu rỗng 3.4.5 Các trường hợp cắt tỉa khác Ngoài với đặc điểm đoán nhận cắt tỉa tên trên, có trường hợp sau bước cắt tỉa trên, xâu thu từ - tiếng Việt tiếng Anh từ viết tắt … Do khơng có tên tổ chức lại có tên từ tiếng Việt (từ mà ký tự có dấu ), nên gặp trường hợp loại bỏ Thêm trường hợp nữa, thực nghiệm “quy ước” tên tổ chức xâu dài tối đa từ, nên tổ chức có tên dài từ từ trở lên không đốn nhận Ví dụ với văn có chứa đoạn ”Công ty TNHH Quy hoạch Phát triển nhà Việt Nam - Hàn Quốc” với PrefixPattern “cơng ty” rút trích đoạn text “TNHH Quy hoạch Phát triển nhà Việt” (dài từ) rõ ràng tên không mà 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com xác phải “TNHH Quy hoạch Phát triển nhà Việt Nam - Hàn Quốc” nên phải loại bỏ Đặc điểm xâu (8 từ) chỉ có từ “phải nhất” viết hoa từ tiếng Việt Nên với xâu rút trích sau bước mà có dạng bị hũy bỏ… Đấy số quy tắc em quan sát áp dụng vào thực nghiệm, nhiều trường hợp đưa để tăng độ xác cho thực thể Tuy nhiên phạm vi khóa luận em thử với trường hợp CHƯƠNG THỰC NGHIỆM 4.1 Chuẩn bị đầu vào 4.1.1 Thu thập liệu Dữ liệu cho thực nghiệm gồm 3500 file lấy từ website www.vietnamnet.vn/ mục “kinhte”, “thegioi” mục có nhiều viết tổ chức Chương trình quan tâm tới liệu text bên file, trước thực rút trích tên thực thể, file liệu lọc tách hết thẻ html javascript 4.1.2 Xây dựng PrefixPattern (Initial) Phương pháp trích chọn học gần khơng giám sát, dựa vào đặc điểm thực thể cần rút trích biểu diễn theo định dạng định Sinh PrefixPattern tốt đồng nghĩa với việc rút trích nhiều thực thể xác Ngược lại, từ tập thực thể xác sinh PrefixPattern tốt Do xây dựng PrefixPattern khởi tạo quan trọng, có ý nghĩa lớn chất lượng, độ xác thực nghiệm Thực nghiệm thay đưa PrefixPattern khác nhau, từ kết thu rút mẫu tốt Qua khảo sát, nhận thấy PrefixPattern ban đầu: “phịng|cục|cơng ty|cty|tập đồn” tốt Mẫu lưu file “prefixPattern0.txt” Số thể mẫu vòng lặp đầu tiên, với vòng lặp giá trị 1, 2… 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.1.3 Xây dựng Luật (Rule) Các Rules dùng trình “cắt tỉa” tên thực thể trình bày 4.1.3.1 LeftRule Là tập hợp “từ, cụm từ” mà chúng xuất tên thực thể tên thực thể “cắt tỉa” lấy phần ký tự từ đầu đến trước “từ, cụm từ” Tập hợp “từ, cụm từ” lưu file “rule\\leftRule.txt” Có thể liệt kê số từ : “tại, ở, sang, …” 4.1.3.2 RightRule Tập từ, cụm từ “liên kết” Tên thực thể rút trích từ vị trí từ, cụm từ đến hết xâu tên thực thể ban đầu File “rule\rightRule.txt” dùng để lưu trữ tập từ, cụm từ “liên kết” Ví dụ từ : “như, là, gồm …” 4.1.3.3 DiscardName File “rule\discardName.txt” chứa tập tên khơng thích hợp tên tổ chức Nếu chương trình đốn nhận tên trùng với tên “rule\discardName.txt” xem khơng hợp lệ Ví dụ liệt kê số tên Quốc gia từ thường kèm (bổ sung thông tin) cho tổ chức: ”Việt Nam, Trung Quốc …, TNHH, CP, …” 4.2 Môi trường thực nghiệm 4.2.1 Phần cứng Bảng : Môi trường phần cứng Thành phần Chỉ số CPU Intel Pentium Dual E2180 2.0GHz RAM GB Bộ nhớ 160GB 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.2 Phần mềm Bảng 4: Môi trường phần mềm Thành phần Chỉ số OS WindowsXP Service Pack IDE eclipse-SDK-3.4.1-win32 4.3 Kết thực nghiệm Kết thực nghiệm phụ thuộc nhiều vào PreifxPattern ban đầu đưa vào luật để cắt tỉa tên Nếu lựa chọn PrefixPattern ban đầu tốt, số lượng “chất lượng” thực thể rút trích tốt vòng lặp Dẫn đến kết khả quan vòng lặp Cũng đưa nhiều luật cắt tỉa, độ xác cao, đồng nghĩa với số lượng thực thể rút trích giảm Và ngược lại, PrefixPattern không tốt, hay lượng luật cắt tỉa đưa khơng xác, số lượng thực thể rút trích lớn, chất lượng xấu vòng lặp tiêp theo … Trong thực nghiệm này, khơng biết xác tập R = { tất thực thể tên tổ chức }, khơng thể tính giá trị “độ hồi tưởng” (recall) Chỉ dùng số độ xác (precision) để đánh giá chất lượng thực nghiệm Độ xác xác định theo : Độ xác : R = {tất rút trích vịng} R’ = {chọn ngẫu nhiên số lượng thực thể từ R – thực nghiệm |R’| = 100} R’’ = {các thực thể R’ kiểm định xác} 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com |R| = số lượng phần tử R Để lấy kết đưa vào bảng, với lần kiểm tra độ xác, em thực lấy lần Lấy giá trị trung bình lần làm số liệu cuối Em thực thực nghiệm nhiều lần, với thay đổi khác PrefixPattern ban đầu, quy tắc cắt tỉa, ….và kết thu tương đối khác Dưới em liệt kê số thực nghiệm đại diện để mô tả tính chất tốn: - Với lần thực nghiệm cho PrefixPattern : “cơng ty|cty|tập đồn” Kết cho bảng bên dưới: Bảng 5: Kết lần Kếtquả - Vòng lặp Số thực thể Độ xác rút trích 2064 84.67% 299 84.33% Lần thực nghiệm thứ giống lần thứ 1, nhiên “hạn chế” luật cắt tỉa, cụ thể loại bước cuối quy trình cắt tỉa trình bày mục 3.4 Kết thu : Bảng 6: Kết lần Kết - Vòng lặp Số thực thể Độ xác rút trích 2632 71.33% 13775 34.33% Lần thực nghiệm PrefixPattern “phịng|cục|cơng ty|cty|tập đoàn”, chọn ngưỡng 10 kết quả: 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 7: Kết lần Kết Vòng lặp 4.4 Số thực thể rút trích Độ xác 2333 81.33% 299 84.33% Nhận xét Theo kết lần lần cho thấy, tăng số phần tử PrefixPattern ban đầu số lượng thực thể rút trích vịng đầu tăng Tuy nhiên, độ xác giảm chút, kết chấp nhận Đến vịng lặp thử kết thu giống nhau, PrefixPattern vòng lần thực nghiệm giống Mặc dù thực nghiệm có số thực thể vòng nhiều thực nghiệm 1, không “sinh” nhiều PrefixPattern thực nghiệm Như suy thực nghiệm có kết tốt vòng đầu Kết lần lần cho thấy vai trò quy tắc cắt tỉa chất lượng toàn kết vòng lặp Cùng tham số đầu vào với lần thực nghiệm 1, giảm bớt quy tắc cắt tỉa, độ xác vịng thực nghiệm giảm đáng kể Kết vòng thứ kéo theo sai lệch vòng … dẫn đến độ xác tồn quy trình thấp Kết Luận Những vấn đề đề cập khóa luận 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Khóa luận khái quát hóa số vấn đề lý thuyết trích chọn thơng tin, tốn trích chọn thực thể tên tổ chức, đồng thời đưa toán tảng để áp dụng vào cho khóa luận Một số vấn đề giải pháp cho toán đưa ra, điểm đặc biệt ý kỹ thuật DIPRE Thực nghiệm đưa số trường hợp tiêu biểu để thể đặc điểm, chất toán Tuy nhiên kết thực nghiệm mức tạm chấp nhận Khái quát lại nội dung mà luận văn đưa Chương đưa nhìn khái qt trích chọn thơng tin, tốn trích họn thực thể tên tổ chức, ý nghĩa thực tế mà toán mang lại Chương trình bày tốn liên quan, sở để áp dụng cho tốn khóa luận Vấn đề mấu chốt chương kỹ thuật DIPRE Đó kỹ thuật sử dụng cho tốn khóa luận, với đặc điểm bật áp dụng cho tập liệu lớn mà cần can thiệp người Sử dụng kết vòng lặp để làm liệu vào cho vòng lặp … Ngồi kỹ thuật rút trích thực thể từ tập patterns hệ thống Snowball hay kỹ thuật rút trích tên thực thể, tên miền mà Pasca đưa ý tưởng quan trọng để em áp dụng vào khóa luận Chương đưa mơ hình tổng qt chi tiết cho tốn trích chọn thực thể tên tổ chức Chương đưa bước cụ thể toán Và nhấn mạnh đến vai trò việc lựa chọn pattern ban đầu cho chương trình, vai trò quy tắc cắt tỉa tên chất lượng kết thu Chương đưa khái niệm “ngưỡng”; ngưỡng cho việc lựa chọn thực thể để sử dụng vòng lặp tiếp theo; ngưỡng để lựa chọn pattern phù hợp Đấy yếu tố định không nhỏ đến kết đạt Chương trình bày mơi trường tiến hành thực nghiệm, chuẩn bị liệu … kết thực nghiệm Chỉ đưa số kết đại diện, tiêu biểu để phản ánh chất, đặc điểm thuật toán Những mặt hạn chế hướng giải Như nói, kỹ thuật DIPRE thường áp dụng cho tốn rút trích cặp quan hệ cịn khóa luận áp dụng để rút trích thực thể đơn (thực thể tên cơng ty) Do gặp phải khó khăn việc xây dựng pattern để rút trích Kết thu chưa thật cao, độ xác phụ thuộc nhiều vào quy tắc cắt tỉa 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Một điểm hạn chế số lượng thực thể tên tổ chức rút trích chưa nhiều Chỉ có vịng đầu cho kết chấp nhận Miền tổ chức rút trích chưa rộng, rút trích loại tổ chức “cơng ty”, “tập đồn”, “hiệp hội” … Bởi thực tế có nhiều loại tổ chức, với cách biểu diễn khác nên khó tìm mối liên hệ để xây dựng mẫu Nếu có nhiều thời gian để nghiên cứu tốn đưa nhiều quy tắc cắt tỉa kỹ thuật xây dựng pattern hợp lý Hoặc phân tích thêm xâu ký tự đứng trước PrefixSring, mang lại nhiều thơng tin bổ ích Từ độ xác cao Tuy kết mà khóa luận mang lại chưa có ứng dụng vào hệ thống thực, tốn cho tốn rút trích thực thể, đặc biệt tên tiếng Việt – vấn đề quan tâm nhiều Có thể phát triển nhiều tốn khác liên quan đến tổ chức, dựa vào DIPRE, tốn rút trích cặp quan hệ … 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo: [1] C.Fellbaum WordNet: An Electronic Lexical Database and Some of its Applications.M IT Press, 1998 [2] David Day, John Aberdeen, Lynette Hirschman, Robyn Kozierok, Patricia Robinson, and Marc Vilain Mixedinitiative development of language processing systems In Proceedings of the Fifth ACL Conference on Applied Natural Language Processing, April 1997 [3] Eugene Agichtein and Luis Gravano: “Snowball: Extracting Relations from Large Plain-Text Collections” Proc 5th ACM International Conference on Digital Libraries, San Antonio, 2000 [4] GuoDong Zhou “Named Entity Recognition using an HMM-based Chunk Tagger” Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics Philadelphia, July 2002, [5] Marcus, B.S antorini, and M Marcinkiewicz Building a large annotated corpus of English: The Penn Treebank Computational Linguistics, 313–330, June 1993 [6] Marius Pasca, “Acquisition of Categorized Named Entities for Web Search” Proc 13th ACM Conference on Information and Knowledge Management, Washington, 2004 [7] S.Brin Extracting patterns and relations from the World Wide Web.In Proceedings of the 6th International Conference on Extending Database Technology (EDBT98), Workshop on the Web and Databases, Valencia, Spain, 1998 [8] William B Frakes and Ricardo Baeza-Yates, editors Information Retrieval: Data Structures and Algorithms Prentice-Hall, 1992 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... LƯỢC BÀI TỐN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 1.1 Tổng quan trích chọn thơng tin 1.2 Bài tốn rút trích thực thể tên tổ chức 1.3 Ý nghĩa tốn rút trích thực thể tên tổ chức .5... hiểu tổ chức Việt Nam giới vấn đề đáng quan tâm Rút trích tên tổ chức liệt kê danh sách tên tổ chức xuất văn Bài tốn rút trích tên thực thể (mà cụ thể khóa luận tốn trích chọn thực thể tên tổ chức) ... ngữ nghĩa Có nhiều phương pháp tiếp cận khác cho tốn trích chọn thực thể phương pháp học máy HMM, … Trong khóa luận em trình bày phương pháp để trích chọn thực thể tên tổ chức tiếng Việt văn