Kếtquả thực nghiệ m - ở đầ u - LUẬN VĂN: PHƯƠNG PH- 123docz.net

M ở đầ u

4.3. Kếtquả thực nghiệ m

Kết quả thực nghiệm phụ thuộc rất nhiều vào PreifxPattern ban đầu đưa vào và các luật để cắt tỉa tên. Nếu như lựa chọn được một PrefixPattern ban đầu tốt, thì số lượng cũng như “chất lượng” của các thực thể rút trích được sẽ rất tốt ngay ở vòng lặp đầu tiên . Dẫn đến những kết quả khả quan ở các vòng lặp tiếp theo. Cũng như càng đưa ra nhiều luật cắt tỉa, thì độ chính xác sẽ càng cao, nhưng cũng đồng nghĩa với số lượng các thực thể rút trích được sẽ giảm đi. Và ngược lại, một PrefixPattern không tốt, hay lượng luật cắt tỉa đưa ra không chính xác, số lượng thực thể rút trích được sẽ lớn, nhưng chất lượng càng xấu ở các vòng lặp tiêp theo …

Trong thực nghiệm này, do không biết được chính xác tập R = { tất cả các thực thể

tên tổ chức }, do đó không thể tính được giá trị “độ hồi tưởng” (recall). Chỉ dùng một chỉ

số duy nhất là độ chính xác (precision) đểđánh giá chất lượng của thực nghiệm. Độ chính xác được xác định theo :

Độ chính xác :

R = {tất cả các rút trích được ở mỗi vòng}

R’ = {chọn ngẫu nhiên một số lượng các thực thể từ R – trong thực nghiệm |R’| = 100}

|R| = số lượng các phần tử trong R.

Để lấy kết quảđưa vào bảng, với mỗi lần kiểm tra độ chính xác, em thực hiện lấy 3 lần. Lấy giá trị trung bình của 3 lần đó làm số liệu cuối cùng.

Em đã thực hiện thực nghiệm nhiều lần, với những thay đổi khác nhau về

PrefixPattern ban đầu, quy tắc cắt tỉa, ….và kết quả thu được tương đối khác nhau. Dưới

đây em chỉ liệt kê một số thực nghiệm đại diện để mô tả tính chất của bài toán:

- Với lần thực nghiệm đầu tiên cho PrefixPattern là : “công ty|cty|tập đoàn” . Kết quảđược cho như bảng bên dưới:

Bảng 5: Kết quả lần 1 Kếtquả Vòng lặp Số thực thể được rút trích Độ chính xác 1 2064 84.67% 2 299 84.33%

- Lần thực nghiệm thứ 2 giống như lần thứ 1, tuy nhiên đã “hạn chế” các luật cắt tỉa, cụ thể là loại đi bước cuối cùng trong quy trình cắt tỉa trình bày ở mục 3.4. Kết quả thu được là : Bảng 6: Kết quả lần 2 Kết quả Vòng lặp Số thực thể được rút trích Độ chính xác 1 2632 71.33% 2 13775 34.33%

- Lần thực nghiệm 3 PrefixPattern là “phòng|cục|công ty|cty|tập đoàn”, chọn ngưỡng là 10 kết quả:

Bảng 7: Kết quả lần 3 Kết quả Vòng lặp Số thực thể được rút trích Độ chính xác 1 2333 81.33% 2 299 84.33% 4.4. Nhận xét

Theo kết quả lần 1 và lần 3 cho thấy, khi tăng số phần tử trong PrefixPattern ban

đầu thì số lượng các thực thể rút trích được ở vòng đầu cũng tăng. Tuy nhiên, độ chính xác cũng giảm đi một chút, kết quảđó có thể chấp nhận được. Đến vòng lặp thử 2 thì kết quả thu được giống nhau, là do PrefixPattern ở vòng 2 của 2 lần thực nghiệm giống nhau. Mặc dù thực nghiệm 3 có số thực thểở vòng 1 nhiều hơn ở thực nghiệm 1, nhưng không “sinh” ra nhiều PrefixPattern mới hơn thực nghiệm 1. Như vậy có thể suy ra thực nghiệm chỉ có kết quả tốt ở 2 vòng đầu.

Kết quả lần 1 và lần 2 cho thấy vai trò của quy tắc cắt tỉa đối với chất lượng toàn bộ

kết quả các vòng lặp. Cùng tham sốđầu vào với lần thực nghiệm 1, chỉ giảm bớt quy tắc cắt tỉa, nhưng độ chính xác ở vòng 1 của thực nghiệm 2 đã giảm đi đáng kể. Kết quả kém ngay ở vòng thứ nhất càng kéo theo sự sai lệch ở các vòng tiếp theo … dẫn đến độ chính xác của toàn bộ quy trình sẽ rất thấp.

Kết Luận

Khóa luận đã khái quát hóa một số vấn đề lý thuyết về trích chọn thông tin, bài toán trích chọn thực thể tên tổ chức, đồng thời đưa ra các bài toán nền tảng để áp dụng vào cho khóa luận này. Một số vấn đề và giải pháp cho bài toán đã được đưa ra, điểm đặc biệt chú ý nhất là kỹ thuật DIPRE. Thực nghiệm đã đưa ra một số trường hợp tiêu biểu để thể hiện

đặc điểm, bản chất của bài toán. Tuy nhiên kết quả của thực nghiệm mới chỉ ở mức tạm chấp nhận được. Khái quát lại nội dung mà luận văn đã đưa ra.

Chương 1 đưa ra một cái nhìn khái quát về trích chọn thông tin, bài toán trích họn thực thể tên tổ chức, cũng như ý nghĩa thực tế mà bài toán mang lại.

Chương 2 trình bày các bài toán liên quan, nó là cơ sở để áp dụng cho bài toán trong khóa luận này. Vấn đề mấu chốt nhất trong chương là kỹ thuật DIPRE. Đó là một kỹ thuật chính sử dụng cho bài toán trong khóa luận, với một đặc điểm nổi bật là có thể áp dụng cho tập dữ liệu lớn mà cần ít sự can thiệp của con người. Sử dụng kết quả của vòng lặp hiện tại để làm dữ liệu vào cho vòng lặp tiếp theo …. Ngoài ra những kỹ thuật rút trích thực thể từ tập các patterns của hệ thống Snowball hay kỹ thuật rút trích tên thực thể, tên miền mà Pasca đưa ra cũng là ý tưởng quan trọng để em áp dụng vào khóa luận của mình.

Chương 3 đưa ra mô hình tổng quát cũng như chi tiết cho bài toán trích chọn thực thể tên tổ chức. Chương đã đưa ra từng bước cụ thể của bài toán. Và cũng nhấn mạnh đến vai trò của việc lựa chọn pattern ban đầu cho chương trình, cũng như vai trò của các quy tắc cắt tỉa tên đối với chất lượng của kết quả thu được. Chương này cũng đưa ra khái niệm “ngưỡng”; một ngưỡng cho việc lựa chọn thực thể để sử dụng ở vòng lặp tiếp theo; một ngưỡng để lựa chọn ra pattern phù hợp. Đấy cũng là yếu tố quyết định không nhỏđến kết quảđạt được.

Chương 4 trình bày môi trường tiến hành thực nghiệm, chuẩn bị dữ liệu … và kết quả thực nghiệm. Chỉ đưa ra một số kết quảđại diện, tiêu biểu để phản ánh bản chất, đặc

điểm của thuật toán.

Những mặt hạn chế và hướng giải quyết

Nhưđã nói, kỹ thuật DIPRE chỉ thường áp dụng cho bài toán rút trích cặp quan hệ

còn khóa luận này áp dụng để rút trích thực thểđơn (thực thể tên công ty). Do đó gặp phải khó khăn trong việc xây dựng pattern để rút trích. Kết quả thu được chưa thật sự cao, và

Một điểm hạn chế nữa là số lượng thực thể tên tổ chức rút trích được chưa nhiều. Chỉ có 2 vòng đầu là cho kết quả chấp nhận được. Miền của các tổ chức rút trích được cũng chưa rộng, mới chỉ rút trích được các loại tổ chức như “công ty”, “tập đoàn”, “hiệp hội” … Bởi vì trên thực tế có rất nhiều loại tổ chức, với cách biểu diễn khác nhau nên khó có thể tìm ra mối liên hệđể xây dựng mẫu.

Nếu như có nhiều thời gian hơn nữa để nghiên cứu về bài toán này thì có thểđưa ra nhiều quy tắc cắt tỉa cũng như kỹ thuật xây dựng pattern hợp lý hơn. Hoặc có thể phân tích thêm về xâu ký tựđứng trước mỗi PrefixSring, bởi nó cũng mang lại nhiều thông tin bổ ích. Từđó độ chính xác sẽ cao hơn. Tuy kết quả mà khóa luận mang lại chưa có ứng dụng vào các hệ thống thực, nhưng nó là bài toán cơ bản cho các bài toán rút trích thực thể, đặc biệt là tên tiếng Việt – vấn đề đang được quan tâm nhiều. Có thể phát triển nhiều bài toán khác liên quan đến tổ chức, vẫn dựa vào DIPRE, như bài toán rút trích cặp quan hệ <tổ chức, trụ sở chính> …

Tài liệu tham khảo:

[1] C.Fellbaum. WordNet: An Electronic Lexical Database and Some of its Applications.M IT Press, 1998.

[2] David Day, John Aberdeen, Lynette Hirschman, Robyn Kozierok, Patricia Robinson, and Marc Vilain. Mixedinitiative development of language processing systems. In Proceedings of the Fifth ACL Conference on Applied Natural

Language Processing, April 1997.

[3] Eugene Agichtein and Luis Gravano: “Snowball: Extracting Relations from Large Plain-Text Collections”. Proc. 5th ACM International Conference on Digital Libraries, San Antonio, 2000

[4] GuoDong Zhou. “Named Entity Recognition using an HMM-based Chunk Tagger”. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics Philadelphia, July 2002,

[5] Marcus, B.S antorini, and M. Marcinkiewicz. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, 313–330, June 1993. [6] Marius Pasca, “Acquisition of Categorized Named Entities for Web Search”. Proc. 13th ACM Conference on Information and Knowledge Management, Washington, 2004.

[7]. S.Brin. Extracting patterns and relations from the World Wide Web.In Proceedings of the 6th International Conference on Extending Database Technology (EDBT- 98), Workshop on the Web and Databases, Valencia, Spain, 1998.

[8] William B. Frakes and Ricardo Baeza-Yates, editors. Information Retrieval: Data Structures and Algorithms. Prentice-Hall, 1992.