Tên nhà sản xuất Số lƣợng máy ảnh Canon 103 Panasonic 93 Nikon 91 Fujifilm 78 Sony 72 Pentax 51 Casio 36 Olympus 35 Kodak 32 Samsung 24 Sanyo 20 Ricoh 17
Bảng 23: Kết quả thực nghiệm 5 - Thống kê số lƣợng máy ảnh theo hãng sản xuất
Kết luận và hƣớng phát triển tƣơng lai
Từ việc nghiên cứu bài toán trích chọn quan hệ, luận văn đã đƣa ra mô hình trích chọn tên máy ảnh kĩ thuật số từ tập văn bản. Qua thực nghiệm cho thấy mô hình là khả thi và có thể áp dụng đƣợc.
Về mặt nội dung, khóa luận đã đạt những kết quả sau:
- Giới thiệu bài toán trích chọn quan hệ và các khái niệm liên quan.
- Tìm hiểu và phân tích các phƣơng pháp trích chọn quan hệ điển hình, trong đó tập trung vào phƣơng pháp học bán giám sát để trích chọn thực thể tên.
- Áp dụng mô hình học bán giám sát để xây dựng mô hình trích chọn tên máy ảnh kĩ thuật số và đạt đƣợc một số kết quả khả quan.
Bên cạnh đó, do hạn chế về thời gian và kiến thức, luận văn còn một số hạn chế sau:
- Khóa luận mới dừng lại ở việc trích chọn tên máy ảnh mà chƣa trích chọn đƣợc các thuộc tính liên quan đến máy ảnh nhƣ độ phân giải, độ zoom,… Trong một câu thƣờng chỉ trích chọn ra đƣợc một cặp <camera, producer>, các câu có dạng <producer> … <camera 1> <camera 2>…<camera N> thì chỉ trích chọn đƣợc cặp <producer, camera 1>. Kết quả thực nghiệm còn nhiều trƣờng hợp chƣa đạt đƣợc độ chính xác nhƣ mong muốn.
Về định hƣớng nghiên cứu, việc giải quyết bài toán theo tiếp cận bán giám sát là bƣớc khởi đầu tốt. Trong thời gian tới, luận văn sẽ đƣợc phát triển theo các hƣớng sau:
- Mở rộng hệ thống, không dừng lại ở việc trích chọn tên máy ảnh mà còn trích chọn các đặc trƣng (thuộc tính, tham số kỹ thuật) của máy ảnh. Tiếp đến là có thể phát triển các thuật toán trích chọn các ý kiến đánh giá chất lƣợng của các loại máy ảnh hay so sánh các thuộc tính của ngƣời dùng từ đó có thể đƣa ra các thông tin hữu ích giúp ngƣời dùng trƣớc khi mua máy ảnh có thể tham khảo.
Tài liệu tham khảo
[1] George A.Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross and Katherine Miller (1993), Introduction to WordNet: An On-line Lexical database, International Journal of Lexicography, pp. 235-312.
[2] Eugene Agichtein and Luis Gravano (2000), Snowball: Extracting Relations from Large Plain text Collections, Proceedings of the 5th ACM International Conference on Digital Libraries, pp. 185-194.
[3] Sergey Brin (1998), Extraction Patterns and Relation from the World Wide Web, Proceedings of the 6th International Conference on Extending Database Technology, pp. 172-183.
[4] Mary E. Calif and Raymond J. Mooney (1998), Relational learning of Pattern – Match Rules for Information Extraction, Proceedings of AAAI Spring Symposium on Applying Machine Learning, pp 328-334.
[5] Douglas E.Appelt, David J.Israel (1999), Introduction to Information Extraction, A Tutorial Prepared for IJCAI-99.
[6] Christiane Fellbaum (1998), WordNet: An Electronic Lexical Database and Some of Its Applications, MIT Press,
[7] Claudio Giuliano, Albert Olavelli and Lorenza Romano (2007), Relation Extraction and the Influence of Automatic Named-Entity Recognition,
ACM Trans. Speech Lang. Process. 5, pp. 9-15.
[8] Ralph Grishman and Beth Sundheim (1996), Message Understanding Conference - 6: A Brief History, Proceedings of the 16th International Conference on Computational Linguistics (COLING), pp. 466-471.
[9] Ralph Grishman (1997), Information extraction: Techniques and challenges,
In Information Extraction (International Summer School SCIE-97), pp. 10- 27.
[10] Ralph Grishman, Silja Huttunen and Roman Yangarber (2002), Information Extraction for Enhanced Access to Disease Outbreak Reports ,
Journal of Biomedical Informatics, pp. 462-477.
[11] M. Hassel (2003), Exploitation of Named Entities in Automatic Text Summarization for Swedish, In Proceedings of NODALIDA 03 - 14 th Nordic Conference on Computational Linguistics.
[12] U. Hermjakob, K. Knight, and H. Daume (2008), Name Translation in Statistical Machine Translation: Learning When to Transliterate, Proc. ACL, pp. 389-397.
[13] GuXu, Shuang-HongYang and HangLi (2009), Named Entity Mining from Click-Through Data Using Weakly Supervised Latent Dirichlet Allocation,
Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 1365-1374.
[14] Nozomi Kobayashi, Kentaro Inui and Yuji Matsumoto (2007), Opinion Mining from Web documents: Extraction and Structurization, Journal of Japanese Society for Artificial Intelligence, pp. 326-335.
[15] Giridhar Kumaran and James Allan (2004), Text Classification and Named Entities for New Event Detection, Proceedings of the 27PthP Annual International ACM SIGIR Conference, pp. 297-304.
[16] Diego Molla, Mennovan Zaanen and Daniel Smith (2006), Named Entity Recognition for Question Answering, Proceedings ALTW, pp. 51-58.
[17] Marius Pasca (2004), Acquisition of Categorized Named Entities for Web Search, ACM Press, pp. 137-145.
[18] Ellen Riloff (1996), Automatically Generating Extraction Patterns from Untagged text, In Proceedings of the Thirteenth National Conference on Artificial Intelligence, pp. 1044-1049.
[19] Google AJAX Search API
Phụ lục. Mối quan hệ ngữ nghĩa trong WordNet
WordNet là một hệ cơ sở tri thức cho từ vựng tiếng anh. Các từ vựng trong WordNet đƣợc phân loại và tổ chức thành các tập đồng nghĩa synset. Mỗi tập synset biểu diễn một nghĩa. WordNet tổ chức 25 cấu trúc cây phân cấp riêng biệt tƣơng ứng với các lĩnh vực có ngữ nghĩa khác nhau cho synset. Quan hệ ngữ nghĩa trong WordNet đƣợc trình bày trong bảng 24.
Thông thƣờng, ngƣời ta thƣờng hay sử dụng WordNet cho việc tìm kiếm các mối quan hệ ngữ nghĩa. Đồng thời, dựa vào các mối quan hệ này, một từ trong WordNet có thể tìm đƣợc các mối liên hệ với các khái niệm khác.