4.3.1. Đánh giá bộ lọc dữ liệu
Mô tả thực nghiệm: mục đích của thực nghiệm này đánh giá khả năng của bộ lọc dữ liệu.
38
- Đầu vào: một tập các bản tin đƣợc thu thập từ trang
http://vovgiaothong.vn/giao-thong-trong-nuoc/ và trang
http://antoangiaothong.gov.vn/tai-nan-giao-thong/
- Đầu ra: các bài báo liên quan tới miền dữ liệu tai nạn giao thông
Dữ liệu thực nghiệm: là 3.000 bản tin
Sau quá trình lọc dữ liệu thu đƣợc tổng sô 919 bản tin thuộc miền tai nạn giao thông, trong đó số bản tin không liên quan đến tai nạn giao thông rất ít, và có thể tính tỷ lệ lỗi theo công thức 4.1. Chi tiết đƣợc trình này trong bảng 4.4.
Bảng 4.4. Tỷ lệ lỗi của quá trình lọc dữ liệu
Tổng số bản tin số bản tin không liên quan Tỷ lệ lỗi
919 19 3.9%
Công thức tính tỷ lệ lỗi của quá trình lọc dữ liệu:
Trong đó:
Tổng số: là tổng số bản tin thu đƣợc sau quá trình lọc
Số bài không liên quan: là số bản tin không thuộc miền tai nạn giao thông. Kết quả của quá trình này, đƣợc trình bày trong bảng 4.4, thu đƣợc kết quả độ chính xác khá cao.
4.3.2. Đánh giá quá trình phân lớp
Mô tả thực nghiệm: mục đích của phần này là đánh giá quá trình phân lớp của thực nghiệm.
Pháp biểu thực nghiệm
Đầu vào: một tập các bản tin đã đƣợc lọc
39
Dữ liệu thực nghiệm: dữ liệu của mỗi lần đánh giá là 100 bản tin đƣợc lấy ngẫu nhiên từ các bản tin đƣợc lọc bởi bộ dữ liệu. Kết quả của các quá trình đánh giá đƣợc trình bày trong bảng 4.5.
Bảng 4.5. Đánh giá kết quả phân lớp
Stt Số bản tin chính xác Số bản tin không chính xác Số bản tin
không tìm thấy Precision Recall độ đo F-1
1 85 12 3 88% 97% 92% 2 81 16 3 84% 96% 90% 3 83 15 2 85% 98% 91% 4 85 11 4 89% 96% 92% 5 80 17 3 82% 96% 89% Trung binh 82.8 14.2 3 85% 97% 91%
Kết quả thực nghiệm trong bảng 4.5, cho thấy quá trình phân lớp cho thấy độ chính xác (P-Precision) đạt 85%, độ đo hồi tƣởng (R-Recall) đạt 97%, độ đo F-1 đạt 91%.
4.4. ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN 4.4.1. Thực nghiệm không qua bộ phân lớp 4.4.1. Thực nghiệm không qua bộ phân lớp
Mô tả thực nghiệm: mục đích của phần này là đánh giá khả năng trích chọn.
Phát biểu thực nghiệm
Đầu vào: một bản tin trong miền tai nạn giao thông
Đầu ra: thông tin về sự kiện vụ tai nạn gồm: thời gian xảy ra vụ tai nạn, địa điểm xảy ra vụ tai nạn, số thƣơng vong (số tử vong, số bị thƣơng), và phƣơng tiện gây tai nạn.
40 Dữ liệu thực nghiệm: dữ liệu là 200 bản tin lấy ngâu nghiên từ các bản tin trong niềm tai nạn tai nạn giao thông chƣa qua bộ phân lớp.
Một sự kiện E đƣợc định nghĩa là một bộ gồm thời gian, địa điểm, số thƣơng vong, và phƣơng tiện gây tai nạn đƣợc trình bày trong công thức 3.1. Nhƣ vậy một sự kiện đúng nên chứa cả bốn thành phần trên. Nếu một sự kiện không bao gồm phƣơng tiện gây tai nạn và thời gian gây tai nạn thì đƣợc xem là một sự kiện sai.
Để đánh giá khả năng trích chọn của sự kiện, tác giả sử dụng ba độ đo: độ chính xác (P - Precision), độ hồi tƣởng (R - Recall), và độ đo F1 (F-score). Các độ đo này đƣợc biểu diễn trong công thức (4.2), (4.3), (4.4)
Trong đó:
- Số sự kiện đúng: số sự kiện đƣợc mô hình trích chọn chính xác. - Số sự kiện sai: là số sự kiện mà mô hình trích chọn sai.
Trong đó:
- Số sự kiện đúng: số sự kiện đƣợc mô hình trích chọn chính xác.
- Số sự kiện không được trích chọn: là số sự kiện mà mô hình không trích chọn ra. 2 x P x R (4.4) F1 = (P + R) (4.2) Số sự kiện đúng Độ chính xác (P) =
Số sự kiện đúng + Số sự kiện sai
(4.3)
Số sự kiện đúng Độ hồi tưởng (R) =
41
Dựa vào công thức (4.2), (4.3), (4.4), tác giả đƣa ra bảng đánh giá mô hình trích chọn, chi tiết đƣợc trình bày trong bảng4.6.
Bảng 4.6. Đánh giá quá trình trích chọn - dữ liệu không qua bộ phân lớp
Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 160 34 6 82% 96% 89% vovgiaothong.vn 154 37 9 81% 94% 87% Trung bình 314 71 15 82% 95% 88%
4.4.2. Thực nghiệm qua bộ phân lớp
Dữ liệu thực nghiệm: dữ liệu là 100 bản tin đƣợc lấy từ các bản tin chứa sự kiện vụ tai nạn (gán nhãn EVENT). Kết quả của quá trình trích chọn sự kiện, tác giả cũng sử dùng công thức (4.2), (4.3), (4.4) để đánh giá thực nghiệm. Kết quả đƣợc mô tả chi tiết trong bảng 4.7.
Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp.
Tên website Số sự kiện đúng Số sự kiện sai Số sự kiện không tìm thấy P R F1 antoangiaothong.gov.vn 91 5 4 95% 96% 95% vovgiaothong.vn 93 4 2 96% 98% 97% Trung bình 184 9 6 95% 97% 96% 4.4.3. Nhận xét
Từ thực nghiệm đƣợc chi tiết trong bảng 4.6 (dữ liệu không qua bộ phân lớp) và bảng 4.7 (dữ liệu đƣợc xử lý qua bộ phân lớp). Kết quả cho thấy dữ liệu đƣợc xử lý qua bộ phân lớp cho kết quả cao hơn. Điều đó chứng tỏ tầm quan trọng của bộ phân lớp trong mô hình.
4.5 PHÂN TÍCH LỖI
4.5.1. Phân tích lỗi quá trình phát hiện sự kiện
Quá khảo sát và thống kê dữ liệu sau thực nghiệm, phát hiện lỗi khi tiêu đề có từ nhắc đến phương tiện giao thông nhƣng bản tin đó lại không thuộc miền
42
tai nạn giao thông: Ví dụ, ở hình 4.1 tiêu đề bản tin “khổ vì mua xe trả góp”, có chứa phƣơng tiện giao thông là “xe” nhƣng thực chất bản tin này thuộc miền dữ liệu thƣơng mai không phải miền tai nạn giao thông. Tuy thế, bộ lọc vẫn phát hiện dữ liệu đó thuộc miền dữ liệu tai nạn giao thông.
Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông
4.5.2. Phân tích lỗi quá trình trích chọn sự kiện
Trong pha trích chọn thông tin thì khả năng trích chọn thông tin còn thấp, tác giả đã tìm hiểu nguyên nhân và thấy rằng thƣờng xảy ra ở các lỗi nhƣ: trích chọn địa điểm, đôi khi trong các bản tin chỉ nhắc đến tên đƣờng không nhắc đến tên địa phƣơng (xã/huyện/ tỉnh) trƣờng hợp này không thể xác định đƣợc địa điểm chính xác hoặc cho giá trị Null. Trong số ít các trƣờng hợp các thông tin đƣợc viết tắt là không trích chọn đƣợc.Trích chọn thông tin phƣơng tiện gây tai nạn trong một số trƣờng hợp trích chọn ra thông tin sai nhƣ: “xe máy bị đâm, nạn nhân chết tại chỗ”, thông tin đƣợc trích ra “xe máy” là phƣơng tiện gây tai nạn kết quả này là sai. Hay trong trƣờng hợp về trích chọn số nạn nhận nhƣ
“Nạn nhân đã được người dân đưa đi cấp cứu”, thì không trích chọn đƣợc ra số nạn nhân vì không có tiền tố về số lƣợng. Chi tiết hơn về các lỗi đƣợc trình bày trong bảng 4.8.
43
Bảng 4.8 Một số lỗi - trong quá trình trích chọn
Stt Thông tin đúng Thông tin trích chọn
1 Phƣờng 4, Quận 1, Phƣơng 9, TP Hồ Chí Minh Quận 5, Phƣờng 7, Quận Bình Thạch
2 Tỉnh Pray Veng Null
3 Huyện Xuân trƣờng, Nam Định Nam Định
4 Quốc lộ 1A Null
5 xe máy bị đâm Xe máy
6 Nạn nhân đã đƣợc ngƣời dân Null
4.6. MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN
Kết quả của quá trình trích chọn đƣợc sử dụng để thống kê nhƣ thống kê số vụ tai nạn theo Tuần, theo Thứ trên Tuần, theo Tỉnh, và thống kê số vụ tai nạn theo Phương tiện tham gia giao thông.
1./ Thống kê số vụ tai nạn theo tuần trong hai tháng (tháng 4 và tháng 5 năm 2014). Dữ liệu đƣợc tập trung vào tháng 4 và tháng 5 năm 2014, thống kê cho thấy các ngày nghỉ lễ 30/4 và 1/5 số vụ tai nạn tăng lên đáng kình ngạc, cả nƣớc đã xảy ra 191 vụ tai nạn và làm thiệt nạng 109 ngƣời. Chi tiết đƣợc mô tả trong biểu đồ 4.1.
44
2./ Thống kê số vụ tai nạn theo Thứ trên Tuần, kết quả cho thấy vào những này cuối tuần số vụ tai nạn tăng lên đáng kể. Chi tiết về số vụ tai nạn trong từng Thứ trên Tuần đƣợc thể hiện trong biểu đồ 4.2.
Biểu đồ 4.2. Thống kê số vụ tai nạn theo Thứ trên Tuần
3./ Thống kê số vụ tai nạn theo các tỉnh (thống kê trên 4 tỉnh điển hình) trên cả nƣớc. Kết quả cho thấy Thành phố Hồ Chí Minh có mức độ tai nạn cao nhất. Chi tiết xem biểu đồ 4.3.
45
4./ Thống kê các phƣơng tiện có tần suất gây tai nạn cao khi tham gia giao thông (thống kê 5 phƣơng tiện có mức độ tai nạn cao hơn). Chi tiết của từng loại phƣơng tiện đƣợc hiển thị trong biểu đồ 4.4
Biểu đồ 4.4. Thống kê số vụ tai nạn theo loại phƣơng tiện giao thông
Qua thống kê các vụ tai nạn giao thông tác giả rút ra nhận xét sau:
Đối với ngƣời dân khi tham gia giao thông vào những ngày nghỉ lễ, ngày cuối tuần, trong các thành phố lớn, và tham gia giao thông trên các phƣơng tiện nhƣ xe máy, xe buýt, xe khách, xe công – te- nơ và đặc biệt là xe tải phải hết sức cẩn thận đặc biệt là ngƣời điều khiển phƣơng tiện giao thông, để tránh những tai nạn đáng tiếc cho bản thân và cho ngƣời đi đƣờng.
Đối với các nhà quản lý cũng nên có các biệm pháp hiệu quả để ngăn ngừa tai nạn giao thông đặc biệt vào những ngày nghỉ lễ dài.
4.7. TỔNG KẾT
Trong chƣơng này, tác giả đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của mô hình trích chọn thông tin trong văn bản du lịch đƣợc xây dựng trong chƣơng ba. Kết quả thực nghiệm cho thấy tính khả thi của mô hình giải quyết bài toán trích chọn sự kiện vụ tai nạn.
46
KẾT LUẬN
1/. Kết quả đạt đƣợc của luận văn
Trong luận văn này, tác giả đã tìm hiểu các phƣơng pháp trích chọn sự kiện, phƣơng pháp kết hợp luật và học máy đƣợc sử dụng cho bài toán phát hiện sự kiện và bài toán trích chọn sự kiện. Trên cơ sở đó, xây dựng mô hình và phƣơng pháp giải quyết chi tiết cho bài toán phát hiện sự kiện vụ tan nạn và bài toán trích chọn sự kiện vụ tai nạn. Kết quả thực nghiệm của quá trình trích chọn sự kiện trên miền dữ liệu vụ tai nạn với độ đo P đạt 95%, độ đo R đạt 97 %, và độ đo F1 đạt 96%, điều đó chứng tỏ tính khả thi của mô hình.
2./ Hạn chế
- Kết quả của bộ phân lớp chƣa cao do nhập nhằng giữa bản tin có chứa sự kiện vụ tai nạn và bản tin chứa thông tin tai nạn giao thông khác.
- Xây dựng tập luật bằng tay, do đó khó có thể bao phủ toàn bộ dữ liệu. Điều này dẫn đến tập luật có thể bỏ sót những dữ liệu liên quan tới miền dữ liệu.
- Trích chọn địa điểm dựa trên từ điển trong một số trƣờng hợp còn bị nhập nhằng khi dữ liệu cung cấp không đủ thông tin về địa điểm.
- Trong một số trƣờng hợp viết tắt, khi trích chọn thông tin còn chƣa chính xác.
3/. Định hƣớng tƣơng lai
Định hƣớng nghiên cứu tiếp theo của luận văn là tiếp tục hoàn thiện và phát triển mô hình trích chọn sự kiện trong văn bản tin tức tiếng Việt. Phát triển trích chọn thêm các thuộc tính quan trọng nhƣ: giờ/ngày (giờ nào trong ngày xảy ra vụ tai nạn), độ tuổi của ngƣời điều kiển phƣơng tiện gây tai nạn, ngành nghề của ngƣời điều khiển phƣơng tiện gây tai nạn, địa hình gây tai nạn, … Kết quả của quá trình trích chọn đƣợc thống kê nhƣ: tai nạn hay xảy ra vào giờ/ngày (giờ nào trong ngày hay xảy ra tai nạn vào ban đêm, giờ đến công sở, giờ tan tầm…), thứ/tuần (tai nạn thƣờng xảy ra vào thứ nào trên tuần, nhƣ ngày đi làm hay ngày
47
cuối tuần,… ), mùa/năm (vào mùa lễ hội, mùa thi Đại học, mùa mƣa, hay vào các kỳ nghỉ mát mùa hè,…), địa hình gây tai nạn (đƣờng dốc, đƣờng vòng cua, hay đƣờng có nhiều ngã rẽ..), ngành nghề của ngƣời điều khiển phƣơng tiện giao thông… Từ những thống kê đó có thể tìm ra nguyên nhân xảy ra các vụ tai nạn, so sánh quy mô mức độ nghiêm trọng của các vụ tai nạn trong từng khoảng thời gian với nhau, từ đó đƣa ra bản đánh giá trung về sự phát triển của các vụ tai nạn theo chiều hƣớng nào. Mặt khác, kết quả của quá trình thống kê sẽ đƣợc trực quan hoá trên bản đồ Việt Nam các điểm hay xảy ra tai nạn bằng các cảnh báo, biển báo, và các ghi chú.
48 TÀI LIỆU THAM KHẢO
Tài liệu tiếng Anh
[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India,
[2] Douglas E. Appelt. Introduction to information extraction technology. In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999.
[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim. Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns. In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004). Lecture Notes in Computer Science. Springer- Verlag Berlin Heidelberg, vol. 3248:777 786, 2004.
[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong. An overview of event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp. 48 57, 2011.10
[5] M.A Hearst. Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics (COLING 1992), vol. 2:539 545, 1992.
[6] M.A Hearst. Wordnet: An electronic lexical database and some of its applications. In Automated Discovery of WordNet Relations, pp. 131 151. MIT Press, 1998.
[7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar. Semi-automatic financial events discovery based on lexico-semantic patterns. International Journal of Web Engineering and Technology, 6(2):115 140, 2010.
49
[8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian. Ontology-based fuzzy event extraction agent for chinese e-news summarization. In Expert Systems with Applications 25(3), 431 447, 2003.
[9] Okamoto Masayuki and Masaaki Kikuchi. Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries. In: 5th Asia Information Retrieval Symposium (AIRS 2009). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 5839:181 192, 2009.
[10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang. Extracting key entities and significant events from online daily news. In: 9th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 5326:201 209, 2008.
[11] L. Peshkin and A. Pfeffer. Bayesian information extraction network. In
Proc.of the 18th International Joint Conference on Artificial Intelligence (IJCAI), 2003.
[12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg. Extracting violent events from on-line news for ontology population. In: 10th International Conference on Business Information Systems (BIS 2007). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 4439:287 300, 2007.
[13] Silja Huttunen Ralph Grishman and Roman Yangaber. Information extraction for enhenced access to disease outbreak reports. Journal of Biomedical Informastic, 35(4):pp. 236 246, 2002.
[14] Ai Kawazoe Son Doan and Nigel Collier. Global health monitor - a web- based system for detecting and mapping infectious diseases. Proc. International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp. 951 956, 2008.
50
[15] William H. Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru.
Animal disease event recognition and classification. 2010
[16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii. Event extraction from biomedical papers using a full parser. In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp. 408 419, 2001.
[17] Helen L. Johnson Chris Roeder Philip V. Ogren-William A. Baumgartner Jr. Elizabeth White Hannah Tipney K. Bretonnel Cohen, Karin Verspoor and Lawrence Hunter. High-precision biological event extraction with a concept recognizer. In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting. pp. 50 58. Association for Computational Linguistics, 2009.
[18] S. Soderland, “Learning information extraction rules for semi-structured and free text,” Machine Learning, vol. 34, 1999.
[19] H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan, “Gate: A framework