Môi trƣờng thực nghiệm

Một phần của tài liệu nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Trang 36)

Chƣơng trình thực nghiệm đƣợc chạy hệ điều hành Windows 7 (64 bit), trên máy tính xách tay cá nhân có cấu hình nhƣ sau:

- Bộ vi xử lý: Intel(R) Core(TM)i5-2410M - CPU: 2.30 GHz - Ram: 4GB - Hệ thống: 64 bit 4.2. D LIU DÙNG CHO THC NGHIM Nhƣ đã trình bày ở phần trƣớc, dữ liệu là yếu tố hết sức quan trọng đối với tính hữu dụng của một mạng nơron. Để đảm bảo thỏa mãn những tiêu chí về độ lớn, tính bao phủ, tính ngẫu nhiên và khách quan cho mạng nơron huấn luyện vector từ, dữ liệu đƣợc lấy từ các website về giao thông16và các văn bản pháp luật17.

16http://www.vovgiaothong.vn, http:// www.gttm.go.vn,http://www.mt.gov.vn, http://www.baogiaothong.vn

28

Đối với mạng nơron phát hiện sựđồng nghĩa của câu, do ngữ cảnh của bài toán đã đƣợc giới hạn trong khuôn khổ luật giao thông Việt Nam, dữ liệu huấn luyện đƣợc sử

dụng trong đề tài nhỏ hơn so với dữ liệu thực nghiệm đƣợc sử dụng trong công trình của Richard Socher và các đồng tác giả. Việc giới hạn ngữ cảnh đóng góp rất lớn cho tính khả

thi của công trình tại điều kiện hiện tại. Dữ liệu huấn luyện gồm 110 bộ gồm 5 câu cùng

nghĩa đƣợc xáo trộn về trật tự từnhƣng vẫn đảm bảo đúng ngữ pháp tiếng Việt.

Dữ liệu huấn luyện đƣợc chia làm 2 phần, 75 bộđóng vai trò là dữ liệu học đƣợc sử dụng cho việc huấn luyện mạng nơron và 35 bộ sử dụng cho việc kiểm thử chất lƣợng của mạng. Từ 75 bộ của tập dữ liệu học ta sinh ra đƣợc 550.000 bộ ba các ví dụ chứa 2

câu cùng nghĩa và 1 câu khác nghĩa với hai câu còn lại, các bộ ba đƣợc tạo ra là đầu vào của mạng nơronđã đƣợc trình bày ở chƣơng trƣớc. Các bộ đƣợc sử dụng trong kiểm thử

sẽ đƣợc trộn ngẫu nhiên và nhiệm vụ của chƣơng trình là nhặt ra đƣợc trong đó các câu

cùng bộ với nhau.

4.3. CÁCH THC T CHC THC NGHIM

Quá trình thực nghiệm đƣợc tổ chức theo 4 bƣớc: Thu thập dữ liệu, Tiền xử lý dữ

liệu, Huấn luyện mạng nơron và Đo độ chính xác của mạng nơron.

Tại bƣớc đầu tiên, các dữ liệu về từ vựng đƣợc thu thập một cách tự động bằng

chƣơng trình Win web crawler, tệp dữ liệu ban đầu có kích thƣớc 9.2MB. Dữ liệu về các bộ của các câu thể hiện luật giao thông đƣợc thu thập từ các cộng tác viên thông qua một

website đƣợc xây dựng tạm, phục vụ riêng cho mục đích nhập liệu cho khóa luận.

Sau khi đƣợc thu thập, các dữ liệu lƣu trong tệp và CSDL đƣợc tiền xử lý, quá trình này bao gồm việc tách từ, chuyển các câu sang dạng cây phụ thuộc, chuyển các thông tin dạng số về cùng một từ thể hiện. Đây là bƣớc rất quan trọng trƣớc khi tiến hành huấn luyện dữ liệu.

Bƣớc huấn luyện mạng nơron gồm hai quá trình con đó là vector hóa từ vựng sử

dụng mạng nơron đầu tiên và huấn luyện mạng nơron thứ 2 để nó có khả năng phát hiện

đƣợc những câu đồng nghĩa. Quá trình đầu tiên sử dụng mạng nơ ron có một lớp ấn chứa

20 nơron, lớp vào gồm 10 vector từ xếp cạnh nhau, mỗi vector từ chứa 10 phần tử và lớp

ra có 1 nơron mang giá trị điểm của chuỗi 10 từ này. Quá trình thứ 2 sử dụng mạng nơ ron đệ quy có lớp ẩn và lớp vào đều có 10 phần tử. Cả hai quá trình đều sử dụng thuật

29

toán Stochastic Gradient Descent với hệ số học 10-5, quá trình đầu tiên đƣợc chạy liên tiếp trong vòng 2 ngày, quá trình thứ 2 đƣợc chạy liên tiếp trong vòng 7 ngày trƣớc khi hệ

thống đƣợc đem ra đánh giá.

4.4. KT QU THC NGHIM

Đểđánh giá đƣợc mô hình, 175 câu (từ 35 bộ) đƣợc dùng làm đối tƣợng kiểm thử. Với mỗi câu, hệ thống sẽ tìm ra những câu gần nghĩa với nó nhất dựa vào tích vô hƣớng của các vector để rồi xếp hạng từ trên xuống dƣới về mức độ gần nghĩa, sau đó hệ thống ghi lại thứ hạng của câu gần nó nhất thuộc cùng một bộ (gọi là mean rank). Giá trị mean rank càng nhỏ chứng tỏ mạng nơron hoạt động với ví dụđó càng chính xác. Đây là cơ sở đểđánh giá chất lƣợng của mạng nơron đã đƣợc huấn luyện. Bảng 4.2 liệt kê một số ví dụ

của kết quảđầu ra (adsbygoogle = window.adsbygoogle || []).push({});

Bảng 4.2. Một số kết quảđầu ra ví dụ

Câu phát biểu về luật giao thông Mean Rank

luật giao thông đƣờng bộ quy định không đƣợc dừng xe, đỗ xe trong

phạm vi an toàn của đƣờng sắt. 0

không đƣợc để phƣơng tiện giao thông ở lòng đƣờng, hè phố trái quy

định. 0

luật giao thông đƣờng bộ không cho phép sử dụng lòng đƣờng, lề

đƣờng, hè phố trái phép. 0

không kéo lê hàng hóa trên mặt đƣờng. 1

nghiêm cấm dừng xe, đỗxe nơi dừng của xe buýt 11 luật giao thông đƣờng bộquy định ngƣời điều khiển xe mô tô hai bánh,

xe mô tô ba bánh, xe gắn máy không đƣợc đi xe vào phần đƣờng dành

cho ngƣời đi bộvà phƣơng tiện khác.

71 nghiêm cấm dừng xe, đỗ xe trƣớc cổng và trong phạm vi 5 mét hai bên

cổng trụ sởcơ quan, tổ chức 141

Đểđánh giá đƣợc chất lƣợng mạng nơ ron một cách định lƣợng, đềtài đề xuất cách

đánh giá là ghi lại và thống kê tý lệ các câu trong tập dữ liệu kiểm thử có số mean rank nhỏ (cụ thểlà 3 trƣờng hợp mean rank = 0, mean rank < 5 và mean rank < 10). Bảng dƣới

30

Bảng 4.3. Bảng thống kê mean rank

Trƣờng hợp Sốtrƣờng hợp Tỷ lệ %

Câu cùng bộ nằm trên cùng của bảng xếp hạng 48/175 27,43% Câu cùng bộ nằm trong top 5 của bảng xếp hạng 86/175 49,14% Câu cùng bộ nằm trong top 10 của bảng xếp hạng 115/175 65,71%

Xét trên cả tập dữ liệu kiểm thử, giá trị mean rank trung bình là 14,1. Nhìn vào kết quả đầu ra của mạng nơ ron và quá trình khảo sát gỡ rối khi cài đặt mạng, có thể thấy mạng hoạt động tốt với những câu có độ dài trung bình (từ 6-10 từ). Mạng nơ ron thể hiện kết quảkém đối với câu ngắn hơn hoặc dài hơn phạm vi đó, với những câu ngắn, cây phụ

thuộc đƣợc sinh ra có độ sâu thấp và trở nên không linh hoạt trong việc cập nhật trọng số

mạng trong quá trình huấn luyện, ngƣợc lại, cây phụ thuộc sinh ra bởi câu dài có độ sâu lớn nên thƣờng xảy ra trƣờng hợp tràn bộ nhớđối với các trọng số, dẫn đến tình trạng hội tụ ảo. Ngoài ra, kết quả phân loại của mạng đối với những câu rút gọn (khuyết chủ ngữ)

kém hơn so với những câu có cấu trúc đầy đủ.

4.5. PHÂN TÍCH, ĐÁNH GIÁ KẾT QU THC NGHIM

Dựa vào kết quả thực nghiệm, ta có thể thấy mạng nơron đƣợc cài đặt chính xác và hoạt động tƣơng đối tốt với tập dữ liệu hiện tại. Tỷ lệ các câu cùng nhóm đứng đầu bảng xếp hạng, trong top 5 và top 10 lần lƣợt là 27,43% ; 49,14% và 65,71%, điều này chứng tỏ các trọng số của mạng nơron đƣợc tối ƣu đúng hƣớng và hàm mục tiêu đang hội tụ dần về điểm cực trị, tỷ lệ này lớn hơn rất nhiều lần so với việc xếp hạng ngẫu nhiên đối với các câu.

Công trình sử dụng cùng một cách đánh giá với bài báo “Grounded Compositional

Semantics for Finding and Describing Images with Sentences” của Richard Socher, Andrej Karpathy, Quoc V. Le, Christopher D. Manning, Andrew Y. Ng. (2013) Mặc dù xử lý dựa trên ngôn ngữ tiếng Việt, với thời gian, dữ liệu hạn chếvà độ chính xác bị giới hạn bởi độ chính xác của các công cụ xử lý ngôn ngữ tiếng Việt đã sử dụng nhƣng công

trình vẫn có giá trị mean rank ấn tƣợng là 14.1. Giá trị mean rank này chƣa tốt bằng kết quả do mạng nơron đƣợc đề xuất trong công trình của Richard Socher và các đồng tác giả

31 (adsbygoogle = window.adsbygoogle || []).push({});

sinh ra nhƣng đã trội hơn một sốphƣơng pháp khác đối với dữ liệu tiếng Anh. Bảng dƣới

đây cho ta thấy rõ hơn điều đó18. Giá trị mean rank càng nhỏ chứng tỏ mô hình càng tốt.

Bảng 4.4 Bảng các giá trị mean rank của các phương pháp được khảo sát bởi

Richard Socher và các đồng tác giả.

Mô hình Giải thích Mean Rank

Random Mô hình ngẫu nhiên 101.1

BoW Mô hình Bag of word 11.8

CT-RNN Mô hình sử dụng mạng nơron đệ quy với

cây bỏ phiếu 15.8

Recurrent NN Mô hình mạng nơron hồi quy vòng 18.5 kCCA Mô hình Kernel Canonical Correlation

Analysis 10.7

DT-RNN Mô hình mạng nơron đệ quy với cây phụ

thuộc 11.1

SDT-RNN Mô hình mạng nơron đệ quy với cây phụ

thuộc ngữnghĩa 10.5

18 Bảng lấy từ số liệu trong công trình “Grounded Compositional Semantics for Finding and Describing Images with Sentences” của Richard Socher, Andrej Karpathy, Quoc V. Le, Christopher D. Manning, Andrew Y. Ng. (2013)

32

CHƢƠNG 5. KT LUN

Trong khuôn khổ của một khóa luận tốt nghiệp đại học, đề tài đã giải quyết phần

nào bài toán đặt ra là xây dựng chƣơng trình có khả năng phát hiện các câu thể hiện luật giao thông có hình thái khác nhau nhƣng biểu hiện ý nghĩa giống nhau. Bài toán nghiên cứu là cơ sở để phát triển các ứng dụng công nghệ cao trong lĩnh vực pháp lý sau này, giúp phát hiện, loại bỏ sự chồng chéo trong hệ thống pháp luật Việt Nam và hỗ trợ hữu ích cho những ngƣời đang hoạt động trong lĩnh vực pháp lý.

Hƣớng tiếp cận chính để giải quyết vấn đề là sử dụng kỹ thuật nơron nhân tạo trong học máy. Phƣơng pháp thực nghiệm của đề tài phù hợp và có đƣợc những kết quả bƣớc đầu khá ấn tƣợng. Đóng góp của công trình là đƣa ra đƣợc cơ sở lý thuyết, đề xuất

đƣợc một bài toán có ý nghĩa thực tiễn và xây dựng đƣợc một hệ thống hoạt động tƣơng đối hiệu quả với dữ liệu là tiếng Việt dựa trên những công cụ, nghiên cứu đã có trƣớc đó

và một số cải tiến về kỹ thuật. Kết quả nghiên cứu của đề tài không chỉ có ý nghĩa trong

giới hạn các văn bản luật giao thông mà có thểứng dụng rộng rãi hơn trong các đề tài liên

quan đến xử lý ngôn ngữ tự nhiên tiếng Việt khác.

Bên cạnh đó vẫn còn một sốđiểm có thể hoàn thiện trong các nghiên cứu tiếp theo

để có một công trình hoàn chỉnh hơn:

- Thứ nhất, một cơ chế để ngƣời dùng có thể tham gia cải thiện việc học của hệ

thống sẽ giúp tăng chất lƣợng phân loại của mạng nơron. (adsbygoogle = window.adsbygoogle || []).push({});

- Thứ hai, dữ liệu huấn luyện còn nghèo nàn, vẫn nhiều khâu phải nhập dữ liệu thủ công.

- Thứba, hàm giá đối với mạng nơron phát hiện sựđồng nghĩa chƣa tối ƣu, chƣa tính điểm chính xác đƣợc cho câu có độ dài lớn do nơron bị tràn tìn hiệu.

- Thứtƣ, ngôn ngữ lập trình Java chƣa phải là ngôn ngữ phù hợp nhất để cài đặt mô hình mạng nơron nhân tạo.

Từ những phân tích nêu trên, các hƣớng đề xuất cải thiện hệ thống bao gồm:

- Thiết kế một ứng dụng web hoàn chỉnh phục vụ ngƣời dùng và sử dụng chính

các thao tác, đánh giá của ngƣời dùng làm yếu tố đầu vào của mạng nơ ron và

cải tiến việc học của mạng.

- Thiết kế lại hàm giá đối với mạng nơ ron để có thể giải quyết đƣợc cả những

33

- Nghiên cứu xây dựng mạng nơron sử dụng các ngôn ngữ chuyên dụng hơn nhƣ

34

TÀI LIU THAM KHO Tiếng Anh

[1] Andrew Ng, “Machine learning course - Stanford University”, https://class.coursera.org/ml-005/lecture. Last visited: April 2015

[2] Collobert, Ronan, and Jason Weston. "A unified architecture for natural language processing: Deep neural networks with multitask learning." InProceedings of the 25th international conference on Machine learning, pp. 160-167. ACM, 2008.

[3] Huang, Eric H., Richard Socher, Christopher D. Manning, and Andrew Y. Ng.

"Improving word representations via global context and multiple word prototypes."

In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1, pp. 873-882. Association for Computational Linguistics, 2012.

[4] Nguyen, Dat Quoc, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen, and Minh Le Nguyen. "From treebank conversion to automatic dependency parsing for vietnamese." In Natural Language Processing and Information Systems, pp. 196-207. Springer International Publishing, 2014.

[5] Richard Socher, Andrej Karpathy, Quoc V. Le*, Christopher D. Manning, Andrew Y. Ng., “Grounded Compositional Semantics for Finding and Describing Images

with Sentences” Transactions Of The Association For Computational Linguistics, 2, 207- 218.

[6] Socher, Richard, Cliff C. Lin, Chris Manning, and Andrew Y. Ng. "Parsing natural scenes and natural language with recursive neural networks." InProceedings of the 28th international conference on machine learning (ICML-11), pp. 129-136. 2011.

[7] Socher, Richard, Alex Perelygin, Jean Y. Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. "Recursive deep models for semantic compositionality over a sentiment treebank." In Proceedings of the conference on empirical methods in natural language processing (EMNLP), vol. 1631, p. 1642. 2013.

[8] Socher, Richard, Brody Huval, Christopher D. Manning, and Andrew Y. Ng.

35

the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 1201-1211. Association for Computational Linguistics, 2012.

[9] Thi, Luong Nguyen, Hung Nguyen Viet, Huyen Nguyen Thi Minh, and Phuong Le Hong. "Building a treebank for Vietnamese dependency parsing." InComputing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2013 IEEE RIVF International Conference on, pp. 147-151. IEEE, 2013.

Tiếng Việt

[10] Lƣu Tuấn Anh, Xử lý ngôn ngữ tiếng Việt, http://viet.jnlp.org/. Truy cập lần cuối Th 11, 2014

[11] Hiến Pháp Nước Cộng Hòa Xã Hội Chủ Nghĩa Việt Nam, NXB Chính trị

Quốc gia, 2013 (adsbygoogle = window.adsbygoogle || []).push({});

[12] Trƣơng Thị Diễm, “Một sốđặc trưng ngôn ngữ việt ảnh hưởng đến việc nhận thức tiếng việt của sinh viên nước ngoài”, http://www.ued.edu.vn/khoavan/mod/resource/ view.php?inpopup=true&id=59. Truy cập lần cuối: Th4, 2015

[13] GS. TS. Nguyễn Đăng Dung & TS. Nguyễn Minh Tuấn, Giáo trình Luật hiến pháp Việt Nam, NXB Đại học Quốc gia Hà Nội, 2014

[14] Hệ thống Văn bản Quy phạm pháp luật, NXB Hồng Đức, 2013

[15] Đào Kiến Quốc & Trƣơng Ninh Thuận, Giáo trình tin học cơ sở, Đại học Quốc gia Hà Nội, Hà Nội, 2006 tr.7.

[16] Lê Đình Tƣ & Vũ Ngọc Cẩn, Nhập môn ngôn ngữ học, NXB Khoa học xã hội, Hà Nội, 2009.

[17] Vũ Xuân Tiền, “Ma trận văn bản pháp luật về thuế”, http://www.thesaigontimes.vn /125339/Ma-tran-van-ban-phap-luat-ve-thue.html, Truy cập lần cuối: Th4, 2015

[18] Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử

lí tiếng nói và văn bản tiếng Việt" (VLSP) thuộc Chƣơng trình Khoa học Công nghệ cấp

Một phần của tài liệu nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Trang 36)