Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
0,91 MB
Nội dung
ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM ĐỒ ÁN KỸ THUẬT THIẾT KẾ PHẦN MỀM HỖ TRỢ VIỆC TRA CỨU MỘT SỐ KIẾN THỨC VỀ LUẬT GIAO THÔNG Giảng viên hướng dẫn : Huỳnh Tuấn Anh Sinh viên thực : Lê Hoàng Thịnh Ho Chi Minh city, 28th June 2022 LỜI CẢM ƠN Trân trọng gửi lời cảm ơn đến thầy Huỳnh Tuấn Anh thầy Nguyễn Đình Hiển, giảng viên khoa công nghệ phần mềm tạo điều kiện hội giúp đỡ em trình phát triển hồn thiện đồ án mơn học nghiên cứu Suốt thời gian qua, nhờ buổi họp dạy, hướng dẫn thầy việc định hướng hỗ trợ giải vấn đề, em có kiến thức tối quan trọng để tìm hiểu giải số vấn đề đề từ có bước đầu việc tìm hiểu sâu mở rộng đề tài Tuy nhiên, trình tìm hiểu phát triển nghiên cứu, với thời gian, kiến thức kinh nghiệm cịn hạn chế nên khó tránh sai sót, em mong nhận ý kiến đóng góp chân thành từ thầy từ thầy để chỉnh sửa, cải tiến nâng cao chất lượng nghiên cứu Em xin chân thành cảm ơn Lê Hoàng Thịnh Table of contents DANH MỤC HÌNH DANH MỤC CƠNG THỨC MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mô tả tốn 1.3 Mục đích đề tài 1.4 Phương hướng phát triển 1.4.1 Xây dựng hệ sở tri thức 1.4.2 Xây dựng ứng dụng Cơ sở lý thuyết xây dựng hệ sở tri thức luật giao thông đường 2.1 Xử lý tiếng nói 2.1.2 Xử lý văn 2.2 Tiền xử lý văn 2.3 Tokenization 10 2.3.1 Word-based tokenization 10 2.3.2 Character-based tokenization 10 2.3.3 Subword-based tokenization 10 Word Embedding - word2vec 11 2.4.1 Mơ hình skip-gram 11 2.4.2 Mơ hình CBOW 12 2.5 Xử lý ngôn ngữ tự nhiên 2.1.1 2.4 Fasttext Các vấn đề cần giải xây dựng hệ sở tri thức luật giao thông đường 12 14 3.1 Thu thập liệu 14 3.2 Tiền xử lý liệu 14 3.3 Phân tích xác định ý định (intent) câu hỏi 14 3.4 Tìm kiếm luật với nội dung câu hỏi 15 3.5 Phân tích cấu trúc điều luật 15 3.6 Trả lời câu hỏi luật giao thông 15 Thực thi toán 16 4.1 Thu thập liệu 16 4.2 Tiền xử lý liệu 16 4.2.1 Rút trích từ từ điển 17 4.2.2 Loại bỏ ký tự đặc biệt 17 4.2.3 Tách từ 17 4.2.4 Loại bỏ từ dừng 18 4.2.5 Xử lý liệu cân 19 Phân tích xác định ý định câu hỏi 20 4.3 4.3.1 Phương thức thực 20 4.3.2 Kết tốn 21 4.4 Tìm kiếm luật với nội dung câu hỏi 22 4.5 Phân tích cấu trúc điều luật 23 4.5.1 Công thức điều luật 23 4.5.2 Áp dụng công thức 25 4.6 Trả lời câu hỏi luật giao thông Kết luận 25 26 5.1 Kết toán 26 5.2 Hạn chế 26 5.3 Hướng phát triển 26 Documentations 27 References 27 DANH MỤC HÌNH Hình 1: Mối quan hệ từ từ ngữ cảnh 12 Hình 2: Phương pháp tiền xử lý liệu đầu vào 16 Hình 3: Xử lý từ từ điển .17 Hình 4: Loại bỏ ký tự đặc biệt .17 Hình 5: Word-segmentation - tách từ 17 Hình 6: Loại bỏ từ dừng .18 Hình 7: Mơ tình trạng cân liệu .19 Hình 8: Phương pháp xử lý cân liệu .20 Hình 9: Đặc tả mơ hình huấn luyện .20 Hình 10: Độ xác mơ hình qua vịng 21 Hình 11: Độ mát mơ hình qua vịng .21 Hình 12: Dự đoán chủ đề câu hỏi 22 Hình 13: Bảng phân tích cấu trúc điều luật 25 DANH MỤC CÔNG THỨC Phương trình 1: Cosin tương đồng hai vector one-hot .11 Phương trình 2: Mơ hình skip-gram 11 Phương trình 3: Danh sách từ phụ phân tách theo mơ hình fasttext 13 Phương trình 4: Công thức chung điều luật 23 Phương trình 5: Công thức cho luật nội bối cảnh nội 23 Phương trình 6: Danh sách mối quan hệ từ khoá 24 Phương trình 7: Cách thức xác định attributes điều luật 24 MỞ ĐẦU 1.1 Lý chọn đề tài Ngày nay, tai nạn giao thông xem hiểm hoạ lớn đe dọa đến sinh mạng người Theo đó, nguyên nhân lớn dẫn đến số lượng tai nạn giao thông tăng cao năm gần người dân chưa có phổ cập đầy đủ tiếp thu dễ dàng kiến thức luật giao thơng nói chung luật giao thơng đường nói riêng Điều ảnh hưởng trực tiếp đến việc số lượng cá nhân tham gia giao thông khơng quy định ngày nhiều kéo theo tình trạng tai nạn giao thơng mức báo động Việt Nam Bên cạnh đó, với phát triển mạnh mẽ khoa học công nghệ, bên cạnh ứng dụng tạo cho mục đích đời sống ngày, sức mạnh tính tốn máy tính cịn ứng dụng rộng rãi nhiều lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên, dịch máy… Bằng việc ứng dụng tri thức vào lĩnh vực nghiên cứu đời sống, máy tính có khả dự đốn xử lý liệu đa dạng từ cho kết xác dự đốn dựa liệu có sẵn Nhận thấy tầm quan trọng, tiềm phát triển tính ứng dụng cao sản phẩm phần mềm có kết hợp với phương pháp học tri thức thực tế để hỗ trợ người dùng tra cứu điều luật giao thông cách xác nhất, em định chọn đề tài nghiên cứu kỹ thuật thiết kế phần mềm hỗ trợ tra cứu luật giao thông cho tiếng việt 1.2 Mơ tả tốn Mục tiêu tốn sản phẩm phần mềm có ứng dụng cơng nghệ học tri thức mà theo đó, dựa vào câu hỏi mô tả người dùng tình huống, điều luật giao thơng, ứng dụng đưa câu trả lời xác với thơng tin điều luật đính kèm Vì tính đặc thù chủ đề nên yếu tố xác ưu tiên hàng đầu yếu tố thời gian Ở thời điểm tại, toán nhắm đến xử lý câu hỏi luật giao thông thường gặp có khả xuất cao, sau tiến hành tìm hiểu tiến sâu vào trường hợp đặc biệt gặp, câu hỏi có độ khó cao hơn… Bên cạnh đó, ứng dụng phải có khả mở rộng, có tiềm phát triển thân thiện với người dùng Mọi người sử dụng có khả truy cập tra cứu lúc nơi có kết nối mạng Mục đích đề tài 1.3 Xây dựng ứng dụng có khả hỗ trợ người sử dụng có khả tra cứu điều luật giao thông Ứng dụng thiết kế trả lời câu hỏi đơn giản luật giao thông người dùng - 1.4 Phương hướng phát triển Quá trình xây dựng phát triển đề tài chia làm hai giai đoạn gồm xây dựng hệ sở tri thức xây dựng ứng dụng để người dùng tương tác với tri thức 1.4.1 Xây dựng hệ sở tri thức Đây bước quan trọng trình thực đề tài Các mơ hình học máy thuật toán tối ưu áp dụng để huấn luyện tạo hệ sở tri thức luật giao thơng đường Việt Nam Từ đó, kết quả, dự đốn mơ hình sử dụng để hiển thị cho người sử dụng dạng ngôn ngữ hiểu 1.4.2 Xây dựng ứng dụng Ứng dụng xây dựng nơi tương tác, cầu nối người dùng nguồn sở tri thức huấn luyện Ứng dụng hoạt động đa tảng phát triển theo kiến trúc microservice để dễ dàng thích nghi với thay đổi mở rộng tương lai Cơ sở lý thuyết xây dựng hệ sở tri thức luật giao thông đường 2.1 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên nhánh Trí tuệ nhân tạo, tập trung vào việc nghiên cứu tương tác máy tính ngơn ngữ tự nhiên người, dạng tiếng nói (speech) văn (text) Mục tiêu lĩnh vực giúp máy tính hiểu thực hiệu nhiệm vụ liên quan đến ngôn ngữ người như: tương tác người máy, cải thiện hiệu giao tiếp người với người, đơn giản nâng cao hiệu xử lý văn lời nói Xử lý ngơn ngữ tự nhiên chia thành hai nhánh lớn, khơng hồn tồn độc lập, bao gồm xử lý tiếng nói (speech processing) xử lý văn (text processing) NLP ngày ứng dụng nhiều Một số ứng dụng kể đến như: - Nhận dạng tiếng nói (Automatic Speech Recognition – ASR, Speech To Text – STT) chuyển đổi ngơn ngữ từ dạng tiếng nói sang dạng văn - Truy xuất thông tin (Information Retrieval - IR) có nhiệm vụ tìm tài liệu dạng khơng có cấu trúc để đáp ứng nhu cầu thông tin từ nguồn tổng hợp lớn thực thi tác vụ - Trả lời câu hỏi (Question Answering – QA) có khả tự động trả lời câu hỏi người dạng ngôn ngữ tự nhiên cách truy xuất thông tin từ tập hợp tài liệu - Chatbot việc chương trình máy tính có khả trị chuyện (chat), hỏi đáp với người qua hình thức hội thoại dạng văn (text) - Dịch máy (Machine Translation – MT) việc sử dụng máy tính để tự động hóa phần tồn q trình dịch từ ngôn ngữ sang ngôn ngữ khác 2.1.1 Xử lý tiếng nói Xử lý tiếng nói tập trung nghiên cứu, phát triển thuật tốn, chương trình máy tính xử lý ngôn ngữ người dạng tiếng nói (dữ liệu âm thanh) Các ứng dụng quan trọng xử lý tiếng nói bao gồm nhận dạng tiếng nói tổng hợp tiếng nói 2.1.2 Xử lý văn Xử lý văn tập trung vào phân tích liệu văn Các ứng dụng quan trọng xử lý văn bao gồm tìm kiếm truy xuất thơng tin, dịch máy, tóm tắt văn tự động, hay kiểm lỗi tả tự động Xử lý văn chia tiếp thành hai nhánh nhỏ bao gồm hiểu văn sinh văn 2.2 Tiền xử lý văn Để hiểu liệu văn bản, ta bắt đầu với cách biểu diễn loại liệu này, chẳng hạn xem từ hay từ token riêng lẻ Trong chương này, biểu diễn token tiền huấn luyện kho ngữ liệu lớn, sử dụng mơ hình word2vec, GloVe, hay embedding cho từ Sau tiền huấn luyện, biểu diễn token vector Tuy nhiên, biểu diễn không đổi dù ngữ cảnh xung quanh 2.3 Tokenization Tokenization bước quan trọng trình tiền xử lý văn Tokenization trình tách cụm từ, câu, đoạn văn bản… thành đơn vị nhỏ Mỗi đơn vị nhỏ gọi tokens Có thể coi tokens khối xây dựng NLP tất mơ hình NLP xử lý văn thô cấp độ Tokens Chúng sử dụng để tạo từ vựng kho ngữ liệu (một tập liệu NLP) Tokens thứ – từ (word), từ phụ (sub-word) chí ký tự (character) Các thuật toán khác tuân theo quy trình khác việc thực mã hóa ba loại tokens 2.3.1 Word-based tokenization Đây kĩ thuật tokenization sử dụng phổ biến phân tích văn Nó chia đoạn văn thành từ (ví dụ tiếng Anh) âm tiết (ví dụ tiếng Việt) dựa dấu phân cách Dấu phân cách hay dùng dấu cách trắng Tuy nhiên, tách văn khơng theo dấu phân cách Ví dụ tách từ tiếng Việt từ tiếng Việt chứa âm tiết nối với dấu cách trắng Nếu kho ngữ liệu có từ “knowledge” viết sai tả thành “knowldge”, mơ hình gán token OOV cho từ sau 2.3.2 Character-based tokenization Mã hóa dựa ký tự chia văn thô thành ký tự riêng lẻ Logic đằng sau mã hóa ngơn ngữ có nhiều từ khác có số ký tự cố định Điều dẫn đến lượng từ vựng nhỏ Một lợi mã hóa dựa ký tự khơng có từ khơng xác định OOV Do đó, biểu diễn từ chưa biết (những từ khơng nhìn thấy q trình huấn luyện) cách biểu diễn cho ký tự 2.3.3 Subword-based tokenization Đây giải pháp nằm mã hóa dựa từ ký tự Ý tưởng giải đồng thời vấn đề mã hóa dựa từ (kích thước từ vựng lớn, có nhiều tokens OOV, khác biệt ý nghĩa từ giống nhau) mã hóa dựa ký tự (chuỗi dài token riêng lẻ ý nghĩa hơn) Phương trình 3: Danh sách từ phụ phân tách theo mô hình fasttext Như thấy, so sánh với mơ hình skip-gram, từ điển fastText lớn dẫn tới nhiều tham số mơ hình Hơn nữa, vector từ địi hỏi tính tổng tất vector từ dẫn tới độ phức tạp tính tốn cao Tuy nhiên, ta thu vector tốt cho nhiều từ phức hợp thơng dụng, chí cho từ khơng diện từ điển nhờ tham chiếu tới từ khác có cấu trúc tương tự Các vấn đề cần giải xây dựng hệ sở tri thức luật giao thông đường Thu thập liệu 3.1 Để tiến hành q trình huấn luyện phân loại câu hỏi, ta cần sử dụng mơ hình Fasttext với liệu có sẵn để tiến hành huấn luyện mơ hình Để làm điều này, ta cần phải có hai liệu chính: - 3.2 Dữ liệu tiếng việt để huấn luyện mơ hình fasttext Dữ liệu luật giao thơng để huấn luyện phân loại câu hỏi Tiền xử lý liệu Dữ liệu đầu vào dạng phi cấu trúc bao gồm thông tin nhiễu không cần thiết như: - Dấu câu Các khoảng trắng dư thừa Các từ dừng khơng có nghĩa Các từ câu chưa tokenize Để xử lý chuyển từ thành vector có ý nghĩa, chứa thông tin nhiễu cần phải xử lý liệu đầu vào thành liệu trước encode dạng vector Đây toán ưu tiên cần phải giải trước tiến hành giải tốn khác 3.3 Phân tích xác định ý định (intent) câu hỏi Để trả lời cho câu hỏi luật giao thông, trước tiên ta phải xác định ý nghĩa câu hỏi Từ số chủ đề câu hỏi, ta phải đưa chủ đề Từ ta rút điều luật có chưa câu trả lời Bài tốn đưa dạng giải toán phân lớp n-class Tuy nhiên, việc phân lớp phải có độ xác cao, không câu hỏi câu trả lời khơng chủ đề Từ gây sai sót việc xử lý 3.4 Tìm kiếm luật với nội dung câu hỏi Sau có chủ đề mà câu hỏi hướng đến, hệ sở tri thức phải tìm điều luật có chủ đề với câu hỏi Từ đưa nội dung mã luật liên quan Đây tiền đề cho việc trả lời câu hỏi dựa điều luật có Để tiến hành việc này, cần phải thu thập lượng câu hỏi câu trả lời xác đính kèm, sau tiến hành gán nhãn mã điều luật cho câu hỏi trả lời Sau có câu hỏi - câu trả lời sàng lọc gán nhãn, ta tiến hành mở rộng liệu phương pháp Augmentation Bằng cách đảo từ tìm từ đồng nghĩa, ta có liệu lớn để sử dụng cho việc tra cứu trả lời câu hỏi Từ làm tiền đề cho q trình trả lời câu hỏi dựa điều luật có sẵn 3.5 Phân tích cấu trúc điều luật Trước đến với toán trả lời câu hỏi dựa điều luật, ta cần phải phân tích cấu trúc điều luật, bao gồm đầu vào, đầu ra, mệnh đề quan hệ, quan hệ nội tại, từ khoá, thuộc tính mối quan hệ từ khóa Từ ta khái quát cấu trúc chung điều luật giao thông Việt Nam, làm tiền đề cho việc liên kết nội dung câu hỏi câu trả lời dựa tự khoá mối liên hệ chúng 3.6 Trả lời câu hỏi luật giao thông Đây bước cuối tốn quan trọng để hồn thiện hệ sở tri thức Từ điều luật giới hạn theo chủ đề dựa vào nội dung câu hỏi, toán phải liên kết tìm câu trả lời nằm điều luật giới hạn Bằng việc phân tích kết nối điều luật theo công định, câu trả lời xác định biểu thị cho người sử dụng Thực thi toán Quá trình thực thi xây dựng sở tri thức giải vấn đề luật giao thông bao gồm việc giải toán nêu Nếu toán giải triệt để, xem việc xây dựng sở tri thức để trả lời câu hỏi luật giao thông 4.1 Thu thập liệu Dữ liệu thu thập dựa nguồn chính: - Tài liệu hỏi đáp pháp luật - Wiki Tiếng Việt từ dừng - dùng để huấn luyện mơ hình fasttext kết hợp với tiền xử lý 4.2 Tiền xử lý liệu Quá trình xử lý văn đầu vào, loại bỏ thơng tin nhiễu chuẩn hóa chúng nhiệm vụ mà toán tiền xử lý liệu cần phải giải Dữ liệu chuẩn hoá sử dụng để huấn luyện mơ hình Fasttext làm đầu vào cho toán phân loại câu hỏi Hình 2: Phương pháp tiền xử lý liệu đầu vào Quá trình tiền xử lý liệu gồm bước sau: 4.2.1 Rút trích từ từ điển Chuyển hoá từ từ điển wiki thành cụm từ nhúng biến đổi dạng vector Cụ thể hơn, bước loại bỏ dấu ngăn cách từ điển wiki định nghĩa Hình 3: Xử lý từ từ điển 4.2.2 Loại bỏ ký tự đặc biệt Các ký tự đặc biệt tốn khơng đóng vai trị quan trọng Việc thêm bỏ bớt ký tự đặc biệt ngắt câu, cảm thán … không làm thay đổi ý nghĩa câu Vì thế, việc thêm ký tự đặc biệt làm tăng thêm thời gian huấn luyện gây nhiễu thông tin, dẫn đến tỉnh under fitting Vì cần phải loại bỏ ký tự đặc biệt Hình 4: Loại bỏ ký tự đặc biệt 4.2.3 Tách từ Trong tiếng việt, có số từ chung với mà tách riêng, ngữ nghĩa từ bị thay đổi có ý nghĩa Vì việc tokenize từ hồn tồn cần thiết phải xử lý đầu vào dạng câu, đặc biệt câu hỏi Việc tokenize có hỗ trợ thư viện ViTokenizer giúp cho việc tách từ câu trở nên dễ dàng Ở ta thực tách từ theo cách thức word-based token Hình 5: Word-segmentation - tách từ 4.2.4 Loại bỏ từ dừng Trong câu theo ngữ pháp tiếng việt nói chung tiếng anh nói riêng, từ dừng xuất câu để bổ nghĩa không bắt buộc phải xuất Đây từ khơng phải từ khố câu đứng riêng khơng mang ngữ nghĩa rõ ràng Đối với toán phân loại câu hỏi, ta cần phải loại bỏ từ dừng để tránh nhiễu thông tin Hình 6: Loại bỏ từ dừng 4.2.5 Xử lý liệu cân Sau thu thập liệu phân chia câu hỏi theo chủ đề chúng, ta nhận thấy cân liệu hình sau: Hình 7: Mơ tình trạng cân liệu Cụ thể hơn, số lượng câu hỏi có chủ đề “cấu tạo xe” “điều khiển phương tiện“ cao nhiều so với chủ đề “đỗ xe" hay “vỉa hè” Điều ảnh hưởng trực tiếp đến việc huấn luyện mơ hình dẫn đến tình trạng mơ hình bị bias - khó dự đốn với trường hợp xảy Để giải việc này, ta xử lý cân bằng phương pháp oversampling sau: Hình 8: Phương pháp xử lý cân liệu 4.3 Phân tích xác định ý định câu hỏi 4.3.1 Phương thức thực Bằng cách sử dụng học máy nói chung phương pháp học sâu nói riêng, tốn phân tích xác định ý định câu hỏi giải với độ xác mức chấp nhận cải tiến tương lai Sử dụng mạng Neural gồm neural sau để tiến hành huấn luyện phân loại câu hỏi: - LSTM với 128 feature đầu vào vector 30 chiều Dropout với tham số 0.2 để giảm khả mơ hình bị overfit Dense với hàm kích hoạt Relu Dense với hàm kích hoạt hồi quy Softmax Mơ hình dùng để huấn luyện mơ tả sau: Hình 9: Đặc tả mơ hình huấn luyện Vì đặc trưng tính liệu tốn, mơ hình huấn luyện qua 50 vòng với batch size 25 4.3.2 Kết toán Kết toán thể thơng qua đồ thị biểu diễn độ xác mơ hình đồ thị biểu diễn mát qua lượt huấn luyện Hình 10: Độ xác mơ hình qua vịng Hình 11: Độ mát mơ hình qua vịng Theo đó, ta thấy độ xác mơ hình nằm ngưỡng chấp nhận 90% Kết dự đoán với câu ”Vượt đèn đỏ bị phạt tiền?” có topic Tín Hiệu Hình 12: Dự đoán chủ đề câu hỏi Topic có kết đạt kỳ vọng Như xác định rằng, toán xác định chủ đề câu hỏi bước đầu thành cơng Tuy nhiên, thuật tốn cần phải cải tiến để có độ xác cao giải trường hợp khó khăn tương lai 4.4 Tìm kiếm luật với nội dung câu hỏi Bài toán đặt hoàn thành với khoảng 300 câu hỏi gán nhãn câu trả lời điều luật kèm Với số lượng 300 câu hỏi chưa đủ cần phải mở rộng thêm, nhiên số lượng coi sử dụng kết hợp với thuật toán Data Augmentation để mở rộng liệu Nguồn liệu thu thập từ website luật việt nam Trong tương lai, tiếp tục tăng cường thêm liệu để huấn luyện mơ hình tốt 4.5 Phân tích cấu trúc điều luật 4.5.1 Cơng thức điều luật Trong trình tìm hiểu phát triển luật giao thông đường Việt Nam, khái niệm (điều luật) xác định có cấu trúc sau: Phương trình 4: Công thức chung điều luật Trong đó: - r: điều luật đặc tả attributes: thuộc tính điều luật inner_rules: điều luật áp dụng inner_relations: ngữ cảnh điều luật áp dụng keywords: từ khoá điều luật rule_code: mã luật Với: - inner_relations: tập hợp tất ngữ cảnh điều luật áp dụng - inner_rules: biểu diễn cách thức thực thi điều luật Phương trình 5: Công thức cho luật nội bối cảnh nội Theo đó, inner_rule hàm f theo attribute - thuộc tính cho f(attribute) = goal Điều có nghĩa kết thực thi điều luật biểu diễn dựa theo thuộc tính điều luật theo hàm biến đổi f Bên cạnh đó, inner_relation hàm gồm hai biến số keywords relation type Trong đó, keywords danh sách từ khó điều luật, relation_type quan hệ từ khóa luật Có loại relation_type: Phương trình 6: Danh sách mối quan hệ từ khoá - is: biểu thị mối quan hệ định nghĩa, từ định nghĩa cho từ khố cịn lại Ví dụ: “tín hiệu đèn” Ở tín hiệu từ khóa đèn từ khó định nghĩa cho tín hiệu Khác với tín hiệu từ cảnh sát giao thơng, tín hiệu đèn tín hiệu phát từ đèn giao thông - include: biểu thị mối quan hệ bao gồm, từ khóa bao gồm danh sách từ khóa tương đồng Ví dụ: “đèn giao thơng gồm đỏ, xanh, vàng” Khi quan hệ “đèn giao thông” “đỏ”, ”xanh", ”vàng" Đỏ, xanh, vàng từ khóa ngang hàng với biểu thị cho từ “đèn giao thông” - synonym: biểu thị mối quan hệ đồng nghĩa hai từ Ví dụ: “xanh vàng” Trong “xanh” "vàng” biểu thị màu sắc có ý nghĩa tương đồng - with: biểu thị mối quan hệ bổ nghĩa Ví dụ: “hệ thống báo hiệu đường bộ" Cụm từ “hệ thống báo hiệu” “đường bộ” mang nghĩa bổ trợ cho Facts (attributes) cặp từ khố có mối quan hệ Include Phương trình 7: Cách thức xác định attributes điều luật Từ ta suy mối quan hệ luật gán giá trị cho chúng (Attributes) Dựa vào attributes (facts) goal biểu thị cho kết luật nội ta suy hàm biểu thị cho luật nội f 4.5.2 Áp dụng cơng thức Từ cơng thức trên, ta biểu diễn điều luật sau: Theo đó, điều luật (regulation) bao gồm: Hình 13: Bảng phân tích cấu trúc điều luật - Các keywords: “người tham gia giao thông”, “chấp hành”, “hiệu lệnh”, “chỉ dẫn”, “hệ thống báo hiệu”, “đường bộ” - Các keywords nối với mối quan hệ chúng: “người tham gia giao thông” – “chấp hành” (is), “chấp hành” - [“hiệu lệnh”, “chỉ dẫn”] (include), “hiệu lệnh” – “chỉ dẫn” (synonym), “hệ thống báo hiệu” – “đường bộ” (with) - Quan hệ bối cảnh: Inner_relation: nối từ khoá với thông qua mối quan hệ chúng Ta có cách bối cảnh: “người tham gia giao thơng” = “chấp hành”, “chấp hành” (gồm “hiệu lệnh” “chỉ dẫn”), “hiệu lệnh” đồng nghĩa với “chỉ dẫn”, “hệ thống báo hiệu” “đường bộ” - Facts: Fact từ khoá nối với qua mối quan hệ include Ở ta có “chấp hành hiệu lệnh” (A) “chấp hành dẫn” (B) - Goal: Kết điều luật, “chấp hành” - Inner_rule - luật nội tại: f = A&&B Như ta suy rằng: “Trong bối cảnh người tham gia giao thông phải chấp hành luật giao thông phải chấp hành hiệu luật dẫn hệ thống báo hiệu đường bộ.” Theo cấu trúc trên, điều luật phân tích (decode) theo cơng thức miêu tả đồng thời gộp lại theo cơng thức (encode) Đây bước việc phân tích ngữ nghĩa điều luật để liên kết chúng với câu hỏi Từ tìm câu trả lời phù hợp 4.6 Trả lời câu hỏi luật giao thông Đây bước cuối trình xây dựng hệ sở tri thức Bài toán cần phải giải tương lai phương pháp tách từ có cấu trúc điều luật câu hỏi Từ đánh giá dự đốn đầu câu hỏi tìm độ tương đồng với luật có sẵn Kết luận 5.1 Kết toán Ở thời điểm tại, toán xây dựng hệ sở tri thức để giải việc trả lời câu hỏi luật giao thông bước đầu hoàn thành Hệ sở tri thức xây dựng phân loại câu hỏi xếp nhóm luật có câu trả lời vào nhóm chung với Tuy sử dụng phương pháp oversampling data augmentation, song kết thử nghiệm mang tính khả quan cao Bên cạnh đó, cấu trúc điều luật hình thành với giải thuật trình bày tiếp tục phát triển tương lai Đồ án bước đầu xây dựng hệ sở tri thức tiếp tục hoàn thành, kết hợp với xây dựng hệ thống, xây dựng ứng dụng để người sử dụng tương tác với điều luật 5.2 Hạn chế - Việc hạn chế mặt liệu ảnh hưởng đến việc huấn luyện dự đốn mơ hình (underfitting) Bên cạnh phương pháp oversampling gây nên bias mơ hình, đơi có khả gây nhiễu - Bài toán trả lời câu hỏi luật giao thông, hay kết nối câu hỏi câu trả lời với hoàn thiện bước đầu cần phát triển thêm tương lai để có kết tốt 5.3 Hướng phát triển - Trong tương lai, toán kết nối câu hỏi câu trả lời với cần hoàn thiện Song song với tảng để người dùng tương tác với tri thức cần phải xây dựng theo kiến trúc đề ban đầu - Cùng với đó, ta mở rộng tính phức tạp mơ hình với liệu đa dạng để đem lại kết huấn luyện tốt Documentations All available at drive: https://drive.google.com/drive/folders/1N6c449X2Il4SuALgcOY0ccbaLa7TPZ5M?usp=sharing References Aston Zhang, Zack C Lipton, Mu Li (2020) Natural Language Processing: Pretraining Trong A Zhang, Dive into Deep Learning trungtv (2021, June 30) pyvi 0.1.1 Được truy lục từ pypi: https://pypi.org/project/pyvi/ ElDen, I S (2019, Sep 18) Introduction to Natural Language Processing (NLP) Được truy lục từ towardsdatascience: https://towardsdatascience.com/introduction-to-natural-languageprocessing-nlp-323cc007df3d CuongNN218 (2021, December 21) zalo_ltr_2021 Được truy lục từ Github: https://github.com/CuongNN218/zalo_ltr_2021 ... phẩm phần mềm có kết hợp với phương pháp học tri thức thực tế để hỗ trợ người dùng tra cứu điều luật giao thông cách xác nhất, em định chọn đề tài nghiên cứu kỹ thuật thiết kế phần mềm hỗ trợ tra. .. cập tra cứu lúc nơi có kết nối mạng Mục đích đề tài 1.3 Xây dựng ứng dụng có khả hỗ trợ người sử dụng có khả tra cứu điều luật giao thông Ứng dụng thiết kế trả lời câu hỏi đơn giản luật giao thông. .. thực thi xây dựng sở tri thức giải vấn đề luật giao thông bao gồm việc giải toán nêu Nếu toán giải triệt để, xem việc xây dựng sở tri thức để trả lời câu hỏi luật giao thông 4.1 Thu thập liệu