Ứng dụng học máy trong lĩnh vực du lịch

Ứng dụng học máy trong lĩnh vực du lịch để khai thác nhiều khía cạnh cung cấp hỗ trợ du lịch Ứng dụng học máy trong lĩnh vực du lịch để khai thác nhiều khía cạnh cung cấp hỗ trợ du lịch

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Nguyễn Quang Hòa

ỨNG DỤNG HỌC MÁY TRONG LĨNH VỰC DU LỊCH

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC DỮ LIỆU

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Nguyễn Quang Hòa

ỨNG DỤNG HỌC MÁY TRONG LĨNH VỰC DU LỊCH

Ngành: Liên ngành Chuyên ngành: Khoa học dữ liệu

Mã số: 8904468.01QTD

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC DỮ LIỆU

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN TRỌNG HIẾU

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, tôi xin chân thành cảm ơn và biết ơn sâu sắc đến PGS.TS Trần Trọng Hiếu, đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình thực hiện luận văn tốt nghiệp với sự khích lệ, động viên trong gần ba năm

Tôi xin chân thành cảm ơn các thầy, cô Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội; đặc biệt là các thầy, cô Khoa Toán - Cơ - tin học đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu từ tháng 11/2018 đến nay

Tôi xin gửi lời cảm ơn đến Chị Nguyễn Thanh Nga, chuyên viên Vụ Khoa học, giáo dục, tài nguyên và môi trường - Bộ Kế hoạch và Đầu tư, đã cung cấp cho tôi tri thức, hiểu biết và nguồn dữ liệu quý về 17 mục tiêu phát triển bền vững; đối tượng nghiên cứu chính của luận văn này

Cuối cùng, tôi xin được gửi lời cảm ơn tới gia đình, bạn bè và đồng nghiệp đã luôn bên cạnh, khích lệ, động viên, giúp đỡ tôi trong quá trình thực hiện luận văn

Tôi xin trân trọng cảm ơn!

Hà Nội, ngày tháng 12 năm 2022

Học viên

Nguyễn Quang Hòa

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung được trình bày trong bài bài luận văn Ứng dụng học

máy trong lĩnh vực du lịch là do tôi đề xuất và thực hiện dưới sự hướng dẫn của

PGS.TS Trần Trọng Hiếu

Nguồn tài liệu tham khảo từ các nghiên cứu khác đều được tôi trích dẫn đầy đủ

và có nguồn gốc rõ ràng Trong luận văn, tôi không sao chép tài liệu, công trình nghiên cứu của người khác mà không ghi rõ về nguồn tài liệu tham khảo

Hà Nội, ngày tháng 12 năm 2022

Học viên

Nguyễn Quang Hòa

Trang 5

MỤC LỤC

DANH MỤC HÌNH VẼ 6

DANH MỤC BẢNG BIỂU 7

MỞ ĐẦU 8

CHƯƠNG 1 CÁC KHÁI NIỆM CƠ BẢN 11

1.1 Phân lớp trong văn bản 11

1.1.1 Phân lớp đơn nhãn 11

1.1.2 Phân lớp đa nhãn cho văn bản 11

1.1.2.1 Phân lớp đa nhãn 11

1.1.2.2 Kỹ thuật phân lớp đa nhãn 13

1.1.2.3 Ứng dụng của phân lớp đa nhãn 15

1.2 Độ đo mô hình phân lớp đa nhãn 16

1.3 Một số mô hình ứng dụng trong bài toán phân lớp đa nhãn cho văn bản 17

1.3.1 Giới thiệu về Transformers 17

1.3.2 Giới thiệu mô hình BERT 18

1.3.3 Tinh chỉnh mô hình BERT 18

1.3.4 Giới thiệu về PhoBERT 19

1.4 Ontology 20

1.4.1 Giới thiệu về Ontology 20

1.4.2 Các thành phần của ontology 21

1.4.3 Truy vấn SPARQL 22 CHƯƠNG 2 MÔ HÌNH PHÂN LỚP ĐA NHÃN VÀ LƯU TRỮ HỆ THỐNG THÔNG

Trang 6

TIN CÁC VĂN BẢN PHÁP LUẬT VIỆT NAM 25

2.1 Phân lớp đa nhãn các văn bản pháp luật Việt Nam trong lĩnh vực du lịch 25

2.1.1 Hệ thống văn bản pháp luật Việt Nam trong lĩnh vực du lịch 25

2.1.2 Văn bản pháp luật Việt Nam trong lĩnh vực du lịch gắn với mục tiêu phát triển bền vững 27

2.1.2 Phân lớp đa nhãn văn bản pháp luật 30

2.2 Ứng dụng mô hình PhoBERT để phân lớp đa nhãn văn bản pháp luật 32

2.2.1 Tổng quan mô hình PhoBERT 32

2.2.2 Cấu trúc mô hình PhoBERT 34

2.2.3 Thuật toán WordPiece Tokenization 35

2.2.4 Huấn luyện mô hình PhoBERT 37

2.2.5 Sử dụng mô hình đã huấn luyện để dự đoán nhãn cho văn bản mới 39

2.3 Xây dựng ontology miền các văn bản pháp luật trong lĩnh vực du lịch 41

2.3.1 Các bước xây dựng ontology 41

2.3.2 Nghiên cứu một số kịch bản tìm kiếm thông tin văn bản pháp luật trong lĩnh vực du lịch 47

CHƯƠNG 3 TRIỂN KHAI MÔ HÌNH THỰC NGHIỆM 49

3.1 Bài toán thực nghiệm 49

3.2 Chuẩn bị dữ liệu thực nghiệm 50

3.2.1 Thu thập dữ liệu các văn bản pháp luật Việt Nam 50

3.2.2 Dán nhãn theo các tiêu chí của mục tiêu phát triển bền vững trong lĩnh vực du lịch 52

3.2.3 Triển khai xây dựng ontology miền văn bản pháp luật 52

Trang 7

3.3 Triển khai xây dựng mô hình huấn luyện 53

3.3.1 Tiền xử lý dữ liệu 53

3.3.2 Tinh chỉ mô hình PhoBERT 57

3.3.3 Giải thuật dự đoán nhãn cho văn bản dài 58

3.3.4 Kết quả thực nghiệm 59

3.4 Ứng dụng học máy và ontology trong lĩnh vực các văn bản du lịch 60

3.4.1 Truy vấn thông tin văn bản pháp luật trong ontology 60

3.4.2 Một số kết quả truy vấn 64

3.4.3 Ứng dụng mô hình huấn luyện phân lớp đa nhãn để làm giàu Ontology 70

KẾT LUẬN 72

TÀI LIỆU THAM KHẢO 73

Trang 8

DANH MỤC HÌNH VẼ

Hình 1.1: Học đa nhãn đa thể hiện 12

Hình 1.2: Hai tiếp cận học đa nhãn 13

Hình 2.1: Phân loại class: top, middle, bottom level 44

Hình 3.1: Số lượng văn bản tương ứng độ dài nội dung (ký tự) 54

Hình 3.2: Số lượng mẫu tương ứng tiêu chí 55

Hình 3.3: Kiến trúc hệ thống 60

Hình 3.4: Luồng nghiệp vụ chung 63

Hình 3.5: Giao diện Apache Jena Fuseki 64

Hình 3.6: Giao diện ô truy vấn 64

Hình 3.7: Giao diện truy vấn với từ khóa du lịch 65

Hình 3.8: Các văn bản pháp luật liên quan tới chủ đề du lịch 66

Hình 3.9: Tìm kiếm nâng cao theo bộ lọc 67

Hình 3.10: Kết quả tìm kiếm nâng cao theo bộ lọc 68

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 2.1: Ví dụ về tập dữ liệu đa nhãn 31

Bảng 3.1: Danh sách nguồn thu thập dữ liệu 50

Bảng 3.2: Số lượng văn bản liên quan đến các chỉ tiêu 52

Bảng 3.3: Danh sách nguồn thu thập dữ liệu xây dựng ontology 53

Bảng 3.4: Chuyển nhãn văn bản thành dạng số 56

Bảng 3.5: Cài đặt thực nghiệm 57

Bảng 3.6: Kết quả thực nghiệm mô hình 59

Bảng 3.7: So sánh đánh giá ứng dụng thử nghiệm 68

Trang 10

MỞ ĐẦU

Lĩnh vực du lịch luôn luôn được coi là ngành kinh tế mũi nhọn, bao gồm nhiều nhóm ngành nghề; góp phần quan trọng trong việc giải quyết an sinh xã hội, tạo công ăn việc làm; được Đảng và Nhà nước ta đặc biệt quan tâm Với sự đa dạng, phong phú về tài nguyên thiên nhiên, du lịch bền vững chắc chắn sẽ là mục tiêu hướng đến

Năm 2015, Liên Hợp Quốc đã thông qua chương trình thực hiện 17 mục tiêu phát triển bền vững (Sustainable Development Goals – SDG) bao gồm 169 mục tiêu cụ thể

và 232 chỉ tiêu, nhằm hướng tới xóa đói giảm nghèo, bảo vệ hành tinh và đảm bảo mọi người dân được hưởng hòa bình và thịnh vượng vào năm 2030 [11]

Là một thành viên của Liên Hợp Quốc, Việt Nam đã nỗ lực thực hiện cam kết quốc tế thông qua việc ban hành Kế hoạch hành động quốc gia thực hiện Chương trình nghị sự 2030 tại Quyết định số 622/QĐ-TTg ngày 10/5/2017 Kế hoạch hành động quốc gia đưa ra 17 mục tiêu SDGs với 115 mục tiêu cụ thể trên cơ sở quốc gia hóa các mục tiêu SDGs toàn cầu để phù hợp với điều kiện và bối cảnh phát triển của Việt Nam Năm

2019, Thủ tướng chính phủ ban hành Quyết định số 681/QĐ-TTg về Lộ trình thực hiện các mục tiêu phát triển bền vững Việt Nam đến năm 2030 Tháng 9/2020 Thủ tướng chính phủ đã ban hành Nghị quyết số 136/NQ-CP về phát triển bền vững

Kế hoạch hành động quốc gia nhấn mạnh vai trò của tất cả các bên liên quan từ các bộ, ngành, địa phương đến các tổ chức chính trị - xã hội, các tổ chức, cá nhân trong nước và quốc tế trong việc tham gia, đóng góp vào việc thực hiện các mục tiêu SDGs của Việt Nam đến năm 2030 Tính đến 5/2022, đã có 17/22 bộ, ngành và 51/63 tỉnh, thành phố trực thuộc trung ương đã ban hành Kế hoạch hành động thực hiện Chương trình nghị sự 2030

Qua nghiên cứu, điều tra, đã có một số website/ứng dụng cung cấp thông tin về các mục tiêu phát triển bền vững du lịch tại website chính thức (https://vietnam.un.org),

lưu trữ, tra cứu cơ bản, chưa có tính khai thác, liên kết Và đặc biệt không thể trích xuất

Trang 11

được văn bản này đang thể hiện, làm rõ kết quả cho mục tiêu, tiêu chí cụ thể nào trong

bộ tiêu chí về phát triển du lịch bền vững

Để giải quyết vấn đề trên, tác giả nghiên cứu xây dựng mô hình học máy cho

phép phân tích, nhận diện các văn bản đang thuộc tiêu chí phát triển nào về du lịch Xây dựng Ontology ứng dụng trong miền du lịch, trích xuất tự động các văn bản, kế hoạch hành động… và truy vấn, tra cứu các nội dung văn bản, chỉ tiêu đến các đơn vị chủ trì, thực hiện

Mục tiêu của luận văn này sẽ thể hiện cách áp dụng mô hình học máy phục vụ

nhận dạng, dự đoán các văn bản đang thể hiện, làm rõ tiêu chí nào trong bộ tiêu chí phát triển bền vững về du lịch Sau đó lưu trữ các nội dung, xây dựng thành một lưới tri thức

Từ đó khai thác, truy vấn các mục tiêu phát triển bền vững về du lịch

Đối tượng nghiên cứu của luận văn: Lựa chọn đặc trưng và thuật toán phân lớp

đa nhãn văn bản tiếng Việt, tập trung vào việc phân tích hệ thống văn bản pháp luật Việt Nam trong lĩnh vực du lịch, từ đó đưa ra cách truy vấn nguồn dữ liệu khoa học

Đóng góp của luận văn:

Thứ nhất, luận văn đã nghiên cứu, đề xuất xây dựng mô hình học máy cho phép phân tích, nhận diện các văn bản đang thuộc tiêu chí phát triển nào về du lịch; gắn với việc truy xuất hiệu quả liên quan đến các mục tiêu phát triển bền vững tại Việt Nam

Thứ hai, thông qua việc thu thập và nghiên cứu, luận văn đã thể hiện được việc xây dựng ontology trong lĩnh vực du lịch thông qua việc kế thừa và sử dụng các miền tri thức khai phá được từ các cơ sở dữ liệu lớn, trong và ngoài nước

Kết quả của đề tài sẽ có tính thực tiễn và ứng dụng cao, nâng cao hiệu quả tìm

kiếm giúp người dùng (học giả, nhà hoạch định chính sách, chuyên gia) dễ dàng tiếp cận

và truy xuất nguồn dữ liệu hiệu quả

Nội dung luận văn chia làm phần mở đầu, các chương nội dung và danh mục tài liệu tham khảo, bao gồm:

Trang 12

Chương 1 của luận văn cung cấp nghiên cứu khái quát về khái niệm cơ bản phân lớp dữ liệu, bao gồm: phân lớp dữ liệu đơn nhãn, đa nhãn cho văn bản Cách đánh giá/độ

đo mô hình phân lớp đa nhãn để làm cơ sở cho các chương sau

Luận văn cũng đưa ra một số mô hình ứng dụng trong bài toán phân lớp đa nhãn cho văn bản và khái niệm chung về bản thể học (Ontology); các thành phần và truy vấn

Chương 2 của luận văn trình bày chi tiết về mô hình phân lớp đa nhãn, lưu trữ hệ thống thông tin hệ thống văn bản pháp luật của Việt nam trong lĩnh vực du lịch Chương này trình bày sâu và chi tiết về ứng dụng mô hình PhoBERT để phân lớp đa nhãn văn bản pháp luật cũng như cách thức xây dựng ontology miền các văn bản pháp luật trong lĩnh vực du lịch

Chương 3 của luận văn triển khai mô hình thực nghiệm bao gồm các bước chuẩn

bị dữ liệu, triển khai xây dựng mô hình, đánh giá kết quả và ứng dụng của học máy và ontology trong các lĩnh vực văn bản du lịch

Chương 4 của luận văn đánh giá tính hiệu quả của mô hình thực nghiệm, các hạn chế và hướng phát triển trong thời gian tới

Trang 13

CHƯƠNG 1 CÁC KHÁI NIỆM CƠ BẢN

1.1 Phân lớp trong văn bản

1.1.1 Phân lớp đơn nhãn

Phân lớp đơn nhãn là một phương pháp huấn luyện mô hình máy học để dự đoán nhãn của một điểm dữ liệu dựa trên các điểm dữ liệu khác mà đã được gán nhãn Trong phân lớp đơn nhãn, mỗi điểm dữ liệu chỉ được gán một nhãn duy nhất Để huấn luyện

mô hình phân lớp đơn nhãn, người ta sử dụng một tập dữ liệu huấn luyện với nhiều điểm

dữ liệu đã được gán nhãn Mô hình sẽ học các quan hệ giữa các điểm dữ liệu và nhãn của chúng, và sau đó sử dụng những gì đã học được để dự đoán nhãn cho các điểm dữ liệu mới.[1]

Phân lớp đơn nhãn là một trong những bài toán phân lớp phổ biến nhất trong máy học, và nó có rất nhiều ứng dụng trong thực tế, chẳng hạn như phân loại spam email, phân loại tính cách người dùng, và nhiều ứng dụng khác

Khác với phân lớp đơn nhãn, phân lớp đa nhãn trong đó mỗi điểm dữ liệu có thể được gán nhiều nhãn hơn một Trong phân lớp đa nhãn, mô hình sẽ phải học cách dự đoán nhiều nhãn cho mỗi điểm dữ liệu, và có thể sử dụng các phương pháp khác nhau như phân lớp nhiều lớp hoặc phân lớp nhiều đơn vị để thực hiện bài toán này

1.1.2 Phân lớp đa nhãn cho văn bản

1.1.2.1 Phân lớp đa nhãn

Phân lớp đa nhãn là một bài toán phân lớp trong học máy nhằm dự đoán nhãn của một đối tượng dựa trên các thuộc tính của nó Trong phân lớp đa nhãn, mỗi đối tượng có thể thuộc nhiều nhãn khác nhau, trong khi trong phân lớp đơn nhãn, mỗi đối tượng chỉ

có thể thuộc một nhãn duy nhất Ví dụ, trong một bài toán phân lớp đa nhãn, bạn có thể

cố gắng dự đoán nhãn của một bài báo dựa trên nội dung và thể loại báo: tin tức, thể thao, đời sống, kinh tế, v.v Mỗi bài báo có thể thuộc nhiều thể loại khác nhau, ví dụ một bài báo vừa có thể thuộc về thể loại tin tức và thể loại kinh tế

Trang 14

Hình 1.1: Học đa nhãn đa thể hiện [9]

Để giải quyết bài toán phân lớp đa nhãn, người ta thường sử dụng mô hình huấn luyện sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên như phân tích từ vựng, tạo ma trận tính tương đồng từ và sử dụng các mô hình phân lớp như Naive Bayes hay mô hình hồi quy logistic để dự đoán nhãn cho mỗi đối tượng Hiện nay, các mô hình học sâu như BERT và Transformer được sử dụng rộng rãi để giải quyết bài toán phân lớp đa nhãn và đạt được kết quả tốt hơn so với các mô hình truyền thống Với sự phát triển của công nghệ máy học sâu, các mô hình hiện đại như BERT, RoBERTa, XLNet và GPT đã trở thành các lựa chọn phổ biến để giải quyết bài toán phân lớp đa nhãn

Ở mức cải tiến hơn của bài toán phân lớp đa nhãn là phân lớp đa nhãn đa thể hiện Phân lớp đa nhãn đa thể hiện là một dạng bài toán phân lớp mà mỗi mục dữ liệu có thể

có nhiều nhãn khác nhau Trong phân lớp đa nhãn đa thể hiện, mỗi mục dữ liệu được biểu diễn bởi nhiều thể hiện và mỗi thể hiện có thể có một hoặc nhiều nhãn Phân lớp đa nhãn đa thể hiện được khai báo chung như sau: Có một tập nhãn, và mỗi mục dữ liệu trong tập dữ liệu có thể thuộc về nhiều nhãn khác nhau và có thể được biểu diễn bởi nhiều thể hiện

Trang 15

1.1.2.2 Kỹ thuật phân lớp đa nhãn

Phân lớp đa nhãn được chia thành hai nhóm tiếp cận chính là tiếp cận chuyển đổi bài toán và tiếp cận thích nghi thuật toán

Hình 1.2: Hai tiếp cận học đa nhãn [10]

Chuyển đổi bài toán là một phương pháp sử dụng để chuyển đổi một bài toán

phân lớp đa nhãn thành một hoặc nhiều bài toán phân lớp đơn nhãn (phân lớp đa lớp hoặc phân lớp nhị phân) hoặc bài toán hồi quy Theo tiếp cận này, các bộ phân lớp đơn nhãn được thực hiện trên từng nhãn riêng biệt, sau đó các dự đoán phân lớp đơn nhãn được kết hợp lại để tạo ra kết quả dự đoán đa nhãn Phương pháp này khá linh động vì

Trang 16

nĩ cĩ thể sử dụng bất kỳ bộ phân lớp đơn nhãn nào, như máy vectơ hỗ trợ SVM, Nạve Bayes, k láng giềng gần nhất kNN và Perceptrons [6]

Ưu điểm của phương pháp:

Thứ nhất là tính linh động: Phương pháp này khá linh động vì cĩ thể sử dụng bất

kỳ bộ phân lớp đơn nhãn nào như Máy vectơ hỗ trợ SVM, Nạve Bayes, k láng giềng gần nhất kNN và Perceptrons

Thứ hai là tính hiệu quả: Phương pháp này đã đạt được kết quả tốt trong các bài tốn phân lớp đa nhãn và cĩ thể được áp dụng để giải quyết các bài tốn phân lớp đa nhãn khác nhau

Nhược điểm của phương pháp:

Thứ nhất là độ phức tạp cao: Việc sử dụng nhiều bộ phân lớp đơn nhãn cĩ thể gây

ra độ phức tạp trong việc xây dựng và huấn luyện mơ hình

Thứ hai là khơng thể học từ các đặc trưng khơng liên quan: Phương pháp này khơng thể học từ các đặc trưng khơng liên quan đến nhãn, do đĩ cĩ thể khơng tối ưu trong các trường hợp cĩ sự tương quan giữa các đặc trưng

Thích nghi thuật tốn là phương pháp mở rộng các thuật tốn học phân lớp đơn

nhãn đã được biết để áp dụng trực tiếp giải quyết bài tốn phân lớp đa nhãn Điển hình, các thuật tốn phân lớp đơn nhãn được chọn lựa để thích nghi bao gồm AdaBoost, cây quyết định và thuật tốn học lười [6]

Các thuật tốn này được mở rộng bằng cách áp dụng chúng tới mỗi nhãn riêng biệt trong bài tốn phân lớp đa nhãn và sau đĩ kết hợp các dự đốn đơn nhãn thành một kết quả dự đốn đa nhãn Các ưu điểm cĩ thể nhận biết là:

Thứ nhất là tính đơn giản Phương pháp này khơng yêu cầu sự hiểu biết về cách

sử dụng các mơ hình khác nhau như mơ hình hồi quy hoặc mơ hình mạng neuron, và cĩ thể sử dụng bất kỳ thuật tốn phân lớp đơn nhãn nào

Trang 17

Thứ hai là tính hiệu quả Phương pháp này đã đạt được kết quả tốt trong các bài toán phân lớp đa nhãn và có thể được áp dụng để giải quyết các bài toán phân lớp đa nhãn khác nhau

Thứ ba là tính linh động Phương pháp này khá linh động vì nó có thể sử dụng bất

kỳ thuật toán phân lớp đơn nhãn nào, như AdaBoost, cây quyết định và thuật toán học lười, và có thể áp dụng cho các bài toán phân lớp đa nhãn khác nhau

Tuy nhiên, phương pháp này cũng có một số nhược điểm, bao gồm:

Thứ nhất là độ phức tạp cao Việc sử dụng nhiều thuật toán phân lớp đơn nhãn có thể gây ra độ phức tạp trong việc xây dựng và huấn luyện mô hình

Thứ hai là hiệu suất không cao Phương pháp này có thể không đạt hiệu suất tốt như các phương pháp khác như sử dụng mô hình hồi quy hoặc mô hình mạng neuron trong một số trường hợp

Thứ ba là không thể học từ các đặc trưng không liên quan Phương pháp này không thể học từ các đặc trưng không liên quan đến nhãn, do đó có thể không tối ưu trong các trường hợp có sự tương quan giữa các đặc trưng và nhãn

1.1.2.3 Ứng dụng của phân lớp đa nhãn

Phân lớp đa nhãn là một khía cạnh quan trọng của học máy và có rất nhiều ứng dụng trong các lĩnh vực khác nhau Một trong những ứng dụng phổ biến nhất của phân lớp đa nhãn là trong việc xử lý ngôn ngữ tự nhiên Nó có thể được sử dụng để phân loại văn bản theo nhãn, ví dụ như phân loại bài báo thể thao thành các chuyên mục khác nhau hoặc phân loại câu hỏi trong một trang web hỏi đáp thành các chủ đề khác nhau Phân lớp đa nhãn cũng có thể được sử dụng trong việc phân loại hình ảnh theo nhãn, ví dụ như phân loại hình ảnh về thực vật hoặc động vật Ngoài ra, phân lớp đa nhãn còn có thể được sử dụng trong các ứng dụng khác như phân tích phản hồi khách hàng hoặc phân tích dữ liệu thống kê

Trang 18

1.2 Độ đo mô hình phân lớp đa nhãn

Để đánh giá hiệu quả của mô hình phân lớp đa nhãn, có một số chỉ số được sử dụng thường xuyên:

Chính xác (accuracy): Đây là tỉ lệ số lượng các mục được phân lớp đúng so với tổng số mục được phân lớp

Độ dốc (precision): Đây là tỉ lệ số lượng các mục được phân lớp đúng trong nhóm các mục được phân lớp vào một nhãn cụ thể so với tổng số lượng các mục được phân lớp vào nhãn đó

Độ tương đồng (recall): Đây là tỉ lệ số lượng các mục được phân lớp đúng trong nhóm các mục thuộc một nhãn cụ thể so với tổng số lượng các mục thuộc nhãn đó

Độ F1: Đây là một chỉ số trung bình cân bằng giữa độ dốc và độ tương đồng, được tính bằng công thức: F1 = 2 * (precision * recall) / (precision + recall)

Ngoài ra, còn có nhiều chỉ số khác có thể được sử dụng để đánh giá hiệu quả của

mô hình phân lớp đa nhãn, như: độ tương đồng tuyệt đối (absolute recall), độ tương đồng tuyệt đối trung bình (mean absolute recall), độ tương đồng trung bình (mean recall) và

độ tương đồng trung bình trung vị (median recall) Bên cạnh đó để so sánh hiệu quả của các mô hình phân lớp đa nhãn khác nhau, cũng có thể sử dụng một số chỉ số đo lường khác nhau như độ tương đồng tuyệt đối trung bình (mean absolute recall), độ tương đồng trung bình (mean recall) và độ tương đồng trung bình trung vị (median recall) Tuy nhiên, cần lưu ý rằng không có một chỉ số đo lường duy nhất có thể được sử dụng để đánh giá hiệu quả của mô hình phân lớp đa nhãn, và các chỉ số đo lường phụ thuộc vào mục đích

sử dụng của mô hình và tình huống cụ thể

Trang 19

1.3 Một số mô hình ứng dụng trong bài toán phân lớp đa nhãn cho văn bản 1.3.1 Giới thiệu về Transformers

Transformers là một kiểu mô hình máy học được phát triển bởi Google vào năm

2017 Nó được sử dụng rộng rãi trong bài toán xử lý ngôn ngữ tự nhiên (NLP) và có thể được sử dụng cho các bài toán khác như xử lý hình ảnh và âm thanh

Mô hình Transformers sử dụng các tầng biểu diễn ngôn ngữ để học các quan hệ giữa các từ trong câu và sử dụng các tầng attention để quan tâm đến các từ có liên quan trong câu Điều này cho phép mô hình có khả năng hiểu được ngữ cảnh của câu và có khả năng dự đoán đúng ý nghĩa của câu hơn so với các mô hình không sử dụng attention

Mô hình này đã đạt được những kết quả tốt trong nhiều bài toán NLP, bao gồm cả việc dịch ngôn ngữ tự nhiên và trả lời câu hỏi Nó cũng đã được sử dụng trong các ứng dụng khác như xử lý âm thanh và hình ảnh và đã cho kết quả tốt trong nhiều trường hợp [17]

Transformers có thể được sử dụng trong bài toán phân lớp đa nhãn bằng cách sử dụng một tầng attention để tập trung vào các từ có liên quan trong câu và học các quan

hệ giữa chúng với các nhãn của câu Khi dự đoán nhãn cho một câu mới, mô hình sẽ tập trung vào các từ trong câu và sử dụng những gì đã học được về các quan hệ giữa từ và nhãn để dự đoán nhãn cho câu

Trong bài toán phân lớp đa nhãn, mô hình có thể sử dụng các phương pháp như phân lớp nhiều lớp hoặc phân lớp nhiều đơn vị để dự đoán nhiều nhãn cho mỗi điểm dữ liệu Các phương pháp này sẽ được áp dụng trên từng từ trong câu và sử dụng các tầng attention để tính toán các trọng số cho mỗi nhãn Sau khi áp dụng các phương pháp này,

mô hình sẽ dự đoán nhãn cho câu dựa trên các trọng số đã tính toán

Một số mô hình transformer có thể sử dụng để phân lớp đa nhãn:

• BERT (Bidirectional Encoder Representations from Transformers)

• RoBERTa (Robustly Optimized BERT Approach)

• XLNet (eXtremely Large Neural Network)

• T5 (Text-To-Text Transfer Transformer)

Trang 20

• GPT-3 (Generative Pre-training Transformer 3)

• DeBERTa (Dynamic Coattention Networks with Self-Attention)

1.3.2 Giới thiệu mô hình BERT

BERT (Bidirectional Encoder Representations from Transformers) là mô hình máy học được phát triển bởi Google vào năm 2018 Nó được sử dụng rộng rãi trong bài toán xử lý ngôn ngữ tự nhiên (NLP) và có thể được sử dụng cho các bài toán khác như

sử dụng trong các nghiên cứu về xử lý ngôn ngữ tự nhiên [18]

1.3.3 Tinh chỉnh mô hình BERT

Có một điểm đặc biệt ở BERT mà các model embedding trước đây chưa từng có,

đó là có thể tinh chỉnh từ kết quả huấn luyện cũ được Ta sẽ thêm vào model một lớp đầu

ra để tùy biến theo tác vụ huấn luyện [19]

Tiến trình áp dụng tinh chỉnh mô hình sẽ như sau:

Bước 1: Gán toàn bộ các token của cặp câu bằng các véc tơ nhúng từ bộ dữ liệu trước khi huấn luyện Các token được gán bao gồm cả 2 token là CLS và SEP để đánh

Trang 21

dấu vị trí bắt đầu của câu hỏi và vị trí ngăn cách giữa 2 câu 2 token này sẽ được dự báo

ở đầu ra để xác định các phần bắt đầu và kết thúc của câu đầu ra

Bước 2: Các embedding véc tơ sau đó sẽ được truyền vào kiến trúc multi-head attention với nhiều block code (thường là 6, 12 hoặc 24 blocks tùy theo kiến trúc BERT)

Ta thu được một véc tơ đầu ra ở encoder

Bước 3: Để dự báo phân phối xác suất cho từng vị trí từ ở decoder, ở mỗi time step chúng ta sẽ truyền vào decoder véc tơ output của encoder và véc tơ embedding input của decoder để tính encoder-decoder Sau đó projection qua liner layer và softmax để thu được phân phối xác suất cho output tương ứng ở time step

Bước 4: Trong kết quả trả ra của transformer ta sẽ cố định kết quả của câu hỏi sao cho trùng với câu hỏi ở đầu vào Các vị trí còn lại sẽ là thành phần mở rộng bắt đầu/kết thúc tương ứng với câu trả lời tìm được từ câu đầu vào

1.3.4 Giới thiệu về PhoBERT

PhoBERT là mô hình máy học được huấn luyện để xử lý ngôn ngữ tiếng Việt Nó

là một bản sao của mô hình BERT được huấn luyện trên một bộ dữ liệu lớn tiếng Việt PhoBERT có thể được sử dụng cho các bài toán NLP tiếng Việt như phân tích ý nghĩa, trích xuất thông tin, dịch ngôn ngữ và phân lớp đa nhãn Nó cũng có thể được sử dụng

để hỗ trợ xử lý ngôn ngữ tự nhiên trên các ngôn ngữ khác nhau PhoBERT đã đạt được kết quả tốt trong nhiều bài toán NLP tiếng Việt và được sử dụng rộng rãi trong các ứng dụng thực tế và cũng đã trở thành một trong những mô hình cơ bản được sử dụng trong các nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt [18]

PhoBERT có thể được sử dụng trong phân lớp đa nhãn bằng cách sử dụng một tầng attention để tập trung vào các từ trong câu và học các quan hệ giữa chúng với các nhãn của câu Để sử dụng PhoBERT cho phân lớp đa nhãn, ta có thể sử dụng các dữ liệu

đã được nhãn để huấn luyện mô hình và sau đó dùng mô hình đã huấn luyện để dự đoán nhãn cho các câu mới không có nhãn Để đạt được hiệu suất tốt trong phân lớp đa nhãn,

Trang 22

ta có thể sử dụng các phương pháp điều chỉnh tinh chỉnh để tối ưu hóa mô hình cho bài toán cụ thể Đây là quá trình huấn luyện lại mô hình BERT trên một tập dữ liệu mới với mục đích tối ưu hóa hiệu suất cho bài toán cụ thể

1.4 Ontology

1.4.1 Giới thiệu về Ontology

Ontology là một mô hình dữ liệu biểu diễn một lĩnh vực và được sử dụng để suy luận về các đối tượng trong lĩnh vực đó và mối quan hệ giữa chúng Ontology cung cấp một bộ từ vựng chung bao gồm các khái niệm, các thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc tính [12]

Dưới góc độ biểu diễn tri thức, Ontology là một trong các hình thức biểu diễn tri thức rộng rãi và tiên tiến nhất hiện nay Với hình thức biểu diễn tri thức này, mô hình của các khái niệm và mối quan hệ giữa các khái niệm trong miền tri thức cho phép tri thức có thể được được chia sẻ giữa các ứng dụng

Dưới góc độ tổ chức thông tin, Ontology là các khung có cấu trúc cho việc tổ chức thông tin được áp dụng trong các lĩnh vực như trí tuệ nhân tạo, web ngữ nghĩa, kỹ thuật thông tin, công nghệ phần mềm, tin học y sinh, khoa học thư viện và kiến trúc thông tin như là dạng thể hiện kiến thức về thế giới hoặc một phần của nó

Ontology được xây dựng nhằm các mục đích sau:

• Chia sẻ hiểu biết chung về cấu trúc thông tin giữa con người và các hệ thống phần mềm;

• Mô hình hóa các tri thức trong lĩnh vực, các nguồn tài nguyên được chia sẻ;

• Mô hình hóa các loại đối tượng sử dụng khác nhau để tạo thành một mạng xã hội, giúp xác định được các chuyên gia và mối quan hệ trong một lĩnh vực

• Sử dụng lại tri thức về một miền lĩnh vực đã được xây dựng từ trước

Có hai phương pháp xây dựng ontology là xây dựng thủ công và ontology “học” theo hình thức tự động hoặc bán tự động Phương pháp thủ công dựa phù hợp với các

Trang 23

miền tri thức nhỏ, giới hạn, ít thay đổi Chúng ta cần sử dụng các chuyên gia trong lĩnh vực để thu thập tri thức với khối lượng thời gian lớn Trái lại, phương pháp tự động hay bán tự động phù hợp với các ontology lớn, không giới hạn

1, SDG1 v.v…

§ Lớp (Class)

Lớp là những nhóm, bộ hoặc một tập hợp của các đối tượng Một lớp có thể gộp nhiều lớp hoặc được gộp vào lớp khác Một lớp gộp vào lớp khác được gọi là lớp con (subclass) của lớp gộp Việc xếp gộp thể hiện tính kế thừa giữa các lớp con và các lớp lớn hơn

Ví dụ: Lớp Mục tiêu phát triển bền vững có các lớp con là: Goal, Target, Indicator; Lớp Goal có các thực thể là: SDG1, SDG2, SDG3,

§ Thuộc tính

Thuộc tính là các tính năng, đặc điểm hay các số, thể hiện giá trị của thuộc tính hay thông số của đối tượng Thuộc tính được sử dụng để chỉ ra mối quan hệ giữa các thực thể (thuộc tính đối tượng) hoặc giữa thực thể và kiểu dữ liệu được mô tả (thuộc tính kiểu dữ liệu)

Ví dụ:

• Thuộc tính đối tượng “ban hành” chỉ ra mối quan hệ giữu cơ quan quản lý nhà nước và các văn bản pháp luật

Trang 24

• Thuộc tính kiểu dữ liệu với một văn bản pháp luật có thể có các thuộc tính: Lĩnh vực, tiêu đề, cơ quan ban hành, người kí

• Giá trị của một thuộc tính dữ liệu có thể có các kiểu dữ liệu khác nhau như kiểu chuỗi, kiểu số…

Ví dụ: Mối quan hệ “chủ trì” của Bộ Kế hoạch và Đầu tư với Mục tiêu 1;

Mối quan hệ về sự liên quan “Nội dung liên quan” giữa các tin tức, sự kiện và các mục tiêu phát triển bền vững

Hầu hết các dạng truy vấn SPARQL đều chứa một bộ ba mẫu (subject, predicate

và object) được gọi là mẫu đồ thị cơ bản (basic graph pattern), trong đó mỗi thành phần trong bộ ba mẫu có thể là một biến Một mẫu đồ thị cơ bản khớp với một đồ thị con của

dữ liệu RDF khi các thuật ngữ RDF từ đồ thị con đó có thể thay thế cho các biến và kết quả là đồ thị RDF tương đương với đồ thị con

Trang 25

PREFIX SDG: <http://www.semanticweb.org/hoanq/ontologies/2021/5/SDG#>

SELECT ?subject

WHERE { ?subject sqg:ten_goi “SDG1”}

Ví dụ dưới đây cho thấy một truy vấn SPARQL để tìm thực thể có tên gọi là

“SDG1” từ biểu đồ dữ liệu đã cho Truy vấn bao gồm hai phần: mệnh đề SELECT xác định các biến sẽ xuất hiện trong kết quả truy vấn và mệnh đề WHERE cung cấp mẫu đồ thị cơ bản để khớp với biểu đồ dữ liệu Mẫu đồ thị cơ bản trong ví dụ này bao gồm một mẫu ba đơn với một biến duy nhất (? subject) ở vị trí đối tượng

SPARQL có bốn hình thức truy vấn cho các mục đích khác nhau Các hình thức truy vấn sử dụng các giải pháp từ so khớp mẫu đến tập kết quả mẫu hoặc biểu đồ RDF Các hình thức truy vấn là:

Trả về tất cả hoặc một tập hợp con của các biến được ràng buộc trong một mẫu truy vấn phù hợp

tập hợp ba mẫu

cho các truy vấn trên

endpoint, các nội dung đó được đưa tới endpoint để quyết định dựa trên những

Trang 26

Kết luận:

Chương 1 đã trình bày về các khái niệm chung về Phân lớp đơn nhãn; Phân lớp

đa nhãn cho văn bản; Một số mô hình ứng dụng trong bài toán phân lớp đa nhãn cho văn bản và bản thể học (Ontology)

Chương này tập trung trình bày tổng thể về Phân lớp đa nhãn, Kỹ thuật phân lớp

đa nhãn và Ứng dụng của phân lớp đa nhãn Tác giả đưa ra một số mô hình ứng dụng trong bài toán phân lớp đa nhãn cho văn bản Transformers, mô hình BERT; PhoBERT

để giải quyết mô hình phân lớp đa nhãn và lưu trữ hệ thống thông tin các văn bản pháp luật trong lĩnh vực du lịch ở chương sau

Trang 27

CHƯƠNG 2 MÔ HÌNH PHÂN LỚP ĐA NHÃN VÀ LƯU TRỮ HỆ THỐNG THÔNG TIN CÁC VĂN BẢN PHÁP LUẬT VIỆT NAM

2.1 Phân lớp đa nhãn các văn bản pháp luật Việt Nam trong lĩnh vực du lịch 2.1.1 Hệ thống văn bản pháp luật Việt Nam trong lĩnh vực du lịch

Hệ thống văn bản quy phạm pháp luật Việt Nam trong lĩnh vực du lịch được ban hành để quản lý và hỗ trợ hoạt động của ngành du lịch Nó bao gồm các văn bản pháp luật liên quan đến các hoạt động du lịch như:

Thứ nhất: Quản lý nhà nước về du lịch, trong đó quy định rõ vai trò của Chính phủ thống nhất quản lý nhà nước về du lịch; Bộ Văn hóa, Thể thao và Du lịch là cơ quan đầu mối giúp Chính phủ thực hiện quản lý nhà nước về du lịch;

• Ban hành hoặc trình cơ quan nhà nước có thẩm quyền ban hành và tổ chức thực hiện văn bản quy phạm pháp luật về du lịch; chiến lược, quy hoạch, kế hoạch, chính sách phát triển du lịch; danh mục các địa điểm tiềm năng phát triển khu du lịch quốc gia;

• Điều phối, liên kết các hoạt động du lịch liên quốc gia, liên vùng, liên tỉnh;

• Xây dựng tiêu chuẩn quốc gia, quy chuẩn kỹ thuật quốc gia về du lịch; xây dựng cơ sở dữ liệu quản lý về du lịch;

• Phối hợp với các cơ quan có liên quan, tổ chức xã hội - nghề nghiệp về du lịch phổ biến, giáo dục pháp luật về du lịch;

• Tổ chức, quản lý hoạt động đào tạo, bồi dưỡng nguồn nhân lực du lịch; nghiên cứu, ứng dụng khoa học và công nghệ trong lĩnh vực du lịch; hướng dẫn về giao dịch điện tử trong lĩnh vực du lịch;

Trong đó, trong từng thời kỳ, các nhiệm vụ do Bộ Văn hóa thể thao du lịch chủ trì thực hiện, theo từng giai đoạn và mục tiêu, có thể bao gồm: Khắc phục hậu quả đại dịch COVID-19 phục hồi và phát triển du lịch; Hoàn thiện cơ chế, chính sách quản lý du lịch và triển khai thực hiện chỉ đạo của Đảng, Chính phủ về phát triển du lịch; xây dựng

và quản lý thực hiện các quy hoạch phát triển du lịch; phát triển sản phẩm du lịch và

Trang 28

quản lý chất lượng dịch vụ du lịch; phát triển thị trường, tăng cường xúc tiến, quảng bá

du lịch; phát triển nguồn nhân lực chất lượng cao và thị trường lao động du lịch bền vững; tăng cường ứng dụng khoa học và công nghệ hiện đại, công nghệ số trong ngành

du lịch…

Các nhiệm vụ phối hợp thực hiện cũng được nêu rõ trong Chương trình như phối hợp với Bộ Tài chính; Bộ Kế hoạch và Đầu tư; Bộ Công an; Bộ Quốc phòng; Bộ Giao thông vận tải

Thứ hai: Về điểm du lịch, khu du lịch và các hệ thống lưu trú du lịch, bao gồm các hệ thống văn bản quy định các loại và các loại hình cơ sở lưu trú: Khách sạn; biệt thự du lịch; căn hộ du lịch; tàu thủy lưu trú du lịch; nhà nghỉ du lịch; nhà ở có phòng cho khách du lịch thuê; bãi cắm trại du lịch; các cơ sở lưu trú du lịch khác

Thứ ba: Về kinh doanh du lịch Bao gồm hệ thống các văn bản quy phạm pháp luật quy định các loại hình kinh doanh du lịch, như: (i) Kinh doanh dịch vụ lữ hành nội địa phục vụ khách du lịch nội địa; (ii) Kinh doanh dịch vụ lữ hành quốc tế phục vụ khách

du lịch quốc tế đến Việt Nam và khách du lịch ra nước ngoài; (iii) Doanh nghiệp kinh doanh dịch vụ lữ hành quốc tế được kinh doanh dịch vụ lữ hành quốc tế và dịch vụ lữ hành nội địa; (iv) Doanh nghiệp có vốn đầu tư nước ngoài chỉ được kinh doanh dịch vụ

lữ hành quốc tế phục vụ khách du lịch quốc tế đến Việt Nam

Thứ tư: Về xúc tiến du lịch, bao gồm hệ thống các văn bản quy định nhóm đối tượng chủ trì Chương trình: các tổ chức xúc tiến du lịch thuộc Bộ Văn hóa, Thể thao và

Du lịch; các Bộ, cơ quan ngang Bộ; địa phương; hiệp hội chuyên ngành du lịch; doanh nghiệp du lịch Bên cạnh đó là các kế hoạch, chương trình hành động hàng năm của các đơn vị tham gia Chương trình: các Bộ, cơ quan ngang Bộ; địa phương; hiệp hội chuyên ngành du lịch; doanh nghiệp du lịch và các đơn vị khác Nguồn ngân sách và cơ chế hỗ trợ cho từng loại hình chương trình

Thứ năm: Về tài nguyên du lịch, phát triển sản phẩm du lịch và quy hoạch du lịch Bao gồm các nhóm hệ thống văn bản quy định về Tài nguyên du lịch tự nhiên bao gồm

Trang 29

cảnh quan thiên nhiên, các yếu tố địa chất, địa mạo, khí hậu, thủy văn, hệ sinh thái và các yếu tố tự nhiên khác có thể được sử dụng cho mục đích du lịch Tài nguyên du lịch văn hóa bao gồm di tích lịch sử - văn hóa, di tích cách mạng, khảo cổ, kiến trúc; giá trị văn hóa truyền thống, lễ hội, văn nghệ dân gian và các giá trị văn hóa khác; công trình lao động sáng tạo của con người có thể được sử dụng cho mục đích du lịch

Thứ sáu: Về khách du lịch Là hệ thống văn bản đưa ra định nghĩa và thống kê đối tượng khách du lịch, trong đó quy định cụ thể Khách du lịch bao gồm khách du lịch nội địa, khách du lịch quốc tế đến Việt Nam và khách du lịch ra nước ngoài; (ii) Khách

du lịch nội địa là công dân Việt Nam, người nước ngoài cư trú ở Việt Nam đi du lịch trong lãnh thổ Việt Nam; (iii) Khách du lịch quốc tế đến Việt Nam là người nước ngoài, người Việt Nam định cư ở nước ngoài vào Việt Nam du lịch; (iv) Khách du lịch ra nước ngoài là công dân Việt Nam và người nước ngoài cư trú ở Việt Nam đi du lịch nước ngoài

Như vậy, việc tập hợp cơ sở dữ liệu về hệ thống các quy phạm pháp luật trong lĩnh vực du lịch do các cơ quan nhà nước có thẩm quyền ở Trung ương ban và địa phương hành quy định về lĩnh vực du lịch đang còn hiệu lực được thống kê, tập hợp, sắp xếp giúp dễ dàng tìm kiếm, tra cứu, khai thác, sử dụng

Trong phạm vi nghiên cứu của đề tài, chúng tôi tiến hành một nghiên cứu riêng, tập hợp các hệ thống văn bản quy phạm pháp luật trong 17 mục tiêu phát triển bền vững, gắn với lĩnh vực du lịch Trên cơ sở đó, chúng tôi tiến hành xây dựng hệ thống bản thể học, phục vụ cho việc truy vấn thông tin một cách khoa học

2.1.2 Văn bản pháp luật Việt Nam trong lĩnh vực gắn với mục tiêu phát triển bền vững

Năm 2015, Liên Hợp Quốc đã thông qua chương trình thực hiện 17 mục tiêu phát triển bền vững (Sustainable Development Goals – SDG) bao gồm 169 mục tiêu cụ thể

và 232 chỉ tiêu, nhằm hướng tới xóa đói giảm nghèo, bảo vệ hành tinh và đảm bảo mọi người dân được hưởng hòa bình và thịnh vượng vào năm 2030 [15]

Trang 30

Là một thành viên của Liên Hợp Quốc, Việt Nam đã nỗ lực thực hiện cam kết quốc tế thông qua việc ban hành Kế hoạch hành động quốc gia thực hiện Chương trình nghị sự 2030 tại Quyết định số 622/QĐ-TTg ngày 10/5/2017 Kế hoạch hành động quốc gia đưa ra 17 mục tiêu SDGs với 115 mục tiêu cụ thể trên cơ sở quốc gia hóa các mục tiêu SDGs toàn cầu để phù hợp với điều kiện và bối cảnh phát triển của Việt Nam Năm

2019, Thủ tướng chính phủ ban hành Quyết định số 681/QĐ-TTg về Lộ trình thực hiện các mục tiêu phát triển bền vững Việt Nam đến năm 2030 Tháng 9/2020 Thủ tướng chính phủ đã ban hành Nghị quyết số 136/NQ-CP về phát triển bền vững

Kế hoạch hành động quốc gia nhấn mạnh vai trò của tất cả các bên liên quan từ các bộ, ngành, địa phương đến các tổ chức chính trị - xã hội, các tổ chức, cá nhân trong nước và quốc tế trong việc tham gia, đóng góp vào việc thực hiện các mục tiêu SDGs của Việt Nam đến năm 2030 Tính đến 5/2022, đã có 17/22 bộ, ngành và 51/63 tỉnh, thành phố trực thuộc trung ương đã ban hành Kế hoạch hành động thực hiện Chương trình nghị sự 2030

Mục tiêu phát triển bền vững liên quan đến du lịch tại Việt Nam là mục tiêu đề ra trong Kế hoạch phát triển năm 2021 - 2030 của Việt Nam, với mục tiêu cụ thể là số 8.9:

"Phát triển du lịch bền vững và trở thành một trong những nền công nghiệp đầu tư hàng đầu của Việt Nam"

Để đạt được mục tiêu này, Việt Nam cần phát triển một hệ thống du lịch bền vững với những chính sách hợp lý, các hoạt động kinh doanh trong lĩnh vực du lịch được thực hiện theo quy định và các tiêu chuẩn quốc tế, và các hoạt động du lịch được thực hiện theo các tiêu chí bền vững về môi trường, xã hội và kinh tế

Mục tiêu 8.9: Đến năm 2030, phát triển du lịch bền vững, tạo việc làm, tạo sản

phẩm và dịch vụ du lịch có khả năng cạnh tranh với các nước trong khu vực và thế giới; thúc đẩy quảng bá văn hóa và sản phẩm địa phương

Trang 31

• Mục tiêu 8.9.1: Đảm bảo xây dựng, thực hiện và giám sát thực hiện Đánh giá

môi trường chiến lược trong quá trình xây dựng và thực hiện các chiến lược, quy hoạch phát triển du lịch bền vững

• Mục tiêu 8.9.2: Tăng cường sự tham gia của các tổ chức xã hội, cá nhân và

cộng đồng đối với việc giám sát đánh giá thực hiện chiến lược, quy hoạch phát triển du lịch bền vững

• Mục tiêu 8.9.3: Quy hoạch, đầu tư phát triển sản phẩm du lịch dựa trên thế

mạnh nổi trội và hấp dẫn về tài nguyên du lịch; tập trung ưu tiên phát triển sản phẩm du lịch biển, đảo, du lịch văn hóa và du lịch sinh thái; từng bước hình thành hệ thống khu, tuyến, điểm du lịch quốc gia; khu tuyến, điểm du lịch địa

phương và đô thị du lịch.Mục tiêu 8.9.4: Phát triển hệ thống sản phẩm du lịch

chất lượng, đặc sắc, đa dạng và đồng bộ, có giá trị gia tăng cao, đảm bảo đáp ứng nhu cầu của khách du lịch nội địa và quốc tế; phát triển sản phẩm du lịch

“xanh”, tôn trọng yếu tố tự nhiên và văn hóa địa phương

• Mục tiêu 8.9.5: Phát huy thế mạnh và tăng cường liên kết giữa các vùng,

miền, địa phương hướng tới hình thành sản phẩm du lịch đặc trưng theo các vùng du lịch

• Mục tiêu 8.9.6: Đẩy mạnh xúc tiến, quảng bá du lịch theo hướng chuyên

nghiệp, nhằm vào thị trường mục tiêu, lấy sản phẩm du lịch và thương hiệu

du lịch là trọng tâm; quảng bá du lịch gắn với quảng bá hình ảnh quốc gia

• Mục tiêu 8.9.7: Tập trung phát triển thương hiệu du lịch quốc gia trên cơ sở

phát triển thương hiệu du lịch vùng, địa phương, thương hiệu doanh nghiệp

du lịch và thương hiệu sản phẩm du lịch; chú trọng phát triển những thương hiệu du lịch có vị thế cạnh tranh cao trong khu vực và quốc tế

• Mục tiêu 8.9.8: Tăng cường sự phối hợp giữa các ngành, các cấp và địa

phương trong việc xây dựng và phát triển thương hiệu du lịch để đảm bảo tính thống nhất

Trang 32

• Mục tiêu 8.9.9: Phát huy vai trò của chính quyền và cộng đồng địa phương

đối với phát triển, quảng bá văn hóa và sản phẩm địa phương, góp phần tạo việc làm, tăng thu nhập và giảm nghèo

2.1.2 Phân lớp đa nhãn văn bản pháp luật

Phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch là một bài toán trong xử lý ngôn ngữ tự nhiên, trong đó mục tiêu là phân loại các văn bản pháp luật liên quan đến du lịch thành các nhãn cụ thể Ví dụ, có thể có các nhãn như "lịch trình du lịch", "giá cả du lịch", "bảo hiểm du lịch", "quy định du lịch", và "phí du lịch" Mục đích của phân lớp đa nhãn này là giúp người dùng có thể tìm kiếm văn bản pháp luật liên quan đến du lịch theo nhãn cụ thể, hoặc giúp các hệ thống tự động phân loại văn bản vào các nhóm có nội dung tương tự

Để giải quyết bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch, có thể sử dụng các thuật toán máy học khác nhau, như mô hình phân loại đa nhãn,

mô hình phân lớp nhiều lớp, hay mô hình phân loại nhiều lớp đa dạng Trong quá trình huấn luyện, mô hình sẽ được tiếp cận với một tập dữ liệu có sẵn với các văn bản pháp luật liên quan đến du lịch và các nhãn đã được gán trước, và sẽ học cách dự đoán nhãn cho các văn bản pháp luật mới dựa trên đầu vào đã cho Sau khi huấn luyện, mô hình sẽ

có khả năng dự đoán nhãn cho các văn bản pháp luật liên quan đến du lịch mới dựa trên đầu vào đã cho

Một số ứng dụng của phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch có thể kể ra như sau:

Thứ nhất: Giúp người dùng tìm kiếm các văn bản pháp luật liên quan đến du lịch theo nhãn cụ thể hơn, hoặc để giúp các hệ thống tự động phân loại văn bản vào các nhóm

có nội dung tương tự Ví dụ, người dùng có thể tìm kiếm các văn bản pháp luật liên quan đến "lịch trình du lịch" hoặc "giá cả du lịch" để tìm hiểu thông tin chi tiết hơn về các chương trình du lịch hoặc giá cả các tour du lịch

Trang 33

Thứ hai: Sử dụng trong các hệ thống tự động phân loại văn bản, giúp tăng hiệu quả và tốc độ trong việc tìm kiếm văn bản pháp luật liên quan đến du lịch Ví dụ, một hệ thống tự động phân loại văn bản có thể sử dụng phân lớp đa nhãn để tự động phân loại các văn bản theo “thể loại văn bản”, “cơ quan ban hành”, “lĩnh vực”,…

Thứ ba: Được sử dụng trong việc xây dựng các hệ thống tư vấn du lịch Ví dụ, một hệ thống tư vấn du lịch có thể sử dụng phân lớp đa nhãn để phân tích các văn bản pháp luật liên quan đến du lịch và cung cấp các lời khuyên cho người dùng dựa trên nhãn của văn bản đó Nếu người dùng hỏi về quy định du lịch trong một nước cụ thể, hệ thống

tư vấn du lịch có thể sử dụng phân lớp đa nhãn để tìm kiếm các văn bản pháp luật liên quan đến "quy định du lịch" trong nước đó và cung cấp cho người dùng các thông tin cần thiết

Tổng quan, phân lớp đa nhãn các văn bản pháp luật là một kỹ thuật hữu ích trong việc tìm kiếm và phân tích các văn bản pháp luật cụ thể là liên quan đến du lịch Nó có thể được ứng dụng trong các hệ thống văn bản pháp luật của cơ quan nhà nước nhằm cải tiến việc tra cứu thông tin pháp luật của người dân Thêm vào đó, nó còn có thể được ứng dụng vào các hệ thống ứng dụng trong lĩnh vực du lịch để cung cấp thêm cho người dùng những thông tin về pháp luật khi đi du lịch

Sau đây, ta tiến hành minh hoạ cho phương pháp phân lớp đã nhãn Ví dụ trong bảng dữ liệu có bốn mẫu văn bản pháp luật được phân lớp với tập nhãn gồm bốn nhãn

Trang 34

Phát biểu của bài toán phân lớp đa nhãn văn bản pháp luật như sau:

Độ phức tạp được xác định qua chủ yếu ba thành phần chung:

• 𝓂: Mẫu số huấn luyện

có khả năng hoạt động tốt trong bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch Mô hình này được xây dựng dựa trên công nghệ Transformer, và có khả năng hiểu được ngữ cảnh và ngữ nghĩa của từng từ trong một câu

Để sử dụng PhoBERT cho bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch, có thể điều chỉnh tinh chỉnh (fine-tuning) mô hình PhoBERT bằng cách

sử dụng một tập dữ liệu có sẵn với các văn bản pháp luật liên quan đến du lịch và các nhãn đã được gán trước Sau khi điều chỉnh tinh chỉnh, PhoBERT sẽ có khả năng dự đoán nhãn cho các văn bản pháp luật liên quan đến du lịch mới dựa trên đầu vào đã cho

PhoBERT cũng có thể được sử dụng trong việc xây dựng các hệ thống tư vấn du lịch, tương tự như cách sử dụng mô hình BERT cho bài toán này Ví dụ, hệ thống tư vấn

Trang 35

du lịch có thể sử dụng PhoBERT để phân tích các văn bản pháp luật liên quan đến du lịch và cung cấp các lời khuyên cho người dùng dựa trên nhãn của văn bản đó PhoBERT

là một mô hình ngôn ngữ hữu ích cho bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch, và có thể được sử dụng để xây dựng các hệ th ống tư vấn du lịch Tuy nhiên, cũng có những ưu điểm và hạn chế của mô hình PhoBERT khi sử dụng cho bài toán này

Ưu điểm của PhoBERT trong phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch bao gồm:

Thứ nhất, nó hiểu được ngữ cảnh và ngữ nghĩa của từng từ trong một câu: Mô hình PhoBERT có khả năng hiểu được ngữ cảnh và ngữ nghĩa của từng từ trong một câu, giúp cho việc phân tích văn bản trở nên chính xác hơn

Thứ hai, xử lý tốt các văn bản pháp luật có độ dài khác nhau: Mô hình PhoBERT

có khả năng xử lý các văn bản pháp luật có độ dài khác nhau một cách hiệu quả, giúp cho việc phân tích văn bản trở nên dễ dàng hơn

Thứ ba, có khả năng điều chỉnh tinh chỉnh cho bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch: Mô hình PhoBERT có thể được điều chỉnh tinh chỉnh cho bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch bằng cách sử dụng một tập dữ liệu có sẵn và điều chỉnh tinh chỉnh cho bài toán này

Hạn chế của PhoBERT trong phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch bao gồm:

Thứ nhất, số lượng dữ liệu có sẵn có thể không đủ để điều chỉnh tinh chỉnh mô hình: Để điều chỉnh tinh chỉnh mô hình PhoBERT cho bài toán phân lớp đa nhãn các văn bản pháp luật trong lĩnh vực du lịch, cần có một tập dữ liệu lớn với các văn bản pháp luật và các nhãn đã được gán trước Nếu số lượng dữ liệu có sẵn không đủ, việc điều chỉnh tinh chỉnh mô hình có thể không được hiệu quả

Thứ hai, mô hình có thể không đủ chính xác trong việc phân tích các văn bản pháp luật có ngữ cảnh phức tạp: Mô hình PhoBERT có thể không đủ chính xác trong

Trang 36

việc phân tích các văn bản pháp luật có ngữ cảnh phức tạp, vì vậy có thể cần thiết phải

sử dụng các kỹ thuật khác như trích xuất đặc trưng hoặc phân tích cú pháp để có thể phân tích được những văn bản này

Thứ ba, mô hình có thể không đủ chính xác trong việc phân tích các văn bản pháp luật có ngôn ngữ không chuẩn: Mô hình PhoBERT được xây dựng dựa trên ngôn ngữ chuẩn, vì vậy nó có thể không đủ chính xác trong việc phân tích các văn bản pháp luật

có ngôn ngữ không chuẩn hoặc có nhiều lỗi ngữ pháp

2.2.2 Cấu trúc mô hình PhoBERT

Quá trình phân lớp đa nhãn bằng PhoBERT có thể được mô tả như sau:

Bước 1: Chuẩn bị dữ liệu: Trong bước này, cần chuẩn bị tập dữ liệu văn bản cần

phân lớp đa nhãn Để sử dụng PhoBERT, cần chuyển đổi các văn bản trong tập dữ liệu thành các tokens sử dụng bộ tokenizer của PhoBERT

Bước 2: Huấn luyện mô hình: Trong bước này, sử dụng mô hình PhoBERT để

huấn luyện mô hình phân lớp đa nhãn Có thể sử dụng thuật toán huấn luyện như Adam hoặc SGD và hàm mất mát như CrossEntropyLoss để huấn luyện mô hình

Bước 3: Đánh giá mô hình: Sau khi hoàn tất quá trình huấn luyện, cần đánh giá

mô hình bằng cách sử dụng các chỉ số phân lớp như độ chính xác, độ F1, v.v để đánh giá hiệu năng của mô hình

Bước 4: Dự đoán nhãn cho văn bản mới: Sau khi đã có mô hình phân lớp đa

nhãn được huấn luyện, có thể sử dụng mô hình để dự đoán nhãn cho các văn bản mới

Để làm điều này, cần chuyển đổi văn bản mới thành tokens bằng bộ tokenizer của PhoBERT và sau đó sử dụng mô hình để dự đoán nhãn cho văn bản

Bước 5: Điều chỉnh tinh chỉnh mô hình: Trong một số trường hợp, có thể cần

điều chỉnh tinh chỉnh mô hình để có được hiệu năng tốt hơn Đây là quá trình huấn luyện lại mô hình với tập dữ liệu mới hoặc với các tham số khác nhau Khi điều chỉnh tinh chỉnh mô hình, có thể sử dụng các layer của mô hình PhoBERT như là các layer không

Trang 37

cố định (unfrozen) để cho phép trọng số của các layer được cập nhật trong quá trình huấn luyện

Bước 6: Sử dụng mô hình để dự đoán nhãn cho văn bản mới: Sau khi hoàn

tất quá trình huấn luyện hoặc điều chỉnh tinh chỉnh, mô hình PhoBERT có thể được sử dụng để dự đoán nhãn cho các văn bản mới Để làm điều này, cần chuyển đổi văn bản mới thành tokens bằng bộ tokenizer của PhoBERT và sau đó sử dụng mô hình để dự đoán nhãn cho văn bản Kết quả dự đoán sẽ là một nhãn số từ 1 đến 9 tương ứng với 9 nhãn khác nhau mà đã được gán cho tập dữ liệu huấn luyện

2.2.3 Thuật toán WordPiece Tokenization

Tokenize là một bước quan trọng trong quá trình sử dụng mô hình PhoBERT để phân lớp đa nhãn cho các văn bản Tokenize là quá trình chuyển đổi văn bản thành các tokens, hay các đơn vị đơn giản hơn, để có thể truyền vào mô hình [18]

PhoBERT sử dụng thuật toán tokenize có tên là WordPiece Tokenization Thuật toán này sẽ chia văn bản thành các tokens dựa trên các từ trong từ điển của mô hình Khi chia văn bản thành tokens, PhoBERT sẽ tìm các từ trong từ điển có trong văn bản và chia nó thành tokens tương ứng Nếu không tìm thấy từ nào trong từ điển, PhoBERT sẽ tiếp tục chia văn bản thành các tokens nhỏ hơn đến khi tìm thấy từ trong từ điển hoặc không còn thể chia nữa

Thuật toán WordPiece Tokenization được tiến hành như sau:

1 Tạo ra một từ điển gồm các từ được sử dụng trong mô hình, ví dụ như từ điển tiếng Việt có trong mô hình PhoBERT

2 Khi tokenize văn bản, tìm từ trong từ điển có trong văn bản và chia nó thành tokens tương ứng

3 Nếu không tìm thấy từ nào trong từ điển, tiếp tục chia văn bản thành các tokens nhỏ hơn đến khi tìm thấy từ trong từ điển hoặc không còn thể chia nữa

Trang 38

Ví dụ, khi tokenize văn bản "Tôi muốn đi du lịch Hà Nội" bằng PhoBERT, thuật toán WordPiece Tokenization sẽ tìm từ "Hà Nội" trong từ điển và chia nó thành tokens tương ứng "Hà" và "Nội" Nếu không tìm thấy từ "Hà Nội" trong từ điển, thuật toán sẽ tiếp tục chia văn bản thành các tokens nhỏ hơn, ví dụ như chia "Hà Nội" thành "Hà" và

import torch

# Chuyển tokens sang dạng tensor (ma trận)

tokens_tensor = torch.tensor(tokens)

# Gắn thêm các thông tin khác như vị trí của tokens trong văn bản và token có phải là

từ chia (subword) hay không

# Thêm một chiều vào đầu tensor để tạo batch size = 1

# Lấy xác suất dự đoán lớn nhất cho mỗi token

_, predicted_labels = torch.max(predictions, dim=2)

Định dạng
Số trang	76
Dung lượng	2 MB

Tiêu đề	Ứng dụng học máy trong lĩnh vực du lịch
Tác giả	Nguyễn Quang Hòa
Người hướng dẫn	PGS.TS. Trần Trọng Hiếu
Trường học	Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội
Chuyên ngành	Khoa học dữ liệu
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội