Đối với Mã vật tư, từng loại vật tư thiết bị cụ thể được gán một mã số riêng gồm 16 ký tự. Trong đó việc phân loại vật tư chủ yếu ở 5-8 ký tự đầu tiên:
- 3 ký tự đầu tiên thể hiện phân nhóm chính là chủng loại của vật tư thiết bị. - 2 ký tự tiếp theo (5 ký tự đầu tiên) thể hiện phân nhóm phụ nêu chi tiết loại
vật tư theo chức năng, tác dụng.
- 3 ký tự tiếp theo (8 ký tự đầu tiên) thể hiện cụ thể nhãn hiệu, model của vật tư thiết bị.
- Các ký tự còn lại chỉ dùng để thể hiện nơi sản xuất, phụ kiện kèm theo và chất lượng còn lại sau khi thu hồi nếu là vật tư được thay thế.
Cấu trúc bộ dữ liệu ứng với các phương án phân loại VTTB theo số lượng ký tự đầu tiên của mã VTTB như sau:
- Khi chỉ dùng 8 ký tự đầu cho phân nhóm phụ: 6596 mã - Khi chỉ dùng 5 ký tự đầu cho phân nhóm chính:708 mã
Cấu trúc bộ mã vật tư thiết bị được trình bày chi tiết ở phần Phụ lục.
Trong thực tế cơng tác, các mã vật tư có cùng phân nhóm ở 8 ký tự đầu tiên là một chủng loại vật tư thiết bị, chỉ khác nơi sản xuất, rộng hơn các mã vật tư có cùng phân nhóm ở 5 ký tự đầu tiên là tương đồng nhau về chức năng chính, và hồn tồn có thể được sử dụng để thay thế lẫn nhau. Do đó, đề tài sử dụng các mã vật tư nhóm 5 ký tự để xây dựng bộ dữ liệu.
Bước tiếp theo thực hiện tính rating đối với mỗi cặp user / item. Có 2 phương án lấy ratings là theo tổng số lượng vật tư thiết bị được giao cho đơn vị hoặc số lần đơn vị có nhu cầu về vật tư thiết bị. Theo quan sát thực tế, số lượng khơng có nhiều ý nghĩa vì mỗi lần hư hỏng thiết bị thì số lượng là thường như nhau đối với một chủng loại vật tư. Ngoải ra, đơn vị tính khác nhau có thể dẫn đến số lượng rất chênh lệch giữa các chủng loại vật tư thiết bị. Trong khi đó, số lần đơn vị yêu cầu cung cấp vật tư thiết bị thực tế nói lên mức độ cần thiết giữa thiết bị đó và đơn vị cụ thể. Do đó, đề tài chọn sử dụng tần suất xuất hiện của mỗi cặp user / item là rating của user đối với item đó.
Kết quả sau khi tính tốn ta xây dựng được một mạng đồ thị hai phía Kho_PTC4 với 7,514 dịng dữ liệu gồm 146 user và 593 item.
4.3. Thực nghiệm và kết quả 4.3.1. Phương pháp thực nghiệm 4.3.1. Phương pháp thực nghiệm
Để xây dựng mơ hình, đề tài chia tập dữ liệu thực tế Kho_PTC4 thành tập huấn luyện và tập kiểm tra một cách ngẫu nhiên theo tỷ lệ 60/40, với 60% số cạnh được dùng để huấn luyện mơ hình, và 40% số cạnh cịn lại để kiểm tra đánh giá kết quả.
Đối với việc dự đoán các liên kết, đề tài sử dụng các độ đo sai số tuyệt đối trung bình MAE và sai số bình phương trung bình dưới căn RMSE. Để đánh giá
thiết bị (item) trong tập kiểm tra cho từng đơn vị nhận (user) và lấy ra danh sách ngắn 10 đối tượng đầu tiên để đánh giá hiệu quả bằng các độ đo F1, MAP và MRR. Với mạng đồ thị hai phía dựa trên dữ liệu thực tế đã thu thập, đề tài áp dụng phương pháp nhúng đỉnh đã trình bày ở Chương 2 và sử dụng kết quả nhúng đỉnh đồ thị để xây dựng hệ thống khuyến nghị dựa trên mơ hình thừa số hóa ma trận. Các vector nhúng được chọn số chiều d = 128, số bước đi ngẫu nhiên từ một đỉnh tối thiểu minT = 1, tối đa maxT = 32, xác suất dừng bước đi ngẫu nhiên p = 0.15, kích thước khung ngữ cảnh ws = 5, hệ số học (learning rate) khi thực hiện các bước lặp tối ưu hóa 𝜆 = 0.01 là các thơng số đã có kết quả tốt với nhiều mơ hình [14]. Dự đốn đánh giá của người dùng 𝑢𝑖 đối với đối tượng 𝑣𝑗 được tính bằng tích vơ
hướng 𝐮𝑖𝑇𝐯𝑗 giữa hai vector nhúng đỉnh tương ứng.
Để đánh giá mức độ phù hợp của dữ liệu thu thập được với mơ hình áp dụng cho mạng đồ thị hai phía, đề tài đối chiếu kết quả từ dữ liệu thực tế với kết quả từ bộ dữ liệu DBLP là mạng đồ thị hai phía chứa quan hệ về tác giả và nơi xuất bản bài báo khoa học, với trọng số của cạnh là số bài báo của một tác giả xuất bản tại một địa điểm [14]
Đề tài sử dụng cùng dữ liệu áp dụng lên hệ thống khuyến nghị lọc cộng tác lân cận dựa trên bộ nhớ, cụ thể là phương pháp dựa trên người dùng (user-based) và dựa trên đối tượng (item-based) để tham chiếu và phân tích, đánh giá các kết quả nhận được từ các phương pháp khác nhau.
4.3.2. Kết quả và đánh giá
Số liệu thống kê mạng đồ thị hai phía của bộ dữ liệu Kho_PTC4 thực tế thu thập và bộ dữ liệu DBLP được mô tả tại bảng 4.2. Kết quả thực nghiệm khi áp dụng hệ thống khuyến nghị trên hai bộ dữ liệu ứng với từng độ đo được thể hiện tại bảng 4.3.
Bảng 4.2. Thống kê dữ liệu các đồ thị
Dữ liệu Kho_PTC4 DBLP
Số lượng user |U| 146 6,001
Số lượng item |V| 593 1,308
Số lượng cạnh |E| 7,514 29,256
Trong khi dữ liệu DBLP có số lượng người dùng cao hơn 4 lần so với đối tượng thì ngược lại dữ liệu Kho_PTC4 lại có số lượng đối tượng cao hơn gần 4 lần so với người dùng. Như vậy trong dữ liệu Kho_PTC4 sẽ có nhiều đối tượng có rất ít người dùng đánh giá, tương ứng với việc có nhiều vật tư thiết bị có rất ít đơn vị sử dụng đến.
Bảng 4.3. Kết quả thực nghiệm khi áp dụng nhúng đỉnh mạng đồ thị hai phía lên hai bộ dữ liệu Kho_PTC4 và DBLP
Dữ liệu
Độ đo đánh giá sai số của dự đoán
Độ đo đánh giá độ chính xác của danh sách đề xuất
MAE RMSE F1@10 MAP@10 MRR@10
DBLP 1.21706003 1.46884238 0.1280 0.1945 0.3024
Kho_PTC4 1.41278254 1.98044531 0.1353 0.0664 0.3397
Kết quả của phương pháp nhúng đỉnh mạng đồ thị hai phía khá tương đồng nhau ở cả hai bộ dữ liệu cho thấy dữ liệu thực tế của doanh nghiệp là phù hợp khi được xây dựng dưới dạng mạng đồ thị hai phía để áp dụng vào hệ thống khuyến nghị. Sai số dự đoán của dữ liệu Kho_PTC4 cao hơn so với DBLP, đặc biệt ở sai số RMSE cao hơn nhiều cho thấy số lượng trường hợp có sai số dự đốn lớn trong Kho_PTC4 cao hơn so với số lượng trường hợp trong DBLP.
Đối với các độ đo đánh giá độ chính xác của danh sách đề xuất, kết quả từ dữ liệu của Kho_PTC4 tốt hơn ở F1@10 và MRR@10, nhưng thấp tại MAP@10. Điều này cho thấy danh sách ngắn do hệ thống khuyến nghị đưa ra đối với dữ liệu Kho_PTC4 tương đối tốt tuy nhiên thứ hạng của các đối tượng phù hợp với người
dùng là còn thấp. Mặc dù vậy, đối tượng của tập dữ liệu là các vật tư thiết bị trong kho của doanh nghiệp đa phần là tương tự nhau, có thể thay thế cho nhau, thì người dùng sẽ chỉ cần quan tâm đến đối tượng đầu tiên được nhìn thấy trong danh sách, phù hợp với kết quả MRR@10 thu được.
Đồ thị 4.1. Kết quả độ đo đánh giá độ chính xác của danh sách đề xuất đối với hai tập dữ liệu
Tiến hành thực nghiệm phương án sử dụng mã VTTB gồm 8 ký tự so với phương án lựa chọn gồm 5 ký tự, kết quả được thể hiện ở bảng 4.4.
Bảng 4.4. Kết quả thực nghiệm các phương án số lượng bộ ký tự
Mơ hình
Số lượng dịng dữ
liệu
Độ đo đánh giá sai số của dự đốn
Độ đo đánh giá độ chính xác của danh sách đề xuất
MAE RMSE F1@10 MAP@10 MRR@10
Phương án bộ mã số 8 ký tự 12,847 0.774452 0.934079 0.0225 0.0074 0.0682 Phương án bộ mã số 5 ký tự 7,514 1.412782 1.980445 0.1353 0.0664 0.3397 0.128 0.1945 0.3024 0.1353 0.0664 0.3397 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 F1@10 MAP@10 MRR@10 DBLP Kho_PTC4
Đồ thị 4.2. Kết quả độ đo đánh giá độ chính xác của danh sách đề xuất đối với hai phương án số lượng bộ mã ký tự
Kết quả về các độ đo đánh giá độ chính xác của danh sách khuyến nghị cho thấy phương án sử dụng bộ mã số gồm 5 ký tự đạt hiệu quả vượt trội so với phương án 8 ký tự. Mặc dù vậy, sai số của dự đoán trong phương án bộ mã 8 ký tự lại tốt hơn, nguyên nhân của việc này là do cấu trúc của bộ dữ liệu có sự khác biệt giữa hai phương án. Với phương án bộ mã 5 ký tự ta có 7,514 dịng dữ liệu, trong khi phương án bộ mã 8 ký tự có đến 12,847 dịng dữ liệu, đồng thời khi giữ số mã ký tự lớn thì số lượng item cũng tăng lên (từ một mã 5 ký tự sẽ quay trở lại nhiều mã 8 ký tự), khiến cho trọng số (là số lần sử dụng VTTB) của từng user với item giảm đi, và các trọng số này lại tập trung vào vùng giá trị thấp khiến cho sai số dự đốn cũng đồng thời giảm đi (Bảng 4.5). Do đó, đối với cơng tác thực tế ưu tiên vào việc gợi ý danh sách các VTTB tương tự phục vụ cho các đơn vị, ta có thể thấy phương án sử dụng bộ mã 5 ký tự là lựa chọn phù hợp, thể hiện qua kết quả các độ đo đánh giá độ chính xác của danh sách đề xuất.
0.0225 0.0074 0.0682 0.1353 0.0664 0.3397 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 F1@10 MAP@10 MRR@10 Bộ mã 8 ký tự Bộ mã 5 ký tự
Bảng 4.5. Tần suất các giá trị trọng số user-item trong các bộ dữ liệu
Trọng số của các cặp user-item
Tần suất xuất hiện P.án 5 ký tự P. án 8 ký tự 1 4,170 10,105 2 1,484 1,705 3 663 549 4 386 230 5 223 104 6 157 49 7 105 32 8 70 16 9 42 14 10 30 9 11-20 184 34 Tổng số 12,847
Khi áp dụng cùng bộ dữ liệu Kho_PTC4 lên hệ thống khuyến nghị ứng dụng nhúng đỉnh mạng đồ thị hai phía và mơ hình lọc cộng tác dựa trên bộ nhớ, ta được kết quả thể hiện ở Bảng 4.6.
Bảng 4.6. Kết quả thực nghiệm khi áp dụng nhúng đỉnh mạng đồ thị hai phía và khi áp dụng lọc cộng tác dựa trên người dùng và đối tượng
Mơ hình
Độ đo đánh giá sai số của dự đoán
Độ đo đánh giá độ chính xác của danh sách đề xuất
MAE RMSE F1@10 MAP@10 MRR@10
Lọc cộng tác dựa
trên người dùng 2.18822016 2.83783191 0.1082 0.0426 0.2283 Lọc cộng tác dựa
trên đối tượng 1.49723066 2.17616912 0.0892 0.0329 0.1894
Nhúng đỉnh mạng
Đồ thị 4.3. Kết quả độ đo đánh giá độ chính xác của danh sách đề xuất so sánh giữa nhúng đỉnh mạng đồ thị hai phía và lọc cộng tác thơng thường Các phép đo sai số và độ chính xác của hệ thống khuyến nghị khi nhúng đỉnh mạng đồ thị hai phía đều tốt hơn rất nhiều so với cả hai mơ hình lọc cộng tác dựa trên người dùng và dựa trên đối tượng, xét trên cả việc dự đoán đánh giá và việc đưa ra danh sách đề xuất. Kết quả này là do việc mơ hình hóa các quan hệ gián tiếp khi nhúng đỉnh mạng hai phía đã bảo tồn được các mối liên hệ ẩn giữa người dùng và người dùng, giữa đối tượng và đối tượng trong thực tế, điều này khơng có được trong các phương pháp lọc cộng tác dựa trên bộ nhớ.
Cụ thể phương pháp nhúng đỉnh mạng đồ thị hai phía thu thập thơng tin các mối quan hệ gián tiếp giữa các đỉnh cùng phía thơng qua việc thực hiện các bước đi ngẫu nhiên, sau đó tối ưu hóa đồng thời cả các quan hệ gián tiếp và quan hệ trực tiếp giúp cho các mối liên kết khác nhau củng cố lẫn nhau. Điều này giúp cho vector nhúng biểu diễn tốt hơn mối quan hệ giữa các đỉnh trong toàn đồ thị cũng như với các đỉnh lân cận, từ đó mơ hình được biểu diễn sẽ sát với đồ thị thực tế hơn. 0.1353 0.0664 0.3397 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 F1@10 MAP@10 MRR@10
Lọc cộng tác dựa trên người dùng Lọc cộng tác dựa trên đối tượng Nhúng đỉnh mạng đồ thị hai phía
Tiếp tục tiến hành thực nghiệm các trường hợp với danh sách đề xuất top_N lần lượt là 3, 5, 8, 10 và 15, ta có các kết quả cho tại Bảng 4.7.
Bảng 4.7. Kết quả thực nghiệm khi áp dụng nhúng đỉnh mạng đồ thị hai phía và khi áp dụng lọc cộng tác dựa trên người dùng và đối tượng
Phương án F1 MAP MRR Top N = 3 0.0821 0.0564 0.1618 Top N = 5 0.1084 0.0596 0.2372 Top N = 8 0.1336 0.0610 0.2916 Top N = 10 0.1353 0.0664 0.3397 Top N = 15 0.1454 0.0597 0.3271
Ứng với top_N càng lớn, tức là danh sách đề xuất càng nhiều, các độ đo đánh giá hiệu quả của của hệ thống khuyến nghị càng tốt hơn. Điều này là phù hợp với thực tế vì số lượng các đối tượng phù hợp sẽ nhiều hơn. Tuy nhiên, một danh sách đề xuất quá dài sẽ khiến cho người cần được tư vấn cảm thấy bối rối để lựa chọn. Đối với công tác thực tế tại doanh nghiệp, các đơn vị sử dụng đều nắm rõ chức năng các vật tư thiết bị trong danh mục đề xuất nên chỉ cần một danh sách khuyến nghị ngắn là có thể chọn ra được đối tượng phù hợp cho công việc. Kết quả thực nghiệm cho thấy danh sách khuyến nghị gồm 8-10 đối tượng là tối ưu.
4.4. Kết luận
Trong chương này, đóng góp của chính của đề tài cũng đã được trình bày thơng qua kết quả nghiên cứu về việc ứng dụng nhúng đỉnh mạng đồ thị hai phía từ dữ liệu thực tế để xây dựng một hệ thống khuyến nghị áp dụng vào hoạt động thực tiễn của doanh nghiệp, cụ thể là công tác quản lý cấp phát vật tư thiết bị tại Công ty Truyền tải điện 4. Qua so sánh với các mơ hình và dữ liệu tham chiếu cho thấy hướng tiếp cận nhúng đỉnh mạng đồ thị hai phía là phù hợp và đạt hiệu quả tốt hơn so với các phương pháp truyền thống. Các quan hệ gián tiếp bậc cao giữa
các đỉnh cùng phía đã được thu thập và bảo tồn trong q trình nhúng đỉnh, từ đó cải thiện độ chính xác cho kết quả của hệ thống khuyến nghị được xây dựng.
Tuy nhiên, một số độ đo mức độ chính xác của hệ thống khuyến nghị vẫn cịn thấp, điều này là do mơ hình huấn luyện chưa được đầy đủ, cơ sở dữ liệu vẫn chưa đủ lớn dẫn đến kết quả dự đoán nhiều trường hợp chưa đạt yêu cầu. Do đó, cơ sở dữ liệu thực tế vẫn cần được tiếp tục cập nhật thêm để kết quả của hệ thống khuyến nghị có thể được cải thiện đáp ứng được yêu cầu công việc thực tiễn.
KẾT LUẬN
1. Kết quả đạt được của đề tài
Đề tài tìm hiểu về một vấn đề có ý nghĩa về mặt lý thuyết và thực tiễn được quan tâm sâu rộng trong thời gian gần đây, đó là giải pháp nhúng đỉnh đồ thị để xây dựng hệ thống khuyến nghị. Qua quá trình nghiên cứu, đề tài đã giải quyết được các mục tiêu ban đầu đề ra.
Về mặt lý thuyết, đề tài đã tìm hiểu tổng quan các phương pháp biểu diễn mạng đồ thị bằng phép nhúng đỉnh cũng như ứng dụng của nó, nghiên cứu chi tiết về một phương pháp nhúng đỉnh mạng đồ thị hai phía cụ thể, lựa chọn mơ hình bài tốn khuyến nghị và ứng dụng phương pháp nhúng đỉnh mạng đồ thị hai phía đã nghiên cứu để xây dựng bài toán khuyến nghị, đánh giá hiệu quả qua các độ đo. Đối với phép nhúng đỉnh, đề tài đã trình bày được tính ưu việt trong việc bảo tồn thơng tin cấu trúc của mạng đồ thị hai phía bằng cách thực hiện các bước đi ngẫu