mắm, Phú Quốc, đạt chứng nhận OCOP (xem hình 3.14, hình 3.15)
Hình 3.14 Minh họa nhập thông tin xác nhận nước mắm Phú Quốc
Tên sản phẩm: Nước mắm Thanh Quốc 35 độ Huyện: Phú Quốc
Chứng Nhận: Tiêu biểu
Hình 3.15 Minh họa cho kết quả phân lớp “đã xác nhận”
3.5.3 Thử nghiệm
Từ dữ liệu trên, ta thử nghiệm trên phần mềm weka, thu được kết quả (xem hình 3.16)
Hình 3.16 Kết quả thử nghiệm cây quyết định áp dụng thuật toán C4.5 – qua phần mềm weka cho sản phẩm nước mắm
Theo các Quyết định chứng nhận sản phẩm được công bố về nước mắm Kiên Giang được xác định dựa vào 3 yếu tố chính: làng nghề, ocop, tiêu biểu. Do đó huyện Phú Quốc có sản phẩm OCOP, làng nghề, tiêu biểu thì đều được xác nhận là “đúng – đã xác nhận”.
Tại huyện Kiên Hải thì có đơn vị được xác nhận trong làng nghề thì cho kết quả là “đúng – đã xác nhận”, sản phẩm ocop và tiêu biểu cho kết quả “no – chưa xác nhận”.
Tiếp theo là huyện Châu Thành đơn vị được xác nhận là sản phẩm tiêu biểu thì cho kết quả là “đúng – đã xác nhận”, sản phẩm ocop và làng nghề cho kết quả “no – chưa xác nhận”
Các huyện còn lại chưa được công nhận vì không thỏa điều kiện 3 yếu tố chính.
Kết quả thử nghiệm cho từng vùng (xem hình 3.17, 3.18)
Hình 3.17 Kết quả test nước mắm huyện Châu Thành
Hình 3.18 Kết quả test nước mắm huyện Kiên Hải
Kết quả kiểm tra trên phù hợp với các tập luật được sinh ra từ cây quyết định Kiên Hải phù hợp với tập luật R2, R3, R4; Châu Thành phù hợp với tập luật R5, R6, R7.
Thông qua chương trình triển khai thực nghiệm tại một số địa điểm cửa hàng trên địa bàn thành phố Rạch Giá tỉnh Kiên Giang, cho thấy qua thời gian khảo sát trong tháng 4 năm 2021. Qua thời gian thử nghiệm kết quả đạt khoảng 87% độ chính xác về xác nhận sản phẩm tư vấn khách hàng yên tâm
lựa chọn đây là sản phẩm Kiên Giang, tác giả kỳ vọng độ kiểm thử từ 60% trở lên là chấp nhận được, do đó số còn lại sai số là 13% để nghiên cứu tiếp theo. Nguyên nhân có thể trong phần dữ liệu mới chưa được cập nhật, dữ nhiệu bị nhập sai do khách quan,…trong thời gian tới nghiên cứu hướng khắc phục.
3.6 Đánh giá hiệu quả của giải pháp khai phá dữ liệu sử dụng cây quyết định vào việc xác nhận sản phẩm
Dự báo hành vi khách hàng tiêu dùng hàng nội địa Việt Nam nói chung, sản phẩm của tỉnh Kiên Giang nói riêng là một trong những vấn đề quan tâm nhất đối với các nhà quản lý, các doanh nghiệp. Việc khách hàng ra quyết định tin tưởng mua hay từ chối mua một sản phẩm có ý nghĩa quan trọng. Các kết quả dự báo là thông tin quan trọng trong công tác lập kế hoạch phát triển, định hướng sản xuất của mỗi doanh nghiệp cho mỗi dòng sản phẩm. Cần có một công cụ hỗ trợ dự báo hành vi khách hàng lựa chọn một sản phẩm tin tưởng và đúng sản phẩm mình lựa chọn. Luận văn đã xây dựng mô hình dự báo hành vi khách hàng mua sản phẩm địa phương dựa mô hình ứng dụng cây quyết định.
Chương trình được thực nghiệm tại một số cửa hàng có sản phẩm Kiên Giang trong tỉnh, khách hàng thông qua chương trình dựa vào các thông tin để tìm hiểu về sản phẩm, kết quả xác nhận từ chương trình thực nghiệm, từ đó xác định được đây có phải là sản phẩm của Kiên Giang không, đưa ra quyết định lựa chọn sản phẩm, giúp doanh nghiệp định hướng phát triển sản phẩm.
Kết quả quả thực nghiệm khẳng định mô hình dựa trên cây quyết định là phù hợp. Thuật toán khai phá dữ liệu sử dụng cây quyết định đã giải quyết được vấn đề làm việc với thuộc tính số (liên tục), thuộc tính có nhiều giá trị, và vấn đề dữ liệu bị thiếu hoặc bị nhiễu. Tìm kiếm những dữ liệu tiềm ẩn trong dữ liệu, bằng phương pháp thống kê thông thường không phát hiện được. Việc sử dụng công cụ bớt được rất nhiều công sức để chuẩn bị dữ liệu.
KẾT LUẬN
Việc ứng dụng phân tích dữ liệu vào công tác dự báo là hướng nghiên cứu có nhiều triển vọng, có thể áp dụng cho nhiều lĩnh vực trong đời sống xã hội. Nó có thể hỗ trợ, chúng ta hoạch định những chiến lược hay kế hoạch đầu tư phát triển hợp lý. Bên cạnh đó, với sự phát triển không ngừng của Ngành công nghệ thông tin, các công cụ hỗ trợ phân tích dữ liệu ngày càng phong phú và hỗ trợ đắc lực con người trong công tác dự báo.
Dữ liệu sản phẩm của Kiên Giang đang trong quá trình công nhận, là dữ liệu thường xuyên thay đổi. Việc dùng mô hình phân lớp trên cây quyết định đã đáp ứng được yêu cầu giám sát dữ liệu. Ngoài độ chính xác cao, bên cạnh đó còn khai phá được các thông tin tìm ẩn bên trong cơ sở dữ liệu, cho nên giải pháp này mang lại hiệu quả cho các cấp quản lý, kinh doanh, tư vấn sản phẩm trong công tác giới thiệu sản phẩm. Giải pháp đã mang lại một cách nhìn mới, trực quan đối với hồ sơ sản phẩm OCOP, công nghiệp nông thôn tiêu biểu, sản phẩm tiềm năng của Kiên Giang.
Sản phẩm có nhiều thông tin về sản phẩm như tên sản phẩm, thương hiệu, tên nhà sản xuất, ngành hàng, địa chỉ sản xuất,… điều đó khiến các sản phẩm có thương hiệu, uy tín rất dễ bị làm giả, bao bì giả, làm mất niềm tin đối với khách hàng muốn sử dụng sản phẩm đặc trưng của địa phương. Kiên Giang là tỉnh có nhiều sản phẩm tiềm năng, bên cạnh đó du lịch lại là ngành mũi nhọn của tỉnh, do đó sản phẩm phục vụ thương mại hay phục vụ du lịch là điều rất cần thiết trong giai đoạn xây dựng và khẳng định vị thế sản phẩm Kiên Giang trên thị trường trong và ngoài nước. Từ thực trạng đang diễn ra tại địa phương khi sản phẩm được giới thiệu đến khách hàng là khách du lịch, khách tham quan, hoặc đại lý rất dễ nhầm lẫn với các sản phẩm khác trong khu vực đồng bằng sông Cửu Long, nhân viên mất nhiều thời gian để giới thiệu, khẳng định sản phẩm và tư vấn cho khách hàng an tâm mua hàng. Tuy
nhiên để nhớ đến một sản phẩm khách hàng chỉ nhớ tên sản phẩm hoặc chứng nhận đã đạt được. Do đó cần có chương trình mang tính dự báo để giúp doanh nghiệp giới thiệu sản phẩm, tư vấn khách hàng mua hàng, an tâm lựa chọn sản phẩm. Từ đó cần có một chương trình xây dựng mang tính dự báo giúp doanh nghiệp giảm thiểu chi phí giới thiệu, nhân viên giảm bớt thời gian quảng bá sản phẩm và đồng thời giúp cho doanh nghiệp giới thiệu được nhiều hơn sản phẩm, phần nào giúp cho Kiên Giang khẳng định thương hiệu sản phẩm.
Thông qua quá trình nghiên cứu về các công cụ hỗ trợ, luận văn đã tiến hành giải quyết bài toán thực tế về công tác dự báo. Tiếp cận bước đầu của luận văn tiến hành khảo sát được thực trạng khai thác cơ sở dữ liệu sản phẩm Kiên Giang hiện có để đưa ra phương pháp khai thác mới khoa học hiệu quả hơn mang đặc tính mô hình hỗ trợ ra quyết định cho một phần công việc trọng tâm của công tác quản lý phát triển sản phẩm.
Qua mô hình phần thực nghiệm tác giả phát hiện được nhiều đặc tính hỗ trợ cho việc phân tích trực tuyến, tính trực quan của mô hình, đặc tính giám sát công việc, hoạch định mô hình tổ chức, nâng cao chất lượng cho quy trình quyết định... Sử dụng phân lớp dữ liệu dựa trên cây quyết định để dự đoán các thông tin quan trọng của một bộ hồ sơ sản phẩm là cơ sở đánh giá.
Các kết quả nghiên cứu trên hy vọng là tài liệu bổ ích, giúp viên chức quản lý công tác xúc tiến, hỗ trợ doanh nghiệp có định hướng đúng, khoa học về lựa chọn hướng tư vấn đề xuất phát triển sản phẩm.
Các kết quả đạt được trong luận văn:
Về mặt khoa học, luận văn đã phân tích, nghiên cứu, tìm hiểu được các bước, quy trình của công việc tư vấn sản phẩm trong thực tế; nắm được các phương pháp và mô hình khai phá dữ liệu; thử nghiệm bài toán đặt ra. Về mặt thực tiễn, luận văn đã nêu giải pháp kỹ thuật để vận dụng và xây dựng hệ thống trợ giúp ra quyết định trong công tác tư vấn đánh giá có phải đúng sản
phẩm của địa phương; kết hợp lý thuyết về mô hình khai phá dữ liệu và thuật toán xây dựng cây quyết định. Luận văn đã cho thấy sự hữu ích của việc phân tích dữ liệu để áp dụng, giải quyết các bài toán thực tế.
Tuy nhiên, do một số nguyên nhân khách quan và chủ quan, luận văn vẫn còn tồn tại một số hạn chế sau:
Đặc thù của việc tư vấn đánh giá xem có phải đúng sản phẩm Kiên Giang còn mang nhiều tính chất định tính, vì vậy hệ thống được xây dựng chỉ mang tính hỗ trợ là chính; công tác tư vấn còn nhiều quy định mà dữ liệu không thể thể hiện hết được, dẫn đến kết quả chưa theo mong muốn. Dữ liệu thu thập dẫn đến công tác dự báo mới chỉ dừng lại ở phạm vi cục bộ, hệ thống chỉ chạy thử nghiệm với phạm vi hẹp.
Để khắc phục những hạn chế nêu trên, trong thời gian tới, luận văn sẽ tiếp tục nghiên cứu mở rộng phạm vi thu thập dữ liệu, tìm hiểu rõ thêm các công cụ hỗ trợ khác để tiến hành dự báo có tính khái quát và chính xác hơn.
[1] TS. Võ Thị Ngọc Châu (2011-2012), “Tổng quan về khai phá dữ liệu, ứng dụng khai phá dữ liệu”, Giáo trình điện tử Cao Học Ngành Khoa Học Máy Tính, Trường Đại Học Bách Khoa Tp. Hồ Chí Minh.
[2] Nguyễn Thị Thùy Linh (2005), Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định, Trường Đại học Quốc Gia Hà Nội.
[3] Vũ Lan Phương (2006), “Nghiên cứu và cài đặt một số giải thuật phân cụm phân lớp”, Luận văn Thạc sỹ, Đại học Bách khoa Hà Nội.
[4] Jean-Marc Adamo (2001), Data Mining for Association Rule and Sequential Pattens, With 54 Illustrations. ISBN0-95048-6.
[5] Charu C.Aggarwal (2015), “Data Mining – The textbook”.
[6] Patrick Bosc - Didier DUBOIS - Henri PRADE, Fuzzy functional dependencies.
[7] Wong, Cheung (2000), "Data Mining Using Grammar Based Genetic Programming And Applications"
[8] Jim Gray (August 2000), The Morgan Kaufmann Series in Data Management Systems, Datamining - Concepts and Techniques, Series Editor Morgan Kaufmann Publishers .
[9] Jiawei Han, Micheline Kamber (2000), Data Mining: Concept and Techniques.
[10] Jiawei Han, Micheline Kamber, Jian Pei (2012), Data Mining: Conceptsand Techniques, Third Edition, Morgan Kaufmann Publishers.
[11] David Hand, Heikki Mannila, Padhraic Smyth (2001),
“Principles of Data Mining”.
[12] Ron Kohavi, J. Ross Quinlan (1999), Decision Tree Discovery . [13] Oded Maimon, Lior Rokach (2010), “Data Mining and
IEEE Computer.
[15] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire (2008) “Successes and new directions in data mining”.
[16] David L.Olson, Dursun Delen (2008), “Advanced Data Mining Techniques”.
[17] Pascal Poncelet (2008), Data Mining Patterns – News Method and Application”.
[18] John Ross Quinlan (1993), C4.5: Programs for Machine Learning,
Morgan Kaufmann Publishers.
[19] P.Tan, M.Steinbach, V.Kumar (2006), “Introduction to Data Mining”
[20] ZhaoHui Tang, Jamie MacLennan (2005) “Data Mining with SQL Server 2005”.
[21] Bao Ho Tu (1998), “Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology”.
[22] Graham J.Williams, Simeon J. Simoff (2006), “Data Mining: Theory, Methodology, Techniques, and Applications”.
[23] John Wiley & Sons (2003), “Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc”.
[24] John Wiley & Son, “Visual Data Mining: Techniques and Tools for Data Visualization and Mining, by Tom Soukup and Ian Davidson, ISBN: 0471149993”.
practical machine learning tools and techniques”.
[27] Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu , Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2008), “Top 10 algorithms in data mining, Knowl Inf Syst”
[28] http://bis.net.vn/forums/t/815.aspx (2014), “Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ”.
[29] https://www.rulequest.com/see5-comparison.html [30] https://en.wikipedia.org/wiki/ID3_algorithm [31] https://en.wikipedia.org/wiki/C4.5_algorithm [32] https://en.wikipedia.org/wiki/Decision_tree [33] https://en.wikipedia.org/wiki/Apriori_algorithm [34] http://bis.net.vn/forums/p/389/683.aspx