NHỮNG KHÓ KHĂN VÀ GIẢI PHÁP TRONG THU THẬP GIÁ BÁN LẺ HÀNG HÓA VÀ DỊCH VỤ TIÊU DÙNG TỪ CÁC TRANG WEB THƯƠNG MẠI ĐIỆN TỬ TẠI VIỆT NAM

19 6 0
NHỮNG KHÓ KHĂN VÀ GIẢI PHÁP TRONG THU THẬP GIÁ BÁN LẺ HÀNG HÓA VÀ DỊCH VỤ TIÊU DÙNG TỪ CÁC TRANG WEB THƯƠNG MẠI ĐIỆN TỬ TẠI VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trong những năm qua, ứng dụng nguồn dữ liệu lớn (bigdata) được nhiều tổ chức trong nước và ngoài nước sử dụng nhằm khai thác các tiềm năng sẵn có từ bigdata, để phục vụ cho các công việc của chúng ta. Tuy nhiên, bên cạnh những tiềm năng đó, thì có không ít những khó khăn từ bigdata cần được giải quyết trước khi đưa vào khai thác.

NHỮNG KHÓ KHĂN VÀ GIẢI PHÁP TRONG THU THẬP GIÁ BÁN LẺ HÀNG HÓA VÀ DỊCH VỤ TIÊU DÙNG TỪ CÁC TRANG WEB THƯƠNG MẠI ĐIỆN TỬ TẠI VIỆT NAM Trong năm qua, ứng dụng nguồn liệu lớn (bigdata) nhiều tổ chức nước nước sử dụng nhằm khai thác tiềm sẵn có từ bigdata, để phục vụ cho công việc Tuy nhiên, bên cạnh tiềm đó, có khơng khó khăn từ bigdata cần giải trước đưa vào khai thác Năm 2015, Viện Khoa học Thống kê (KHTK) thành lập Nhóm nghiên cứu, khai thác nguồn liệu lớn (bigdata) để sản xuất số liệu thống kê nhà nước đồng chí Viện trưởng Viện KHTK trực tiếp đạo Cụ thể, Viện KHTK thử nghiệm khai thác bigdata phục vụ sản xuất số giá tiêu dùng Trong q trình thực nhóm nghiên cứu cơng nghệ, xây dựng chương trình trích xuất liệu, quy trình thu thập giá tiêu dùng từ website bán hàng trực tuyến, thu thập xử lý liệu hàng hóa dịch vụ tiêu dùng phục vụ sản xuất số giá tiêu dùng Quá trình thử nghiệm khai thác cụ thể theo bước: Bước 1: Lựa chọn cơng nghệ trích xuất liệu từ trang web Bước 2: Xác định trang web chứa thơng tin giá lẻ hàng hóa dịch vụ tiêu dùng Bước 3: Trích xuất, chuyển đổi cấu trúc phân loại liệu từ trang web Bước 4: Xử lý lưu trữ liệu Trong q trình thử nghiệm, nhóm tiến hành song song nghiên cứu công nghệ mới, triển khai thử nghiệm, nên bước thực có khó khăn định Bài viết viết khó khăn giải pháp cụ thể nhóm thực để đạt kết tốt Lựa chọn cơng nghệ trích xuất liệu từ trang web Khó khăn: Theo nghiên cứu Viện KHTK, giới sử dụng nhiều tảng cơng nghệ khác để trích xuất liệu từ nguồn bigdata như: Web Scarper, API, Crowsourcing, Machine learning, Google Voice Search, Hadoop (Map reduce); Spark; Hơn nữa, vấn đề mới, Việt Nam chưa có kinh nghiệm nghiên cứu nhiều nên việc lựa chọn công nghệ phù hợp với công tác nghiên cứu khó khăn Cụ thể nhóm sử dụng cơng nghệ để xây dựng chương trình thu thập giá bán lẻ hàng hóa dịch vụ tiêu dùng từ trang web bán hàng trực tuyến Giải pháp: Để xác định cơng nghệ sử dụng, nhóm tiến hành nghiên cứu kinh nghiệm Hàn Quốc, Anh số nước thành viên nhóm nghiên cứu toàn cầu liệu lớn Liên Hợp quốc (GWG) Kết nghiên cứu kinh nghiệm nước trên, đặc biệt Hàn Quốc cho thấy: Hàn Quốc sử dụng công nghệ Web Scaper công nghệ API (Sử dụng hàm truy vấn thông minh để trích xuất thơng tin website bán hàng trực tuyến Hàn Quốc hỗ trợ tảng công nghệ API) Tuy nhiên, Ở Việt Nam có website thương mại điện tử hỗ trợ công nghệ API số lượng website thương mại điện tử nhiều Vì nhóm khơng lựa chọn cơng nghệ API Tiếp tục nghiên cứu sâu tảng công nghệ Web Scraper Hàn Quốc nhóm nhận thấy cơng nghệ Web Scraper phù hợp với tình hình Việt Nam Mặt khác, cơng nghệ có ưu điểm khơng địi hỏi chi phí q cao, hiệu thu thập thơng tin tốt Xác định trang web chứa thông tin giá lẻ hàng hóa dịch vụ tiêu dùng Khó khăn: Tương tự việc tiến hành khảo sát, lập mạng lưới điểm điều tra thu thập thông tin giá tiêu dùng theo phương pháp truyền thống, việc xác định trang web chứa thông tin giá bán lẻ hàng hóa dịch vụ tiêu dùng vô quan trọng Hiện theo xu hướng phát triển thương mại điện tử nên mạng Internet có nhiều trang web thương mại điện tử bán hàng trực tuyến Tuy nhiên, thử nghiệm ban đầu nhóm gặp nhiều khó khăn việc lựa chọn trang web để thu thập liệu, như: - Các trang web có miền truy cập khơng khả dụng - Nhiều trang web chặn lệnh truy vấn, khơng thể trích xuất liệu - Có trang web tên miền nước lại hoạt động lãnh thổ Việt Nam (VD: yes.com) - Một số trang web cho phép trích xuất liệu khoảng thời gian định (VD: lazada.vn) Giải pháp: Để đưa giải pháp nhóm nghiên cứu yếu tố ảnh hưởng đến hoạt động ổn định trang web, từ nhóm đưa tiêu chí để lựa chọn webhoạt động ổn định phù hợp với mục tiêu đề để đưa vào danh sách làm nguồn thu thập liệu: + Các trang web có bán mặt hàng tiêu dùng danh mục rổ hàng hóa tiêu dùng truyền thống; + Các trang web có sẵn mặt hàng thay trường hợp thông tin bị khuyết thiếu tiến hành thu thập; + Trang web có đặc điểm phù hợp với tảng công nghệ thu thập (web scraper) nhóm sử dụng trích xuất liệu; + Trang web phải Bộ Công thương quản lý (Cục Thương mại điện tử); + Trang web có số lượt truy cập nhiều Kết quả, nhóm lựa chọn 44/104 trang web có khả thu thập liệu tương đồng với tên quy cách hàng hóa rổ hàng hóa tính CPI 3 Trích xuất, chuyển đổi cấu trúc liệu phân loại liệu thu thập từ trang web Khó khăn: Q trình trích xuất liệu, khó khăn lớn gặp phải yêu cầu liệu trích xuất dạng phi cấu trúc (dữ liệu text, liệu số, liệu hình ảnh,…) Giải pháp: Để giải vấn đề cần có công nghệ phù hợp Viện KHTK nghiên cứu thiết kế chương trình/cơng cụ trích xuất liệu từ trang web với tên gọi ISS-robot Chương trình trích xuất liệu viết theo ngơn ngữ lập trình Nodejs1 để trích xuất liệu giá bán lẻ hàng hóa dịch vụ tiêu dùng từ 44 trang web bán hàng trực tuyến mạng Internet Tuy nhiên cịn khó khăn lớn khâu làm phân loại liệu theo rổ hàng truyền thống Ví dụ, Thử nghiệm ngày 1/12/2018, Viện KHTK tiến hành thu thập giá bán lẻ mặt hàng tiêu dùng trang web http://thucphamnhanh.com/ Sau xác định trang web thông tin cần thu thập bước trang trang web http://thucphamnhanh.com/, tiếp xác định thông tin cần thu thập bước thực sau: Lấy đường dẫn nhóm mặt hàng thông tin mặt hàng cần thu thập - Sử dụng tiện ích Google Scraper Similar, trích xuất tồn đường dẫn có chứa thơng tin mặt hàng cần thu thập Các thơng tin lưu trữ file có định dạng.js - Thơng tin mặt hàng bao gồm: Tên mặt hàng, quy cách, phẩm cấp ( có sản phẩm có, có sản phẩm khơng có), thơng tin khuyến mại (nếu có), giá bán mặt hàng ( bao gồm đơn vị tính), hình ảnh Bước 3: Khởi động chương trình ISS-Robot để thu thập liệu tự động Nodejs ngơn ngữ lập trình web dựa mơi trường Javascript Runtime trình duyệt web Chrome Chương trình ISS-Robot có cấu trúc: Gồm module quan trọng: - Module 1: file chứa tồn thơng tin tồn mặt hàng cần thu thập - Module 2: file có đường dẫn chứa nhóm sản phẩm (đã xác định bước trên) (chương trình tạo nhiều file, file chứa đường dẫn nhóm sản phẩm trang web) - Yêu cầu ISS-Robot thu thập liệu từ website: - Phải gắn đường dẫn nhóm mặt hàng website (đã lấy trên) vào chương trình - Gắn thông tin mặt hàng (đã xác định trên) vào chương trình - Xây dựng chứng để tránh số website ngăn chặn việc truy cập để trích xuất thơng tin chương trình Cơng việc thu thập trích xuất liệu từ website cơng việc khó khăn cơng nghệ mới, Tuy nhiên nhóm nghiên cứu tối ưu hóa bước thực nhằm mục đích tạo đơn giản thuận tiện cho cán Thống kê - Khởi động ISS-Robot: Chọn Start góc trái hìnhGõ CMD để chạy file module - Theo dõi hoạt động chương trình thơng qua trình duyệt web (bằng cách trình duyệt, gõ địa locallhost:3000) Khi chạy vào chương trình theo dõi hiển thịdanh sách 44 website xác định Chọn vào website để lấy đường dẫn chứa thông tin thu thập ISS-Robot (đường dẫn dạng locallhost: 3000/tên website thu thập Ví dụ: locallhost/thucphamnhanh) Khi thực thao tác thị thơng tin mặt hàng website mà thu thập Nếu trang bảo mật, thông báo phải liên hệ với quản trị website - Lưu trữ liệu thơ vừa thu thập • Công nghệ: sử dụng hệ quản trị sở liệu MongoDB • Đưa đường chứa thơng thông tin thu thập ISS-Robot vào MongoDB để lưu trữ liệu thô Kết thu 1300 ghi thông tin (dữ liệu thô) mặt hàng từ trang: thucphamnhanh • Lấy liệu thơ để đưa vào sử dụng: - Lấy dường dẫn chứa thông tin thu thập ISS-Robot đưa vào Excel thông qua chức kết nối liệu từ website (Data / Data from Web) (trong công cụ chỉnh sửa thời gian tự động cập nhật) - Kết cho liệu thô để phục vụ cho bước xử lý liệu (dữ liệu thô phi cấu trúc lưu dạng file Excel) Chuyển đổi cấu trúc liệu Chuyển đổi liệu thô thu thập dạng phi cấu trúc dạng có cấu trúc: Sử dụng hàm Macro Excel - Tách liệu thô thu thành trường: Tên mặt hàng (gồm tên, quy cách, phẩm cấp mặt hàng) Giá (gồm giá đơn vị tính giá) cách sử dụng hàm Left, Right Find Excel - Tiếp tục tách xử lý Giá (loại bỏ ký tự không cần thiết cột giá): Sử dụng Macro (code tự phát triển để sử dụng) Kết thu cột Giá sản phẩm loại bỏ hết ký tự khơng cần thiết (chỉ cịn lại giá) - Tiếp tục tách xử lý cột Tên mặt hàng (thực chất tách riêng tên mặt hàng quy cách, phẩm cấp): Dùng hàm Left, Right Find để tách cột tên mặt hàng thành cột (tên mặt hàng cột quy cách mặt hàng) - Tiếp tục tách Đơn vị tính mặt hàng (từ cột quy cách mặt hàng vừa tách bước trên): dùng notepad++ để tách (xóa hết ký tự trước đơn vị khối lượng mặt hàng) Có số mặt hàng sau tách đơn vị tính có dạng như: 12 cái/30 (bánh bao thầu cacao tân việt sin), 1.8kg cánh lớn (bột ajnomoto) Để xử lý phải chuyển sang bước làm để chuẩn hóa đơn vị tính) Kết quả: Từ liệu thô ban đầu chuyển thành liệu có cấu trúc gồm trường: Tên mặt hàng, quy cách, đơn vị tính mặt hàng, giá Làm liệu Kiểm tra, xử lý trường hợp thiếu thơng tin giá, đơn vị tính, thông tin không logic đơn giá với đơn vị tính lượng, tạm thời loại bỏ ghi Thực tế có ghi thu khơng rõ quy cách, đơn vị tính có giá (ví dụ trường hợp cá thu nhật 1kg, ba ba nguyên con, ) Hướng xử lý tạm thời giữ lại Kết quả: Từ 1300 ghi thông tin (dữ liệu thô) sau tiến hành xử lý liệu cịn lại 600 ghi thơng tin mặt hàng từ trang: thucphamnhanh Phân nhóm mặt hàng theo danh mục rổ hàng hóa truyền thống: Ý tưởng: Tách tên mặt hàng danh mục mặt hàng truyền thống Vụ Thống kê Giá thành từ so khớp với từ tên mặt hàng 600 ghi thông tin thu thập Thực hiện: - Tách tên mặt hàng thành từ Excel sau: Chọn trường tên mặt hàng dùng chức Text to colum excel Chọn mục ký hiệu dấu cách Kết tên mặt hàng tách thành từ (VD Gạo_tấm_xốp _lai) - So khớp mặt hàng từ cấp chi tiết đến cấp 5: So khớp từ mặt hàng cấp 4: Số mặt hàng tìm mã để so sánh với danh mục hàng hóa truyền thống là: 161/600 - So khớp mặt hàng từ cấp đến cấp 1: Số mặt hàng tìm mã để so sánh với danh mục hàng hóa truyền thống là: 76/600 Khó khăn: Phát số mặt hàng bị khớp sai mã Do bảng danh sách từ khóa chưa có tên mặt hàng nên theo tìm kiếm tương đối hàm vlookup, trả kết mã có tên mặt hàng gần giống Ví dụ: Bạc hà đánh mã với ba rọi, chân gà đánh mã với chả giò… Để giải vấn đề này, Viện Khoa học Thống kê lập nhóm sốt lại việc so khớp mã mặt hàng nhằm tìm mặt hàng bị đánh mã nhầm bổ sung bảng danh sách từ khóa Ví dụ: Mặt hàng bạc hà cần bổ sung vào bảng danh sách từ khóa đánh mã vào mục Rau gia vị tươi, khô loại Hơn nữa, khó khăn lớn nhất chưa tìm cơng cụ phân nhóm tự động đồng loạt nhiều ghi lúc Muốn làm phải phân nhóm cách thủ cơng Ví dụ 2: Thử nghiệm ngày 3/12/2018 Trích xuất liệu từ website: thucphamnhanh.com, adayroi.com, csfood.vn với tổng số 32122 mặt hàng Quy trình thu thập liệu tương tự thử nghiệm ngày 1/12/2018 Chuyển đổi liệu thô thành liệu có cấu trúc u cầu: Tồn liệu thu lưu file định dạng excel (không để file liệu website mà liệu tất 44 website file) Kiểm tra, đánh giá liệu (sau nhận liệu có cấu trúc) Yêu cầu: - Có đầy đủ thơng tin: tên website, tên mặt hàng, quy cách, đơn vị tính, giá mặt hàng? - Định dạng có thống khơng? Đơn vị tính có phù hợp khơng? - Khi xếp tên mặt hàng theo thức tự abc phải theo trật tự thực tế, thực lệnh sort có số mặt hàng khơng xếp theo thứ tự Nguyên nhân khối lượng liệu xếp lớn nên có trường hợp phần mềm excel thông thường thực chưa đáp ứng yêu cầu Làm liệu Yêu cầu: - Loại bỏ ghi (mặt hàng) trùng (bằng lệnh Remove Duplicates excel) Ví dụ, trang adayroi nhóm Bigdata phát có nhiều dịng thơng tin bị trùng (trùng 1000 dòng), nguyên nhân có nhiều người bán bán mặt hàng đó, người bán đăng lên nhiều tin Tiêu chí mặt hàng trùng nhau: trùng tất tiêu chí: thu từ website; tên mặt hàng giống nhau; quy cách phẩm cấp mặt hàng giống nhau; đơn vị tính mặt hàng giống nhau; giá mặt hàng - Khi thực excel, trường hợp việc loại bỏ mặt hàng trùng không bị giới hạn số ghi lần xóa bị giới hạn số ghi lần xóa cho phép thực xóa nhiều lần giữ ngun file liệu Trường hợp việc loại bỏ mặt hàng trùng cho phép thực xóa lần với số lượng ghi giới hạn tối đa bị xóa tách làm file (lấy điểm cắt tên mặt hàng đó) để xóa) sau xóa xong nối lại file thành file ban đầu - Loại bỏ mặt hàng mặt hàng tiêu dùng (mặt hàng mà người mua mua để phục vụ sản xuất, mua để mua bán lại, ) - Loại bỏ mặt hàng khơng có giá Một số phát sinh gặp phải:  Một số mặt hàng thu thập từ website chất mặt hàng, khác khối lượng mặt hàng, giá tỷ lệ với khối lượng mặt hàng Trong trường hợp có xóa mặt hàng hay khơng? Ví dụ: Tại trang adayroi có ghi mặt hàng: Gạo lứt thơm Thái Dương túi 1kg có giá 24000 đồng Gạo lứt thơm Thái Dương túi 2kg có giá 48000 đồng  Nếu ghi mặt hàng khác tên gọi (do cách gọi vùng miền: ví dụ áo gối vỏ gối, ngơ bắp, bát chén, ) cân nhắc việc thay tên mặt hàng tên mặt hàng cịn lại để có tên giống (ví dụ replace tên áo gối thành vỏ gối, bắp thành ngô, )  Xem xét liệu để ưu tiên xác định nhóm mặt hàng có danh mục truyền thống để lọc trước  Xem xét liệu để thấy nhóm mặt hàng có số lượng nhiều để lọc trước nhằm giảm bớt số lượng ghi lần lọc sau  Xem xét liệu để xác định mặt hàng nhóm lại vị trí khác tập liệu có tên mặt hàng bắt đầu chữ khác (ví dụ bàn bàn ủi máy tính để bàn máy tính xách tay) để lọc cắt tồn ghi nhóm này, tránh phải thực lọc nhiều lần thời gian Lọc liệu Lọc liệu: sử dụng lệnh Filter excel Hạn chế: lệnh Filter liệu bị giới hạn hiển thị tối đa tên 10.000 ghi lúc nên phải thực Filter nhiều lần, sau cắt tồn ghi lọc sang chỗ khác filter lần excel tự động đẩy ghi bên 10.000 ghi trước cắt để hiển thị tiếp)  Có nhiều mặt hàng chưa biết phân vào nhóm mặt hàng truyền thống Hiện tại, nhóm cố gắng tối đa lọc phân mặt hàng vào nhóm mặt hàng cấp cấp theo rổ hàng hóa truyền thống Phân nhóm mặt hàng theo danh mục rổ hàng hóa truyền thống: - Ưu tiên tách nhóm mặt hàng tách tới cấp trước (nếu khơng tách tới cấp 4, tới cấp 3) Ưu tiên tách thứ tự mặt hàng theo thứ tự nhóm mặt hàng theo danh mục truyền thống - Nhìn nhanh liệu, mặt hàng có số lượng lớn (xuất nhiều danh sách mặt hàng thu được) tách trước để giảm bớt khối lượng lần 10 tách sau Ví dụ nhóm gạo, bếp, bia, ấm đun nước bình đun nước, bánh, Tuy nhiên, liệu xếp theo thứ tự abc chưa chuẩn nên sau cắt toàn ghi nhóm, phải thực tìm kiếm (find) liệu để phát nốt ghi hàng hóa - Một số nhóm mặt hàng giống nhau:  Áo gối vỏ gối; Ấm đun nước bình đun nước  Bánh lát xếp vào nhóm bánh hay cho chung vào nhóm bánh snack bim bim?  Bún (bún khơ) xếp vào nhóm mặt hàng (Nhóm Bún phở bánh đa hay Nhóm Mỳ sợi, phở, cháo ăn liền) (Hiện xếp vào nhóm Mỳ sợi, phở cháo ăn liền chất bún khơ) nhóm Bún, phở, bánh đa đề cập tới bún, phở tươi)  Khoai lang khoai tây có khoai lang tươi khoai tây tươi Các mặt hàng khoai lang khoai tây chủ yếu khoai lang khoai tây chiên đồ khơ Vì vậy, khơng rõ phân vào nhóm nào?  Nhóm mặt hàng phụ kiện máy tính điện thoại tivi: khơng biết nên phân vào nhóm ví dụ dây cáp HDMI dùng cho máy tính, điện thoại, tivi cáp chuyển đổi USB sang type C Lightning?  Quần tất phân vào nhóm quần áo hay bít tất?  Mũ lơng trẻ em mũ noel đưa vào nhóm quần áo hay nhóm mũ, nón, áo mưa?  Mũ bơi xếp vào nhóm nào? quần áo hay mũ, nón, áo mưa?  Lưỡi bị, lưỡi heo cho thịt bò, thịt lợn hay nội tạng động vật?  Thẻ nhớ phân cho nhóm máy tính phụ kiện hay cho nhóm máy điện thoại, máy tính bảng hay nhóm máy ảnh, máy quay, camera?  Các combo dầu gội sữa tắm phân vào nhóm nào? Nhóm dầu gội hay nhóm chăm sóc thể? 11  Bộ sản phẩm dành cho da đầu nhạy cảm, thân tóc mỏng Leonor Greyl (gồm: Dầu dưỡng dành cho da đầu Oil Regenerescence Naturelle 60ml; Dầu dưỡng dành cho thân tóc Oil Huile De Leonor Greyl 95ml; Mặt nạ dưỡng dành cho tóc dày Leonor Greyl Maque L’ Orchidee 200ml; Dầu gội dành cho da đầu khô Shampooing Creme AUX Fleurs 200ml; Dầu gội dành cho da đầu bị nhờn Shampooing Bain Ts 200ml; Serum dưỡng tóc cao cấp Styling Serum Sublimateur 75ml; Tinh chất đặc trị rụng tóc Complexe Energisant 5ml phân vào Nhóm dầu gội hay nhóm chăm sóc thể ?  Combo mặt nạ dầu gội Alonzo Nature Fruit tinh dầu dừa xịt dưỡng cho tóc khơ xơ Alonzo Keratin Spray phân vào nhóm nào?  Dầu tắm gội (vừa để tắm, vừa để gội) phân vào nhóm nào? Dầu gội hay chăm sóc thể? Một hướng giải khó khăn gặp phải là xây dựng bảng từ khóa dựa danh mục rổ hàng truyền thống chi tiết (cấp địa phương) để làm so khớp mặt hàng thu từ trang web Căn xây dựng bảng từ khóa bao gồm: - Bảng từ khóa (Từ điển) xây dựng từ nguồn: + Danh mục hàng hóa truyền thống Vụ Giá (COICOP) + Danh mục mặt hàng thu thực tế quận, huyện tỉnh + Danh mục mặt hàng thu thực tế trang web Lưu trữ liệu 4.1 Dung lượng liệu thu thập lớn: Dữ liệu thu thập liệu thô (dữ liệu chưa phân tách rõ giá tên) với 670.000 mặt hàng thô thu thập Như muốn sử dụng phải tách liệu Một khó khăn lớn q trình xử lý liệu khối lượng liệu thô lớn (hiện Viện sử dụng nhớ khoảng 500GB, nhiên, khối lượng liệu thu thập ngày xấp xỉ 300 MB) 12 Trong kết nghiên cứu ban đầu, liệu thu thập lớn, cần nhiều nguồn lực để xử lý (trang thiết bị, thời gian, ) nên trước mặt xử lý số mặt hàng thu thập thuộc rổ hàng hóa CPI theo nguyên tắc: Chọn mặt hàng có tên quy cách gần giống với tên mặt hàng cấp rổ hàng hóa CPI Tuy nhiên, lâu dài cần có sở lưu trữ liệu đủ lớn giải vấn đề Bên cạnh việc xử lý khó khăn trình thu thập thơng tin gây ra, khó khăn khác việc lựa chọn cơng cụ để kiểm tra phát thông tin nghi ngờ sai Đối với liệu thu thập với số lượng ít, sau thu thập kiểm tra công cụ excel để phát thơng tin có xác hay khơng hồn tồn khả thi Nhưng liệu thu thập lớn kết nghiên cứu ban đầu cơng cụ Excel tỏ khơng hiệu lập mơ hình để phát thơng tin sai sót Do đó, nhóm tìm hiểu sử dụng cơng cụ phần mềm Tableau, cơng cụ cho phép phân tích thơng tin có số lượng lớn hỗ trợ nhiều nguồn liệu với nhiều định dạng khác Đồng thời cho kết hình ảnh phân tích trực quan dễ quan sát 4.2 Phát mặt hàng có giá bất thường: Thực tế liệu thu thập có nhiều mặt hàng có giá khác (cao cấp mặt hàng phổ thơng) gây khó khăn cho việc chọn hàng hóa Để chọn danh sách hàng hóa phù hợp với rổ hàng hóa CPI, nhóm nghiên cứu tham khảo giá hàng hóa cá thể địa phương thu thập rổ hàng hóa CPI Từ nhóm xác định khoảng giá phù hợp mặt hàng cấp Ngồi cịn có khó khăn khác: - Đơn vị tính mặt hàng thu thập khơng đồng nhất, phải nhiều thời gian để tách đồng đơn vị tính hàng hóa thu thập - Giá bất thường (quá cao thấp) nhóm loại bỏ khỏi danh mục lựa chọn 13 Ví dụ: Trường hợp hạt tiêu đen ví dụ giá bất thường Trước xử lý liệu, giá thu thập hạt tiêu đen hàng ngày 200.000 đồng/kg phù hợp với mức giá Cục thống kê thu thập theo phương pháp truyền thống Tuy nhiên, sau kiểm tra liệu bằng mơ hình phân tích theo chuỗi thời gian, nhóm phát hạt tiêu có giá giảm bất thường Cụ thể giá hạt tiêu đen giảm đột ngột ngày 20/6/2017 20.000 đồng/kg, mức giảm lớn Tuy nhiên, qua kiểm tra liệu cho thấy trường hợp giảm giá khuyến mại mà nguyên nhân thay đổi đơn vị đo lường từ 1kg chuyển thành 100g (hộp 100g) Do trường hợp nhóm thống giữ lại có điều chỉnh đơn vị tính giá thu thập Dưới đồ thị minh họa thay đổi giá bất thường mặt hàng hạt tiêu đen: Hình 1: Sử dụng mơ hình phân tích theo chuỗi thời gian để kiểm tra liệu 4.3 Phát mặt hàng không quy cách Thực tế xuất trường hợp: - Trường hợp 1, có mặt hàng có tên gọi giống gần giống với mặt hàng chi tiết thuộc rổ truyền thống, xử lý trực tiếp kiểm tra lại mặt hàng thu thập lại khác với mặt hàng truyền thống Hình 3: minh họa trường hợp 1- Hai mặt hàng tên, khác quy cách Mã Mặt hàng truyền thống Tên gọi Hình ảnh Mặt hàng online Tên gọi Hình ảnh 14 01102041 Sắn tươi, loại củ to vừa Củ sắn (adayroi.com ) - Trường hợp 2: Ngược lại, có mặt hàng thu thập online khác tên gọi với mặt hàng truyền thống, chất mặt hàng online truyền thống lại giống Hình 4:Minh họa trường hợp 2- Hai mặt hàng chất, khác tên gọi Mã Mặt hàng truyền thống Tên gọi Hình ảnh 01204032 Quả bầu dục lợn tươi Mặt hàng online Tên gọi Hình ảnh Cật heo tươi (adayroi.com ) Để giải vấn đề này, người xử lý buộc phải kiểm tra kỹ lưỡng quy cách loại mặt hàng từ liệu gố thu thập được, đối chiếu tên gọi hình ảnh mặt hàng thu thập Việc giúp khắc phục vấn đề: Một là, hạn chế thu nhầm mặt hàng có tên gọi sai quy cách; Hai là, tránh bỏ sót mặt hàng đáp ứng tiêu chuẩn rổ hàng truyền thống có tên gọi khác Tuy nhiên khối lượng liệu lớn, chiếm nhiều nhớ nên nhóm chưa thực tất mặt hàng thu thập 4.4 Vấn đề mặt hàng khuyến mại Trong q trình thu thập nhận thấy có nhiều sản phẩm phù hợp với tiêu chí rổ hàng truyền thống, nhiên trình kiểm tra liệu giá mặt hàng lại phát bất thường giá (giá giảm nhiều khoảng thời gian định) Các mặt hàng thường chịu ảnh hưởng tác động mùa vụ (Ví dụ giá bán tour du lịch biển thường thấp vào mùa đơng cao mùa hè Vì nhà cung cấp tour thường tung gói khuyến vào 15 mùa đơng để kích cầu du lịch Điều cho giá tour giảm rõ rệt) Ngoài ra, mặt hàng khuyến mại cịn mặt hàng thuộc top hàng nhà cung cấp muốn chạy chương trình (các mặt hàng hết hạn), mặt hàng (mục đích nhằm quảng cáo tới người tiêu dùng),… Các mặt hàng có chung đặc điểm giá thấp bình thường chương trình khuyến mại, trở trạng thái ban đầu sau hết khuyến mại Vậy làm để phát mặt hàng đặc biệt này? Giải pháp: Phương pháp phát mặt hàng có giá khuyến mại tương tự phương pháp phát giá mặt hàng có giá bất thường Nghĩa sử dụng đồ thị để quan sát giá trị bất thường Tuy nhiên mặt hàng khuyến mại có giá giảm khoảng thời gian (thay giảm theo thời điểm giá bất thường) Ngoài ra, để khẳng định mặt hàng nghi ngờ có khuyến mại hay khơng người xử lý cần phải trực tiếp kiểm tra lại sở liệu gốc thu thập 4.5 Xác định danh sách mặt hàng chi tiết để phục vụ tính tốn Danh sách mặt hàng tiêu dùng nhóm sử dụng để tiến hành thu thập giá vào rổ hàng hóa truyền thống nay, gồm nhóm mặt hàng: - Mặt hàng cấp 1: 11 nhóm mặt hàng, - Mặt hàng cấp 2: 32 nhóm mặt hàng, - Mặt hàng cấp 3: 86 nhóm mặt hàng, - Mặt hàng cấp 4: 266 nhóm mặt hàng - Mặt hàng cấp 5: 654 mặt hàng Trong trình khai thác, trích xuất thu thập liệu, có khó khăn để xác định danh sách mặt hàng chi tiết cần thu thập: - Khối lượng liệu mặt hàng thu lớn: 670.000 mặt hàng thơ; - Hàng hóa đa dạng; tên quy cách hàng hóa khác nhau; 16 - Các mặt hàng có nhiều giá khác giá biến đổi liên tục yêu cầu phải cập nhật thường xuyên Để chọn mặt hàng tiêu dùng online có đặc điểm, quy cách tương đồng với mặt hàng rổ hàng hóa truyền thống, nhóm nghiên cứu thực bước sau: • Bước 1: Lựa chọn danh mục mặt hàng chi tiết thu thập thuộc nhóm mặt hàng cấp rổ hàng hóa truyền thống • Bước 2: Lựa chọn danh mục mặt hàng chi tiết thu thập có tên quy cách giống với mặt hàng cấp rổ hàng hóa truyền thống - Chọn mặt hàng có tên quy cách giống với tên mặt hàng cấp rổ hàng hóa CPI tồn quốc Ví dụ, gạo Khang Dân đưa vào nhóm mặt hàng cấp là: Nhóm 01101011- Gạo tẻ thường (Khang dân tương đương); Tuy nhiên, thực tế trình khai thác thu thập nhiều mặt hàng thuộc nhóm mặt hàng cấp 4, so sánh với mặt hàng cấp rổ hàng hóa CPI tên quy cách mặt hàng khác Ví dụ: Có nhiều loại gạo tẻ, khơng phải gạo Khang Dân nên khó để đưa mặt hàng vào nhóm • Bước 3: Đối chiếu so sánh mặt hàng thu thập với mặt hàng cá thể địa phương cung cấp (thuộc mặt hàng cấp 5) Nhóm nghiên cứu so sánh mặt hàng thu thập với danh sách mặt hàng tiêu dùng cá thể địa phương TP Hà Nội, TP HCM, tỉnh Thái Bình: - Nếu danh sách mặt hàng thu thập có tên giống với tên mặt hàng cá thể địa phương cung cấp chọn mặt hàng để đưa vào danh sách mặt hàng cấp Ví dụ: thu thập mặt hàng gạo BC15 giống với danh sách mặt hàng thu thập tỉnh Thái Bình, chọn gạo BC15 để đưa vào nhóm mặt hàng 01101012 - Gạo tẻ thường (Xi dẻo tương đương) Kết bước bước chọn danh sách mặt hàng có tên quy cách giống với mặt hàng cấp rổ hàng hóa CPI truyền thống Tuy 17 nhiên, cịn nhiều mặt hàng thu thập có tên quy cách khác với mặt hàng cấp rổ hàng hóa CPI truyền thống, phải chọn mặt hàng gần tương đương • Bước 4: Xác định đơn vị tính: Đơn vị tính đơn vị giá mặt hàng thu thập khác (khơng đồng nhất): Ví dụ: túi gạo kg, kg, 10 kg, có giá khác Hoặc đơn vị giá mặt hàng khác nhau: đồng, nghìn đồng, triệu đồng Ví dụ: Cùng mặt hàng Tivi điều hịa, có loại trang web giao giá đơn vị bán triệu đồng/chiếc, có loại trang web đơn vị đồng/chiếc Do cần phải thống đơn vị tính Để thống đơn vị tính, nhóm xây dựng chương trình tìm kiếm tách đơn vị tính, tách giá mặt hàng • - Bước 5: Đối chiếu so sánh mặt hàng tương đương Rà soát tên mặt hàng, quy cách giá mặt hàng danh sách thu thập (thuộc nhóm mặt hàng cấp 4) để đối chiếu với danh sách mặt hàng địa phương cung cấp Đồng thời tìm hiểu xem chất mặt hàng để cuối xác định xem hàng hóa thuộc mặt hàng cấp Ví dụ: Trong danh sách mặt hàng thu thập được, Gạo xốp lai gạo tẻ thường miền Tây Nam Bộ, có giá tương đương với gạo Khang Dân nên đưa vào nhóm hàng 01101011 - Gạo tẻ thường (Khang Dân tương đương); Gạo nàng hoa MS32 gạo tẻ thường có giá tương đương với gạo BC15 Thái Bình nên đưa vào nhóm 01101012 - Gạo tẻ thường (Xi dẻo tương đương) Kết rà soát đối chiếu bước lập danh sách 418 mặt hàng cá thể thu thập được, có: - 347 mặt hàng, gồm: 304 mặt hàng mặt hàng tương đồng 43 mặt hàng gần tương đồng thuộc 271 mặt hàng cấp rổ hàng hóa CPI; - 71 mặt hàng nằm ngồi rổ hàng hóa CPI (đây mặt hàng hoàn toàn, khác với mặt hàng rổ hàng hóa CPI) 18 4.6 Tính giá bình quân mặt hàng thu thập Giá bình quân mặt hàng thu thập tính theo giá bình qn nhân, theo bước sau: • • Bước 1: Tính giá bình qn mặt hàng cá thể thu tháng; Bước 2: Tính giá bình quân mặt hàng thuộc mặt hàng cấp rổ hàng hóa CPI tháng Trên khó khăn mặt kỹ thuật nhóm gặp phải q trình thu thập Trong tương lai nhóm cố gắng đưa giải pháp tối ưu để việc ứng dụng khai thác liệu lớn phục vụ công tác thống kê đạt hiệu tốt 19 ... với cơng tác nghiên cứu khó khăn Cụ thể nhóm sử dụng cơng nghệ để xây dựng chương trình thu thập giá bán lẻ hàng hóa dịch vụ tiêu dùng từ trang web bán hàng trực tuyến Giải pháp: Để xác định cơng... webhoạt động ổn định phù hợp với mục tiêu đề để đưa vào danh sách làm nguồn thu thập liệu: + Các trang web có bán mặt hàng tiêu dùng danh mục rổ hàng hóa tiêu dùng truyền thống; + Các trang web. .. tra thu thập thông tin giá tiêu dùng theo phương pháp truyền thống, việc xác định trang web chứa thông tin giá bán lẻ hàng hóa dịch vụ tiêu dùng vơ quan trọng Hiện theo xu hướng phát triển thương

Ngày đăng: 14/05/2021, 15:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan