Customer segmentation trong ngành bán lẻ (P.2)

Bigdatauni.com Follow Fanpage Contact

Quay trở lại với chủ đề Customer segmentation trong ngành bán lẻ ở bài viết trước chúng ta đã tìm hiểu qua ví dụ phân khúc khách hàng cho công ty bán lẻ xe đạp thể thao, phụ kiện, thời trang thể thao theo nhân khẩu học, và giá trị kinh doanh. Tiếp tục với bài viết phần 2, chúng ta sẽ tiếp tục phân khúc khách hàng theo mô hình RFM nổi tiếng kết hợp K-means clustering để tối ưu kết quả phân tích

Các bạn nào chưa có kiến thức về RFM cũng như phương pháp phân cụm Clustering hay K-means clustering thì có thể tham khảo các bài viết của chúng tôi dưới đây:

Tìm hiểu về phương pháp Clustering (phân cụm) (P.1)

Tìm hiểu về phương pháp Clustering (P.2): Hierarchical clustering đơn giản

K-means Clustering và mô hình RFM (P.1)

K-means Clustering và mô hình RFM (P.2)

Customer segmentation trong ngành bán lẻ (P.1)

Nhắc lại một chút về ví dụ. Một công ty bán lẻ về xe đạp, phụ kiện và đồ thể thao cho các hoạt động leo núi, có các khách hàng đến từ các quốc gia khác nhau trên thế giới tiến hành thu thập dữ liệu về doanh thu của từng khách hàng có mã số ID riêng mang lại cho công ty từ năm 2011 đến 2016.

Tổng cộng có tất cả 16 trường dữ liệu, dưới đây là mẫu dữ liệu giao dịch của 6 khách hàng có các ID tương ứng. Có tất cả 8244 khách hàng, và có tất cả 113036 giao dịch. Một khách hàng có thể có 13 đến 14 giao dịch. Và giả định, khách hàng mua hàng là người trực tiếp sử dụng sản phẩm. Công việc của chúng ta là tiến hành Customer segmentation theo RFM, kết hợp phân khúc khách hàng theo giá trị và hành vi.

Dưới đây là dữ liệu mẫu. Dữ liệu được tham khảo từ tác giả Dany Hoter, chuyên gia Excel và Power BI. Các bạn có thể download dữ liệu mẫu tại đây.

Dưới đây là dữ liệu mẫu. Chi tiết 16 trường dữ liệu

– Date: ngày thực hiện giao dịch

– Customer ID: ID của khách hàng

– Customer Age: độ tuổi

– Customer Gender: giới tính với F: Female là nữ, M: Male là nam

– Country: quốc gia sinh sống

– State: tiểu bang, thành phố

– Product category: ngành hàng chính gồm 3 loại Bike (xe đạp), Accessories (phụ kiện), Clothing (đồ mặc, trang phục)

– Sub category: loại sản phẩm trong ngành hàng, gồm 16 loại trong 3 ngành chính

– Product: sản phẩm khách hàng mua, gồm 130 sản phẩm

– Frame size: kích thước sản phẩm (chỉ có ngành hàng xe đạp mới có)

– Order quantity: số lượng đặt hàng

– Unit cost: chi phí đơn vị của sản phẩm (USD)

– Unit price: giá bán đơn vị sản phẩm (USD)

– Cost: chi phí tổng tính cho mỗi đơn hàng (USD)

– Revenue: doanh thu tổng mỗi đơn hàng (USD)

– Profit: lợi nhuận thu được mỗi giao dịch (USD)

Chúng ta đã tiến hành Customer segmentation theo nhân khẩu học, theo sản phẩm, segmentation theo giá trị kinh doanh mong đợi, công việc tiếp theo đó là segmentation theo RFM.

Các bước tiến hành phân khúc khách hàng theo RFM

Tính toán Recency, Frequency, Monetary đối với từng khách hàng cụ thể do thông thường dữ liệu khách hàng mới thu thập không thể hiện 3 tiêu chí này (trừ khi công ty đã xây dựng hệ thống tự động tính toán ngay vừa khi thu thập dữ liệu thô).
Recency: khoảng thời gian kể từ giao dịch, tương tác gần đây nhất của khách hàng thường tính bằng ngày
Frequency: Tần suất là tổng số giao dịch của khách hàng (trong một khoảng thời gian xác định). Ở đây chúng ta lấy mốc thu thập dữ liệu 1/9/2016.
Monetary: tổng số tiền mà khách hàng đã chi tiêu qua tất cả các giao dịch (trong một khoảng thời gian xác định).

Tính RFM chúng ta chỉ quan tâm trước đến dữ liệu giao dịch mà thôi bao gồm ngày giao dịch, mã số khách hàng, doanh thu mỗi đơn hàng (Revenue), nên các dữ liệu nhân khẩu học, dữ liệu về sản phẩm chúng ta sẽ tạm thời lược bỏ.

Đầu tiên tính Recency, chúng ta xét mỗi khách hàng lần gần nhất mua hàng là ngày nào và tính đến thời điểm đang xét 1/9/2016 là bao nhiêu ngày.

Ví dụ khách hàng số 11000 là ngày 28/3/2016, cho đến ngày 1/9/2016 là 157 ngày, vậy Recency = 157. Dưới đây là kết quả Recency của 10 khách hàng mẫu

Lần gần nhất khách hàng 11001 mua hàng là cách 1246 ngày tính đến thời điểm đang xét 1/9/2016, tức đã hơn 3 năm khách hàng này không mua hàng, có thể khách hàng này đã rời bỏ (đã churn), sang mua hàng ở công ty khác là công ty đối thủ, hoặc sản phẩm vẫn còn sử dụng chưa có nhu cầu mua sắm.

Như các bạn thấy loại sản phẩm mà khách hàng này mua là nón lưỡi trai, lần gần nhất mua hàng là ngày 4/4/2013 đã quá lâu rồi, và sản phẩm lại là thời trang, cụ thể là nón lưỡi trai. Như vậy khả năng khách hàng rời bỏ công ty là điều chắc chắn. Đây là ví dụ về tầm quan trọng của việc tìm hiểu Recency.

Tiếp theo chúng ta tính tổng số lần giao dịch. Ở trong ngành thương mại điện tử/ bán lẻ trực tuyến, nhiều công ty có thể tính tổng số lần khách hàng tương tác như tìm kiếm sản phẩm, để lại thông tin,… là cơ sở để đánh giá khách hàng còn trung thành với công ty hay không

Lưu ý tổng số lần giao dịch cũng được hiểu là tổng số đơn hàng khách hàng có, tránh nhầm lẫn tổng số giao dịch với tổng số hàng đặt mỗi đơn hàng.

Các bạn nhìn qua tổng số giao dịch của khách hàng 11000, tổng cộng có 18 giao dịch tất cả vậy Frequency = 18, tần suất bằng 18 lần mua hàng tính đến thời điểm 1/9/2016.

Như vậy chúng ta sẽ có thêm cột Frequency.

Tiếp tục tính chỉ số cuối cùng Monetary, giá trị kinh doanh của mỗi khách hàng, thì ở bài viết trước chúng ta đã tính tổng giá trị một khách hàng mang lại và sử dụng phương pháp Binning để phân khúc theo giá trị.

Công thức đơn giản lấy tổng số doanh thu của tất cả giao dịch xét trên 1 khách hàng.

Ví dụ tổng doanh thu khách hàng 11000 mang lại là: 46673 USD

Như vậy chúng ta sẽ có cột cuối cùng Monetary

Tính tiếp tương tự cho tất cả các khách hàng còn lại.

Công việc tiếp theo là sắp xếp theo thứ tự giá trị của Recency, Frequency, Monetary. Sau đó chia dữ liệu thành 5 nhóm bằng nhau (tỷ lệ 20%, giống phương pháp binning 20% ở bài viết trước trong phần ví dụ Value-based segmentation – phân khúc khách hàng theo giá trị). Ranking hay coding khách hàng theo các giá trị Recency, Frequency, Monetary vừa tính được ở bước 1, theo thang đo từ 1- 5 (có trường hợp từ 1 – 4). Với score 5 là mức cao nhất: nhóm 20% khách hàng gần nhất giao dịch, có số lần giao dịch nhiều nhất, số tiền khách hàng bỏ ra nhiều nhất và score 1 là mức thấp, ngược lại. Phân khúc khách hàng lúc này sẽ được hình thành dựa trên việc kết hợp các code lại với nhau, tạo thành điểm tổng RFM và mỗi điểm tổng RFM sẽ thuộc 1 phân khúc nào đó.

Ví dụ: 555: R = 5, F = 5, M = 5, đây là khách hàng tiềm năng nhất, giá trị nhất (best customer) hoặc 111: R = 1, F = 1, M = 1, là khách hàng ít tiềm năng nhất, giá trị mang lại nhỏ nhất (worst customer)

Để tính toán nhanh chóng chúng ta có thể sử dụng phần mềm phân tích dữ liệu hoặc đơn giản nhất là Excel. Ở đây chúng tôi ưu tiên sử dụng SPSS Modeler, tự động binning. Nếu các bạn sử dụng Excel, cứ theo trình tự, tách mỗi cột Recency/ Frequency/ Monetary sắp xếp các giá trị theo thứ tự, và ngắt khoảng cứ mỗi 20% số khách hàng, lấy giá trị tại điểm bắt đầu ngắt khoảng và điểm kết thúc ngắt khoảng để xác định khoảng tương ứng.

Ví dụ các khách hàng có Recency = 32, thấp nhất, sẽ được gán điểm là 5. Và những khách hàng có Recency như dưới đây, sẽ được gán điểm là 1.

Điểm quan trọng là chúng ta cần biết khách hàng khoảng thời gian từ bao nhiêu đến bao nhiêu sẽ được gán điểm tương ứng từ 1 đến 5, và mỗi khoảng này sẽ có tất cả bao nhiêu khách hàng.

Nhìn vào bảng trên các bạn có thể thấy khách hàng có Recency nhỏ hơn hoặc bằng 72 ngày sẽ đạt điểm 5, tức những khách hàng này được đánh giá là có khả năng sẽ tiếp tục quay lại mua hàng, suy ngược lại những khách hàng có Recency lớn hơn hoặc bằng 583 có điểm 1.

Tiếp tục chúng ta xem qua Frequency, số lần giao dịch, và cách gán điểm.

Những khách hàng có số lần mua hàng, hay số lần giao dịch với cửa hàng nhỏ hơn hoặc bằng 2 sẽ có Frequency score bằng 1, đánh giá khả năng khấp khách hàng quay lại tiếp tục mua hàng của công ty, xét ngược lại cho số lần mua hàng hay số lần giao dịch lớn hơn hoặc bằng 18.

Sau cùng là tổng giá trị mỗi khách hàng mang lại cho công ty Monetary, và cách gán điểm Monetary Score

Những khách hàng nào có tổng giá trị kinh doanh mang lại cho công ty nhỏ hơn hoặc bằng 662 USD sẽ có điểm số là 1, đây là nhóm khách hàng mang lại giá trị thấp nhất cho công ty, tuy nhiên nếu dùng cơ sở này để đánh giá liệu khách hàng có trung thành với công ty không thì chưa hẳn phù hợp.

Do danh mục sản phẩm của công ty rất đa dạng về giá và chủng loại, nên có nhiều sản phẩm giá rất thấp và nhiều sản phẩm giá rất cao, khoảng giá từ 2 USD – 3578 USD. Ví dụ với các sản phẩm thuộc Clothing, Accessories thường thấp hơn Bikes.

Nếu các khách hàng có tổng giá trị mang lại cao hơn 12614 USD, đây là các khách hàng giá trị nhất công ty cần quan tâm, khi Monetary score bằng 5.

Sau khi xác định được điểm số R, F, M của mỗi khách hàng chúng ta sẽ tiến hành tính tổng điểm RFM. Có 2 cách tính: tính theo cách ghép 3 điểm R, F, M thành RFM như đã nói ở trên, cách khách đó là tính tổng có trọng số.

RFM = W_R*R + W_F*F + W_M*M

Tùy theo ngành và lĩnh vực kinh doanh, tầm quan trọng của R, F và M sẽ khác nhau. Ví dụ trong ngành FMCG, bán lẻ, thời trang thì nhiều công ty coi trọng tần suất mua hàng trong tháng, và lần gần nhất mua hàng do sản phẩm thường tiêu thụ trong thời gian ngắn, khách hàng có thói quen mua sắm tại nơi mình đã từng mua và tin tưởng.

Trong ví dụ này là công ty bán sản phẩm về xe đạp thể thao là chính và các sản phẩm phụ kiện, thời trang thường có thời gian tiêu thụ cao nên, tầm quan trọng của tần suất – F, và giá trị tiền – M có thể cao hơn lần gần nhất mua hàng – R.

Ví dụ chúng ta cho W_R = 0.3, W_F = W_M = 0. 35

RFM₁₁₀₀₀ = R*0.3 + F*0.35 + M*0.35 = 3*0.3 + 4*035 + 5*0.35 = 4.05. Các bạn nhân lại với 100 để có tổng điểm sau cùng là 405

Theo mẫu tính thử của các khách hàng ở trên chúng ta có khách hàng 11018, khách hàng 11007, 11014 là 3 khách hàng có giá trị nhất RFM = 500. Các khách hàng này có số lần mua hàng nhiều, lần mua hàng gần nhất là cách thời điểm phân tích chưa quá 2 tháng, và có nhiều lần mua hàng.

Để xác định phân khúc dựa trên RFM score sau cùng, chúng ta có thể sử dụng phương pháp Binning như ở bài viết trước khi phân khúc theo giá trị.

Chúng ta có 5 phân khúc theo RFM score như trên, việc tiếp theo là tìm hiểu mỗi phân khúc này có đặc điểm gì. Dưới đây là điểm trung bình R, F, M score và theo Giá trị R, F, M theo từng phân khúc

Nhóm khách hàng E, RFM Score từ 100 – 165, là các khách hàng có lần gần nhất mua hàng cách thời điểm đang phân tích (1//9/2016) gần 2 năm 3 tháng, số lần giao dịch trung bình là 2, tổng số tiền giao dịch trung bình là 546 USD. Nhóm khách hàng E này có thể gọi là nhóm khách hàng chắc chắn đã rời bỏ công ty.
Nhóm khách hàng D, RFM Score từ 166 – 255, là khách hàng có lần gần nhất mua hàng cách thời điểm đang phân tích gần 1 năm ruõi, số lần giao dịch trung bình là 4, tổng số tiền giao dịch trung bình là 2054 USD. Nhóm khách hàng D này có thể gọi là nhóm khách hàng nguy cơ rời bỏ công ty.
Các bạn xét tương tự cho nhóm C, B, A. Nhóm khách hàng C là nhóm khách hàng cần duy trì, nhóm khách hàng tầm trung. Nhóm khách hàng B là nhóm khách hàng trung thành. Nhóm khách hàng A là nhóm khách hàng giá trị nhất

Đó là cách tính RFM thứ 2. Cách tính thông dụng nhất đó là ghép điểm thành phần R, F, M tạo thành RFM tổng. Dưới đây là ví dụ

Vậy để Customer segmentation dựa theo cách tính này là như thế nào khi RFM không mang giá trị số. Theo kinh nghiệm phân tích của BigDataUni, chúng ta có thể có các phân khúc sau:

Công việc tiếp theo của nhân viên phân tích làm việc tại công ty bán xe đạp thể thao trong ví dụ này chính là tìm chia các khách hàng vô 8 phân khúc tương ứng với điểm RFM trên bảng mẫu segmentation trên. Các bạn hãy tự phân nhóm thử xem? Dùng các hàm Excel đơn giản như Countif hay Countifs các bạn có thể tìm ra kết quả mà không cần sử dụng đến các phần mềm thống kê. Dưới đây là kết quả

Có tất cả 125 chỉ số RFM nhưng trên bảng Customer segmentation chỉ có 63 chỉ số nên tổng số khách hàng được phân khúc chỉ là 5609 khách hàng mà thôi. Các bạn lưu ý nhé!

Như vậy sau khi công ty bán xe đạp thể thao trong ví dụ này tìm được các phân khúc trên có nhiệm vụ là xây dựng các hoạt động sales, marketing nhắm vào các đối tượng mục tiêu, và có tiềm năng.

Đối với các khách hàng cũ tiếp tục recommend các sản phẩm cùng loại hoặc các sản phẩm theo kèm mà họ có thể cần mua. Đối với việc tiếp cận khách hàng mới, công ty cần tìm hiểu đặc điểm đại diện cho từng phân khúc.

Ví dụ trong nhóm khách hàng tốt nhất RFM = 555, thì các khách hàng này thường đến từ quốc gia nào, giới tính, độ tuổi, trên cơ sở đó, công ty sẽ marketing các sản phẩm tương ứng (những sản phẩm mà các khách hàng cũ trong nhóm này thường mua)

K – means clustering với RFM

Như các bạn cũng đã thấy ngay vấn đề khi chúng ta tự xác định phân khúc theo ý kiến chủ quan. Theo ví dụ vừa trình bày, thay vì phải phân khúc đủ 8244 khách hàng thì chúng ta mới chỉ phân khúc được 5609 khách hàng, những khách hàng còn lại thì như thế nào?

Hoặc giả sử, công ty xác định được đầy đủ phân khúc và cố gắng đưa từng khách hàng còn lại vào từng phân khúc tìm được thì liệu các khách hàng này có đảm bảo có sự tương đồng với nhau? Nhắc lại tiêu chí của việc phân khúc khách hàng hay phân cụm đối tượng đó là tìm ra các nhóm khách hàng có đặc điểm giống nhau nhất, và đặc điểm đó là gì.

Khi công ty xác định 1 phân khúc, và cho đại tiêu chí về chỉ số RFM, công ty đang tự đưa ra nhận định rằng các khách hàng có những chỉ số RFM thuộc phân khúc này sẽ giống nhau tuy nhiên thực tế có phải đúng như vậy?

Giải thích cho các bạn dễ hiểu hơn về Clustering trong Customer segmentation. Ví dụ cô giáo chia lớp thành các nhóm với nhau để triển khai các hoạt động thể thao. Mỗi nhóm sẽ có thế mạnh về một môn nhất định. Tuy nhiên cô giáo lại chia nhóm theo điểm số & hạnh kiểm, các bạn có điểm số, hạnh kiểm tương ứng sẽ vào nhóm đó. Các bạn có lẽ đã thấy được vấn đề. Các học sinh có thể tương đồng về điểm số nhưng có tương đồng về thể chất, năng khiếu,… để chơi môn thể thao tương ứng đã đăng ký.

Chính vì thế, các chuyên gia thường áp dụng K-means clustering, để tìm ra các nhóm khách hàng giống nhau “một cách tự nhiên nhất”. Mặc dù cũng dựa trên chỉ số RFM, nhưng theo nguyên lý, K-means clustering giả định các điểm dữ liệu (khách hàng) gần nhau trên không gian dữ liệu hợp thành phân cụm sẽ thể hiện sự tương đồng với nhau

Bạn nào chưa biết gì về K-means clustering thì có thể xem lại các bài viết của chúng tôi, link để ở đầu bài viết này.

Sử dụng SPSS modeler để triển khai phân tích K-means clustering cho Customer segmentation, chúng ta có kết quả segmentation sau:

Như vậy khi sử dụng K-means clustering chúng ta có thể phân khúc được tất cả 8244 khách hàng, và tìm được 5 phân cụm. Chỉ số đánh giá độ chính xác của cluster Silhouette đạt giá trị 0.6, mức tốt, tức các phân cụm tìm được có thể phản ánh chính xác thực tế. Số phân cụm tối ưu có thể được điều chỉnh dựa trên chỉ số SSE và phương pháp Elbow để chọn số k tối ưu.

Công thức các chỉ số đánh giá hiệu quả của Clustering các bạn xem ở bài viết “Các phương pháp đánh giá trong Clustering”

Số khách hàng giá trị nhất là 134 khách hàng, thuộc cluster-2, chỉ chiếm 1.6% tổng số khách hàng. Dưới đây là mẫu segmentation củacác khách hàng tiềm năng

Kết quả segmentation đã có, công việc tiếp theo của công ty là phân tích đặc điểm của từng khách hàng trong phân khúc, từ nhân khẩu học, hành vi mua hàng đến các sản phẩm được ưa chuộng. Nếu các bạn có xem qua bài viết phần 1, phương pháp đồ thị trực quan có thể hỗ trợ các bạn phát hiện nhanh các đặc điểm. Các bạn hãy phân tích thử xem các phân khúc khách hàng tìm được sẽ mang tính chất đặc trưng gì? Đây là kết quả phân tích K-means Clustering dựa trên RFM lấy từ SPSS: download tại đây.

Các thông tin segmentation kiếm được sẽ hỗ trợ tích cực cho các hoạt động sales, marketing một cách tối ưu, trên cơ sở hiểu được phân khúc khách hàng nào mang lại giá trị nhất, phân khúc khách hàng nào tiềm năng, cần duy trì, cần đẩy mạnh đầu tư, cần xây dựng mối quan hệ và phân khúc khách hàng nào cần giữ lại, tránh để khách hàng rời bỏ công ty, và loại bỏ phân khúc khách hàng không còn giá trị, đã rời bỏ công ty.

Nếu không có Customer segmentation, không có phân cụm khách hàng, công ty bán lẻ xe đạp sẽ không thể xây dựng các chiến lược sales, marketing nhắm mục tiêu, tối ưu được chi phí, tránh việc đầu tư vào các phân khúc không mang lại giá trị. Đây là lợi ích mà Data analytics mang lại cho quá trình Quản lý CRM.

Đến đây là kết thúc phần ví dụ phân khúc khách hàng trong bán lẻ. Bài viết tới chúng ta sẽ sang phân khúc khách hàng, Customer segmentation trong lĩnh vực viễn thông – telecommunications.

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.