Bigdatauni.com Follow Fanpage Contact
Ở các bài viết trước chúng ta đã tìm hiểu tổng quan về ứng dụng phân tích dữ liệu trong quản lý CRM, và phân khúc khách hàng hay còn gọi Customer segmentation bao gồm khái niệm, tầm quan trọng, các bước thực hiện và sơ lược công dụng của nó trong các lĩnh vực bán lẻ, ngân hàng và viễn thông.
Lần này, chúng ta sẽ bắt đầu bài viết đầu tiên về ví dụ ứng dụng phân khúc khách hàng trong ngành bán lẻ. Thông qua bài viết, hi vọng các bạn hiểu được cách triển khai Customer segmentation cơ bản.
Dành cho các bạn chưa tham khảo các bài viết trước:
Ứng dụng của Data mining trong quản lý CRM
Data analytics trong phân khúc khách hàng (Customer segmentation) (P.1)
Data analytics trong phân khúc khách hàng (Customer segmentation) (P.2)
Nguồn hình: thebikeshopdungannon.com
Phần 1, chúng ta cùng đến với ví dụ đầu tiên, một ví dụ đơn giản về một công ty bán lẻ về xe đạp, phụ kiện và đồ thể thao cho các hoạt động leo núi, có các khách hàng đến từ các quốc gia khác nhau trên thế giới tiến hành thu thập dữ liệu về doanh thu của từng khách hàng có mã số ID riêng mang lại cho công ty từ năm 2011 đến 2016. Đây là ví dụ mới trong ngành bán lẻ, chuyên về một lĩnh vực cụ thể, xe đạp thể thao. Nhắc đến bán lẻ, các bạn sẽ thường nghĩ đến hàng tiêu dùng, nhưng không phải như vậy. Ngành bán lẻ hiểu đơn giản là công ty mua sản phẩm từ nhiều nhà sản xuất và bán lại cho người dùng. Công ty trong ví dụ này cũng vậy, các sản phẩm xe đạp, phụ kiện, và thời trang thể thao mua từ nhiều nhà sản xuất và bán tại cửa hàng hay cửa hàng trực tuyến. Khách hàng có thể đặt mua số lượng lớn, hoặc mua lẻ từng sản phẩm.
Trong tập dữ liệu này, Các khách hàng là những khách hàng có số lần mua hàng nhiều hơn 1, thời gian mua hàng được ghi nhận cụ thể trong tập dữ liệu. Nhiệm vụ của chúng ta sẽ tiến hành giúp công ty tìm hiểu khách hàng, Customer segmentation theo nhân khẩu học, theo giá trị, và theo mô hình RFM, cũng như nghiên cứu khách hàng với đặc điểm gì có thể mua tiếp sản phẩm của công ty sau lần đầu giao dịch.
Bài viết phần 1, sẽ bắt đầu với Customer segmentation theo nhân khẩu học, dựa vào phương pháp Data visualization – phương pháp đồ thị, Value – based sử dụng Binning trong thống kê.
Các phương pháp phân tích chúng tôi sẽ sử dụng bao gồm thống kê mô tả, phương pháp Clustering. Các bạn nào chưa có kiến thức về các phương pháp này có thể tham khảo các bài viết tại mục Blog của chúng tôi.
Riêng PCA (Principal Component Analysis) chưa có bài viết, nên tạm thời trong bài viết này, chúng ta chưa sử dụng đến phương pháp PCA, lý do không muốn khiến các bạn cảm thấy khó hiểu, tránh bài viết quá dài. PCA là kỹ thuật phân tích phức tạp, không thể trình bày toàn bộ lý thuyết hay tóm tắt ngắn gọn trong một ví dụ về ứng dụng phân khúc khách hàng. Vì thế, sắp tới chúng tôi sẽ tạm ngưng chủ đề Customer segmentation để nói về PCA, sau đó sẽ quay trở lại với các ví dụ phức tạp hơn, các bạn sẽ thấy rõ tầm quan trọng của phương pháp này. Mong các bạn thông cảm.
Dưới đây là dữ liệu mẫu. Dữ liệu được tham khảo từ tác giả Dany Hoter, chuyên gia Excel và Power BI. Các bạn có thể download dữ liệu mẫu tại đây.
Tổng cộng có tất cả 16 trường dữ liệu, dưới đây là mẫu dữ liệu giao dịch của 6 khách hàng có các ID tương ứng. Có tất cả 8244 khách hàng, và có tất cả 113036 giao dịch. Một khách hàng có thể có 13 đến 14 giao dịch. Và giả định, khách hàng mua hàng là người trực tiếp sử dụng sản phẩm.
Chi tiết 16 trường dữ liệu, dữ liệu không bị missing values ở bất kỳ trường nào
- Date: ngày thực hiện giao dịch
- Customer ID: ID của khách hàng
- Customer Age: độ tuổi
- Customer Gender: giới tính với F: Female là nữ, M: Male là nam
- Country: quốc gia sinh sống
- State: tiểu bang, thành phố
- Product category: ngành hàng chính gồm 3 loại Bike (xe đạp), Accessories (phụ kiện), Clothing (đồ mặc, trang phục)
- Sub category: loại sản phẩm trong ngành hàng, gồm 16 loại trong 3 ngành chính
- Product: sản phẩm khách hàng mua, gồm 130 sản phẩm
- Frame size: kích thước sản phẩm (chỉ có ngành hàng xe đạp mới có)
- Order quantity: số lượng đặt hàng
- Unit cost: chi phí đơn vị của sản phẩm (USD)
- Unit price: giá bán đơn vị sản phẩm (USD)
- Cost: chi phí tổng tính cho mỗi đơn hàng (USD)
- Revenue: doanh thu tổng mỗi đơn hàng (USD)
- Profit: lợi nhuận thu được mỗi giao dịch (USD)
Dữ liệu gồm 2 dạng chính là dữ liệu định tính, và dữ liệu định lượng. Trong dữ liệu định tính, chúng ta có các biến có những giá trị dạng text, gọi là biến định danh, và trong dữ liệu định lượng có các biến có những giá trị số, là biến định lượng, không phải cấp bậc.
Đầu tiên chúng ta sẽ tiến hành loại bỏ bớt các biến không cần xét đến. Khoan nói đến thông tin về Customer segmentation theo nhân khẩu học của khách hàng, chúng ta hãy xem qua phần giá trị giao dịch.
- Cost = Unit cost x Order quantity
- Revenue = Unit price x Order quantity
- Profit = Revenue – Cost
Cái này đơn giản chắc bạn nào cũng biết! Chúng ta có thể thấy, unit cost, unit price, ứng với từng sản phẩm là cố định và không thay đổi, do đó Cost hay Revenue cùng tăng khi số lượng đơn hàng order của khách hàng tăng, xét tương tự cho lợi nhuận. Tuy nhiên những sản phẩm có giá cao tổng lợi nhuận mang lại có thể cao hơn sản phẩm có giá thấp. Chi phí mỗi sản phẩm và số lượng đặt cũng tác động đến lợi nhuận nhận, sản phẩm có chi phí cao, và giá cao, mua số lượng ít cũng chưa hẳn mang lại nhiều giá trị hơn sản phẩm có chi phí thấp, giá thấp, mua số lượng nhiều.
Do đó, cẩn trọng chúng ta xem xét loại bỏ biết nào trong 6 biến này. Vì Cost, và Revenue tính từ các công thức vừa nói ở trên, chúng ta có thể suy ra được từ Unit cost, Unit price, Order quantity, nên tinh giản dữ liệu chúng ta có thể xem xét loại bỏ 2 biến này và giữ lại 4 biến mà thôi
Một lưu ý khác quan trọng, trong biến Profit có giá trị âm, tức là chi phí > doanh thu. Doanh thu bằng giá sản phẩm nhân với số lượng, giá sản phẩm luôn lớn hơn chi phí, nên lợi nhuận luôn > 0, tuy nhiên, doanh thu công ty thu về từ khách hằng không bằng giá sản phẩm nhân với số lượng đặt, nguyên nhân khách hàng có thể trả không đủ, trả góp, hoặc nợ công ty. Chúng có thể là các khoản phải thu không thành công. Giả định công ty không áp dụng các chính sách giảm giá hoặc chi phí cho các chương trình khuyến mãi đã được tính sẵn vào chi phí sản phẩm.
Từ điểm trên, các bạn có thể thấy chúng ta không thể dự báo Profit chính xác nếu chỉ dựa vào các biến đã nói, còn yếu tố bên trong và bên ngoài tập dữ liệu chưa xét đến.
Chúng ta cùng xem qua ma trận hệ số tương quan của các biến định lượng có trong tập dữ liệu.
Hệ số tương quan càng tiến đến -1 hay 1 thì thể hiện mối quan hệ tương quan mạnh giữa 2 biến.
- Order quantity không có mối quan hệ tương quan mạnh với các biến còn lại đang xét. Do đó số lượng đặt hàng tăng hay giảm không tác động đến Cost, Revenue, Profit.
- Unit Cost có mối quan hệ tương quan mạnh với Unit Price và Cost khi hệ số tương quan dương tiến gần đến 1.
- Unit Price có mối quan hệ tương quan mạnh với Cost và Revenue khi hệ số tương quan dương tiến gần đến 1.
- Revenue và Cost có mối quan hệ tương quan mạnh với nhau khi hệ số tương quan tiến gần đến 1
- Biến mục tiêu Profit có mối tương quan mạnh với 4 biến Unit Cost, Unit Price, Cost, Revenue khi hệ số tương quan tiến gần đến 1
Trong mô hình phân tích hồi quy, thì ngoài Revenue, Cost chúng ta có thể sẽ lọại bỏ thêm một trong biến Unit price, Unit cost để tránh vấn đề Đa cộng tuyến.
Do phạm vi bài viết này dừng lại ở Customer segmentation nên chúng ta sẽ chỉ tập trung vào doanh thu Revenue mà thôi, chưa nói đến tầm quan trọng của Unit cost, Unit price, Order quantity cũng như xác định các yếu tố nào đóng vai trò trong dự báo Profit, hay dự báo khách hàng nào có thể trả không đủ tiền hàng, chưa bàn đến lợi nhuận sau cùng mà công ty nhận được
Ở các bài viết tới về Customer acquisition và Customer retention, sau khi tìm được các phân khúc khách hàng, chúng ta sẽ tiến hành tìm hiểu các đặc điểm nào của khách hàng sẽ mua tiếp sản phẩm, sẽ thanh toán đủ, hay nợ lại,…
Quay trở lại với quá trình tìm hiểu các biến, thì trong số 16 biến dữ liệu, chúng ta có thể loại bỏ biến tên chi tiết sản phẩm, mà chỉ quan tâm đến ngành hàng, loại sản phẩm chính mà thôi.
Các bài viết sử dụng công cụ SPSS Statistics, SPSS Modeler và Excel để thực hiện phân khúc.
Tìm hiểu khách hàng và Customer segmentation theo nhân khẩu học
Bước đầu tiên của quy trình quản lý CRM, hay Customer segmentation đó là tìm hiểu khách hàng. Phương pháp đơn giản nhất là sử dụng đồ thị, và thống kê mô tả đơn giản.
Về giới tính, có tổng cộng 8244 khách hàng, trong đó có 50.58% khách hàng nam và 49.42% khách hàng nữ.
Độ tuổi của các khách hàng nằm từ 17 đến 87 tức từ trẻ vị thành niên cho đến người già đều có thể mua các sản phẩm của công ty hỗ trợ cho hoạt động thể thao leo núi. Tuy nhiên để dễ dàng cho việc phân tích chúng ta sẽ tiến hành phân nhóm theo 4 nhóm chính:
- Youth: những người trẻ, dưới 25 tuổi
- Young adults: người trưởng thành từ 25 đến 34 tuổi
- Adults: người trung niên từ 35 đến 64 tuổi
- Seniors: người già, lớn tuổi trên 64 tuổi
Trong tập dữ liệu khách hàng thuộc nhóm người trung niên từ 35-64 tuổi là nhiều nhất chiếm 50.72%, người trưởng thành từ 25 – 34 tuổi là 29.96% đứng thứ 2, người trẻ dưới 25 đứng thứ 3 chiếm 17.94%, còn lại là người già.
Tìm hiểu về quốc gia sinh sống của các khách hàng. Nhìn vào biểu đồ phía dưới.
Khách hàng đến từ Mỹ là nhiều nhất chiếm 28.68%, tiếp đến là Úc 22.46%, đến Pháp, Đức, Anh và Canada.
Chúng ta tìm hiểu sâu hơn về các bang, thành phố của các nước để biết được nguồn khách hàng chính xác đến từ đâu.
Các bạn nhìn vào 2 đồ thị dưới đây.
- Ở Úc, bang có nhiều khách hàng nhất là New South Wales, rồi đến Victoria, sau đó Queesland, Victoria và South Australia.
- Ở Canada, bang British Columbia là chiếm nhiều khách hàng nhất gần 100% trong các khách hàng đến từ nước này
- Ở Vương quốc Anh, thì các khách hàng đến từ nước Anh chiếm 100% tức toàn bộ khách hàng.(Vương quốc Anh gồm Anh (England), Bắc Ireland, Scotland và Wales)
- Ở Pháp, có Paris, Nord, Seine Saint Denis là những nơi chiếm nhiều khách hàng nhất
- Ở Đức, Saarland, Nordrhein – Westfalen, Hassen, và Hamburg là những nơi chiếm nhiều khách hàng nhất
- Ở Mỹ, có bang Washington, California, Oregon là những nơi chiếm nhiều khách hàng nhất
Chúng ta đã tìm hiểu về đặc điểm nhân khẩu học tổng quan của các khách hàng mà công ty có, tiếp theo chúng ta sẽ tiến hành tìm hiểu các sản phẩm của công ty thường được mua bởi những nhóm khách hàng nào.
Tỷ trọng doanh thu của xe đạp thể thao là nhiều nhất chiếm 72.45%, tiếp đến là phụ kiện 17.73%, và sau cùng là đồ mặc thể thao
Lý do, giá trị kinh doanh của ngành hàng xe đạp cao hơn phụ kiện và đồ mặc thể thao, mặc dù số lượng đặt hàng nhỏ hơn rất nhiều. Các bạn xem biểu đồ dưới đây.
Số lượng đặt hàng của phụ kiện cao hơn rất nhiều. Tuy nhiên, do bài viết có giới hạn, và mục đích của các công ty khi phân khúc khách hàng là giá trị kinh doanh nhận được nên chúng ta chỉ xem xét yếu tố doanh thu mà thôi.
Trong 3 ngành hàng, xe đạp thể thao mang lại giá trị kinh doanh cao nhất. Các bạn lưu ý nhé, ở các biểu đồ sau chúng tôi sẽ không giải thích lại.
Tiếp tục xét theo khu vực địa lý, và độ tuổi, giới tính.
Về giới tính: các sản phẩm cho thấy không có sự chênh lệch lớn giữa tỷ lệ đóng góp lợi nhuận giữa khách hàng nam và nữ, có điều bất ngờ là tỷ lệ đóng góp vào doanh thu của nữ cao hơn nam ở ngành hàng xe đạp. Tuy nhiên chưa thể khẳng định, do chúng ta phải xem xét số lượng đơn hàng và giá sản phẩm.
Theo biểu đồ dưới đây, số lượng đặt hàng của khách hàng nam nhiều hơn, chứng tỏ nữ thích mua các sản phẩm xe đạp có giá cao hơn. Giả thuyết đưa ra là các sản phẩm xe đạp thể thao dành cho phụ nữ, thiết kế đẹp, thương hiệu nổi tiếng, khác với đàn ông, ưa chuộng sức mạnh, sự bền bỉ của xe. Do dữ liệu không cung cấp nhiều thông tin chi tiết về sản phẩm, ngoài loại, kích thước, chúng ta không thể phân tích sâu.
Tiếp tục tìm hiểu về quốc gia, các khách hàng từ Mỹ và Úc đóng góp vào doanh thu công ty nhiều nhất., tỷ lệ lần lượt 31.69%, 27.44%, tương tự ở phụ kiện, và đồ mặc thể thao, 2 quốc gia này.
Nhìn vào biểu đồ dưới, tìm hiểu tiếp về độ tuổi, thì trong 4 nhóm, nhóm người già trên 64 tuổi, đóng góp vào doanh thu của công ty là thấp nhất, cao nhất là nhóm khách hàng trung niên từ 35 – 64 tuổi, sau đó là khách hàng từ độ tuổi 25 – 34 tuổi, và khách hàng trẻ tuổi dưới 25 tuổi. Sự hơn này thể hiện ở cả 3 ngành hàng. Qua đây cũng cho biết thêm giả thuyết đầu tiên, khách hàng mua xe đạp có thể mua phụ kiện, và đồ mặc thể thao, các ngành hàng này có mối liên hệ với nhau hay không để hỗ trợ Cross-selling nhưng chúng ta chỉ có thể biết được thông qua phương pháp Classification, hay Association rules. Trong bài viết này chúng ta tạm thời quan tâm đến Customer segmentation mà thôi
Giả thuyết có thể khách hàng từ 35 – 64 tuổi sau khi có gia đình, công việc ổn định thường chú trọng vào các thú vui rèn luyện thể thao nhiều hơn nhóm 25-34 tuổi đang tập trung phát triển sự nghiệp, nhóm dưới 25 tuổi thì có nhiều hoạt động giải trí khác, môn thể thao khác, và xe đạp thể thao không phải là một trong số đó.
Sau khi tìm hiểu một số thông tin chúng ta có thể tìm ra phân khúc đơn giản theo nhân khẩu học cho các ngành hàng chính:
- Nhóm khách hàng từ Mỹ và Úc, có độ tuổi từ 35 – 64 tuổi, giới tính bất kỳ, là khách hàng tiềm năng nhất, công ty có thể tiếp cận để marketing các sản phẩm xe đạp thể thao, và các phụ kiện kèm theo.
- Xét tiếp cho các quốc gia khác, tập trung vào nhóm khách hàng 35 – 64 tuổi.
Chúng ta kết hợp yếu tố độ tuổi, quốc gia, giới tính để so sánh nhóm khách hàng ở từng quốc gia ứng với từng ngành hàng. Nhìn vào biểu đồ dưới đây, chúng ta tạm không xét nhóm khách hàng > 64 tuổi do nhóm khách hàng này đóng góp rất ít doanh thu như đã nói ở trên
- Nhóm khách hàng từ Mỹ: Bikes – độ tuổi 35 – 64 – giới tính bất kỳ, Accessories – độ tuổi 35 – 64 – giới tính Nam, Bikes – độ tuổi 25 – 34 – giới tính Nam, Accessories – độ tuổi 25 – 34 – giới tính Nam, Clothing – độ tuổi 35 – 64 – giới tính Nam, Clothing – độ tuổi 25 – 34 – giới tính bất kỳ. Đây là các phân khúc cần quan tâm. Nếu nhìn kỹ, chúng ta có thể thấy ở Mỹ, tỷ lệ đóng góp doanh thu ở các ngành hàng, bất kỳ độ tuổi nào thì khách hàng nam vẫn chiếm tỷ lệ nhiều hơn nữ. Tuy nhiên mức độ chênh lệch rất nhỏ.
- Nhóm khách hàng từ Úc: Bikes – độ tuổi 35 – 64 – giới tính Nữ, Bikes – độ tuổi 25 – 34 giới tính Nữ, riêng Bikes – độ tuổi < 25 – giới tính Nam. Còn Clothing – độ tuổi 35 – 64 – giới tính Nam. Các bạn có thể thấy ở Úc, khách hàng nam ở mọi độ tuổi lại quan tâm nhiều hơn về Clothing hơn là các khách hàng nữ. Đây có thể coi là một thông tin hữu ích.
Các bạn tiếp tục phân tích tương tự cho các quốc gia còn lại. Mặc dù ví dụ này, dữ liệu đơn giản ít biến, doanh thu đóng góp của khách hàng nam và nữ tổng quát không có chênh lệch quá nhiều, và tại các quốc gia các nhóm khách hàng có độ tuổi 35 – 64 đều đóng góp doanh thu nhiều nhất, tiếp đến nhóm từ 25 – 34, < 25, không có sự khác biệt giữa các quốc gia. Nhưng đây cũng là hướng tiếp cận đơn giản trong phân khúc khách hàng sử dụng phương pháp Data exploration, nói cách khác sử dụng đồ thị tìm hiểu đối tượng dữ liệu.
Sau khi tìm hiểu về ngành hàng chính, chúng ta tiến hành tìm hiểu theo Sub – category, càng chi tiết về sản phẩm trong phân khúc khách hàng, các hoạt động bán hàng và tiếp thị chắc chắn sẽ đem lại hiệu quả cao hơn.
Chúng ta tập trung vào các Sub-category đem lại tỷ trọng lợi nhuận cao. Như đồ thị dưới đây:
- Phụ kiện: mũ bảo hiểm chiếm 6.73%, bánh xe và săm lốp chiếm 5.48%
- Xe đạp: xe đạp đường trường chiếm 39.13%, tiếp đến là xe đạp leo núi 39.13%
- Thời trang, độ bảo vệ: áo đấu chiếm 4.82%, quần đùi chiếm 2.04%
Nhìn vào biểu đồ tiếp theo dưới đây. Trong ngành hàng xe đạp:
- Xe đạp du lịch (touring bikes): khách hàng ở Anh – từ 35 – 64 tuổi – giới tính bất kỳ, khách hàng ở Mỹ – độ tuổi từ 25 – 64 tuổi – giới tính Nữ, khách hàng ở Mỹ – từ 35 – 64 tuổi – giới tính Nam. Đây là các phân khúc tiềm năng cho xe đạp du lịch
Lưu ý, chúng ta có thể xét từng quốc gia để tìm phân khúc, thay vì xét theo sản phẩm. Ở đây bài viết có hạn nên chúng tôi chỉ chỉ ra các phân khúc lợi nhuận cao cho từng sản phẩm.
- Xe đạp đường trường (Road bikes): khách hàng từ Mỹ, độ tuổi 25 – 64 tuổi, giới tính bất kỳ, khách hàng từ Úc, tập trung ở giới tính nữ từ 25 – 64 tuổi, đóng góp doanh thu nhiều hơn. Ở Pháp, khách hàng từ 25 – 34 tuổi, giới tính Nam. Đây là một số phân khúc tiềm năng cho xe đạp đường trường. Các bạn xét tiếp cho các quốc gia khác
- Xe đạp leo núi (Mountain bikes): khách hàng nam ở Mỹ, độ tuổi từ 25 – 64 có thể quan tâm đến xe đạp leo núi, vì phân khúc này rộng về độ tuổi và giới tính, do người Mỹ thích các môn thể thao mạo hiểm. Tương tự như nước Úc, quốc gia thiên nhiên đa dạng, có những môi trường thiên nhiên đặc biệt và đa dạng nhất thế giới với các loài động vật hoang dã độc đáo và cảnh quan ngoạn mục, gồm có rất nhiều các công viên quốc gia, do đó xe đạp leo núi hay vượt địa hình được ưa chuộng. Điều đặc biệt không chỉ nam, mà cả khách hàng nữ cũng tiềm năng, ở nhóm khách hàng từ 25 – 34, mức đóng góp doanh thu của khách hàng nữ nhiều hơn rất nhiều khách hàng nam. Các bạn xét tiếp cho các nước.
Trong ngành hàng phụ kiện:
- Mũ bảo hiểm: khách hàng từ Mỹ, giới tính bất kỳ, từ 35 – 64 tuổi; khách hàng từ Mỹ, giới tính nữ từ 25 – 34 tuổi; khách hàng từ Úc, từ 35 – 64 tuổi, giới tính bất kỳ; khách hàng từ Úc giới tính nam, từ 25 – 34 tuổi – giới tính nam. Bên cạnh nước Mỹ, Úc, chúng ta có nhóm khách hàng từ Canada, độ tuổi 35 – 64, giới tính nam và khách hàng từ Anh, từ 25 – 64 tuổi, giới tính bất kỳ. Đây là các phân khúc khách hàng tiềm năng. Mặc dù phụ kiện là sản phẩm bán đi kèm có thể hỗ trợ Cross-selling nhưng vẫn có nhiều khách hàng mua lẻ các sản phẩm này, nên chúng ta vẫn có thể phân tích nhu cầu theo nhân khẩu học.
- Bánh xe, săm xe: khách hàng ở Mỹ và Canada, từ 35 – 64 tuổi, giới tính nam đặc biệt quan tâm đến sản phẩm này, và phân khúc này nổi bật nhất trong các phân khúc còn lại chưa xét đến, như các bạn có thể thấy trên biểu đồ phía trên.
Tiếp theo ngành hàng đồ mặc thể thao:
- Quần shorts: khách hàng từ Mỹ và Canada, từ 35 – 64 tuổi, giới tính bất kỳ, đóng góp doanh thu nhiều nhất, và chênh lệch rất lớn so với các phân khúc khác
- Áo đấu: khách hàng từ Mỹ, từ 25 – 64 tuổi, giới tích bất kỳ có đóng góp doanh thu rất cao, tương tự là Canadat và Úc
Như vậy chúng ta đã tìm hiểu sơ về phân khúc khách hàng theo sản phẩm ứng với đặc điểm nhân khẩu học. Tuy đây là ví dụ đơn giản, và trong thực tế, ngành xe đạp thể thao, đặc điểm nhân khẩu học phần nào chưa hẳn đã tác động đáng kể vào quyết định mua hàng, hay các hoạt động marketing, sales không triển khai mạnh. Nhưng phân khúc khách hàng sử dụng phương pháp biểu đồ cũng là một cách tiếp cận có thể được sử dụng.
Tuy nhiên trường hợp dữ liệu quá nhiều biến, nhiều đặc điểm nhân khẩu học cần xét đến, cả dữ liệu hành vi, thì Customer segmentation sử dụng phương pháp đồ thị sẽ không mang lại hiệu quả. Hay nói cách khách để đi phân tích từng đặc điểm nhân khẩu học, hay kết hợp các đặc điểm để tìm ra phân khúc phù hợp thực sự mất nhiều thời gian.
Do đó nhiều công ty thường tập trung 1) phân khúc theo hành vi giao dịch (RFM customer segmentation) 2) phân khúc theo giá trị khách hàng mang lại (value-based customer segmentation).
Sau đó từ từng phân khúc, sẽ đi tìm hiểu các đặc điểm của khách hàng chi tiết hơn về hành vi, sử dụng kết hợp 3 phương pháp Clustering, Classification và Regression. Ngoài ra, chúng ta cần sử dụng phương pháp kiểm định thống kê để đưa ra kết luận liệu có hay không sự khác biệt giữa các yếu tố trong việc tác động lên doanh thu. Hướng tiếp cận này nằm ở quy trình sau khi phân khúc là Customer acquisition & Customer retention
Quay trở lại với ví dụ, giả sử, hướng tiếp cận sử dụng biểu đồ giúp công ty phát hiện nhanh các Customer segmentation theo nhân khẩu học đơn giản, vậy công ty cần làm gì tiếp theo?
Công ty có thể triển khai hoạt động marketing vào thị trường các nước, dựa vào đặc điểm nhân khẩu học, mà xây dựng chiến lược marketing nhắm mục tiêu vào từng nhóm khách hàng theo giới tính và độ tuổi. Tuy dữ liệu không cung cấp nhiều thông tin về khách hàng, nên chiến lược nhắm mục tiêu chưa thực sự hiệu quả trong việc tiếp cận các khách hàng mới. Nhưng giữ chân khách hàng cũ bằng cách sử dụng hoạt động tiếp thị lại các sản phẩm khác cùng loại, trên cơ sở nắm bắt được rằng những khách hàng này có thể tiếp tục có nhu cầu thông qua sự giống nhau trong đặc điểm nhân khẩu học.
Customer segmentation theo giá trị (value-based customer segmentation)
Tiếp tục chúng ta phân khúc khách hàng theo giá trung bình bỏ ra cho mỗi đơn hàng, hay tổng doanh thu đem lại, đây là hình thức phân khúc khách hàng theo giá trị, sử dụng phương pháp Binning.
Phương pháp Binning là phương pháp trong thống kê, là một cách để biến các giá trị định lượng liên tục (continuous) thành một số lượng nhỏ hơn các nhóm theo thứ tự. Ví dụ: nếu chúng ta có dữ liệu về một nhóm người, chúng ta có thể sắp xếp tuổi của họ thành những khoảng tuổi nối tiếp, như cách chúng ta làm cho ví dụ này
Thông qua Binning chúng ta sẽ tìm ra được % khách hàng đóng góp doanh thu ít, % khách hàng đóng góp doanh thu trung bình, % khách hàng đóng góp doanh thu nhiều, và rất nhiều.
Trước tiên chúng ta phải tính tổng giá trị một khách hàng mang lại.
Ví dụ:
Tổng doanh thu khách hàng này mang lại là: 46673 USD
Sau khi chúng ta tính tổng doanh thu cho tất cả khách hàng thì tiếp theo sẽ sử dụng phương pháp Binning để sắp xếp thứ tự khách hàng có Revenue tăng dần từ nhỏ đến lớn.
Trong dữ liệu này chúng ta sẽ chia thành 4 nhóm khách hàng có giá trị doanh thu đóng góp khác nhau.
Sử dụng Binning trong Spss modeler kết quả được như sau:
- 25% khách hàng chi tiền ít: Revenue nằm từ < 926 USD
- 25% khách hàng chi tiền trung bình Revenue nằm từ 927 USD – 2900 USD
- 25% khách hàng chi tiền nhiều: Revenue nằm từ 2901 USD – 9640 USD
- 25% khách hàng chi tiền rất nhiều: Revenue > 9640 USD
Cách chia khác, chúng ta không sử dụng tứ phân vị để đếm thứ tự khách hàng vào chia số lượng khách hàng bằng nhau vào mỗi nhóm, cách khác là binning sao cho mỗi nhóm tổng giá trị Revenue mang lại là bằng nhau, hoặc xấp xỉ nhau, chênh lệch không nhiều.
Theo cách chia thứ 2 chúng ta có kết quả sau:
- 81.11% khách hàng chi tiền từ < 13414 USD
- 11.92 % khách hàng chi tiền từ 13415 USD – 34880 USD
- 5% khách hàng chi tiền từ 34881 USD – 82149 USD
- 4% khách hàng chi tiền > 82149 USD
Nhược điểm của cách binning này là tổng revenue đóng góp của mỗi nhóm khách hàng là như nhau, gây một chút khó khăn trong việc so sánh ban đầu.
Chúng tôi ưu tiên sử dụng cách thứ nhất, các bạn có thể xem xét khi triển khai trong thực tế cách binning nào là phù hợp.
Chúng ta tiến hành đặt tên 4 nhóm khách hàng ban đầu như sau
- 25% khách hàng chi tiền ít: Revenue nằm từ < 926 USD => LowCS
- 25% khách hàng chi tiền trung bình Revenue nằm từ 927 USD – 2900 USD => MediumCS
- 25% khách hàng chi tiền nhiều: Revenue nằm từ 2901 USD – 9640 USD => HighCS
- 25% khách hàng chi tiền rất nhiều: Revenue > 9640 USD => HighestCS
Nhìn vào đồ thị trên các bạn có thể thấy, nhóm khách hàng HighestCS đóng góp đến 81.74% doanh thu, tiếp đến là HighCS là 13%. Nguồn sống của công ty phụ thuộc hoàn toàn vào 25% khách hàng nằm trong nhóm HighestCS, vậy công việc của công ty là tìm hiểu khách hàng trong nhóm này mang những đặc điểm gì, để triển khai các hoạt động Marketing, sales phù hợp.
Trong nhóm Highest CS, tỷ lệ khách hàng nam và nữ dường như cân bằng nhau, trong đó khách hàng đến từ Mỹ và Úc là chiếm nhiều nhất, độ tuổi từ 25 – 64 tuổi.
Điều bất ngờ là nhóm này tập trung vào ngành hàng phụ kiện là chính không phải xe đạp. Chúng ta tìm hiểu sâu thêm về ngành hàng thì thấy trong Accessories, thì loại sản phẩm bánh xa và săm xe (Tires & Tubes) và bình đựng nước kèm giá đỡ (Bottles and Cages) chiếm tỷ lệ cao nhất, tiếp đến là Helmets – mũ bảo hiểm. Còn về xe đạp thì Road bikes – đường trường, chiếm tỷ lệ cao nhất.
Các bạn tiếp tục phân tích tiếp theo cách kết hợp các yếu tố nhân khẩu học như ở phần đầu, để tìm hiểu sâu hơn về các phân khúc nhân khẩu học nhỏ hơn trong nhóm Highest CS này, ví dụ khách hàng từ quốc gia nào, độ tuổi bao nhiêu, giới tính là gì thì sẽ mua Tires & Tubes, hay road bikes.
Như vậy chúng ta đã tìm hiểu sơ về phương pháp Customer segmentation theo nhân khẩu học, sản phẩm, theo giá trị khách hàng. Bài viết sắp tới chúng ta sẽ sang cách phân khúc theo mô hình RFM và ví dụ khác phức tạp hơn trong ngành bán lẻ.
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.