Customer segmentation trong ngành viễn thông (P.2)

Bigdatauni.com Follow Fanpage Contact

Tiếp tục chuỗi các bài viết về ứng dụng Data analytics trong quản lý CRM, với task đầu tiên là tìm hiểu khách hàng và Customer segmentation trong các lĩnh vực bán lẻ, viễn thông, tài chính. Bài viết trước phần 1, chúng ta đã tìm hiểu bối cảnh, tầm quan trọng phân khúc khách hàng trong các công ty viễn thông, dữ liệu khách hàng ngành viễn thông gồm những gì, và tìm hiểu ví dụ, khám phá các biến đầu vào có trong ví dụ, mối quan hệ giữa chúng với biến mục tiêu. Bài viết phần 2 lần này, cũng ví dụ đó BigDataUni và các bạn sẽ đi vào phân khúc khách hàng theo hành vi (Behavioral segmentation) và theo giá trị kinh doanh.

Nguồn hình: Connectedworld

Dành cho các bạn chưa xem qua các bài viết trước:

Ứng dụng của Data mining trong quản lý CRM

Ứng dụng phân tích dữ liệu trong phân khúc khách hàng (P.1)

Ứng dụng phân tích dữ liệu trong phân khúc khách hàng (P.2)

Customer segmentation trong ngành bán lẻ (P.1)

Customer segmentation trong ngành bán lẻ (P.2)

Customer segmentation trong ngành viễn thông (P.1)

Nhắc lại ví dụ trước,

Ví dụ tham khảo từ UCI Repository of Machine Learning Databases tại Đại học California, Irvine. Dữ liệu mẫu lấy từ một công ty viễn thông tại Hoa Kỳ, gồm các biến như sau

  • State: mã tiểu bang, có 51 tiểu bang Hoa Kỳ
  • Area code: mã vùng khu vực, 415 – San Francisco,408 – San Jose và 510 – Okland
  • Phone Number: Số điện thoại của khách hàng
  • International Plan: Đăng ký gọi quốc tế (Yes: có, No: không)
  • Voice mail Plan: Đăng ký dịch vụ hộp thư thoại (Yes: có, No: không)
  • Num of Voice mail Messages: Số lần gửi thư thoại
  • Total Day Minutes: Tổng số phút khách hàng dành gọi điện vào buổi sáng, ban ngày
  • Total Day Calls: Tổng số cuộc gọi thực hiện vào buổi sáng, ban ngày
  • Total Day Charge: Tổng số chi phí cho các cuộc gọi vào ban ngày (USD)
  • Total Eve Minutes: Tổng số phút khách hàng dành gọi điện vào chiều tối
  • Total Eve Calls: Tổng số cuộc gọi khách hàng gọi điện vào chiều tối
  • Total Eve Charge: Tổng số chi phí cho các cuộc gọi vào chiều tối (USD)
  • Total Night Minutes: Tổng số phút khách hàng dành gọi điện vào ban đêm
  • Total Night Calls: Tổng số cuộc gọi khách hàng gọi điện vào ban đêm
  • Total Night Charge: Tổng số chi phí cho các cuộc gọi vào ban đêm
  • Total International Minutes: Tổng số phút khách hàng dành cho các cuộc gọi quốc tế
  • Total Intl Calls: Tổng số cuộc gọi quốc tế
  • Total Intl Charge: Tổng chi phí bỏ ra cho các cuộc gọi quốc tế (USD)
  • Number Customer Service calls: Tổng số cuộc gọi đến trung tâm chăm sóc khách hàng
  • Churn: Trạng thái khách hàng đã rời dịch vụ, True: đã rời dịch vụ, False: chưa rời dịch vụ

Có tất cả 5000 khách hàng. Các bạn có thể download dữ liệu mẫu ở đây. Đầu tiên như mọi khi chúng ta sẽ khám phá dữ liệu. Dưới đây là dữ liệu mẫu 10 khách hàng đầu tiên với thông tin về dữ liệu trong các biến tương ứng.

Ở bài viết trước, BigDataUni và các bạn đã đi khám phá dữ liệu, tìm hiểu các biến định tính, các biến định lượng, và khám phá mối quan hệ ban đầu giữa các biến đầu vào đó với biến mục tiêu – Churn (khách hàng rời dịch vụ). Chi tiết các bạn xem lại bài viết trước.

Nói một chút về ARPU

Trong bài viết trước chúng tôi có đề cập đến dữ liệu về doanh thu tính trên từng khách hàng được gọi là ARPU (Average revenue per user) hay lợi nhuận. Đây là tiêu chí đánh giá hoạt động phổ biến của các công ty dịch vụ nói chung và viễn thông nói riêng. Công thức tính toán đơn giản bằng tổng số doanh thu chia cho tổng số khách hàng hiện đang là “active subscribers”. Với tổng doanh thu, chúng ta sẽ xét theo từng khách hàng, mỗi khách hàng sẽ trả số tiền khác nhau cho các dịch vụ khác nhau mà họ đăng ký, tiến hành tính tổng tất cả. Như vậy mỗi khách hàng sẽ có tổng giá trị tính trên tất cả dịch vụ.

Cách hiểu khác, từ “trung bình” trong chỉ số ARPU còn có ý nghĩa là tính doanh thu trung bình theo đơn vị thời gian, ví dụ chúng ta đánh giá hiệu quả hoạt động theo tháng, thì ARPU sẽ được tính theo tháng, lúc này sẽ lấy tổng revenue trong tháng đang xét, rồi chia cho tổng khách hàng trung bình còn tham gia dịch vụ trong tháng đó. Đây là điều quan trọng, vì số khách hàng còn “active” sẽ thay đổi theo từng ngày hay thậm chí là từng giờ, nên ARPU sẽ không chính xác khi không được tính dựa trên giới hạn thời gian cụ thể. Nói về lý do dùng tháng thì hầu hết các công ty dịch vụ tính phí theo tháng nên thông thường ARPU sẽ tính theo tháng.

ARPU không có theo GAAP hay nói cách khác không có theo bất kỳ nguyên tắc kế toán quốc tế nào, và không cũng không có một công thức chuẩn nào cả. Tùy theo mục đích sử dụng và đặc thù dịch vụ của các công ty, cách tính ARPU cũng sẽ khác.

Ví dụ, sẽ có công ty tính ARPU cho từng khách hàng theo tháng nhưng cũng sẽ có công ty tính ARPU trung bình trên mỗi lượt đăng ký dịch vụ hoặc trên một đơn vị sản phẩm. Do đó ARPU còn có tên gọi khác là Average revenue per unit (doanh thu trung bình trên đơn vị)

Việc ARPU không có công thức chuẩn là do nó có thể linh hoạt áp dụng cho mọi ngành nghề kinh doanh khác và không chỉ riêng ngành viễn thông. Ví dụ Airbnb, dịch vụ cho thuê nhà nghỉ dưởng, phòng, nơi ở cho khách hàng đi du lịch, tính ARPU theo quý không phải theo tháng, vì ít có khách hàng đi du lịch hơn 1 lần trong một tháng. Hay công ty Lawnstarter, công ty về dịch vụ cắt cỏ cũng áp dụng ARPU để tính giá trị khách hàng theo tháng, mong đợi mỗi khách hàng sẽ có ít nhất 1 lần gọi dịch vụ để cắt cỏ cho vườn nhà mình.

4 ứng dụng chính của ARPU:

  • Dùng để so sánh với các đối thủ cạnh tranh cùng ngành hay các công ty khác: chỉ số đơn giản nhưng giúp ích trong việc đánh giá hiệu quả hoạt động, đánh giá khả năng gia tăng doanh thu từ một khách hàng của công ty so với công ty khác. ARPU được dùng phổ biến để so sánh hiệu quả hoạt động giữa các công ty ngành viễn thông. Công ty nào có ARPU cao hơn phần nào chứng tỏ hiệu quả hoạt động tốt hơn.
  • Xác định các hoạt động sales, marketing thích hợp để thu hút khách hàng: chỉ số ARPU cũng là công cụ để đánh giá, so sánh hiệu quả của các hoạt động bán hàng, tiếp thị, đánh giá các kênh bán hàng, xác định kênh nào mang lại giá trị cao hơn, tương tự so sánh các chiến dịch quảng cáo, khuyến mãi.
  • Hỗ trợ dự báo doanh thu tổng công ty nhận về, dự báo khả năng tăng trưởng của công ty, ARPU cho thấy xu hướng tiêu dùng, nhu cầu sử dụng dịch vụ của các khách hàng nếu được tính toán, đánh giá chính xác theo thời gian, được thu thập, và phân tích sử dụng Time series để thấy được các insights quan trọng hỗ trợ đưa ra các chiến lược kinh doanh phù hợp.
  • Phân khúc khách hàng: đây sẽ là ứng dụng mà chúng ta sẽ tìm hiểu thông qua ví dụ ở bài viết trước. Mỗi khách hàng khác nhau trong ngành viễn thông chắc chắn sẽ có mức độ đóng góp vào giá trị kinh doanh khác nhau. Sự khác nhau này có thể xuất phát từ nhiều yếu tố: đặc điểm nhân khẩu học, nhu cầu, hành vi, mức độ thỏa mãn,… Việc phân khúc khách hàng sẽ cho công ty thấy được phân khúc ở mức ARPU nào thể hiện các đặc điểm chung gì về khách hàng, và từ đây để đưa ra giải pháp cho khách hàng, mục đích trực tiếp tăng trở lại ARPU bên cạnh mục đích gián tiếp là giữ chân khách hàng thành công. Đó là đứng ở góc độ khách hàng, còn về phía công ty, ARPU giúp tìm ra các phân khúc khách hàng có giá trị, có tiềm năng (ARPU cao) cần sẵn sàng đầu tư, và loại bỏ các phân khúc khách hàng không có giá trị (ARPU thấp) cần được loại bỏ khi chi phí bỏ ra để duy trì các phân khúc này là quá nhiều.

Ví dụ khách hàng thuộc phân khúc ARPU cao cần tìm cách giữ chân thông qua các gói dịch vụ khuyến mãi dạng “Vip” để họ thấy được coi trọng, được quan tâm. Ngược lại, khách hàng thuộc phân khúc ARPU thấp, thì cần đánh giá khả năng rời dịch vụ của từng khách hàng, nếu thực sự khách hàng đã rời bỏ thì giải pháp loại bỏ mới cần được cân nhắc, không nên đầu tư chi phí vào các hoạt động marketing và sales thêm nữa.

Phân khúc khách hàng theo giá trị

ARPU như đã nói ở trên là chỉ số đánh giá hiệu quả hoạt động của các công ty viễn thông và giúp ích trong việc phân khúc khách hàng. Tuy nhiên trong ví dụ này các bạn nhìn thấy không có chỉ số ARPU nào cả, cũng không có tổng doanh thu, chỉ có chi phí khách hàng bỏ ra cho mỗi dịch vụ mình sử dụng. Chúng ta sẽ tạm thời tính tổng chi phí mỗi khách hàng bỏ ra, nhưng khoan hãy tính tổng doanh thu tất cả khách hàng/ tổng số khách hàng để tìm ARPU. Vì con số “tổng chi phí mỗi khách hàng bỏ ra” khi tính cho từng khách hàng, chính là con số thực tế cần xét đến, được dùng làm cơ sở phân khúc. Còn ARPU chúng ta sẽ dùng để đánh giá cho từng phân khúc tìm được sau khi có kết quả.

Lưu ý, ở một số tài liệu liên quan, thường để thẳng là ARPU ở cột tổng doanh thu (total charge) hoặc MARPU (Marginal ARPU) nếu có chi phí (total charge – total cost) để đánh giá biên lợi nhuận. Tuy nhiên vì không tính trung bình mà chỉ tính tổng theo từng khách hàng, nên theo chúng tôi không nhất thiết phải để ARPU. Mặt khác, nếu các bạn xác định rõ ý nghĩa ARPU trong trường hợp này chỉ thể hiện tên gọi, thông tin trường dữ liệu hoặc nếu tính giá trị trung bình mỗi tháng cho mỗi dịch vụ mà khách hàng đăng ký (trường hợp 1 tháng khách hàng trả tiền nhiều lần cho mỗi dịch vụ, và bạn muốn biết mỗi lần như vậy là bao nhiêu) hoặc nếu các bạn tính trung bình doanh thu mỗi dịch vụ cho từng khách hàng, Average revenue per unit thì cứ để ARPU, không ảnh hưởng gì!

Ở đây chúng tôi chọn cách tính đơn giản, là tính tổng chi phí cho mỗi khách hàng, tức tổng doanh thu từ một khách hàng mà công ty có được. Lưu ý, dữ liệu cập nhật theo tháng, tức ví dụ Total day Charge = tổng chi phí khách hàng đó bỏ ra cho các cuộc gọi vào ban ngày trong tháng đang xét. Dưới đây là kết quả mẫu của 10 khách hàng.

Tiếp tục chúng ta áp dụng phương pháp Binning đã sử dụng ở bài viết trước, khi thực hiện phân khúc khách hàng cho công ty ngành bán lẻ, sắp xếp khách hàng theo giá trị kinh doanh tăng dần và phân khúc theo %.

Phương pháp Binning là phương pháp trong thống kê, là một cách để biến các giá trị định lượng liên tục (continuous) thành một số lượng nhỏ hơn các nhóm theo thứ tự. Ví dụ: nếu chúng ta có dữ liệu về một nhóm người, chúng ta có thể sắp xếp tuổi của họ thành những khoảng tuổi nối tiếp, như cách chúng ta làm cho ví dụ này

Thông qua Binning chúng ta sẽ tìm ra được % khách hàng đóng góp doanh thu ít, % khách hàng đóng góp doanh thu trung bình, % khách hàng đóng góp doanh thu nhiều, và rất nhiều.

Cách thứ nhất sử, chúng ta sử dụng phân vị để đếm thứ tự khách hàng vào chia số lượng khách hàng bằng nhau vào mỗi nhóm, mỗi nhóm có % khách hàng (tính trên tổng số khách hàng) bằng nhau, cách khác là binning sao cho mỗi nhóm tổng giá trị Revenue mang lại là bằng nhau, hoặc xấp xỉ nhau, chênh lệch không nhiều, lúc này số khách hàng mỗi nhóm sẽ khác nhau.

Hai cách binning trên dựa theo lý thuyết thống kê. Công ty có thể tự mình xác định các nhóm khách hàng đóng góp giá trị mà mình mong muốn. Ví dụ công ty chỉ muốn áp dụng chương trình khuyến mãi đặc biệt cho nhóm 3% khách hàng có ARPU cao nhất, vậy phải tìm ra phân khúc này.

Trong ví dụ này chúng ta sẽ làm thử cả 3 cách.

Cách thức 1, dùng tứ phân vị để phân khúc, mỗi phân khúc khách hàng sẽ chiếm 25%

Chúng ta có 4 phân khúc khách hàng đều nhau, mỗi phân khúc chiếm 25% số khách hàng tập dữ liệu, với phân khúc 1 “Lowest ARPU” – ARPU thấp nhất – những khách hàng trong phân khúc này có total charge dưới 52.48 USD, phân khúc 2 “Medium – ARPU” – APRU trung bình – những khách hàng trong phân khúc này có total charge nằm từ 52.48 USD đến 59.51 USD, xét tương tự cho phân khúc 3 “High ARPU” và phân khúc 4 “Highest ARPU”

Chúng ta cùng tính chỉ số ARPU cho từng phân khúc:

Doanh thu trung bình 1 khách hàng thu được từ phân khúc 4 “Highest ARPU” là 72.639 USD, và ở phân khúc 1 “Lowest ARPU” là 46.36 USD.

Công ty sẽ tiếp tục tìm hiểu đặc điểm khách hàng trong mỗi phân khúc ở trên để xác định giải pháp marketing, sales phù hợp.

Xét theo yếu tố gọi điện vào ban ngày, thì phân khúc thứ 4 “Highest ARPU” chiếm nhiều khách hàng dành nhiều thời gian gọi điện vào ban ngày (54.08%) và khách hàng dành thời gian gọi điện vào ban ngày là trung bình (45.92%). Trong phân khúc thứ 3, chì chiếm đại đa số là khách hàng có thời gian gọi ban ngày trung bình, tương tự như phân khúc thứ 2, nhưng phân khúc thứ 2 có tỷ lệ ít số khách hàng có thời gian gọi vào ban ngày ít.

Như đã nói ở bài viết trước, thời gian gọi điện nhiều thì khách hàng trả phí sẽ cao, nên kết quả cũng dễ hiểu.

Chúng ta xét tiếp cho thời lượng gọi vào buổi chiều tối Eve call hình dưới đây. Trong phân khúc thứ 4, tỷ lệ khách hàng dành thời gian gọi nhiều vào buổi chiều tối chỉ chiếm 36.4% như vẫn cao hơn khi xét tỷ lệ tương tự ở các phân khúc khác.

Các bạn hãy tự nhận xét thử cho 2 hình ở trên về yếu tố Night call, và International call

Nhận xét chung về night call, và international call, thì phân khúc 4 không cho thấy sự chênh lệch nhiều giữa tỷ lệ khách hàng dành thời gian gọi điện nhiều vào ban đêm, hay cuộc gọi quốc tế, nếu so sánh bên trong phân khúc và giữa các phân khúc. Như vậy trong dịch vụ gọi điện, các khách hàng thuộc phân khúc 4 “Highesst ARPU” có nhu cầu gọi điện nhiều vào ban ngày và chiều tối, phỏng đoán rằng họ có thể sử dụng dịch vụ vì mục đích công việc, họ có thể là các nhân viên kinh doanh, bán hàng.

Còn về voice mail thì thế nào. Cả 4 phân khúc đều không có nhu cầu cao sử dụng voice mail, khi chiếm đa số là tỷ lệ khách hàng sử dụng Voice mail ít.

Chúng ta đã có các biến định lượng đã xử lý ở bài viết trước. Bạn nào chưa biết có thể xem lại bài viết phần 1.

Xét theo thời gian đăng ký dịch vụ, thì các bạn có thể thấy, khi phân khúc theo giá trị để có được 4 phân khúc theo ARPU thì các phân khúc này không chênh lệch nhau mấy về số khách hàng ở 3 nhóm “khách hàng lâu năm”, “khách hàng mới”, “khách hàng trung thành”

Phân tích thêm về khả năng rời dịch vụ.

Trong số khách hàng rời dịch vụ, thì phân khúc 4 “Highest ARPU” chiếm tỷ lệ nhiều nhất, đến 28.88%. và phân khúc 3 “High ARPU” chiếm tỷ lệ thấp nhất 5.2%. Như vậy kết luận ban đầu có thể thấy, dịch vụ gọi điện thoại hay các dịch vụ gọi điện khác có thể khiến các khách hàng đóng góp nhiều giá trị ARPU nhất cảm thấy không hài lòng. Họ trả nhiều nhưng không được thỏa mã, hoặc chi phí quá cao khiến họ phải đi tìm công ty dịch vụ viễn thông khác.

Để đánh giá chi tiết hơn yếu tố nào dẫn đến việc khách hàng rời dịch vụ, chúng ta cần phân tích sâu hơn. Chi tiết chúng tôi sẽ đề cập ở bài viết Customer retention.

Chúng ta mới tìm hiểu các đặc điểm định tính của phân khúc 4 “Highest ARPU”. Câu hỏi đặt ra, một khách hàng trong phân khúc 4 thường dành thời gian gọi điện trung bình là bao nhiêu trong ngày, sử dụng voice mail bao nhiêu,…

2 bảng trên là kết quả chi tiết các bạn có thể dựa vào đó và so sánh tiếp các phân khúc với nhau. Đây cũng là thông tin về các đặc điểm chung mà các khách hàng trong từng phân khúc sẽ có. Ví dụ trong phân khúc 4, mỗi khách hàng có thời gian gọi trung bình vào ban ngày trong tháng là 240.362 phút, chi phí trung tháng bỏ ra là 72.6 USD

Chúng ta tạm dừng cách phân khúc thứ nhất là dùng tứ phân vị 25% để tìm 4 phân khúc bằng nhau về số khách hàng. Lưu ý, mins, total charge ở đây là tính theo tháng.

Cách phân khúc thứ 2: sử dụng binning nhưng phân khúc dựa trên chia khoảng đều 25% theo total charge

4 phân khúc, mỗi phân khúc có khoảng total charge khác nhau, nhưng giá trị max –  giá trị min mỗi khoảng đều bằng 18.305 USD. Như vậy chúng ta có 4 phân khúc mới, công việc tiếp theo của các bạn là làm giống như cách phân khúc đầu tiên. Tìm hiểu từng phân khúc, so sánh giữa các phân khúc theo các yếu tố Day call, Eve call, Night call,… Các bạn sẽ thấy được nhiều sự khác biệt hơn so với cách phân khúc thứ nhất, vì số khách hàng mỗi phân khúc có sự chênh lệch lớn, không còn bằng nhau. Các đánh giá từ đó sẽ chính xác hơn! Các bạn hãy thử nhé. BigDataUni xin phép không phân tích thêm tại đây, để sang cách phân khúc thứ 3 được coi là quan trọng đối với các công ty.

Cách phân khúc thứ 3: phân khúc khách hàng theo mục đích kinh doanh

Ví dụ công ty muốn triển khai các hoạt động sales, marketing đặc biệt cho các nhóm khách hàng có ARPU khác nhau. Đối với nhóm khách hàng có ARPU cao, công ty sẽ áp dụng các chương trình khuyến mãi, ưu đãi lớn. Đối với nhóm khách hàng có ARPU thấp hơn, thì các chương trình khuyến mãi, ưu đãi sẽ thấp hơn.

Giả sử công ty triển khai chương trình khách hàng thân thiết và đánh giá khách hàng theo các cấp bậc sau:

  • Diamond: khách hàng “kim cương”, có ARPU cao nhất
  • Platinum: khách hàng “bạch kim”, có ARPU rất cao
  • Gold: khách hàng “vàng”, có ARPU khá cao
  • Silver: khách hàng “bạc”, có ARPU trung bình
  • Bronze: khách hàng “đồng” có ARPU khá thấp
  • Basic: khách hàng có ARPU thấp nhất

Nhóm khách hàng công ty quan tâm nhất là Diamond, Platinum và Gold, vì không thể đầu tư nhiều cho tất cả các chương trình ưu đãi, khuyến mãi cho tất cả các nhóm khách hàng. Theo như budget hiện có công ty có thể phong hạng Diamond cho 100 khách hàng có ARPU cao nhất trong tập dữ liệu, 250 khách hàng hạng Platinum, và 750 khách hàng hạng Gold. Tỷ lệ lần lượt là 2%, 5%, và 15%. Như vậy còn 78% cho 3 nhóm còn lại, chúng ta sẽ chia đều mỗi nhóm Silver, Bronze, Basic, mỗi nhóm 26%. Giả định 3 nhóm này sẽ được theo dõi, và áp dụng các chiến lược sales, marketing khác.

Cách phân khúc cũng là tương tự, sử dụng phương pháp Binning. Nhưng có khác biệt là chúng ta sẽ sắp xếp khách hàng theo thứ tự tăng dần về total charge, xong đó cứ 1% khách hàng tức 50 khách hàng chúng ta sẽ đánh mốc, cứ 1% tiếp sẽ đánh mốc. Chúng ta sẽ có 100 mốc 1% (hay 100 nhóm có 50 khách hàng), công việc đơn giản, là trong 22 mốc gần cuối, chúng ta sẽ ngắt 15 mốc cho Gold, 5 mốc cho Platinum, và 2 mốc cuối cùng cho Diamond, tứ 2% số khách hàng có total charge cao nhất.

Đó là cách giải thích phương pháp binning trường hợp này. Dữ liệu chỉ vài trăm quan sát là quá trình phân tích đã phức tạp, huống chi dữ liệu đến 5000 quan sát. May mắn có phần mềm SPSS, cho phép phân khúc khách hàng sử dụng binning linh hoạt.

Trên đây là ví dụ 30 phân nhóm đầu tiên, 22 phân nhóm quan trọng để đánh giá thứ hạng Diamond, Platinum, Gold. Lưu ý trong kết quả tính toán của SPSS, một vài phân khúc có tỷ lệ khách hàng có sự chênh lệch nhỏ so với 1%, do các khoảng Total charge số được làm tròn. Dưới đây là kết quả của 22 phân nhóm đã nói.

  • Diamond: các khách hàng thuộc phân nhóm 99, 100, tức có total charge từ trên 81.12$ đến 96.15$
  • Platinum: các khách hàng thuộc phân nhóm từ 94 đến 98, tức có total charge từ 74.92$ đến dưới 81.12$
  • Gold: các khách hàng thuộc phân nhóm 79 đến 93, tức có total charge từ 67.38$ đến dưới 74.92$

Các bạn xét tương tự cho Silver, Bronze, và Basic, mỗi nhóm có 26% khách hàng.

Dưới đây là kết quả phân khúc sau cùng.

Công việc tiếp theo là chúng ta tiếp tục phân tích từng nội bộ phân khúc, và so sánh giữa phân khúc. Tuy nhiên bài viết có giới hạn nên chúng tôi không trình bày thêm ở đây, các bạn có thể tự phân tích tiếp theo cách chúng tôi làm ở cách phân khúc đầu tiên.

Dưới đây là các đặc điểm chung của các khách hàng (về giá trị trung bình ở các yếu tố) trong từng phân khúc để giúp công ty đưa ra các giải pháp marketing, sales khác.

Chúng ta cùng nhìn qua tỷ lệ churn của từng phân khúc.

Tỷ lệ churn nhiều nhất ở trong số khách hàng thuộc phân khúc Diamond, chiếm 76%, tức trong 100 khách hàng có 76 khách hàng rời dịch vụ, tiếp đến là Platinum cũng 76%. Cho thấy trong tương lai nếu công ty không nhanh chân điều chỉnh các giải pháp, thì họ nguy cơ sẽ mất thêm các khách hàng thuộc 2 nhóm này, còn nhiều yếu tố khác cần đánh giá ngoài Total Charge, hay ARPU nhưng qua đây cũng thấy được rõ vấn đề.

Như vậy chúng ta đã kết thúc quá trình phân khúc khách hàng theo giá trị, tiếp đến là phân khúc khách hàng theo hành vi.

Phân khúc khách hàng theo hành vi

Quá trình phân khúc khách hàng theo hành vi giúp ích trong việc xác định nhu cầu và mong muốn của khách hàng ở các thời điểm, tuy nhiên vì bài viết có giới hạn nên chúng tôi chỉ chọn tập dữ liệu mẫu gọn, không nhiều trường dữ liệu nên không có cung cấp nhiều thông tin về các dịch vụ khác như SMS, Internet, cũng không có thông tin về các cuộc gọi đến để tiến hành phân tích sâu hơn. Ở đây chúng ta chỉ dừng lại phân tích theo hành vi sử dụng dịch vụ gọi điện (Day/ Eve/ Night), hành vi thể hiện nhu cầu cần được chăm sóc, hành vi sử dụng các dịch vụ khác như (International call/ Voice mail)

Vì hành vi thể hiện nhu cầu được chăm sóc chỉ có 1 trường dữ liệu là số cuộc gọi mỗi khách hàng thực hiện nên chúng ta chỉ cần phân nhóm khách hàng theo 3 nhóm: nhóm có số cuộc gọi đến tổng đài hỗ trợ ít, trung bình và nhiều. Rồi tiến hành tìm hiểu từng phân khúc. Và chúng ta cũng có thể làm tương tự như vậy cho các biến định lượng khác. Nhưng ở đây chúng tôi muốn hướng đến một cách tiếp cận khác quen thuộc đó là phân khúc khách hàng sử dụng phương pháp K-means clustering.

Chúng tôi sẽ thử cho trường hợp hành vi dịch vụ gọi đến (Day/ Eve/ Night Call) với  hành vi sử dụng các dịch vụ khác như International call, và Voice mail. (chỉ dừng lại xem xét khách hàng nào có hay không có đăng ký một trong hai hoặc cả hai dịch vụ này)

*Nhiệm vụ của các bạn là hãy thử phân khúc theo 5 biến định lượng Day mins, Eve mins, Night mins, cùng với International mins, Voice mail mins. Và hãy tự đánh giá liệu phân khúc như thế này có đánh giá và nhận xét được sự khác biệt giữa các cluster hay không?

Tuy đơn giản, nhưng có thể đủ để show cho các bạn thấy ứng dụng của K-means clustering trong trường hợp này khi chúng ta có quá nhiều tiêu chí để phân khúc, thay vì chỉ có 1 là Total charge như ở phân khúc khách hàng theo giá trị.

*Lưu ý: có một phương pháp Clustering khác đó là Two-step clustering, một dạng nâng cấp của Hierarchical clustering (phân cụm phân cấp) có kết hợp PCA (Principal component analysis) áp dụng cho dữ liệu nhiều thông tin nhiều trường dữ liệu. Hiện tại chưa có các bài viết lý thuyết để các bạn hiểu và nắm bắt về 2 phương pháp này (trường hợp một số bạn mới chỉ mới tìm hiểu về Data mining), nên chúng tôi không tiện sử dụng để minh họa cho ứng dụng Data mining trong phân khúc khách hàng. Ở các chủ đề bài viết khác về Two-step clustering và PCA chúng tôi sẽ trình bày chi tiết.

Dành cho các bạn chưa biết gì về K-means clustering có thể tham khảo các bài viết sau:

Tìm hiểu về phương pháp Clustering (phân cụm) (P.1)

Tìm hiểu về phương pháp Clustering (P.2): Hierarchical clustering đơn giản

K-means Clustering và mô hình RFM (P.1)

K-means Clustering và mô hình RFM (P.2)

Các bạn cần xem qua cơ chế vận hành, và mục đích ứng dụng của K-means clustering thì mới hiểu kết quả K-means clustering dưới đây.

Đánh giá kết quả clustering thì chất lượng đạt ở mức Good. Tức các cluster đảm bảo các tiêu chí về độ chính xác, sự tương đồng cao nhất trong từng phân khúc, và sự khác biệt rõ rệt giữa các phân khúc.

Chúng ta có tất cả 5 nhóm khách hàng kể trên. Chiếm nhiều nhất là Cluster – 3 chiếm 66.7% tổng số khách hàng. Đây là những khách hàng chỉ tham gia dịch vụ gọi điện thoại mà thôi, thời lượng dành cho các cuộc gọi vào ban ngày là ít nhất, thời gian gọi điện vào chiều tốt, và ban đêm chênh lệch rất ít. Chúng ta chưa thể xác định nhóm khách hàng này là ai, có việc làm hay không, và việc làm đó có thể là gì.

Phân khúc lớn thứ 2 là nhóm khách hàng Cluster – 1 chiếm 23.8% số khách hàng, khách hàng này cũng giống các khách hàng ở cluster 3 nhưng hoạt động tính cực hơn, khi số phút dành ra cho các cuộc gọi là nhiều hơn nhưng không chênh lệch mấy so với cluster 3, điểm khác biệt là họ sử dụng cả Voice mail, tuy nhiên lại không có sử dụng cuộc gọi quốc tế. Cho thấy họ chỉ hoạt động chủ yếu trong nội địa. Tương tự cluster 3, chúng ta chưa thể xác định nhóm khách hàng này là ai, có việc làm hay không, và việc làm đó có thể là gì.

Phân khúc lớn thứ 3 là nhóm khách hàng Cluster – 2, chỉ chiếm 3.7% số khách hàng, nhóm khách hàng này hoạt động rất ít (trung bình 143 phút) vào ban ngày so với các cluster khác là ít nhất nhưng hoạt động vào ban đêm và chiều tối là nhiều nhất so với các cluster khác. Và nhóm này có sử dụng cuộc gọi quốc tế, nhưng không sử dụng Voice mail. Có thể các khách hàng này là nhân viên bình thường, không phải nhân viên bán hàng, hoặc là người còn đi học nên thời gian ban ngày họ tập trung vào công việc chính, chiều tối, ban đêm có nhiều thời gian rãnh hơn để nói chuyện.

Ngược lại với Cluster – 5, chỉ chiếm 3.2% tổng số khách hàng, nhưng thể hiện sự khác biệt rõ, các khách hàng trong nhóm này hoạt động rất tích cực vào ban ngày, với thời lượng gọi vào ban ngày chiếm nhiều nhất (trung bình 235.53 phút) , có thể suy đoán được trong số họ có những người sử dụng smartphone là công cụ để làm việc, và sau một ngày suốt ngày chỉ gọi cho khách đêm về là thời gian họ nghỉ ngơi nên Night call minutes là thấp nhất.

Cluster – 4, chiếm ít nhất chỉ 2.6%, nhưng nhìn chung đây là nhóm khách hàng có giá trị nhất, vì họ sử dụng đủ các dịch vụ và hoạt động rất tích cực cả 3 buổi trong ngày, sử dụng cả Voice mail, và International call, cho thấy họ có mối quan hệ rộng, có nhu cầu sử dụng nhiều dịch vụ để hỗ trợ quá trình giao tiếp hiệu quả. Tuy nhiên chúng ta chưa thể xác định nhóm khách hàng này là ai, có việc làm hay không, và việc làm đó có thể là gì.

Các bạn cùng nhìn vào mối quan hệ giữa từng phân khúc lên tỷ lệ rời dịch vụ thì có thể thấy phân khúc thứ 5, có tỷ lệ rời dịch vụ cao nhất, đến 49.37%, tiếp theo là Cluster-2 với 40.76%. Các đặc điểm bên trong 2 phân khúc này là thông tin hữu ích, hỗ trợ dự báo khả năng khách hàng rời dịch vụ. Trong bài viết về Customer Retention chúng tôi sẽ trình bày chi tiết.

Các bạn nhìn lên kết quả thì có thể thấy trong quá trình phân tích nãy giờ các biến mà chúng ta sử dụng nhiều để nói đó là Voice mail, Intl call, và Call day mins, bảng kết quả có cho thấy tầm quan trọng của các biến input thông qua màu sắc.

Bước tiếp theo của công ty, đó là tìm ra liệu có giải pháp, dịch vụ nào phù hợp cho các phân khúc trên? Cần phát triển các chiến dịch khuyến mãi, ưu đãi nào phù hợp để thu hút họ?

Các bạn hãy thử suy nghĩ xem?

Lưu ý một chút: điểm bất lợi của dữ liệu mẫu lần này là nó còn đơn giản, chưa có nhiều thông tin chi tiết, và tất cả chỉ dựa trên phỏng đoán mà thôi, chưa có nhiều cơ sở để củng cố các kết luận. Nhiều bạn sẽ thắc mắc tại sao không dùng số cuộc gọi (number of calls) thay vì dùng thời lượng. Nếu các bạn thử sẽ thấy, kết quả nó cũng tương tự, và không có sự khác biệt. Các số liệu lấy tổng theo tháng, nên các đánh giá đều chưa thể chính xác hoàn toàn. Ví dụ có nhiều khách hàng ít dành thời gian gọi điện vào buổi tối, ban đêm trong tuần, nhưng vào cuối tuần thì họ dành gấp n lần thời gian để xả stress, tán dóc với bạn bè,…Chúng ta không có thông tin về hành vi sử dụng xét theo trung bình ngày, ví dụ chúng ta không tính được thời lượng gọi điện trung bình cho mỗi cuộc gọi vào ban ngày trong 1 ngày là bao nhiêu.

Do đó các kết luận đưa ra từ bài viết phần 1 và phần 2 chỉ mang tính chất chung chung, chưa thể khẳng đinh tuyệt đối.

Như vậy đến đây là kết thúc bài viết phần 2 tại đây, hẹn gặp các bạn ở những chủ đề khác.

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

Mục nhập này đã được đăng trong BLOG. Đánh dấu trang permalink.
error: Content is protected !!