Hiểu hơn về Linear regression thông qua ví dụ đơn giản trong bán lẻ (P.3)

Bigdatauni.com Follow Fanpage Contact

Ở 2 phần bài viết trước về chủ đề tìm hiểu linear regression hay còn gọi là hồi quy tuyến tính qua ví dụ trong bán lẻ, chúng ta đã được làm quen với cách xây dựng phương trình hồi quy, giải thích các hệ số hồi quy, kiểm tra phương trình có phù hợp để dự báo hay không thông qua kiểm định F, hệ số xác định R², tiến hành dự báo giá trị của biến mục tiêu Y, cũng như chúng ta đã tìm hiểu qua cách chọn lựa biến độc lập để đưa vào mô hình sử dụng ma trận hệ số tương quan, và phương pháp Stepwise.

Link các bài viết trước:

Hiểu hơn về Linear regression thông qua ví dụ đơn giản trong bán lẻ (P.1)

Hiểu hơn về Linear regression thông qua ví dụ đơn giản trong bán lẻ (P.2)

Trong bài viết lần này, chúng ta sẽ sử dụng ví dụ trước trong bán lẻ tìm hiểu về vấn đề đa cộng tuyến – Multicollinearity, vấn đề thường gặp khi xây dựng mô hình hồi quy tuyến tính và tác hại của nó.

Để tiếp thu nội dung trong bài viết này này hiệu quả, các bạn nên có kiến thức cơ bản về hồi quy tuyến tính, bao gồm các công thức, định nghĩa liên quan, các bạn có thể tham khảo lại các bài viết của chúng tôi về linear regression trong mục blog.

Multicollinearity

Đa cộng tuyến là trường hợp mà các biến độc lập, hay các biến dự báo X có mối quan hệ tương quan mạnh với nhau hay nói cách khác một biến X có thể có mối quan hệ với tập hợp các biến X khác. Đa cộng tuyến có thể khiến kết quả dự báo của phương trình hay mô hình hồi quy có thể bị sai lệch. Hay nói cách khác, bên cạnh mối liên hệ giữa các biến X và biến mục tiêu Y, bộ dữ liệu còn thể hiện thông tin “hữu ích” về mối liên hệ giữa các biến X với nhau nhưng sẽ ảnh hưởng tiêu cực đến kết quả dự báo của biến mục tiêu Y. Giả sử chúng ta muốn dự báo mức độ tiêu hao xăng, nguyên liệu của các xe tải chở hàng, trong số các biến độc lập X, có biến lượng hàng hóa chuyên chở (x1), biến thứ hai là mã lực (x2). Trong thực tế, ngay cả trong suy nghĩ của chúng ta, xe có trọng tải lớn thì mã lực phải lớn mới có thể vận chuyển lượng lớn hàng hóa. Phân tích bộ dữ liệu thì thấy, đúng như suy nghĩ, 2 biến này có mối liên hệ tương quan với nhau khá rõ, x1 tăng, thì x2 cũng tăng, do đó chúng có thể ảnh hưởng đến độ chính xác của kết quả dự báo biến mục tiêu Y. Tại sao chúng ta phải quan tâm đến đa cộng tuyến?

Giả sử chúng ta phải dự báo doanh thu của một cửa hàng bán lẻ ở tháng dựa trên dự báo theo từng ngày sắp tới dựa trên dữ liệu lịch sử bao gồm các biến: chương trình khuyến mãi có trong ngày, tổng số giao dịch trong ngày, số khách hàng ghé thăm cửa hàng, tổng số lần giao hàng trực tuyến, … và nhiều biến khác chưa đưa vô mô hình. Chúng ta có phương trình tổng quát: y^ = b₀ + b₁x₁ + b₂x₂ + b₃x₃ + b₄x₄, giả sử qua kiểm định F chúng ta kết luận doanh thu cửa hàng có mối quan hệ tuyến tính với một trong các biến trên. Tiếp tục kiểm định t cho từng biến x theo hệ số hồi quy, trường hợp chúng ta không thể bác bỏ H₀: β₁ = 0, nghĩa là chương trình khuyến mãi không có mối liên hệ tuyến tính với biến mục tiêu. Thực chất có kết quả này có chính xác hay không? Không hoàn toàn.

Biến chương trình khuyến mãi có mối quan hệ thuận chiều mạnh với biến tổng số giao dịch trong ngày. Đơn giải không cần giải thích chắc các bạn cũng hiểu. Do đó nếu trong phương trình hay trong mô hình đã có một trong 2 biến này thì biến còn lại nếu đưa vô sẽ chỉ đóng góp rất ít thông tin hay tăng rất ít ý nghĩa trong việc dự báo giá trị của y hay ở đây là thu nhập của cửa hàng. Thuật ngữ thường dùng là “Overlap”. Phương trình hồi quy được xây dựng dựa trên cơ sở xác định mức “ý nghĩa” – Significance của từng biến độc lập x đóng góp vào quá trình dự báo cho biến mục tiêu y, thông qua kiểm định t. Nếu mỗi cặp biến độc lập x có mối quan hệ với nhau, thì sẽ có một biến không mang lại nhiều ý nghĩa cho mô hình, hay nói khác có thể là biến “thừa”.

Đây là vấn đề đầu tiên mà đa cộng tuyến gây ra cho quá trình kiểm định về mối liên hệ giữa từng biến độc lập và biến mục tiêu. Thực tế các bạn có thể thấy, chương trình khuyến mãi thường đóng góp rất nhiều cho doanh thu của cửa hàng, nghĩa là có mối tương quan thuận chiều, giá trị kiểm định t (các bạn hãy xem lại bài viết về kiểm định trong hồi quy tại mục Blog) sẽ nghiên về kết quả bác bỏ H₀, kết luận biến này có ý nghĩa để giải thích sự tăng lên của doanh thu. Tuy nhiên khi đưa vào mô hình đã có sẵn biến x₂, tổng số giao dịch trong ngày, thì ý nghĩa của biến chương trình khuyến mãi đóng góp là không lớn, vì có chương trình khuyến mãi thì tổng số giao dịch sẽ tăng, điều này ai cũng biết, giả định chương trình khuyến mãi là hiệu quả. Do đó, kiểm định t trong trường hợp mô hình bao gồm cả 2 biến x₁ và x₂ sẽ gây cho chúng ta hiểu lầm là không có mối quan hệ giữa doanh thu và chương trình khuyến mãi.

Mặt khác, nếu một phương trình hồi quy bao gồm tất cả các biến thì vấn đề “overfitting” có thể xảy ra, mô hình quá khớp dữ liệu training, hay dữ liệu mẫu, và kết quả dự báo đưa ra cho biến y sẽ không đúng trong thực tế. Đa cộng tuyến cũng là cơ sở khác, bên cạnh phương pháp ma trận hồi quy tương quan, và Stepwise trong việc lựa chọn biến độc lập phù hợp đưa vào mô hình.

Đa cộng tuyến còn khiến quá trình phân tích hồi quy mang lại các kết quả khó hiểu và thậm chí không có độ tin cậy cao. Cụ thể chúng ta xem qua ví dụ sau:

Giả sử chúng ta có mô hình hồi quy với 1 biến mục tiêu y và 3 biến độc lập x, bên trên là kết quả bình thường, giữa các biến x không có mối quan hệ tương quan, tức không có đa cộng tuyến, nhìn vào phần Correlations, trị tuyệt đối hệ số tương quan giữa các biến không quá gần 1 hay -1. Các biến thứ var00001 và var00002 có hệ số tương quan âm với biến Y, và hệ số hồi quy cũng âm (nhìn vào cột B), riêng var00003 có hệ số tương quan âm với biến Y, nhưng hệ số hồi quy dương 0.134, và nhìn vào cột Sig, tức p-value 0.109 > 0.05, tức không bác bỏ H₀: B₃ = 0. Tức không có ý nghĩa cho mô hình, nên chúng ta có thể sẽ bỏ biến này khỏi mô hình. Nhìn tổng quan thì kết quả trên không có gì đáng nói, chúng khá bình thường

Nếu xét ví dụ khác giả sử biến Var00001, và Var00002 có quan hệ tương quan thuận mạnh, hệ số tương quan gần bằng 1 là 0.979 như dưới đây? Chúng tôi giữ biến Var00001, Var00003, và thay đổi giá trị Var00002 sao cho nó tương quan thuận để tạo ra kết quả so sánh cho các bạn dễ hiểu. Trước tiên các bạn có thể thấy khi bộ dữ liệu thay đổi, ở đây chỉ đổi dữ liệu tại biến thứ 2, thì hệ số hồi quy của biến 1, và biến 3 đều thay đổi so với ở trên, tại cột sig biến 1 và biến 2, p-value đều lớn hơn 0.05, nghĩa là cả 2 biến không có ý nghĩa giải thích cho sự thay đổi của biến Y trong tương lai mặc dù dựa vào hệ số tương quan thì chúng có quan hệ với biến Y. Ngoài ra các bạn có thể thấy tại cột Std. error là sai số của hệ số hồi quy, tăng hơn so với kết quả đầu tiên, đa cộng tuyến làm tăng sai số. Lưu ý cột Standardized Coefficients Beta là hệ số hồi quy của dữ liệu đã được chuẩn hóa, ở đây chúng ta không chuẩn hóa dữ liệu (đưa các giá trị dữ liệu tại các biến về cùng đơn vị) nên không xét cột này. Các bạn có thể thấy hệ số tương quan giữa biến 2 và biến Y là -0.885, tương quan nghịch rất rõ nhưng hệ số hồi quy của biến 2 lại có giá trị dương, và rất rất nhỏ.

Lưu ý lần nữa, cực kỳ quan trọng, giá trị p-values tại cột sig (kết cột t) của kiểm định t dùng cho hệ số hồi quy để kết luận biến đó có ý nghĩa trong việc giải thích sự thay đổi của biến Y hay không chứ không nên giải thích có hay không mối quan hệ giữa biến đó với biến mục tiêu. Và giá trị p-values này khác với giá trị p-values tại cột sig (2-tailed) – kết quả kiểm định t cho hệ số tương quan Pearson Correlations. Giá trị p-values tại cột sig (2-tailed), kết quả kiểm định hệ số tương quan ở các bảng trên đều nhỏ hơn 0.05 nên chắc chắn tất cả các cặp biến đều có mối quan hệ tương quan.

Như vậy có thể thấy Multicollinearity khiến cho kết quả phân tích của chúng ta trở nên khó hiểu và khó giải thích, từ đó khiến mô hình đưa ra kết quả dự báo sai lệch cho giá trị Y. 2 biến thứ 1 và thứ 2 đều có mối quan hệ tương quan bền vững khi cả 2 hệ số tương quan đều tiến gần đến -1 hay 1, nhưng chỉ 1 trong 2 biến có ý nghĩa trong việc giải thích sự thay đổi của biến Y trong tương lai, nguyên nhân chính là do đa cộng tuyến gây ra. Bên cạnh đó, đa cộng tuyến còn gây ra sai số trong việc ước lượng hay dự báo hệ số hồi quy trong thực tế, khiến cho việc dự báo cho biến mục tiêu Y cũng không chính xác. Sau cùng, mô hình hồi quy xây dựng là không hiệu quả.

Vậy cách nào để nhận biết được mô hình có nguy cơ đã bị đa cộng tuyến bên cạnh ma trận hệ số tương quan?

Có rất nhiều chuyên gia thống kê đã nghiên cứu nhiều phương pháp khác nhau để xác định xem khi nào đa cộng tuyến xảy ra và tác động đủ lớn để gây ra các kết quả tiêu cực. Ý kiến có thể khác nhau tùy theo góc nhìn và kinh nghiệm của mỗi chuyên gia, vì suy cho cùng độ hiệu quả của mô hình hồi quy không chỉ dừng lại ở việc phán đoán trước vấn đề đa cộng tuyến mà còn sử dụng rất nhiều công cụ khác.

Cách thứ nhất để nhận biết, như đã nói là dùng ma trận hệ số tương quan, nhưng hệ số tương quan bất ký của một cặp biến độc lập x phải nằm ở ngưỡng nào thì mới có đa cộng tuyến?

Theo như tài liệu thống kê quốc tế “Statistics for business and economics” tái bản 13 của nhà xuất bản Cengage Learning thì dựa trên nguyên lý thực nghiệm, nếu 2 biến độc lập bất kỳ có trị tuyệt đối hệ số tương quan (dữ liệu mẫu) lớn hơn 0.7 thì có khả năng mô hình bị đa cộng tuyến. Lưu ý xét luôn giá trị kiểm định của hệ số tương quan (cột sig 2 – tailed) hoặc các bạn có thể trực tiếp tính theo công thức sau:

Công thức tính giá trị kiểm định t cho hệ số tương quan r để bác bỏ hay không bác bỏ giả thuyết có mối tương quan giữa 2 biến.

p_xy là hệ số tương quan của tổng thể, chúng ta có các giả thuyết H₀ như sau:

H₀: p_xy = 0 H₀: p_xy ≤ 0 H₀: p_xy ≥ 0

H₁: p_xy ≠ 0 H₁: p_xy > 0 H₁: p_xy < 0

P_xy > 0, trong tổng thể, x và y có mối quan hệ thuận, P_xy < 0 , trong tổng thể, x và y có mối quan hệ nghịch, P_xy = 0, trong tổng thể, x và y không có mối quan hệ. Chúng ta sẽ tính toán giá trị kiểm định t và so sánh với t tra bảng, với mức ý nghĩa α, và bậc tự do n – 2, H₀: p_xy = 0 là kiểm định 2 phía, mức ý nghĩa α được chia 2 khi tra bảng, còn lại là kiểm định 1 phía và mức ý nghĩa α được giữ nguyên khi tra bảng.

Cơ sở bác bỏ H₀

Với kiểm định 2 phía: H₀: p_xy = 0 được bác bỏ khi trị tuyệt đối của t lớn hơn t tra bảng (t_{α/2, n-2})

Với kiểm định bên phải: H₀: p_xy ≤ 0 được bác bỏ khi giá trị t dương lớn hơn giá trị dương của t tra bảng (t_{α, n-2})

Với kiểm định bên trái: H₀: p_xy ≥ 0 được bác bỏ khi giá trị t < giá trị âm của t tra bảng (t_{α, n-2})

Nếu xét trên giá trị p-value, bác bỏ H₀ khi p-value < α. (p-value là mức ý nghĩa nhỏ nhất mà tại đó H₀ bị bác bỏ)

Lưu ý, y ở trên không phải là biến mục tiêu duy nhất, mà là biến thứ 2, khi so với biến thứ nhất trong cặp biến.

Theo tài liệu thống kê của James McClave thì cần lưu ý:

Nguy cơ đa cộng tuyến cao khi trị tuyết đối của hệ số tương quan r ≥ 0.8
Nguy cơ đa cộng tuyến ở mức trung bình khi trị tuyết đối của hệ số tương quan: 0.2 ≤ r ≤ 0.8
Nguy cơ đa cộng tuyến thấp khi trị tuyết đối của hệ số tương quan r ≤ 0.2

Ngoài ra chúng ta còn có công thức tính hệ số VIF (Variance Inflation Factor), đây là hệ số được sử dụng phổ biến nhất để xác định một biến độc lập x có thể gây ra hiện tượng đa cộng tuyến hay không.

Lưu ý R_j² là hệ số xác định của mô hình hồi quy trong đó, biến X này sẽ trở thành biến mục tiêu (như biến Y) và các biến X còn lại sẽ là biến độc lập.

Nếu VIF > 2 nguy cơ có đa cộng tuyến, và VIF > 10 chắc chắn có đa cộng tuyến, sử dụng kết hợp phương pháp hệ số tương quan để kết luận đồng thời. Lưu ý thêm, ngưỡng giá trị của VIF để kết luận có đa cộng tuyến thường khác nhau giữa các tài liệu thống kê, và phụ thuộc vào đặc trưng của biến, với biến định lượng thì VIF>2 khả năng có đa cộng tuyến gần như chắc chắn, tương tự với biến định tính khi VIF > 10.

Ngoài ra, chúng ta còn có hệ số Tolerance = 1/VIF. Tolerance càng nhỏ thì khả năng đa cộng tuyến cao và ngược lại.

Một số tiêu chí khác để xác định mô hình có bị đa cộng tuyến hay không:

Một biến độc lập x được xem có vai trò là biến dự báo quan trọng trong mô hình hồi quy nhưng kết quả kiểm định hệ số hồi quy lại không ủng hộ.
Hệ số hồi quy đáng lẻ theo khuynh hướng mang giá trị dương, ví dụ do 2 biến có hệ số tương quan thuận, nhưng lại mang giá trị âm. Tương tự cho trường hợp khuynh hướng mang giá trị âm mà lại thể hiện giá trị dương.
Khi một biến độc lập được thêm vào mô hình, hay bị loại bỏ ra khỏi mô hình thì các hệ số hồi quy bị thay đổi đáng kể so với ban đầu.
Các hệ số hồi quy có dấu hiệu bất thường, không thể giải thích dựa trên lý thuyết hay kinh nghiệm.
Tất cả giá trị kiểm định t đều không khẳng định ý nghĩa của các biến độc lập trong việc giải thích sự thay đổi của biến y nhưng ngược lại kiểm định F thì ủng hộ.

Nguyên nhân gây ra đa cộng tuyến có thể:

Đa cộng tuyến gây ra bởi quá trình thiết kế nghiên cứu, thu thập và phân tích dữ liệu không hiệu quả hoặc bản thân dữ liệu thu thập đã có sẵn vấn đề đa cộng tuyến, hoặc các thuộc tính dữ liệu trong thực tế, hay trong tổng thể không có sự khác biệt, hay có mối quan hệ nhân quả với nhau quá rõ ràng.
Mẫu dữ liệu thu thập không phù hợp, hay không đặc trưng cho tổng thể nghiên cứu.
Nguyên nhân do việc thay đổi biến dự báo (biến độc lập) hay thêm vào các biến dự báo không phù hợp
Dữ liệu thu thập không đủ, dữ liệu thu thập không đa dạng, không bao gồm các biến quan trọng khác.
Nguyên nhân do xử lý biến giả (Dummy variable) hay gán giá trị biến định tính không phù hợp, không chính xác.
Sử dụng biến độc lập là một biến được kết hợp bởi 2 biến độc lập khác ví dụ tổng doanh thu cửa hàng = doanh thu tại cửa hàng + doanh thu từ giao hàng
Sử dụng 2 biến giống nhau hoặc gần giống nhau ví dụ doanh thu, lợi nhuận hay khối lượng theo kg, khối lượng theo pounds.

Giải pháp ngăn chặn vấn đề đa cộng tuyến có lẽ hiệu quả nhất chính là xem lại quy trình xây dựng nghiên cứu dữ liệu cụ thể là việc chọn mẫu, thu thập loại dữ liệu nào, chuẩn bị biến dữ liệu nào là phù hợp và cần đưa vào nghiên cứu cũng phải xem xét cẩn thận liệu có sự liên quan với nhau hay không, ngay cả khi sự liên quan này là tiềm ẩn, không thể hiện rõ trong bộ dữ liệu; xử lý dữ liệu chính xác cũng đóng vai trò quan trọng không kém.

Ngày nay có nhiều mô hình hồi quy phức tạp và tinh vi hơn cho phép chúng ta xử lý và phân tích dữ liệu bị vấn đề đa cộng tuyến như Ridge regression hay PCA regression (Principal components regression – PCR) các bạn có thể tìm hiểu thêm.

Quay trở lại ví dụ lĩnh vực bán lẻ ở bài viết trước để tìm hiểu xem liệu các biến độc lập có mối quan hệ đa cộng tuyến hay không.

Ví dụ lấy từ tài liệu quốc tế về thống kê và ứng dụng “The Basic Practice of Statistics” của David S.Moore. Một quản lý tại một cửa hàng bán lẻ thời trang thu thập ngẫu nhiên dữ liệu lịch sử giao dịch của 60 khách hàng thân thiết, người quản lý cửa hàng bán lẻ này muốn dự báo ở lần mua hàng tiếp theo thì trung bình 1 khách hàng có thể sẽ bỏ ra bao nhiêu tiền để mua sản phẩm của cửa hàng. Nhiệm vụ của chúng ta là sẽ tìm ra mô hình hồi quy đa biến với các biến độc lập khác nhau để dự báo giá trị của biến mục tiêu là khoản tiền khách hàng bỏ ra. Các biến dữ liệu bao gồm:

Amount (Target): Khoản tiền bỏ ra trong một lần giao dịch của một khách hàng tại cửa hàng bán lẻ. Đơn vị: USD
Recency: số tháng kể từ lần cuối khách hàng mua hàng tại cửa hàng bán lẻ thời trang
Frequency12: số lần mua hàng trong 12 tháng gần nhất tại cửa hàng bán lẻ thời trang
Dollar12: tổng số tiền khách hàng đã bỏ ra để mua hàng trong 12 tháng gần nhất tại cửa hàng bán lẻ thời trang
Frequency24: số lần mua hàng trong 24 tháng gần nhất tại cửa hàng bán lẻ thời trang
Dollar24: tổng số tiền khách hàng đã bỏ ra để mua hàng trong 24 tháng gần nhất
Card: đây là biến thay phiên, giá trị = 0 là khách hàng không có thẻ tín dụng, giá trị = 1 khách hàng có thẻ tín dụng mua hàng tại cửa hàng bán lẻ thời trang

Dữ liệu sau khi đã loại bỏ các đối tượng có giá trị ngoại lệ:

Đầu tiên để xem xét các biến có dấu hiệu đa cộng tuyến hay không chúng ta cùng nhìn lại ma trận hệ số tương quan của tất cả các biến, với biến mục tiêu là Amount

Không xét đến biến mục tiêu, chúng ta cùng nhìn qua mối quan hệ giữa các biến độc lập mà thôi. Trước tiên biến Recency thì tại từng cột Freq 12 đến Card, hệ số tương quan âm và không tiến gần giá trị -1, tức không thể hiện mối tương quan mạnh với các biến độc lập còn lại. Biến này theo như bài viết trước không được đưa vào mô hình do nó không có mối liên hệ với biến mục tiêu nên chúng ta không cần chú ý thêm.

Tiếp theo biến Freq12, nhận thấy biến này có hệ số tương quan cao với Freq24, bằng 0.71, hơn 0.7, có nguy cơ đa cộng tuyến nếu đưa cả 2 biến này vào mô hình. Tương tự Recency, theo như bài viết trước thì chúng ta đã loại bỏ biến Freq24 và chỉ giữ lại biến Freq12 nên không bị ảnh hưởng.

Tiếp theo biến Dollar12, nhận thấy biến này có hệ số tương quan cao với Dollar24 là 0.827 lớn hơn 0.7 nên nguy cơ mang lại đa cộng tuyến nếu cả 2 biến này đưa vào mô hình. Tương tự thì Dollar24 đã bị loại bỏ khỏi mô hình ở bài viết trước.

Freq24, Dollar24, chỉ có hệ số tương quan với Freq12, Dollar24 cao như đã nói, nên không xét nữa. Sau cùng là biến Card, biến này dường như vô hại vì hệ số tương quan với tất cả các biến còn lại đều rất thấp, nên cũng không cần quan tâm đến.

Như vậy nếu dựa trên ma trận hệ số tương quan, kết hợp đánh giá hệ số tương quan với biến mục tiêu với đánh giá hệ số tương quan giữa các biến độc lập, chúng ta có thể chọn ra ngay biến nào phù hợp nên đưa vào mô hình hồi quy. Đó chính là biến Dollar12, kết hợp với phương pháp Stepwise ở bài viết trước chúng ta có thêm biến Freq12 thêm vào mô hình

Phương trình hồi quy sau cùng:

Chúng ta cùng nhìn qua kết quả tính toán hệ số VIF và Tolerance:

Nhìn lên kết quả có thể thấy ngay các cặp biến Freq12, Freq24, và Dollar12, Dollar 24 đều có hệ số VIF > 2, đặc biệt trừ Card là biến Dummy, các biến còn lại đều là biến định lượng, nên kết quả này khẳng định mô hình chắc chắn bị đa cộng tuyến nếu đưa tất cả các biến vô để phân tích, tương tự hệ số tolerance đều < 0.5 (1/VIF = 1/2 = 0.5). Nếu chưa xây dựng mô hình thì chúng ta phải loại bỏ một trong mỗi cặp biến.

Như vậy đến đây kết thúc phần 3 bài viết ứng dụng linear regression trong bán lẻ, bài viết sắp tới chúng ta sẽ sang ví dụ khác phức tạp hơn cũng trong lĩnh vực bán lẻ review lại toàn bộ kiến thức đã trình bày ở các bài viết trước đây.

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

BLOG

Hiểu hơn về Linear regression thông qua ví dụ đơn giản trong bán lẻ (P.3)

Trả lời Hủy