Correlation (tương quan) & Linear regression (hồi quy tuyến tính)

Bigdatauni.com Follow Fanpage Contact

Ở bài viết phần trước chúng ta đã tìm hiểu qua khái niệm của hồi quy (Regression), tương quan (Correlation), phân biệt được chức năng của chúng trong quá trình phân tích mối liên hệ giữa các biến, và đồng thời làm quen một số mô hình hồi quy phổ biến. Trong bài viết lần này, phần 2, BigDataUni sẽ giới thiệu đến các bạn mô hình hồi quy tuyến tính đơn giản nhất (Simple linear regression) áp dụng phân tích mối liên hệ giữa duy nhất 2 biết x (biến độc lập), y (biến phụ thuộc) bao gồm các công thức, cách triển khai tính toán thông qua những ví dụ cụ thể.

Đây chính mô hình đầu tiên, và bắt buộc phải biết qua khi tiếp cận lĩnh vực thống kê hay phân tích dữ liệu. Bên cạnh simple linear regression, BigDataUni cũng trình bày các công thức phân tích tương quan để lần nữa để giúp các bạn hiểu rõ hơn về mục đích của từng phương pháp và tránh sự nhầm lẫn. Nhưng trước tiên, trong phần đầu bài viết lần này, chúng ta cùng đi qua một số ứng dụng của phương pháp phân tích hồi quy.

Link bài viết trước các bạn có thể tham khảo: Tổng quan về Regression (phân tích hồi quy)

Hồi quy là một phương pháp có trong lĩnh vực thống kê được dùng để tìm hiểu và định lượng mối quan hệ giữa 2 hay nhiều biến bất kỳ. Các mô hình hồi quy rất đa dạng từ đơn giản đến phức tạp, linh hoạt áp dụng cho từng bộ dữ liệu có các đặc tính khác nhau.

Đối với lĩnh vực kinh doanh thì phương pháp phân tích hồi quy có 2 ứng dụng chính là dự báo và tối ưu hóa ví dụ như dự báo nhu cầu tiêu dùng trong tương lai của khách hàng hay tối ưu dây chuyền sản xuất, phân phối. Cụ thể các tổ chức, các công ty thường áp dụng phân tích hồi quy cho nguồn dữ liệu của mình với các mục đích như:

Đưa ra các dự báo trong tương lai

Phương pháp phân tích hồi quy có thể được dùng trong lĩnh vực kinh doanh để đưa ra dự báo trong tương lai nhằm tìm kiếm các cơ hội gia tăng lợi nhuận, tăng trưởng và đảm bảo giảm thiểu hay hạn chế những rủi ro. Phân tích nhu cầu của khách hàng trong tương lai để dự báo số lượng hàng hóa khách hàng có thể giao dịch tại một thời điểm bất kỳ và lên kế hoạch sản xuất hay tồn kho cụ thể. Ngoài nhu cầu của khách hàng, các công ty thường kết hợp phân tích nhiều yếu tố khác, nhiều biến độc lập khác xuất phát từ thị trường kinh doanh bên trong và bên ngoài các tổ chức, như đối thủ cạnh tranh, chính sách kinh tế, nguồn tài chính, hay nhân lực, năng lực sản xuất,…tất cả những gì có thể tác động lên lợi nhuận.

Tối ưu hóa quá trình hoạt động

Ví dụ mô hình phân tích hồi quy có thể phân tích mối liên hệ giữa chi phí vận chuyển hàng hóa với vị trí của các nhà máy, các cửa hàng phân phối cùng với thời gian thành phẩm cần đưa ra thị trường để lên kế hoạch và tối ưu hoạt động vận chuyển, đảm bảo cả về tốc độ lẫn chi phí. Hay sử dụng mô hình hồi quy để phân tích mối liên hệ giữa số lần than phiền, số cuộc gọi cần hỗ trợ đến từ khách hàng và tỷ lệ khách hàng rời dịch vụ, để tối ưu hoạt động chăm sóc khách hàng. Việc triển khai mô hình hồi quy để dự báo và tối ưu hóa chính là cách mà các công ty và tổ chức đang định hướng dữ liệu (Data – driven) trong từng bước ra quyết định.

Hỗ trợ ra quyết định

Chúng ta đang sống trong thế giới VUCA – thuật ngữ quốc tế để chỉ một thế giới đầy biến động (Volatility), không chắc chắn (Uncertainty), phức tạp (Complicated), và mơ hồ (Ambiguity). Sự thay đổi không ngừng của môi trường kinh doanh, của mô hình kinh doanh, của chính các nền tảng công nghệ đang định hình lại cách thức vận hành và hoạt động của tất cả các công ty và tổ chức. Do đó để tồn tại và phát triển, họ phải có khả năng nhạy bén với các xu hướng, sự thay đổi, linh hoạt tiếp cận và thích ứng nhanh chóng. Dữ liệu và các công cụ khai phá dữ liệu như phương pháp phân tích hồi quy cũng là một giải pháp rất đáng quan tâm. Phương pháp phân tích hồi quy kết hợp với những thành tựu trong lĩnh vực AI (Trí tuệ nhân tạo) hay Machine learning (Học máy) cho phép ra quyết định nhanh chóng, và tự động trong thời gian thực ví dụ như hệ thống khuyến nghị (Recommendation system) giới thiệu sản phẩm phù hợp nhất với khách hàng dựa trên thông tin tra cứu sản phẩm của khách hàng. Khi đưa ra một chiến lược cụ thể mỗi tổ chức phải xem xét đến toàn bộ các yếu tố khác nhau và những yếu tố nào tác động lên các kết quả kinh doanh, và thành quả của các chiến lược. Thông qua Regression và những phương pháp khác trong lĩnh vực khoa học dữ liệu, các nhà quản lý, lãnh đạo sẽ định lượng, công thức hóa được các quyết định của mình, theo dõi và đưa ra những điều chỉnh hợp lý nhất.

Ngăn chặn hay giảm thiểu hậu quả, rủi ro từ các quyết định cũng là một trong những lợi ích của phương pháp hồi quy, ví dụ trong phương trình hồi quy sẽ có các biến tác động tiêu cực đến biến mục tiêu, như chúng ta nói ở đây là lợi nhuận, vậy thì các quyết định khiến cho chính các biến này ảnh hưởng xấu hơn đến lợi nhuận cần phải được xem xét lại, ví dụ công ty đưa ra chương trình khuyến mãi để tăng doanh số tuy nhiên chương trình lại không thực sự hiệu quả, chi phí marketing, chi phí quản lý, v.v gia tăng dẫn đến nguy cơ lợi nhuận thuần sẽ giảm, cụ thể dựa trên dữ liệu lịch sử, và áp dụng phương trình hồi quy thì thấy rằng doanh thu vẫn tăng tuy nhiên khó có thể bù đắp chi phí hoạt động do các hệ số của đường hồi quy tại các biến này mang giá trị âm quá đáng kể. Và lúc này công ty có thể phải xem xét lại có nên tiếp tục chạy chương trình cho các tháng tiếp theo hay không.

Hỗ trợ khai phá các thông tin hữu ích và có giá trị

Ngày nay các công ty quy mô trung bình đến lớn thường thu thập một khối lượng lớn dữ liệu bao gồm nhiều biến và rất nhiều đối tượng quan sát khác nhau, tuy nhiên nếu không biết cách khai thác thì nguồn dữ liệu này sẽ trở thành nguồn tài sản bị lãng phí mà đáng lẽ ra phải là nguồn lực cực kỳ hữu dụng để phát triển kinh doanh, tăng trưởng. Một số công ty thường chỉ thu thập dữ liệu và thống kê làm báo cáo hay một số công ty chỉ quan tâm đến một số thuộc tính dữ liệu nhất định, một số tập dữ liệu nhất định mà họ cho rằng thật sự cần phân tích, phần còn lại thì không quan trọng, và bỏ qua. Đây là hai trong các vấn đề mà những chuyên gia thường gộp chung vào và gọi bằng thuật ngữ “Dark data”. Phương pháp phân tích hồi quy giúp các công ty biến bộ dữ liệu của mình thành tài sản có giá trị, khi khám phá được những thông tin hữu ích như những yếu tố nào đặc biệt có thể tác động đến tổng lợi nhuận mà chưa được xem xét hết. Ứng dụng của phân tích hồi quy trong kinh tế và ở những lĩnh vực khác là rất nhiều nhưng chủ yếu thì phân tích hồi quy có 3 nhóm ứng dụng chính:

Phân tích mối liên hệ giữa một biến độc lập và một biến phụ thuộc
Phân tích tác động của nhiều biến độc lập lên một biến phụ thuộc.
So sánh mức độ tác động giữa từng biến độc lập lên biến phụ thuộc.

Phân tích hồi quy, nếu xét ở góc độ dữ liệu, thì có 4 ứng dụng chính:

Mô tả dữ liệu (hình thành phương trình hồi quy để đánh giá tổng quan mối liên hệ giữa các biến)
Ước lượng hệ số hồi quy dựa trên khoảng tin cậy (khẳng định mối liên hệ giữa biến độc lập và biến phụ thuộc dựa trên một tỷ lệ tin cậy nhất định)
Dự báo giá trị của biến phụ thuộc, biến mục tiêu
Kiểm soát các biến độc lập (biến phụ thuộc bị ảnh hưởng tiêu cực hay tích cực nếu các biến độc lập được điều chỉnh)

Như vậy chúng ta đã tìm hiểu xong các ứng dụng của phân tích hồi quy, tiếp theo chúng ta cùng đi vào phần trọng tâm của bài viết là cách triển khai phân tích tương quan và hồi quy tuyến tính đơn giản với 1 biến độc lập và 1 biến phụ thuộc.

Phân tích tương quan (Correlation analysis)

Nhắc lại khái niệm cho những bạn nào chưa tìm hiểu, phân tích tương quan là phương pháp phân tích mối quan hệ tuyến tính giữa 2 biến bất kỳ, với công thức chính là hệ số tương quan. Kết quả của phân tích tương quan chỉ đánh giá có hay không có mối quan hệ tuyến tính, mối quan hệ này là thuận hay nghịch, bền vững hay không bền vững, và không được sử dụng làm kết quả dự báo.

Công thức của hệ số tương quan hay còn gọi là Correlation Coefficient được bắt nguồn từ công thức hiệp phương sai Covariance. Covariance cũng là phương pháp đánh giá mối liên hệ giữa 2 biến x và y, nhưng có một hạn chế lớn, và cũng chính vì hạn chế này mà Covariance thường ít được sử dụng mà thay vào đó là hệ số tương quan. Cụ thể như thế nào thì giờ chúng ta bắt đầu đi vào công thức.

Công thức bên trên áp dụng cho tập dữ liệu mẫu, công thức dưới đây áp dụng cho bộ dữ liệu tổng thể.

Ví dụ chúng ta có dữ liệu mẫu thống kê về số chiến dịch quảng cáo trên Facebook trong mỗi tuần cho 10 tuần, và doanh thu nhận được bao nhiêu triệu đồng (đơn vị 1000 VND), với x sẽ là số chiến dịch mỗi tuần, y là doanh thu.

Tiếp theo chúng ta sẽ áp dụng tính từng phần theo công thức, tính chênh lệch giữa từng giá trị x và trung bình của các giá trị x, tương tự cho y. Giá trị trung bình của x = 3, giá trị trung bình của y = 4880

Chúng ta sẽ có kết quả hiệp phương sai S_xy = (9200)/(10-1) = 1022 Chúng ta vẽ đồ thị như sau, và chia đồ thị thành 4 phần,

Diễn giải kết quả:

Đường thẳng hạ vuông góc xuống giá trị x = 3 là giá trị trung bình các chiến dịch trong 10 tuần, đường thẳng chắn ngang tại giá trị y = 4880, doanh thu trung bình trong 10 tuần. Hai Đường này chia đồ thị thành 4 phần được đánh theo số lã mã từ I đến IV. Các điểm nằm trong phần I sẽ có giá trị x lớn hơn trung bình của x, và giá trị y lớn hơn trung bình của y. Các điểm nằm trong phần II sẽ có giá trị x nhỏ hơn trung bình của x, và giá trị y lớn hơn trung bình của y. Các bạn dựa trên kết quả hãy xét tương tự cho 2 phần III và IV còn lại. Như vậy giá trị của (x – TBx)(y – TBy) sẽ dương đối với các điểm nằm trong I, sẽ âm ở II, sẽ dương ở III và sẽ âm ở IV.

Nếu giá trị Sxy dương, các điểm dữ liệu sẽ đa phần nằm trong phần I và III, thể hiện quan hệ tuyến tính thuận giữ x và y.
Nếu giá trị Sxy âm, các điểm dữ liệu sẽ đa phần nằm trong phần II và IV, thể hiện quan hệ tuyến tính nghịch giữa x và y
Nếu các điểm dữ liệu được chia đều trong 4 phần, lúc này Sxy sẽ bằng 0, và không có mối quan hệ tuyến tính giữa x và y

Nhìn trên đồ thị chúng ta thấy trong 10 điểm dữ liệu, có đến 7 điểm nằm hẳn bên trong ở phần I, và phần III, tương ứng giá trị Sxy dương, chúng ta có thể khẳng định x và y có mối quan hệ tuyến tính thuận, tức số chiến dịch quảng cáo tăng lên, doanh thu cũng tăng theo, và chứng tỏ chiến lược marketing đang tỏ ra hiệu quả. Ngoài ra nếu giá trị Sxy dương và giá trị này là rất lớn, tương tự với trường hợp âm thì lúc này mối quan hệ càng tỏ ra bền vững. Tuy nhiên như đã nói có một vấn đề cần lưu ý, cũng là hạn chế của phương pháp hiệp phương sai đó chính là giá trị của công thức phụ thuộc vào đơn vị đo lường và nếu đơn vị đo lường khiến giá trị của x và y quá chênh lệch và có thể khiến giá trị Sxy trở nên rất lớn mặc dù mối quan hệ tuyến tính vẫn không đổi. Ví dụ như ở trên nếu chúng tôi giữ nguyên đơn vị là VND mà không rút gọn từ 1000 VND thì giá trị Sxy như thế nào? Sẽ rất lớn, trong khi chắc chắn mối quan hệ tuyến tính thuận sẽ không thay đổi. Do đó để có một hệ số đánh giá mối quan hệ tuyến tính giữa 2 biến mà không cần quan tâm đến đơn vị đo lường, thì đó chính là hệ số tương quan

Correlation Coefficient.

Công thức hệ số tương quan như sau:

Với Sx, và Sy lần lượt là độ lệch chuẩn của x và y. Hệ số tương quan còn được gọi là hệ số tương quan Pearson. Bên trên là công thức cho tập dữ liệu là mẫu, đối với tổng thể chúng ta thay Sx, Sy bằng σx, σy. Chúng ta tính lại ví dụ trên theo công thức hệ số tương quan Pearson. Dựa vào bảng dữ liệu chúng ta sẽ tính được Sx, Sy, nhắc lại công thức độ lệch chuẩn cho các bạn.

Tính tổng các chênh lệch bình phương giữa từng giá trị thực và trung bình, sau đó chia cho mẫu hiệu chỉnh n – 1.

Sx = căn bậc 2 (20/(10-1)) = 1.5 Sy = căn bậc 2 (4896000/(10-1)) = 737.6 r_xy = Sxy/(SxSy) = 1022/(737.6*1.5) = 0.92 Theo lý thuyết r_xynằm từ -1 đến +1

Nếu hệ số r_xy < 0, thì 2 biến có mối quan hệ theo chiều nghịch nhau, tức một biến tăng thì biến còn lại sẽ giảm hoặc ngược lại.
Hệ số r_xy > 0 thì 2 biến có mối quan hệ thuận, một biến tăng, biến còn lại có thể tăng theo hoặc ngược lại.
Hệ số r_xy = 0, thì 2 biến không có mối quan hệ tuyến tính với nhau.
Hệ số r_xy càng tiến gần giá trị -1, mối liên hệ nghịch càng chắc chắn, tương tự với giá trị 1, mối liên hệ thuận càng chắc chắn.

Như vậy với giá trị bằng 0.92 chúng ta có thể khẳng định một cách chắc chắn chiến dịch quảng cáo có mối liên hệ mạnh mẽ với doanh thu theo chiều hướng thuận.

Tuy nhiên ví dụ này chúng ta chỉ mới xem xét mẫu, vậy chúng ta có cơ sở khẳng định trên tổng thể hay không? Tức nếu xét tất cả lần chạy quảng cáo Facebook trước đây thì có khẳng định được như trên không?

Lần này chúng ta sẽ sử dụng tiếp phương pháp kiểm định cho hệ số tương quan. Giả sử chúng ta gọi p là hệ số tương quan của tổng thể, nếu xét cho kiểm định một bên (do ở trên chúng ta có khẳng định tương quan thuận nên nếu đúng thì p > 0).

Các bạn xem lại bài viết của chúng tôi về phương pháp kiểm định để của chúng tôi trong bài viết về thống kê suy luận: Tổng quan về Statistics: Inferential statistics (thống kê suy luận)

Quay trở lại với bài viết, chúng ta sẽ đặt giả thuyết như sau:

H0: p ≤ 0

H1: p > 0 (có mối liên hệ thuận giữa số chiến dịch QC và doanh thu)

Công thức tính giá trị kiểm định t:

Nguyên tắc bác bỏ giống như trong kiểm định thống kê, nếu t > t tra bảng thì bác bỏ H0, chấp nhận H1 và ngược lại Chúng ta thay hệ số tương quan vừa tính ở trên vô công thức được t = 6.8 Chúng ta sẽ tra bảng phân phối t để tìm t_{(α), n-2} với mức ý nghĩa α là 0.05 (độ tin cậy 95%), bậc tự do n – 2 là 10 – 2 =8, vì là kiểm định 1 bên nên chúng ta giữ nguyên α. Các bạn có thể search trên Google để kiếm thông tin về bảng phân phối t để tra, ở đây chúng tôi đã tra sẵn t_{0.05, 8} = 1.86.

Như vậy t = 6.8 lớn hơn t tra bảng vậy chúng ta bác bỏ H0 và khẳng định có mối liên hệ thuận giữa 2 biến. Ngoài ra các bạn có thể sử dụng p-value để xem xét bác bỏ H0 nếu p-value < α. Các bạn có thể tra ngược lại bảng t với giá trị là 6.8 thì đối chiếu lên hàng trên cùng là giá trị bao nhiêu hoặc có thể sử dụng hàm T.DIST.RT (vì ở đây ta kiểm định 1 phía bên phải, RT – Right tailed) trong excel nhập 6.8 và bậc tự do là 8.

Lưu ý các bạn cần có kiến thức về kiểm định trong thống kê thì mới hiểu phần này.

Như vậy chúng ta đã tìm hiểu xong cách thức áp dụng phân tích tương quan để tìm ra mối quan hệ giữa 2 biến bất kỳ, tiếp theo chúng ta sẽ sử dụng mô hình hồi quy đơn giản để định lượng mối quan hệ tuyến tính.

Nhắc lại về khái niệm, Regression là phương pháp nghiên cứu mối quan hệ giữa 2 biến mà cụ thể một biến sẽ là biến độc lập (ảnh hưởng đến biến mục tiêu), và biến còn lại sẽ là biến mục tiêu (bị ảnh hưởng bởi biến độc lập), mô hình hóa, định lượng hóa mối quan hệ này để qua đó có thể xác định được giá trị của biến mục tiêu nếu các biến độc lập thay đổi như thế nào.

Kết quả của phân tích hồi quy có thể được đem ra dự báo. Regression còn là phương pháp chính trong Predictive analytics (phân tích dự báo) bên cạnh là kiến thức nền tảng trong lĩnh vực thống kê (Statistics) và khai phá dữ liệu (Data mining).

Phương trình tổng quát của Simple Linear Regression:

Với y là biến phụ thuộc (chịu ảnh hưởng của biến x), là biến chúng ta sẽ dự báo giá trị, x là biến độc lập (biến tác động lên biến phụ thuộc), β₀ là giá trị ước lượng của y khi x đạt giá trị 0 (Intercept), β₁ là độ dốc của đường hồi quy tuyến tính (Slope), nói cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị, ε là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y. Phần β₀+ β₁x chính là phần dự báo hay được coi là thành phần quyết định của phương trình

Công thức trên là công thức tổng quát cho giá trị y ở đây là giá trị thực tế, còn công thức của phương trình hồi quy tuyến tính đơn giản dùng cho dự báo thì chúng ta loại bỏ sai số ε ra ngoài. Lưu ý thêm, sai số ε là một biến ngẫu nhiên có phân phối chuẩn với trung bình bằng 0, phương sai bằng nhau, và độc lập không có liên hệ với biến nào khác Trong thực tế, chúng ta không thể xác định chính xác β₀ hay β₁ mà chỉ ước lượng được, chính vì vậy mà ở phương trình tổng quát chúng ta có sai số nhất định.

Do đó thông thường chúng ta sẽ xử lý dữ liệu và lấy kết quả từ đây ước lượng cho tổng thể. Phương trình tổng quát hồi quy tuyến tính đơn giản cho dữ liệu mẫu suy luận ra tổng thể:

Để hiểu rõ cách thức lập phương trình thì trước tiên chúng ta phải nắm qua nguyên lý bình phương bé nhất (Least Squares Principle), phương pháp chính để xây dựng mô hình hồi quy tuyến tính đơn giản. Giải thích một cách đơn giản nhất.

Giả sử chúng ta có một tập dữ liệu có các giá trị x và giá trị y tạo thành rất nhiều điểm dữ liệu trên đồ thị, và qua các điểm này chúng ta có thể vẽ rất nhiều đường thẳng tuyến tính thể hiện mối quan hệ tuyến tính giữa biến x và y, tuy nhiên chúng ta chỉ có thể chọn được 1 đường thẳng thể hiện tốt nhất mối quan hệ này, tương ứng như việc chúng ta chỉ lập được một phương trình hồi quy tuyến tính duy nhất.

Tiêu chí nào để chọn lựa? Chúng ta sẽ dựa trên sai số của giá trị y dự báo và y thực tế, nếu sai số của phương trình nào nhỏ nhất thì phương trình ấy sẽ được chọn. Nói cách khác chúng ta phải tìm được min ε mà ε thì bằng y – (b₀ + b₁x):

Theo phương pháp bình phương bé nhất chúng ta phải tìm:

Công thức xác định giá trị b₀ và b₁ dựa trên phương pháp bình phương bé nhất:

Tuy nhiên nếu chỉ dựa trên mỗi phương pháp bình phương bé nhất thì liệu phương trình tìm được đã thực sự thể hiện mối quan hệ giữa x và y tối ưu? Hay đơn giản là phương trình đã đủ chất lượng để tiến hành dự báo cho giá trị y với tỷ lệ chính xác cao? Ngoài phương pháp bình phương bé nhất chúng ta còn có các phương pháp như hệ số xác định R²(Coefficient of Determination),kiểm định F (sử dụng MSR, MSE để tính giá trị F) và t(sử dụng S_b để tìm giá trị t) để kiểm tra thực sự có mối quan hệ tuyến tính giữa 2 biến.

Trong bài viết này chúng tôi chỉ trình bày ví dụ cho hệ số xác định R² mà thôi. Chúng tôi sẽ trình bày phần kiểm định ở bài viết sắp tới khi nói về Multiple linear regression

Các yếu tố cấu thành công thức hệ số xác định bao gồm SST (Total Sum Of Squares), SSR (Sum of Squares due to Regression), SSE (Sum of Squares due to Errors), như hình minh họa dưới đây:

Nguồn hình: slideplayer.com

SST thể hiện toàn bộ phần biến thiên của các giá trị y so với trung bình của nó. SSR thể hiện phần chênh lệch giữa giá trị dự báo so với trung bình, được hiểu là sự biến thiên của y mà chúng ta có thể giải thích được bằng biến x, và SSE là thể hiện phần chênh lệch giữa giá trị thực tế và giá trị dự báo, không thể giải thích được nguyên nhân, là vì do yếu tố ngẫu nhiên gây ra. Như vậy SSR = SST + SSE, công thức R²:

Hệ số xác định R² thể hiền phần tỷ lệ biến thiên của y mà chúng ta có thể giải thích bởi mối quan hệ tuyến tính giữa x và y. R² có giá trị nằm từ 0 đến 1, và là chính là bình phương của hệ số tương quan (chỉ đối với mô hình hồi quy tuyến tính đơn giản), R² càng lớn thì mô hình hồi quy càng thích hợp để dự báo giá trị của y.

Tiếp theo chúng ta sẽ đi vào ví dụ cụ thể để hiểu rõ hơn cách thức thực hiện các công thức phía trên:

Giá sử một chuỗi cửa hàng gà rán có 10 cửa hàng nằm tại các quận khác nhau trên thành phố Hồ Chí Minh, tại từng khu vực của từng cửa hàng sẽ có số lượng học sinh, sinh viên sinh sống và học tập, chuỗi cửa hàng này muốn biết rằng doanh thu của từng cửa hàng có mối liên hệ nào với số lượng học sinh, sinh viên này không (dựa trên dữ liệu doanh thu trung bình theo quý của mỗi cửa hàng, và dữ liệu thống kê về số lượng học sinh, sinh viên)

Gọi x là số lượng HS, SV, y là doanh thu, là biến mục tiêu dự báo, chúng ta sẽ sử dụng công thức tính bo và b1 để lập phương trình, chúng ta tính được trung bình x: TBx = 14000, trung bình của y: TBy = 66100 Đây là đồ thị Scatter mô tả các điểm dữ liệu trước khi chúng ta lập phương trình tuyến tính:

Như vậy chúng ta có thể tính hệ số b₁ và b0 như sau (các bạn xem lại công thức phía trên nhé!) b₁= 1462000000/ 568000000 = 2.57. Với số lượng HS, SV tăng 1000 thì doanh thu của 1 cửa hàng sẽ tăng 2570000 VND b₀ = 66100 – b₁* 14000 = 30064 Như vậy chúng ta có phương trình hồi quy tuyến tính đơn giản: Y^ = 2.57X + 30064

Chúng ta sẽ có đồ thị đường thẳng như sau:

Như vậy chúng ta đã lập xong phương trình hồi quy tuyến tính đơn giản, tiếp theo chúng ta cùng đi tính các SST, SSE và SSR để tìm hệ số xác định R². Đầu tiên chúng ta thay từng giá trị x vào phương trình mới tìm được để tính giá trị Y^ dự báo (ước lượng), sau đó tính SSE, SSR dựa trên Y^.

Như vậy R² = SSR/SST = 0.933. Nghĩa là có 93.3% biến thiên của Y được giải thích bởi X, mô hình thích hợp để dự báo giá trị của Y và thích hợp để thể hiện mối quan hệ tuyến tính giữa X và Y tức theo ví dụ là mối quan hệ tuyến tiến thuận giữa doanh thu mỗi cửa hàng và số lượng học sinh, sinh viên.

Ví dụ trong năm tới dự báo khu vực tại cửa hàng 10 số lượng học sinh sinh viên sẽ tăng lên 2000 thì doanh thu của cửa hàng này là bao nhiêu: Y^ (28000) = 2.57*28000 + 30064 = 102024, doanh thu tăng 2024 (1000 VND) Như vậy cúng ta đã tìm hiểu xong về tương quan và phương trình hồi quy tuyến tính đơn giản – Simple linear regression. Ở bài viết sắp tới chúng ta sẽ đi vào cách kiểm định mô hình hồi quy đơn giản. Mong được các bạn ủng hộ BigDataUni

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.