Kinh tế lượng (Phần 1: Tổng quan về Kinh tế lượng và Mô hình hồi quy đơn tuyến tính)

BÀI GIẢNG KINH TẾ LƯỢNG

Ký hiệu	Ý nghĩa	Ghi chú học nhanh
Y	Biến phụ thuộc / biến được giải thích	Kết quả ta muốn giải thích hoặc dự báo
X	Biến độc lập / biến giải thích	Yếu tố dùng để giải thích Y
β₀	Hệ số chặn tổng thể	Giá trị kỳ vọng của Y khi X = 0, nếu X = 0 có ý nghĩa
β₁	Hệ số góc tổng thể	Mức thay đổi trung bình của Y khi X tăng 1 đơn vị
u	Sai số ngẫu nhiên tổng thể	Các yếu tố ảnh hưởng Y nhưng không đưa trực tiếp vào mô hình
b₀, b₁	Ước lượng OLS từ mẫu	Dùng để ước lượng β₀, β₁
Ŷᵢ	Giá trị Y dự báo / giá trị khớp	Ŷᵢ = b₀ + b₁Xᵢ
eᵢ	Phần dư mẫu	eᵢ = Yᵢ – Ŷᵢ
R²	Hệ số xác định	Tỷ lệ biến thiên của Y được mô hình giải thích trong mẫu

Mẹo học ký hiệu

Ký hiệu Hy Lạp β thường nói về tham số tổng thể chưa biết. Ký hiệu b hoặc dấu mũ thường nói về giá trị ước lượng từ mẫu. Sinh viên hay nhầm β₁ với b₁: β₁ là điều ta muốn biết; b₁ là con số ta tính được từ dữ liệu.

1. Kinh tế lượng là gì?

1.1. Định nghĩa theo cách dễ hiểu

Kinh tế lượng là ngành học sử dụng lý thuyết kinh tế, toán học, thống kê và dữ liệu thực tế để lượng hóa các quan hệ kinh tế. Nếu kinh tế học đưa ra mệnh đề như “giá tăng làm lượng cầu giảm”, thì kinh tế lượng đặt câu hỏi tiếp theo: giảm bao nhiêu, bằng chứng dữ liệu có đủ mạnh không, kết quả có ổn định không, và có thể dùng để dự báo hay ra quyết định không?

Một định nghĩa thao tác có thể dùng trong lớp học là: kinh tế lượng là quá trình biến một câu hỏi kinh tế thành một mô hình có thể ước lượng, kiểm định và sử dụng bằng dữ liệu.

Trọng tâm cần nhớ

Kinh tế lượng không chỉ là chạy phần mềm. Phần mềm chỉ tính toán. Người học phải quyết định biến nào đưa vào mô hình, giả thiết nào cần kiểm tra, kết quả nào đáng tin và kết quả nào không nên diễn giải quá mức.

1.2. Kinh tế lượng nằm ở đâu trong các môn học?

Thành phần	Đóng góp vào kinh tế lượng	Ví dụ trong hồi quy đơn
Lý thuyết kinh tế	Gợi ý mối quan hệ kỳ vọng giữa các biến	Thu nhập tăng có thể làm chi tiêu tăng
Toán học	Biểu diễn quan hệ bằng phương trình	Y = β₀ + β₁X + u
Thống kê	Suy luận từ mẫu ra tổng thể, đo độ bất định	Kiểm định t, khoảng tin cậy
Dữ liệu	Cung cấp bằng chứng thực nghiệm	Dữ liệu về chi tiêu và thu nhập của hộ gia đình
Kinh nghiệm nghiên cứu	Nhận diện biến bị bỏ sót, sai đo lường, nội sinh	Không nhầm tương quan với nhân quả

1.3. Quy trình nghiên cứu kinh tế lượng

Xác định câu hỏi nghiên cứu: ví dụ “số giờ học có liên hệ thế nào với điểm thi?”
Dựa vào lý thuyết để xác định biến phụ thuộc Y và biến giải thích X.
Viết mô hình kinh tế lượng, trong đó có sai số ngẫu nhiên u để đại diện cho các yếu tố không quan sát được.
Thu thập, làm sạch và mô tả dữ liệu; vẽ đồ thị phân tán trước khi hồi quy.
Ước lượng mô hình bằng OLS hoặc phương pháp phù hợp.
Đánh giá kết quả: dấu, độ lớn, ý nghĩa thống kê, R², kiểm tra giả thiết.
Diễn giải kinh tế, đưa ra kết luận, dự báo hoặc khuyến nghị với mức thận trọng thích hợp.

Điểm sinh viên thường bỏ qua

Nhiều bài làm bắt đầu ngay bằng lệnh hồi quy và bỏ qua câu hỏi nghiên cứu. Điều này nguy hiểm vì không có lý thuyết định hướng, ta rất dễ chọn biến tùy tiện và diễn giải sai hệ số.

1.4. Các dạng dữ liệu thường gặp

Loại dữ liệu	Mô tả	Ví dụ	Lưu ý khi hồi quy
Dữ liệu chéo	Nhiều đơn vị tại cùng một thời điểm	Thu nhập của 500 hộ năm 2025	Cần chú ý khác biệt giữa các đơn vị
Chuỗi thời gian	Một đơn vị qua nhiều thời điểm	GDP Việt Nam theo quý	Dễ gặp xu thế, mùa vụ, tự tương quan
Dữ liệu bảng	Nhiều đơn vị qua nhiều thời điểm	Doanh thu của 100 doanh nghiệp trong 5 năm	Có thể kiểm soát dị biệt cố hữu theo đơn vị/thời gian
Dữ liệu thực nghiệm	X được gán ngẫu nhiên	Chương trình hỗ trợ học tập chia nhóm ngẫu nhiên	Mạnh hơn cho suy luận nhân quả nếu thiết kế tốt
Dữ liệu quan sát	X phát sinh tự nhiên, không do nhà nghiên cứu kiểm soát	Học thêm và điểm thi	Cần cẩn thận với biến bị bỏ sót và lựa chọn mẫu

1.5. Tương quan, hồi quy và nhân quả

Tương quan đo mức độ hai biến cùng biến động. Hồi quy mô tả mức thay đổi trung bình của Y gắn với một mức thay đổi của X. Nhân quả là khẳng định rằng thay đổi X làm Y thay đổi, trong điều kiện các yếu tố khác được kiểm soát hợp lý. Ba khái niệm này liên quan nhưng không đồng nhất.

Cảnh báo quan trọng

Hệ số hồi quy có thể khác 0 và rất có ý nghĩa thống kê, nhưng vẫn không chứng minh được quan hệ nhân quả nếu mô hình bỏ sót biến quan trọng, có quan hệ nhân quả ngược, sai đo lường hoặc lựa chọn mẫu.

Trong hồi quy đơn, cụm “khi X tăng 1 đơn vị thì Y thay đổi…” nên được hiểu là quan hệ trung bình trong mẫu, trừ khi thiết kế nghiên cứu cho phép diễn giải nhân quả.

2. Bản chất của phân tích hồi quy

2.1. Hồi quy trả lời câu hỏi gì?

Trong hồi quy, ta thường hỏi: “Giá trị trung bình của Y thay đổi như thế nào khi X thay đổi?” Cụm “trung bình” rất quan trọng. Hồi quy không nói rằng mọi cá nhân có cùng X sẽ có cùng Y; nó mô tả xu hướng trung tâm của Y ứng với X.

Ví dụ, nếu Y là điểm thi và X là số giờ học, hồi quy không khẳng định mọi sinh viên học 5 giờ đều đạt cùng một điểm. Nó chỉ ước lượng điểm trung bình kỳ vọng của nhóm sinh viên học 5 giờ, dựa trên dữ liệu quan sát được.

2.2. Hồi quy tổng thể và hồi quy mẫu

Khái niệm	Ký hiệu	Ý nghĩa
Hàm hồi quy tổng thể (PRF)	E(Y\|Xᵢ) = β₀ + β₁Xᵢ	Quan hệ thật trong tổng thể, thường không quan sát được trực tiếp
Mô hình hồi quy tổng thể	Yᵢ = β₀ + β₁Xᵢ + uᵢ	Thêm sai số uᵢ để phản ánh các yếu tố ngoài X
Hàm hồi quy mẫu (SRF)	Ŷᵢ = b₀ + b₁Xᵢ	Đường hồi quy tính từ mẫu dữ liệu
Phần dư mẫu	eᵢ = Yᵢ – Ŷᵢ	Khoảng cách theo chiều dọc giữa điểm quan sát và đường hồi quy mẫu

Phân biệt uᵢ và eᵢ

uᵢ là sai số thật trong tổng thể, thường không quan sát được vì β₀ và β₁ thật cũng không biết. eᵢ là phần dư tính được sau khi ước lượng mô hình bằng mẫu. Trong bài tập, ta tính eᵢ, không tính trực tiếp uᵢ.

2.3. Vì sao gọi là “đường hồi quy”?

Với mô hình tuyến tính hai biến, quan hệ kỳ vọng giữa Y và X được biểu diễn bằng một đường thẳng. Hệ số chặn β₀ quyết định vị trí đường thẳng khi X = 0; hệ số góc β₁ quyết định độ dốc. Nếu β₁ > 0, đường dốc lên; nếu β₁ < 0, đường dốc xuống; nếu β₁ = 0, đường nằm ngang theo nghĩa trung bình của Y không thay đổi theo X.

Hình 1. Đường hồi quy OLS đi qua đám mây dữ liệu sao cho tổng bình phương phần dư là nhỏ nhất

2.4. Điều hồi quy làm được và không làm được

Hồi quy có thể giúp	Hồi quy không tự động giúp
Tóm tắt quan hệ trung bình giữa các biến	Chứng minh nhân quả nếu thiết kế dữ liệu yếu
Ước lượng mức thay đổi của Y khi X thay đổi	Bảo đảm mô hình đúng về mặt lý thuyết
Kiểm định giả thuyết về hệ số hồi quy	Loại bỏ sai lệch do biến bị bỏ sót nếu mô hình thiếu biến
Dự báo trong phạm vi dữ liệu phù hợp	Dự báo đáng tin khi ngoại suy quá xa ngoài dữ liệu

3. Mô hình hồi quy hai biến

3.1. Dạng mô hình

Mô hình trên gọi là “đơn” vì chỉ có một biến giải thích X; gọi là “tuyến tính” vì tuyến tính theo tham số β₀ và β₁. Từ “tuyến tính” trong kinh tế lượng chủ yếu nói về tham số, không nhất thiết yêu cầu biến X chỉ xuất hiện ở dạng nguyên thủy. Ví dụ Y = β₀ + β₁ln(X) + u vẫn tuyến tính theo β.

Thành phần	Vai trò	Diễn giải
Yᵢ	Biến phụ thuộc	Kết quả quan sát được ở đơn vị i
Xᵢ	Biến giải thích	Yếu tố dùng để giải thích biến thiên của Y
β₀	Hệ số chặn	Giá trị kỳ vọng của Y khi X = 0, nếu X = 0 nằm trong phạm vi hợp lý
β₁	Hệ số góc	Mức thay đổi trung bình của Y khi X tăng 1 đơn vị
uᵢ	Sai số ngẫu nhiên	Tác động của các yếu tố khác ngoài X, sai đo lường, yếu tố may rủi

3.2. Diễn giải hệ số góc β₁

Trong mô hình tuyến tính Yᵢ = β₀ + β₁Xᵢ + uᵢ, hệ số β₁ là thay đổi trong kỳ vọng có điều kiện của Y khi X tăng thêm 1 đơn vị:

Ví dụ diễn giải

Nếu mô hình ước lượng điểm thi theo số giờ học là Ŷ = 44,25 + 4,75X, thì khi số giờ học tăng thêm 1 giờ/ngày, điểm thi dự báo trung bình tăng 4,75 điểm. Đây là diễn giải theo quan hệ trung bình, không nói rằng từng sinh viên chắc chắn tăng đúng 4,75 điểm.

3.3. Diễn giải hệ số chặn β₀

Hệ số chặn là giá trị kỳ vọng của Y khi X = 0. Tuy nhiên, không phải lúc nào X = 0 cũng có ý nghĩa kinh tế. Nếu X là số năm kinh nghiệm, X = 0 có thể hợp lý. Nếu X là diện tích đất trong mẫu chỉ từ 1 ha đến 100 ha, diễn giải tại X = 0 có thể không thực tế. Khi đó, hệ số chặn chủ yếu đóng vai trò kỹ thuật để đường hồi quy đặt đúng vị trí.

Lỗi hay gặp

Không nên máy móc diễn giải hệ số chặn nếu X = 0 nằm ngoài phạm vi dữ liệu hoặc không có ý nghĩa thực tế. Trong nhiều bài nghiên cứu, trọng tâm nằm ở hệ số góc chứ không phải hệ số chặn.

3.4. Sai số ngẫu nhiên u gồm những gì?

Các biến quan trọng nhưng không được đưa vào mô hình: năng lực cá nhân, động lực học tập, chất lượng giảng dạy.
Sai số đo lường: số giờ học tự khai báo có thể không chính xác.
Yếu tố ngẫu nhiên: sức khỏe trong ngày thi, độ khó đề thi, tâm lý.
Đặc điểm không quan sát được hoặc rất khó lượng hóa.

Vì u chứa nhiều yếu tố khác nhau, giả thiết về quan hệ giữa X và u là trung tâm của hồi quy. Nếu X có tương quan với u, ước lượng OLS của β₁ thường bị chệch, và diễn giải sẽ kém tin cậy.

4. Phương pháp bình phương tối thiểu nhỏ nhất OLS

4.1. Ý tưởng trực giác

OLS chọn đường thẳng Ŷᵢ = b₀ + b₁Xᵢ sao cho các điểm dữ liệu nằm “gần” đường thẳng nhất theo tiêu chuẩn tổng bình phương phần dư. Phần dư là khoảng cách theo chiều dọc giữa giá trị thực tế Yᵢ và giá trị dự báo Ŷᵢ.

Vì sao bình phương phần dư?

Bình phương làm phần dư âm và dương không triệt tiêu nhau.

Bình phương phạt nặng các sai lệch lớn, nên đường hồi quy tránh bỏ mặc những điểm quá xa.

Tiêu chuẩn bình phương tạo ra công thức giải tích thuận tiện và các tính chất thống kê mạnh dưới giả thiết phù hợp.

4.2. Công thức ước lượng OLS trong hồi quy đơn

Công thức của b₁ cho thấy hệ số góc phụ thuộc vào mức độ X và Y cùng biến động quanh trung bình. Tử số là đồng biến thiên giữa X và Y; mẫu số là biến thiên của X. Nếu X gần như không thay đổi trong mẫu, mẫu số rất nhỏ và rất khó ước lượng tác động của X lên Y.

4.3. Tính chất đại số của đường OLS

Tổng phần dư bằng 0: Σeᵢ = 0. Do đó trung bình phần dư bằng 0 nếu mô hình có hệ số chặn.
Tổng tích giữa X và phần dư bằng 0: ΣXᵢeᵢ = 0. Nói cách khác, phần dư không còn tương quan tuyến tính với X trong mẫu.
Đường hồi quy OLS đi qua điểm trung bình mẫu: (X̄, Ȳ).
Tổng biến thiên của Y quanh trung bình có thể phân rã thành phần được giải thích và phần không được giải thích.

Không nên hiểu sai

Việc phần dư không tương quan với X trong mẫu là hệ quả toán học của OLS, không có nghĩa là sai số tổng thể u chắc chắn không tương quan với X. Giả thiết cần cho suy luận là E(u|X)=0 trong tổng thể, mạnh hơn nhiều so với tính chất phần dư trong mẫu.

4.4. Quy trình tính OLS bằng tay

Tính trung bình X̄ và Ȳ.
Tính độ lệch từng quan sát so với trung bình: Xᵢ – X̄ và Yᵢ – Ȳ.
Tính Sxx = Σ(Xᵢ – X̄)² và Sxy = Σ(Xᵢ – X̄)(Yᵢ – Ȳ).
Tính b₁ = Sxy/Sxx.
Tính b₀ = Ȳ – b₁X̄.
Viết phương trình ước lượng: Ŷ = b₀ + b₁X.
Tính Ŷᵢ, eᵢ, RSS nếu cần đánh giá sai số và R².

5. Các giả thiết cổ điển của định lý Gauss-Markov

5.1. Định lý Gauss-Markov nói gì?

Trong mô hình hồi quy tuyến tính, nếu các giả thiết Gauss-Markov phù hợp, ước lượng OLS là BLUE: Best Linear Unbiased Estimator. Nghĩa là trong lớp các ước lượng tuyến tính và không chệch, OLS có phương sai nhỏ nhất.

Chữ	Nghĩa	Diễn giải trong lớp học
B – Best	Tốt nhất	Có phương sai nhỏ nhất trong lớp đang xét
L – Linear	Tuyến tính	Ước lượng là hàm tuyến tính của các giá trị Yᵢ
U – Unbiased	Không chệch	Trung bình qua nhiều mẫu bằng đúng tham số thật
E – Estimator	Ước lượng	Quy tắc dùng mẫu để ước lượng tham số tổng thể

Cần nhớ

Gauss-Markov không nói OLS luôn đúng trong mọi tình huống. Nó nói OLS có tính chất tốt nếu các giả thiết nhất định thỏa mãn. Khi giả thiết bị vi phạm, ta phải xem loại vi phạm nào xảy ra và hậu quả là chệch, kém hiệu quả, hay sai kiểm định.

5.2. Các giả thiết cốt lõi trong hồi quy đơn

Giả thiết	Phát biểu ngắn	Ý nghĩa trực giác	Nếu vi phạm
Tuyến tính theo tham số	Y = β₀ + β₁X + u	Mô hình có dạng ước lượng được bằng OLS	Sai dạng hàm có thể làm hệ số sai lệch
Mẫu ngẫu nhiên	(Xᵢ,Yᵢ) là mẫu đại diện	Dữ liệu phản ánh tổng thể cần nghiên cứu	Kết quả có thể không khái quát được
X có biến thiên	Không phải mọi Xᵢ đều bằng nhau	Cần dữ liệu có khác biệt về X để học được độ dốc	Không tính được b₁ vì Sxx = 0
Kỳ vọng sai số bằng 0 có điều kiện	E(u\|X)=0	X không chứa thông tin hệ thống về phần bị bỏ sót	OLS thường bị chệch và không nhất quán
Phương sai đồng nhất	Var(u\|X)=σ²	Độ nhiễu của Y quanh đường hồi quy ổn định theo X	OLS vẫn có thể không chệch nhưng sai số chuẩn thông thường sai và kém hiệu quả
Không tự tương quan	Cov(uᵢ,uⱼ\|X)=0 với i ≠ j	Sai số của quan sát này không kéo theo sai số quan sát khác	Đặc biệt quan trọng với chuỗi thời gian; sai số chuẩn có thể sai
Phân phối chuẩn của sai số	u\|X ~ Normal(0,σ²)	Hữu ích cho kiểm định chính xác trong mẫu nhỏ	Với mẫu lớn có thể dựa vào xấp xỉ, nhưng mẫu nhỏ cần thận trọng

5.3. Giả thiết E(u|X)=0 là linh hồn của hồi quy

Giả thiết E(u|X)=0 nói rằng, tại mỗi mức X, các yếu tố bị đưa vào sai số u có trung bình bằng 0 và không liên hệ hệ thống với X. Đây là điều kiện quan trọng để OLS không chệch. Trong ngôn ngữ trực giác, X phải “sạch” đối với phần còn lại của mô hình.

Ví dụ biến bị bỏ sót

Hồi quy điểm thi Y theo số giờ học X. Nếu năng lực bẩm sinh và động lực học tập không được đưa vào mô hình, đồng thời các yếu tố này lại liên hệ với số giờ học, thì u có tương quan với X. Khi đó b₁ có thể phản ánh cả tác động của giờ học lẫn tác động của năng lực/động lực, nên không thể diễn giải nhân quả đơn giản.

5.4. Phương sai đồng nhất và phương sai thay đổi

Phương sai đồng nhất nghĩa là mức độ phân tán của Y quanh đường hồi quy không thay đổi có hệ thống theo X. Nếu ở nhóm X nhỏ, điểm dữ liệu rất sát đường hồi quy, còn ở nhóm X lớn, điểm dữ liệu phân tán rất mạnh, ta nghi ngờ có phương sai thay đổi.

Tình huống	Hậu quả thường gặp	Cách xử lý cơ bản ở các học phần sau
Phương sai đồng nhất	Sai số chuẩn OLS thông thường phù hợp	Dùng kiểm định t, F thông thường
Phương sai thay đổi	OLS có thể vẫn không chệch nếu E(u\|X)=0, nhưng sai số chuẩn thông thường sai	Dùng sai số chuẩn vững, biến đổi mô hình, hoặc WLS nếu có cấu trúc phù hợp

5.5. Normality: giả thiết chuẩn có phải luôn bắt buộc?

Giả thiết sai số phân phối chuẩn thường được đưa vào mô hình cổ điển để suy luận t và F chính xác trong mẫu nhỏ. Tuy nhiên, để OLS không chệch, ta không cần sai số chuẩn; điều kiện quan trọng hơn là E(u|X)=0. Với mẫu đủ lớn, nhờ định lý giới hạn trung tâm, nhiều kiểm định có thể dùng xấp xỉ ngay cả khi sai số không hoàn toàn chuẩn.

Cách nhớ

Không chuẩn không nhất thiết làm hệ số OLS bị chệch. Nhưng trong mẫu nhỏ, không chuẩn có thể làm p-value và khoảng tin cậy dựa trên t kém chính xác. Đừng xếp mọi giả thiết vào cùng một loại hậu quả.

6. Ước lượng và tính chất của các ước lượng OLS

6.1. Ước lượng điểm và sai số chuẩn

Kết quả OLS luôn gồm ít nhất hai loại thông tin: ước lượng điểm và độ bất định của ước lượng. Ước lượng điểm b₁ cho biết hệ số góc tính được từ mẫu. Sai số chuẩn se(b₁) cho biết b₁ dao động mạnh đến mức nào nếu ta lặp lại việc lấy mẫu nhiều lần.

Công thức cho thấy muốn ước lượng hệ số góc chính xác hơn, ta cần hai điều: sai số của mô hình nhỏ hơn, và biến X có nhiều biến thiên hơn. Nếu mọi quan sát có X gần giống nhau, dữ liệu không cung cấp đủ thông tin để xác định độ dốc.

6.2. Ước lượng không chệch

Một ước lượng được gọi là không chệch nếu trung bình của nó qua rất nhiều mẫu giả định bằng đúng tham số thật. Với b₁, không chệch nghĩa là E(b₁) = β₁. Điều này không có nghĩa là b₁ của một mẫu cụ thể chắc chắn bằng β₁. Nó chỉ nói rằng quy trình ước lượng không lệch có hệ thống về một phía.

Ví dụ trực giác

Bắn cung vào bia: không chệch nghĩa là nếu bắn rất nhiều mũi tên, tâm của các mũi tên trùng với hồng tâm. Một mũi tên riêng lẻ vẫn có thể lệch. Sai số chuẩn đo mức độ các mũi tên phân tán quanh tâm.

6.3. Hiệu quả và BLUE

Trong lớp các ước lượng tuyến tính không chệch, OLS có phương sai nhỏ nhất nếu giả thiết Gauss-Markov thỏa mãn. “Hiệu quả” ở đây nghĩa là ước lượng dao động ít hơn quanh tham số thật. Một ước lượng khác cũng không chệch nhưng có phương sai lớn hơn sẽ kém chính xác hơn OLS trong cùng điều kiện.

Tuy nhiên, nếu có phương sai thay đổi hoặc tự tương quan, OLS có thể vẫn không chệch nhưng không còn hiệu quả nhất; đồng thời sai số chuẩn thông thường có thể không đúng. Đây là lý do các học phần sau học thêm sai số chuẩn vững, GLS hoặc các mô hình chuyên biệt.

6.4. Ước lượng phương sai sai số

Mẫu số n – 2 là bậc tự do còn lại sau khi đã ước lượng hai tham số. Đây là điểm sinh viên hay quên khi tính bằng tay. Nếu dùng n thay vì n – 2, ta thường đánh giá thấp phương sai sai số.

7. Hệ số xác định mô hình R²

7.1. Phân rã biến thiên

R² dựa trên ý tưởng phân rã biến thiên của Y quanh trung bình. Tổng biến thiên của Y được chia thành phần mô hình giải thích được và phần còn lại nằm trong phần dư.

7.2. Công thức và diễn giải R²

R² cho biết tỷ lệ biến thiên của Y trong mẫu được giải thích bởi mô hình. Nếu R² = 0,70, ta nói mô hình giải thích khoảng 70% biến thiên của Y quanh trung bình trong mẫu. R² càng cao, đường hồi quy càng khớp với dữ liệu mẫu theo nghĩa bình phương phần dư càng nhỏ tương đối so với tổng biến thiên của Y.

Ba điều R² không nói

R² cao không chứng minh mô hình đúng về nhân quả.

R² cao không bảo đảm dự báo ngoài mẫu tốt.

R² thấp không nhất thiết làm hệ số quan tâm vô nghĩa; trong dữ liệu vi mô, nhiều hiện tượng có nhiễu lớn nên R² thấp vẫn có thể bình thường.

7.3. R² trong hồi quy đơn và hệ số tương quan

Trong hồi quy đơn có hệ số chặn, R² bằng bình phương hệ số tương quan mẫu giữa X và Y. Vì vậy R² không cho biết dấu của quan hệ; dấu nằm ở hệ số b₁. Nếu tương quan là -0,8 thì R² = 0,64, nhưng quan hệ là nghịch biến.

Lỗi hay gặp

Không được nói “R² = 0,64 nghĩa là X làm Y tăng 64%”. Cách nói đúng là “mô hình hồi quy tuyến tính với X giải thích 64% biến thiên của Y trong mẫu”.

8. Kiểm định giả thuyết ý nghĩa thống kê của hệ số hồi quy bằng kiểm định t

8.1. Vì sao cần kiểm định?

Một mẫu dữ liệu gần như luôn tạo ra một hệ số b₁ nào đó, kể cả khi trong tổng thể không có quan hệ. Kiểm định t giúp ta đánh giá liệu hệ số ước lượng có đủ lớn so với độ bất định của nó để bác bỏ giả thuyết hệ số tổng thể bằng một giá trị nào đó, thường là 0.

Giả thuyết H₀: β₁ = 0 nghĩa là X không có quan hệ tuyến tính với kỳ vọng của Y trong mô hình. Nếu bác bỏ H₀, ta nói hệ số có ý nghĩa thống kê ở mức ý nghĩa đã chọn.

8.2. Thống kê kiểm định t

Nếu |t| lớn, hệ số ước lượng nằm xa giá trị giả thuyết so với sai số chuẩn, nên dữ liệu ít phù hợp với H₀. Nếu |t| nhỏ, hệ số ước lượng có thể chỉ là dao động ngẫu nhiên quanh giá trị giả thuyết.

Cách tiếp cận	Quy tắc quyết định	Diễn giải
So sánh giá trị tới hạn	\|t\| > t_{α/2, n-2} thì bác bỏ H₀	Dùng bảng t hoặc phần mềm
Dùng p-value	p-value < α thì bác bỏ H₀	p-value càng nhỏ, bằng chứng chống lại H₀ càng mạnh
Dùng khoảng tin cậy	Nếu 0 không nằm trong KTC 95% thì bác bỏ H₀ ở mức 5%	Liên hệ trực tiếp giữa kiểm định hai phía và khoảng tin cậy

8.3. Mức ý nghĩa, p-value và lỗi suy luận

Mức ý nghĩa α là xác suất tối đa chấp nhận mắc sai lầm loại I: bác bỏ H₀ khi H₀ đúng. Các mức thông dụng là 10%, 5% và 1%. p-value là xác suất, giả sử H₀ đúng, quan sát được thống kê kiểm định cực đoan ít nhất như dữ liệu đang có. p-value không phải xác suất H₀ đúng.

Diễn giải p-value đúng

Nếu p-value = 0,03, không nên nói “xác suất H₀ đúng là 3%”. Cách nói phù hợp: nếu H₀ đúng, xác suất quan sát được bằng chứng cực đoan như mẫu hiện tại hoặc hơn là 3%; vì 3% < 5%, ta bác bỏ H₀ ở mức ý nghĩa 5%.

8.4. Ý nghĩa thống kê khác ý nghĩa kinh tế

Một hệ số có thể có ý nghĩa thống kê nhưng quá nhỏ để có ý nghĩa thực tiễn. Ngược lại, một hệ số có độ lớn đáng kể về kinh tế nhưng không có ý nghĩa thống kê do mẫu nhỏ hoặc dữ liệu nhiều nhiễu. Vì vậy, khi báo cáo kết quả, cần xem cả dấu, độ lớn, đơn vị đo, sai số chuẩn, p-value và bối cảnh kinh tế.

Trường hợp	Ý nghĩa thống kê	Ý nghĩa kinh tế	Cách đọc
b₁ lớn, p nhỏ	Có	Có thể có	Kết quả mạnh, vẫn cần kiểm tra giả thiết
b₁ nhỏ, p nhỏ	Có	Có thể không	Mẫu lớn có thể làm hiệu ứng nhỏ trở nên có ý nghĩa
b₁ lớn, p lớn	Không	Có thể có	Dữ liệu chưa đủ chính xác; cần mẫu lớn hơn hoặc mô hình tốt hơn
b₁ nhỏ, p lớn	Không	Thường không	Ít bằng chứng về quan hệ trong dữ liệu

9. Khoảng tin cậy của các hệ số

9.1. Ý tưởng

Khoảng tin cậy cung cấp một khoảng giá trị hợp lý cho tham số tổng thể, thay vì chỉ một ước lượng điểm. Với mức tin cậy 95%, nếu lặp lại quá trình lấy mẫu và lập khoảng rất nhiều lần theo cùng phương pháp, khoảng tin cậy sẽ chứa tham số thật khoảng 95% số lần.

Độ rộng khoảng tin cậy phụ thuộc vào sai số chuẩn và mức tin cậy. Mức tin cậy càng cao, khoảng càng rộng. Sai số chuẩn càng lớn, khoảng càng rộng. Do đó dữ liệu nhiễu hoặc mẫu nhỏ làm kết luận kém chính xác.

9.2. Diễn giải đúng và sai

Cách nói	Đúng hay sai?	Lý do
“Khoảng 95% này chứa β₁ thật với xác suất 95%.”	Không chuẩn trong thống kê tần suất	β₁ là hằng số; khoảng mới ngẫu nhiên trước khi lấy mẫu
“Phương pháp lập khoảng 95% sẽ chứa β₁ thật trong khoảng 95% số mẫu lặp lại.”	Đúng	Nhấn mạnh tính chất của quy trình lấy mẫu
“Các giá trị trong khoảng là những giá trị hợp lý của β₁ theo dữ liệu và mô hình.”	Dùng được trong giảng dạy	Diễn giải thực hành dễ hiểu
“Nếu 0 nằm ngoài KTC 95%, hệ số có ý nghĩa ở mức 5% trong kiểm định hai phía.”	Đúng	Tương đương với kiểm định t hai phía

9.3. Khoảng tin cậy cho hệ số chặn

Khoảng tin cậy cho hệ số chặn thường ít được quan tâm hơn hệ số góc, trừ khi giá trị X = 0 có ý nghĩa kinh tế. Trong nhiều bài ứng dụng, hệ số chặn cần có trong mô hình nhưng không nhất thiết cần diễn giải sâu.

10. Dự báo dựa trên mô hình hồi quy đơn

10.1. Dự báo điểm

Sau khi có phương trình hồi quy mẫu Ŷ = b₀ + b₁X, ta có thể dự báo giá trị trung bình của Y tại một mức X₀ bằng cách thay X₀ vào phương trình.

Dự báo điểm là một con số trung tâm, không phản ánh toàn bộ bất định. Trong ứng dụng, cần phân biệt dự báo trung bình của nhóm có X₀ và dự báo cho một cá thể cụ thể có X₀.

10.2. Dự báo trung bình và dự báo cá biệt

Loại dự báo	Câu hỏi trả lời	Khoảng thường hẹp/rộng?	Lý do
Khoảng tin cậy cho trung bình E(Y\|X₀)	Trung bình của tất cả đơn vị có X = X₀ là bao nhiêu?	Hẹp hơn	Chỉ tính bất định của đường hồi quy ước lượng
Khoảng dự báo cho một quan sát cá biệt Y₀	Một cá nhân/đơn vị cụ thể có X = X₀ sẽ có Y là bao nhiêu?	Rộng hơn	Bao gồm cả bất định của đường hồi quy và sai số cá biệt u₀

Điểm dễ nhầm

Khoảng dự báo cá biệt luôn rộng hơn khoảng tin cậy cho trung bình tại cùng X₀, vì dự báo một cá thể phải cộng thêm nhiễu riêng của cá thể đó.

10.3. Ngoại suy và giới hạn của dự báo

Dự báo đáng tin nhất khi X₀ nằm trong phạm vi dữ liệu đã dùng để ước lượng. Nếu mô hình được ước lượng từ số giờ học trong khoảng 2 đến 9 giờ/ngày, dự báo cho 10 giờ có thể còn gần phạm vi mẫu, nhưng dự báo cho 20 giờ là ngoại suy mạnh và có thể vô nghĩa. Ngoại suy bỏ qua khả năng quan hệ không còn tuyến tính ở vùng dữ liệu chưa quan sát.

Nguyên tắc thực hành

Trước khi dự báo, hãy kiểm tra: X₀ có nằm trong phạm vi dữ liệu không, mô hình có ý nghĩa kinh tế không, quan hệ có thể phi tuyến không, và sai số dự báo có đủ nhỏ cho mục đích sử dụng không.

11. Ví dụ tính toán đầy đủ

11.1. Dữ liệu ví dụ

Giả sử ta khảo sát 8 sinh viên. X là số giờ học trung bình mỗi ngày trước kỳ thi; Y là điểm thi. Dữ liệu như sau:

Sinh viên	X: giờ học/ngày	Y: điểm thi
1	2	54
2	3	59
3	4	63
4	5	68
5	6	73
6	7	75
7	8	83
8	9	88

11.2. Ước lượng mô hình

Với dữ liệu trên, tính được X̄ = 5,5 và Ȳ = 70,375. Kết quả OLS là:

Chỉ tiêu	Giá trị	Diễn giải
b₀	44,25	Điểm dự báo khi X = 0; chủ yếu là thành phần kỹ thuật trong ví dụ này
b₁	4,75	Khi giờ học tăng 1 giờ/ngày, điểm dự báo trung bình tăng 4,75 điểm
RSS	8,25	Tổng bình phương phần dư
TSS	955,875	Tổng biến thiên của điểm thi quanh trung bình
R²	0,9914	Mô hình giải thích khoảng 99,14% biến thiên của điểm thi trong mẫu
s²	1,375	Ước lượng phương sai sai số với bậc tự do n – 2 = 6
s	1,1726	Sai số chuẩn của hồi quy

Lưu ý về R² trong ví dụ

R² rất cao vì dữ liệu ví dụ được thiết kế đơn giản để minh họa tính toán. Dữ liệu thực tế trong kinh tế thường nhiễu hơn nhiều, nên R² thấp hơn là chuyện bình thường.

11.3. Bảng giá trị dự báo và phần dư

i	Xᵢ	Yᵢ	Ŷᵢ = 44,25 + 4,75Xᵢ	eᵢ = Yᵢ – Ŷᵢ
1	2	54	53,75	0,25
2	3	59	58,50	0,50
3	4	63	63,25	-0,25
4	5	68	68,00	0,00
5	6	73	72,75	0,25
6	7	75	77,50	-2,50
7	8	83	82,25	0,75
8	9	88	87,00	1,00

Tổng phần dư bằng 0, đúng với tính chất OLS khi mô hình có hệ số chặn. Quan sát thứ 6 có phần dư âm lớn nhất trong ví dụ: điểm thực tế thấp hơn dự báo 2,5 điểm.

11.4. Kiểm định t cho hệ số góc

Ta kiểm định H₀: β₁ = 0 so với H₁: β₁ ≠ 0. Từ dữ liệu, se(b₁) = 0,1809, nên:

Giá trị t rất lớn về trị tuyệt đối, p-value xấp xỉ 0,0000002. Do đó ta bác bỏ H₀ ở các mức ý nghĩa thông dụng. Có bằng chứng thống kê rất mạnh rằng số giờ học có quan hệ tuyến tính dương với điểm thi trong dữ liệu ví dụ này.

11.5. Khoảng tin cậy 95% cho β₁

Với df = 6, giá trị tới hạn t_{0,025;6} ≈ 2,447. Khoảng tin cậy 95% cho β₁ là:

Khoảng này không chứa 0, phù hợp với kết quả kiểm định t hai phía ở mức 5%. Diễn giải thực hành: trong phạm vi dữ liệu, mỗi giờ học thêm gắn với điểm trung bình tăng khoảng từ 4,31 đến 5,19 điểm.

11.6. Dự báo tại X₀ = 10 giờ/ngày

Loại khoảng	Giá trị xấp xỉ	Diễn giải
KTC 95% cho trung bình E(Y\|X=10)	[89,51 ; 93,99]	Khoảng cho điểm trung bình của nhóm sinh viên học 10 giờ/ngày
Khoảng dự báo 95% cho cá thể	[88,11 ; 95,39]	Khoảng cho điểm của một sinh viên cụ thể học 10 giờ/ngày

Nhận xét

Khoảng dự báo cá thể rộng hơn vì một sinh viên cụ thể còn chịu ảnh hưởng bởi nhiều yếu tố ngoài giờ học: năng lực, sức khỏe, tâm lý, đề thi, chất lượng ôn tập.

12. Những điểm sinh viên thường khó hiểu

Vấn đề hay nhầm	Cách hiểu sai	Cách hiểu đúng
Sai số u và phần dư e	Tưởng u và e là một	u là sai số tổng thể không quan sát được; e là phần dư mẫu tính được sau OLS
Hệ số chặn	Luôn diễn giải máy móc tại X=0	Chỉ diễn giải sâu nếu X=0 có ý nghĩa và nằm trong phạm vi phù hợp
Hệ số góc	Nói mọi cá nhân thay đổi đúng b₁	b₁ là thay đổi trung bình dự báo của Y khi X tăng 1 đơn vị
R²	R² cao nghĩa là nhân quả mạnh	R² chỉ đo độ khớp trong mẫu, không chứng minh nhân quả
p-value	p-value là xác suất H₀ đúng	p-value là xác suất thấy bằng chứng cực đoan nếu H₀ đúng
Không bác bỏ H₀	Chứng minh H₀ đúng	Chỉ nói dữ liệu chưa đủ bằng chứng để bác bỏ H₀
Ý nghĩa thống kê	Đồng nghĩa với quan trọng thực tế	Cần xét độ lớn hệ số, đơn vị đo và bối cảnh kinh tế
Dự báo	Dự báo điểm là chắc chắn	Dự báo luôn có bất định; cần khoảng tin cậy hoặc khoảng dự báo
OLS tốt nhất	OLS luôn tốt nhất	OLS là BLUE khi giả thiết Gauss-Markov thỏa mãn trong lớp ước lượng xét đến

13. Tóm tắt công thức cần nhớ

Nội dung	Công thức	Ghi chú
Mô hình tổng thể	Yᵢ = β₀ + β₁Xᵢ + uᵢ	u chứa các yếu tố ngoài X
Đường hồi quy mẫu	Ŷᵢ = b₀ + b₁Xᵢ	Đường ước lượng từ dữ liệu
Phần dư	eᵢ = Yᵢ – Ŷᵢ	Sai lệch quan sát so với dự báo
Hệ số góc OLS	b₁ = Σ(Xᵢ-X̄)(Yᵢ-Ȳ) / Σ(Xᵢ-X̄)²	Đồng biến thiên chia cho biến thiên X
Hệ số chặn OLS	b₀ = Ȳ – b₁X̄	Đường OLS đi qua (X̄,Ȳ)
RSS	RSS = Σeᵢ²	Tổng bình phương phần dư
Phương sai sai số	s² = RSS/(n-2)	Hồi quy đơn ước lượng 2 tham số
R²	R² = 1 – RSS/TSS	Độ khớp trong mẫu
Thống kê t	t = (bⱼ – βⱼ,0)/se(bⱼ)	df = n – 2 trong hồi quy đơn
Khoảng tin cậy	bⱼ ± t_{α/2,n-2}se(bⱼ)	Cho hệ số βⱼ
Dự báo điểm	Ŷ₀ = b₀ + b₁X₀	Cần tránh ngoại suy quá xa

14. Bài tập cuối phần

14.1. Câu hỏi lý thuyết ngắn

Kinh tế lượng khác gì với thống kê mô tả? Hãy nêu một ví dụ minh họa.
Vì sao hồi quy không tự động chứng minh nhân quả? Nêu ít nhất hai nguyên nhân.
Phân biệt hàm hồi quy tổng thể PRF và hàm hồi quy mẫu SRF.
Phân biệt sai số ngẫu nhiên uᵢ và phần dư eᵢ.
Vì sao OLS tối thiểu hóa tổng bình phương phần dư chứ không tối thiểu hóa tổng phần dư?
Phát biểu và diễn giải giả thiết E(u|X)=0 trong hồi quy đơn.
R² = 0,80 có nghĩa là gì? Có nghĩa là X gây ra 80% thay đổi của Y không? Giải thích.
p-value = 0,04 trong kiểm định H₀: β₁ = 0 có nên diễn giải là xác suất H₀ đúng bằng 4% không? Vì sao?
Tại sao khoảng dự báo cho một cá thể thường rộng hơn khoảng tin cậy cho trung bình?
Trong trường hợp nào không nên diễn giải hệ số chặn?

14.2. Bài tập tính toán

Bài 1. Một giảng viên thu thập dữ liệu về số giờ tự học X và điểm kiểm tra Y của 6 sinh viên như sau:

Sinh viên	1	2	3	4	5	6
X	1	2	3	4	5	6
Y	48	52	57	61	65	70

Tính X̄, Ȳ, Sxx và Sxy.
Ước lượng mô hình Ŷ = b₀ + b₁X.
Diễn giải b₁ trong bối cảnh bài toán.
Tính giá trị dự báo khi X = 7.
Tính các phần dư và kiểm tra tổng phần dư có xấp xỉ bằng 0 không.
Tính RSS, TSS và R².

Bài 2. Một mô hình hồi quy tiền lương theo số năm kinh nghiệm cho kết quả:

Kiểm định H₀: β₁ = 0 so với H₁: β₁ ≠ 0 ở mức ý nghĩa 5%.
Tính khoảng tin cậy 95% cho β₁, biết t_{0,025;28} ≈ 2,048.
Diễn giải kết quả theo ý nghĩa thống kê và ý nghĩa kinh tế.
Có thể kết luận “kinh nghiệm làm tăng lương” theo nghĩa nhân quả không? Cần điều kiện gì?

Bài 3. Một mô hình dự báo chi tiêu tiêu dùng theo thu nhập có R² = 0,35. Một sinh viên kết luận: “Mô hình này vô dụng vì R² thấp.” Hãy phản biện kết luận này trong khoảng 8 đến 10 dòng.

14.3. Gợi ý đáp án nhanh

Bài 1 – kiểm tra kết quả

Với dữ liệu Bài 1: X̄ = 3,5; Ȳ ≈ 58,83; b₁ ≈ 4,314; b₀ ≈ 43,733; phương trình Ŷ ≈ 43,733 + 4,314X.

Khi X = 7, dự báo Ŷ ≈ 73,93. Sinh viên nên tự tính RSS, TSS, R² để luyện quy trình.

Bài 2 – gợi ý

t = 0,8/0,25 = 3,2. Vì 3,2 > 2,048, bác bỏ H₀ ở mức 5%.

KTC 95%: 0,8 ± 2,048×0,25 = [0,288 ; 1,312].

Diễn giải: thêm 1 năm kinh nghiệm gắn với lương trung bình cao hơn khoảng 0,8 triệu đồng/tháng; khoảng giá trị hợp lý từ 0,288 đến 1,312 triệu, trong điều kiện mô hình phù hợp.

15. Checklist tự học trước khi sang hồi quy bội

Tôi có thể tự viết và giải thích mô hình Yᵢ = β₀ + β₁Xᵢ + uᵢ.
Tôi phân biệt được β₁ và b₁, uᵢ và eᵢ, PRF và SRF.
Tôi tính được b₀, b₁ bằng công thức OLS trong hồi quy đơn.
Tôi hiểu trực giác của giả thiết E(u|X)=0 và vì sao nó quan trọng hơn việc chỉ nhìn R².
Tôi đọc được bảng kết quả hồi quy: coefficient, standard error, t-statistic, p-value, R².
Tôi biết cách diễn giải hệ số, kiểm định t, khoảng tin cậy và dự báo trong ngôn ngữ kinh tế.
Tôi biết những câu không nên nói: “R² chứng minh nhân quả”, “p-value là xác suất H₀ đúng”, “không bác bỏ H₀ nghĩa là H₀ đúng”.

16. Gợi ý tài liệu học sâu

Gujarati & Porter – Basic Econometrics: phù hợp để đọc nền tảng và luyện bài tập kinh tế lượng cổ điển.
Wooldridge – Introductory Econometrics: A Modern Approach: mạnh về trực giác kinh tế, giả thiết và vấn đề nhân quả.
Stock & Watson – Introduction to Econometrics: tốt cho cách tiếp cận hiện đại, ví dụ thực nghiệm và suy luận thống kê.
Khi học bằng phần mềm, hãy luôn tự hỏi: biến phụ thuộc là gì, hệ số đang đo điều gì, giả thiết nào đang được dùng, và kết luận có vượt quá dữ liệu hay không.