Website chỉ chia sẻ kiến thức, không giải đáp thắc mắc, không tư vấn!

Biến định tính và biến định lượng trong phân tích hồi quy và SEM

SPSS January 24, 2026

Việc xác định chính xác loại biến là bước có ý nghĩa then chốt trong quá trình xử lý và phân tích dữ liệu, bởi nhiều phép kiểm định thống kê đặt ra yêu cầu nghiêm ngặt đối với dạng biến đầu vào, đặc biệt là các biến định tính, biến định lượng. Trên thực tế, không ít trường hợp người nghiên cứu vô tình sử dụng các biến định tính để thực hiện những phân tích chỉ phù hợp với biến định lượng.

Cần lưu ý rằng, bất kể biến được đưa vào là biến định tính hay định lượng, đúng hay sai về mặt phương pháp, phần mềm thống kê vẫn cho ra các bảng kết quả. Tuy nhiên, khi loại biến không đáp ứng yêu cầu của phép kiểm định, các kết quả thu được chỉ mang tính hình thức, là tập hợp các con số không có giá trị diễn giải và không phản ánh đúng bản chất của dữ liệu. Vì vậy, người nghiên cứu cần đặc biệt thận trọng, luôn kiểm tra các điều kiện đầu vào của mỗi phép kiểm định, bao gồm loại biến được chấp nhận, khả năng tồn tại giá trị thiếu, cũng như các yêu cầu về cỡ mẫu tối thiểu hay những giả định thống kê liên quan. Chỉ khi dữ liệu đáp ứng đầy đủ các điều kiện này, việc tiến hành kiểm định mới có cơ sở khoa học và đảm bảo ý nghĩa của kết quả phân tích.

Bài viết này không tập trung trình bày các khái niệm mang tính hàn lâm về biến định tính và biến định lượng, bởi hiện nay có rất nhiều tài liệu tham khảo sẵn có trên các nguồn như Google hay Wikipedia với nội dung chi tiết và đầy đủ. Thay vào đó, phần trình bày dưới đây sẽ tiếp cận khái niệm biến định tính và biến định lượng theo góc độ thực hành trong xử lý dữ liệu, với cách diễn giải đơn giản, nhằm giúp người học hiểu rõ hơn và sử dụng đúng loại biến khi thực hiện các phép kiểm định thống kê, trong đó loại biến đóng vai trò là điều kiện đầu vào quan trọng.

1. Biến định tính (tức biến phân loại) là gì?

Biến định tính (qualitative variable), còn được gọi là biến phân loại (categorical variable), là loại biến dùng để phân chia các đối tượng nghiên cứu thành những nhóm hoặc loại khác nhau dựa trên các đặc trưng nhất định. Trong quá trình xử lý và phân tích dữ liệu, các giá trị của biến định tính thường được mã hóa dưới dạng các con số như 1, 2, 3,… Tuy nhiên, các con số này chỉ mang ý nghĩa ký hiệu nhằm phục vụ cho việc nhập liệu và phân tích thống kê, không phản ánh giá trị thực hay mức độ của biến.

Ví dụ, biến độ tuổi có thể được chia thành các nhóm: (1) dưới 22 tuổi, (2) từ 22 đến 30 tuổi, (3) từ 31 đến 50 tuổi, và (4) trên 50 tuổi. Trong trường hợp này, độ tuổi được xem là biến định tính vì nó dùng để phân loại đối tượng nghiên cứu vào các nhóm tuổi khác nhau. Các nhóm tuổi được gán các mã số từ 1 đến 4 để thuận tiện cho việc xử lý dữ liệu, và các mã số này chỉ mang tính quy ước. Chẳng hạn, một đáp viên 25 tuổi sẽ được mã hóa là 2, tương ứng với nhóm tuổi từ 22 đến 30. Khi đó, 25 là giá trị định lượng thực của độ tuổi, còn 2 chỉ là giá trị mã hóa mang tính định tính trong bộ dữ liệu nghiên cứu.

2. Biến định lượng là gì?

Biến định lượng (quantitative variable) là những biến mà giá trị quan sát được biểu diễn dưới dạng các con số, phản ánh mức độ hoặc quy mô của hiện tượng nghiên cứu. Trong nghiên cứu khoa học và thống kê, biến định lượng thường được chia thành hai loại cơ bản là biến liên tục và biến rời rạc.

Biến liên tục (continuous variable) là loại biến có thể nhận mọi giá trị thực trong một khoảng xác định, sự biến thiên diễn ra liên tục và không bị gián đoạn.

Ví dụ 1: Nhiệt độ trong ngày là một biến ngẫu nhiên liên tục vì về mặt lý thuyết có thể nhận vô số giá trị khác nhau. Thông thường, người nghiên cứu chỉ xác định giới hạn dưới và giới hạn trên của biến, chẳng hạn nhiệt độ dao động trong khoảng từ 20 độ C đến 30 độ C; khi đó biến X được đo bằng đơn vị độ C và X thuộc khoảng (20; 30).

Ví dụ 2: Độ tuổi cũng có thể được xem là biến định lượng khi dữ liệu thu thập là số tuổi chính xác của người trả lời. Khi câu hỏi khảo sát được đặt ra dưới dạng “Tuổi của anh/chị là: …”, và đáp viên cung cấp một con số cụ thể, thì giá trị thu được là một giá trị số thực, do đó thuộc biến định lượng.

Biến rời rạc (discrete variable) là biến chỉ nhận các giá trị nguyên, thường là kết quả của việc đếm số lượng các đối tượng hoặc sự kiện.

Ví dụ: Số con trong gia đình, số thành viên trong hộ gia đình, số lần thực hiện xét nghiệm, số công nhân trong một doanh nghiệp, hay số sản phẩm được sản xuất trong một ngày của một phân xưởng may đều là các biến định lượng rời rạc.

(Tài liệu tham khảo: Nguyễn Văn Ngọc, Từ điển Kinh tế học, Đại học Kinh tế Quốc dân)

Trong nghiên cứu thực nghiệm và điều tra xã hội học, các biến được đo lường bằng thang đo Likert thường được xem là biến định lượng dạng rời rạc.

4. Những lưu ý quan trọng

Biến có hai giá trị có thể đồng thời được xem là biến định tính và biến định lượng

Những biến chỉ nhận hai giá trị như giới tính (nam/nữ), quyết định mua (mua/không mua),… thường được xếp vào nhóm biến vừa mang tính định tính vừa mang tính định lượng. Do đó, trong quá trình thực hiện các kiểm định thống kê có yêu cầu về loại biến đầu vào, phần lớn các trường hợp biến nhị phân đều có thể được sử dụng phù hợp với nhiều phương pháp phân tích khác nhau.

Ví dụ, trong một mô hình nghiên cứu, khi xem xét tác động của biến kiểm soát giới tính với hai giá trị nam/nữ lên biến phụ thuộc là sự hài lòng, nhà nghiên cứu có thể lựa chọn các cách tiếp cận sau:

– Thứ nhất, tiến hành phân tích Independent Sample T-test hoặc One-way ANOVA. Đây là các kiểm định yêu cầu sự tham gia của một biến định lượng và một biến định tính. Trong trường hợp này, biến sự hài lòng đóng vai trò là biến định lượng, còn giới tính là biến định tính.

– Thứ hai, thực hiện phân tích hồi quy tuyến tính hoặc mô hình cấu trúc tuyến tính (SEM) để đánh giá mức độ tác động của giới tính lên sự hài lòng. Các phương pháp này yêu cầu các biến tham gia đều được xử lý dưới dạng biến định lượng. Khi đó, biến giới tính được mã hóa thành biến số và có thể tham gia trực tiếp vào mô hình hồi quy hoặc mô hình SEM.

Việc một biến được xem là định tính hay định lượng không phụ thuộc vào tên gọi của biến, mà được quyết định bởi đặc điểm dữ liệu mà biến đó thể hiện

Để phân loại một biến là định tính hay định lượng, cần căn cứ vào cách thu thập và biểu diễn dữ liệu của biến. Chẳng hạn, với biến độ tuổi đã được đề cập ở các mục trước, mặc dù cùng mang tên là độ tuổi, nhưng trong một trường hợp dữ liệu được thu thập theo nhóm tuổi thì biến này mang tính định tính, trong khi ở trường hợp khác dữ liệu được ghi nhận bằng giá trị tuổi cụ thể thì biến đó lại là biến định lượng.

Tương tự, đối với biến thu nhập, nếu thu nhập được phân chia thành các nhóm như dưới 10 triệu, từ 10 đến 20 triệu, trên 20 triệu thì biến này được xem là biến định tính. Ngược lại, nếu thu nhập được ghi nhận bằng con số chính xác của từng đối tượng khảo sát thì đây là biến định lượng.

Chuyển đổi biến định tính sang biến định lượng

Đây là một bước xử lý dữ liệu quan trọng trong nghiên cứu định lượng. Trong trường hợp một biến chỉ có hai giá trị, biến này có thể được xem là vừa mang bản chất định tính vừa có thể biểu diễn dưới dạng định lượng. Cơ sở của việc chuyển đổi biến định tính sang biến định lượng cũng xuất phát từ đặc điểm này. Phương pháp chuyển đổi phổ biến được sử dụng là tạo biến giả (dummy variable), trong đó các giá trị định tính được mã hóa bằng các con số nhị phân. Kỹ thuật này thường được trình bày chi tiết trong các tài liệu về hồi quy với biến độc lập định tính, ví dụ như hướng dẫn thực hiện trên phần mềm SPSS.

Trong các nghiên cứu sử dụng hồi quy tuyến tính hoặc mô hình cấu trúc tuyến tính (SEM), khi cần phân tích mối quan hệ giữa biến định tính và các biến khác, nhà nghiên cứu bắt buộc phải chuyển đổi biến định tính sang dạng biến giả. Sau khi mã hóa, các biến giả này mới có thể được sử dụng như các biến độc lập hoặc biến kiểm soát trong mô hình hồi quy hoặc SEM.

Biến định tính và biến định lượng trong hồi quy và SEM

Về yêu cầu dữ liệu trong hồi quy và SEM, cả hai phương pháp phân tích này đều đòi hỏi các biến tham gia phải được biểu diễn dưới dạng định lượng. Do đó, cách hiểu và xử lý từng loại biến trong kết quả phân tích là rất quan trọng.

– Trong trường hợp kết quả hồi quy hoặc SEM có xuất hiện biến giới tính, người đọc có thể ngầm hiểu rằng biến này chỉ gồm hai giá trị và đã được mã hóa dưới dạng số, vì vậy đáp ứng yêu cầu là biến định lượng cho phân tích thống kê.

– Nếu kết quả hồi quy hoặc SEM xuất hiện các biến như độ tuổi, thu nhập, thâm niên công tác hoặc kinh nghiệm làm việc, có thể hiểu rằng các biến này đang được sử dụng dưới dạng giá trị số thực. Điều này đồng nghĩa với việc dữ liệu không được phân loại thành các nhóm (ví dụ nhóm tuổi hay nhóm thu nhập) mà được giữ nguyên dưới dạng các con số đo lường chính xác.

– Ngược lại, khi kết quả hồi quy hoặc SEM có sự xuất hiện của các biến như phòng ban, chức danh hoặc các đặc điểm phân loại tương tự, người đọc có thể hiểu rằng các biến định tính này đã được chuyển đổi sang dạng biến giả trước khi đưa vào mô hình phân tích.