SPSS là phần mềm thống kê có tính ứng dụng cao, được sử dụng phổ biến trong các nghiên cứu khoa học xã hội và hành vi. Trong quy trình phân tích dữ liệu bằng SPSS, công đoạn đầu tiên giữ vai trò nền tảng là xác định biến nghiên cứu và tiến hành nhập dữ liệu. Nội dung dưới đây trình bày hướng dẫn cụ thể các bước thực hiện khai báo biến và nhập dữ liệu trong SPSS nhằm đảm bảo dữ liệu được tổ chức và xử lý đúng chuẩn nghiên cứu.
1. Khai báo biến trong SPSS
Khai báo biến là bước khởi đầu quan trọng trong quá trình xử lý và phân tích dữ liệu bằng phần mềm SPSS. Mục đích của bước này nhằm xác định rõ các thuộc tính cơ bản của từng biến trong bộ dữ liệu, bao gồm tên biến, kiểu dữ liệu, nhãn biến, giá trị của biến, giá trị khuyết và loại thang đo. Việc khai báo biến được thực hiện thông qua giao diện Variable View của SPSS.
Sau khi khởi động phần mềm SPSS, tại cửa sổ làm việc chính, người dùng lựa chọn thẻ Variable View ở góc dưới bên trái màn hình để tiến hành khai báo các biến nghiên cứu.

– Name: Khai báo tên biến. Tên biến cần tuân thủ các quy tắc đặt tên của SPSS như không sử dụng dấu tiếng Việt, không chứa khoảng trắng, ký tự đầu tiên không được là chữ số và không trùng với các từ khóa bị cấm trong hệ thống. Trong trường hợp người dùng vô tình sử dụng tên biến không hợp lệ, phần mềm sẽ tự động thông báo lỗi và yêu cầu thay đổi. Khi cần liên kết các thành phần trong tên biến, có thể sử dụng dấu gạch dưới. Một số ví dụ về cách đặt tên phù hợp bao gồm GioiTinh, DoTuoi, Hoc_Van, ChiPhi1, GiaCa_2. Ngược lại, các tên như Giới tính, Do Tuoi, Học vấn hay 1NgheNghiep là không hợp lệ.
– Type: Khai báo kiểu dữ liệu của biến. SPSS cung cấp nhiều kiểu dữ liệu khác nhau, tuy nhiên trong nghiên cứu khoa học xã hội và khi thực hiện luận văn, hai kiểu dữ liệu được sử dụng phổ biến nhất là Numeric và String. Kiểu Numeric được dùng cho các biến có giá trị dạng số, trong khi kiểu String được sử dụng cho các biến có giá trị là ký tự văn bản. Ví dụ, với biến giới tính, nếu dữ liệu được nhập trực tiếp dưới dạng chữ “Nam” và “Nữ” thì cần khai báo kiểu dữ liệu là String. Ngược lại, nếu giới tính được mã hóa bằng các con số, chẳng hạn 1 đại diện cho Nam và 2 đại diện cho Nữ, thì biến này cần được khai báo là Numeric.
– Width: Quy định số lượng ký tự tối đa được phép nhập cho mỗi giá trị của biến. Trong trường hợp dữ liệu nhập vào có số ký tự lớn hơn 8, người dùng cần điều chỉnh Width tăng lên tương ứng. Tuy nhiên, không nên đặt Width ở mức quá lớn như 500 hoặc 1000 vì hầu như không cần thiết và có thể làm tăng dung lượng tệp dữ liệu.

Khi nhập liệu, nếu giá trị bị cắt bớt và không hiển thị đầy đủ, điều đó cho thấy độ rộng của biến chưa đủ để chứa toàn bộ chuỗi ký tự và cần được điều chỉnh lại cho phù hợp.

– Decimals: Khai báo số chữ số thập phân hiển thị. Đối với các biến có giá trị là số nguyên, tham số này nên được đặt bằng 0. Trong trường hợp dữ liệu có phần thập phân, người dùng có thể điều chỉnh số chữ số thập phân hiển thị là 1, 2 hoặc nhiều hơn, tùy theo mức độ chính xác cần thiết trong nghiên cứu.
– Label: Khai báo nhãn biến nhằm mô tả đầy đủ ý nghĩa của biến nghiên cứu. Không giống như Name, phần Label không bị ràng buộc bởi các quy tắc nghiêm ngặt về ký tự, cho phép sử dụng tiếng Việt có dấu, khoảng trắng và mô tả dài để giải thích rõ nội dung mà biến đại diện.

– Values: Khai báo giá trị của biến, thường được áp dụng cho các biến định tính đã được mã hóa. Mỗi giá trị số sẽ tương ứng với một nhãn mô tả ý nghĩa cụ thể. Ví dụ, với biến bộ phận làm việc, các giá trị có thể được mã hóa lần lượt là 1 tương ứng với “Phòng Nhân sự”, 2 là “Phòng Kế toán”, 3 là “Phòng Sản xuất” và 4 là “Phòng Marketing”. Việc khai báo Values giúp SPSS hiển thị và xử lý dữ liệu một cách trực quan và nhất quán.

– Missing: Khai báo các giá trị khuyết trong dữ liệu. Giá trị khuyết xuất hiện khi thông tin tại một ô dữ liệu không được cung cấp, có thể do đặc điểm của câu hỏi khảo sát, do đáp viên không trả lời hoặc do sai sót trong quá trình nhập liệu. Việc xác định rõ các giá trị khuyết là rất cần thiết, vì SPSS sẽ dựa vào khai báo này để quyết định có đưa các quan sát đó vào quá trình phân tích và kiểm định thống kê hay không.
Trong mục Discrete missing values, SPSS cho phép khai báo tối đa ba giá trị khuyết khác nhau cho cùng một biến. Chẳng hạn, một loại giá trị khuyết phát sinh do bản chất câu hỏi, chỉ những đối tượng phù hợp mới trả lời, các trường hợp không phù hợp được gán giá trị 99 và khai báo 99 là missing value. Một loại giá trị khuyết khác có thể do đáp viên bỏ sót câu hỏi, khi đó có thể sử dụng giá trị 88 và khai báo tương ứng trong ô missing thứ hai để phân biệt rõ nguyên nhân của dữ liệu khuyết.

– Measure: Xác định loại thang đo của biến, bao gồm thang đo định danh (Nominal), thang đo thứ bậc (Ordinal) và thang đo khoảng hoặc tỷ lệ (Scale). Việc lựa chọn đúng loại thang đo có ý nghĩa quan trọng, vì nó ảnh hưởng trực tiếp đến các phương pháp phân tích thống kê có thể áp dụng trong nghiên cứu.
2. Nhập liệu trong SPSS
Sau khi hoàn tất việc khai báo các biến trong SPSS, người nghiên cứu chuyển sang giao diện Data View để thực hiện quá trình nhập dữ liệu. Nếu Variable View đóng vai trò thiết lập cấu trúc và đặc tính của dữ liệu, thì Data View là nơi ghi nhận các giá trị cụ thể tương ứng với cấu trúc đó.
Trong giao diện Data View, mỗi cột thể hiện một biến nghiên cứu, còn các hàng được đánh số thứ tự 1, 2, 3,… đại diện cho các đơn vị quan sát trong mẫu nghiên cứu. Giá trị được nhập tại từng ô dữ liệu phản ánh câu trả lời của từng đáp viên đối với biến tương ứng.

Dữ liệu thu thập ban đầu từ các bảng hỏi khảo sát giấy hoặc khảo sát trực tuyến thường tồn tại ở dạng thô, chưa thể sử dụng trực tiếp cho phân tích thống kê. Do đó, cần tiến hành chuyển đổi các thông tin này thành các giá trị số hoặc văn bản có cấu trúc phù hợp với yêu cầu phân tích. Quá trình này được gọi là mã hóa và nhập liệu trong SPSS.
Trong nghiên cứu thực nghiệm, bảng hỏi có thể bao gồm nhiều dạng câu hỏi khác nhau, chẳng hạn như câu hỏi định tính một phương án trả lời, câu hỏi định tính nhiều phương án trả lời, câu hỏi định lượng, câu hỏi mở hoặc câu hỏi xếp hạng. Mỗi dạng câu hỏi đòi hỏi cách thức khai báo biến và nhập liệu riêng biệt. Việc thực hiện chính xác các bước này là điều kiện cần thiết để đảm bảo quá trình xử lý và phân tích dữ liệu trên SPSS cho ra kết quả có độ tin cậy và giá trị khoa học.
3. Thực hành khai báo biến và nhập liệu trong SPSS
Nội dung sau trình bày phần thực hành về quy trình khai báo biến và nhập liệu đối với một số dạng câu hỏi thường gặp trong nghiên cứu marketing, sử dụng phần mềm SPSS.
3.1. Khai báo biến trong SPSS cho câu hỏi định tính một lựa chọn
Các câu hỏi thuộc nhóm thông tin cá nhân của người trả lời như giới tính, độ tuổi, trình độ học vấn,… là những ví dụ điển hình của dạng câu hỏi định tính với một phương án trả lời duy nhất.

Trong SPSS, đối với câu hỏi định tính một lựa chọn, mỗi câu hỏi được biểu diễn bằng một biến riêng trong bộ dữ liệu.
Name: Tên biến cần được đặt ngắn gọn, rõ ràng và phản ánh được nội dung đo lường. Chẳng hạn, thay vì sử dụng tên chung chung như Cau_1, nên sử dụng tên GioiTinh để đại diện cho biến đo lường giới tính của đáp viên.
Type: Biến có thể được khai báo dưới dạng Numeric hoặc String. Tuy nhiên, ngoại trừ một số trường hợp đặc thù cần lưu trữ dữ liệu dạng ký tự, việc lựa chọn dạng Numeric thường được khuyến nghị nhằm thuận tiện cho các phân tích và xử lý thống kê.
Label: Nhãn biến nên được thiết lập để mô tả đầy đủ ý nghĩa của biến, giúp các bảng kết quả xuất ra từ SPSS có tính trực quan và dễ hiểu hơn.
Measure: Căn cứ vào bản chất của câu hỏi, mức đo của biến được xác định là Nominal hoặc Ordinal.
Values: Mỗi phương án trả lời được gán với một giá trị số cụ thể. Các giá trị này nên được sắp xếp theo thứ tự tăng dần và liên tục để đảm bảo tính nhất quán trong mã hóa dữ liệu.
Trong quá trình nhập liệu, mỗi hàng trong bảng dữ liệu tương ứng với một đáp viên. Ví dụ, đáp viên thứ nhất có giới tính nam được mã hóa là 1, thuộc nhóm tuổi từ 26 đến 35 được mã hóa là 2, trình độ học vấn đại học được mã hóa là 3, thâm niên công tác từ 3 đến 5 năm được mã hóa là 3 và mức thu nhập từ 15 đến dưới 20 triệu đồng được mã hóa là 3. Khi đó, tại hàng dữ liệu đầu tiên, các giá trị được nhập lần lượt theo các cột tương ứng là 1, 2, 3, 3, 3. Sau khi hoàn tất việc nhập dữ liệu cho toàn bộ câu hỏi của đáp viên thứ nhất, quá trình nhập liệu tiếp tục được thực hiện tương tự cho đáp viên thứ hai và các đáp viên còn lại.

3.2. Khai báo biến trong SPSS cho câu hỏi định lượng một lựa chọn
Câu hỏi định lượng một lựa chọn là dạng câu hỏi mà kết quả thu được dưới hình thức một giá trị số duy nhất. Nhóm câu hỏi này thường dùng để thu thập các thông tin như chiều cao, cân nặng, số lượng thành viên trong hộ gia đình, số khách hàng đã mua sản phẩm,… hoặc các câu hỏi được đo lường bằng thang đo Likert.

Đối với câu hỏi định lượng một lựa chọn, mỗi câu hỏi được mã hóa tương ứng với một biến trong bộ dữ liệu nghiên cứu.
Name: Tên biến cần được đặt ngắn gọn nhưng vẫn phản ánh được nội dung đo lường. Trong trường hợp nội dung câu hỏi quá dài, có thể sử dụng các ký hiệu như Cau_1, Cau_2, Q1, Q2, C1, C2,… và diễn giải chi tiết nội dung biến tại mục Label.
Type: Numeric.
Label: Nên khai báo nhãn biến nhằm nâng cao tính rõ ràng và thẩm mỹ của các bảng kết quả phân tích. Riêng đối với các câu hỏi Likert đóng vai trò là biến quan sát của một thang đo, không cần khai báo Label.
Measure: Scale.
Values: Không thiết lập gán giá trị.
Trong quá trình nhập liệu, mỗi dòng dữ liệu đại diện cho một đối tượng khảo sát. Ví dụ, đáp viên thứ nhất có chiều cao 170 cm, cân nặng 68 kg và số thành viên trong gia đình là 3 người, thì tại dòng thứ nhất sẽ lần lượt nhập các giá trị 170, 68 và 3 tương ứng với các cột biến. Sau khi hoàn tất việc nhập dữ liệu cho toàn bộ câu hỏi của đáp viên thứ nhất, tiếp tục chuyển sang dòng tiếp theo và thực hiện tương tự cho các đáp viên còn lại.

3.3. Khai báo biến trong SPSS cho câu hỏi định tính nhiều lựa chọn
Câu hỏi định tính nhiều lựa chọn là loại câu hỏi cho phép người trả lời lựa chọn đồng thời nhiều phương án. Để làm rõ đặc điểm của dạng câu hỏi này cũng như nguyên tắc mã hóa dữ liệu, có thể xem xét ví dụ sau: Anh/Chị đã từng sử dụng điện thoại của những thương hiệu nào?
-
iPhone 2. Samsung 3. Vsmart
-
4. Oppo 5. Huawei 6. Khác
Trong thực tế nghiên cứu, một đáp viên có thể đã sử dụng nhiều thương hiệu điện thoại khác nhau trong quá trình trải nghiệm, do đó họ có thể chọn nhiều phương án cho cùng một câu hỏi. Trường hợp này được xác định là câu hỏi nhiều lựa chọn. Đối với dạng câu hỏi này, SPSS cho phép áp dụng các phương pháp mã hóa khác nhau, trong đó có hai cách phổ biến.
a. Cách 1
Với mỗi phương án trả lời của câu hỏi, nhà nghiên cứu tạo ra một biến quan sát tương ứng. Cụ thể, trong ví dụ trên có sáu phương án trả lời, do đó cần tạo sáu biến từ Q1.1 đến Q1.6.

Khai báo biến nhập liệu trên phần mềm SPSS được thực hiện như sau:
Name: Tên biến được đặt theo cấu trúc gồm tên biến gốc kết hợp với số thứ tự của phương án trả lời. Trong trường hợp này, câu hỏi gốc có tên là Q1, do đó các biến thành phần lần lượt là Q1.1, Q1.2,…, Q1.6.
Type: Numeric.
Label: Không bắt buộc khai báo nhãn biến tại bước này.
Measure: Nominal.
Values: Gán giá trị cho các phương án trả lời của câu hỏi. Sáu biến được gán cùng một hệ giá trị.

Khi tiến hành nhập liệu, mỗi dòng dữ liệu tương ứng với một đáp viên. Giả sử có năm đáp viên với các lựa chọn như sau:
- Người 1: iPhone, Samsung, Huawei – mã hóa 1, 2, 5
- Người 2: iPhone, Samsung – mã hóa 1, 2
- Người 3: Samsung, Vsmart, Oppo, Huawei – mã hóa 2, 3, 4, 5
- Người 4: Sử dụng cả sáu thương hiệu – mã hóa 1, 2, 3, 4, 5, 6
- Người 5: iPhone – mã hóa 1
Quá trình nhập liệu được thực hiện tương ứng với các lựa chọn của từng đáp viên. Ví dụ, đáp viên thứ nhất sử dụng ba thương hiệu điện thoại, do đó các giá trị 1, 2 và 5 lần lượt được nhập vào các biến Q1.1, Q1.2 và Q1.3, các biến còn lại để trống. Cách nhập liệu này được áp dụng tương tự cho các đáp viên khác.

Sau khi hoàn tất bước mã hóa và nhập liệu, cần tiến hành tạo biến nhiều lựa chọn tổng hợp. Trên giao diện SPSS, chọn Analyze > Multiple Response > Define Variable Sets…

Trong cửa sổ Define Multiple Response Sets, đưa toàn bộ các biến thành phần của câu hỏi nhiều lựa chọn vào mục Variables in Set.

Tiếp theo, chọn Categories và nhập giá trị vào hai ô Range và through. Range biểu thị giá trị mã hóa nhỏ nhất, còn through biểu thị giá trị mã hóa lớn nhất của các phương án trả lời. Trong ví dụ này, các phương án được mã hóa từ 1 đến 6, do đó Range nhập 1 và through nhập 6.
Mục Name dùng để đặt tên cho tập biến nhiều lựa chọn, đây là thông tin bắt buộc. Trong ví dụ, biến được đặt tên là Q1. Mục Label là nhãn mô tả biến, không bắt buộc phải khai báo. Trường hợp cần diễn giải ý nghĩa biến Q1 là “Thương hiệu điện thoại”, nội dung này có thể được nhập tại Label. Do giới hạn số ký tự của nhãn biến, nội dung cần được trình bày ngắn gọn. Trong ví dụ minh họa này, nhãn biến chưa được khai báo và có thể bổ sung sau khi xuất kết quả thống kê. Cuối cùng, nhấn Add để xác nhận việc tạo biến.

Sau khi được tạo, biến nhiều lựa chọn tổng hợp sẽ xuất hiện trong mục Multiple Response Sets và được ký hiệu bằng dấu $ đứng trước tên biến. Đây là biến tạm thời phục vụ cho phân tích, không phải biến gốc nên sẽ không hiển thị trong cửa sổ Variable View của SPSS.

b. Cách 2
Tương tự như cách mã hóa thứ nhất, phương pháp này cũng tạo ra sáu biến quan sát, ký hiệu từ Q1.1 đến Q1.6. Trong đó, mỗi biến được xem như một câu hỏi độc lập, đại diện cho từng phương án trả lời của câu hỏi nhiều lựa chọn ban đầu.
Q1.1: Anh/Chị đã từng sử dụng điện thoại iPhone chưa? Đáp án: Có/Không
Q1.2: Anh/Chị đã từng sử dụng điện thoại Samsung chưa? Đáp án: Có/Không
Q1.3: Anh/Chị đã từng sử dụng điện thoại Vsmart chưa? Đáp án: Có/Không
Q1.4: Anh/Chị đã từng sử dụng điện thoại Oppo chưa? Đáp án: Có/Không
Q1.5: Anh/Chị đã từng sử dụng điện thoại Huawei chưa? Đáp án: Có/Không
Q1.6: Ngoài các thương hiệu nêu trên, Anh/Chị có sử dụng thương hiệu điện thoại khác hay không? Đáp án: Có/Không
Cách khai báo biến và nhập liệu trong SPSS được thực hiện như sau. Kiểu dữ liệu của các biến được khai báo là:

Type: Numeric.
Label: Nhãn biến được sử dụng để mô tả nội dung câu hỏi tương ứng với từng biến.
Measure: Thang đo được xác định là Nominal.
Values: Giá trị của biến được mã hóa theo hệ nhị phân, trong đó 0 biểu thị câu trả lời “Không” và 1 biểu thị câu trả lời “Có”.

Trong quá trình nhập liệu, mỗi dòng dữ liệu tương ứng với một đáp viên, còn mỗi biến đại diện cho một thương hiệu điện thoại cụ thể. Nếu đáp viên đã từng sử dụng thương hiệu đó thì nhập giá trị 1, ngược lại nếu chưa từng sử dụng thì nhập giá trị 0. Xét ví dụ minh họa với năm đáp viên như trong cách mã hóa thứ nhất:
-
Đáp viên 1: iPhone, Samsung, Huawei
-
Đáp viên 2: iPhone, Samsung
-
Đáp viên 3: Samsung, Vsmart, Oppo, Huawei
-
Đáp viên 4: sử dụng cả sáu thương hiệu
-
Đáp viên 5: iPhone
Việc nhập liệu được tiến hành tương ứng với các thông tin trên. Cụ thể, đáp viên thứ nhất sử dụng ba thương hiệu iPhone, Samsung và Huawei nên các biến Q1.1, Q1.2 và Q1.5 được gán giá trị 1, các biến còn lại được gán giá trị 0. Các đáp viên khác được nhập liệu theo nguyên tắc tương tự.

Sau khi hoàn tất bước mã hóa và nhập liệu, tiến hành tạo biến nhiều trả lời tổng hợp trong SPSS. Tại giao diện phần mềm, chọn Analyze > Multiple Response > Define Variable Sets… Khi cửa sổ Define Multiple Response Sets xuất hiện, thực hiện đưa các biến đơn của câu hỏi nhiều trả lời vào mục Variables in Set, tương tự như cách mã hóa thứ nhất.
Tiếp theo, thay vì lựa chọn mục Inh, người dùng chọn mục Dichotomies và nhập giá trị 1 vào ô Counted value. Phần Name và Label được khai báo tương tự như trong cách mã hóa thứ nhất. Cuối cùng, nhấn nút Add để hoàn tất việc tạo biến nhiều trả lời.

Ngoài ba dạng câu hỏi phổ biến đã trình bày, trong nghiên cứu thực tế còn tồn tại nhiều dạng câu hỏi phức tạp hơn như câu hỏi xếp loại, câu hỏi thứ hạng hoặc câu hỏi mở. Việc khai báo biến và nhập liệu cho các dạng câu hỏi này trong SPSS tương đối dài và phức tạp, do đó sẽ được trình bày chi tiết trong các bài viết riêng cho từng loại câu hỏi. Người đọc có thể tham khảo thêm tại các tài liệu liên quan xem tại đây.
