Lý thuyết Bài 14: Các số đặc trưng đo độ phân tán

Tóm tắt lý thuyết

1.1. Khoảng biến thiên và khoảng tứ phân vị

Khoảng biến thiên, kí hiệu R, là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất trong mẫu số liệu.

Ý nghĩa: Khoảng biến thiê dùng để đo độ phân tán của mẫu số liệu: Khoảng biến thiên càng lớn thì mẫu số liệu càng phân tán.

Nhận xét: Sử dụng khoảng biến thiên có ưu điểm là đơn giản, dễ tính toán song khoảng biến thiên chỉ sử dụng thông tin của giá trị lớn nahát và giá trị nhỏ nhất mà bỏ quá thông tin từ các giá trị khác. Do đó, khoảng biến thiên rất dễ bị bị ảnh hưởng bởi các giá trị bất thường. 

Ví dụ: Điểm kiểm tra học kỉ môn Toán của các bạn Tổ 1, Tổ 2 lớp 10A được cho như sau:

Tổ 1:       7       8      8      9      8      8      8.

Tổ 2:      10      6      8      9      9      7      8      7      8.

a) Điểm kiểm tra trung bình của hai tổ có như nhau không?

b) Tính các khoảng biến thiên của hai mẫu số liệu. Căn cứ trên chỉ số này, các bạn tổ nào học đồng đều hơn?

Giải

a) Điểm kiểm tra trung bình của hai tổ đều bằng 8.

b) Đối với Tổ 1: Điểm kiểm tra thấp nhất, cao nhất tương ứng là 7; 9. Do đó khoảng biến thiên là: R1 = 9 – 7 = 2.

Đối với Tổ 2: Điểm kiểm tra thấp nhất, cao nhất tương ứng là 6; 10. Do đó khoảng biến thiên là: R2 = 10 – 6 = 4.

Do R2> R1 nên ta nói các bạn Tổ 1 học đều hơn các bạn Tổ 2.

Khoảng tứ phân vị, kí hiệu là \({\Delta _Q}\), là hiệu số giữa tứ phân vị thứ ba và tứ phân vị thứ nhất, tức là: \({\Delta _Q} = {Q_3} – {Q_1}\)

Ý nghĩa: Khoảng tứ phân vị cũng là một sô đo độ phân tán của mẫu số liệu. Khoảng tứ phân vị càng lớn thì mẫu số liệu càng phân tán.

Chú ý: Một số tài liệu gọi khoảng biến thiên là biên độ và khoảng tứ phân vị là độ trải giữa.

Ví dụ: Mẫu số liệu sau cho biết số ghế trống tại một rạp chiều phim trong 9 ngày:

7         8        22        20        15        18        19        13        11.

Tim khoảng tứ phân vị cho mẫu số liệu này.

Giải

Trước hết, ta sắp xếp mẫu số liệu theo thứ tự không giảm:

7         8         11         13         15         18         19         20         22.

Mẫu số liệu gồm 9 giá trị nên trung vị là số ở vị trí chính giữa Q2 = 15.

Nửa số liệu bên trái là 7, 8, 11, 13 gồm 4 giá trị, hai phần tử chính giữa là 8, 11.

Do đó, Q1 = (8 + 11): 2= 9,5.

Nửa số liệu bên phải là 18, 19, 20, 22 gồm 4 giá trị, hai phản tử chính giữa là 19, 20.

Do đó, Q3 = (19 + 20) : 2= 19,5.

Vậy khoảng tứ phân vị cho mẫu số liệu là \({\Delta _Q}\) = 19,5 – 9,5 = 10. 

1.2. Phương sai và độ lệch chuẩn

Khoảng biến thiên chỉ sử dụng thông tin của giá trị lớn nhất và nhỏ nhất của mẫu số liệu (bỏ qua thông tin của tắt cả các giá tị khác), còn khoảng tứ phân vị chỉ sử dụng thông tin của 50% số liệu chính giữa. Có một vài số đặc trưng khác đo độ phân tán sử dụng thông tin của tất cả các giá trị trong mẫu số liệu. Hai trong số đó là phương sai và độ lệch chuẩn. 

Cụ thể là với mẫu số liệu \({x_1},{x_2},{x_3},…,{x_n}\) nếu gọi số trung bình là \(\overline x \) thì với mỗi giá trị x, độ lệch của nó so với giá trị trung binh là \({x_i} – \overline x \). 

Phương sai là giá trị \({s^2} = \frac{{{{({x_1} – \overline x )}^2} + {{({x_2} – \overline x )}^2} + … + {{({x_n} – \overline x )}^2}}}{n}\).

Căn bậc hai của phương sai \(s = \sqrt {{s^2}} \), được gọi là độ lệch chuẩn

Chú ý: Người ta còn sử dụng đại lượng để đo độ phân tán của mẫu số liệu: \({s^2} = \frac{{{{({x_1} – \bar x)}^2} + {{({x_2} – \bar x)}^2} + … + {{({x_k} – \bar x)}^2}}}{{n – 1}}\) 

Ý nghĩa: Nếu số liệu càng phân tán thì phương sai và độ lẹch chuẩn càng lớn.

Ví dụ: Mẫu số liệu sau đây cho biết sĩ số của 5 lớp khối 10 tại một trường Trung học:

43          45           46           41           40.

Tìm phương sai và độ lệch chuẳn cho mẫu số liệu này.

Giải

Số trung binh của mẫu số lệu là: \(\overline X  = \frac{{43 + 45 + 46 + 41 + 40}}{5} = 43\)

Ta có bảng sau:

Mẫu số liệu gồm 5 giá trị nên n = 5. Do đó phương sai là: \({s^2} = \frac{{26}}{5} = 5,2\)

Độ lệch chuẩn là: \(s = \sqrt {5,2}  \approx 2,28\) 

1.3. Phát hiện số liệu bất thường hoặc không chính xác bằng biểu đồ hộp

Trong mẫu số liệu thống kê, có khi gặp những giá trị quá lớn hoặc quá nhỏ so với đa số các giá trị khác. Những giá trị này được gọi là giá trị bất thường. Chúng xuất hiện trong mẫu số liệu có thể do nhằm lẫn hay sai sót nào đó. Ta có thể dùng biểu đồ hộp để phát hiện những giá tị bắt thường này.

Các giá trị lớn hơn \({Q_3} + 1,5.{\Delta _Q}\) hoặc bé hơn \({Q_3} – 1,5.{\Delta _Q}\) được xem là giá trị bất thường. 

Ví dụ: Hàm lượng Natri (đơn vị mg) trong 100 g một số loại ngũ cốc được cho như sau:

0            340         70          140         200         180         210         150         100         130

140        180         190         160         290         50          220          180         200         210.

Tìm giá trị bất thường trong mẫu số liệu trên bằng cách sử dụng biểu đồ hộp.

Giải

Từ mẫu số liệu ta tính được Q1 = 135 và Q3= 205. Do đó, khoảng tứ phân vị là:

\({\Delta _Q} = 205 – 135 = 70\) 

Biểu đồ hộp cho mẫu số liệu này là:

Ta có \({Q_1} – 1,5.{\Delta _Q}=30\) và \({Q_3} + 1,5.{\Delta _Q}=310\) nên trong mẫu số liệu có hai giá trị được xem là bắt thường là 340 mg (lớn hơn 310 mg) và 0 mg (bé hơn 30 mg). 

Bài tập minh họa

Câu 1: Trong một tuần, nhiệt độ cao nhất trong ngày (đơn vị C) tại hai thành phố Hà Nội và Điện Biên được cho như sau:

Hà Nội:      23 25 28 28 32 33 35.

Điện Biên: 16 24 25 26 26 27 28.

a) Tính các khoảng biến thiên của mỗi mẫu số liệu và so sánh.

b) Em có nhận xét gì về sự ảnh hưởng của giá trị 16 đến khoảng biến thiên của mẫu số liệu về nhiệt độ cao nhất trong ngày tại Điện Biên?

c) Tính các tứ phân vị và hiệu \({Q_3} – {Q_1}\) cho mỗi mẫu số liệu. Có thể dùng hiệu này để đo độ phân tán của mẫu số liệu không?

Hướng dẫn giải

a)

Hà Nội:

Số lớn nhất là 35, số nhỏ nhất là 23

R=35-23=12

Điện Biên:

Số lớn nhất là 28, số nhỏ nhất là 16

R=28-16=12

Khoảng biến thiên về nhiệt độ của Hà Nội và Điện Biên bằng nhau.

b) Số 16 làm cho khoảng biến thiên về nhiệt độ tại Điện Biên lớn hơn.

c)

Hà Nội:      23 25 28 28 32 33 35.

\({Q_2} = 28\)

\({Q_1} = 25\)

\({Q_3} = 33\)

\({Q_3} – {Q_1} = 33 – 25 = 8\)

Điện Biên: 16 24 25 26 26 27 28.

\({Q_2} = 26\)

\({Q_1} = 24\)

\({Q_3} = 27\)

\({Q_3} – {Q_1} = 27 – 24 = 3\)

Có thể dùng hiệu này để đo độ phân tán.

Câu 2: Một mẫu số liệu có tử phân vị thứ nhất là 56 và tứ phân vị thứ ba là 84. Hãy kiểm tra xem trong hai giá trị 10 và 100 giá trị nào được xem là giá trị bất thường.

Hướng dẫn giải

Ta có \({Q_1} = 56;{Q_3} = 84\)

\({\Delta _Q} = {Q_3} – {Q_1} = 84 – 56 = 28\)

\({Q_1} – 1,5{\Delta _Q} = 56 – 1,5.28 = 14\)

\({Q_3} + 1,5.{\Delta _Q} = 84 – 1,5.28 = 126\)

Ta thấy 10<14 nên 10 là giá trị bất thường

14<100<128 nên 100 không là giá trị bất thường.

Post a comment

Leave a Comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *