Hồi quy tuyến tính ghép nối: Phân tích thống kê của mô hình. Các phương pháp thống kê toán học. Phân tích hồi quy

Trong các tác phẩm của ông có từ năm 1908. Ông mô tả nó bằng ví dụ về công việc của một đại lý bán bất động sản. Trong hồ sơ của mình, chuyên gia bán nhà theo dõi rất nhiều dữ liệu đầu vào cho từng tòa nhà cụ thể. Căn cứ vào kết quả đấu giá đã xác định được yếu tố nào có ảnh hưởng lớn nhất đến giá giao dịch.

Phân tích một số lượng lớn các giao dịch mang lại kết quả thú vị. Giá cuối cùng bị ảnh hưởng bởi nhiều yếu tố, đôi khi dẫn đến những kết luận nghịch lý và thậm chí là “ngoại lệ” rõ ràng khi một căn nhà có tiềm năng ban đầu cao được bán với giá giảm.

Ví dụ thứ hai về việc áp dụng phân tích như vậy là công việc được giao nhiệm vụ xác định mức lương của nhân viên. Sự phức tạp của nhiệm vụ nằm ở chỗ nó không yêu cầu phân phối một số tiền cố định cho mọi người mà là sự tương ứng chặt chẽ với công việc cụ thể được thực hiện. Sự xuất hiện của nhiều bài toán có lời giải tương tự trên thực tế đòi hỏi phải nghiên cứu chúng chi tiết hơn ở cấp độ toán học.

Một vị trí quan trọng đã được phân bổ cho phần “phân tích hồi quy”, phần này kết hợp các phương pháp thực tế được sử dụng để nghiên cứu các phụ thuộc thuộc khái niệm hồi quy. Những mối quan hệ này được quan sát giữa dữ liệu thu được từ các nghiên cứu thống kê.

Trong số nhiều nhiệm vụ cần giải quyết, có ba mục tiêu chính: xác định phương trình hồi quy tổng quát; xây dựng ước tính các tham số chưa biết là một phần của phương trình hồi quy; kiểm định các giả thuyết hồi quy thống kê. Trong quá trình nghiên cứu mối quan hệ nảy sinh giữa một cặp đại lượng thu được do quan sát thực nghiệm và tạo thành một chuỗi (tập hợp) loại (x1, y1),..., (xn, yn), người ta dựa vào các quy định của lý thuyết hồi quy và giả định rằng đối với một đại lượng Y có phân bố xác suất nhất định, trong khi đại lượng X khác vẫn cố định.

Kết quả Y phụ thuộc vào giá trị của biến X; sự phụ thuộc này có thể được xác định bằng nhiều mẫu khác nhau, trong khi độ chính xác của kết quả thu được bị ảnh hưởng bởi bản chất của các quan sát và mục đích phân tích. Mô hình thử nghiệm dựa trên những giả định nhất định được đơn giản hóa nhưng hợp lý. Điều kiện chính là tham số X là đại lượng được kiểm soát. Giá trị của nó được đặt trước khi bắt đầu thử nghiệm.

Nếu một cặp biến không được kiểm soát XY được sử dụng trong quá trình thử nghiệm thì phân tích hồi quy được thực hiện theo cách tương tự, nhưng các phương pháp được sử dụng để diễn giải kết quả, trong đó nghiên cứu mối quan hệ của các biến ngẫu nhiên đang nghiên cứu. không phải là một chủ đề trừu tượng Họ tìm thấy ứng dụng trong cuộc sống trong nhiều lĩnh vực hoạt động khác nhau của con người.

Trong tài liệu khoa học, thuật ngữ phân tích hồi quy tuyến tính được sử dụng rộng rãi để định nghĩa phương pháp trên. Đối với biến X, thuật ngữ biến hồi quy hoặc biến dự đoán được sử dụng và các biến Y phụ thuộc còn được gọi là biến tiêu chí. Thuật ngữ này chỉ phản ánh sự phụ thuộc toán học của các biến chứ không phản ánh mối quan hệ nhân quả.

Phân tích hồi quy là phương pháp phổ biến nhất được sử dụng để xử lý kết quả của nhiều quan sát khác nhau. Sự phụ thuộc vật lý và sinh học được nghiên cứu bằng phương pháp này; nó được thực hiện cả về kinh tế và công nghệ. Rất nhiều lĩnh vực khác sử dụng mô hình phân tích hồi quy. Phân tích phương sai và phân tích thống kê đa biến phối hợp chặt chẽ với phương pháp nghiên cứu này.

KẾT LUẬN KẾT QUẢ

Bảng 8.3a. Thống kê hồi quy
Thống kê hồi quy
số nhiều R 0,998364
Quảng trường R 0,99673
Bình phương R chuẩn hóa 0,996321
Lỗi tiêu chuẩn 0,42405
Quan sát 10

Đầu tiên, chúng ta hãy nhìn vào phần trên của phép tính, được trình bày trong bảng 8.3a - thống kê hồi quy.

Giá trị R-square, còn được gọi là thước đo độ chắc chắn, đặc trưng cho chất lượng của đường hồi quy thu được. Chất lượng này được thể hiện bằng mức độ tương ứng giữa dữ liệu nguồn và mô hình hồi quy (dữ liệu tính toán). Thước đo của sự chắc chắn luôn nằm trong khoảng.

Trong hầu hết các trường hợp, giá trị bình phương R nằm giữa các giá trị này, được gọi là giá trị cực trị, tức là. giữa số không và một.

Nếu giá trị R bình phương gần bằng 1, điều này có nghĩa là mô hình được xây dựng giải thích được hầu hết sự biến thiên của các biến liên quan. Ngược lại, giá trị bình phương R gần bằng 0 có nghĩa là chất lượng của mô hình được xây dựng kém.

Trong ví dụ của chúng tôi, thước đo độ chắc chắn là 0,99673, cho thấy đường hồi quy rất phù hợp với dữ liệu gốc.

số nhiều R- hệ số tương quan bội R – biểu thị mức độ phụ thuộc của biến độc lập (X) và biến phụ thuộc (Y).

Nhiều R bằng căn bậc hai của hệ số xác định, đại lượng này lấy các giá trị trong khoảng từ 0 đến một.

Trong phân tích hồi quy tuyến tính đơn giản, bội số R bằng hệ số tương quan Pearson. Thật vậy, bội số R trong trường hợp của chúng tôi bằng hệ số tương quan Pearson từ ví dụ trước (0,998364).

Bảng 8.3b. Hệ số hồi quy
Tỷ lệ cược Lỗi tiêu chuẩn thống kê t
Giao lộ chữ Y 2,694545455 0,33176878 8,121757129
Biến X 1 2,305454545 0,04668634 49,38177965
* Một phiên bản rút gọn của các tính toán được cung cấp

Bây giờ hãy xem xét phần giữa của phép tính được trình bày trong bảng 8.3b. Ở đây cho hệ số hồi quy b (2.305454545) và độ dịch chuyển dọc theo trục tọa độ, tức là. hằng số a (2.694545455).

Dựa trên tính toán, chúng ta có thể viết phương trình hồi quy như sau:

Y= x*2.305454545+2.694545455

Chiều hướng của mối quan hệ giữa các biến được xác định dựa vào dấu (âm hoặc dương) hệ số hồi quy(hệ số b).

Nếu ký hiệu ở hệ số hồi quy- dương thì mối quan hệ giữa biến phụ thuộc và biến độc lập sẽ dương. Trong trường hợp của chúng tôi, dấu của hệ số hồi quy là dương, do đó, mối quan hệ cũng dương.

Nếu ký hiệu ở hệ số hồi quy- âm, mối quan hệ giữa biến phụ thuộc và biến độc lập là âm (nghịch đảo).

Trong bảng 8.3c. Kết quả tính toán phần dư được trình bày. Để các kết quả này xuất hiện trong báo cáo, bạn phải kích hoạt hộp kiểm “Dư lượng” khi chạy công cụ “Hồi quy”.

RÚT TIỀN Phần còn lại

Bảng 8.3c. Thức ăn thừa
Quan sát Dự đoán Y Thức ăn thừa Số dư tiêu chuẩn
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Sử dụng phần này của báo cáo, chúng ta có thể thấy độ lệch của từng điểm so với đường hồi quy được xây dựng. Giá trị tuyệt đối lớn nhất

y=f(x), khi mỗi giá trị của biến độc lập x tương ứng với một giá trị cụ thể của đại lượng y, với kết nối hồi quy về cùng một giá trị x có thể tương ứng tùy từng trường hợp với các giá trị khác nhau của đại lượng y. Nếu với mỗi giá trị có n tôi (\displaystyle n_(i)) giá trị y Tôi 1 …y TRONG 1 độ lớn y, thì sự phụ thuộc của trung bình số học y ¯ i = (y i 1 + . . + y i n 1) / n i (\displaystyle (\bar (y))_(i)=(y_(i1)+...+y_(in_(1))) / n_(i)) từ x = x i (\displaystyle x=x_(i)) và là một hồi quy theo nghĩa thống kê của thuật ngữ này.

YouTube bách khoa toàn thư

  • 1 / 5

    Thuật ngữ này trong thống kê lần đầu tiên được sử dụng bởi Francis Galton (1886) liên quan đến việc nghiên cứu sự kế thừa các đặc điểm thể chất của con người. Chiều cao của con người được coi là một trong những đặc điểm; Người ta phát hiện ra rằng, nhìn chung, con trai của những người cha cao, không có gì đáng ngạc nhiên, hóa ra lại cao hơn con trai của những người cha thấp. Điều thú vị hơn là sự thay đổi chiều cao của con trai nhỏ hơn sự thay đổi chiều cao của người cha. Đây là biểu hiện của xu hướng chiều cao trở về mức trung bình của con trai ( sự hồi quy về mức trung bình), tức là “hồi quy”. Thực tế này được chứng minh bằng cách tính chiều cao trung bình của con trai của những người cha có chiều cao là 56 inch, bằng cách tính chiều cao trung bình của con trai của những người cha cao 58 inch, v.v. Kết quả sau đó được vẽ trên một mặt phẳng, dọc theo trục tọa độ. trục trong đó vẽ chiều cao trung bình của các con trai. , và trên trục x - các giá trị chiều cao trung bình của các ông bố. Các điểm (xấp xỉ) nằm trên một đường thẳng có góc nghiêng dương nhỏ hơn 45°; điều quan trọng là hồi quy là tuyến tính.

    Sự miêu tả

    Giả sử chúng ta có một mẫu từ phân phối hai biến của một cặp biến ngẫu nhiên ( X, Y). Đường thẳng trong mặt phẳng ( x, y) là một dạng tương tự có chọn lọc của hàm

    g(x) = E(Y ∣ X = x) . (\displaystyle g(x)=E(Y\mid X=x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac ( \sigma _(2))(\sigma _(1)))(x-\mu _(1)),) v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . (\displaystyle \mathrm (var) (Y\mid X=x)=\sigma _(2)^(2)(1-\varrho ^(2)).)

    Trong ví dụ này, hồi quy Y TRÊN X là một hàm tuyến tính. Nếu hồi quy Y TRÊN X khác với tuyến tính thì các phương trình đã cho là xấp xỉ tuyến tính của phương trình hồi quy thực.

    Nói chung, hồi quy của một biến ngẫu nhiên trên một biến ngẫu nhiên khác không nhất thiết phải tuyến tính. Cũng không cần thiết phải giới hạn bản thân ở một vài biến ngẫu nhiên. Các vấn đề hồi quy thống kê liên quan đến việc xác định dạng tổng quát của phương trình hồi quy, xây dựng ước tính của các tham số chưa biết có trong phương trình hồi quy và kiểm tra các giả thuyết thống kê về hồi quy. Những vấn đề này được giải quyết trong khuôn khổ phân tích hồi quy.

    Một ví dụ đơn giản về hồi quy Y Qua X là mối quan hệ giữa YX, được thể hiện bằng quan hệ: Y=bạn(X)+ε, ở đâu bạn(x)=E(Y | X=x) và các biến ngẫu nhiên X và ε độc lập. Biểu diễn này rất hữu ích khi thiết kế một thí nghiệm để nghiên cứu kết nối chức năng y=bạn(x) giữa các đại lượng không ngẫu nhiên yx. Trong thực tế, thông thường các hệ số hồi quy trong biểu thức. y=bạn(x) chưa biết và được ước tính từ dữ liệu thực nghiệm.

    Hồi quy tuyến tính

    Hãy tưởng tượng sự phụ thuộc y từ x dưới dạng mô hình tuyến tính bậc nhất:

    y = β 0 + β 1 x + ε . (\displaystyle y=\beta _(0)+\beta _(1)x+\varepsilon .)

    Chúng ta sẽ giả định rằng các giá trị xđược xác định không có sai số, β 0 và β 1 là các tham số của mô hình, và ε là sai số, phân bố của chúng tuân theo quy luật chuẩn tắc với giá trị trung bình bằng 0 và độ lệch không đổi σ 2. Các giá trị của tham số β không được biết trước và phải được xác định từ tập hợp các giá trị thử nghiệm ( x tôi, y tôi), Tôi=1, …, N. Vì vậy chúng ta có thể viết:

    y i ^ = b 0 + b 1 x i , i = 1 , … , n (\displaystyle (\widehat (y_(i)))=b_(0)+b_(1)x_(i),i=1,\ dấu chấm, n)

    ở đâu có nghĩa là giá trị được dự đoán bởi mô hình yđược cho x, b 0 và b 1 - ước lượng mẫu của các tham số mô hình. Chúng ta cũng hãy định nghĩa e i = y i − y i ^ (\displaystyle e_(i)=y_(i)-(\widehat (y_(i))))- giá trị lỗi gần đúng cho tôi (\displaystyle i) quan sát thứ.

    Phương pháp bình phương tối thiểu đưa ra các công thức sau để tính toán các tham số của một mô hình nhất định và độ lệch của chúng:

    b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; (\displaystyle b_(1)=(\frac (\sum _(i=1)^(n)(x_(i)-(\bar (x)))(y_(i)-(\bar (y) )))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))=(\frac (\mathrm (cov) (x,y ))(\sigma _(x)^(2)));) b 0 = y ¯ − b 1 x ¯ ; (\displaystyle b_(0)=(\bar (y))-b_(1)(\bar (x));) s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; (\displaystyle s_(e)^(2)=(\frac (\sum _(i=1)^(n)(y_(i)-(\widehat (y)))^(2))(n- 2));) s b 0 = se 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(b_(0))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((\bar (x))^(2))(\sum _ (i=1)^(n)(x_(i)-(\bar (x)))^(2)))));) s b 1 = s e 1 ∑ i = 1 n (x i − x ¯) 2 , (\displaystyle s_(b_(1))=s_(e)(\sqrt (\frac (1)(\sum _(i=1 )^(n)(x_(i)-(\bar (x)))^(2)))),)

    ở đây các giá trị trung bình được xác định như thường lệ: x ¯ = ∑ i = 1 n x i n (\displaystyle (\bar (x))=(\frac (\sum _(i=1)^(n)x_(i))(n))), y ¯ = ∑ i = 1 n y i n (\displaystyle (\bar (y))=(\frac (\sum _(i=1)^(n)y_(i))(n)))s e 2 biểu thị phần dư hồi quy, là ước tính của phương sai σ 2 nếu mô hình đúng.

    Sai số chuẩn của hệ số hồi quy được sử dụng tương tự như sai số chuẩn của giá trị trung bình - để tìm khoảng tin cậy và kiểm định giả thuyết. Ví dụ: chúng tôi sử dụng bài kiểm tra của Sinh viên để kiểm tra giả thuyết rằng hệ số hồi quy bằng 0, nghĩa là nó không có ý nghĩa đối với mô hình. Thống kê học sinh: t = b / s b (\displaystyle t=b/s_(b)). Nếu xác suất cho giá trị thu được và N−2 bậc tự do là khá nhỏ, ví dụ:<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\displaystyle b_(1))- có lý do để suy nghĩ về sự tồn tại của hồi quy mong muốn, ít nhất là ở dạng này, hoặc về việc thu thập các quan sát bổ sung. Nếu thời hạn miễn phí bằng 0 b 0 (\displaystyle b_(0)), khi đó đường thẳng đi qua gốc tọa độ và ước lượng hệ số góc bằng

    b = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 (\displaystyle b=(\frac (\sum _(i=1)^(n)x_(i)y_(i))(\sum _(i= 1)^(n)x_(i)^(2)))),

    và sai số chuẩn của nó

    s b = se 1 ∑ i = 1 n x i 2 . (\displaystyle s_(b)=s_(e)(\sqrt (\frac (1)(\sum _(i=1)^(n)x_(i)^(2)))).)

    Thông thường giá trị thực của các hệ số hồi quy β 0 và β 1 không được biết. Chỉ ước tính của họ được biết b 0 và b 1 . Nói cách khác, đường hồi quy thực sự có thể hoạt động khác với đường hồi quy được xây dựng từ dữ liệu mẫu. Bạn có thể tính toán vùng tin cậy cho đường hồi quy. Đối với bất kỳ giá trị x giá trị tương ứng y phân phối chuẩn. Giá trị trung bình là giá trị của phương trình hồi quy y ^ (\displaystyle (\widehat (y))). Độ không đảm bảo của ước tính của nó được đặc trưng bởi sai số hồi quy tiêu chuẩn:

    s y ^ = se 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(\widehat (y))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((x-(\bar (x)))^(2) )(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))));)

    Bây giờ bạn có thể tính khoảng tin cậy -percentage cho giá trị của phương trình hồi quy tại điểm x:

    y ^ − t (1 − α / 2 , n − 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    Ở đâu t(1−α/2, N−2) - t-giá trị của phân phối Sinh viên. Hình này cho thấy một đường hồi quy được xây dựng bằng cách sử dụng 10 điểm (các chấm liền), cũng như vùng tin cậy 95% của đường hồi quy, được giới hạn bởi các đường chấm. Với xác suất 95%, chúng ta có thể nói rằng đường đúng nằm ở đâu đó bên trong khu vực này. Hoặc nói cách khác, nếu chúng ta thu thập các tập dữ liệu tương tự (được biểu thị bằng các vòng tròn) và xây dựng các đường hồi quy trên chúng (được biểu thị bằng màu xanh lam), thì 95 trường hợp trong số 100 trường hợp các đường thẳng này sẽ không rời khỏi vùng tin cậy. (Click vào hình để xem) Xin lưu ý rằng một số điểm nằm ngoài vùng tin cậy. Điều này là hoàn toàn tự nhiên, vì chúng ta đang nói về vùng tin cậy của đường hồi quy chứ không phải bản thân các giá trị. Sự phân tán các giá trị bao gồm sự phân tán các giá trị xung quanh đường hồi quy và sự không chắc chắn về vị trí của chính đường này, cụ thể là:

    s Y = se 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(Y)=s_(e)(\sqrt ((\frac (1)(m))+(\frac (1)(n))+(\frac ((x-(\bar (x )))^(2))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))));)

    Đây tôi- tần số đo yđược cho x. VÀ 100 ⋅ (1 − α 2) (\displaystyle 100\cdot \left(1-(\frac (\alpha )(2))\right))-khoảng tin cậy phần trăm (khoảng dự báo) cho mức trung bình của tôi giá trị y sẽ:

    y ^ − t (1 − α / 2 , n − 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    Trong hình, vùng tin cậy 95% này tại tôi=1 bị giới hạn bởi các đường liền nét. 95% tất cả các giá trị có thể có của đại lượng rơi vào khu vực này y trong khoảng giá trị nghiên cứu x.

    Một số thống kê thêm

    Có thể chứng minh chặt chẽ rằng nếu kỳ vọng có điều kiện E (Y ∣ X = x) (\displaystyle E(Y\mid X=x)) một số biến ngẫu nhiên hai chiều ( X, Y) là hàm tuyến tính của x (\displaystyle x), thì kỳ vọng có điều kiện này nhất thiết phải được biểu diễn dưới dạng E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac (\ sigma _(2))(\sigma _(1)))(x-\mu _(1))), Ở đâu E(X)=μ 1 , E(Y)=μ 2 , var( X)=σ 1 2 , var( Y)=σ 2 2 , cor( X, Y)=ρ.

    Hơn nữa, đối với mô hình tuyến tính đã đề cập trước đó Y = β 0 + β 1 X + ε (\displaystyle Y=\beta _(0)+\beta _(1)X+\varepsilon ), Ở đâu X (\displaystyle X) và là các biến ngẫu nhiên độc lập, và ε (\displaystyle \varepsilon) có kỳ vọng bằng 0 (và phân phối tùy ý), có thể chứng minh rằng E (Y ∣ X = x) = β 0 + β 1 x (\displaystyle E(Y\mid X=x)=\beta _(0)+\beta _(1)x). Sau đó, sử dụng đẳng thức đã nêu trước đó, chúng ta có thể thu được các công thức cho và: β 1 = ϱ σ 2 σ 1 (\displaystyle \beta _(1)=\varrho (\frac (\sigma _(2))(\sigma _(1)))),

    β 0 = μ 2 − β 1 μ 1 (\displaystyle \beta _(0)=\mu _(2)-\beta _(1)\mu _(1)).

    Nếu từ đâu đó người ta biết trước rằng một tập hợp các điểm ngẫu nhiên trên mặt phẳng được tạo ra bởi mô hình tuyến tính nhưng có hệ số chưa xác định β 0 (\displaystyle \beta _(0))β 1 (\displaystyle \beta _(1)), bạn có thể thu được ước tính điểm của các hệ số này bằng cách sử dụng các công thức đã chỉ định. Để làm được điều này, thay vì kỳ vọng toán học, phương sai và mối tương quan của các biến ngẫu nhiên, các công thức này XY chúng ta cần thay thế những ước tính khách quan của họ. Các công thức ước lượng thu được sẽ trùng khớp hoàn toàn với các công thức được suy ra dựa trên phương pháp bình phương tối thiểu.

    Trong mô hình thống kê, phân tích hồi quy là một nghiên cứu được sử dụng để đánh giá mối quan hệ giữa các biến. Phương pháp toán học này bao gồm nhiều phương pháp khác để lập mô hình và phân tích nhiều biến, trong đó trọng tâm là mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Cụ thể hơn, phân tích hồi quy giúp chúng ta hiểu giá trị điển hình của biến phụ thuộc thay đổi như thế nào nếu một trong các biến độc lập thay đổi trong khi các biến độc lập khác vẫn cố định.

    Trong mọi trường hợp, ước tính mục tiêu là hàm của các biến độc lập và được gọi là hàm hồi quy. Trong phân tích hồi quy, điều quan tâm là mô tả sự thay đổi của biến phụ thuộc như một hàm hồi quy, có thể được mô tả bằng cách sử dụng phân bố xác suất.

    Vấn đề phân tích hồi quy

    Phương pháp nghiên cứu thống kê này được sử dụng rộng rãi để dự báo, trong đó việc sử dụng nó có lợi thế đáng kể, nhưng đôi khi nó có thể dẫn đến ảo tưởng hoặc các mối quan hệ sai lầm, vì vậy nên sử dụng nó một cách cẩn thận trong vấn đề nói trên, vì chẳng hạn như tương quan không có nghĩa là nhân quả.

    Một số lượng lớn các phương pháp đã được phát triển để phân tích hồi quy, chẳng hạn như hồi quy bình phương tối thiểu tuyến tính và bình phương nhỏ nhất thông thường, là phương pháp tham số. Bản chất của chúng là hàm hồi quy được xác định theo số lượng hữu hạn các tham số chưa biết được ước tính từ dữ liệu. Hồi quy không tham số cho phép hàm của nó nằm trong một tập hợp hàm cụ thể, có thể là vô hạn chiều.

    Là một phương pháp nghiên cứu thống kê, phân tích hồi quy trong thực tế phụ thuộc vào hình thức của quá trình tạo dữ liệu và mối liên hệ của nó với phương pháp hồi quy. Vì dạng thực của quá trình tạo dữ liệu thường là một số không xác định nên việc phân tích hồi quy dữ liệu thường phụ thuộc ở một mức độ nào đó vào các giả định về quy trình. Những giả định này đôi khi có thể kiểm chứng được nếu có đủ dữ liệu. Các mô hình hồi quy thường hữu ích ngay cả khi các giả định bị vi phạm ở mức độ vừa phải, mặc dù chúng có thể không hoạt động ở hiệu suất cao nhất.

    Theo nghĩa hẹp hơn, hồi quy có thể đề cập cụ thể đến việc ước tính các biến phản hồi liên tục, trái ngược với các biến phản hồi rời rạc được sử dụng trong phân loại. Trường hợp biến đầu ra liên tục còn được gọi là hồi quy số liệu để phân biệt với các vấn đề liên quan.

    Câu chuyện

    Hình thức hồi quy sớm nhất là phương pháp bình phương tối thiểu nổi tiếng. Nó được Legendre công bố năm 1805 và Gauss năm 1809. Legendre và Gauss đã áp dụng phương pháp này cho bài toán xác định từ quan sát thiên văn quỹ đạo của các vật thể quay quanh Mặt trời (chủ yếu là sao chổi, nhưng sau này cũng có các hành tinh nhỏ mới được phát hiện). Gauss công bố sự phát triển tiếp theo của lý thuyết bình phương tối thiểu vào năm 1821, bao gồm một phiên bản của định lý Gauss–Markov.

    Thuật ngữ “hồi quy” được Francis Galton đặt ra vào thế kỷ 19 để mô tả một hiện tượng sinh học. Ý tưởng là chiều cao của con cháu so với tổ tiên của họ có xu hướng giảm xuống mức trung bình bình thường. Đối với Galton, hồi quy chỉ có ý nghĩa sinh học này, nhưng sau đó công trình của ông được Udney Yoley và Karl Pearson tiếp tục và đưa vào bối cảnh thống kê tổng quát hơn. Trong nghiên cứu của Yule và Pearson, sự phân phối chung của các biến phản ứng và giải thích được giả định là Gaussian. Giả định này đã bị Fischer bác bỏ trong các bài báo năm 1922 và 1925. Fisher gợi ý rằng phân phối có điều kiện của biến phản hồi là Gaussian, nhưng phân phối chung thì không nhất thiết phải như vậy. Về mặt này, đề xuất của Fischer gần với công thức của Gauss năm 1821 hơn. Trước năm 1970, đôi khi phải mất tới 24 giờ mới có được kết quả phân tích hồi quy.

    Phương pháp phân tích hồi quy tiếp tục là một lĩnh vực nghiên cứu tích cực. Trong những thập kỷ gần đây, các phương pháp mới đã được phát triển để hồi quy mạnh mẽ; hồi quy liên quan đến các phản ứng tương quan; phương pháp hồi quy phù hợp với các loại dữ liệu bị thiếu khác nhau; hồi quy không tham số; phương pháp hồi quy Bayes; hồi quy trong đó các biến dự đoán được đo lường có sai số; hồi quy với nhiều yếu tố dự đoán hơn là quan sát và suy luận nguyên nhân và kết quả với hồi quy.

    Mô hình hồi quy

    Mô hình phân tích hồi quy bao gồm các biến sau:

    • Tham số không xác định, beta được chỉ định, có thể là vô hướng hoặc vectơ.
    • Các biến độc lập, X.
    • Các biến phụ thuộc, Y.

    Các lĩnh vực khoa học khác nhau sử dụng phân tích hồi quy, sử dụng các thuật ngữ khác nhau thay cho các biến phụ thuộc và độc lập, nhưng trong mọi trường hợp, mô hình hồi quy liên hệ Y với hàm của X và β.

    Phép tính gần đúng thường được viết là E(Y | X) = F(X, β). Để thực hiện phân tích hồi quy, loại hàm f phải được xác định. Ít phổ biến hơn, nó dựa trên kiến ​​thức về mối quan hệ giữa Y và X, không dựa vào dữ liệu. Nếu kiến ​​thức đó không có thì chọn hình thức F linh hoạt hoặc thuận tiện.

    Biến phụ thuộc Y

    Bây giờ chúng ta giả sử rằng vectơ có tham số chưa biết β có độ dài k. Để thực hiện phân tích hồi quy, người dùng phải cung cấp thông tin về biến phụ thuộc Y:

    • Nếu N điểm dữ liệu có dạng (Y, X) được quan sát, trong đó N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
    • Nếu quan sát chính xác N = K và hàm F là tuyến tính thì phương trình Y = F(X, β) có thể được giải một cách chính xác thay vì xấp xỉ. Điều này tương đương với việc giải một tập hợp các phương trình N với N-ẩn số (các phần tử β) có nghiệm duy nhất miễn là X độc lập tuyến tính. Nếu F phi tuyến thì có thể không có nghiệm hoặc có thể tồn tại nhiều nghiệm.
    • Tình huống phổ biến nhất là khi quan sát thấy N > điểm dữ liệu. Trong trường hợp này, có đủ thông tin trong dữ liệu để ước tính một giá trị duy nhất cho β phù hợp nhất với dữ liệu và mô hình hồi quy trong đó ứng dụng vào dữ liệu có thể được xem như một hệ thống được xác định quá mức trong β.

    Trong trường hợp sau, phân tích hồi quy cung cấp các công cụ để:

    • Tìm nghiệm cho các tham số chưa biết β, ví dụ, sẽ giảm thiểu khoảng cách giữa giá trị đo được và giá trị dự đoán của Y.
    • Theo các giả định thống kê nhất định, phân tích hồi quy sử dụng thông tin dư thừa để cung cấp thông tin thống kê về các tham số chưa biết β và các giá trị dự đoán của biến phụ thuộc Y.

    Số lượng phép đo độc lập cần thiết

    Hãy xem xét một mô hình hồi quy có ba tham số chưa biết: β 0 , β 1 và β 2 . Giả sử người thí nghiệm thực hiện 10 phép đo trên cùng một giá trị của vectơ biến độc lập X. Trong trường hợp này, phân tích hồi quy không tạo ra một tập giá trị duy nhất. Điều tốt nhất bạn có thể làm là ước tính giá trị trung bình và độ lệch chuẩn của biến phụ thuộc Y. Tương tự, bằng cách đo hai giá trị khác nhau của X, bạn có thể thu được đủ dữ liệu để hồi quy với hai ẩn số, nhưng không phải với ba ẩn số trở lên.

    Nếu phép đo của người thí nghiệm được thực hiện ở ba giá trị khác nhau của vectơ biến độc lập X, thì phân tích hồi quy sẽ cung cấp một bộ ước tính duy nhất cho ba tham số chưa biết trong β.

    Trong trường hợp hồi quy tuyến tính tổng quát, phát biểu trên tương đương với yêu cầu ma trận X T X khả nghịch.

    Giả định thống kê

    Khi số lượng phép đo N lớn hơn số lượng tham số k chưa biết và sai số đo ε i, thì theo quy luật, thông tin dư thừa có trong các phép đo sẽ được phổ biến và sử dụng để dự đoán thống kê về các tham số chưa biết. Thông tin dư thừa này được gọi là mức độ tự do hồi quy.

    Giả định cơ bản

    Các giả định cổ điển cho phân tích hồi quy bao gồm:

    • Lấy mẫu là đại diện của dự đoán suy luận.
    • Sai số là một biến ngẫu nhiên có giá trị trung bình bằng 0, phụ thuộc vào các biến giải thích.
    • Các biến độc lập được đo lường không có sai sót.
    • Là các biến độc lập (các yếu tố dự đoán), chúng độc lập tuyến tính, nghĩa là không thể biểu thị bất kỳ yếu tố dự đoán nào dưới dạng kết hợp tuyến tính của các yếu tố khác.
    • Các sai số không tương quan, tức là ma trận hiệp phương sai sai số của các đường chéo và mỗi phần tử khác 0 chính là phương sai sai số.
    • Phương sai sai số là không đổi qua các quan sát (tính đồng nhất). Nếu không, có thể sử dụng bình phương tối thiểu có trọng số hoặc các phương pháp khác.

    Các điều kiện đủ để ước lượng bình phương tối thiểu này có các thuộc tính cần thiết, cụ thể là các giả định này có nghĩa là ước tính tham số sẽ khách quan, nhất quán và hiệu quả, đặc biệt khi được tính đến trong lớp các công cụ ước lượng tuyến tính. Điều quan trọng cần lưu ý là bằng chứng hiếm khi thỏa mãn các điều kiện. Nghĩa là, phương pháp này được sử dụng ngay cả khi các giả định không đúng. Sự khác biệt so với các giả định đôi khi có thể được sử dụng làm thước đo mức độ hữu ích của mô hình. Nhiều giả định trong số này có thể được nới lỏng bằng các phương pháp tiên tiến hơn. Báo cáo phân tích thống kê thường bao gồm phân tích các thử nghiệm trên dữ liệu mẫu và phương pháp luận về tính hữu ích của mô hình.

    Ngoài ra, các biến trong một số trường hợp đề cập đến các giá trị được đo tại các vị trí điểm. Có thể có các xu hướng không gian và sự tự tương quan về mặt không gian trong các biến vi phạm các giả định thống kê. Hồi quy trọng số địa lý là phương pháp duy nhất xử lý dữ liệu đó.

    Một đặc điểm của hồi quy tuyến tính là biến phụ thuộc, tức là Yi, là sự kết hợp tuyến tính của các tham số. Ví dụ, hồi quy tuyến tính đơn giản sử dụng một biến độc lập, x i và hai tham số β 0 và β 1 để mô hình hóa n điểm.

    Trong hồi quy tuyến tính bội, có nhiều biến hoặc hàm độc lập của chúng.

    Khi một mẫu ngẫu nhiên được lấy từ dân số, các tham số của nó cho phép người ta thu được mô hình hồi quy tuyến tính mẫu.

    Ở khía cạnh này, phổ biến nhất là phương pháp bình phương tối thiểu. Nó được sử dụng để thu được các ước tính tham số nhằm giảm thiểu tổng số dư bình phương. Kiểu giảm thiểu này (điển hình của hồi quy tuyến tính) của hàm này dẫn đến một tập hợp các phương trình thông thường và một tập hợp các phương trình tuyến tính với các tham số, được giải để thu được ước tính tham số.

    Với giả định thêm rằng sai số tổng thể được lan truyền rộng rãi, nhà nghiên cứu có thể sử dụng các ước tính sai số chuẩn này để tạo khoảng tin cậy và tiến hành kiểm tra giả thuyết về các tham số của nó.

    Phân tích hồi quy phi tuyến

    Một ví dụ trong đó hàm không tuyến tính đối với các tham số chỉ ra rằng tổng bình phương phải được giảm thiểu bằng cách sử dụng quy trình lặp. Điều này đưa ra nhiều sự phức tạp xác định sự khác biệt giữa phương pháp bình phương tối thiểu tuyến tính và phi tuyến. Do đó, kết quả phân tích hồi quy khi sử dụng phương pháp phi tuyến đôi khi không thể đoán trước được.

    Tính toán công suất và cỡ mẫu

    Nhìn chung không có phương pháp nhất quán nào liên quan đến số lượng quan sát so với số lượng biến độc lập trong mô hình. Quy tắc đầu tiên được Dobra và Hardin đề xuất và có dạng N = t^n, trong đó N là cỡ mẫu, n là số lượng biến độc lập và t là số lượng quan sát cần thiết để đạt được độ chính xác mong muốn nếu mô hình có chỉ có một biến độc lập. Ví dụ: một nhà nghiên cứu xây dựng mô hình hồi quy tuyến tính bằng cách sử dụng bộ dữ liệu chứa 1000 bệnh nhân (N). Nếu nhà nghiên cứu quyết định rằng cần có 5 quan sát để xác định chính xác đường (m), thì số lượng biến độc lập tối đa mà mô hình có thể hỗ trợ là 4.

    Các phương pháp khác

    Mặc dù các tham số của mô hình hồi quy thường được ước tính bằng phương pháp bình phương tối thiểu, nhưng có những phương pháp khác được sử dụng ít thường xuyên hơn. Ví dụ: đây là các phương pháp sau:

    • Phương pháp Bayesian (ví dụ, hồi quy tuyến tính Bayesian).
    • Hồi quy phần trăm, được sử dụng cho các tình huống trong đó việc giảm lỗi phần trăm được coi là phù hợp hơn.
    • Độ lệch tuyệt đối nhỏ nhất, mạnh hơn khi có các giá trị ngoại lệ dẫn đến hồi quy lượng tử.
    • Hồi quy không tham số, đòi hỏi số lượng lớn các quan sát và tính toán.
    • Một thước đo học từ xa được học để tìm một thước đo khoảng cách có ý nghĩa trong một không gian đầu vào nhất định.

    Phần mềm

    Tất cả các gói phần mềm thống kê chính đều thực hiện phân tích hồi quy bình phương nhỏ nhất. Hồi quy tuyến tính đơn giản và phân tích hồi quy bội có thể được sử dụng trong một số ứng dụng bảng tính cũng như một số máy tính. Mặc dù nhiều gói phần mềm thống kê có thể thực hiện nhiều loại hồi quy mạnh mẽ và phi tham số khác nhau, những phương pháp này ít được tiêu chuẩn hóa hơn; các gói phần mềm khác nhau thực hiện các phương pháp khác nhau. Phần mềm hồi quy chuyên dụng đã được phát triển để sử dụng trong các lĩnh vực như phân tích kiểm tra và hình ảnh thần kinh.

    Mục đích chính của phân tích hồi quy bao gồm việc xác định hình thức phân tích của giao tiếp trong đó sự thay đổi trong đặc tính hiệu quả là do ảnh hưởng của một hoặc nhiều đặc điểm yếu tố và tập hợp tất cả các yếu tố khác cũng ảnh hưởng đến đặc tính hiệu quả được lấy làm giá trị không đổi và trung bình.
    Vấn đề phân tích hồi quy:
    a) Xác lập hình thức phụ thuộc. Về bản chất và hình thức của mối quan hệ giữa các hiện tượng, có sự phân biệt giữa hồi quy tuyến tính dương và phi tuyến và hồi quy tuyến tính và phi tuyến âm.
    b) Xác định hàm hồi quy dưới dạng phương trình toán học loại này hay loại khác và xác lập mức độ ảnh hưởng của các biến giải thích đến biến phụ thuộc.
    c) Ước lượng các giá trị chưa biết của biến phụ thuộc. Sử dụng hàm hồi quy, bạn có thể tái tạo các giá trị của biến phụ thuộc trong khoảng giá trị được chỉ định của các biến giải thích (tức là giải quyết vấn đề nội suy) hoặc đánh giá quá trình của quá trình nằm ngoài khoảng đã chỉ định (tức là, giải bài toán ngoại suy). Kết quả là ước tính giá trị của biến phụ thuộc.

    Hồi quy cặp là phương trình biểu diễn mối quan hệ giữa hai biến y và x: , trong đó y là biến phụ thuộc (thuộc tính kết quả); x là một biến giải thích độc lập (hệ số tính năng).

    Có hồi quy tuyến tính và phi tuyến tính.
    Hồi quy tuyến tính: y = a + bx + ε
    Hồi quy phi tuyến được chia thành hai loại: hồi quy phi tuyến đối với các biến giải thích có trong phân tích, nhưng tuyến tính đối với các tham số ước tính và hồi quy phi tuyến đối với các tham số ước tính.
    Các hồi quy phi tuyến tính trong các biến giải thích:

    Các hồi quy phi tuyến tính đối với các tham số ước tính: Việc xây dựng phương trình hồi quy bắt nguồn từ việc ước tính các tham số của nó. Để ước lượng các tham số của hồi quy tuyến tính theo tham số, phương pháp bình phương tối thiểu (OLS) được sử dụng. Phương pháp bình phương tối thiểu cho phép thu được các ước tính tham số như vậy tại đó tổng độ lệch bình phương của các giá trị thực tế của đặc tính tổng hợp y so với các giá trị lý thuyết là tối thiểu, tức là.
    .
    Đối với các phương trình tuyến tính và phi tuyến có thể rút gọn về phương trình tuyến tính, hệ sau được giải cho a và b:

    Bạn có thể sử dụng các công thức làm sẵn theo hệ thống này:

    Mức độ chặt chẽ của mối liên hệ giữa các hiện tượng đang nghiên cứu được đánh giá bằng hệ số tuyến tính tương quan cặp đối với hồi quy tuyến tính:

    và chỉ số tương quan - đối với hồi quy phi tuyến:

    Chất lượng của mô hình được xây dựng sẽ được đánh giá bằng hệ số (chỉ số) xác định cũng như sai số trung bình của phép tính gần đúng.
    Sai số gần đúng trung bình - độ lệch trung bình của giá trị tính toán so với giá trị thực tế:
    .
    Giới hạn cho phép của các giá trị không quá 8-10%.
    Hệ số co giãn trung bình biểu thị bằng bao nhiêu phần trăm mà kết quả y sẽ thay đổi so với giá trị trung bình khi hệ số x thay đổi 1% so với giá trị trung bình của nó:
    .

    Mục đích của việc phân tích phương sai là phân tích phương sai của biến phụ thuộc:
    ,
    tổng của các độ lệch bình phương là bao nhiêu;
    - tổng các độ lệch bình phương do hồi quy (“được giải thích” hoặc “giai thừa”);
    - tổng dư của bình phương độ lệch.
    Tỷ lệ phương sai được giải thích bằng hồi quy trong phương sai tổng của đặc tính tổng y y được đặc trưng bởi hệ số (chỉ số) xác định R2:

    Hệ số xác định là bình phương của hệ số hoặc chỉ số tương quan.

    Kiểm định F - đánh giá chất lượng của phương trình hồi quy - bao gồm việc kiểm tra giả thuyết Không về mức độ không đáng kể về mặt thống kê của phương trình hồi quy và chỉ số về mức độ gần gũi của mối quan hệ. Để thực hiện điều này, một so sánh được thực hiện giữa thực tế F thực tế và các giá trị quan trọng trong bảng F (dạng bảng) của tiêu chí Fisher F. Thực tế F được xác định từ tỉ số giữa các giá trị của hệ số và phương sai dư tính theo bậc tự do:
    ,
    trong đó n là số đơn vị dân số; m là số tham số của biến x.
    Bảng F là giá trị lớn nhất có thể có của tiêu chí dưới tác động của các yếu tố ngẫu nhiên ở bậc tự do và mức ý nghĩa a cho trước. Mức ý nghĩa a là xác suất bác bỏ giả thuyết đúng, với điều kiện là nó đúng. Thông thường a được lấy bằng 0,05 hoặc 0,01.
    Nếu bảng F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Thực tế, khi đó giả thuyết H o không bị bác bỏ và sự không có ý nghĩa thống kê cũng như độ tin cậy của phương trình hồi quy được thừa nhận.
    Để đánh giá ý nghĩa thống kê của hồi quy và hệ số tương quan, bài kiểm tra t của Học sinh và khoảng tin cậy cho từng chỉ số sẽ được tính toán. Một giả thuyết được đưa ra về tính chất ngẫu nhiên của các chỉ số, tức là về sự khác biệt không đáng kể của chúng so với số 0. Việc đánh giá tầm quan trọng của hồi quy và hệ số tương quan bằng t-test của Sinh viên được thực hiện bằng cách so sánh giá trị của chúng với độ lớn của sai số ngẫu nhiên:
    ; ; .
    Sai số ngẫu nhiên của các tham số hồi quy tuyến tính và hệ số tương quan được xác định theo công thức:



    So sánh các giá trị thực tế và quan trọng (dạng bảng) của thống kê t - bảng t và t Fact - chúng ta chấp nhận hoặc bác bỏ giả thuyết H o.
    Mối quan hệ giữa Fisher F-test và thống kê t-Student được thể hiện bằng đẳng thức

    Nếu bảng t< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t là thực tế giả thuyết H o không bị bác bỏ và tính chất ngẫu nhiên của sự hình thành a, b or được thừa nhận.
    Để tính khoảng tin cậy, chúng tôi xác định sai số D tối đa cho mỗi chỉ báo:
    , .
    Công thức tính khoảng tin cậy như sau:
    ; ;
    ; ;
    Nếu số 0 nằm trong khoảng tin cậy, tức là Nếu giới hạn dưới là âm và giới hạn trên là dương thì tham số ước tính được lấy bằng 0 vì nó không thể nhận đồng thời cả giá trị dương và âm.
    Giá trị dự báo được xác định bằng cách thay thế giá trị (dự báo) tương ứng vào phương trình hồi quy. Sai số chuẩn trung bình của dự báo được tính:
    ,
    Ở đâu
    và khoảng tin cậy cho dự báo được xây dựng:
    ; ;
    Ở đâu .

    Giải pháp ví dụ

    Nhiệm vụ số 1. Đối với bảy vùng lãnh thổ của vùng Ural vào năm 199X, giá trị của hai đặc điểm đã được biết đến.
    Bảng 1.
    Yêu cầu: 1. Để mô tả sự phụ thuộc của y vào x, hãy tính tham số của các hàm số sau:
    a) tuyến tính;
    b) lũy thừa (trước tiên bạn phải thực hiện quy trình tuyến tính hóa các biến bằng cách lấy logarit của cả hai phần);
    c) mang tính trình diễn;
    d) một hyperbol đều (bạn cũng cần tìm ra cách tuyến tính hóa trước mô hình này).
    2. Đánh giá từng mô hình bằng cách sử dụng sai số gần đúng trung bình và phép kiểm F của Fisher.

    Giải pháp (Phương án số 1)

    Để tính các tham số a và b của hồi quy tuyến tính (có thể thực hiện tính toán bằng máy tính).
    giải hệ phương trình chuẩn tắc cho MỘTb:
    Dựa vào số liệu ban đầu, chúng tôi tính toán :
    y x yx x 2 năm 2 A tôi
    tôi 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
    2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
    3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
    4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
    5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
    6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
    7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
    Tổng cộng 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
    Thứ Tư. nghĩa (Tổng cộng/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
    S 5,74 5,86 X X X X X X
    s 2 32,92 34,34 X X X X X X


    Phương trình hồi quy: y = 76,88 - 0,35X. Với mức tăng lương trung bình hàng ngày thêm 1 chà. tỷ trọng chi phí mua thực phẩm giảm trung bình 0,35 điểm phần trăm.
    Hãy tính hệ số tương quan cặp tuyến tính:

    Kết nối vừa phải, nghịch đảo.
    Hãy xác định hệ số xác định:

    Sự thay đổi 12,7% trong kết quả được giải thích bởi sự thay đổi của hệ số x. Thay thế giá trị thực tế vào phương trình hồi quy X, hãy xác định các giá trị lý thuyết (được tính toán) . Hãy tìm giá trị của sai số gần đúng trung bình:

    Trung bình, giá trị tính toán sai lệch so với thực tế 8,1%.
    Hãy tính tiêu chí F:

    kể từ 1< F < ¥ , cần được xem xét F -1 .
    Giá trị kết quả cho thấy sự cần thiết phải chấp nhận giả thuyết Nhưng ôi tính chất ngẫu nhiên của sự phụ thuộc đã xác định và ý nghĩa thống kê của các tham số của phương trình và chỉ số về mức độ gần gũi của kết nối.
    1b. Việc xây dựng mô hình nguồn được bắt đầu bằng quy trình tuyến tính hóa các biến. Trong ví dụ này, tuyến tính hóa được thực hiện bằng cách lấy logarit của cả hai vế của phương trình:


    Ở đâuY=lg(y), X=lg(x), C=lg(a).

    Để tính toán, chúng tôi sử dụng dữ liệu trong bảng. 1.3.

    Bảng 1.3

    Y X YX Y2 X 2 A tôi
    1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
    2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
    3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
    4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
    5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
    6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
    7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
    Tổng cộng 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
    Giá trị trung bình 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
    σ 0,0425 0,0484 X X X X X X X
    σ 2 0,0018 0,0023 X X X X X X X

    Hãy tính C và b:


    Chúng ta nhận được một phương trình tuyến tính: .
    Sau khi thực hiện thế năng của nó, chúng tôi nhận được:

    Thay thế các giá trị thực tế vào phương trình này X, chúng tôi thu được các giá trị lý thuyết của kết quả. Sử dụng chúng, chúng ta sẽ tính toán các chỉ số: độ chặt của kết nối - chỉ số tương quan và sai số xấp xỉ trung bình

    Các đặc điểm của mô hình định luật lũy thừa chỉ ra rằng nó mô tả mối quan hệ tốt hơn một chút so với hàm tuyến tính.

    1c. Xây dựng phương trình của đường cong hàm mũ

    trước đó là quy trình tuyến tính hóa các biến bằng cách lấy logarit của cả hai vế của phương trình:

    Để tính toán, chúng tôi sử dụng dữ liệu bảng.

    Y x yx Y2 x 2 A tôi
    1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
    2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
    3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
    4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
    5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
    6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
    7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
    Tổng cộng 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
    Thứ Tư. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
    σ 0,0425 5,86 X X X X X X X
    σ 2 0,0018 34,339 X X X X X X X

    Giá trị của tham số hồi quy A và TRONG lên tới:


    Phương trình tuyến tính thu được là: . Chúng ta hãy xác định phương trình kết quả và viết nó ở dạng thông thường:

    Chúng ta sẽ đánh giá mức độ gần gũi của kết nối thông qua chỉ số tương quan: