Phương trình hồi quy bội trong excel. Phân tích kết quả phân tích. Hồi quy tuyến tính trong MS Excel

28 Tháng 10

Chào buổi chiều, độc giả blog thân mến! Hôm nay chúng ta sẽ nói về hồi quy phi tuyến tính. Giải pháp hồi quy tuyến tính có thể được xem tại LINK.

Phương pháp nàyđược sử dụng chủ yếu trong mô hình hóa và dự báo kinh tế. Mục tiêu của nó là quan sát và xác định sự phụ thuộc giữa hai chỉ số.

Các loại hồi quy phi tuyến chính là:

  • đa thức (bậc hai, bậc ba);
  • hyperbol;
  • nghiêm trang;
  • Biểu tình;
  • logarit

Cũng có thể được sử dụng kết hợp khác nhau. Ví dụ: đối với phân tích chuỗi thời gian trong khu vực ngân hàng Các nghiên cứu về nhân khẩu học và bảo hiểm sử dụng đường cong Gompzer, một loại hồi quy logarit.

Khi dự báo bằng phương pháp hồi quy phi tuyến, điều chính là tìm ra hệ số tương quan, hệ số này sẽ cho chúng ta biết liệu có mối quan hệ chặt chẽ giữa hai tham số hay không. Theo quy luật, nếu hệ số tương quan gần bằng 1 thì có sự liên quan và dự báo sẽ khá chính xác. Một yếu tố quan trọng khác của hồi quy phi tuyến là sai số tương đối trung bình ( MỘT ), nếu nó nằm trong khoảng<8…10%, значит модель достаточно точна.

Đây là nơi chúng ta có thể sẽ hoàn thành khối lý thuyết và chuyển sang tính toán thực tế.

Ta có bảng doanh số bán ô tô trong khoảng thời gian 15 năm (ký hiệu là X), số bước đo sẽ là đối số n, ta cũng có doanh thu trong các khoảng thời gian này (ký hiệu là Y), ta cần dự đoán xem doanh thu sẽ có trong tương lai. Hãy xây dựng bảng sau:

Đối với nghiên cứu này, chúng ta sẽ cần giải phương trình (sự phụ thuộc của Y vào X): y=ax 2 +bx+c+e. Đây là một hồi quy bậc hai theo cặp. Trong trường hợp này, chúng ta áp dụng phương pháp bình phương tối thiểu để tìm ra các đối số chưa biết - a, b, c. Nó sẽ dẫn đến một hệ phương trình đại số có dạng:

Để giải hệ này, chẳng hạn, chúng ta sẽ sử dụng phương pháp Cramer. Chúng ta thấy rằng các tổng có trong hệ thống là hệ số của các ẩn số. Để tính toán chúng, chúng ta sẽ thêm một số cột vào bảng (D,E,F,G,H) và ký hiệu theo ý nghĩa của phép tính - trong cột D chúng ta sẽ bình phương x, trong E chúng ta sẽ lập phương nó, trong F ta sẽ nhân số mũ x và y, trong H ta bình phương x và nhân với y.

Bạn sẽ nhận được một bảng chứa đầy những thông tin cần thiết để giải phương trình.

Hãy tạo thành một ma trận MỘT hệ bao gồm các hệ số ẩn ở vế trái của phương trình. Hãy đặt nó vào ô A22 và gọi nó là " A=". Chúng tôi tuân theo hệ phương trình mà chúng tôi đã chọn để giải hồi quy.

Nghĩa là, trong ô B21, chúng ta phải đặt tổng của cột nơi chúng ta đã nâng chỉ báo X lên lũy thừa thứ tư - F17. Chúng ta hãy tham khảo ô - “=F17”. Tiếp theo, chúng ta cần tổng của cột nơi X được lập phương - E17, sau đó chúng ta thực hiện đúng theo hệ thống. Vì vậy, chúng ta sẽ cần điền vào toàn bộ ma trận.

Theo thuật toán của Cramer, chúng ta sẽ gõ ma trận A1, tương tự như A, trong đó thay vì các phần tử của cột đầu tiên, nên đặt các phần tử thuộc vế phải của hệ phương trình. Tức là tổng bình phương của cột X nhân với Y, tổng của cột XY và tổng của cột Y.

Chúng ta cũng sẽ cần thêm hai ma trận nữa - hãy gọi chúng là A2 và A3 trong đó cột thứ hai và thứ ba sẽ bao gồm các hệ số ở vế phải của phương trình. Hình ảnh sẽ như thế này.

Theo thuật toán đã chọn, chúng ta sẽ cần tính giá trị của các định thức (định thức, D) của ma trận thu được. Hãy sử dụng công thức MOPRED. Chúng tôi sẽ đặt kết quả vào các ô J21:K24.

Ta sẽ tính các hệ số của phương trình theo Cramer trong các ô đối diện với định thức tương ứng bằng công thức: Một(trong ô M22) - “=K22/K21”; b(trong ô M23) - “=K23/K21”; Với(trong ô M24) - “=K24/K21”.

Chúng ta nhận được phương trình hồi quy bậc hai theo cặp mong muốn:

y=-0,074x 2 +2,151x+6,523

Chúng ta hãy đánh giá mức độ gần gũi của mối quan hệ tuyến tính bằng cách sử dụng chỉ số tương quan.

Để tính toán, hãy thêm một cột J bổ sung vào bảng (hãy gọi nó là y*). Việc tính toán sẽ như sau (theo phương trình hồi quy mà chúng tôi thu được) - “=$m$22*B2*B2+$M$23*B2+$M$24.” Hãy đặt nó vào ô J2. Tất cả những gì còn lại là kéo điểm đánh dấu tự động điền xuống ô J16.

Để tính tổng (trung bình Y-Y) 2, hãy thêm cột K và L vào bảng với các công thức tương ứng. Chúng tôi tính giá trị trung bình cho cột Y bằng hàm AVERAGE.

Trong ô K25, chúng ta sẽ đặt công thức tính chỉ số tương quan - “=ROOT(1-(K17/L17))”.

Chúng ta thấy rằng giá trị 0,959 rất gần với 1, có nghĩa là có mối quan hệ phi tuyến tính chặt chẽ giữa doanh số và số năm.

Vẫn còn phải đánh giá chất lượng phù hợp của phương trình hồi quy bậc hai thu được (chỉ số xác định). Nó được tính bằng công thức tính chỉ số tương quan bình phương. Nghĩa là, công thức trong ô K26 sẽ rất đơn giản - “=K25*K25”.

Hệ số 0,920 gần bằng 1, cho thấy mức độ phù hợp cao.

Bước cuối cùng là tính toán sai số tương đối. Hãy thêm một cột và nhập công thức vào đó: “=ABS((C2-J2)/C2), ABS - module, giá trị tuyệt đối. Vẽ điểm đánh dấu xuống và trong ô M18 hiển thị giá trị trung bình (AVERAGE), gán định dạng phần trăm cho các ô. Kết quả thu được - 7,79% nằm trong giá trị lỗi chấp nhận được<8…10%. Значит вычисления достаточно точны.

Nếu có nhu cầu, chúng ta có thể xây dựng biểu đồ bằng cách sử dụng các giá trị thu được.

Có file ví dụ đính kèm - LINK!

Thể loại:// từ 28/10/2017

Phân tích hồi quy là một trong những phương pháp nghiên cứu thống kê phổ biến nhất. Nó có thể được sử dụng để thiết lập mức độ ảnh hưởng của các biến độc lập đến biến phụ thuộc. Microsoft Excel có các công cụ được thiết kế để thực hiện loại phân tích này. Hãy xem chúng là gì và cách sử dụng chúng.

Kết nối gói phân tích

Tuy nhiên, để sử dụng chức năng cho phép bạn thực hiện phân tích hồi quy, trước tiên bạn cần kích hoạt Gói Phân tích. Chỉ khi đó các công cụ cần thiết cho quy trình này mới xuất hiện trên dải băng Excel.

  1. Di chuyển đến tab “Tệp”.
  2. Đi tới phần “Cài đặt”.
  3. Cửa sổ Tùy chọn Excel sẽ mở ra. Chuyển đến phần phụ “Tiện ích bổ sung”.
  4. Ở dưới cùng của cửa sổ mở ra, hãy di chuyển nút gạt trong khối “Quản lý” sang vị trí “Phần bổ trợ Excel”, nếu nó ở một vị trí khác. Bấm vào nút “Đi”.
  5. Một cửa sổ các phần bổ trợ Excel có sẵn sẽ mở ra. Chọn hộp bên cạnh “Gói phân tích”. Bấm vào nút “OK”.

Bây giờ, khi chúng ta chuyển đến tab “Dữ liệu”, trên dải băng trong khối công cụ “Phân tích”, chúng ta sẽ thấy một nút mới - “Phân tích dữ liệu”.

Các loại phân tích hồi quy

Có một số loại hồi quy:

  • parabol;
  • nghiêm trang;
  • logarit;
  • số mũ;
  • Biểu tình;
  • hyperbol;
  • hồi quy tuyến tính.

Về việc thực hiện loại cuối cùng Phân tích hồi quy trong Excel chúng ta sẽ nói chi tiết hơn sau.

Hồi quy tuyến tính trong Excel

Ví dụ, bên dưới là bảng hiển thị nhiệt độ không khí trung bình hàng ngày bên ngoài và số lượng khách hàng của cửa hàng trong ngày làm việc tương ứng. Hãy cùng tìm hiểu bằng cách sử dụng phân tích hồi quy chính xác xem điều kiện thời tiết dưới dạng nhiệt độ không khí có thể ảnh hưởng như thế nào đến sự có mặt của một cơ sở bán lẻ.

Phương trình hồi quy tuyến tính tổng quát như sau: Y = a0 + a1x1 +…+ akhk. Trong công thức này, Y có nghĩa là biến mà chúng ta đang cố gắng nghiên cứu ảnh hưởng của các yếu tố. Trong trường hợp của chúng tôi, đây là số lượng người mua. Giá trị của x là các yếu tố khác nhau ảnh hưởng đến biến. Các tham số a là các hệ số hồi quy. Tức là họ là người quyết định tầm quan trọng của một yếu tố cụ thể. Chỉ số k biểu thị tổng số các yếu tố tương tự.


Phân tích kết quả phân tích

Kết quả phân tích hồi quy được hiển thị dưới dạng bảng ở vị trí được chỉ định trong cài đặt.

Một trong những chỉ số chính là bình phương R. Nó cho thấy chất lượng của mô hình. Trong trường hợp của chúng tôi, hệ số này là 0,705 hoặc khoảng 70,5%. Đây là mức chất lượng có thể chấp nhận được. Sự phụ thuộc nhỏ hơn 0,5 là xấu.

Một chỉ báo quan trọng khác nằm trong ô ở giao điểm của hàng “Giao lộ Y” và cột “Hệ số”. Điều này cho biết giá trị Y sẽ có và trong trường hợp của chúng tôi, đây là số lượng người mua, với tất cả các yếu tố khác bằng 0. Trong bảng này, giá trị này là 58,04.

Giá trị tại giao điểm của cột “Biến X1” và “Hệ số” thể hiện mức độ phụ thuộc của Y vào X. Trong trường hợp của chúng tôi, đây là mức độ phụ thuộc của số lượng khách hàng tại cửa hàng vào nhiệt độ. Hệ số 1,31 được coi là chỉ số ảnh hưởng khá cao.

Như bạn có thể thấy, bằng cách sử dụng Microsoft Excel, việc tạo bảng phân tích hồi quy khá dễ dàng. Nhưng chỉ người được đào tạo mới có thể làm việc với dữ liệu đầu ra và hiểu được bản chất của nó.

Chúng tôi rất vui vì chúng tôi có thể giúp bạn giải quyết vấn đề.

Đặt câu hỏi của bạn trong phần bình luận, mô tả chi tiết bản chất của vấn đề. Các chuyên gia của chúng tôi sẽ cố gắng trả lời nhanh nhất có thể.

Bài báo này hữu ích với bạn?

Phương pháp hồi quy tuyến tính cho phép chúng ta mô tả một đường thẳng phù hợp nhất với một chuỗi các cặp có thứ tự (x, y). Phương trình của một đường thẳng, được gọi là phương trình tuyến tính, được đưa ra dưới đây:

ŷ - giá trị kỳ vọng của y tại đặt giá trị X,

x - biến độc lập,

a - đoạn trên trục y của một đường thẳng,

b là độ dốc của đường thẳng

Hình dưới đây minh họa khái niệm này bằng đồ họa:

Hình trên thể hiện đường thẳng được mô tả bởi phương trình ŷ =2+0,5x. Giao điểm y là điểm tại đó đường thẳng cắt trục y; trong trường hợp của chúng ta, a = 2. Độ dốc của đường b, tỷ lệ giữa độ cao của đường thẳng và chiều dài của đường thẳng, có giá trị là 0,5. Độ dốc dương có nghĩa là đường tăng dần từ trái sang phải. Nếu b = 0 thì đường nằm ngang, nghĩa là không có mối quan hệ giữa biến phụ thuộc và biến độc lập. Nói cách khác, việc thay đổi giá trị của x không ảnh hưởng đến giá trị của y.

ŷ và y thường bị nhầm lẫn. Đồ thị thể hiện 6 cặp điểm và một đường thẳng có thứ tự theo phương trình đã cho

Hình này thể hiện điểm tương ứng với cặp thứ tự x = 2 và y = 4. Lưu ý rằng giá trị kỳ vọng của y theo đường thẳng tại X= 2 là ŷ. Chúng ta có thể xác nhận điều này bằng phương trình sau:

ŷ = 2 + 0,5х =2 +0,5(2) =3.

Giá trị y biểu thị điểm thực tế và giá trị ŷ là giá trị mong đợi của y bằng cách sử dụng phương trình tuyến tính cho giá trị x cho trước.

Bước tiếp theo là xác định phương trình tuyến tính phù hợp nhất với tập hợp các cặp có thứ tự, chúng ta đã nói về vấn đề này trong bài viết trước, trong đó chúng ta đã xác định dạng phương trình bằng phương pháp bình phương tối thiểu.

Sử dụng Excel để xác định hồi quy tuyến tính

Để sử dụng được công cụ phân tích hồi quy tích hợp trong Excel, bạn phải kích hoạt add-in Gói phân tích. Bạn có thể tìm thấy nó bằng cách nhấp vào tab Tệp -> Tùy chọn(2007+), trong hộp thoại xuất hiện Tùy chọnExcelđi tới tab Tiện ích bổ sung. Trong lĩnh vực Điều khiển chọn Tiện ích bổ sungExcel và nhấp vào Đi. Trong cửa sổ xuất hiện, đánh dấu vào ô bên cạnh Gói phân tích, nhấp chuột ĐƯỢC RỒI.

Trong tab Dữ liệu trong nhóm Phân tích một nút mới sẽ xuất hiện Phân tích dữ liệu.

Để minh họa cách hoạt động của phần bổ trợ, hãy sử dụng dữ liệu từ bài viết trước, trong đó một chàng trai và một cô gái ngồi chung bàn trong phòng tắm. Nhập dữ liệu từ ví dụ về bồn tắm của chúng tôi vào Cột A và B của trang trống.

Chuyển đến tab Dữ liệu, trong nhóm Phân tích nhấp chuột Phân tích dữ liệu. Trong cửa sổ hiện ra Phân tích dữ liệu lựa chọn hồi quy như trong hình và nhấn OK.

Đặt các tham số hồi quy cần thiết trong cửa sổ hồi quy, như thể hiện trên hình ảnh:

Nhấp chuột ĐƯỢC RỒI. Hình dưới đây thể hiện kết quả thu được:

Những kết quả này phù hợp với kết quả chúng tôi thu được bằng cách tự tính toán trong bài viết trước.

Phân tích hồi quy là một phương pháp nghiên cứu thống kê cho phép bạn chỉ ra sự phụ thuộc của một tham số cụ thể vào một hoặc nhiều biến độc lập. Trong thời kỳ tiền máy tính, việc sử dụng nó khá khó khăn, đặc biệt là khi có khối lượng dữ liệu lớn. Ngày nay, sau khi học cách xây dựng hồi quy trong Excel, bạn có thể giải quyết các vấn đề thống kê phức tạp chỉ trong vài phút. Dưới đây là những ví dụ cụ thể từ lĩnh vực kinh tế.

Các loại hồi quy

Bản thân khái niệm này đã được Francis Galton đưa vào toán học vào năm 1886. Hồi quy xảy ra:

  • tuyến tính;
  • parabol;
  • nghiêm trang;
  • số mũ;
  • hyperbol;
  • Biểu tình;
  • logarit.

ví dụ 1

Xét bài toán xác định sự phụ thuộc của số lượng thành viên trong nhóm nghỉ việc vào mức lương bình quân tại 6 doanh nghiệp công nghiệp.

Nhiệm vụ. Tại sáu doanh nghiệp, mức lương bình quân tháng và số lượng nhân viên tự nguyện nghỉ việc được phân tích. Ở dạng bảng ta có:

Để thực hiện nhiệm vụ xác định sự phụ thuộc của số lao động nghỉ việc vào mức lương bình quân tại 6 doanh nghiệp, mô hình hồi quy có dạng phương trình Y = a0 + a1×1 +……+аkxk, trong đó хi là các biến ảnh hưởng, ai là các hệ số hồi quy và k là số lượng nhân tố.

Đối với nhiệm vụ này, Y là chỉ số nhân viên nghỉ việc và yếu tố ảnh hưởng là tiền lương, được ký hiệu là X.

Sử dụng các khả năng của bộ xử lý bảng tính Excel

Phân tích hồi quy trong Excel phải được thực hiện trước bằng cách áp dụng các hàm dựng sẵn cho dữ liệu dạng bảng hiện có. Tuy nhiên, với những mục đích này, tốt hơn hết bạn nên sử dụng tiện ích bổ sung “Gói phân tích” rất hữu ích. Để kích hoạt nó, bạn cần:

  • từ tab “Tệp”, hãy chuyển đến phần “Tùy chọn”;
  • trong cửa sổ mở ra, chọn dòng “Tiện ích bổ sung”;
  • nhấp vào nút “Đi” nằm bên dưới, bên phải dòng “Quản lý”;
  • đánh dấu vào ô bên cạnh tên “Gói phân tích” và xác nhận hành động của bạn bằng cách nhấp vào “Ok”.

Nếu mọi thứ được thực hiện chính xác, nút bắt buộc sẽ xuất hiện ở phía bên phải của tab “Dữ liệu”, nằm phía trên bảng tính Excel.

Hồi quy tuyến tính trong Excel

Bây giờ chúng ta đã có sẵn tất cả các công cụ ảo cần thiết để thực hiện các phép tính kinh tế lượng, chúng ta có thể bắt đầu giải quyết vấn đề của mình. Đối với điều này:

  • nhấp vào nút “Phân tích dữ liệu”;
  • trong cửa sổ mở ra, nhấp vào nút “Hồi quy”;
  • trong tab xuất hiện, nhập phạm vi giá trị cho Y (số lượng nhân viên nghỉ việc) và cho X (lương của họ);
  • Chúng tôi xác nhận hành động của mình bằng cách nhấn nút “Ok”.

Kết quả là chương trình sẽ tự động điền dữ liệu phân tích hồi quy vào bảng tính mới. Ghi chú! Excel cho phép bạn đặt thủ công vị trí bạn thích cho mục đích này. Ví dụ: đây có thể là cùng một trang tính chứa các giá trị Y và X hoặc thậm chí là một sổ làm việc mới được thiết kế đặc biệt để lưu trữ dữ liệu đó.

Phân tích kết quả hồi quy cho R bình phương

Trong Excel, dữ liệu thu được trong quá trình xử lý dữ liệu trong ví dụ đang xem xét có dạng:

Trước hết, bạn nên chú ý đến giá trị bình phương R. Nó đại diện cho hệ số xác định. Trong ví dụ này, R-square = 0,755 (75,5%), tức là các tham số tính toán của mô hình giải thích được mối quan hệ giữa các tham số đang xem xét là 75,5%. Giá trị của hệ số xác định càng cao thì mô hình được chọn càng phù hợp cho một nhiệm vụ cụ thể. Nó được coi là mô tả chính xác tình huống thực tế khi giá trị bình phương R trên 0,8. Nếu R bình phương là tcr thì giả thuyết về sự vô nghĩa của số hạng tự do của phương trình tuyến tính bị bác bỏ.

Trong bài toán đang xem xét số hạng tự do, sử dụng công cụ Excel, ta thu được t = 169,20903 và p = 2,89E-12, tức là chúng ta có xác suất bằng 0 rằng giả thuyết đúng về tầm quan trọng của số hạng tự do sẽ bị bác bỏ . Đối với hệ số của ẩn số t=5,79405 và p=0,001158. Nói cách khác, xác suất mà giả thuyết đúng về tầm quan trọng của hệ số đối với ẩn số sẽ bị bác bỏ là 0,12%.

Vì vậy, có thể lập luận rằng phương trình hồi quy tuyến tính thu được là phù hợp.

Vấn đề về tính khả thi của việc mua một khối cổ phiếu

Hồi quy bội trong Excel được thực hiện bằng cùng một công cụ Phân tích dữ liệu. Hãy xem xét một vấn đề ứng dụng cụ thể.

Ban lãnh đạo công ty NNN phải quyết định xem có nên mua 20% cổ phần của Công ty Cổ phần MMM hay không. Chi phí của gói (SP) là 70 triệu đô la Mỹ. Các chuyên gia của NNN đã thu thập dữ liệu về các giao dịch tương tự. Người ta quyết định đánh giá giá trị của khối cổ phiếu theo các thông số như vậy, được biểu thị bằng hàng triệu đô la Mỹ, như:

  • khoản phải trả (VK);
  • khối lượng doanh thu hàng năm (VO);
  • các khoản phải thu (VD);
  • nguyên giá tài sản cố định (COF).

Ngoài ra, thông số nợ lương của doanh nghiệp (V3 P) tính bằng nghìn đô la Mỹ cũng được sử dụng.

Giải pháp sử dụng bộ xử lý bảng tính Excel

Trước hết, bạn cần tạo một bảng dữ liệu nguồn. Nó trông như thế này:

  • gọi cửa sổ “Phân tích dữ liệu”;
  • chọn phần “Hồi quy”;
  • Trong ô “Nhập khoảng Y”, nhập khoảng giá trị của các biến phụ thuộc từ cột G;
  • Nhấp vào biểu tượng có mũi tên màu đỏ ở bên phải cửa sổ “Khoảng thời gian nhập X” và đánh dấu phạm vi của tất cả các giá trị từ các cột B, C, D, F trên trang tính.

Đánh dấu mục “Bảng tính mới” và nhấp vào “Ok”.

Có được một phân tích hồi quy cho một vấn đề nhất định.

Nghiên cứu kết quả và kết luận

Chúng tôi “thu thập” phương trình hồi quy từ dữ liệu được làm tròn được trình bày ở trên trên bảng tính Excel:

SP = 0,103*SOF + 0,541*VO – 0,031*VK +0,405*VD +0,691*VZP – 265,844.

Ở dạng toán học quen thuộc hơn, nó có thể được viết là:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Số liệu của MMM CTCP được trình bày trong bảng:

Thay chúng vào phương trình hồi quy, chúng ta có được con số 64,72 triệu đô la Mỹ. Điều này có nghĩa là cổ phiếu của MMMJSC không đáng mua vì giá trị 70 triệu đô la Mỹ của chúng là khá cao.

Như bạn có thể thấy, việc sử dụng bảng tính Excel và phương trình hồi quy giúp bạn có thể đưa ra quyết định sáng suốt về tính khả thi của một giao dịch rất cụ thể.

Bây giờ bạn đã biết hồi quy là gì. Các ví dụ Excel được thảo luận ở trên sẽ giúp bạn giải quyết các vấn đề thực tế trong lĩnh vực kinh tế lượng.

Cho thấy ảnh hưởng của một số giá trị (độc lập, độc lập) đến biến phụ thuộc. Ví dụ, số lượng dân số hoạt động kinh tế phụ thuộc như thế nào vào số lượng doanh nghiệp, tiền lương và các thông số khác. Hoặc: đầu tư nước ngoài, giá năng lượng, v.v. ảnh hưởng như thế nào đến mức GDP.

Kết quả phân tích cho phép bạn làm nổi bật các ưu tiên. Và dựa trên các yếu tố chính để dự đoán, lập kế hoạch phát triển các lĩnh vực ưu tiên và đưa ra các quyết định quản lý.

Hồi quy xảy ra:

tuyến tính (y = a + bx);

· parabol (y = a + bx + cx 2);

· hàm mũ (y = a * exp(bx));

· công suất (y = a*x^b);

· hyperbol (y = b/x + a);

logarit (y = b * 1n(x) + a);

· hàm mũ (y = a * b^x).

Hãy xem một ví dụ về xây dựng mô hình hồi quy trong Excel và diễn giải kết quả. Hãy lấy kiểu hồi quy tuyến tính.

Nhiệm vụ. Tại 6 doanh nghiệp, mức lương bình quân tháng và số lao động nghỉ việc được phân tích. Cần xác định sự phụ thuộc của số lượng nhân viên nghỉ việc vào mức lương bình quân.

Mô hình hồi quy tuyến tính trông như thế này:

Y = a 0 + a 1 x 1 +…+a k x k.

Trong đó a là hệ số hồi quy, x là các biến ảnh hưởng, k là số lượng nhân tố.

Trong ví dụ của chúng tôi, Y là chỉ báo về việc nhân viên nghỉ việc. Yếu tố ảnh hưởng là tiền lương (x).

Excel có sẵn các hàm có thể giúp bạn tính toán các tham số của mô hình hồi quy tuyến tính. Nhưng tiện ích bổ sung “Gói phân tích” sẽ thực hiện việc này nhanh hơn.

Chúng tôi kích hoạt một công cụ phân tích mạnh mẽ:

1. Nhấp vào nút “Office” và chuyển đến tab “Tùy chọn Excel”. "Tiện ích bổ sung".

2. Ở dưới cùng, trong danh sách thả xuống, trong trường “Quản lý” sẽ có dòng chữ “Phần bổ trợ Excel” (nếu không có ở đó, hãy nhấp vào hộp kiểm bên phải và chọn). Và nút “Đi”. Nhấp chuột.

3. Danh sách các tiện ích bổ sung có sẵn sẽ mở ra. Chọn “Gói phân tích” và nhấp vào OK.

Sau khi được kích hoạt, tiện ích bổ sung sẽ có sẵn trong tab Dữ liệu.

Bây giờ chúng ta hãy tự phân tích hồi quy.

1. Mở menu của công cụ “Phân tích dữ liệu”. Chọn "Hồi quy".



2. Một menu sẽ mở ra để chọn các giá trị đầu vào và tùy chọn đầu ra (nơi hiển thị kết quả). Trong các trường dành cho dữ liệu ban đầu, chúng tôi chỉ ra phạm vi của tham số được mô tả (Y) và yếu tố ảnh hưởng đến nó (X). Phần còn lại không cần phải điền.

3. Sau khi nhấn OK, chương trình sẽ hiển thị các phép tính trên một trang tính mới (bạn có thể chọn khoảng thời gian hiển thị trên trang tính hiện tại hoặc gán đầu ra cho một sổ làm việc mới).

Trước hết, chúng ta chú ý đến R bình phương và các hệ số.

R bình phương là hệ số xác định. Trong ví dụ của chúng tôi – 0,755, hoặc 75,5%. Điều này có nghĩa là các tham số tính toán của mô hình giải thích được 75,5% mối liên hệ giữa các tham số nghiên cứu. Hệ số xác định càng cao thì mô hình càng tốt. Tốt - trên 0,8. Xấu – dưới 0,5 (phân tích như vậy khó có thể được coi là hợp lý). Trong ví dụ của chúng tôi – “không tệ”.

Hệ số 64,1428 cho thấy Y sẽ bằng bao nhiêu nếu tất cả các biến trong mô hình đang xem xét đều bằng 0. Nghĩa là giá trị của tham số phân tích cũng bị ảnh hưởng bởi các yếu tố khác không được mô tả trong mô hình.

Hệ số -0,16285 thể hiện trọng số của biến X trên Y. Nghĩa là, mức lương trung bình hàng tháng trong mô hình này ảnh hưởng đến số người bỏ việc có trọng số -0,16285 (đây là mức độ ảnh hưởng nhỏ). Dấu “-” biểu thị tác động tiêu cực: lương càng cao thì càng ít người bỏ việc. Điều đó là công bằng.

Nó được biết đến là hữu ích trong nhiều lĩnh vực hoạt động khác nhau, bao gồm cả lĩnh vực như kinh tế lượng, nơi tiện ích phần mềm này được sử dụng trong công việc. Về cơ bản, tất cả các hành động của lớp thực hành và phòng thí nghiệm đều được thực hiện trong Excel, điều này hỗ trợ rất nhiều cho công việc bằng cách cung cấp giải thích chi tiết về một số hành động nhất định. Do đó, một trong những công cụ phân tích “Hồi quy” được sử dụng để chọn biểu đồ cho một tập hợp các quan sát bằng phương pháp bình phương tối thiểu. Hãy cùng xem công cụ chương trình này là gì và nó mang lại lợi ích gì cho người dùng. Dưới đây bạn cũng sẽ tìm thấy những hướng dẫn ngắn gọn nhưng rõ ràng để xây dựng mô hình hồi quy.

Nhiệm vụ chính và các loại hồi quy

Hồi quy thể hiện mối quan hệ giữa các biến nhất định, từ đó giúp dự đoán hành vi trong tương lai của các biến này. Biến số là những hiện tượng có tính chu kỳ khác nhau, bao gồm cả hành vi của con người. Kiểu phân tích Excel này được sử dụng để phân tích tác động lên một biến phụ thuộc cụ thể của các giá trị của một hoặc một số biến. Ví dụ: doanh số bán hàng tại một cửa hàng bị ảnh hưởng bởi một số yếu tố, bao gồm chủng loại, giá cả và vị trí của cửa hàng. Nhờ hồi quy trong Excel, bạn có thể xác định mức độ ảnh hưởng của từng yếu tố này dựa trên kết quả bán hàng hiện tại, sau đó áp dụng dữ liệu thu được để dự báo doanh số bán hàng trong một tháng khác hoặc cho một cửa hàng khác nằm gần đó.

Thông thường, hồi quy được trình bày dưới dạng một phương trình đơn giản cho thấy mối quan hệ và điểm mạnh của mối quan hệ giữa hai nhóm biến, trong đó một nhóm phụ thuộc hoặc nội sinh và nhóm kia độc lập hoặc ngoại sinh. Nếu có một nhóm các chỉ tiêu có liên quan với nhau thì biến phụ thuộc Y được xác định dựa trên logic suy luận, còn lại đóng vai trò là các biến X độc lập.

Nhiệm vụ chính của việc xây dựng mô hình hồi quy như sau:

  1. Lựa chọn các biến độc lập có ý nghĩa (X1, X2,..., Xk).
  2. Lựa chọn loại chức năng.
  3. Xây dựng ước lượng cho các hệ số.
  4. Xây dựng khoảng tin cậy và hàm hồi quy.
  5. Kiểm tra tầm quan trọng của các ước tính được tính toán và phương trình hồi quy được xây dựng.

Có một số loại phân tích hồi quy:

  • ghép đôi (1 biến phụ thuộc và 1 biến độc lập);
  • nhiều (một số biến độc lập).

Có hai loại phương trình hồi quy:

  1. Tuyến tính, minh họa mối quan hệ tuyến tính chặt chẽ giữa các biến.
  2. Phi tuyến tính - Các phương trình có thể bao gồm lũy thừa, phân số và hàm lượng giác.

Hướng dẫn xây dựng mô hình

Để thực hiện một công trình nhất định trong Excel, bạn phải làm theo hướng dẫn:


Để tính toán thêm, hãy sử dụng hàm “Tuyến tính()”, chỉ định Giá trị Y, Giá trị X, Const và Thống kê. Sau đó, xác định tập hợp các điểm trên đường hồi quy bằng hàm "Xu hướng" - Giá trị Y, Giá trị X, Giá trị mới, Const. Sử dụng các tham số đã cho, tính giá trị chưa biết của các hệ số, dựa trên điều kiện đã cho của bài toán.

Trong các bài đăng trước, việc phân tích thường tập trung vào một biến số duy nhất, chẳng hạn như lợi nhuận của quỹ tương hỗ, thời gian tải trang Web hoặc mức tiêu thụ nước giải khát. Trong phần ghi chú này và các ghi chú tiếp theo, chúng ta sẽ xem xét các phương pháp dự đoán giá trị của một biến số tùy thuộc vào giá trị của một hoặc nhiều biến số khác.

Tài liệu sẽ được minh họa bằng một ví dụ xuyên suốt. Dự báo doanh số bán hàng tại một cửa hàng quần áo. Chuỗi cửa hàng quần áo giảm giá Sunflowers không ngừng mở rộng trong 25 năm. Tuy nhiên, công ty hiện chưa có cách tiếp cận mang tính hệ thống trong việc lựa chọn các cửa hàng mới. Địa điểm mà công ty dự định mở một cửa hàng mới được xác định dựa trên những cân nhắc chủ quan. Tiêu chí lựa chọn là điều kiện thuê thuận lợi hoặc ý tưởng của người quản lý về vị trí cửa hàng lý tưởng. Hãy tưởng tượng rằng bạn là người đứng đầu bộ phận lập kế hoạch và dự án đặc biệt. Bạn được giao nhiệm vụ phát triển một kế hoạch chiến lược để mở các cửa hàng mới. Kế hoạch này nên bao gồm dự báo doanh thu hàng năm cho các cửa hàng mới mở. Bạn tin rằng mặt bằng bán lẻ có liên quan trực tiếp đến doanh thu và muốn đưa yếu tố này vào quá trình ra quyết định của mình. Làm cách nào để bạn phát triển mô hình thống kê để dự đoán doanh thu hàng năm dựa trên quy mô của một cửa hàng mới?

Thông thường, phân tích hồi quy được sử dụng để dự đoán giá trị của một biến. Mục tiêu của nó là phát triển một mô hình thống kê có thể dự đoán giá trị của một biến phụ thuộc hoặc phản hồi từ các giá trị của ít nhất một biến độc lập hoặc biến giải thích. Trong lưu ý này, chúng ta sẽ xem xét hồi quy tuyến tính đơn giản - một phương pháp thống kê cho phép bạn dự đoán giá trị của một biến phụ thuộc Y bởi các giá trị biến độc lập X. Các ghi chú tiếp theo sẽ mô tả mô hình hồi quy bội, được thiết kế để dự đoán giá trị của biến độc lập Y dựa trên giá trị của một số biến phụ thuộc ( X 1, X 2,…, Xk).

Tải xuống ghi chú ở định dạng hoặc, ví dụ ở định dạng

Các loại mô hình hồi quy

Ở đâu ρ 1 – hệ số tự tương quan; Nếu như ρ 1 = 0 (không có tự tương quan), D≈ 2; Nếu như ρ 1 ≈ 1 (tự tương quan dương), D≈ 0; Nếu như ρ 1 = -1 (tự tương quan âm), D ≈ 4.

Trong thực tế, việc áp dụng tiêu chí Durbin-Watson dựa trên việc so sánh giá trị D với các giá trị lý thuyết quan trọng d LdU cho một số lượng quan sát nhất định N, số biến độc lập của mô hình k(đối với hồi quy tuyến tính đơn giản k= 1) và mức ý nghĩa α. Nếu như D< d L , giả thuyết về tính độc lập của độ lệch ngẫu nhiên bị bác bỏ (do đó có hiện tượng tự tương quan dương); Nếu như D>dU, giả thuyết không bị bác bỏ (nghĩa là không có hiện tượng tự tương quan); Nếu như d L< D < d U , không có đủ cơ sở để đưa ra quyết định. Khi giá trị tính toán D vượt quá 2 thì với d LdU Bản thân hệ số không được so sánh D, và biểu thức (4 – D).

Để tính số liệu thống kê Durbin-Watson trong Excel, chúng ta hãy chuyển sang bảng dưới cùng trong Hình. 14 Rút số dư. Tử số trong biểu thức (10) được tính bằng hàm =SUMMAR(array1;array2) và mẫu số =SUMMAR(array) (Hình 16).

Cơm. 16. Công thức tính thống kê Durbin-Watson

Trong ví dụ của chúng tôi D= 0,883. Câu hỏi chính là: giá trị nào của thống kê Durbin-Watson nên được coi là đủ nhỏ để kết luận rằng có tồn tại mối tương quan dương? Cần phải tương quan giá trị của D với các giá trị tới hạn ( d LdU), tùy thuộc vào số lượng quan sát N và mức ý nghĩa α (Hình 17).

Cơm. 17. Giá trị tới hạn của thống kê Durbin-Watson (đoạn bảng)

Như vậy, trong bài toán về khối lượng bán hàng tại một cửa hàng giao hàng tận nhà, có một biến độc lập ( k= 1), 15 quan sát ( N= 15) và mức ý nghĩa α = 0,05. Kể từ đây, d L= 1,08 và dbạn= 1,36. Bởi vì D = 0,883 < d L= 1,08, có sự tự tương quan dương giữa các phần dư, không thể sử dụng phương pháp bình phương tối thiểu.

Kiểm định giả thuyết về độ dốc và hệ số tương quan

Ở trên, hồi quy chỉ được sử dụng để dự báo. Để xác định hệ số hồi quy và dự đoán giá trị của một biến Y cho một giá trị biến nhất định X Phương pháp bình phương tối thiểu đã được sử dụng. Ngoài ra, chúng tôi đã kiểm tra sai số bình phương trung bình gốc của ước tính và hệ số tương quan hỗn hợp. Nếu việc phân tích phần dư xác nhận rằng các điều kiện áp dụng của phương pháp bình phương tối thiểu không bị vi phạm và mô hình hồi quy tuyến tính đơn giản là phù hợp thì dựa trên dữ liệu mẫu thì có thể khẳng định rằng có sự khác biệt giữa các biến trong tổng thể. sự phụ thuộc tuyến tính.

Ứng dụngt - Tiêu chí về độ dốc Bằng cách kiểm tra xem độ dốc của dân số β 1 có bằng 0 hay không, người ta có thể xác định liệu có tồn tại một hệ số thống kê hay không. sự phụ thuộc đáng kể giữa các biến XY. Nếu giả thuyết này bị bác bỏ, có thể lập luận rằng giữa các biến XY có một mối quan hệ tuyến tính. Các giả thuyết không và giả thuyết thay thế được xây dựng như sau: H 0: β 1 = 0 (không có sự phụ thuộc tuyến tính), H1: β 1 ≠ 0 (có sự phụ thuộc tuyến tính). A-tu viện t-statistic bằng chênh lệch giữa độ dốc mẫu và giá trị giả thuyết của độ dốc tổng thể, chia cho sai số bình phương trung bình gốc của ước tính độ dốc:

(11) t = (b 1 β 1 ) / S b 1

Ở đâu b 1 – độ dốc của hồi quy trực tiếp trên dữ liệu mẫu, β1 – độ dốc giả định của tổng thể trực tiếp, và thống kê kiểm tra t Nó có t-phân phối với n – 2 bậc tự do.

Hãy kiểm tra xem liệu có mối quan hệ có ý nghĩa thống kê giữa quy mô cửa hàng và doanh thu hàng năm ở mức α = 0,05 hay không. t-tiêu chí được hiển thị cùng với các tham số khác khi sử dụng Gói phân tích(lựa chọn hồi quy). Các kết quả đầy đủ của Gói phân tích được hiển thị trong Hình 2. 4, đoạn liên quan đến thống kê t - trong Hình. 18.

Cơm. 18. Kết quả xét tuyển t

Vì số lượng cửa hàng N= 14 (xem Hình 3), giá trị tới hạn t- có thể tìm được số liệu thống kê ở mức ý nghĩa α = 0,05 bằng công thức: tL=STUDENT.ARV(0,025,12) = –2,1788, trong đó 0,025 là một nửa mức ý nghĩa và 12 = N – 2; tU=Student.OBR(0,975,12) = +2,1788.

Bởi vì t-statistic = 10,64 > tU= 2.1788 (Hình 19), giả thuyết không H 0 vật bị loại bỏ. Mặt khác, R-giá trị cho X= 10,6411, tính theo công thức =1-STUDENT.DIST(D3,12,TRUE), xấp xỉ bằng 0 nên giả thuyết H 0 lại bị từ chối. Sự thật là R-giá trị gần như bằng 0 có nghĩa là nếu không có mối quan hệ tuyến tính thực sự giữa quy mô cửa hàng và doanh thu hàng năm thì hầu như không thể phát hiện ra nó bằng phương pháp hồi quy tuyến tính. Do đó, có mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số bán hàng trung bình hàng năm của cửa hàng và quy mô cửa hàng.

Cơm. 19. Kiểm định giả thuyết về độ dốc dân số ở mức ý nghĩa 0,05 và 12 bậc tự do

Ứng dụngF - Tiêu chí về độ dốc Một cách tiếp cận khác để kiểm tra các giả thuyết về độ dốc của hồi quy tuyến tính đơn giản là sử dụng F-tiêu chuẩn. Chúng ta hãy nhớ lại điều đó F-test được sử dụng để kiểm tra mối quan hệ giữa hai phương sai (để biết thêm chi tiết, xem). Khi kiểm định giả thuyết độ dốc bằng thước đo lỗi ngẫu nhiên là phương sai lỗi (tổng các sai số bình phương chia cho số bậc tự do), do đó F-criterion sử dụng tỷ lệ của phương sai được giải thích bằng hồi quy (tức là giá trị SSR, chia cho số biến độc lập k), đến phương sai lỗi ( MSE = S YX 2 ).

A-tu viện F-statistic bằng bình phương trung bình của hồi quy (MSR) chia cho phương sai lỗi (MSE): F = MSR/ MSE, Ở đâu MSR=SSR / k, MSE =SSE/(N– k – 1), k– số lượng biến độc lập trong mô hình hồi quy. Thống kê kiểm tra F Nó có F-phân phối với kN– k – 1 bậc tự do.

Với một mức ý nghĩa α cho trước, quy tắc quyết định được xây dựng như sau: nếu F>Fbạn, giả thuyết không bị bác bỏ; nếu không thì nó không bị từ chối. Kết quả được trình bày dưới dạng bảng tổng hợp phân tích phương sai được thể hiện trong hình. 20.

Cơm. 20. Phân tích bảng phương sai để kiểm định giả thuyết về ý nghĩa thống kê hệ số hồi quy

Tương tự như vậy t-tiêu chuẩn F-tiêu chí được hiển thị trong bảng khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả công việc đầy đủ Gói phân tíchđược thể hiện trong hình. 4, đoạn liên quan đến F-số liệu thống kê – trong hình. 21.

Cơm. 21. Kết quả xét tuyển F-tiêu chí thu được bằng cách sử dụng Gói phân tích Excel

Thống kê F là 113,23 và R-giá trị gần bằng 0 (ô Ý nghĩaF). Nếu mức ý nghĩa α là 0,05, hãy xác định giá trị tới hạn F-phân phối với một và 12 bậc tự do có thể thu được bằng cách sử dụng công thức bạn ơi=F.OBR(1-0,05;1;12) = 4,7472 (Hình 22). Bởi vì F = 113,23 > bạn ơi= 4,7472 và R-giá trị gần bằng 0< 0,05, нулевая гипотеза H 0 bị từ chối, tức là Quy mô của một cửa hàng có liên quan chặt chẽ đến doanh thu hàng năm của nó.

Cơm. 22. Kiểm định giả thuyết độ dốc dân số ở mức ý nghĩa 0,05 với 1 và 12 bậc tự do

Khoảng tin cậy chứa độ dốc β 1 .Để kiểm tra giả thuyết rằng có mối quan hệ tuyến tính giữa các biến, bạn có thể xây dựng khoảng tin cậy chứa độ dốc β 1 và xác minh rằng giá trị giả định β 1 = 0 thuộc khoảng này. Tâm của khoảng tin cậy chứa độ dốc β 1 là độ dốc mẫu b 1 , và ranh giới của nó là số lượng b 1 ±tn –2 S b 1

Như thể hiện trong hình. 18, b 1 = +1,670, N = 14, S b 1 = 0,157. t 12 =Student.ARV(0,975,12) = 2,1788. Kể từ đây, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 hoặc + 1,328 ≤ β 1 ≤ +2,012. Do đó, có xác suất 0,95 rằng độ dốc dân số nằm trong khoảng từ +1,328 đến +2,012 (tức là, 1.328.000 USD đến 2.012.000 USD). Vì các giá trị này lớn hơn 0 nên có mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh thu hàng năm và diện tích cửa hàng. Nếu khoảng tin cậy chứa 0 thì sẽ không có mối quan hệ giữa các biến. Ngoài ra, khoảng tin cậy có nghĩa là mỗi lần tăng diện tích cửa hàng thêm 1.000 m2. ft. dẫn đến khối lượng bán hàng trung bình tăng từ 1.328.000 USD đến 2.012.000 USD.

Cách sử dụngt -tiêu chí cho hệ số tương quan. hệ số tương quan được đưa ra r, là thước đo mối quan hệ giữa hai biến số. Nó có thể được sử dụng để xác định xem có sự khác biệt thống kê giữa hai biến hay không. kết nối ý nghĩa. Chúng ta hãy biểu thị hệ số tương quan giữa quần thể của cả hai biến bằng ký hiệu ρ. Các giả thuyết không và thay thế được xây dựng như sau: H 0: ρ = 0 (không có tương quan), H 1: ρ ≠ 0 (có mối tương quan). Kiểm tra sự tồn tại của mối tương quan:

Ở đâu r = + , Nếu như b 1 > 0, r = – , Nếu như b 1 < 0. Тестовая статистика t Nó có t-phân phối với n – 2 bậc tự do.

Trong bài toán về chuỗi cửa hàng Sunflowers r 2= 0,904, một b 1- +1.670 (xem Hình 4). Bởi vì b 1> 0, hệ số tương quan giữa doanh thu hàng năm và quy mô cửa hàng là r= +√0,904 = +0,951. Hãy kiểm tra giả thuyết không rằng không có mối tương quan giữa các biến này bằng cách sử dụng t-số liệu thống kê:

Ở mức ý nghĩa α = 0,05, giả thuyết không nên bị bác bỏ vì t= 10,64 > 2,1788. Vì vậy, có thể lập luận rằng có mối quan hệ có ý nghĩa thống kê giữa doanh thu hàng năm và quy mô cửa hàng.

Khi thảo luận về các suy luận liên quan đến độ dốc của dân số, khoảng tin cậy và kiểm tra giả thuyết được sử dụng thay thế cho nhau. Tuy nhiên, việc tính toán khoảng tin cậy chứa hệ số tương quan hóa ra lại khó khăn hơn vì kiểu phân phối mẫu của thống kê r phụ thuộc vào hệ số tương quan thực.

Ước tính kỳ vọng toán học và dự đoán các giá trị riêng lẻ

Phần này thảo luận về các phương pháp ước tính kỳ vọng toán học của một phản hồi Y và dự đoán các giá trị riêng lẻ Y cho các giá trị đã cho của biến X.

Xây dựng khoảng tin cậy. Trong ví dụ 2 (xem phần trên Phương pháp bình phương tối thiểu) phương trình hồi quy cho phép chúng ta dự đoán giá trị của biến Y X. Trong vấn đề chọn nơi ở điểm bán hàng khối lượng bán hàng trung bình hàng năm trong một cửa hàng có diện tích 4000 m2. feet tương đương với 7,644 triệu đô la. Tuy nhiên, ước tính này về kỳ vọng toán học của dân số nói chung chỉ mang tính điểm. Để ước tính kỳ vọng toán học của dân số, khái niệm khoảng tin cậy đã được đề xuất. Tương tự, chúng ta có thể đưa ra khái niệm khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị biến nhất định X:

Ở đâu , = b 0 + b 1 X tôi– giá trị dự đoán có thể thay đổi Y Tại X = X tôi, S YX– sai số bình phương trung bình gốc, N- cỡ mẫu, XTôi- giá trị xác định của biến X, µ Y|X = XTôi– kỳ vọng toán học của biến Y Tại X = X tôi, SSX =

Phân tích công thức (13) cho thấy độ rộng của khoảng tin cậy phụ thuộc vào một số yếu tố. Ở một mức ý nghĩa nhất định, sự gia tăng biên độ dao động xung quanh đường hồi quy, được đo bằng sai số bình phương trung bình gốc, dẫn đến tăng độ rộng của khoảng. Mặt khác, như người ta mong đợi, việc tăng cỡ mẫu sẽ đi kèm với việc thu hẹp khoảng cách. Ngoài ra, độ rộng của khoảng thay đổi tùy thuộc vào giá trị XTôi. Nếu giá trị biến Y dự đoán về số lượng X, gần giá trị trung bình , khoảng tin cậy hóa ra hẹp hơn so với khi dự đoán phản hồi cho các giá trị cách xa mức trung bình.

Giả sử rằng khi chọn vị trí cửa hàng, chúng tôi muốn xây dựng khoảng tin cậy 95% cho doanh thu trung bình hàng năm của tất cả các cửa hàng có diện tích là 4000 mét vuông. bàn chân:

Do đó, doanh số bán hàng trung bình hàng năm ở tất cả các cửa hàng có diện tích 4.000 m2. feet, với xác suất 95% nằm trong khoảng từ 6,971 đến 8,317 triệu đô la.

Tính khoảng tin cậy cho giá trị dự đoán. Ngoài khoảng tin cậy cho kỳ vọng toán học của phản ứng đối với một giá trị nhất định của biến X, thường cần phải biết khoảng tin cậy cho giá trị dự đoán. Mặc dù công thức tính khoảng tin cậy như vậy rất giống với công thức (13), khoảng này chứa giá trị dự đoán chứ không phải ước tính tham số. Khoảng thời gian cho phản ứng dự đoán YX = Xi cho một giá trị biến cụ thể XTôiđược xác định bởi công thức:

Giả sử rằng, khi chọn địa điểm cho một cửa hàng bán lẻ, chúng ta muốn xây dựng khoảng tin cậy 95% cho doanh số bán hàng dự đoán hàng năm của một cửa hàng có diện tích là 4000 mét vuông. bàn chân:

Do đó, doanh số bán hàng hàng năm dự đoán cho một cửa hàng có diện tích 4000 m2. feet, với xác suất 95% nằm trong khoảng từ 5,433 đến 9,854 triệu đô la. Như chúng ta có thể thấy, khoảng tin cậy cho giá trị phản hồi được dự đoán rộng hơn nhiều so với khoảng tin cậy cho kỳ vọng toán học của nó. Điều này là do độ biến thiên trong việc dự đoán các giá trị riêng lẻ lớn hơn nhiều so với việc ước tính kỳ vọng toán học.

Cạm bẫy và các vấn đề đạo đức liên quan đến việc sử dụng hồi quy

Những khó khăn liên quan đến phân tích hồi quy:

  • Bỏ qua các điều kiện áp dụng của phương pháp bình phương tối thiểu.
  • Đánh giá sai các điều kiện áp dụng phương pháp bình phương tối thiểu.
  • Lựa chọn không đúng các phương pháp thay thế khi vi phạm các điều kiện áp dụng của phương pháp bình phương tối thiểu.
  • Áp dụng phân tích hồi quy mà không có kiến ​​thức sâu về chủ đề nghiên cứu.
  • Ngoại suy một hồi quy vượt quá phạm vi của biến giải thích.
  • Nhầm lẫn giữa mối quan hệ thống kê và quan hệ nhân quả.

Sử dụng rộng rãi bảng tínhphần mềmđể tính toán thống kê đã loại bỏ các vấn đề tính toán ngăn cản việc sử dụng phân tích hồi quy. Tuy nhiên, điều này dẫn đến thực tế là phân tích hồi quy được sử dụng bởi những người dùng không có đủ trình độ và kiến ​​thức. Làm sao người dùng có thể biết về các phương pháp thay thế nếu nhiều người trong số họ không biết gì về các điều kiện áp dụng của phương pháp bình phương tối thiểu và không biết cách kiểm tra việc thực hiện chúng?

Nhà nghiên cứu không nên bận tâm đến việc tính toán các con số - tính toán độ dịch chuyển, độ dốc và hệ số tương quan hỗn hợp. Anh ấy cần kiến ​​​​thức sâu hơn. Hãy minh họa điều này bằng một ví dụ cổ điển lấy từ sách giáo khoa. Anscombe đã chỉ ra rằng cả bốn bộ dữ liệu được hiển thị trong Hình. 23, có cùng tham số hồi quy (Hình 24).

Cơm. 23. Bốn bộ dữ liệu nhân tạo

Cơm. 24. Phân tích hồi quy của bốn bộ dữ liệu nhân tạo; thực hiện với Gói phân tích(bấm vào hình để phóng to hình ảnh)

Vì vậy, từ quan điểm phân tích hồi quy, tất cả các bộ dữ liệu này hoàn toàn giống nhau. Nếu việc phân tích kết thúc ở đó, chúng ta sẽ mất rất nhiều thông tin hữu ích. Điều này được chứng minh bằng các biểu đồ phân tán (Hình 25) và các biểu đồ dư (Hình 26) được xây dựng cho các bộ dữ liệu này.

Cơm. 25. Biểu đồ phân tán cho bốn bộ dữ liệu

Biểu đồ phân tán và biểu đồ dư chỉ ra rằng những dữ liệu này khác nhau. Tập hợp duy nhất phân bố dọc theo đường thẳng là tập hợp A. Đồ thị của phần dư được tính từ tập hợp A không có bất kỳ mẫu nào. Điều này không thể nói về các tập hợp B, C và D. Biểu đồ phân tán được vẽ cho tập hợp B cho thấy một mô hình bậc hai rõ rệt. Kết luận này được xác nhận bằng biểu đồ dư có dạng parabol. Biểu đồ phân tán và biểu đồ phần dư cho thấy tập dữ liệu B chứa giá trị ngoại lệ. Trong tình huống này, cần loại trừ giá trị ngoại lệ khỏi tập dữ liệu và lặp lại phân tích. Một phương pháp phát hiện và loại bỏ các giá trị bất thường trong các quan sát được gọi là phân tích ảnh hưởng. Sau khi loại bỏ ngoại lệ, kết quả ước lượng lại mô hình có thể khác hoàn toàn. Biểu đồ phân tán được vẽ từ dữ liệu từ tập G minh họa một tình huống bất thường trong đó mô hình thực nghiệm phụ thuộc đáng kể vào phản hồi riêng lẻ ( X 8 = 19, Y 8 = 12,5). Những mô hình hồi quy như vậy phải được tính toán đặc biệt cẩn thận. Vì vậy, các ô phân tán và ô dư là cực kỳ công cụ cần thiết phân tích hồi quy và phải là một phần không thể thiếu của nó. Không có chúng, phân tích hồi quy sẽ không đáng tin cậy.

Cơm. 26. Các ô dư cho bốn bộ dữ liệu

Làm sao để tránh cạm bẫy trong phân tích hồi quy:

  • Phân tích mối quan hệ có thể có giữa các biến XY luôn bắt đầu bằng cách vẽ một biểu đồ phân tán.
  • Trước khi diễn giải kết quả phân tích hồi quy, hãy kiểm tra các điều kiện về khả năng áp dụng của nó.
  • Vẽ phần dư so với biến độc lập. Điều này sẽ giúp xác định mức độ phù hợp của mô hình thực nghiệm với các kết quả quan sát và phát hiện sự vi phạm hằng số phương sai.
  • Để kiểm tra giả định về phân phối bình thường lỗi, biểu đồ sử dụng, biểu đồ thân và lá, biểu đồ hộp và biểu đồ phân phối chuẩn.
  • Nếu các điều kiện để áp dụng phương pháp bình phương tối thiểu không được đáp ứng, hãy sử dụng các phương thức thay thế(ví dụ: mô hình hồi quy bậc hai hoặc bội).
  • Nếu đáp ứng các điều kiện áp dụng phương pháp bình phương tối thiểu thì cần kiểm tra giả thuyết về ý nghĩa thống kê của các hệ số hồi quy và xây dựng khoảng tin cậy chứa kỳ vọng toán học và giá trị đáp ứng dự đoán.
  • Tránh dự đoán giá trị của biến phụ thuộc nằm ngoài phạm vi của biến độc lập.
  • Hãy nhớ rằng các mối quan hệ thống kê không phải lúc nào cũng là nguyên nhân và kết quả. Hãy nhớ rằng mối tương quan giữa các biến không có nghĩa là có mối quan hệ nhân quả giữa chúng.

Bản tóm tắt. Như được hiển thị trong sơ đồ khối (Hình 27), ghi chú mô tả mô hình hồi quy tuyến tính đơn giản, các điều kiện áp dụng và cách kiểm tra các điều kiện này. Được xem xét t-tiêu chí kiểm tra ý nghĩa thống kê của độ dốc hồi quy. Để dự đoán giá trị của biến phụ thuộc, chúng tôi đã sử dụng mô hình hồi quy. Một ví dụ được coi là liên quan đến việc lựa chọn địa điểm cho một cửa hàng bán lẻ, trong đó kiểm tra sự phụ thuộc của doanh số hàng năm vào diện tích cửa hàng. Thông tin thu được cho phép bạn chọn chính xác hơn vị trí cho cửa hàng và dự đoán doanh số hàng năm của cửa hàng đó. Các lưu ý sau đây sẽ tiếp tục thảo luận về phân tích hồi quy và cũng xem xét các mô hình hồi quy bội.

Cơm. 27. Sơ đồ kết cấu ghi chú

Tài liệu từ cuốn sách Levin và cộng sự Thống kê dành cho nhà quản lý được sử dụng. – M.: Williams, 2004. – tr. 792–872

Nếu biến phụ thuộc là biến phân loại thì phải sử dụng hồi quy logistic.