• Základy lineární regrese. Metody matematické statistiky. Regresní analýza

    VÝSLEDEK

    Tabulka 8.3a. Regresní statistika
    Regresní statistika
    Více R 0,998364
    R-čtverec 0,99673
    Normalizovaný R-čtverec 0,996321
    standardní chyba 0,42405
    Pozorování 10

    Nejprve zvažte horní část výpočty uvedené v tabulce 8.3a - regresní statistika.

    Hodnota R-kvadrát, nazývaná také míra jistoty, charakterizuje kvalitu výsledné regresní přímky. Tato kvalita je vyjádřena mírou shody mezi původními daty a regresní model(vypočtené údaje). Míra jistoty je vždy v rámci intervalu .

    Ve většině případů je hodnota R-squared mezi těmito hodnotami, nazývanými extrémy, tzn. mezi nulou a jedničkou.

    Pokud se hodnota R-kvadrátu blíží jedné, znamená to, že sestrojený model vysvětluje téměř veškerou variabilitu odpovídajících proměnných. Naopak hodnota R-kvadrát blízká nule znamená špatná kvalita postavený model.

    V našem příkladu je míra jistoty 0,99673, což indikuje velmi dobrou shodu regresní přímky s původními daty.

    Více R- koeficient vícenásobné korelace R - vyjadřuje míru závislosti nezávisle proměnných (X) a závislé proměnné (Y).

    Více R se rovná odmocnina z koeficientu determinace tato hodnota nabývá hodnot v rozsahu od nuly do jedné.

    V jednoduché lineární regresní analýze se násobek R rovná Pearsonovu korelačnímu koeficientu. Skutečně, násobek R je v našem případě roven Pearsonovu korelačnímu koeficientu z předchozího příkladu (0,998364).

    Tabulka 8.3b. Regresní koeficienty
    Kurzy standardní chyba t-statistika
    Y-křižovatka 2,694545455 0,33176878 8,121757129
    Proměnná X1 2,305454545 0,04668634 49,38177965
    * Je uvedena zkrácená verze výpočtů

    Nyní zvažte střední část výpočtů uvedených v tabulce 8.3b. Zde je uveden regresní koeficient b (2,305454545) a posun podél osy y, tzn. konstanta a (2,694545455).

    Na základě výpočtů můžeme napsat regresní rovnici takto:

    Y= x*2,305454545 + 2,694545455

    Směr vztahu mezi proměnnými je určen na základě znamének (negativní nebo pozitivní) regresní koeficienty(koeficient b).

    Pokud je podepsat na regresní koeficient- pozitivní, vztah závislé proměnné s nezávislou bude kladný. V našem případě je znaménko regresního koeficientu kladné, tedy i vztah kladný.

    Pokud je podepsat na regresní koeficient- negativní, vztah mezi závisle proměnnou a nezávisle proměnnou je negativní (inverzní).

    V tabulce 8.3c. jsou uvedeny výsledky výstupu reziduí. Aby se tyto výsledky objevily v přehledu, je nutné při spuštění nástroje "Regrese" aktivovat zaškrtávací políčko "Residuals".

    ZBÝVAJÍCÍ ODBĚR

    Tabulka 8.3c. Zůstává
    Pozorování Předpokládaný Y Zůstává Standardní zůstatky
    1 9,610909091 -0,610909091 -1,528044662
    2 7,305454545 -0,305454545 -0,764022331
    3 11,91636364 0,083636364 0,209196591
    4 14,22181818 0,778181818 1,946437843
    5 16,52727273 0,472727273 1,182415512
    6 18,83272727 0,167272727 0,418393181
    7 21,13818182 -0,138181818 -0,34562915
    8 23,44363636 -0,043636364 -0,109146047
    9 25,74909091 -0,149090909 -0,372915662
    10 28,05454545 -0,254545455 -0,636685276

    Pomocí této části zprávy můžeme vidět odchylky každého bodu od sestrojené regresní přímky. Největší absolutní hodnota

    Hodnocení kvality regresní rovnice pomocí koeficientů determinace. Testování nulové hypotézy o významnosti rovnice a ukazatelů těsnosti spoje pomocí Fisherova F-testu.

    Směrodatné chyby koeficientů.

    Regresní rovnice vypadá takto:

    Y =3378,41 -494,59X 1 -35,00X2 +75,74X 3 -15,81X4 +80,10X5 +59,84X6+
    (1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
    +127,98X7 -78,10X8 -437,57X9 +451,26X 10 -299,91 x 11 -14,93 x 12 -369,65X 13 (9)
    (22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

    Pro vyplnění tabulky "Regresní statistika" (Tabulka 9) zjistíme:

    1. Více R– r-korelační koeficient mezi y a ŷ.

    K tomu použijte funkci CORREL zadáním polí y a ŷ.

    Výsledné číslo 0,99 se blíží 1, což ukazuje na velmi silný vztah mezi experimentálními daty a vypočtenými.

    2. Pro výpočet R-čtverec shledáváme:

    Vysvětlená chyba 17455259,48,

    Nevysvětlitelná chyba .

    Proto R-squared je .

    V souladu s tím lze 97 % experimentálních dat vysvětlit získanou regresní rovnicí.

    3. Normalizovaný R-čtverec najít podle vzorce

    Tento ukazatel slouží k porovnání různé modely regrese se změnou složení vysvětlujících proměnných.

    4. standardní chyba je druhá odmocnina zbytkového rozptylu vzorku:

    Výsledkem je následující tabulka.

    Tabulka 9

    Vyplnění tabulky "Analýza rozptylu"

    Většina dat již byla přijata výše. (Vysvětlená a nevysvětlená chyba).

    Vypočítejte t wx:val="Cambria Math"/> 13 = 1342712,27"> .



    Statistickou významnost regresní rovnice jako celku odhadneme pomocí F- Fisherovo kritérium. Rovnice vícenásobná regrese signifikantní (v opačném případě je hypotéza H 0 o rovnosti parametrů regresního modelu k nule, tj. zamítnuta), pokud

    , (10)

    kde je tabulková hodnota Fisherova F-testu.

    skutečná hodnota F- kritériem podle vzorce bude:

    Pro výpočet tabulková hodnota Jako Fisherovo kritérium je použita funkce FDISP (obrázek 4).

    Stupeň volnosti 1: p=13

    Stupeň volnosti 2: n-p-1 = 20-13-1=6

    Obrázek 4. Použití funkce FDISP v Excelu.

    F tabulka = 3,976< 16,88, следовательно, модель адекватна опытным данным.

    Význam F se vypočítá pomocí funkce FDIST. Tato funkce vrací rozdělení F-pravděpodobnosti (Fisherovo rozdělení) a umožňuje určit, zda dvě sady dat mají ve výsledcích různé stupně rozptylu.

    Obrázek 5. Použití funkce FRIST v Excelu.

    Významnost F = 0,001.

    ZPRÁVA

    Úkol: zvážit postup regresní analýzy na základě dat (prodejní cena a obytná plocha) o 23 nemovitostech.

    Provozní režim "Regrese" se používá k výpočtu parametrů rovnice lineární regrese a ověření jeho přiměřenosti ke studovanému procesu.

    Chcete-li vyřešit problém regresní analýzy v MS Excel, vyberte z nabídky Servis příkaz Analýza dat a analytický nástroj" Regrese".

    V zobrazeném dialogovém okně nastavte následující parametry:

    1. Vstupní interval Y- toto je rozsah údajů o efektivním atributu. Musí to být jeden sloupec.

    2. Vstupní interval X je rozsah buněk obsahujících hodnoty faktorů (nezávislé proměnné). Počet vstupních rozsahů (sloupců) nesmí překročit 16.

    3. Zaškrtávací políčko Tagy, se nastaví, pokud první řádek rozsahu obsahuje nadpis.

    4. Zaškrtávací políčko Úroveň spolehlivosti se aktivuje, pokud je nutné do pole vedle zadat jinou než výchozí úroveň spolehlivosti. Slouží k testování významnosti koeficientu determinace R 2 a regresních koeficientů.

    5. Konstantní nula. Toto zaškrtávací políčko musí být nastaveno, pokud regresní přímka musí procházet počátkem (a 0 = 0).

    6. Výstupní interval/ Nový pracovní list/ Nový pracovní sešit - zadejte adresu levé horní buňky výstupního rozsahu.

    7. Zaškrtávací políčka ve skupině Zůstává jsou nastaveny, pokud chcete do výstupního rozsahu zahrnout odpovídající sloupce nebo grafy.

    8. Pokud chcete na listu zobrazit bodový graf pozorovaných hodnot Y versus automaticky generované percentilové intervaly, musí být zaškrtnuto políčko Normální pravděpodobnostní graf.

    Po stisknutí tlačítka OK ve výstupním rozsahu získáme report.

    Pomocí sady nástrojů pro analýzu dat provedeme regresní analýzu původních dat.

    Nástroj regresní analýzy se používá k přizpůsobení parametrů regresní rovnice pomocí metody nejmenších čtverců. Regrese se používá k analýze dopadu na konkrétního závislého hodnotová proměnná jednu nebo více nezávislých proměnných.

    STATISTIKA REGRESE TABULKY

    Hodnota množné číslo R je kořen koeficientu determinace (R-kvadrát). Říká se mu také korelační index nebo vícenásobný korelační koeficient. Vyjadřuje míru závislosti nezávislých proměnných (X1, X2) a závislé proměnné (Y) a rovná se druhé odmocnině determinačního koeficientu, tato hodnota nabývá hodnot v rozsahu od nuly do jedné. V našem případě se rovná 0,7, což ukazuje na významný vztah mezi proměnnými.

    Hodnota R-squared (koeficient determinace), nazývané také míra jistoty, charakterizuje kvalitu výsledné regresní přímky. Tato kvalita je vyjádřena mírou korespondence mezi původními daty a regresním modelem (vypočtenými daty). Míra jistoty je vždy v rámci intervalu .

    V našem případě je hodnota R-squared 0,48, tzn. téměř 50 %, což ukazuje na slabé přizpůsobení regresní přímky původním datům. zjištěná hodnota R-squared = 48 %<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

    Normalizovaný R-čtverec je stejný koeficient determinace, ale upravený pro velikost vzorku.

    Norma R-čtverec=1-(1-R-čtverec)*((n-1)/(n-k)),

    regresní analýza lineární rovnice

    kde n je počet pozorování; k - počet parametrů. V případě přidání nových regresorů (faktorů) je vhodnější použít normalizovaný R-kvadrát, protože jejich zvýšení také zvýší hodnotu R-squared, ale to nebude znamenat zlepšení modelu. Protože v našem případě je získaná hodnota 0,43 (která se od R-kvadrát liší pouze o 0,05), můžeme hovořit o vysoké spolehlivosti koeficientu R-kvadrát.

    standardní chyba ukazuje kvalitu aproximace (aproximace) výsledků pozorování. V našem případě je chyba 5.1. Vypočítejte v procentech: 5,1 / (57,4-40,1) \u003d 0,294? 29 % (Model je považován za lepší, když standardní chyba je<30%)

    Pozorování- udává počet pozorovaných hodnot (23).

    TABULKOVÁ ANALÝZA ANOVA

    Pro získání regresní rovnice se stanoví -statistika - charakteristika přesnosti regresní rovnice, což je poměr té části rozptylu závislé proměnné, která je vysvětlena regresní rovnicí, k nevysvětlené (zbytkové) části regresní rovnice. rozptyl.

    Ve sloupci df- je dán počet stupňů volnosti k.

    U regrese je to počet regresorů (faktorů) - X1 (plocha) a X2 (odhad), tzn. k=2.

    Pro zbytek je to hodnota rovna n-(m + 1), tzn. počet počátečních bodů (23) mínus počet koeficientů (2) a mínus volný termín (1).

    V koloně SS- součty kvadrátů odchylek od střední hodnoty výsledného znaku. Představuje:

    Regresní součet kvadrátů odchylek od střední hodnoty výsledného znaku teoretických hodnot vypočítaných regresní rovnicí.

    Zbytkový součet odchylek počátečních hodnot od teoretických hodnot.

    Celkový součet čtverců odchylek původních hodnot od výsledného prvku.

    Čím větší je regresní součet čtverců odchylek (nebo čím menší je zbytkový součet), tím lépe se regresní rovnice blíží zdrojovému mračnu bodů. V našem případě je zbytková částka cca 50 %. Proto regresní rovnice aproximuje zdrojové mračno bodů velmi špatně.

    Ve sloupci MS- nezaujaté výběrové rozptyly, regrese a rezidua.

    Ve sloupci F hodnota statistiky kritéria byla vypočtena pro testování významnosti regresní rovnice.

    Pro provedení statistického testu významnosti regresní rovnice je formulována nulová hypotéza o absenci vztahu mezi proměnnými (všechny koeficienty pro proměnné jsou rovny nule) a je zvolena hladina významnosti.

    Hladina významnosti je přijatelná pravděpodobnost, že uděláte chybu I. typu – zamítnutí správné nulové hypotézy jako výsledek testování. V tomto případě udělat chybu typu I znamená rozpoznat ze vzorku přítomnost vztahu mezi proměnnými v obecné populaci, i když ve skutečnosti neexistuje. Za hladinu významnosti se obvykle považuje 5 %. Porovnáním získané hodnoty = 9,4 s tabulkovou hodnotou = 3,5 (počet stupňů volnosti je 2, resp. 20) lze říci, že regresní rovnice je významná (F>Fcr).

    Ve sloupci význam F vypočítá se pravděpodobnost získané hodnoty statistiky kritéria. Protože v našem případě tato hodnota = 0,00123, což je méně než 0,05, můžeme říci, že regresní rovnice (závislost) je významná s pravděpodobností 95 %.

    Dva výše popsané pilíře ukazují spolehlivost modelu jako celku.

    Následující tabulka obsahuje koeficienty pro regresory a jejich odhady.

    Řádek průsečíku Y není spojen s žádným regresorem, je to volný koeficient.

    Ve sloupci šance zaznamenají se hodnoty koeficientů regresní rovnice. Takže rovnice dopadla:

    Y=25,6+0,009X1+0,346X2

    Regresní rovnice musí procházet středem počátečního mračna bodů: 13,02? M(b)? 38,26

    Dále porovnáme hodnoty sloupců ve dvojicích Koeficienty a standardní chyba. Je vidět, že v našem případě všechny absolutní hodnoty koeficientů překračují hodnoty standardních chyb. To může naznačovat význam regresorů, nicméně toto je přibližná analýza. Sloupec t-statistika obsahuje přesnější posouzení významnosti koeficientů.

    Ve sloupci t-statistika obsahuje hodnoty t-testu vypočítané podle vzorce:

    t=(koeficient)/(standardní chyba)

    Toto kritérium má Studentovo rozdělení s počtem stupňů volnosti

    n-(k+l)=23-(2+1)=20

    Podle Studentovy tabulky zjistíme hodnotu ttable = 2,086. Porovnávání

    t s ttable dostaneme, že regresorový koeficient X2 je nevýznamný.

    Sloupec p-hodnota představuje pravděpodobnost, že kritická hodnota statistiky použitého testu (Student statistic) překročí hodnotu vypočtenou ze vzorku. V tomto případě srovnáváme p-hodnoty se zvolenou hladinou významnosti (0,05). Je vidět, že pouze koeficient regresoru X2=0,08>0,05 lze považovat za nevýznamný

    Dolní 95% a horní 95% sloupce ukazují hranice pro intervaly spolehlivosti s 95% spolehlivostí. Každý koeficient má své vlastní limity: Koeficient ttable*Standardní chyba

    Intervaly spolehlivosti jsou stavěny pouze pro statisticky významné hodnoty.

    V jeho dílech sahá až do roku 1908. Popsal to na příkladu práce agenta prodávajícího nemovitosti. Specialista na prodej domů ve svých poznámkách vedl záznamy o široké škále vstupních dat pro každou konkrétní budovu. Na základě výsledků aukce bylo určeno, který faktor měl největší vliv na cenu transakce.

    Analýza velký počet nabídky daly zajímavé výsledky. Konečnou cenu ovlivnilo mnoho faktorů, které někdy vedly k paradoxním závěrům a dokonce přímo „odlehlým“, když byl dům s vysokým počátečním potenciálem prodán za nižší cenový ukazatel.

    Druhým příkladem aplikace takové analýzy je práce, která byla pověřena stanovením odměn zaměstnanců. Složitost úkolu spočívala v tom, že bylo požadováno nerozdělovat pevnou částku všem, ale striktně odpovídat její hodnotě konkrétní vykonané práci. Vznik mnoha problémů s prakticky podobným řešením si vyžádal jejich podrobnější studium na matematické úrovni.

    Významné místo bylo věnováno sekci "regresní analýza", která byla kombinována praktické metody používá se ke studiu závislostí, které spadají pod pojem regrese. Tyto vztahy jsou pozorovány mezi údaji získanými v průběhu statistických studií.

    Mezi mnoha úkoly, které je třeba vyřešit, si klade tři hlavní cíle: definici regresní rovnice obecný pohled; vytváření odhadů parametrů, které jsou neznámé, které jsou součástí regresní rovnice; testování statistických regresních hypotéz. V průběhu studia vztahu, který vzniká mezi dvojicí veličin získaných v důsledku experimentálních pozorování a tvořících řadu (množinu) typu (x1, y1), ..., (xn, yn), spoléhají na ustanovení regresní teorie a předpokládají, že pro jednu veličinu Y existuje určitá rozdělení pravděpodobnosti, zatímco ostatní X zůstává pevné.

    Výsledek Y závisí na hodnotě proměnné X, tato závislost může být určena různými vzory, přičemž přesnost získaných výsledků je ovlivněna povahou pozorování a účelem analýzy. Experimentální model je založen na určitých předpokladech, které jsou zjednodušené, ale věrohodné. Hlavní podmínkou je, že parametr X je řízená hodnota. Jeho hodnoty jsou nastaveny před začátkem experimentu.

    Pokud se během experimentu použije dvojice nekontrolovaných hodnot XY, pak se regresní analýza provede stejným způsobem, ale pro interpretaci výsledků, během kterých se vztah studovaného náhodné proměnné, jsou aplikovány metody Metody matematické statistiky nejsou abstraktním tématem. Své uplatnění v životě nacházejí v různých oblastech lidské činnosti.

    Ve vědecké literatuře našel termín lineární regresní analýza široké použití pro definici výše uvedené metody. Pro proměnnou X se používá termín regresor nebo prediktor a závislé proměnné Y se také nazývají kriteriální proměnné. Tato terminologie odráží pouze matematickou závislost proměnných, nikoli však kauzálně-kauzální vztahy.

    Regresní analýza je nejběžnější metodou používanou při zpracování výsledků široké škály pozorování. Fyzické a biologické závislosti jsou studovány pomocí prostředků tato metoda, realizuje se jak v ekonomice, tak v technice. Řada dalších oblastí využívá modely regresní analýzy. S touto metodou studia úzce spolupracuje analýza rozptylu, vícerozměrná statistická analýza.

    Přednáška 4

    1. Prvky statistické analýzy modelu
    2. Kontrola statistické významnosti parametrů regresní rovnice
    3. Analýza rozptylu
    4. Zkouška Celková kvalita regresní rovnice
    5. F-statistika. Fisherovo rozdělení v regresní analýze.

    Při odhadování vztahu mezi endogenními a exogenními proměnnými (y a x) pomocí vzorových dat není vždy možné získat úspěšný regresní model v první fázi. Zároveň by se měla pokaždé hodnotit kvalita výsledného modelu. Kvalita modelu se hodnotí ve 2 oblastech:

    · Statistické vyhodnocení kvalita modelu

    Statistická analýza model obsahuje následující prvky:

    • Kontrola statistické významnosti parametrů regresní rovnice
    • Kontrola celkové kvality regresní rovnice
    • Kontrola vlastností dat, které měly být splněny při vyhodnocování rovnice

    Statistická významnost parametrů regresní rovnice je určena t-statistikou nebo Studentovou statistikou. Tak:

    tb je t-statistika pro regresní koeficient b

    mb je standardní chyba regresního koeficientu.

    Vypočítá se také t-statistika pro korelační koeficienty R:

    Tedy tb^2=t r^2=F. To znamená, že testování statistické významnosti regresního koeficientu b je ekvivalentní testování statistické významnosti korelačního koeficientu

    Korelační koeficient ukazuje těsnost korelace (mezi x a y).

    Pro lineární regresi je korelační koeficient:

    Pro stanovení těsnosti spoje se obvykle používá tabulka Cheglok.

    R 0,1 - 0,3 slabé

    R 0,3 - 0,5 střední

    R 0,5-,07 patrné

    R 0,7-0,9 vysoká

    R 0,9 až 0,99 velmi vysoký vztah mezi x a y

    Korelační koeficient -1

    Často se pro praktické účely vypočítává koeficient pružnosti, koeficient beta:

    Elasticita funkce y \u003d f (x) je limit poměru relativních proměnných y a x

    Elasticita ukazuje, o kolik % se změní y, když se x změní o 1 %.

    Pro párovou lineární regresi se koeficient pružnosti vypočítá podle vzorce:

    Ukazuje, o kolik %-v y se v průměru změní, když se x změní v průměru o 1 %.

    Koeficient beta je:

    – střední kvadratická odchylka x

    – Střední kvadratická odchylka y

    Koeficient beta ukazuje, jak moc se jeho směrodatná odchylka y změní, když se x změní o velikost jeho směrodatné odchylky.


    Analýza rozptylu

    V analýze rozptylu zaujímá zvláštní místo rozklad celkového součtu kvadrátů odchylek proměnné y od průměru na dvě části: součet vysvětlený regresí a součet nevysvětlený regresí.

    Celkový součet čtverců odchylek se rovná součtu čtverců odchylek vysvětlené regrese plus reziduální součet čtverců odchylek.

    Tyto součty souvisí s počtem stupňů volnosti df - to je počet volnosti nezávislých variací znaků.

    Takže celkový součet čtverců odchylek má celkový počet stupňů volnosti (n - 1).

    Součet čtverců odchylek vysvětlených regresí má stupeň volnosti 1, protože proměnná závisí na jedné hodnotě - regresním koeficientu b.

    Mezi počtem stupňů volnosti je rovnost, od které:

    N - 1 \u003d 1 + n - 2

    Každý součet vydělíme odpovídajícím počtem stupňů volnosti, dostaneme průměrnou druhou mocninu odchylek nebo rozptylu:

    D celkem = D fakt + D zbytek

    Posoudit celkovou kvalitu regresní rovnice znamená zjistit, zda matematický model, který vyjadřuje vztah mezi proměnnými, odpovídá experimentálním datům a zda je v modelu zahrnut dostatek proměnných pro vysvětlení y.

    Posoudit obecné kvality modelu = vyhodnotit spolehlivost modelu = vyhodnotit spolehlivost regresní rovnice.

    Hodnocení celkové kvality regresního modelu se provádí na základě analýzy rozptylu. Pro posouzení kvality modelu se vypočítá koeficient determinace:

    V čitateli výběrový odhad zbytkového rozptylu, ve jmenovateli výběrový odhad celkového rozptylu.

    Koeficient determinace charakterizuje podíl variace v závislé proměnné, vysvětlený pomocí regresní rovnice.

    Pokud je tedy R na druhou 0,97, znamená to, že 97 % změny y je způsobeno změnou x.

    Čím blíže je R na druhou k jedné, tím silnější je statisticky významný lineární vztah mezi x a y.

    Pro získání nezkreslených odhadů rozptylu (koeficientu determinace) se čitatel i jmenovatel ve vzorci vydělí odpovídajícím počtem stupňů volnosti:

    Pro určení statistické významnosti koeficientu determinace R na druhou se testuje nulová hypotéza pro F-statistiku vypočítanou podle vzorce:

    Pro parní lineární:

    F-vypočteno je porovnáno s hodnotou statistiky v tabulce. F-tabulka je uvažována s počtem stupňů volnosti m, n-m-1, na hladině významnosti alfa.

    Pokud F calc> F table pak je nulová hypotéza zamítnuta, hypotéza statistické významnosti koeficientu determinace R čtverec je přijata.

    Fisherův F-test = faktoriální rozptyl / na zbytkový rozptyl:

    Přednáška č. 5

    Kontrola vlastností dat, jejichž splnění se očekávalo při vyhodnocování regresní rovnice

    1. Autokorelace v reziduích

    2. Durbin-Watsonova statistika

    3. Příklady

    Při odhadu parametrů regresního modelu se předpokládá, že odchylka

    1. Pokud vztah mezi x a y není lineární.

    2. Vztah mezi proměnnými x a y je lineární, ale zkoumaný ukazatel je ovlivněn faktorem, který není součástí modelu. Hodnota takového faktoru může v uvažovaném období měnit svou dynamiku. To platí zejména pro proměnné zpoždění.

    Oba důvody naznačují, že výslednou regresní rovnici lze zlepšit odhadem nelineární závislosti nebo přidáním dalšího faktoru k původnímu modelu.

    Čtvrtý předpoklad metody nejmenších čtverců říká, že odchylky jsou na sobě nezávislé, nicméně při studiu a analýze výchozích dat v praxi nastávají situace, kdy tyto odchylky obsahují trend nebo cyklické výkyvy.