La méthode des moindres carrés est construite sur la condition. Finger Math : méthodes des moindres carrés

Essence de méthode moindres carrés est à trouver les paramètres d'un modèle de tendance qui décrivent le mieux la tendance de développement d'un phénomène aléatoire dans le temps ou dans l'espace (une tendance est une ligne qui caractérise la tendance de ce développement). La tâche de la méthode des moindres carrés (OLS) est de trouver non seulement un modèle de tendance, mais de trouver le meilleur modèle ou le modèle optimal. Ce modèle sera optimal si la somme des écarts au carré entre les valeurs réelles observées et les valeurs de tendance calculées correspondantes est minimale (la plus petite) :

où est l'écart type entre la valeur réelle observée

et la valeur de tendance calculée correspondante,

La valeur réelle (observée) du phénomène étudié,

Valeur estimée du modèle tendanciel,

Le nombre d'observations du phénomène étudié.

Le MNC est rarement utilisé seul. En règle générale, le plus souvent, il n'est utilisé que comme technique nécessaire dans les études de corrélation. Il convient de rappeler que la base d'information du LSM ne peut être qu'une série statistique fiable, et le nombre d'observations ne doit pas être inférieur à 4, faute de quoi les procédures de lissage du LSM risquent de perdre leur bon sens.

La boîte à outils OLS est réduite aux procédures suivantes :

Première procédure. Il s'avère s'il existe une quelconque tendance à modifier l'attribut résultant lorsque l'argument facteur sélectionné change, ou en d'autres termes, s'il existe un lien entre " à " et " X ».

Deuxième procédure. On détermine quelle ligne (trajectoire) est la mieux à même de décrire ou de caractériser cette tendance.

Troisième procédure.

Exemple. Supposons que nous disposions d'informations sur le rendement moyen en tournesol de l'exploitation étudiée (tableau 9.1).

Tableau 9.1

Numéro d'observation

Productivité, c/ha

Étant donné que le niveau de technologie dans la production de tournesol dans notre pays n'a pas beaucoup changé au cours des 10 dernières années, cela signifie que, très probablement, les fluctuations de rendement au cours de la période analysée dépendaient beaucoup des fluctuations des conditions météorologiques et climatiques. Est-ce vrai?

Première procédure MNC. L'hypothèse de l'existence d'une évolution tendancielle de l'évolution du rendement en tournesol en fonction de l'évolution des conditions météorologiques et climatiques sur les 10 années analysées est en cours de test.

Dans cet exemple, pour " y » il convient de prendre le rendement du tournesol, et pour « X » est le numéro de l'année observée dans la période analysée. Tester l'hypothèse sur l'existence d'une relation entre " X " et " y » peut se faire de deux manières : manuellement et en utilisant logiciels d'ordinateur. Bien sûr, avec les ordinateurs ce problème se résout. Mais, afin de mieux comprendre la boîte à outils OLS, il convient de tester l'hypothèse sur l'existence d'une relation entre " X " et " y » manuellement, quand seuls un stylo et une calculatrice ordinaire sont à portée de main. Dans de tels cas, l'hypothèse de l'existence d'une tendance est mieux vérifiée visuellement par l'emplacement de l'image graphique de la série chronologique analysée - le champ de corrélation :

Le champ de corrélation dans notre exemple est situé autour d'une ligne montant lentement. Cela indique en soi l'existence d'une certaine tendance dans l'évolution du rendement du tournesol. Il est impossible de parler de la présence d'une tendance uniquement lorsque le champ de corrélation ressemble à un cercle, un cercle, un nuage strictement vertical ou strictement horizontal, ou est constitué de points dispersés au hasard. Dans tous les autres cas, il faut confirmer l'hypothèse de l'existence d'une relation entre " X " et " y et poursuivre les recherches.

Deuxième procédure MNC. Il est déterminé quelle ligne (trajectoire) est la mieux à même de décrire ou de caractériser la tendance des changements de rendement du tournesol pour la période analysée.

Avec la disponibilité de la technologie informatique, la sélection de la tendance optimale se produit automatiquement. Avec le traitement "manuel", le choix fonction optimale effectuée, en règle générale, de manière visuelle - par l'emplacement du champ de corrélation. C'est-à-dire que selon le type de graphique, l'équation de la droite est sélectionnée, celle qui convient le mieux à la tendance empirique (à la trajectoire réelle).

Comme vous le savez, dans la nature, il existe une grande variété de dépendances fonctionnelles, il est donc extrêmement difficile d'analyser visuellement même une petite partie d'entre elles. Heureusement, dans la pratique économique réelle, la plupart des relations peuvent être décrites avec précision soit par une parabole, soit par une hyperbole, soit par une ligne droite. À cet égard, avec l'option de sélection "manuelle" meilleure fonction, nous pouvons nous limiter à ces trois modèles uniquement.

Hyperbole:

Parabole du second ordre : :

Il est facile de voir que dans notre exemple, la tendance des changements de rendement du tournesol au cours des 10 années analysées est mieux caractérisée par une ligne droite, de sorte que l'équation de régression sera une équation de ligne droite.

Troisième procédure. Les paramètres de l'équation de régression caractérisant cette ligne sont calculés, ou en d'autres termes, une formule analytique est déterminée qui décrit meilleur modèle tendance.

Trouver les valeurs des paramètres de l'équation de régression, dans notre cas, les paramètres et , est au cœur des moindres carrés. Ce processus se réduit à résoudre un système d'équations normales.

(9.2)

Ce système d'équations est assez facilement résolu par la méthode de Gauss. Rappelons qu'à la suite de la solution, dans notre exemple, les valeurs des paramètres et sont trouvées. Ainsi, l'équation de régression trouvée aura la forme suivante :

Après alignement, on obtient une fonction de la forme suivante : g (x) = x + 1 3 + 1 .

Nous pouvons approximer ces données avec une relation linéaire y = a x + b en calculant les paramètres appropriés. Pour ce faire, nous devrons appliquer la méthode dite des moindres carrés. Vous devrez également faire un dessin pour vérifier quelle ligne alignera le mieux les données expérimentales.

Yandex.RTB R-A-339285-1

Qu'est-ce que l'OLS (méthode des moindres carrés) ?

La principale chose que nous devons faire est de trouver de tels coefficients de dépendance linéaire auxquels la valeur de la fonction de deux variables F (a, b) = ∑ i = 1 n (yi - (axi + b)) 2 sera la plus petite . En d'autres termes, pour certaines valeurs de a et b, la somme des écarts au carré des données présentées par rapport à la droite résultante aura une valeur minimale. C'est le sens de la méthode des moindres carrés. Tout ce que nous avons à faire pour résoudre l'exemple est de trouver l'extremum de la fonction de deux variables.

Comment dériver des formules pour calculer les coefficients

Afin de dériver des formules de calcul des coefficients, il est nécessaire de composer et de résoudre un système d'équations à deux variables. Pour ce faire, on calcule les dérivées partielles de l'expression F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 par rapport à a et b et on les égalise à 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ je = 1 n (yi - (axi + b)) xi = 0 - 2 ∑ je = 1 n ( yi - (axi + b)) = 0 ⇔ une ∑ je = 1 nxi 2 + b ∑ je = 1 nxi = ∑ je = 1 nxiyia ∑ je = 1 nxi + ∑ je = 1 nb = ∑ je = 1 nyi ⇔ une ∑ je = 1 nxi 2 + b ∑ je = 1 nxi = ∑ je = 1 nxiyia ∑ je = 1 nxi + nb = ∑ je = 1 nyi

Pour résoudre un système d'équations, vous pouvez utiliser n'importe quelle méthode, comme la substitution ou la méthode de Cramer. En conséquence, nous devrions obtenir des formules qui calculent les coefficients en utilisant la méthode des moindres carrés.

n ∑ je = 1 n X je y je - ∑ je = 1 n X je ∑ je = 1 n y je n ∑ je = 1 n - ∑ je = 1 n X je 2 b = ∑ je = 1 n y je - une ∑ je = 1 n X je n

Nous avons calculé les valeurs des variables pour lesquelles la fonction
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 prendra la valeur minimale. Dans le troisième paragraphe, nous prouverons pourquoi il en est ainsi.

C'est l'application de la méthode des moindres carrés en pratique. Sa formule, qui est utilisée pour trouver le paramètre a , comprend ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , et le paramètre
n - il dénote la quantité de données expérimentales. Nous vous conseillons de calculer chaque montant séparément. La valeur du coefficient b est calculée immédiatement après a .

Revenons à l'exemple initial.

Exemple 1

Ici, nous avons n égal à cinq. Pour faciliter le calcul des montants requis inclus dans les formules de coefficients, nous remplissons le tableau.

je = 1 je = 2 je = 3 je = 4 je = 5 ∑ je = 1 5
x je 0 1 2 4 5 12
et je 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x je y je 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x je 2 0 1 4 16 25 46

Solution

La quatrième ligne contient les données obtenues en multipliant les valeurs de la deuxième ligne par les valeurs de la troisième pour chaque individu i . La cinquième ligne contient les données du deuxième carré. La dernière colonne montre les sommes des valeurs des lignes individuelles.

Utilisons la méthode des moindres carrés pour calculer les coefficients a et b dont nous avons besoin. Pour cela, nous substituons valeurs souhaitées de la dernière colonne et calculez les sommes :

n ∑ je = 1 nxiyi - ∑ je = 1 nxi ∑ je = 1 nyin ∑ je = 1 n - ∑ je = 1 nxi 2 b = ∑ je = 1 nyi - une ∑ je = 1 nxin ⇒ une = 5 33 , 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - une 12 5 ⇒ une ≈ 0, 165 b ≈ 2, 184

Nous avons compris que la droite d'approximation souhaitée ressemblerait à y = 0 , 165 x + 2 , 184 . Nous devons maintenant déterminer quelle ligne se rapprochera le mieux des données - g (x) = x + 1 3 + 1 ou 0 , 165 x + 2 , 184 . Faisons une estimation en utilisant la méthode des moindres carrés.

Pour calculer l'erreur, nous devons trouver les sommes des écarts au carré des données par rapport aux lignes σ 1 = ∑ i = 1 n (yi - (axi + bi)) 2 et σ 2 = ∑ i = 1 n (yi - g (xi)) 2 , la valeur minimale correspondra à une ligne plus adaptée.

σ 1 = ∑ je = 1 n (yi - (axi + bi)) 2 = = ∑ je = 1 5 (yi - (0 , 165 xi + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ je = 1 n (yi - g (xi)) 2 = = ∑ je = 1 5 (yi - (xi + 1 3 + 1)) 2 ≈ 0 , 096

Réponse: puisque σ 1< σ 2 , то прямой, la meilleure façon approximation des données d'origine sera
y = 0 , 165 x + 2 , 184 .

La méthode des moindres carrés est clairement indiquée dans l'illustration graphique. La ligne rouge marque la ligne droite g (x) = x + 1 3 + 1, la ligne bleue marque y = 0, 165 x + 2, 184. Les données brutes sont marquées de points roses.

Expliquons pourquoi exactement des approximations de ce type sont nécessaires.

Ils peuvent être utilisés dans les problèmes qui nécessitent un lissage des données, ainsi que dans ceux où les données doivent être interpolées ou extrapolées. Par exemple, dans le problème discuté ci-dessus, on pourrait trouver la valeur de la quantité observée y à x = 3 ou à x = 6 . Nous avons consacré un article séparé à ces exemples.

Preuve de la méthode LSM

Pour que la fonction prenne la valeur minimale lorsque a et b sont calculés, il faut qu'à ce point la matrice forme quadratique fonction différentielle de la forme F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 était définie positive. Montrons à quoi cela devrait ressembler.

Exemple 2

On a une différentielle du second ordre de la forme suivante :

ré 2 F (a ; b) = δ 2 F (a ; b) δ une 2 ré 2 a + 2 δ 2 F (a ; b) δ une δ bdadb + δ 2 F (a ; b) δ b 2 d 2b

Solution

δ 2 F (a ; b) δ une 2 = δ δ F (a ; b) δ une δ a = = δ - 2 ∑ je = 1 n (yi - (axi + b)) xi δ a = 2 ∑ je = 1 n (xi) 2 δ 2 F (a ; b) δ une δ b = δ δ F (a ; b) δ une δ b = = δ - 2 ∑ je = 1 n (yi - (axi + b) ) xi δ b = 2 ∑ je = 1 nxi δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ je = 1 n (yi - (axi + b)) δ b = 2 ∑ je = 1 n (1) = 2 n

En d'autres termes, il peut s'écrire comme suit : ré 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 ré 2 une + 2 2 ∑ X i i = 1 n ré a ré b + (2 n) ré 2 b .

Nous avons obtenu une matrice de forme quadratique M = 2 ∑ je = 1 n (x je) 2 2 ∑ je = 1 n x je 2 ∑ je = 1 n x je 2 n .

Dans ce cas, les valeurs des éléments individuels ne changeront pas en fonction de a et b . Cette matrice est-elle définie positive ? Pour répondre à cette question, vérifions si ses mineurs angulaires sont positifs.

Calculez le mineur angulaire du premier ordre : 2 ∑ i = 1 n (x i) 2 > 0 . Comme les points x i ne coïncident pas, l'inégalité est stricte. Nous garderons cela à l'esprit dans les prochains calculs.

On calcule le mineur angulaire du second ordre :

ré e t (M) = 2 ∑ je = 1 n (x je) 2 2 ∑ je = 1 n X je 2 ∑ je = 1 n X je 2 n = 4 n ∑ je = 1 n (x je) 2 - ∑ je = 1 n x je 2

Après cela, nous procédons à la preuve de l'inégalité n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 en utilisant l'induction mathématique.

  1. Vérifions si cette inégalité est valable pour n arbitraire. Prenons 2 et calculons :

2 ∑ je = 1 2 (xi) 2 - ∑ je = 1 2 xi 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Nous avons obtenu la bonne égalité (si les valeurs x 1 et x 2 ne correspondent pas).

  1. Faisons l'hypothèse que cette inégalité sera vraie pour n , c'est-à-dire n ∑ je = 1 n (x je) 2 - ∑ je = 1 n x je 2 > 0 – vrai.
  2. Prouvons maintenant la validité pour n + 1 , c'est-à-dire que (n + 1) ∑ je = 1 n + 1 (xi) 2 - ∑ je = 1 n + 1 xi 2 > 0 si n ∑ je = 1 n (xi) 2 - ∑ je = 1 nxi 2 > 0 .

Nous calculons :

(n + 1) ∑ je = 1 n + 1 (xi) 2 - ∑ je = 1 n + 1 xi 2 = = (n + 1) ∑ je = 1 n (xi) 2 + xn + 1 2 - ∑ je = 1 nxi + xn + 1 2 = = n ∑ je = 1 n (xi) 2 + n xn + 1 2 + ∑ je = 1 n (xi) 2 + xn + 1 2 - - ∑ je = 1 nxi 2 + 2 xn + 1 ∑ je = 1 nxi + xn + 1 2 = = ∑ je = 1 n (xi) 2 - ∑ je = 1 nxi 2 + n xn + 1 2 - xn + 1 ∑ je = 1 nxi + ∑ je = 1 n (xi) 2 = = ∑ je = 1 n (xi) 2 - ∑ je = 1 nxi 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 × 2 + × 2 2 + . . . + xn + 1 2 - 2 xn + 1 x 1 + xn 2 = = n ∑ je = 1 n (xi) 2 - ∑ je = 1 nxi 2 + + (xn + 1 - x 1) 2 + (xn + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

L'expression entre accolades sera supérieure à 0 (sur la base de ce que nous avons supposé à l'étape 2), et le reste des termes sera supérieur à 0 car ce sont tous des carrés de nombres. Nous avons prouvé l'inégalité.

Réponse: trouvé a et b correspondent la plus petite valeur fonctions F (a , b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2, ce qui signifie qu'il s'agit des paramètres souhaités de la méthode des moindres carrés (LSM).

Si vous remarquez une erreur dans le texte, veuillez le mettre en surbrillance et appuyer sur Ctrl+Entrée

Il est largement utilisé en économétrie sous la forme d'une interprétation économique claire de ses paramètres.

La régression linéaire se réduit à trouver une équation de la forme

ou

Équation de type permet des valeurs de paramètre données X avoir des valeurs théoriques de la caractéristique effective, en y substituant les valeurs réelles du facteur X.

Construire une régression linéaire revient à estimer ses paramètres − une et v. Les estimations des paramètres de régression linéaire peuvent être trouvées par différentes méthodes.

L'approche classique d'estimation des paramètres de régression linéaire est basée sur moindres carrés(MNK).

LSM permet d'obtenir de telles estimations de paramètres une et v, sous lequel la somme des écarts au carré des valeurs réelles du trait résultant (y) de calculé (théorique) mini-minimum :

Pour trouver le minimum d'une fonction, il faut calculer les dérivées partielles par rapport à chacun des paramètres une et b et les égaler à zéro.

Dénoter passant par S, alors :

En transformant la formule, nous obtenons le système suivant d'équations normales pour estimer les paramètres une et v:

En résolvant le système d'équations normales (3.5) soit par la méthode des éliminations successives de variables soit par la méthode des déterminants, on trouve les estimations des paramètres recherchés une et v.

Paramètre v appelé coefficient de régression. Sa valeur indique la variation moyenne du résultat avec une variation du facteur d'une unité.

L'équation de régression est toujours complétée par un indicateur de l'étanchéité de la connexion. Lors de l'utilisation de la régression linéaire, le coefficient de corrélation linéaire agit comme un tel indicateur. Il existe diverses modifications de la formule du coefficient de corrélation linéaire. Certains d'entre eux sont énumérés ci-dessous:

Comme vous le savez, le coefficient de corrélation linéaire est dans les limites : -1 1.

Pour évaluer la qualité de la sélection fonction linéaire le carré est calculé

Un coefficient de corrélation linéaire appelé coefficient de détermination . Le coefficient de détermination caractérise la proportion de la variance de la caractéristique effective y, expliqué par régression, dans la variance totale du trait résultant :

En conséquence, la valeur 1 - caractérise la proportion de dispersion y, causée par l'influence d'autres facteurs non pris en compte dans le modèle.

Questions pour la maîtrise de soi

1. L'essence de la méthode des moindres carrés ?

2. Combien de variables fournissent une régression par paire ?

3. Quel coefficient détermine l'étroitesse du lien entre les changements ?

4. Dans quelles limites le coefficient de détermination est-il déterminé ?

5. Estimation du paramètre b dans l'analyse de corrélation-régression ?

1. Christopher Dougherty. Introduction à l'économétrie. - M. : INFRA-M, 2001 - 402 p.

2. S.A. Borodich. Économétrie. Minsk LLC "Nouvelles connaissances" 2001.


3. R.U. Rakhmetov De courte durée en économétrie. Didacticiel. Almaty. 2004. -78s.

4. I.I. Eliseeva Économétrie. - M. : "Finances et statistiques", 2002

5. Magazine mensuel d'information et d'analyse.

Modèles économiques non linéaires. Modèles de régression non linéaires. Conversion variable.

Modèles économiques non linéaires..

Conversion variable.

coefficient d'élasticité.

S'il existe des relations non linéaires entre des phénomènes économiques, alors elles sont exprimées à l'aide des fonctions non linéaires correspondantes : par exemple, une hyperbole équilatérale , paraboles du second degré et etc.

Il existe deux classes de régressions non linéaires :

1. Régressions non linéaires par rapport aux variables explicatives incluses dans l'analyse, mais linéaires par rapport aux paramètres estimés, par exemple :

Polynômes de divers degrés - , ;

Hyperbole équilatérale - ;

Fonction semilogarithmique - .

2. Régressions non linéaires dans les paramètres estimés, par exemple :

Pouvoir - ;

Démonstratif - ;

Exponentiel - .

La somme totale des écarts au carré des valeurs individuelles de l'attribut résultant à de la valeur moyenne est causée par l'influence de nombreux facteurs. Nous divisons conditionnellement l'ensemble des raisons en deux groupes : facteur étudié x et autres facteurs.

Si le facteur n'affecte pas le résultat, la ligne de régression sur le graphique est parallèle à l'axe Oh et

Ensuite, toute la dispersion de l'attribut résultant est due à l'influence d'autres facteurs et la somme totale des écarts au carré coïncidera avec le résidu. Si d'autres facteurs n'affectent pas le résultat, alors tu es attaché Avec X fonctionnellement, et la somme résiduelle des carrés est nulle. Dans ce cas, la somme des carrés des écarts expliqués par la régression est la même que la somme totale des carrés.

Étant donné que tous les points du champ de corrélation ne se trouvent pas sur la ligne de régression, leur dispersion a toujours lieu en raison de l'influence du facteur X, c'est-à-dire la régression à au X, et causée par l'action d'autres causes (variation inexpliquée). La pertinence de la ligne de régression pour la prévision dépend de la part de la variation totale du trait à explique la variation expliquée

De toute évidence, si la somme des écarts au carré dus à la régression est supérieure à la somme résiduelle des carrés, alors l'équation de régression est statistiquement significative et le facteur X a un impact significatif sur le résultat. y.

, c'est-à-dire avec le nombre de liberté de variation indépendante de la caractéristique. Le nombre de degrés de liberté est lié au nombre d'unités de la population n et au nombre de constantes déterminées à partir de celui-ci. En relation avec le problème à l'étude, le nombre de degrés de liberté doit montrer combien d'écarts indépendants par rapport à P

L'évaluation de la signification de l'équation de régression dans son ensemble est donnée à l'aide de F- Critère de Fisher. Dans ce cas, une hypothèse nulle est émise que le coefficient de régression est égal à zéro, c'est-à-dire b= 0, et donc le facteur X n'affecte pas le résultat y.

Le calcul direct du critère F est précédé d'une analyse de la variance. Emplacement central il prend l'expansion de la somme totale des écarts au carré de la variable à de la valeur moyenne à en deux parties - "expliqué" et "inexpliqué":

- somme totale des écarts au carré ;

- somme des écarts au carré expliqués par régression ;

est la somme résiduelle des carrés de l'écart.

Toute somme d'écarts au carré est liée au nombre de degrés de liberté , c'est-à-dire avec le nombre de liberté de variation indépendante de la caractéristique. Le nombre de degrés de liberté est lié au nombre d'unités de population n et avec le nombre de constantes déterminé à partir de celui-ci. En relation avec le problème à l'étude, le nombre de degrés de liberté doit montrer combien d'écarts indépendants par rapport à P possible est nécessaire pour former une somme de carrés donnée.

Dispersion par degré de liberté.

Rapports F (critère F) :

Si l'hypothèse nulle est vraie, alors les variances factorielle et résiduelle ne diffèrent pas l'une de l'autre. Pour H 0, une réfutation est nécessaire pour que la variance du facteur dépasse le résidu de plusieurs fois. Le statisticien anglais Snedecor a développé des tables de valeurs critiques F-les relations à différents niveaux de signification de l'hypothèse nulle et divers numéros degrés de liberté. Valeur du tableau F-critère est la valeur maximale du rapport des variances pouvant survenir si elles divergent aléatoirement pour un niveau donné de probabilité de présence d'une hypothèse nulle. Valeur calculée F-la relation est reconnue comme fiable si o est supérieur à celui tabulaire.

Dans ce cas, l'hypothèse nulle sur l'absence d'une relation de caractéristiques est rejetée et une conclusion est tirée sur la signification de cette relation : F fait > F tableau H 0 est rejeté.

Si la valeur est inférieure à la table F fait ‹, F tableau, alors la probabilité de l'hypothèse nulle est plus élevée niveau prédéfini et elle ne peut être rejetée sans risque sérieux de fausser la connexion. Dans ce cas, l'équation de régression est considérée comme statistiquement non significative. N o ne s'écarte pas.

Erreur type du coefficient de régression

Pour évaluer la signification du coefficient de régression, sa valeur est comparée à son erreur standard, c'est-à-dire que la valeur réelle est déterminée t-Critère de l'étudiant : qui est ensuite comparée à la valeur tabulaire à un certain niveau de signification et au nombre de degrés de liberté ( n- 2).

Paramètre Erreur standard une:

La signification du coefficient de corrélation linéaire est vérifiée en fonction de l'ampleur de l'erreur Coefficient de corrélation r :

Variance totale d'une caractéristique X:

La régression linéaire multiple

Modélisme

Régression multiple est une régression d'une caractéristique effective avec deux facteurs ou plus, c'est-à-dire un modèle de la forme

la régression peut donner bon résultat lors de la modélisation, si l'influence d'autres facteurs affectant l'objet d'étude peut être négligée. Le comportement des variables économiques individuelles ne peut pas être contrôlé, c'est-à-dire qu'il n'est pas possible d'assurer l'égalité de toutes les autres conditions pour évaluer l'influence d'un facteur à l'étude. Dans ce cas, il faut essayer d'identifier l'influence d'autres facteurs en les introduisant dans le modèle, c'est-à-dire construire une équation de régression multiple : y = a+b 1 x 1 +b 2 +…+b p x p + .

L'objectif principal de la régression multiple est de construire un modèle avec un grand nombre de facteurs, tout en déterminant l'influence de chacun d'eux individuellement, ainsi que leur impact cumulé sur l'indicateur modélisé. La spécification du modèle comprend deux domaines de questions : la sélection des facteurs et le choix du type d'équation de régression

Nous approchons la fonction par un polynôme du 2ème degré. Pour ce faire, on calcule les coefficients du système normal d'équations :

, ,

Composons un système normal de moindres carrés, qui a la forme :

La solution du système est facile à trouver :, , .

Ainsi, le polynôme du 2ème degré se trouve : .

Référence théorique

Retour à la page<Введение в вычислительную математику. Примеры>

Exemple 2. Trouver le degré optimal d'un polynôme.

Retour à la page<Введение в вычислительную математику. Примеры>

Exemple 3. Dérivation d'un système normal d'équations pour trouver les paramètres d'une dépendance empirique.

Dérivons un système d'équations pour déterminer les coefficients et les fonctions , qui effectue l'approximation de la moyenne quadratique de la fonction donnée par rapport aux points. Composer une fonction et écrire pour elle condition nécessaire extrême :

Alors le système normal prendra la forme :

A reçu système linéaireéquations pour des paramètres inconnus et qui est facilement résolue.

Référence théorique

Retour à la page<Введение в вычислительную математику. Примеры>

Exemple.

Données expérimentales sur les valeurs des variables X et à sont donnés dans le tableau.

Du fait de leur alignement, la fonction

Utilisant méthode des moindres carrés, approximer ces données avec une dépendance linéaire y=ax+b(trouver des options une et b). Découvrez laquelle des deux lignes est la meilleure (au sens de la méthode des moindres carrés) aligne les données expérimentales. Faites un dessin.

L'essence de la méthode des moindres carrés (LSM).

Le problème est de trouver les coefficients de dépendance linéaire pour lesquels la fonction de deux variables une et bprend la plus petite valeur. C'est-à-dire que compte tenu des données une et b la somme des écarts au carré des données expérimentales par rapport à la ligne droite trouvée sera la plus petite. C'est tout l'intérêt de la méthode des moindres carrés.

Ainsi, la solution de l'exemple se réduit à trouver l'extremum d'une fonction de deux variables.

Dérivation de formules pour trouver des coefficients.

Un système de deux équations à deux inconnues est compilé et résolu. Trouver des dérivées partielles de fonctions par variables une et b, on égalise ces dérivées à zéro.

Nous résolvons le système d'équations résultant par n'importe quelle méthode (par exemple méthode de substitution ou la méthode de Cramer) et obtenir des formules pour trouver des coefficients en utilisant la méthode des moindres carrés (LSM).

Avec des données une et b une fonction prend la plus petite valeur. La preuve de ce fait est donnée ci-dessous dans le texte en fin de page.

C'est toute la méthode des moindres carrés. Formule pour trouver le paramètre une contient les sommes , , , et le paramètre n est la quantité de données expérimentales. Il est recommandé de calculer séparément les valeurs de ces sommes.

Coefficient b trouvé après calcul une.

Il est temps de se souvenir de l'exemple original.

Solution.

Dans notre exemple n=5. Nous remplissons le tableau pour faciliter le calcul des montants inclus dans les formules des coefficients requis.

Les valeurs de la quatrième ligne du tableau sont obtenues en multipliant les valeurs de la 2ème ligne par les valeurs de la 3ème ligne pour chaque nombre je.

Les valeurs de la cinquième ligne du tableau sont obtenues en mettant au carré les valeurs de la 2ème ligne pour chaque nombre je.

Les valeurs de la dernière colonne du tableau sont les sommes des valeurs sur les lignes.

On utilise les formules de la méthode des moindres carrés pour trouver les coefficients une et b. Nous y substituons les valeurs correspondantes de la dernière colonne du tableau:

D'où, y=0,165x+2,184 est la droite d'approximation souhaitée.

Reste à savoir laquelle des lignes y=0,165x+2,184 ou mieux se rapprocher des données d'origine, c'est-à-dire faire une estimation en utilisant la méthode des moindres carrés.

Estimation de l'erreur de la méthode des moindres carrés.

Pour ce faire, vous devez calculer les sommes des écarts au carré des données d'origine à partir de ces lignes et , une valeur plus petite correspond à une ligne qui se rapproche le plus des données d'origine selon la méthode des moindres carrés.

Puisque , alors la ligne y=0,165x+2,184 se rapproche mieux des données d'origine.

Illustration graphique de la méthode des moindres carrés (LSM).

Tout a l'air bien sur les cartes. La ligne rouge est la ligne trouvée y=0,165x+2,184, la ligne bleue est , les points roses sont les données d'origine.

A quoi ça sert, à quoi servent toutes ces approximations ?

J'utilise personnellement pour résoudre des problèmes de lissage de données, des problèmes d'interpolation et d'extrapolation (dans l'exemple original, on pourrait vous demander de trouver la valeur de la valeur observée yà x=3 ou lorsque x=6 selon la méthode MNC). Mais nous en reparlerons plus tard dans une autre section du site.

Haut de page

Preuve.

Alors que lorsqu'il est trouvé une et b fonction prend la plus petite valeur, il faut qu'à ce point la matrice de la forme quadratique de la différentielle du second ordre pour la fonction était défini positif. Montrons-le.

La différentielle du second ordre a la forme :

C'est-à-dire

Par conséquent, la matrice de la forme quadratique a la forme

et les valeurs des éléments ne dépendent pas de une et b.

Montrons que la matrice est définie positive. Cela nécessite que les mineurs d'angle soient positifs.

Mineur angulaire du premier ordre . L'inégalité est stricte, puisque les points ne coïncident pas. Cela sera sous-entendu dans ce qui suit.

Mineur angulaire du second ordre

Prouvons que méthode d'induction mathématique.

Conclusion: valeurs trouvées une et b correspond à la plus petite valeur de la fonction , par conséquent, sont les paramètres souhaités pour la méthode des moindres carrés.

Avez-vous déjà compris?
Commandez une solution

Haut de page

Élaboration d'une prévision par la méthode des moindres carrés. Exemple de solution de problème

Extrapolation est une méthode recherche scientifique, qui est basé sur la distribution des tendances passées et présentes, des modèles, des relations avec le développement futur de l'objet de prévision. Les méthodes d'extrapolation comprennent méthode de la moyenne mobile, méthode de lissage exponentiel, méthode des moindres carrés.

Essence méthode des moindres carrés consiste à minimiser la somme des écarts au carré entre les valeurs observées et calculées. Les valeurs calculées sont trouvées selon l'équation sélectionnée - l'équation de régression. Plus la distance entre les valeurs réelles et celles calculées est petite, plus la prévision basée sur l'équation de régression est précise.

L'analyse théorique de l'essence du phénomène étudié, dont l'évolution est affichée par une série temporelle, sert de base au choix d'une courbe. Des considérations sur la nature de la croissance des niveaux de la série sont parfois prises en compte. Ainsi, si la croissance de la production est attendue selon une progression arithmétique, le lissage est effectué en ligne droite. S'il s'avère que la croissance est exponentielle, le lissage doit être effectué selon la fonction exponentielle.

La formule de travail de la méthode des moindres carrés : Oui t+1 = a*X + b, où t + 1 est la période de prévision ; Уt+1 – indicateur prédit ; a et b sont des coefficients ; X - symbole temps.

Les coefficients a et b sont calculés selon les formules suivantes :

où, Uf - les valeurs réelles de la série de dynamiques; n est le nombre de niveaux dans la série chronologique ;

Le lissage des séries temporelles par la méthode des moindres carrés permet de refléter les schémas d'évolution du phénomène étudié. Dans l'expression analytique d'une tendance, le temps est considéré comme une variable indépendante, et les niveaux de la série agissent en fonction de cette variable indépendante.

Le développement d'un phénomène ne dépend pas du nombre d'années qui se sont écoulées depuis le point de départ, mais des facteurs qui ont influencé son développement, dans quelle direction et avec quelle intensité. Il en ressort clairement que le développement d'un phénomène dans le temps apparaît comme le résultat de l'action de ces facteurs.

Définir correctement le type de courbe, le type de dépendance analytique au temps est l'une des tâches les plus difficiles de l'analyse pré-prédictive. .

Le choix du type de fonction décrivant la tendance, dont les paramètres sont déterminés par la méthode des moindres carrés, est le plus souvent empirique, en construisant plusieurs fonctions et en les comparant entre elles par la valeur de la racine -erreur quadratique moyenne, calculée par la formule :

où Uf - les valeurs réelles de la série de dynamiques; Ur – valeurs calculées (lissées) de la série chronologique ; n est le nombre de niveaux dans la série chronologique ; p est le nombre de paramètres définis dans les formules décrivant la tendance (tendance d'évolution).

Inconvénients de la méthode des moindres carrés :

  • lorsqu'on essaie de décrire le phénomène économique à l'étude à l'aide d'une équation mathématique, la prévision sera exacte pendant une courte période et l'équation de régression devra être recalculée au fur et à mesure que de nouvelles informations deviennent disponibles ;
  • la complexité de la sélection de l'équation de régression, qui peut être résolue à l'aide de programmes informatiques standard.

Un exemple d'utilisation de la méthode des moindres carrés pour développer une prévision

Tâche . Il existe des données caractérisant le niveau de chômage dans la région, %

  • Construire une prévision du taux de chômage de la région pour les mois de novembre, décembre, janvier, en utilisant les méthodes : moyenne mobile, lissage exponentiel, moindres carrés.
  • Calculez les erreurs dans les prévisions résultantes en utilisant chaque méthode.
  • Comparez les résultats obtenus, tirez des conclusions.

Solution des moindres carrés

Pour la solution, nous ferons un tableau dans lequel nous produirons calculs nécessaires:

e = 28,63/10 = 2,86 % précision de la prévision haut.

Conclusion : Comparer les résultats obtenus dans les calculs méthode de la moyenne mobile , lissage exponentiel et la méthode des moindres carrés, on peut dire que l'erreur relative moyenne dans les calculs par la méthode de lissage exponentiel se situe entre 20 et 50 %. Cela signifie que la précision de la prédiction dans ce cas n'est que satisfaisante.

Dans les premier et troisième cas, la précision des prévisions est élevée, puisque l'erreur relative moyenne est inférieure à 10 %. Mais la méthode de la moyenne mobile a permis d'obtenir des résultats plus fiables (prévision pour novembre - 1,52%, prévision pour décembre - 1,53%, prévision pour janvier - 1,49%), puisque l'erreur relative moyenne lors de l'utilisation de cette méthode est la plus petite - 1 ,treize%.

Méthode des moindres carrés

Autres articles liés :

Liste des sources utilisées

  1. Recommandations scientifiques et méthodologiques sur les enjeux de diagnostic des risques sociaux et de prévision des enjeux, menaces et conséquences sociales. Université sociale d'État russe. Moscou. 2010 ;
  2. Vladimirova L.P. Prévision et planification en conditions de marché : Proc. allocation. M.: Maison d'édition "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Prévision de l'économie nationale : guide pédagogique et méthodologique. Iekaterinbourg : Maison d'édition Ural. Etat économie université, 2007 ;
  4. Slutskin LN Cours de MBA en prévision d'affaires. Moscou: Alpina Business Books, 2006.

Programme EMN

Entrer des données

Données et approximation y = une + b X

je- numéro du point expérimental ;
x je- la valeur du paramètre fixe au point je;
et je- la valeur du paramètre mesuré au point je;
ω je- poids de mesure au point je;
y je, calc.- la différence entre la valeur mesurée et la valeur calculée à partir de la régression yà ce point je;
S x je (x je)- estimation d'erreur x je lors de la mesure yà ce point je.

Données et approximation y = kx

je x je et je ω je y je, calc. Δy je S x je (x je)

Cliquez sur le graphique

Manuel d'utilisation du programme en ligne MNC.

Dans le champ de données, entrez sur chaque ligne distincte les valeurs de 'x' et 'y' à un point expérimental. Les valeurs doivent être séparées par des espaces blancs (espace ou tabulation).

La troisième valeur peut être le poids du point de `w`. Si le poids du point n'est pas spécifié, il est égal à un. Dans l'écrasante majorité des cas, les poids des points expérimentaux sont inconnus ou non calculés ; toutes les données expérimentales sont considérées comme équivalentes. Parfois, les poids dans la plage de valeurs étudiée ne sont certainement pas équivalents et peuvent même être calculés théoriquement. Par exemple, en spectrophotométrie, les poids peuvent être calculés à partir de formules simples, même si fondamentalement tout le monde néglige cela pour réduire les coûts de main-d'œuvre.

Les données peuvent être collées dans le presse-papiers à partir d'une feuille de calcul de suite bureautique, telle qu'Excel de Microsoft Office ou Calc d'Open Office. Pour cela dans tableur mettez en surbrillance la plage de données à copier, copiez dans le presse-papiers et collez les données dans le champ de données de cette page.

Pour calculer par la méthode des moindres carrés, au moins deux points sont nécessaires pour déterminer deux coefficients `b` - la tangente de l'angle d'inclinaison de la droite et `a` - la valeur coupée par la droite sur le `y ` axe.

Pour estimer l'erreur des coefficients de régression calculés, il est nécessaire de fixer le nombre de points expérimentaux à plus de deux.

Méthode des moindres carrés (LSM).

Plus le nombre de points expérimentaux est élevé, plus l'estimation statistique des coefficients est précise (en raison de la diminution du coefficient de Student) et plus l'estimation est proche de l'estimation de l'échantillon général.

L'obtention de valeurs à chaque point expérimental est souvent associée à des coûts de main-d'œuvre importants, par conséquent, un nombre compromis d'expériences est souvent effectué, ce qui donne une estimation digeste et n'entraîne pas de coûts de main-d'œuvre excessifs. En règle générale, le nombre de points expérimentaux pour une dépendance linéaire des moindres carrés avec deux coefficients est choisi dans la région de 5-7 points.

Une brève théorie des moindres carrés pour la dépendance linéaire

Supposons que nous ayons un ensemble de données expérimentales sous la forme de paires de valeurs [`y_i`, `x_i`], où `i` est le nombre d'une mesure expérimentale de 1 à `n` ; `y_i` - la valeur de la valeur mesurée au point `i` ; `x_i` - la valeur du paramètre que nous avons défini au point `i`.

Un exemple est le fonctionnement de la loi d'Ohm. En modifiant la tension (différence de potentiel) entre les sections du circuit électrique, nous mesurons la quantité de courant traversant cette section. La physique nous donne la dépendance trouvée expérimentalement :

'I=U/R',
où `I` - force actuelle ; 'R' - résistance ; 'U' - tension.

Dans ce cas, "y_i" est la valeur de courant mesurée et "x_i" est la valeur de tension.

Comme autre exemple, considérons l'absorption de la lumière par une solution d'une substance en solution. La chimie nous donne la formule :

`A = εl C`,
où "A" est la densité optique de la solution ; `ε` - transmittance du soluté ; `l` - longueur du trajet lorsque la lumière traverse une cuvette avec une solution ; 'C' est la concentration du soluté.

Dans ce cas, 'y_i' est la densité optique mesurée 'A' et 'x_i' est la valeur de concentration de la substance que nous avons définie.

Nous considérerons le cas où l'erreur relative dans le réglage de 'x_i' est bien inférieure à l'erreur relative dans la mesure de 'y_i'. Nous supposerons également que toutes les valeurs mesurées de `y_i` sont aléatoires et normalement distribuées, c'est-à-dire obéit loi normale Distribution.

Dans le cas d'une dépendance linéaire de `y` sur `x`, on peut écrire la dépendance théorique :
`y = a + bx`.

D'un point de vue géométrique, le coefficient `b` désigne la tangente de la pente de la ligne à l'axe `x`, et le coefficient `a` - la valeur de `y` au point d'intersection de la ligne avec le ` axe y` (avec `x = 0`).

Recherche des paramètres de la droite de régression.

Dans l'expérience, les valeurs mesurées de `y_i` ne peuvent pas se situer exactement sur la ligne théorique en raison d'erreurs de mesure, qui sont toujours inhérentes à vrai vie. Par conséquent, une équation linéaire doit être représentée par un système d'équations :
`y_i = a + b x_i + ε_i` (1),
où `ε_i` est l'erreur de mesure inconnue de `y` dans la `i`ième expérience.

La dépendance (1) est aussi appelée régression, c'est à dire. la dépendance des deux quantités l'une sur l'autre avec une signification statistique.

La tâche de restauration de la dépendance est de trouver les coefficients 'a' et 'b' à partir des points expérimentaux ['y_i', 'x_i'].

Pour trouver les coefficients `a` et `b` est généralement utilisé méthode des moindres carrés(MNK). C'est un cas particulier du principe du maximum de vraisemblance.

Réécrivons (1) comme `ε_i = y_i - a - b x_i`.

Alors la somme des carrés des erreurs sera
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Le principe de la méthode des moindres carrés est de minimiser la somme (2) par rapport aux paramètres 'a' et 'b'.

Le minimum est atteint lorsque les dérivées partielles de la somme (2) par rapport aux coefficients 'a' et 'b' sont égales à zéro :
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

En développant les dérivées, on obtient un système de deux équations à deux inconnues :
`somme_(i=1)^(n) (2a + 2bx_i - 2y_i) = somme_(i=1)^(n) (a + bx_i - y_i) = 0`
`somme_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = somme_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Nous ouvrons les parenthèses et transférons les sommes indépendantes des coefficients requis à l'autre moitié, nous obtenons le système équations linéaires:
`somme_(i=1)^(n) y_i = a n + b somme_(i=1)^(n) bx_i`
`somme_(i=1)^(n) x_iy_i = a somme_(i=1)^(n) x_i + b somme_(i=1)^(n) x_i^2`

En résolvant le système résultant, nous trouvons des formules pour les coefficients 'a' et 'b' :

`a = frac(somme_(i=1)^(n) y_i somme_(i=1)^(n) x_i^2 - somme_(i=1)^(n) x_i somme_(i=1)^(n ) x_iy_i) (n somme_(i=1)^(n) x_i^2 — (somme_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (somme_(i=1)^(n) x_i)^2)` (3.2)

Ces formules ont des solutions lorsque `n > 1` (la droite peut être tracée en au moins 2 points) et lorsque le déterminant `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1 )^(n) x_i)^2 != 0`, c'est-à-dire lorsque les points "x_i" de l'expérience sont différents (c'est-à-dire lorsque la ligne n'est pas verticale).

Estimation des erreurs dans les coefficients de la droite de régression

Pour une estimation plus précise de l'erreur de calcul des coefficients "a" et "b", il est souhaitable un grand nombre de points expérimentaux. Lorsque `n = 2`, il est impossible d'estimer l'erreur des coefficients, car la ligne d'approximation passera uniquement par deux points.

L'erreur de la variable aléatoire "V" est déterminée loi d'accumulation d'erreurs
`S_V^2 = sum_(i=1)^p (frac(f partiel)(z_i partiel))^2 S_(z_i)^2`,
où `p` est le nombre de paramètres `z_i` avec l'erreur `S_(z_i)` qui affectent l'erreur `S_V` ;
`f` est une fonction de dépendance de `V` sur `z_i`.

Écrivons la loi d'accumulation des erreurs pour l'erreur des coefficients `a` et `b`
`S_a^2 = sum_(i=1)^(n)(frac(a partiel)(y_i partiel))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(a partiel )(x_i partiel))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(a partiel)(y_i partiel))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(b partiel)(y_i partiel))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(b partiel )(x_i partiel))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(b partiel)(y_i partiel))^2 `,
car `S_(x_i)^2 = 0` (nous avons précédemment fait une réserve que l'erreur de `x` est négligeable).

`S_y^2 = S_(y_i)^2` - l'erreur (variance, écart type au carré) dans la dimension `y`, en supposant que l'erreur est uniforme pour toutes les valeurs `y`.

En remplaçant les formules pour calculer `a` et `b` dans les expressions résultantes, nous obtenons

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n somme_(i=1)^(n) x_i^2 - (somme_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

Dans la plupart des expériences réelles, la valeur de "Sy" n'est pas mesurée. Pour ce faire, il est nécessaire de réaliser plusieurs mesures parallèles (expériences) en un ou plusieurs points du plan, ce qui augmente le temps (et éventuellement le coût) de l'expérience. Par conséquent, on suppose généralement que l'écart de « y » par rapport à la ligne de régression peut être considéré comme aléatoire. L'estimation de la variance "y" dans ce cas est calculée par la formule.

`S_y^2 = S_(y, rest)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Le diviseur "n-2" apparaît car nous avons réduit le nombre de degrés de liberté grâce au calcul de deux coefficients pour le même échantillon de données expérimentales.

Cette estimation est également appelée variance résiduelle par rapport à la droite de régression `S_(y, rest)^2`.

L'appréciation de la significativité des coefficients s'effectue selon le critère de Student

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Si les critères calculés 't_a', 't_b' sont inférieurs aux critères de table 't(P, n-2)', alors on considère que le coefficient correspondant n'est pas significativement différent de zéro avec une probabilité 'P' donnée.

Pour évaluer la qualité de la description d'une relation linéaire, vous pouvez comparer `S_(y, rest)^2` et `S_(bar y)` par rapport à la moyenne à l'aide du critère de Fisher.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - estimation de l'échantillon de la variance de `y` par rapport à la moyenne.

Pour évaluer l'efficacité de l'équation de régression pour décrire la dépendance, le coefficient de Fisher est calculé
`F = S_(bar y) / S_(y, rest)^2`,
qui est comparé au coefficient tabulaire de Fisher `F(p, n-1, n-2)`.

Si `F > F(P, n-1, n-2)`, la différence entre la description de la dépendance `y = f(x)` à l'aide de l'équation de régression et la description à l'aide de la moyenne est considérée comme statistiquement significative avec probabilité "P". Celles. la régression décrit mieux la dépendance que la propagation de « y » autour de la moyenne.

Cliquez sur le graphique
ajouter des valeurs au tableau

Méthode des moindres carrés. La méthode des moindres carrés signifie la détermination de paramètres inconnus a, b, c, la dépendance fonctionnelle acceptée

La méthode des moindres carrés signifie la détermination de paramètres inconnus un, b, c,… dépendance fonctionnelle acceptée

y = f(x,a,b,c,…),

qui fournirait un minimum du carré moyen (variance) de l'erreur

, (24)

où x i , y i - ensemble de paires de nombres obtenus à partir de l'expérience.

Puisque la condition de l'extremum d'une fonction de plusieurs variables est la condition que ses dérivées partielles soient égales à zéro, alors les paramètres un, b, c,… sont déterminés à partir du système d'équations :

; ; ; … (25)

Il faut se rappeler que la méthode des moindres carrés est utilisée pour sélectionner les paramètres après la forme de la fonction y = f(x) défini.

Si, à partir de considérations théoriques, il est impossible de tirer des conclusions sur ce que devrait être la formule empirique, alors il faut être guidé par des représentations visuelles, tout d'abord image graphique données observées.

En pratique, le plus souvent limité aux types de fonctions suivants :

1) linéaire ;

2) a quadratique .

Exemple.

Données expérimentales sur les valeurs des variables X et à sont donnés dans le tableau.

Du fait de leur alignement, la fonction

Utilisant méthode des moindres carrés, approximer ces données avec une dépendance linéaire y=ax+b(trouver des options une et b). Découvrez laquelle des deux lignes est la meilleure (au sens de la méthode des moindres carrés) aligne les données expérimentales. Faites un dessin.

L'essence de la méthode des moindres carrés (LSM).

Le problème est de trouver les coefficients de dépendance linéaire pour lesquels la fonction de deux variables une et b prend la plus petite valeur. C'est-à-dire que compte tenu des données une et b la somme des écarts au carré des données expérimentales par rapport à la ligne droite trouvée sera la plus petite. C'est tout l'intérêt de la méthode des moindres carrés.

Ainsi, la solution de l'exemple se réduit à trouver l'extremum d'une fonction de deux variables.

Dérivation de formules pour trouver des coefficients.

Un système de deux équations à deux inconnues est compilé et résolu. Trouver des dérivées partielles de fonctions par variables une et b, on égalise ces dérivées à zéro.

Nous résolvons le système d'équations résultant par n'importe quelle méthode (par exemple méthode de substitution ou La méthode de Cramer) et obtenir des formules pour trouver les coefficients en utilisant la méthode des moindres carrés (LSM).

Avec des données une et b une fonction prend la plus petite valeur. La preuve de ce fait est donnée sous le texte en fin de page.

C'est toute la méthode des moindres carrés. Formule pour trouver le paramètre une contient les sommes ,,, et le paramètre n- quantité de données expérimentales. Il est recommandé de calculer séparément les valeurs de ces sommes. Coefficient b trouvé après calcul une.

Il est temps de se souvenir de l'exemple original.

Solution.

Dans notre exemple n=5. Nous remplissons le tableau pour faciliter le calcul des montants inclus dans les formules des coefficients requis.

Les valeurs de la quatrième ligne du tableau sont obtenues en multipliant les valeurs de la 2ème ligne par les valeurs de la 3ème ligne pour chaque nombre je.

Les valeurs de la cinquième ligne du tableau sont obtenues en mettant au carré les valeurs de la 2ème ligne pour chaque nombre je.

Les valeurs de la dernière colonne du tableau sont les sommes des valeurs sur les lignes.

On utilise les formules de la méthode des moindres carrés pour trouver les coefficients une et b. Nous y substituons les valeurs correspondantes de la dernière colonne du tableau:

D'où, y=0,165x+2,184 est la droite d'approximation souhaitée.

Reste à savoir laquelle des lignes y=0,165x+2,184 ou mieux se rapprocher des données d'origine, c'est-à-dire faire une estimation en utilisant la méthode des moindres carrés.

Estimation de l'erreur de la méthode des moindres carrés.

Pour ce faire, vous devez calculer les sommes des écarts au carré des données d'origine à partir de ces lignes et , une valeur plus petite correspond à une ligne qui se rapproche le plus des données d'origine selon la méthode des moindres carrés.

Puisque , alors la ligne y=0,165x+2,184 se rapproche mieux des données d'origine.

Illustration graphique de la méthode des moindres carrés (LSM).

Tout a l'air bien sur les cartes. La ligne rouge est la ligne trouvée y=0,165x+2,184, la ligne bleue est , les points roses sont les données d'origine.

En pratique, lors de la modélisation de divers processus - en particulier économiques, physiques, techniques, sociaux - ces ou ces méthodes de calcul des valeurs approximatives des fonctions à partir de leurs valeurs connues à certains points fixes sont largement utilisées.

Des problèmes d'approximation de fonctions de ce genre se posent souvent :

    lors de la construction de formules approximatives pour calculer les valeurs des quantités caractéristiques du processus à l'étude en fonction des données tabulaires obtenues à la suite de l'expérience;

    en intégration numérique, différenciation, résolution d'équations différentielles, etc.;

    s'il est nécessaire de calculer les valeurs des fonctions aux points intermédiaires de l'intervalle considéré;

    lors de la détermination des valeurs des quantités caractéristiques du processus en dehors de l'intervalle considéré, en particulier lors de la prévision.

Si, pour modéliser un certain processus spécifié par une table, une fonction est construite qui décrit approximativement ce processus basé sur la méthode des moindres carrés, elle sera appelée une fonction d'approximation (régression), et la tâche de construire des fonctions d'approximation elle-même sera être un problème d'approximation.

Cet article traite des possibilités du package MS Excel pour résoudre de tels problèmes. En outre, des méthodes et des techniques de construction (création) de régressions pour des fonctions tabulaires spécifiées (qui constituent la base de l'analyse de régression) sont données.

Il existe deux options pour créer des régressions dans Excel.

    Ajouter des régressions sélectionnées (lignes de tendance) à un graphique construit sur la base d'un tableau de données pour la caractéristique de processus étudiée (disponible uniquement si un graphique est construit) ;

    Utilisation des fonctions de statistiques intégrées du travailleur feuille de calcul Excel, permettant d'obtenir des régressions (lignes de tendance) directement sur la base du tableau de données source.

Ajout de lignes de tendance à un graphique

Pour un tableau de données décrivant un certain processus et représenté par un diagramme, Excel dispose d'un outil d'analyse de régression efficace qui vous permet de :

    construire sur la base de la méthode des moindres carrés et ajouter au schéma cinq types de régressions modélisant avec plus ou moins de précision le processus étudié ;

    ajouter une équation de la régression construite au diagramme ;

    déterminer le degré de conformité de la régression sélectionnée avec les données affichées sur le graphique.

Sur la base des données du graphique, Excel vous permet d'obtenir des types de régressions linéaires, polynomiales, logarithmiques, puissance, exponentielles, qui sont données par l'équation :

y = y(x)

où x est une variable indépendante, qui prend souvent les valeurs d'une suite de nombres naturels (1 ; 2 ; 3 ; ...) et produit, par exemple, un décompte du temps du processus étudié (caractéristiques) .

1 . La régression linéaire est efficace pour modéliser des caractéristiques qui augmentent ou diminuent à un rythme constant. C'est le modèle le plus simple du processus étudié. Il est construit selon l'équation :

y=mx+b

où m est la tangente de la pente de la régression linéaire à l'axe des x ; b - coordonnée du point d'intersection de la régression linéaire avec l'axe y.

2 . Une courbe de tendance polynomiale est utile pour décrire des caractéristiques qui ont plusieurs extrêmes distincts (hauts et bas). Le choix du degré du polynôme est déterminé par le nombre d'extrema de la caractéristique étudiée. Ainsi, un polynôme du second degré peut bien décrire un processus qui n'a qu'un seul maximum ou minimum ; polynôme du troisième degré - pas plus de deux extrema; polynôme du quatrième degré - pas plus de trois extrema, etc.

Dans ce cas, la ligne de tendance est construite conformément à l'équation :

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

où les coefficients c0, c1, c2,... c6 sont des constantes dont les valeurs sont déterminées lors de la construction.

3 . La ligne de tendance logarithmique est utilisée avec succès dans la modélisation des caractéristiques, dont les valeurs changent rapidement au début, puis se stabilisent progressivement.

y = c ln(x) + b

4 . La droite de tendance puissance donne de bons résultats si les valeurs de la dépendance étudiée sont caractérisées par une variation constante du taux de croissance. Un exemple d'une telle dépendance peut servir de graphique de mouvement uniformément accéléré de la voiture. S'il y a des valeurs nulles ou négatives dans les données, vous ne pouvez pas utiliser une courbe de tendance de puissance.

Il est construit selon l'équation :

y = cxb

où les coefficients b, c sont des constantes.

5 . Une courbe de tendance exponentielle doit être utilisée si le taux de variation des données augmente continuellement. Pour les données contenant des valeurs nulles ou négatives, ce type d'approximation n'est pas non plus applicable.

Il est construit selon l'équation :

y=cebx

où les coefficients b, c sont des constantes.

Lors de la sélection d'une ligne de tendance, Excel calcule automatiquement la valeur de R2, qui caractérise la précision de l'approximation : plus la valeur R2 est proche de un, plus la ligne de tendance se rapproche de manière fiable du processus étudié. Si nécessaire, la valeur de R2 peut toujours être affichée sur le diagramme.

Déterminé par la formule :

Pour ajouter une ligne de tendance à une série de données :

    activer le graphique construit sur la base de la série de données, c'est-à-dire cliquer dans la zone du graphique. L'élément Graphique apparaîtra dans le menu principal ;

    après avoir cliqué sur cet élément, un menu apparaîtra à l'écran, dans lequel vous devrez sélectionner la commande Ajouter une ligne de tendance.

Les mêmes actions sont facilement mises en œuvre si vous survolez le graphique correspondant à l'une des séries de données et cliquez avec le bouton droit ; dans le menu contextuel qui apparaît, sélectionnez la commande Ajouter une ligne de tendance. La boîte de dialogue Trendline apparaîtra à l'écran avec l'onglet Type ouvert (Fig. 1).

Après cela, vous avez besoin de :

Dans l'onglet Type, sélectionnez le type de ligne de tendance requis (Linéaire est sélectionné par défaut). Pour le type Polynôme, dans le champ Degré, spécifiez le degré du polynôme sélectionné.

1 . Le champ Built on Series répertorie toutes les séries de données du graphique en question. Pour ajouter une courbe de tendance à une série de données spécifique, sélectionnez son nom dans le champ Construit sur la série.

Si nécessaire, en allant dans l'onglet Paramètres (Fig. 2), vous pouvez définir les paramètres suivants pour la ligne de tendance :

    modifiez le nom de la ligne de tendance dans le champ Nom de la courbe approchée (lissée).

    définissez le nombre de périodes (en avant ou en arrière) pour la prévision dans le champ Prévision ;

    afficher l'équation de la ligne de tendance dans la zone graphique, pour laquelle vous devez activer la case à cocher afficher l'équation sur le graphique ;

    afficher la valeur de la fiabilité de l'approximation R2 dans la zone du diagramme, pour laquelle vous devez activer la case à cocher placer la valeur de la fiabilité de l'approximation (R^2) sur le diagramme ;

    définir le point d'intersection de la ligne de tendance avec l'axe Y, pour lequel vous devez cocher la case Intersection de la courbe avec l'axe Y en un point ;

    cliquez sur le bouton OK pour fermer la boîte de dialogue.

Il existe trois façons de commencer à modifier une ligne de tendance déjà créée :

    utilisez la commande Ligne de tendance sélectionnée du menu Format, après avoir sélectionné la ligne de tendance ;

    sélectionnez la commande Formater la courbe de tendance dans le menu contextuel, qui est appelée en cliquant avec le bouton droit sur la courbe de tendance ;

    en double-cliquant sur la ligne de tendance.

La boîte de dialogue Format Trendline apparaîtra à l'écran (Fig. 3), contenant trois onglets : Affichage, Type, Paramètres et le contenu des deux derniers coïncide complètement avec les onglets similaires de la boîte de dialogue Trendline (Fig. 1-2 ). Dans l'onglet Affichage, vous pouvez définir le type de ligne, sa couleur et son épaisseur.

Pour supprimer une ligne de tendance déjà construite, sélectionnez la ligne de tendance à supprimer et appuyez sur la touche Suppr.

Les avantages de l'outil d'analyse de régression considéré sont :

    la facilité relative de tracer une ligne de tendance sur des graphiques sans créer de tableau de données pour celle-ci ;

    une liste assez large de types de lignes de tendance proposées, et cette liste comprend les types de régression les plus couramment utilisés ;

    la possibilité de prédire le comportement du processus à l'étude pour un nombre arbitraire (dans le bon sens) de pas en avant, ainsi qu'en arrière ;

    la possibilité d'obtenir l'équation de la ligne de tendance sous une forme analytique ;

    la possibilité, si nécessaire, d'obtenir une appréciation de la fiabilité de l'approximation.

Les inconvénients comprennent les points suivants :

    la construction d'une ligne de tendance n'est effectuée que s'il existe un graphique construit sur une série de données;

    le processus de génération de séries de données pour la caractéristique étudiée sur la base des équations des lignes de tendance obtenues pour celle-ci est quelque peu encombré: les équations de régression requises sont mises à jour à chaque changement des valeurs de la série de données d'origine, mais uniquement dans le diagramme zone, tandis que série de données, formé sur la base de l'ancienne équation de la ligne de tendance, reste inchangé ;

    Dans les rapports de graphique croisé dynamique, lorsque vous modifiez l'affichage du graphique ou le rapport de tableau croisé dynamique associé, les courbes de tendance existantes ne sont pas conservées. Vous devez donc vous assurer que la mise en page du rapport répond à vos besoins avant de tracer des courbes de tendance ou de formater le rapport de graphique croisé dynamique.

Des lignes de tendance peuvent être ajoutées aux séries de données présentées sur des graphiques tels qu'un graphique, un histogramme, des graphiques à aires plates non normalisées, des graphiques à barres, à nuage de points, à bulles et boursiers.

Vous ne pouvez pas ajouter de courbes de tendance aux séries de données sur les graphiques 3D, standard, en radar, à secteurs et en anneau.

Utilisation des fonctions Excel intégrées

Excel fournit également un outil d'analyse de régression pour tracer des lignes de tendance en dehors de la zone du graphique. Un certain nombre de fonctions de feuilles de calcul statistiques peuvent être utilisées à cette fin, mais toutes vous permettent de créer uniquement des régressions linéaires ou exponentielles.

Excel dispose de plusieurs fonctions pour construire une régression linéaire, notamment :

    TENDANCE;

  • PENTE et COUPE.

Ainsi que plusieurs fonctions pour construire une ligne de tendance exponentielle, notamment :

    LGRFPenv.

Il est à noter que les techniques de construction des régressions à l'aide des fonctions TENDANCE et CROISSANCE sont pratiquement les mêmes. On peut en dire autant du couple de fonctions DROITEREG et LGRFPRIBL. Pour ces quatre fonctions, lors de la création d'un tableau de valeurs, des fonctionnalités Excel telles que les formules matricielles sont utilisées, ce qui encombre quelque peu le processus de construction des régressions. Nous notons également que la construction d'une régression linéaire, à notre avis, est la plus facile à mettre en œuvre à l'aide des fonctions PENTE et INTERCEPTION, où la première d'entre elles détermine la pente de la régression linéaire, et la seconde détermine le segment coupé par la régression sur l'axe y.

Les avantages de l'outil de fonctions intégrées pour l'analyse de régression sont :

    un processus assez simple du même type de formation de séries de données de la caractéristique étudiée pour toutes les fonctions statistiques intégrées qui définissent les lignes de tendance ;

    une technique standard pour construire des lignes de tendance sur la base des séries de données générées ;

    la capacité de prédire le comportement du processus à l'étude pour le nombre requis de pas en avant ou en arrière.

Et les inconvénients incluent le fait qu'Excel n'a pas de fonctions intégrées pour créer d'autres types de lignes de tendance (sauf linéaires et exponentielles). Cette circonstance ne permet souvent pas de choisir un modèle suffisamment précis du processus étudié, ainsi que d'obtenir des prévisions proches de la réalité. De plus, lors de l'utilisation des fonctions TREND et GROW, les équations des lignes de tendance ne sont pas connues.

Il convient de noter que les auteurs n'ont pas fixé l'objectif de l'article de présenter le déroulement de l'analyse de régression avec plus ou moins d'exhaustivité. Sa tâche principale est de montrer les capacités du package Excel à résoudre des problèmes d'approximation à l'aide d'exemples spécifiques ; démontrer les outils efficaces dont dispose Excel pour créer des régressions et des prévisions ; illustrent à quel point ces problèmes peuvent être résolus relativement facilement, même par un utilisateur qui n'a pas une connaissance approfondie de l'analyse de régression.

Exemples de résolution de problèmes spécifiques

Envisagez la solution de problèmes spécifiques à l'aide des outils répertoriés du package Excel.

Tache 1

Avec un tableau de données sur le bénéfice d'une entreprise de transport automobile pour 1995-2002. vous devez faire ce qui suit.

    Construisez un tableau.

    Ajoutez des lignes de tendance linéaires et polynomiales (quadratiques et cubiques) au graphique.

    À l'aide des équations de la ligne de tendance, obtenez des données tabulaires sur le bénéfice de l'entreprise pour chaque ligne de tendance pour 1995-2004.

    Faire une prévision des bénéfices de l'entreprise pour 2003 et 2004.

La solution du problème

    Dans la plage de cellules A4: C11 de la feuille de calcul Excel, nous entrons dans la feuille de calcul illustrée à la Fig. 4.

    Après avoir sélectionné la plage de cellules B4:C11, nous construisons un graphique.

    Nous activons le graphique construit et, selon la méthode décrite ci-dessus, après avoir sélectionné le type de ligne de tendance dans la boîte de dialogue Ligne de tendance (voir Fig. 1), nous ajoutons alternativement des lignes de tendance linéaires, quadratiques et cubiques au graphique. Dans la même boîte de dialogue, ouvrez l'onglet Paramètres (voir Fig. 2), dans le champ Nom de la courbe d'approximation (lissée), entrez le nom de la tendance ajoutée, et dans le champ Prévisions à terme pour : périodes, définissez la valeur 2, puisqu'il est prévu de faire une prévision de bénéfice pour les deux années à venir. Pour afficher l'équation de régression et la valeur de fiabilité de l'approximation R2 dans la zone du diagramme, cochez les cases Afficher l'équation à l'écran et placez la valeur de fiabilité de l'approximation (R^2) sur le diagramme. Pour une meilleure perception visuelle, nous modifions le type, la couleur et l'épaisseur des lignes de tendance construites, pour lesquelles nous utilisons l'onglet Affichage de la boîte de dialogue Format de la ligne de tendance (voir Fig. 3). Le graphique résultant avec des lignes de tendance ajoutées est illustré à la fig. 5.

    Obtenir des données tabulaires sur le bénéfice de l'entreprise pour chaque ligne de tendance pour 1995-2004. Utilisons les équations des lignes de tendance présentées à la fig. 5. Pour cela, dans les cellules de la plage D3:F3, entrez des informations textuelles sur le type de la ligne de tendance sélectionnée : Tendance linéaire, Tendance quadratique, Tendance cubique. Ensuite, entrez la formule de régression linéaire dans la cellule D4 et, à l'aide du marqueur de remplissage, copiez cette formule avec des références relatives à la plage de cellules D5: D13. Il convient de noter que chaque cellule avec une formule de régression linéaire de la plage de cellules D4: D13 a une cellule correspondante de la plage A4: A13 comme argument. De même, pour la régression quadratique, la plage de cellules E4:E13 est remplie, et pour la régression cubique, la plage de cellules F4:F13 est remplie. Ainsi, une prévision a été faite pour le bénéfice de l'entreprise pour 2003 et 2004. avec trois tendances. Le tableau de valeurs résultant est illustré à la fig. 6.

Tâche 2

    Construisez un tableau.

    Ajoutez des lignes de tendance logarithmiques, exponentielles et exponentielles au graphique.

    Dérivez les équations des lignes de tendance obtenues, ainsi que les valeurs de la fiabilité d'approximation R2 pour chacune d'elles.

    À l'aide des équations de la ligne de tendance, obtenez des données tabulaires sur le bénéfice de l'entreprise pour chaque ligne de tendance pour 1995-2002.

    Faire une prévision de profit pour l'entreprise pour 2003 et 2004 en utilisant ces lignes de tendance.

La solution du problème

En suivant la méthodologie donnée dans la résolution du problème 1, nous obtenons un diagramme avec des lignes de tendance logarithmiques, exponentielles et exponentielles ajoutées (Fig. 7). De plus, en utilisant les équations de la ligne de tendance obtenues, nous remplissons le tableau des valeurs pour le profit de l'entreprise, y compris les valeurs prévues pour 2003 et 2004. (Fig. 8).

Sur la fig. 5 et fig. on voit que le modèle à tendance logarithmique correspond à la valeur la plus faible de la fiabilité de l'approximation

R2 = 0,8659

Les valeurs les plus élevées de R2 correspondent à des modèles à tendance polynomiale : quadratique (R2 = 0,9263) et cubique (R2 = 0,933).

Tâche 3

Avec un tableau de données sur le profit d'une entreprise de transport automobile pour 1995-2002, donné dans la tâche 1, vous devez effectuer les étapes suivantes.

    Obtenez des séries de données pour les courbes de tendance linéaires et exponentielles à l'aide des fonctions TREND et GROW.

    À l'aide des fonctions TENDANCE et CROISSANCE, faites une prévision de bénéfice pour l'entreprise pour 2003 et 2004.

    Pour les données initiales et la série de données reçues, construisez un diagramme.

La solution du problème

Utilisons la feuille de travail de la tâche 1 (voir Fig. 4). Commençons par la fonction TENDANCE :

    sélectionnez la plage de cellules D4: D11, qui doit être remplie avec les valeurs de la fonction TENDANCE correspondant aux données connues sur le bénéfice de l'entreprise ;

    appelez la commande Fonction du menu Insertion. Dans la boîte de dialogue Assistant de fonction qui s'affiche, sélectionnez la fonction TENDANCE dans la catégorie Statistique, puis cliquez sur le bouton OK. La même opération peut être effectuée en appuyant sur le bouton (fonction Insertion) de la barre d'outils standard.

    Dans la boîte de dialogue Arguments de la fonction qui s'affiche, entrez la plage de cellules C4:C11 dans le champ Known_values_y ; dans le champ Known_values_x - la plage de cellules B4:B11 ;

    pour transformer la formule saisie en formule matricielle, utilisez la combinaison de touches + + .

La formule que nous avons entrée dans la barre de formule ressemblera à : =(TREND(C4:C11;B4:B11)).

En conséquence, la plage de cellules D4: D11 est remplie avec les valeurs correspondantes de la fonction TREND (Fig. 9).

Faire une prévision du bénéfice de l'entreprise pour 2003 et 2004. nécessaire:

    sélectionnez la plage de cellules D12: D13, où les valeurs prédites par la fonction TENDANCE seront saisies.

    appelez la fonction TREND et dans la boîte de dialogue Arguments de la fonction qui apparaît, entrez dans le champ Known_values_y - la plage de cellules C4:C11 ; dans le champ Known_values_x - la plage de cellules B4:B11 ; et dans le champ New_values_x - la plage de cellules B12:B13.

    transformer cette formule en une formule matricielle en utilisant le raccourci clavier Ctrl + Maj + Entrée.

    La formule saisie ressemblera à : =(TREND(C4:C11;B4:B11;B12:B13)), et la plage de cellules D12:D13 sera remplie avec les valeurs prédites de la fonction TREND (voir Fig. 9).

De même, une série de données est remplie à l'aide de la fonction GROWTH, qui est utilisée dans l'analyse des dépendances non linéaires et fonctionne exactement de la même manière que sa contrepartie linéaire TREND.

La figure 10 montre le tableau en mode d'affichage de formule.

Pour les données initiales et les séries de données obtenues, le diagramme de la fig. Onze.

Tâche 4

Avec le tableau des données sur la réception des demandes de services par le service de répartition de l'entreprise de transport automobile pour la période du 1er au 11e jour du mois en cours, les actions suivantes doivent être effectuées.

    Obtenir des séries de données pour la régression linéaire : en utilisant les fonctions SLOPE et INTERCEPT ; à l'aide de la fonction DROITEREG.

    Récupérez une série de données pour la régression exponentielle à l'aide de la fonction LYFFPRIB.

    À l'aide des fonctions ci-dessus, faites une prévision de la réception des demandes au service d'expédition pour la période du 12 au 14 du mois en cours.

    Pour les séries de données originales et reçues, construisez un diagramme.

La solution du problème

Notez que, contrairement aux fonctions TREND et GROW, aucune des fonctions listées ci-dessus (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) n'est une régression. Ces fonctions ne jouent qu'un rôle auxiliaire, déterminant les paramètres de régression nécessaires.

Pour les régressions linéaires et exponentielles construites à l'aide des fonctions SLOPE, INTERCEPT, LINEST, LGRFPRIB, l'apparence de leurs équations est toujours connue, contrairement aux régressions linéaires et exponentielles correspondant aux fonctions TREND et GROWTH.

1 . Construisons une régression linéaire qui a l'équation :

y=mx+b

en utilisant les fonctions PENTE et INTERCEPTION, la pente de la régression m étant déterminée par la fonction PENTE, et le terme constant b - par la fonction INTERCEPTION.

Pour ce faire, nous effectuons les actions suivantes :

    saisissez la table source dans la plage de cellules A4:B14 ;

    la valeur du paramètre m sera déterminée dans la cellule C19. Sélectionnez dans la catégorie Statistique la fonction Pente ; entrez la plage de cellules B4:B14 dans le champ Known_values_y et la plage de cellules A4:A14 dans le champ Known_values_x. La formule sera entrée dans la cellule C19 : =SLOPE(B4:B14;A4:A14);

    en utilisant une méthode similaire, la valeur du paramètre b dans la cellule D19 est déterminée. Et son contenu ressemblera à ceci : = INTERCEPT(B4:B14;A4:A14). Ainsi, les valeurs des paramètres m et b nécessaires à la construction d'une régression linéaire seront stockées, respectivement, dans les cellules C19, D19 ;

    puis nous entrons la formule de régression linéaire dans la cellule C4 sous la forme : = $ C * A4 + $ D. Dans cette formule, les cellules C19 et D19 sont écrites avec des références absolues (l'adresse de la cellule ne doit pas changer avec une éventuelle copie). Le signe de référence absolu $ peut être tapé soit au clavier, soit à l'aide de la touche F4, après avoir placé le curseur sur l'adresse de la cellule. À l'aide de la poignée de remplissage, copiez cette formule dans la plage de cellules C4: C17. Nous obtenons la série de données souhaitée (Fig. 12). Étant donné que le nombre de requêtes est un nombre entier, vous devez définir le format numérique dans l'onglet Nombre de la fenêtre Format de cellule avec le nombre de décimales sur 0.

2 . Construisons maintenant une régression linéaire donnée par l'équation :

y=mx+b

à l'aide de la fonction DROITEREG.

Pour ça:

    entrez la fonction DROITEREG sous forme de formule matricielle dans la plage de cellules C20:D20: =(LINEST(B4:B14;A4:A14)). En conséquence, nous obtenons la valeur du paramètre m dans la cellule C20 et la valeur du paramètre b dans la cellule D20 ;

    entrez la formule dans la cellule D4 : =$C*A4+$D ;

    copiez cette formule à l'aide du marqueur de remplissage dans la plage de cellules D4: D17 et obtenez la série de données souhaitée.

3 . Nous construisons une régression exponentielle qui a pour équation :

à l'aide de la fonction LGRFPRIBL, il s'effectue de la même manière :

    dans la plage de cellules C21:D21, saisissez la fonction LGRFPRIBL sous forme de formule matricielle : =( LGRFPRIBL (B4:B14;A4:A14)). Dans ce cas, la valeur du paramètre m sera déterminée dans la cellule C21, et la valeur du paramètre b sera déterminée dans la cellule D21 ;

    la formule est saisie dans la cellule E4 : =$D*$C^A4 ;

    à l'aide du marqueur de remplissage, cette formule est copiée dans la plage de cellules E4: E17, où se trouvera la série de données pour la régression exponentielle (voir Fig. 12).

Sur la fig. 13 montre un tableau où nous pouvons voir les fonctions que nous utilisons avec les plages de cellules nécessaires, ainsi que des formules.

Valeur R 2 appelé coefficient de détermination.

La tâche de construire une dépendance de régression est de trouver le vecteur de coefficients m du modèle (1) auquel le coefficient R prend la valeur maximale.

Pour évaluer la signification de R, le test F de Fisher est utilisé, calculé par la formule

n- taille de l'échantillon (nombre d'expériences) ;

k est le nombre de coefficients du modèle.

Si F dépasse une valeur critique pour les données n et k et le niveau de confiance accepté, alors la valeur de R est considérée comme significative. Des tableaux de valeurs critiques de F sont donnés dans des ouvrages de référence sur les statistiques mathématiques.

Ainsi, la signification de R est déterminée non seulement par sa valeur, mais également par le rapport entre le nombre d'expériences et le nombre de coefficients (paramètres) du modèle. En effet, le rapport de corrélation pour n=2 pour un modèle linéaire simple est de 1 (à travers 2 points sur le plan, on peut toujours tracer une seule droite). Cependant, si les données expérimentales sont des variables aléatoires, une telle valeur de R doit être approuvée avec beaucoup de prudence. Habituellement, pour obtenir un R significatif et une régression fiable, il s'agit de s'assurer que le nombre d'expériences dépasse significativement le nombre de coefficients du modèle (n>k).

Pour construire un modèle de régression linéaire, vous devez :

1) préparer une liste de n lignes et m colonnes contenant les données expérimentales (colonne contenant la valeur de sortie Oui doit être le premier ou le dernier de la liste) ; par exemple, reprenons les données de la tâche précédente, en ajoutant une colonne appelée "numéro de période", numérotant les numéros de périodes de 1 à 12. (ce seront les valeurs X)

2) allez dans le menu Données/Analyse des données/Régression

Si l'élément "Analyse des données" du menu "Outils" est manquant, vous devez alors vous rendre dans l'élément "Add-Ins" du même menu et cocher la case "Analysis Package".

3) dans la boîte de dialogue "Régression", définissez :

intervalle d'entrée Y ;

intervalle d'entrée X ;

intervalle de sortie - la cellule supérieure gauche de l'intervalle dans lequel les résultats du calcul seront placés (il est recommandé de le placer sur une nouvelle feuille de calcul);

4) cliquez sur "Ok" et analysez les résultats.