domicile » Notions de base » La théorie des tests et des tests de condition physique des élèves. Dispositions de base de la théorie des tests classiques

La théorie des tests et des tests de condition physique des élèves. Dispositions de base de la théorie des tests classiques

Questions clés : Le test comme outil de mesure. Théories de base des tests. Fonctions, capacités et limites des tests. Application de tests à l'évaluation du personnel. Avantages et inconvénients de l'utilisation de tests. Formes et types d'items de test. Technologie de construction de tâches. Évaluation de la qualité du test. Crédibilité et validité. Tester le logiciel de développement. 2

Le test comme outil de mesure Concepts de base en testologie : mesure, test, contenu et forme des tâches, fiabilité et validité des résultats de mesure. De plus, la testologie utilise des concepts de la science statistique tels que l'échantillon et la population générale, les moyennes, la variation, la corrélation, la régression, etc. 4

Une tâche de test est une unité de matériel de contrôle efficace sur le plan didactique et technologique, une partie du test qui répond aux exigences de pureté du contenu (ou unidimensionnel), d'exactitude matérielle et logique, d'exactitude de forme et d'acceptabilité de l'image géométrique. de la tâche. 6

Le test traditionnel est une méthode standardisée pour diagnostiquer le niveau et la structure de la préparation. Dans un tel test, tous les sujets répondent aux mêmes tâches, en même temps, dans les mêmes conditions et avec les mêmes règles d'évaluation des réponses. D'innombrables tests peuvent être créés pour atteindre l'objectif de test, et tous peuvent correspondre à la réalisation de la tâche à accomplir. huit

Professiogram (de Lat. Professio spécialité + Gramma record) est un système de signes décrivant une profession particulière, ainsi qu'une liste de normes et d'exigences pour un employé de cette profession ou spécialité. En particulier, le professiogramme peut comprendre une liste de caractéristiques psychologiques auxquels doivent correspondre les représentants de groupes professionnels spécifiques. neuf

Les principales théories des tests Les premiers travaux scientifiques sur la théorie des tests sont apparus au début du XXe siècle, au croisement de la psychologie, de la sociologie, de la pédagogie et d'autres sciences dites comportementales. Les psychologues étrangers appellent cette science Psychometrika, et les enseignants - La mesure de l'éducation. Détachée d'idéologie et de politique, l'interprétation du nom « testologie » est simple et transparente : la science des tests. Dix

La première étape - la préhistoire - de l'Antiquité à la fin du XIXe siècle, lorsque les formes préscientifiques de contrôle des connaissances et des capacités se sont généralisées ; la seconde période, classique, a duré du début des années 20 à la fin des années 60, au cours de laquelle la théorie classique des tests a été créée ; la troisième période - technologique - qui a commencé dans les années 70 - le temps du développement de méthodes de tests et d'apprentissage adaptatifs, une méthodologie pour le développement efficace de tests et d'items de test pour l'évaluation paramétrique des sujets par qualité latente mesurable. Onze

Fonctions, possibilités et limites des tests Les tests utilisés dans la sélection sont destinés à dresser un portrait psychologique du candidat, à évaluer ses capacités, ainsi que ses connaissances et compétences professionnelles. Les tests permettent de comparer les candidats entre eux ou avec des standards, c'est-à-dire le candidat idéal. Les tests sont utilisés pour mesurer les qualités dont une personne a besoin pour faire un travail efficacement. Certains tests sont conçus de telle sorte que l'employeur administre lui-même les tests et calcule les résultats. D'autres ont besoin des services de consultants expérimentés pour leur fournir application correcte. 12

Les limitations de l'utilisation des tests sont associées - à leur administration coûteuse ; - avec aptitude à évaluer les capacités humaines; - les tests sont plus efficaces pour prédire la réussite dans un travail qui contient des tâches professionnelles à court terme, et ne sont pas très pratiques dans les cas où les tâches à résoudre au travail prennent plusieurs jours ou semaines. 13

2. La terminologie utilisée doit être choisie en fonction d'un public cible spécifique. Il est également nécessaire d'exclure les articles inutiles ou les articles qui incluent deux ou plusieurs questions, car ils confondent parfois le répondant et rendent l'interprétation difficile. 17

3. Pour satisfaire à toutes ces exigences, vous devez parcourir toute la banque de questions article par article et analyser à quoi sert chacune d'elles. Par exemple, si un test est en cours d'élaboration pour mesurer les compétences analytiques des comptables stagiaires, il vaut la peine d'examiner ce que le terme « » compétences analytiques". dix-huit

5. Une fois les questions et les formats de notation sélectionnés, ils doivent être convertis en un format convivial, avec des instructions clairement écrites et des exemples de questions ; afin que les candidats aux tests comprennent parfaitement ce qu'on attend d'eux. vingt

6. Très souvent à ce stade de développement, le test comprend plus de questions que nécessaire. Selon certaines estimations, trois fois plus qu'il n'en restera dans le système de test ou de mesure final. La mesure initiale serait alors de tester le test en cours d'élaboration sur un échantillon relativement important de travailleurs existants pour s'assurer que toutes les questions sont facilement comprises. 21

7. Les tests pour déterminer les connaissances commencent généralement par questions simples devenant progressivement plus complexe vers la fin. Lorsque les tests sont conçus pour mesurer les attitudes et les traits de personnalité, il peut être utile d'alterner entre des articles formulés négativement et positivement pour éviter des réponses mal conçues. 22

8. La dernière étape est l'application du test sur un large échantillon représentatif pour établir des normes de performance, de fiabilité et de validité avant même qu'il ne soit utilisé comme outil de sélection. De plus, l'équité du test doit être déterminée pour s'assurer qu'il ne discrimine aucun sous-groupe de la population (par exemple, les différences ethniques). 23

Évaluation de la qualité des tests Pour que les méthodes de sélection soient efficaces, elles doivent être fiables, valides et fiables. La fiabilité de la méthode de sélection se caractérise par sa non-susceptibilité aux erreurs systématiques de mesure, c'est-à-dire sa cohérence dans différentes conditions. 24

Dans la pratique, la fiabilité des jugements est obtenue en comparant les résultats de deux ou plusieurs tests similaires menés dans des jours différents... Une autre façon d'améliorer la validité consiste à comparer les résultats de plusieurs méthodes de sélection alternatives (par exemple, test et entretien). Si les résultats sont similaires ou identiques, ils peuvent être considérés comme corrects. 25

La fiabilité signifie que les mesures prises donneront le même résultat que les précédentes, c'est-à-dire que les résultats de l'évaluation ne sont pas influencés par des facteurs externes. La validité signifie que cette méthode mesure exactement ce qu'elle est censée faire. La précision maximale possible des informations obtenues par des techniques spécialement développées dans recherche scientifique, limité par des facteurs techniques et ne dépasse pas 0,8. 26

Dans la pratique de la sélection du personnel, on constate que la fiabilité des différentes méthodes d'évaluation se situe dans les intervalles : 0,1 - 0,2 - entretien traditionnel ; 0,2 - 0,3 - recommandations ; 0,3 - 0,5 - épreuves professionnelles; 0,5 - 0,6 - entretien structuré, entretien de compétence ; 0,5 - 0,7 - tests cognitifs et de personnalité ; 0,6 - 0,7 - approche par compétences (centre d'évaluation). 27

Le caractère raisonnable fait référence au degré d'exactitude avec lequel résultat donné, une méthode ou un critère "prédit" les performances futures de la personne testée. La validité des méthodes fait référence aux conclusions tirées d'une procédure particulière, et non à la procédure elle-même. C'est-à-dire que la méthode de sélection peut elle-même être fiable, mais ne pas correspondre à une tâche précise : ce n'est pas la mesure qui est requise dans ce cas. 28

Logiciel pour le développement de tests Dans la pratique domestique, divers programmes complexes avec le module "Psychodiagnostic" sont présentés, par exemple, le programme "1C: Salary and Personnel Management 8.0" avec le module "Psychodiagnostics", développé avec un groupe d'enseignants du Département de psychologie de la personnalité et de psychologie générale de la Faculté de psychologie Université d'État de Moscou M.V. Lomonosov sous la direction du Dr psycho. Sciences, prof. A.N. Guseva. Simulateur de formation pour le développement de systèmes d'évaluation du personnel et d'adaptation des méthodes de test de la Faculté de psychologie de TSU, également développé sur la base de "1C: Enterprise 8.2" par Personnel Soft. 29

Littérature : Sélection et recrutement du personnel : Technologies de test et d'évaluation / Dominic Cooper, Ivan T. Robertson, Gordon Tinline. - M., maison d'édition “Vershina, - 156 p. Accompagnement psychologique de l'activité professionnelle : théorie et pratique / Ed. Prof. G.S. Nikiforova. - SPb. : Discours, - 816 p. trente

Concepts de base de la théorie des tests.

Une mesure ou un test effectué pour déterminer la condition ou la capacité d'un athlète s'appelle un test. Tout test comprend une mesure. Mais chaque changement n'est pas un test. La procédure de mesure ou de test est appelée test.

Un test basé sur des tâches motrices est appelé test moteur. Il existe trois groupes de tests de mouvement :

1. Exercices de contrôle, en exécutant que l'athlète reçoit la tâche pour montrer le résultat maximum.
2. Des tests fonctionnels standards, au cours desquels la tâche, qui est la même pour tous, est dosée soit par la quantité de travail effectué, soit par la quantité de décalages physiologiques.
3. Tests fonctionnels maximum, au cours desquels l'athlète doit montrer le résultat maximum.

Des tests de haute qualité nécessitent une connaissance de la théorie de la mesure.

Concepts de base de la théorie de la mesure.

La mesure est l'identification de la correspondance entre le phénomène étudié d'une part, et les nombres d'autre part.

Les bases de la théorie de la mesure reposent sur trois concepts : les échelles de mesure, les unités de mesure et la précision de la mesure.

Échelles de mesure.

Une échelle de mesure est la loi par laquelle une valeur numérique est attribuée à un résultat mesuré lorsqu'il augmente ou diminue. Considérons quelques-unes des échelles utilisées dans le sport.

Échelle des noms (échelle nominale).

C'est la plus simple de toutes les échelles. Dans celui-ci, les nombres agissent comme des étiquettes et servent à détecter et à distinguer les objets à l'étude (par exemple, la numérotation des joueurs d'une équipe de football). Les nombres qui composent l'échelle de nommage peuvent être modifiés avec des métas. Dans cette échelle, il n'y a pas de relation du type " plus moins», Certaines personnes pensent donc que l'utilisation de l'échelle de nommage ne doit pas être considérée comme une mesure. Lors de l'utilisation de l'échelle de nommage, seules certaines opérations mathématiques peuvent être effectuées. Par exemple, ses nombres ne peuvent pas être additionnés ou soustraits, mais vous pouvez compter combien de fois (combien de fois) un nombre particulier apparaît.

Échelle de commande.

Il existe des sports où le résultat d'un athlète n'est déterminé que par la place occupée dans la compétition (par exemple, les arts martiaux). Après de telles compétitions, il est clair lequel des athlètes est le plus fort et lequel est le plus faible. Mais combien plus fort ou plus faible, on ne peut pas dire. Si trois athlètes ont pris respectivement les première, deuxième et troisième places, alors quelles sont les différences dans leur esprit sportif reste floue : le deuxième athlète peut être presque égal au premier, ou peut être plus faible que lui et être presque le même que le troisième . Les places occupées dans l'échelle d'ordre sont appelées rangs, et l'échelle elle-même est appelée rang ou non métrique. Dans une telle échelle, ses nombres constitutifs sont classés par rangs (c'est-à-dire les places occupées), mais les intervalles entre eux ne peuvent pas être mesurés avec précision. Contrairement à l'échelle des noms, l'échelle d'ordre permet non seulement d'établir le fait d'égalité ou d'inégalité des objets mesurés, mais aussi de déterminer la nature de l'inégalité sous forme de jugements : « plus - moins », « mieux - pire", etc.

À l'aide d'échelles d'ordre, vous pouvez mesurer des indicateurs qualitatifs qui n'ont pas de mesure quantitative stricte. Ces échelles sont particulièrement utilisées dans les sciences humaines: pédagogie, psychologie, sociologie.

Plus d'opérations mathématiques peuvent être appliquées aux rangs de l'échelle d'ordre qu'aux nombres de l'échelle de dénomination.

Échelle d'intervalle.

C'est une échelle dans laquelle les nombres sont non seulement classés par rang, mais également séparés par des intervalles spécifiques. Une caractéristique qui le distingue de l'échelle des relations décrite ci-dessous est que le point zéro est choisi arbitrairement. Les exemples peuvent être le temps calendaire (le début de la chronologie dans différents calendriers a été défini pour des raisons aléatoires), l'angle articulaire (l'angle dans l'articulation du coude avec l'extension complète de l'avant-bras peut être pris égal à zéro ou à 180 °), la température, le potentiel énergie de la charge soulevée, potentiel champ électrique et etc.

Les mesures d'échelle d'intervalle peuvent être traitées par tous méthodes mathématiques en dehors du calcul des ratios. Ces échelles d'intervalles donnent une réponse à la question : "combien de plus", mais ne permettent pas d'affirmer qu'une valeur de la valeur mesurée est autant de fois supérieure ou inférieure à une autre. Par exemple, si la température est passée de 10 à 20 C, on ne peut pas dire qu'elle est devenue deux fois plus chaude.

Échelle de relation.

Cette échelle ne diffère de l'échelle d'intervalle que par le fait qu'elle définit strictement la position du point zéro. Pour cette raison, l'échelle des rapports n'impose aucune restriction sur l'appareil mathématique utilisé pour traiter les résultats des observations.

Dans le sport, l'échelle de relation mesure la distance, la force, la vitesse et des dizaines d'autres variables. L'échelle des relations mesure également les valeurs qui sont formées comme la différence entre les nombres comptés sur l'échelle des intervalles. Ainsi, le temps calendaire est compté sur une échelle d'intervalles et les intervalles de temps - sur une échelle de relations. Lors de l'utilisation de l'échelle des rapports (et seulement dans ce cas !), la mesure de toute quantité se réduit à la détermination expérimentale du rapport de cette quantité à une autre quantité similaire, prise comme unité. En mesurant la longueur du saut, on découvre combien de fois cette longueur est supérieure à la longueur d'un autre corps, prise comme unité de longueur (règle du mètre dans un cas particulier) ; pesant la barre, nous déterminons le rapport de sa masse à la masse d'un autre corps - un poids unitaire "kilogramme", etc. Si nous nous restreignons seulement à l'utilisation d'échelles de relations, alors nous pouvons donner une autre définition (plus étroite, particulière) de la mesure : mesurer une quantité quelconque signifie trouver empiriquement sa relation avec l'unité de mesure correspondante.

Unités de mesure.

Pour que les résultats de différentes mesures puissent être comparés entre eux, ils doivent être exprimés dans les mêmes unités. En 1960, lors de la Conférence générale internationale sur les poids et mesures, le système international d'unités a été adopté, qui a été abrégé en SI (des premières lettres des mots System International). À l'heure actuelle, l'application privilégiée de ce système a été établie dans tous les domaines de la science et de la technologie, en économie nationale ainsi que l'enseignement.

SI comprend actuellement sept unités de base indépendantes (voir tableau 2.1.)

Tableau 1.1.

Les unités d'autres grandeurs physiques sont dérivées de ces unités de base en tant que dérivées. Les unités dérivées sont déterminées sur la base de formules qui se rapportent les unes aux autres grandeurs physiques... Par exemple, l'unité de longueur (mètre) et l'unité de temps (seconde) sont les unités de base, et l'unité de vitesse (mètre par seconde) est la dérivée.

En plus des principales, deux unités supplémentaires sont mises en évidence dans SI : le radian - une unité d'un angle plat et le stéradian - une unité d'un angle solide (angle dans l'espace).

Précision des mesures.

Aucune mesure ne peut être effectuée avec une précision absolue. Le résultat de la mesure contient inévitablement une erreur dont la valeur est d'autant plus petite que la méthode de mesure est précise et appareil de mesure... Par exemple, en utilisant une règle ordinaire avec des divisions en millimètres, vous ne pouvez pas mesurer la longueur avec une précision de 0,01 mm.

Erreur de base et supplémentaire.

L'erreur de base est l'erreur d'une méthode de mesure ou d'un instrument de mesure qui se produit dans conditions normales leur candidature.

L'erreur supplémentaire est l'erreur de l'appareil de mesure causée par l'écart de ses conditions de fonctionnement par rapport à la normale. Il est clair que les appareils conçus pour fonctionner à température ambiante donneront des lectures inexactes s'ils sont utilisés en été au stade sous un soleil brûlant ou en hiver par temps froid. Des erreurs de mesure peuvent se produire lorsque la tension réseau électrique ou l'alimentation de la batterie est inférieure à la normale ou de taille irrégulière.

Erreurs absolues et relatives.

La valeur E = A - Ao, égale à la différence entre la lecture de l'appareil de mesure (A) et la valeur vraie de la grandeur mesurée (Ao), est appelée erreur de mesure absolue. Elle est mesurée dans les mêmes unités que la valeur mesurée elle-même.

En pratique, il est souvent commode d'utiliser non pas une erreur absolue mais une erreur relative. L'erreur de mesure relative est de deux types - réelle et réduite. L'erreur relative réelle est le rapport de l'erreur absolue à la valeur vraie de la grandeur mesurée :

A D = --------- * 100%

L'erreur relative réduite est le rapport de l'erreur absolue à la valeur maximale possible de la grandeur mesurée :

Ap = ---------- * 100%

Erreurs systématiques et aléatoires.

Systématique est une erreur dont la valeur ne change pas d'une mesure à l'autre. En raison de cette particularité, l'erreur systématique peut souvent être prédite à l'avance ou, dans des cas extrêmes, détectée et éliminée à la fin du processus de mesure.

La manière d'éliminer l'erreur systématique dépend principalement de sa nature. Les erreurs de mesure systématiques peuvent être divisées en trois groupes :

erreurs d'origine connue et de valeur connue;

erreurs d'origine connue, mais d'ampleur inconnue;

erreurs d'origine inconnue et de valeur inconnue. Les plus inoffensives sont les erreurs du premier groupe. Ils s'éliminent facilement

en introduisant des corrections appropriées au résultat de mesure.

Le deuxième groupe comprend tout d'abord les erreurs liées à l'imperfection de la méthode de mesure et des équipements de mesure. Par exemple, l'erreur de mesure des performances physiques à l'aide d'un masque d'inhalation d'air expiré : le masque rend la respiration difficile, et l'athlète démontre naturellement des performances physiques sous-estimées par rapport à la vraie mesurée sans masque. L'ampleur de cette erreur ne peut être prédite à l'avance : elle dépend des capacités individuelles du sportif et de son état de santé au moment de l'étude.

Un autre exemple d'erreur systématique de ce groupe est l'erreur associée à l'imperfection de l'équipement, lorsque l'appareil de mesure surestime ou sous-estime délibérément la valeur réelle de la valeur mesurée, mais l'ampleur de l'erreur est inconnue.

Les erreurs du troisième groupe sont les plus dangereuses, leur apparition est associée à la fois à l'imperfection de la méthode de mesure et aux caractéristiques de l'objet de mesure - l'athlète.

Des erreurs aléatoires surviennent sous l'influence de divers facteurs qui ne peuvent être prédits à l'avance ou pris en compte avec précision. Les erreurs accidentelles ne peuvent pas être éliminées en principe. Cependant, en utilisant les méthodes de statistiques mathématiques, il est possible d'estimer l'ampleur de l'erreur aléatoire et d'en tenir compte lors de l'interprétation des résultats de mesure. Les résultats de mesure ne peuvent pas être considérés comme fiables sans traitement statistique.

Les applications, les buts et les objectifs des tests logiciels sont variés, les tests sont donc évalués et expliqués de différentes manières. Parfois, il est difficile pour les testeurs eux-mêmes d'expliquer ce qu'est le test logiciel "en l'état". La confusion s'ensuit.

Pour démêler cette confusion, Alexey Barantsev (praticien, formateur et consultant en tests de logiciels ; natif de l'Institute for System Programming Académie russe Sciences) précède sa formation aux tests par une vidéo d'introduction sur les principaux points des tests.

Il me semble que dans ce rapport, le conférencier a été en mesure d'expliquer de la manière la plus adéquate et la plus équilibrée « ce qu'est le test » du point de vue d'un scientifique et d'un programmeur. Il est étrange que ce texte n'ait pas encore paru sur Habré.

Voici un résumé succinct de ce rapport. A la fin du texte, il y a des liens vers version complète ainsi que la vidéo mentionnée.

Les principaux points de test

Chers collègues,

Tout d'abord, essayons de comprendre ce que le test n'est PAS.

Tester n'est pas développer,

Même si les testeurs savent programmer, y compris les tests (test d'automatisation = programmation), ils peuvent développer une sorte de programmes auxiliaires (pour eux-mêmes).

Cependant, le test n'est pas une activité de développement Logiciel.

Le test n'est pas une analyse,

Et non l'activité de collecte et d'analyse des besoins.

Bien que, dans le processus de test, vous deviez parfois clarifier les exigences et parfois les analyser. Mais cette activité n'est pas la principale, elle doit plutôt se faire par nécessité.

Tester n'est pas contrôler,

Malgré le fait que dans de nombreuses organisations, il existe un rôle de "gestionnaire de test". Bien sûr, les testeurs doivent être gérés. Mais le test en lui-même n'est pas une gouvernance.

Les tests ne sont pas des écrits techniques,

Cependant, les testeurs doivent documenter leurs tests et leur travail.

Les tests ne peuvent pas être considérés comme l'une de ces activités simplement parce que pendant le processus de développement (ou l'analyse des exigences ou la rédaction de la documentation pour leurs tests), les testeurs font tout ce travail. pour toi et pas pour quelqu'un d'autre.

Une activité n'a de sens que lorsqu'elle est demandée, c'est-à-dire que les testeurs doivent produire quelque chose "pour l'exportation". Que font-ils « pour l'exportation » ?

Défauts, descriptions de défauts ou rapports de test ? C'est en partie vrai.

Mais ce n'est pas toute la vérité.

L'activité principale des testeurs

est qu'ils fournissent aux participants à un projet de développement de logiciel une rétroaction négative sur la qualité du produit logiciel.

Les « commentaires négatifs » n'ont aucune connotation négative et ne signifie pas que les testeurs font quelque chose de mal ou qu'ils font quelque chose de mal. C'est juste un terme technique qui signifie une chose assez simple.

Mais cette chose est très importante et, probablement, la composante la plus importante de l'activité des testeurs.

Il existe une science - la "théorie des systèmes". Il définit un tel concept comme « rétroaction ».

"Feedback" est des données qui vont de la sortie à l'entrée, ou une partie des données qui retourne à l'entrée de la sortie. Ce retour peut être positif ou négatif.

Les deux variétés retour d'information sont tout aussi importants.

Dans le développement de systèmes logiciels, un retour d'information positif, bien sûr, est une sorte d'information que nous recevons des utilisateurs finaux. Ce sont des demandes de nouvelles fonctionnalités, il s'agit d'une augmentation des ventes (si nous sortons un produit de qualité).

Les commentaires négatifs peuvent également provenir des utilisateurs finaux sous la forme d'une sorte de rétroaction négative. Ou cela peut venir des testeurs.

Plus la rétroaction négative est fournie tôt, moins il faut d'énergie pour modifier ce signal. C'est pourquoi vous devez commencer les tests le plus tôt possible, dès les premières étapes du projet, et fournir ce retour d'information dès la conception, voire plus tôt, même lors de la collecte et de l'analyse des besoins.

Soit dit en passant, c'est là que l'on comprend de plus en plus que les testeurs ne sont pas responsables de la qualité. Ils aident ceux qui en sont responsables.

Synonymes du terme "tester"

Du point de vue que les tests donnent des commentaires négatifs, l'abréviation mondialement connue QA (English Quality Assurance) n'est certainement PAS synonyme de tests.

Le simple fait de fournir des commentaires négatifs ne peut pas être considéré comme une assurance qualité, car l'assurance est une action positive. Il est entendu que dans ce cas c'est précisément nous qui assurons la qualité, nous prenons des mesures opportunes pour améliorer la qualité du développement logiciel.

Mais "contrôle qualité" - Contrôle qualité, peut être considéré au sens large comme un synonyme du terme "test", car le contrôle qualité est la fourniture d'un retour d'information dans ses différentes variétés, à différentes étapes d'un projet logiciel.

Les tests sont parfois appelés une forme de contrôle de la qualité.

La confusion vient de l'historique de développement des tests. V temps différent le terme « tester » signifiait diverses actions qui peuvent être divisées en 2 grande classe: externe et interne.

Définitions externes

Les définitions données par Myers, Beizer, Kaner à différentes époques décrivent précisément le test du point de vue de sa signification EXTERNE. Autrement dit, de leur point de vue, le test est une activité qui est destinée à quelque chose et ne consiste pas en quelque chose. Ces trois définitions peuvent être résumées comme donnant une rétroaction négative.

Définitions internes

Ce sont des définitions qui sont données dans une norme de terminologie utilisée en génie logiciel, par exemple, dans une norme de facto appelée SWEBOK.

De telles définitions expliquent de manière constructive QU'EST-CE qu'est l'activité de test, mais ne donnent pas la moindre idée de À quoi sert le test, pour lequel tous les résultats obtenus en vérifiant la correspondance entre le comportement réel du programme et son comportement attendu seront alors utilisé.

le test est

vérification de la conformité du programme aux exigences,
réalisé en observant son travail
dans des situations spéciales, créées artificiellement, choisies d'une certaine manière.

Désormais, nous considérerons cela comme une définition de travail du "test".

Le schéma général des tests est approximativement le suivant :

Le testeur reçoit le programme et/ou les exigences à l'entrée.
Il fait quelque chose avec eux, observe le travail du programme dans certaines situations, créées artificiellement par lui.
A la sortie, il reçoit des informations sur les correspondances et les incohérences.
Ces informations sont ensuite utilisées pour améliorer le programme existant. Ou afin de modifier les exigences d'un programme en cours de développement.

Qu'est-ce qu'un test

Il s'agit d'une situation spéciale, créée artificiellement, choisie d'une certaine manière,
et une description des observations sur le fonctionnement du programme qui doivent être faites
pour vérifier qu'il répond à une certaine exigence.

Il n'est pas nécessaire de supposer que la situation est quelque chose d'instantané. Le test peut être assez long, par exemple, lors du test des performances, cette situation créée artificiellement peut être une charge sur le système qui dure assez longtemps. Et les observations qui doivent être faites en même temps sont un ensemble de différents graphiques ou métriques que nous mesurons lors de l'exécution de ce test.

Le concepteur de tests est concerné par le choix d'un ensemble limité parmi un ensemble énorme et potentiellement infini de tests.

Eh bien, nous pouvons donc conclure que le testeur fait deux choses dans le processus de test.

1. Premièrement, il contrôle l'exécution du programme et crée ces situations très artificielles dans lesquelles nous allons vérifier le comportement du programme.

2. Et deuxièmement, il observe le comportement du programme et compare ce qu'il voit avec ce qui est attendu.

Si un testeur automatise les tests, il n'observe pas lui-même le comportement du programme - il délègue cette tâche à un outil spécial ou à un programme spécial qu'il a lui-même écrit. C'est elle qui observe, elle compare le comportement observé avec l'attendu, et le testeur ne reçoit qu'un résultat final - si le comportement observé coïncide avec l'attendu ou ne coïncide pas.

Tout programme est un mécanisme de traitement de l'information. L'entrée reçoit des informations sous une forme et la sortie est des informations sous une autre forme. En même temps, le programme peut avoir de nombreuses entrées et sorties, elles peuvent être différentes, c'est-à-dire que le programme peut avoir plusieurs interfaces différentes, et ces interfaces peuvent avoir différents types :

Interface utilisateur (UI)
Interface de programmation (API)
Protocole réseau
Système de fichiers
État de l'environnement
Développements

Les interfaces les plus courantes sont

Douane,
graphique,
texte,
en porte-à-faux,
et la parole.

En utilisant toutes ces interfaces, le testeur :

crée en quelque sorte des situations artificielles,
et vérifie comment le programme se comporte dans ces situations.

C'est un test.

Autres classifications des types de tests

La division la plus couramment utilisée en trois niveaux est

tests unitaires,
tests d'intégration,
test du système.

Les tests unitaires signifient généralement des tests à un niveau assez bas, c'est-à-dire des tests d'opérations, de méthodes et de fonctions individuelles.

Les tests système font référence aux tests au niveau de l'interface utilisateur.

D'autres termes sont également parfois utilisés, tels que "test de composants", mais je préfère mettre l'accent sur ces trois termes, du fait que séparation technologique sur les tests unitaires et système n'a pas beaucoup de sens. Au différents niveaux les mêmes outils, les mêmes techniques peuvent être utilisées. La division est conditionnelle.

La pratique montre que les outils qui sont positionnés par le fabricant comme des outils de tests unitaires peuvent être appliqués avec le même succès au niveau des tests de l'ensemble de l'application dans son ensemble.

Et les outils qui testent l'ensemble de l'application au niveau de l'interface utilisateur veulent parfois examiner, par exemple, une base de données ou y appeler une sorte de procédure stockée distincte.

C'est-à-dire que la division en systèmes et tests unitaires est, en général, purement conditionnelle, d'un point de vue technique.

Les mêmes outils sont utilisés, et c'est normal, les mêmes techniques sont utilisées, à chaque niveau on peut parler de différents types de tests.

Nous combinons :

C'est-à-dire que nous pouvons parler de tests unitaires de fonctionnalité.

On peut parler de test de fonctionnalité du système.

On peut parler de tests unitaires, par exemple, d'efficacité.

On peut parler de tests d'efficacité systémique.

Soit nous considérons l'efficacité d'un algorithme particulier, soit nous considérons l'efficacité de l'ensemble du système dans son ensemble. C'est-à-dire que la division technologique en tests unitaires et systèmes n'a pas beaucoup de sens. Car les mêmes outils, les mêmes techniques peuvent être utilisées à différents niveaux.

Enfin, lors des tests d'intégration, nous vérifions si, au sein d'un certain système, les modules interagissent correctement les uns avec les autres. C'est-à-dire que nous effectuons en fait les mêmes tests que dans les tests du système, seulement nous prêtons également attention à la façon dont les modules interagissent exactement les uns avec les autres. Nous effectuons quelques vérifications supplémentaires. C'est la seule différence.

Essayons à nouveau de comprendre la différence entre les tests système et les tests unitaires. Comme une telle division se produit assez souvent, cette différence devrait être.

Et cette différence se manifeste lorsque l'on fait non pas un classement technologique, mais un classement par buts essai.

Il est pratique de classer par cible en utilisant le "carré magique", qui a été inventé à l'origine par Brian Marik puis amélioré par Eri Tennen.

Dans ce carré magique, tous les types de tests sont organisés en quatre quadrants, en fonction de ce qui est le plus pris en compte dans ces tests.

Vertical - plus le type de test est situé haut, plus l'attention est portée à certaines manifestations externes du comportement du programme, plus il est bas, plus nous prêtons attention à sa structure technologique interne du programme.

Horizontalement - plus nos tests sont à gauche, plus nous prêtons attention à leur programmation, plus ils sont à droite, plus nous prêtons attention aux tests manuels et à la recherche humaine du programme.

En particulier, des termes tels que test d'acceptation, test d'acceptation, test unitaire au sens même où il est le plus souvent utilisé dans la littérature peuvent facilement être inscrits dans ce carré. Il s'agit de tests de bas niveau avec beaucoup de programmation. C'est-à-dire que tous ces tests sont programmés, exécutés de manière entièrement automatique et l'attention est principalement portée sur structure interne programme, à savoir ses caractéristiques technologiques.

Dans le coin supérieur droit, nous aurons des tests manuels destinés à certains comportements externes du programme, en particulier des tests d'utilisabilité, et dans le coin inférieur droit, nous aurons très probablement des tests pour diverses propriétés non fonctionnelles : performances, sécurité, etc. au.

Ainsi, sur la base de la classification par objectifs, nous avons des tests unitaires dans le quadrant inférieur gauche, et tous les autres quadrants sont des tests système.

Merci pour l'attention.

Qu'est-ce que le test

Conformément à la norme IEEE 829-1983 Essai est un processus d'analyse de logiciel visant à identifier les différences entre ses propriétés réellement existantes et requises (défaut) et à évaluer les propriétés du logiciel.

Selon GOST R ISO IEC 12207-99, dans le cycle de vie du logiciel, entre autres, des processus auxiliaires de vérification, de certification, d'analyse conjointe et d'audit sont identifiés. Le processus de vérification est le processus consistant à déterminer que les produits logiciels fonctionnent en totale conformité avec les exigences ou les conditions mises en œuvre dans les travaux antérieurs. Ce processus peut inclure une analyse, une vérification et des tests (tests). Le processus d'attestation est le processus de détermination de l'exhaustivité de la conformité des exigences établies, du système ou du produit logiciel créé avec leur objectif fonctionnel. Le processus de revue collaborative est le processus d'évaluation des états et, si nécessaire, des résultats des travaux (produits) sur le projet. Le processus d'audit consiste à déterminer la conformité aux exigences, aux plans et aux conditions du contrat. Ces processus s'ajoutent à ce que l'on appelle communément les tests.

Les tests reposent sur des procédures de test avec des entrées spécifiques, des conditions initiales et des résultats attendus conçus dans un but spécifique, comme tester un programme unique ou vérifier la conformité à une exigence spécifique. Les procédures de test peuvent vérifier divers aspects du fonctionnement du programme, de travail correct une fonction distincte jusqu'à ce que les exigences de l'entreprise soient satisfaites de manière adéquate.

Lors de l'exécution d'un projet, il est nécessaire de considérer selon quelles normes et exigences le produit sera testé. Quels outils seront (le cas échéant) utilisés pour trouver et documenter les défauts trouvés. Si vous pensez tester dès le début du projet, tester le produit en cours de développement n'apportera pas de mauvaises surprises. Cela signifie que la qualité du produit est susceptible d'être assez élevée.

Cycle de vie du produit et tests

De plus en plus, à notre époque, des processus de développement de logiciels itératifs sont utilisés, en particulier, la technologie RUP - Processus unifié rationnel(Fig. 1). Lorsque vous utilisez cette approche, les tests cessent d'être un processus prêt à l'emploi qui démarre une fois que les programmeurs ont écrit tout le code nécessaire. Les tests commencent dès le début. stade initial identification des exigences pour un futur produit et s'intègre étroitement aux tâches en cours. Et cela impose de nouvelles exigences aux testeurs. Leur rôle ne se limite pas à la simple identification des erreurs de manière aussi complète et précoce que possible. Ils doivent participer à processus général identifier et éliminer les risques les plus importants du projet. Pour ce faire, pour chaque itération, un objectif de test et des méthodes pour l'atteindre sont déterminés. Et à la fin de chaque itération, il est déterminé dans quelle mesure cet objectif a été atteint, si des tests supplémentaires sont nécessaires et si les principes et outils de conduite des tests doivent être modifiés. À son tour, chaque défaut détecté doit suivre son propre cycle de vie.

Riz. 1. Cycle de vie du produit selon RUP

Les tests sont généralement effectués par cycles, chacun avec une liste spécifique de tâches et d'objectifs. Le cycle de test peut coïncider avec une itération ou correspondre à une partie spécifique de celle-ci. En règle générale, le cycle de test est effectué pour une version spécifique du système.

Le cycle de vie d'un produit logiciel consiste en une série d'itérations relativement courtes (Fig. 2). L'itération est un cycle de développement complet menant à la publication d'un produit final ou d'une version réduite de celui-ci, qui s'étend d'itération en itération pour finalement devenir un système complet.

Chaque itération comprend, en règle générale, des tâches de planification du travail, d'analyse, de conception, de mise en œuvre, de test et d'évaluation des résultats obtenus. Cependant, la relation entre ces tâches peut varier considérablement. Conformément au rapport des différentes tâches dans l'itération, elles sont regroupées en phases. La première phase - Inception - se concentre sur les tâches d'analyse. Les itérations de la deuxième phase - Développement - se concentrent sur la conception et le test de solutions de conception clés. La troisième phase - Build - a la plus grande part des tâches de développement et de test. Et dans la dernière phase - Transfert - les tâches de test et de transfert du système au client sont résolues dans la plus grande mesure.

Riz. 2. Itérations du cycle de vie du produit logiciel

Chaque phase a ses propres objectifs spécifiques dans le cycle de vie du produit et est considérée comme terminée lorsque ces objectifs sont atteints. Toutes les itérations, à l'exception peut-être des itérations de la phase de démarrage, sont complétées par la création d'une version fonctionnelle du système en cours de développement.

Catégories de test

Les tests diffèrent considérablement dans les tâches qui sont résolues avec leur aide et dans la technique utilisée.

Catégories de test	Description de la catégorie	Types de test
Tests en cours	Un ensemble de tests qui sont effectués pour déterminer la santé des nouvelles fonctionnalités du système ajoutées.	Tests de résistance ; test du cycle économique; tests de stress.
Les tests de régression	Le but des tests de régression est de vérifier que les ajouts au système n'ont pas diminué ses capacités, c'est-à-dire les tests sont effectués selon les exigences déjà satisfaites avant d'ajouter de nouvelles fonctionnalités.	Tests de résistance ; test du cycle économique; tests de stress.

Tester les sous-catégories

Tester les sous-catégories	Description du type de test	Tester les sous-types
Tests de résistance	Il est utilisé pour tester toutes les fonctions de l'application sans exception. Dans ce cas, la séquence des fonctions de test n'a pas d'importance.	test fonctionel; test d'interface; test de base de données
Test de cycle économique	Il permet de tester les fonctions de l'application dans l'ordre dans lequel elles sont appelées par l'utilisateur. Par exemple, imitation de toutes les actions d'un comptable pendant 1 trimestre.	tests unitaires (tests unitaires); test fonctionel; test d'interface; test de base de données.
Tests de résistance	Utilisé pour les tests Performances des applications. Le but de ce test est de déterminer le cadre pour le fonctionnement stable de l'application. Pendant ce test, toutes les fonctions disponibles sont appelées.	tests unitaires (tests unitaires); test fonctionel; test d'interface; test de base de données.

Tester les sous-catégories

Description du type de test

Tester les sous-types

Tests de résistance

Il est utilisé pour tester toutes les fonctions de l'application sans exception. Dans ce cas, la séquence des fonctions de test n'a pas d'importance.

test fonctionel;
test d'interface;
test de base de données

Test de cycle économique

Il permet de tester les fonctions de l'application dans l'ordre dans lequel elles sont appelées par l'utilisateur. Par exemple, imitation de toutes les actions d'un comptable pendant 1 trimestre.

tests unitaires (tests unitaires);
test fonctionel;
test d'interface;
test de base de données.

Tests de résistance

Utilisé pour les tests

Performances des applications. Le but de ce test est de déterminer le cadre pour le fonctionnement stable de l'application. Pendant ce test, toutes les fonctions disponibles sont appelées.

tests unitaires (tests unitaires);
test fonctionel;
test d'interface;
test de base de données.

Types de test

Tests unitaires (test unitaire) - ce type implique le test de modules d'application individuels. Pour obtenir le résultat maximal, les tests sont effectués simultanément au développement des modules.

Test fonctionel - Le but de ce test est de s'assurer que l'élément de test fonctionne correctement. L'exactitude de la navigation à travers l'objet est testée, ainsi que l'entrée, le traitement et la sortie des données.

Test de base de données - vérifier l'opérabilité de la base de données pendant le fonctionnement normal de l'application, dans les moments de surcharge et en mode multi-utilisateurs.

Tests unitaires

Pour la POO, l'organisation habituelle des tests unitaires consiste à tester les méthodes de chaque classe, puis la classe de chaque package, et ainsi de suite. Petit à petit, on passe au test de l'ensemble du projet, et les tests précédents sont des tests de régression.

La documentation de sortie de ces tests comprend les procédures de test, les données d'entrée, le code qui exécute le test et les données de sortie. Ce qui suit est une vue de la documentation de sortie.

Test fonctionel

Les tests fonctionnels de l'objet de test sont planifiés et effectués sur la base des exigences de test spécifiées lors de l'étape de définition des exigences. Les exigences sont des règles métier, des diagrammes de cas d'utilisation, des fonctions métier et, le cas échéant, des diagrammes d'activité. Le but des tests fonctionnels est de vérifier que les composants graphiques développés répondent aux exigences spécifiées.

Ce type de test ne peut pas être entièrement automatisé. Ainsi, il est subdivisé en :

Tests automatisés (à utiliser dans le cas où la sortie peut être vérifiée).

Finalité : tester la saisie, le traitement et la sortie des données ;

Test manuel (dans les autres cas).

Objectif : L'exactitude de la satisfaction des exigences des utilisateurs est testée.

Il est nécessaire d'exécuter (jouer) chacun des cas d'utilisation, en utilisant à la fois des valeurs correctes et des valeurs délibérément erronées, pour confirmer le bon fonctionnement, selon les critères suivants :

le produit répond de manière adéquate à toutes les données d'entrée (les résultats attendus sont affichés en réponse aux données correctement saisies) ;
le produit répond correctement aux données saisies de manière incorrecte (les messages d'erreur correspondants apparaissent).

Test de base de données

Le but de ce test est de s'assurer que les méthodes d'accès à la base de données sont fiables, correctement exécutées, sans compromettre l'intégrité des données.

Vous devez systématiquement utiliser autant d'appels de base de données que possible. Une approche est utilisée dans laquelle le test est composé de manière à "charger" la base avec une séquence de valeurs à la fois correctes et délibérément erronées. La réponse de la base de données à l'entrée de données est déterminée et les intervalles de temps pour leur traitement sont estimés.

CHAPITRE 3. TRAITEMENT STATISTIQUE DES RESULTATS DES TESTS

Le traitement statistique des résultats des tests permet, d'une part, de déterminer objectivement les résultats des tests, d'autre part, d'évaluer la qualité du test lui-même, des tâches de test, notamment d'évaluer sa fiabilité. La fiabilité a reçu beaucoup d'attention dans théorie classique essais. Cette théorie n'a pas perdu de sa pertinence à l'heure actuelle. Malgré l'apparence, plus théories modernes, la théorie classique continue de tenir bon.

3.1. DISPOSITIONS DE BASE DE LA THÉORIE DU TEST CLASSIQUE

3.2. MATRICE DES RÉSULTATS DU TEST

3.3. REPRÉSENTATION GRAPHIQUE DES POINTS D'ESSAI

3.4. MESURES DE TENDANCE CENTRALES

3.5. DISTRIBUTION NORMALE

3.6. DISPERSION DES NOTES DE TEST

3.7. MATRICE DE CORRÉLATION

3.8. FIABILITÉ DU TEST

3.9. VALIDITÉ DU TEST

LITTÉRATURE

DISPOSITIONS DE BASE DE LA THÉORIE DU TEST CLASSIQUE

Le créateur de la théorie classique des tests mentaux est un célèbre psychologue britannique, auteur analyse factorielle, Charles Edward Spearman (1863-1945) 1. Il est né le 10 septembre 1863 et a servi dans l'armée britannique pendant un quart de sa vie. Pour cette raison, il n'a obtenu son doctorat qu'à l'âge de 41 ans. Spearman a réalisé sa thèse de recherche au Laboratoire de psychologie expérimentale de Leipzig sous la direction de Wilhelm Wundt. Au cours de cette période, Charles Spearman a été fortement influencé par les travaux de Francis Galton sur les tests d'intelligence humaine. Les étudiants de Charles Spearman étaient R. Cattell et D. Wechsler. Parmi ses disciples se trouvent A. Anastasi, J.P. Guilford, P. Vernon, C. Burt, A. Jensen.

Lewis Guttman (1916-1987) 3 a grandement contribué au développement de la théorie classique des tests.

De manière globale et complète, la théorie classique des tests a été présentée pour la première fois dans les travaux fondamentaux de Harold Gulliksen (Gulliksen H., 1950) 4. Depuis lors, la théorie a quelque peu changé, en particulier, l'appareil mathématique a été amélioré. Théorie classique des tests en présentation moderne cité dans Crocker L., Aligna J. (1986) 5. De chercheurs nationaux la première description de cette théorie a été donnée par V. Avanesov (1989) 6. Dans l'œuvre de M.B. Chelyshkova. (2002) 7 fournit des informations sur la justification statistique de la qualité du test.

La théorie classique des tests est basée sur les cinq points principaux suivants.

1. Le résultat de mesure obtenu empiriquement (X) est la somme du résultat de mesure réel (T) et de l'erreur de mesure (E) 8 :

X = T + E (3.1.1)

Les valeurs T et E sont généralement inconnues.

2. Le véritable résultat de la mesure peut être exprimé comme l'espérance mathématique E (X) :

3. La corrélation des composantes vraies et erronées pour l'ensemble des sujets est égale à zéro, c'est-à-dire ρ TE = 0.

4. Les composants défectueux de deux tests ne sont pas corrélés :

5. Les composants défectueux d'un test ne correspondent pas aux composants réels d'un autre test :

De plus, la base de la théorie des tests classique est constituée de deux définitions - les tests parallèles et équivalents.

Les tests PARALLÈLES doivent répondre aux exigences (1-5), les vraies composantes d'un test (T 1) doivent être égales aux vraies composantes de l'autre test (T 2) dans chaque échantillon de sujets répondant aux deux tests. On suppose que T 1 = T 2 et, en plus, des variances égales s 1 2 = s 2 2.

Les tests équivalents doivent répondre à toutes les exigences des tests parallèles, sauf pour une chose : les vraies composantes d'un test ne doivent pas nécessairement être égales aux vraies composantes d'un autre test parallèle, mais elles doivent différer par la même constante avec.

La condition d'équivalence de deux épreuves s'écrit comme suit :

où c 12 est la constante des différences entre les résultats des premier et deuxième tests.

Sur la base des dispositions ci-dessus, une théorie de la fiabilité des tests est construite 9,10.

c'est-à-dire que la variance des scores de test obtenus est égale à la somme des variances des composantes vraies et fausses.

Réécrivons cette expression comme suit :

(3.1.3)

Le côté droit de cette égalité représente la fiabilité du test ( r). Ainsi, la fiabilité du test peut s'écrire comme :

Sur la base de cette formule, différentes expressions ont ensuite été proposées pour trouver le coefficient de fiabilité du test. La fiabilité du test représente sa caractéristique essentielle... Si la fiabilité est inconnue, les résultats du test ne peuvent pas être interprétés. La fiabilité du test caractérise sa précision en tant qu'instrument de mesure. Une fiabilité élevée signifie une répétabilité élevée des résultats des tests dans les mêmes conditions.

Dans la théorie des tests classique, le problème le plus important est de déterminer le vrai score du test du sujet (T). Le score du test empirique (X) dépend de nombreuses conditions - le niveau de difficulté des tâches, le niveau de préparation des sujets, le nombre de tâches, les conditions de test, etc. Dans un groupe de sujets forts et bien entraînés, les résultats du test seront généralement meilleurs. que dans le groupe des sujets peu entraînés. A cet égard, la question de l'ampleur de la mesure de la difficulté des tâches sur la population générale des sujets reste ouverte. Le problème réside dans le fait que de véritables données empiriques sont obtenues sur des échantillons de sujets pas du tout aléatoires. En règle générale, ce sont des groupes d'étude, qui sont un ensemble d'étudiants qui interagissent assez fortement les uns avec les autres dans le processus d'apprentissage et étudient dans des conditions qui ne sont souvent pas répétées pour d'autres groupes.

Trouve s Eà partir de l'équation (3.1.4)