Optez pour une voie plus rapide et plus intelligente vers l'automatisation des tests C/C++ pilotée par l'IA. Découvrez comment >>
Livre blanc
Découvrez un aperçu de l'étude ci-dessous.
Cette étude évalue comment GitHub Copilot et les modèles d'invite de Parasoft génèrent des correctifs de code pour les violations d'analyse statique détectées par Parasoft C / C ++test Les deux outils ont utilisé GPT-4o, les corrections étant évaluées à l'aide de GPT-4o-2024-08-06 pour les comparaisons par paires.
Les résultats montrent que les invites de Parasoft ont nettement surpassé celles de GitHub Copilot : avec des questions de raisonnement, Parasoft s'est avéré supérieur dans 64.45 % des cas, égal dans 20.5 % des cas et moins performant dans 15.05 % des cas. Les invites sans question de raisonnement ont surpassé Copilot dans 57.16 % des cas.
L'analyse manuelle suggère que les invites de Parasoft produisent des corrections plus complètes et plus robustes grâce à la documentation des règles et au raisonnement logique.
| Taux de réussite | Taux d'attache | Taux de perte | |
|---|---|---|---|
| Copilote GitHub | 0.150895 | 0.204604 | 0.644501 |
| Test de C++ avec questions de raisonnement | 0.644501 | 0.204604 | 0.150895 |
| Taux de réussite | Taux d'attache | Taux de perte | |
|---|---|---|---|
| Copilote GitHub | 0.199488 | 0.2289 | 0.571611 |
| Test C++ sans questions de raisonnement | 0.571611 | 0.2289 | 0.199488 |
| Copilote GitHub | Test C++ avec raisonnement | Test C++ sans raisonnement | |
|---|---|---|---|
| Copilote GitHub | - | 0.150895 | 0.199488 |
| Test C++ avec raisonnement | 0.644501 | - | 0.313433 |
| Test C++ sans raisonnement | 0.571611 | 0.186567 | - |
La visualisation démontre clairement les performances supérieures de Parasoft C++test pour les deux approches d'invite :
Dans les deux configurations, C++test l'emporte plus souvent qu'il ne fait match nul ou ne perd, démontrant ainsi une supériorité constante en matière de qualité de correction.
Cette analyse démontre que les corrections obtenues grâce aux invites de Parasoft sont systématiquement mieux classées que celles obtenues avec GitHub Copilot. Les performances sont similaires pour les deux variantes d'invites (avec ou sans justification), ces dernières étant légèrement plus performantes.
L'inspection manuelle des données d'exemple a révélé que les correctifs générés avec les invites de Parasoft sont souvent plus complets (par exemple, la correction de toutes les occurrences d'un problème sur des lignes adjacentes), plus robustes (mise en œuvre d'une meilleure gestion des erreurs) et conformes aux pratiques de codage standard.
On suppose que ces performances supérieures proviennent de deux facteurs clés dans la conception des invites de Parasoft :
Ces éléments fonctionnent de concert pour améliorer les capacités de génération de correctifs du modèle, ce qui permet d'obtenir des corrections de code plus fiables et plus complètes.
Cette étude reconnaît plusieurs contraintes méthodologiques :
Prêt à plonger plus profondément ?