Logo Parasoft

Répondre aux préoccupations de la NASA concernant l'utilisation du LLM dans le développement critique pour la sécurité

By Igor Kirilenko 19 août 2025 5 min de lecture

GenAI peut accélérer les tâches d'ingénierie comme la rédaction des dossiers de sécurité, mais la NASA met en garde contre sa tendance à générer du contenu crédible mais non vérifié, rendant la surveillance humaine essentielle dans les systèmes critiques. Lisez la suite pour découvrir comment la combinaison de LLM contraints, de preuves traçables et d'un examen rigoureux offre une voie plus sûre.

Répondre aux préoccupations de la NASA concernant l'utilisation du LLM dans le développement critique pour la sécurité

By Igor Kirilenko 19 août 2025 5 min de lecture

GenAI peut accélérer les tâches d'ingénierie comme la rédaction des dossiers de sécurité, mais la NASA met en garde contre sa tendance à générer du contenu crédible mais non vérifié, rendant la surveillance humaine essentielle dans les systèmes critiques. Lisez la suite pour découvrir comment la combinaison de LLM contraints, de preuves traçables et d'un examen rigoureux offre une voie plus sûre.

L'IA générative est devenue un outil d'ingénierie courant en un temps record. Les équipes de développement s'appuient désormais sur des modèles de langage étendus (MLE) pour rédiger le code et synthétiser les résultats des tests, et même pour rédiger des dossiers de sécurité dans le langage requis par les régulateurs. développement intégré critique pour la sécurité.

La génération de preuves de conformité pour le développement critique pour la sécurité reste un processus manuel et sujet aux erreurs. Les équipes exportent les journaux de tests unitaires, étiquetent manuellement les tables de suivi et rédigent les diagrammes GSN (Goal-Structured Notation) ligne par ligne.

Ce qui rend les grands modèles de langage si utiles, c’est qu’ils peuvent élaborer ces artefacts automatiquement, à condition que nous les limitions à des sources vérifiables.

Cependant, un récent rapport de la NASA met en garde contre l'utilisation des LLM à cet égard. L'article, «Examen des utilisations proposées des LLM pour produire ou évaluer des arguments d'assurance, se demande si l'on peut faire confiance à une technologie générant des textes naturels lorsque des vies en dépendent. Les auteurs soutiennent que le problème fondamental est que les LLM visent des réponses plausibles, et non des faits avérés. Ainsi, lorsqu'un problème aussi simple qu'une simple citation inventée se produit, il peut invalider l'ensemble d'un programme de certification, voire pire.

Construire un dossier auquel les auditeurs font confiance

Dans le cadre d'un développement critique pour la sécurité, chaque conclusion doit être étayée par un argument vérifiable prouvant sa sécurité. C'est ce qu'on appelle un argument d'assurance et, avec d'autres documents, il constitue ce qu'on appelle le dossier de sécurité.

Les arguments d'assurance sont généralement structurés selon la notation de structuration des objectifs (GSN), un diagramme graphique formel qui décompose chaque allégation de sécurité en sous-objectifs fondés sur des preuves. Ces normes sont fortement encouragées. ISO 26262 (automobile), DO-178C (aviation), et des cadres similaires où chaque affirmation doit s'appuyer sur des preuves objectives et vérifiables. Cela prend du temps, c'est pourquoi utiliser GenAI à cette fin est si utile.

Mais si vous lisez le document de la NASA et que vous vous concentrez sur la sécurité, la qualité ou la conformité des logiciels, vous pourriez être préoccupé par les exemples alarmants que la NASA soulève pour l'utilisation des LLM à cet effet.

Dans les sections ci-dessous, nous traduirons leurs mises en garde en garde-fous pratiques et montrerons où une IA disciplinée peut encore apporter de la valeur sans compromettre l'approbation.

Le message principal du rapport de la NASA

Les auteurs de la NASA s'attaquent à l'idée fausse dont la plupart des équipes de développement sont déjà conscientes : parce que les LLM semblent faire autorité avec leurs réponses, ils doivent donc être précis.

Le rapport démontre, exemple après exemple, l'inexactitude de cette hypothèse. Certains LLM inventent des références, citent mal les réglementations et ignorent les risques marginaux qui font la force ou l'échec d'un dossier de sécurité. La NASA a conclu que, tant que des études reproductibles n'ont pas prouvé leur fiabilité, tout argument avancé par un LLM doit être traité comme expérimental et examiné ligne par ligne par des ingénieurs qualifiés.

Leur conclusion n'est pas que l'IA devrait être interdite, mais ils soulignent que son utilisation semble déplacer du temps et des responsabilités, plutôt que de simplement faire gagner un temps précieux. L'ingénieur n'écrit plus chaque phrase, certes, mais désormais, chaque ligne proposée par le LLM doit être revalidée. Ainsi, selon l'article, tout gain d'efficacité en matière de développement s'accompagne d'une nouvelle charge de supervision.

Pourquoi GenAI pourrait être mauvais avec les cas de sécurité

Si votre titre inclut l’assurance de la conception, la sécurité des logiciels, le directeur de l’assurance qualité ou l’ingénieur principal des systèmes, les problèmes mis en évidence par la NASA affectent directement votre flux de travail.

  • Les pistes d’audit ne peuvent tolérer les preuves inventées. Les régulateurs insisteront sur le fait que chaque déclaration produite par l'IA repose sur un artefact déterministe, comme des résultats de tests, des conclusions d'analyses statiques, des indicateurs de couverture, etc.
  • Les horaires doivent absorber une nouvelle boucle. Quelqu'un doit surveiller chaque ligne de texte généré par ordinateur. Mais la question est désormais de savoir qui.
  • Les budgets soulèvent de nouvelles questions sur le retour sur investissement. Toute augmentation de productivité revendiquée doit survivre au coût d’un examen supplémentaire de la documentation générée par l’IA.

Où utiliser l'intervention humaine avec l'IA et les LLM

Comme le dit la NASA, les LLM sont excellents pour paraître corrects, mais ils n'ont pas de sens intrinsèque de la vérité. Ils peuvent inventer des faits, passer à côté de cas limites et citer des sources inexistantes.

Utilisé avec prudence, ce même modèle peut également signaler des points faibles potentiels, parfois appelés « défaillances ». Il peut analyser vos journaux de test pour détecter les lacunes de couverture et les rapports d'analyse statique pour détecter les violations récurrentes. Cela permet à votre équipe de corriger les problèmes avant qu'un auditeur ne les détecte.

Dans tous les domaines critiques pour la sécurité (avionique, ferroviaire, médical), vous pouvez laisser les outils d'IA écrire du code, suggérer des tests ou regrouper des défauts, mais seulement si le contenu généré par l'IA renvoie à des preuves que vous pouvez retracer et réexécuter. Et comme les LLM peuvent paraître fiables même s'ils sont erronés, un examinateur humain doit tout de même préparer ou approuver l'argumentaire d'assurance final.

Pour les travaux critiques en matière de sécurité, nous partageons la conclusion de la NASA : un LLM peut être utile, mais un humain qualifié doit tout de même élaborer et valider l'argumentaire d'assurance. L'ampleur des efforts requis dépend du niveau de vérification exigé par chaque secteur. Les bugs non détectés coûtent cher dans le cloud, mais pourraient coûter des vies dans le monde réel.

Une approche sécurisée pour l'utilisation de l'IA générative

L'article de la NASA souligne également la quantité de code automatisé par l'IA générée par les pipelines modernes. Bien plus que ce que les humains peuvent analyser et produire seuls.

Pour gérer ce volume, vous avez besoin d'outils capables de trier les résultats de manière déterministe, puis de laisser un LLM sur site, au périmètre précis, les réexprimer. Dans ce cas, des solutions comme les workflows d'analyse statique de Parasoft vous indiqueront les violations les plus importantes. Elles peuvent regrouper ces résultats vérifiés et signaler ceux que les auditeurs doivent réellement consulter, sans ajouter d'informations supplémentaires (réelles ou fabriquées) aux preuves que vous savez déjà correctes.

Les résultats triés peuvent ensuite être transmis à un LLM protégé pour être synthétisé et mis au format approprié. Les garde-fous sont utiles pour réexprimer avec précision les résultats aux auditeurs. Ils constituent des contraintes explicites sur ce que le modèle peut voir, des règles sur ses réponses et des contrôles a posteriori sur ce qu'il produit. Ils visent à empêcher le LLM d'inventer de nouvelles informations.

Pour un exemple critique en matière de sécurité, pensez à un projet aérospatial dans lequel un LLM sur site contraint condense un rapport d'analyse statique de 50,000 10 lignes en 45 modèles de défauts prioritaires en XNUMX secondes afin que les ingénieurs puissent se concentrer sur les problèmes critiques.

L'avenir des tests d'auto-guérison

On observe également que l'IA pourrait rendre obsolète le terme « test auto-réparateur », dans la mesure où l'adaptation dynamique peut corriger une assertion défaillante avant même qu'un testeur ne perçoive un problème. Cette possibilité pourrait enthousiasmer les équipes DevOps, mais pétrifier les ingénieurs sécurité.

L'article de la NASA nous rappelle pourquoi : si la correction elle-même est incontrôlée ou intraçable, alors le remède est pire que l'échec. L'approche de Parasoft consiste donc à consigner chaque « correction » automatisée à côté de la ligne de base défaillante, de sorte que l'humain puisse toujours valider.

Nos réflexions sur leur conclusion

Les auteurs de la NASA concluent que, tant que des études reproductibles n'auront pas prouvé leur fiabilité, chaque argument d'assurance généré par LLM doit être traité strictement comme une expérience. Leur exploration est utile, mais leur déploiement sur la seule base de la confiance est incertain, et leur gain de temps réel est discutable.

L'IA progressant à un rythme accéléré, l'ouverture d'esprit et l'expérimentation sont essentielles. Parasoft explore des fonctionnalités permettant de valider les extraits d'assurance générés par LLM par rapport aux preuves concrètes issues de nos outils. Plus récemment, par exemple, nous avons mené un projet de recherche interne sur la manière dont un modèle spécifique à un domaine, entraîné uniquement sur les artefacts et les modèles d'assurance de Parasoft, pourrait offrir une fiabilité supérieure à celle d'un chatbot généraliste.

Mais conformément aux recommandations de la NASA, nous considérons tous ces travaux comme expérimentaux jusqu'à ce que la communauté apporte des preuves indépendantes de sécurité et de rentabilité. Globalement, nous pensons que les gains de temps sont bien réels.

Comment faire de la sécurité une priorité tout en gagnant du temps

  • Ancrez chaque suggestion d’IA à la vérité fondamentale. Un hyperlien vers des preuves brutes transforme « faites-moi confiance » en « vérifiez-moi ».
  • Déterminez le coût du réviseur. Si l’IA permet d’économiser dix heures de tri manuel mais ajoute dix heures de surveillance, alors réexaminez si cela en vaut la peine.
  • Séparer par risque. Utilisez le manuel strict dans les domaines critiques. Privilégiez le plus rapide lorsqu'il est plus facile de revenir en arrière.
  • Insistez sur la transparence de la part des fournisseurs, y compris nous-mêmes. Demandez-vous comment le modèle est contraint, où se trouvent les garde-fous et ce qui se passe lorsqu'il sort du script.

Continuez à expérimenter avec le flux de travail, mais ne présumez pas

Un LLM sécurisé, basé sur des journaux de tests, des liens de suivi et des analyses de code éprouvés, est non seulement un excellent outil, mais il est également essentiel de le maintenir à jour. Cependant, comme il peut inventer des choses (et est convaincant), une vérification humaine est nécessaire.

Mais ils apprennent vite. Si vite que certains modèles identifient déjà les violations de l'analyse statique mieux que nous. Utilisez-les avec des preuves à l'appui, avec discernement, et peut-être pourrez-vous transformer le travail fastidieux d'aujourd'hui en une longueur d'avance demain.

Vous souhaitez en savoir plus sur l’utilisation des LLM dans le développement critique pour la sécurité ?

Parlez à l'un de nos experts