2026/03/04
Linking microstructure informatics with characterization knowledge in additively manufactured composites through customized and hybrid vision-language representations for automated qualification
Safdar, M.; Wood, G.; Zimmermann, M.; Lamouche, G.; Wanjara, P.; Zhao, Y.F. (2026). Linking microstructure informatics with characterization knowledge in additively manufactured composites through customized and hybrid vision-language representations for automated qualification. Advanced Engineering Informatics, vol. 71, 2026, 104238.
La qualification rapide et fiable des matériaux avancés demeure un goulot d’étranglement dans la fabrication industrielle, en particulier pour les structures hétérogènes produites par des procédés de fabrication additive non conventionnels. Cette étude présente un cadre méthodologique novateur reliant l’informatique des microstructures à un ensemble de connaissances expertes en caractérisation à l’aide de représentations vision-langage (VLR) personnalisées et hybrides. En intégrant une segmentation sémantique profonde à des modèles multimodaux préentraînés (CLIP et FLAVA), nous encodons à la fois les données visuelles de microstructure et les évaluations textuelles d’experts dans des représentations partagées. Pour surmonter les limites des représentations génériques, nous avons développé une représentation personnalisée basée sur la similarité qui intègre des références positives et négatives issues d’images annotées par des experts ainsi que leurs descriptions textuelles associées. Cette approche permet la classification zero-shot de microstructures jamais observées auparavant, à l’aide d’une méthode de score de similarité nette. La validation sur un jeu de données de composites à matrice métallique (MMC) fabriqués par fabrication additive a démontré la capacité du cadre proposé à distinguer des échantillons conformes et défectueux selon différents critères de caractérisation, avec une précision de récupération top-5 pouvant atteindre 80 %. L’analyse comparative a montré que le modèle FLAVA présente une sensibilité visuelle plus élevée et pénalise davantage les similarités faibles, avec des écarts de score pouvant atteindre 0,17 par rapport à CLIP. Toutefois, l’encodeur textuel de FLAVA montre des diminutions marquées de similarité lorsque les descriptions expertes sont reformulées (descendant sous 0,20), tandis que CLIP maintient un alignement plus stable avec les critères textuels (0,29–0,36). La normalisation par score-z a permis d’ajuster les scores bruts de similarité unimodale et multimodale en fonction de leurs distributions locales propres au jeu de données, facilitant ainsi un meilleur alignement et une classification plus efficace dans le cadre vision-langage hybride. Les scores standardisés ont produit de solides résultats de classification binaire dans trois catégories (82 % pour la distribution, 90 % pour la dilution et 82 % pour le renforcement). La méthode proposée améliore la traçabilité et l’interprétabilité dans les chaînes de qualification grâce à une prise de décision impliquant l’expertise humaine (human-in-the-loop), sans nécessiter de réentraînement spécifique des modèles. En favorisant l’interopérabilité sémantique entre données brutes et connaissances expertes, ce travail contribue au développement de stratégies de qualification évolutives et adaptables aux domaines de l’ingénierie et de l’informatique des matériaux.