Alle 14 Tage aktuelle News aus der IT-Szene >
Laut einer neuen Umfrage von Applause könnten generative KI-Tools die Produktivität in der Softwareentwicklung um bis zu 74 Prozent steigern. Gleichzeitig zeigen die Ergebnisse: Fehlende Teststrategien und unzureichende Integration stellen zentrale Herausforderungen dar – besonders vor dem Hintergrund zunehmend autonomer KI-Systeme.
Foto: Applause
Chris Sheehan, EVP of High Tech & AI bei Applause
Trotz wachsender Verbreitung generativer KI in der Softwareentwicklung hinkt deren Einbindung in bestehende Prozesse und Werkzeuge oft hinterher. Das zeigt die aktuelle Studie „State of Digital Quality in AI“ von Applause. Über 4.400 Softwareentwickler, QA-Fachkräfte und Verbraucher gaben Auskunft über Nutzung, Herausforderungen und Erwartungen im Zusammenhang mit generativer KI. Die Ergebnisse zeichnen ein ambivalentes Bild: Während viele Entwickler in KI-gestützten Tools einen erheblichen Effizienzgewinn sehen, bleibt die Qualitätssicherung häufig hinter den Anforderungen zurück.
Mehr als die Hälfte der befragten Entwickler und QA-Experten schätzt, dass generative KI ihre Produktivität deutlich erhöht – in Einzelfällen um bis zu 74 Prozent. Zugleich zeigt sich, dass diese Werkzeuge nicht flächendeckend verfügbar sind: 23 Prozent der Befragten berichten, dass ihre Entwicklungsumgebung keine Gen-AI-Funktionen integriert hat. Weitere 16 Prozent wissen nicht, ob entsprechende Funktionen vorhanden sind. GitHub Copilot (37 Prozent) und OpenAI Codex (34 Prozent) zählen zu den meistgenutzten Tools.
Trotz dieser Entwicklungen setzen nur rund ein Drittel der Unternehmen auf strenge Testverfahren wie Red Teaming, um Risiken im Zusammenhang mit KI zu minimieren. Die häufigsten Anwendungsfelder generativer KI sind laut Umfrage Chatbots und Systeme für den Kundenservice.
Angesichts des zunehmenden Einsatzes agentischer KI – also Systeme, die autonom agieren – steigt die Bedeutung fundierter Tests. Die Studie macht deutlich, dass der menschliche Faktor weiterhin eine zentrale Rolle spielt. Zu den wichtigsten QA-Aktivitäten zählen laut den Befragten die Bewertung von Prompts und Antworten (61 Prozent), UX-Tests (57 Prozent) und Barrierefreiheitstests (54 Prozent). Auch beim Training spezialisierter Modelle setzen 41 Prozent auf Fachexpertise. Dennoch kommt Red Teaming nur bei 33 Prozent zum Einsatz.
Chris Sheehan, EVP of High Tech & AI bei Applause, betont: „Die Ergebnisse unserer jährlichen KI-Umfrage unterstreichen, wie wichtig es ist, die Messlatte für das Testen und den Rollout neuer generativer KI-Modelle und -Anwendungen deutlich höher zu legen.“
Die Umfrageergebnisse zeigen zudem eine Diskrepanz zwischen den Ambitionen der Unternehmen und den Erfahrungen der Endnutzer. Fast zwei Drittel der Verbraucher, die 2025 generative KI nutzen, haben bereits Probleme erlebt – darunter voreingenommene oder erfundene Antworten sowie beleidigende Inhalte. Nur 35 Prozent berichteten, in den letzten drei Monaten keinerlei Probleme gehabt zu haben.
Gleichzeitig steigen die Erwartungen: 78 Prozent der Befragten halten multimodale Funktionalität – also die Fähigkeit, verschiedene Medientypen zu verarbeiten – für wichtig. Im Vorjahr lag dieser Wert noch bei 62 Prozent. Auch die Bindung an einzelne Anbieter nimmt ab: Ein Drittel der Nutzer hat bereits einen Dienst gewechselt, mehr als ein Drittel nutzt je nach Aufgabe unterschiedliche Tools.
Sheehan erklärt abschließend: „Auch wenn jeder Anwendungsfall für generative KI einen individuellen Qualitätsansatz erfordert, lässt sich menschliche Intelligenz an vielen Stellen des Entwicklungsprozesses einsetzen – sei es bei den Trainingsdaten, der Bewertung der Modelle oder beim umfassenden Testen unter realen Bedingungen.“ Nur so könne man sicherstellen, dass neue KI-Lösungen ein überzeugendes Nutzererlebnis bieten und zugleich Risiken beherrschbar bleiben.