Beeld en Geluid

HOSAN 2

Spraakherkenning – technologie die gesproken woorden automatisch omzet in tekst – wordt steeds belangrijker in toepassingen zoals ondertiteling, archivering van audiovisueel materiaal en spraakgestuurde systemen. Toch werken huidige systemen vaak minder goed voor mensen met een regionaal accent, dialectsprekers of sprekers die schakelen tussen meerdere talen. Daardoor ontstaan praktische en maatschappelijke problemen: ondertiteling wordt minder betrouwbaar, archieven bevatten minder representatieve transcripties en gebruikers ervaren frustratie wanneer technologie hun spraak niet begrijpt.

HOSAN 2 bouwt voort op het eerdere project HOSAN – Hoogwaardige Spraakherkenning voor al het Nederlands, waarin eerste stappen zijn gezet om spraakherkenning inclusiever te maken. In die eerste fase werd duidelijk dat bestaande evaluatiemethoden vooral een algemene nauwkeurigheid meten, maar niet laten zien waarom systemen fouten maken bij bepaalde sprekers of in specifieke situaties.

Dit vervolgproject ontwikkelt nieuwe diagnostische methoden om die oorzaken beter te begrijpen. Daarbij wordt niet alleen gekeken naar het geluid van spraak, maar ook naar transcripties en contextinformatie, zoals omgevingsgeluid of gespreksdynamiek. Ook wordt opnieuw gedefinieerd wat ‘goede prestaties’ betekenen in verschillende toepassingen: bij live-ondertiteling gaat het bijvoorbeeld om leesbaarheid, terwijl bij archivering juist betekenisbehoud centraal staat.

Samen met nationale, regionale en lokale publieke omroepen ontwikkelt het project pilot-tests en een dataset met opnamen, transcripties en contextinformatie. Deze maken zichtbaar wanneer en waarom spraakherkenning tekortschiet, zodat onderzoekers en bedrijven hun systemen gerichter kunnen verbeteren.

Met deze contextbewuste evaluatiemethoden draagt HOSAN 2 bij aan transparante en inclusieve spraaktechnologie die de diversiteit van het Nederlands beter herkent – van televisieondertiteling tot spraakinterfaces.

Er wordt €151.800,- als PPS-programmatoeslag ingezet.