Creating Rich Metadata in the TV Broadcast Archives Environment: the PrestoSpace Project

Contents:

  • 1 Introduction
  • 2. The Metadata Access and Delivery Area
  • 2.1 Metadata in the archive management process
  • 2.2 Data models and standard formats
  • 2.3 General architecture
  • 3. Documentation infrastructure
  • 3.1 Content analysis
  • 3.2 Semantic analysis
  • 3.3 Manual annotation
  • 4. Publication infrastructure
  • 5. Conclusions and future work
  • 6. References.

Toelichting op onderzoek en ontwikkeling van het Metadata Access and Delivery (MAD) systeem in het kader van het Europese project PrestoSpace. Het MAD systeem is er op gericht om metadata te genereren, valideren en presenteren voor gebruikers van televisiearchieven.Op basis van de vastgestelde benodigde typen informatie voor de gebruikers, is een datamodel opgebouwd in XML op basis van de metadata standaarden MPEG-7 en P_META, die beide gericht zijn op het beschrijven van av-materiaal. De ‘content analysis tools’ zorgen voor automatische extractie van diverse (technische) kenmerken van de nieuwsitems, o.a. segment herkenning, camera beweging en transcriptie van spraak naar tekst. Twee modules zorgen voor de semantische analyse: – Automatische herkenning van ‘Named Entities’ in de transcripties en contextinformatie door de ‘linguistic processor’. – Automatische herkenning van het soort nieuws (bijv. sport, politiek) door de ‘news categorizer’. De combinatie van automatische metadata extractie met manuele verrijking door een documentalist ervaart de projectgroep als effectief voor het verrijken van nieuws content op een kwalitatief hoog niveau. Hiermee is het av-materiaal geschikt gemaakt voor full-text zoeken via de transcripties, voor het zoeken vanuit diverse facetten (soort nieuws, personen, locaties) en voor het op tijdcode bladeren door de nieuwsitems.

Heldere, korte beschrijving van de wijze waarop in dit project het semi-automatische catalogiseerproces is vormgegeven.