2007-10-14

Die Sprachdetektive des BKA

Ein leistungsfähiger Rechner mit Soundkarte, ein paar Kopfhörer - der Arbeitsplatz von Olaf Köster ist unspektakulär. Seine Arbeit ist es nicht. Gerade hat er wieder eine brisante Datei auf seinem Bildschirm. Bauchige Wölbungen auf einer Geraden, die Abbildung einer verrauschten Tonaufnahme. Sie stammt von einer Videoüberwachungskamera. Das Gerät hat einen Todesfall in einem Yachthafen aufgezeichnet, nicht als Bild, sondern akustisch. Eine Frau ist umgekommen. War es Mord oder ein Unfall? Schreie sind zu hören, Wortfetzen. Für den Laien unverständlich. Köster spielt die Datei wieder und wieder ab. Was wird gesprochen und von wem? Welche Hintergrundgeräusche sind zu hören?

Solche Analysen sind Alltag für den 38-jährigen Phonetiker im Bundeskriminalamt (BKA). Olaf Köster und eine Handvoll anderer Experten arbeiten im Fachbereich forensische Sprecherkennung, einer noch jungen Disziplin, die das BKA in den 1980er Jahren aufgebaut hat. Es geht darum, akustische Spuren auszuwerten: Telefonaufzeichnungen von Entführern oder Erpressern, Anrufe mutmaßlicher Gewalttäter bei der Polizei, Mitschnitte von Telefonüberwachungen oder auch Aufzeichnungen von Voicerekordern, die nach einem Flugzeugabsturz geborgen wurden. Dramatisches Material, das Köster zuweilen an die Grenzen des Ertragbaren bringt.

Zum Beispiel die Bänder des Armin Meiwes. Der heute 45-Jährige ist als "Kannibale von Rotenburg" bekannt, weil er 2001 einen Internetbekannten entmannte, tötete und teilweise verspeiste. Meiwes hatte seine Handlungen per Video dokumentiert.

Vor Gericht behauptete er unter anderem, er sei überzeugt gewesen, dass sein Opfer bereits tot gewesen sei, als er dem Mann den Hals durchtrennt habe. Köster begutachtete die Tonspur der betreffenden Passage aus dem Videomitschnitt - und widerlegte die Behauptung. Den genauen Wortlaut von Meiwes' Gemurmel darf er nicht preisgeben, nur so viel: Meiwes ging beim tödlichen Schnitt davon aus, dass sein Opfer noch lebte.

Eine wichtige Information für das Gericht, um das Strafmaß zu bestimmen. Die Geräusche, die Köster viele Dutzend Male hören musste, wird er so schnell nicht vergessen: "Ich konnte eine Weile kein Fleisch mehr essen."

Die Wissenschaft von der forensischen Sprechererkennung hat ihre Wurzeln in den USA. Dort war 1932 das Baby des Atlantiküberquerers Charles Lindbergh entführt worden. Als zwei Jahre später der deutschstämmige Einwanderer Bruno Richard Hauptmann als mutmaßlicher Täter verhaftet wurde, glaubte Lindbergh, dessen Stimme an ihrem starken deutschen Akzent wiederzuerkennen. Hauptmann wurde hingerichtet, ohne gestanden zu haben - obwohl schon Zeitgenossen diese Art der Beweisführung als kriminalistisch äußerst fragwürdig einstuften. In der Folge erschienen die ersten beiden empirischen Studien, die sich mit der Wiedererkennbarkeit von Stimmen befassten.

In Deutschland etablierte sich das Fach zur Zeit des RAF-Terrorismus. Damals wollte man vor Gericht objektive Sachbeweise, die unabhängig von Zeugenaussagen Bestand hatten. An diese Zeit erinnert sich auch Hermann Künzel, der die Abteilung Sprecherkennung beim Bundeskriminalamt aufgebaut hat.

In einem seiner Gutachten identifizierte er Peter-Jürgen Boock als einen der Entführer von Hanns Martin Schleyer. Die RAF hatte ihre Interviews mit dem später von ihr ermordeten Arbeitgeberpräsidenten aufgezeichnet, um sie für die Nachwelt zu erhalten. Boock verriet sich durch einen charakteristischen Pfeiflaut, den er aufgrund einer Lücke zwischen den Schneidezähnen produzierte. Wenn er "sch" sprach, war die Energie der entsprechenden Frequenz in der Spektralanalyse 100-mal so hoch wie bei jemandem, der das "sch" ohne Pfeifton sagte. "Das war für das Gericht in Stammheim sehr schön zu sehen", sagt Künzel, "als roter Spektralfleck auf grünem Hintergrund." Peter-Jürgen Boock wurde zu dreimal lebenslänglich verurteilt.

Seither haben Sprachdetektive des BKA mitgeholfen, etliche der spektakulärsten Kriminalfälle der jüngeren deutschen Geschichte aufzuklären: den Polizistenmord in Holzminden Anfang der 1990er Jahre, die Entführung des Millionenerben Jan Philipp Reemtsma, die Erpressung des Lebensmittelkonzerns Nestlé. Der geflüchtete Immobilienspekulant Jürgen Schneider wurde mit ihrer Hilfe gefasst, und auch dem Kaufhauserpresser Arno Funke alias Dagobert kamen sie auf die Spur.

Stimme und Sprechweise eines Menschen lassen allerdings längst nicht so eindeutige Rückschlüsse auf seine Identität zu wie etwa ein Fingerabdruck oder eine DNA-Spur. Die Phonetiker im BKA operieren daher mit einer sechsstufigen Skala von Wahrscheinlichkeiten. Um den maximalen Wert zu erreichen, die "an Sicherheit grenzende Wahrscheinlichkeit", muss schon so einiges an Indizien zusammenkommen.

Denn die Stimme eines Menschen ist zwar charakteristisch, aber auch sehr variabel. Morgens klingt sie frischer als abends, in jungen Jahren heller als im Alter, während einer Depression monotoner als sonst. Vor allem wandelt sie sich mit der Situation: Beim Drogendeal per Mobiltelefon aus dem Lastwagen hört sich ein Mann ganz anders an, als wenn er entspannt mit der Freundin telefoniert.

Wie schwierig die Identifizierung einer Person über die Stimme sein kann, zeigte sich kürzlich bei einem Prozess vor dem Landgericht Potsdam. Es ging um den Überfall auf Ermyas Mulugeta am Ostersonntag 2006.

Der aus Äthiopien stammende Deutsche war von zwei Männern niedergeschlagen und lebensgefährlich verletzt worden. Die Handy-Mailbox seiner Ehefrau hatte das Wortgefecht zwischen Mulugeta und einem der Täter aufgezeichnet. Dessen Stimme klang ungewöhnlich hoch, hatte einen großen Umfang und eine mittelmärkische Sprachfärbung - ähnlich wie die des Angeklagten Björn L. Aber das reichte für eine Verurteilung nicht aus: Der Handy-Mitschnitt war von schlechter Qualität, und Björn L. litt nach Auskunft eines Arztes um Ostern 2006 an einer Kehlkopfentzündung. Dass der Unbekannte mit ihm identisch sein könnte, hielt die Gutachterin vom Landeskriminalamt Brandenburg lediglich für "wahrscheinlich" - das ist der zweitniedrigste Wert auf der sechsstufigen Skala. Björn L. wurde freigesprochen.

Das Beispiel illustriert eines der Hauptprobleme der Stimmenidentifizierung: "Nur der Geheimdienst produziert High Fidelity", sagt Hermann Künzel, der heute Phonetik an der Universität Marburg lehrt. Die meisten Aufzeichnungen sind "schmutzig", schon aufgrund der Übertragungswege.

Am Telefon etwa werden nur Frequenzen bis rund 3400 Hertz übermittelt. Erst jenseits dieses Frequenzbereichs lassen sich aber beispielsweise die Laute f und s unterscheiden. Die Mobiltelefon-Kommunikation hat die Arbeit der Ermittler noch einmal erschwert. Zum eingeschränkten Frequenzbereich kommt bei billigen Providern ein Brummton von 240 Hertz. Obendrein wird manchmal sogenanntes Comfort Noise zugespielt, das den Teilnehmern in Gesprächspausen signalisieren soll, dass die Verbindung gehalten wird.

Solches Material für die Fahndung über Rundfunk und Fernsehen aufzubereiten, ist eine Wissenschaft für sich. Zwar gibt es technische Hilfsmittel, die Störfrequenzen aus einer Aufzeichnung herausfiltern können, aber dabei geht leicht auch das Charakteristische einer Stimme verloren. Künzel vergleicht seine Arbeit mit der Operation an einem Gehirntumor. Wenn der Chirurg den Krebs sauber wegschneidet, beeinträchtigt er womöglich lebenswichtige Funktionen des Patienten. Entfernt er zu wenig, ist das Grundproblem nicht beseitigt. Zu technischen Details schweigt er. "Es läge nicht im Interesse der Sache, dazu Weiteres zu sagen."

Um Sprachproben besser analysieren zu können, arbeiten die BKA-Experten mit Hochschulen in Saarbrücken, Trier oder Koblenz zusammen, forschen aber auch selbst. "Je mehr man quantifizieren und statistisch absichern kann, desto besser", sagt der Phonetiker Olaf Köster. Zum Beispiel hat das BKA eine repräsentative Datenbank zusammengestellt, aus der unter anderem hervorgeht, wie die Stimmbandfrequenzen von Männern und Frauen verteilt sind. Weil Männer einen größeren Kehlkopf und somit längere Stimmlippen haben, sprechen sie in der Regel tiefer, mit durchschnittlich 118 Hertz. Gerät aber ein Mann mit normaler Stimmtonlage unter Stress oder in eine laute Umgebung, kann seine Stimme durchaus einmal 60 Hertz höher liegen - dann klingt er fast wie eine Frau.

Die Hintergrundstatistik für dieses Phänomen lieferten dem BKA 100 Polizeibeamte, die unter anderem "Der Nordwind und die Sonne" lasen, eine Fabel des antiken Dichters Äsop, die Phonetiker als Mustertext schätzen. Erst lasen die Männer mit normaler Stimme; und dann noch einmal, während sie per Kopfhörer lautes Rauschen zugespielt bekamen. Ergebnis: Lautstärke und Stimmbandgrundfrequenz nahmen zu, die Testpersonen artikulierten etwas offener und produzierten weniger Ähs.

Die Kollegen müssen auch in anderen Versuchen als Probanden für die Sprachdetektive herhalten. Ein Ölunfall auf der Unterelbe, den ein trunkener Lotse verschuldet hatte, inspirierte die Fahnder dazu, den Einfluss von Alkohol auf Sprache und Sprechweise systematisch zu untersuchen. Für die Studie betranken sich 40 Polizeischüler im Dienst. Die Testflüssigkeit war 40-prozentiger Wodka, pur oder mit Wasser verdünnt. Nach jeder Runde lasen die Männer die Äsop-Fabel vor. Sie konnten den Versuch jederzeit abbrechen, doch alle gaben ihr Bestes - eine der Testpersonen hielt durch bis fast zur Alkoholvergiftung. Der selbstlose Einsatz bescherte dem BKA neue Erkenntnisse: Schon ab 0,4 Promille lasen die Polizisten den einfachen Text nicht mehr fehlerfrei. Bei zwei Dritteln der Teilnehmer erhöhte sich unter Alkoholeinfluss die Stimmfrequenz. Jenseits von 1,2 Promille klangen alle mehr oder weniger heiser. Mit zunehmenden Promille nahm die Sprechgeschwindigkeit ab, die Zahl der Pausen dagegen zu.

Etwa 100 Fälle bearbeiten die Sprachdetektive des BKA im Jahr, rund zwei Drittel davon haben mit Stimmenvergleich und Stimmenanalyse zu tun. Henry Higgins, der Phonetikprofessor aus dem Theaterstück "Pygmalion" von George Bernard Shaw, hätte seine Freude an den Kollegen vom BKA. So wie er das Blumenmädchen Eliza Doolittle an ihrem Cockney-Akzent als Arbeiterkind aus dem Osten Londons identifizierte, können die BKA-Fahnder die Herkunft eines Täters mitunter anhand der Sprachfärbung bis auf wenige Quadratkilometer eingrenzen.

Einem wie Olaf Köster macht es auch keine Mühe zu erkennen, in welcher Region ich, die Interviewerin, aufgewachsen bin. Ich spreche zum Beispiel das Wort "Kirche" wie "Kiache" aus, mit hellem, breitgezogenem i- und offenem a-Laut - und schon ist dem Mann klar, dass ich aus Westfalen stamme. Aber selbst der beste Phonetiker kennt nicht alle deutschen Unterdialekte. Die BKA-Experten schufen deshalb bereits vor Jahren eine Datenbank regionaler Umgangssprachen, die mit 200 repräsentativen Sprechern aus dem Deutschen Sprachatlas in Marburg bestückt wurde. Der Sprachatlas hält mehrere tausend Sprachproben aller möglichen deutschen Dialekte bereit. Ideal für die Zwecke der Fahnder war diese Sammlung allerdings nicht. "Das sind teils alte, grummelige Aufnahmen, und die Sprecher erzählen noch von der Telegrafie", sagt Köster.

Man beschloss, eine neue Datenbank anzulegen, mit zeitgenössischen Sprechern. Es sollten möglichst keine Akademiker sein, denn diese sind unter Erpressern selten vertreten. Gewünscht waren außerdem eine natürliche Kommunikation und eine regional gefärbte Sprache anstelle von reinem Dialekt. "Die bösen Burschen kommen zwar mitunter aus einem Milieu, das dialektgeprägt ist, aber sie wollen sich ja verständlich machen und versuchen deshalb, Hochdeutsch zu reden." Wer konnte dies am besten simulieren? Die Beamten aus den Notrufzentralen der Polizei, hieß es.

Nachdem die nötigen Genehmigungen vorlagen, besorgten sich die BKA-Phonetiker Aufzeichnungen von Polizeistationen wie Kirchheimbolanden, Herborn oder Waldshut-Tiengen. Mitschnitte von 321 Sprechern kamen so zusammen. Die Kollegen aus den Notrufzentralen lieferten zusätzlich eine vorgelesene Textprobe - wiederum die Äsop-Fabel. Das gesamte Material wurde in Orthographie und Lautschrift der deutschen Standardsprache verschriftet und dann nach Worten und grammatischen Einheiten segmentiert in den Computer eingegeben.

Künftig können Segmente eines Erpresseranrufs mit den entsprechenden Eingaben aus der Datenbank verglichen werden. Wenn ein Täter einen Dialekt oder Akzent nachzumachen versucht, irritiert das die BKA-Leute nur mäßig. Kaum jemand schafft es, sich länger als wenige Sekunden zu verstellen. Das musste auch "Goldadler" erfahren, ein Erpresser, der Lebensmittel einer rheinländischen Supermarktkette mit Arsen vergiftet hatte. Zwar hatte der Mann geschickt verschiedene Akzente imitiert. Doch als es kurz vor der Geldübergabe hektisch wurde, verriet er sich durch ein einziges Wort. Er sprach "warten" auf die sogenannte ripuarische Weise als "wachten" aus, mit einem ach-Laut vor dem t. Das macht nur ein echter Rheinländer. Diese Information bestätigte die Ermittler - sie hatten einen Mann aus dem Raum Bonn in Verdacht.

Die neueste Entwicklung sind sogenannte "Total-Voice-Systeme". Sie berechnen Resonanzkoeffizienten im Mund-Nasen-Rachenraum. Damit könnten auch Personen identifiziert werden, die in einer völlig unbekannten Sprache sprechen. Denn die Resonanzräume in Mund, Nase und Rachen eines Menschen sind sehr charakteristisch, viel individueller als etwa die Stimmtonerzeugung in seinem Kehlkopf. Die zweite Besonderheit des Systems: Es setzt die Wahrscheinlichkeit, dass zwei Stimmen einander rein zufällig ähneln, ins Verhältnis zur Wahrscheinlichkeit, dass der eine Sprecher mit dem anderen identisch ist. Ein Riesenschritt hin zu einer verlässlicheren Analyse.

Das System, das Künzel seit mehreren Jahren erprobt, wurde für die Guardia Civil in Spanien entwickelt, um ETA-Terroristen zu identifizieren. Auch das BKA forscht in dieser Richtung. In Europa werden Total-Voice-Systeme vereinzelt bereits vor Gericht eingesetzt.

Als Künzel kürzlich bei einer Zusammenkunft der iberoamerikanischen Polizeichefs davon berichtete, zeigten sich insbesondere die Kollegen aus Kolumbien interessiert. Dort haben sich Entführungen zu einer Art Wirtschaftszweig entwickelt - mit einem engen Täterkreis. Mithilfe des Total-Voice-Systems will man die Erpresser künftig schnell und zuverlässig identifizieren.

Geschulte Phonetiker wie Künzel ersetzt aber auch die ausgefeilteste Technik nicht. "Gerät ein solches Verfahren in falsche Hände, ist das, als ob Sie ein hochgetuntes Auto an jemanden geben, der nicht fahren kann."

[http://www.morgenpost.de/content/2007/10/14/biz/926354.html]