Ziel von RatTV.com ist es, Sitzungen vollständig automatisiert und ohne Personaleinsatz zu übertragen. Die KI Kamerasteuerung für Sitzungen sorgt dabei dafür, dass PTZ-Kameras automatisch auf die jeweils sprechende Person ausgerichtet werden, um diese in Nahaufnahme darzustellen und parallel zu untertiteln.
Hierfür setzen wir verschiedene KI-basierte Methoden ein:
Personenerkennung
Personen, die bereits einmal an einer mit RatsTV.com übertragenen Sitzung teilgenommen haben, werden anhand des im System vorliegenden Bildmaterials wiedererkannt und ihre Sitzposition im Saal gespeichert. Wenn diese Person nun während der Sitzung zu Wort kommt, wird die gespeicherte Position in der Kamera wieder aufgerufen.
Dieser Schritt entfällt, wenn die Kameras im Raum fest installiert sind. In diesem Fall ist bereits jedem Sitzplatz eine feste Kameraeinstellung zugewiesen. Das System sucht sich die Personen dann gemäß des vorgegebenen Sitzplans.
Spracherkennung
RatsTV.com versucht, den kommenden Sprecher bereits zu erkennen, bevor dieser beginnt zu sprechen. Hierzu werden Wortmuster erkannt, die als Namensaufruf interpretiert werden können. Dies können beispielsweise die Kombination aus Vor- und Nachnamen oder aber auch die Ansprache über „Herr“ und „Frau“. Wichtig ist es jedoch, dass dabei unterschieden wird, ob nun tatsächlich der betreffenden Person das Wort erteilt wird, oder ob lediglich über sie gesprochen wird. Auch hierfür sind entsprechende Erkennungsmechanismen implementiert.
Grundsätzlich dient die Erkennung eines Namens nur als Hilfsfunktion, um die Kamerasteuerung möglichst effizient zu gestalten, das deutlich wichtigere Kriterium ist das folgende.
Stimmenerkennung
Wenn eine Person zum Reden ansetzt, wird Ihre Stimme sofort mit vorliegenden Stimmproben aller Sitzungsteilnehmer verglichen. Die präzise Erkennung dauert in der Regel nur wenige Sekunden und erfordert auch nur eine kurze Stimmprobe, die auch noch während der Sitzung aufgezeichnet werden, wenn eine Person erstmalig teilnimmt. Die Person wird dann nach Zuordnung ihrer Stimmprobe beim nächsten Wortbeitrag automatisch erkannt.
Die Stimmenerkennung ist die zentrale Stärke der KI-basierten Steuerung, denn sie erlaubt, die Kamera in sekundenschnelle auf die zu zeigende Person zu richten. Ein menschlicher Bediener benötigt hierfür bei einer Sitzung mit 50 und mehr Teilnehmern etwa um die 15 bis 20 Sekunden, wenn er sich nicht an anderen Indizien orientieren kann, welche Person als nächstes das Wort ergreifen wird. Und dies erfordert eine enorm hohe Konzentration über einen langen Zeitraum. Diese hohe Anforderung ersetzt RatsTV.com zuverlässig durch einen Automatismus.
DSGVO-Konformität und Datenschutz
Alle KI-Prozesse laufen ausschließlich auf lokalen Systemen innerhalb des Rathauses, konkret auf dem Rechner, der auch für die Zusammenstellung des Streams verwendet wird. Sämtliche für die Funktion notwendigen Daten (z. B. Bilder, Namen und Stimmproben) werden dort lokal gespeichert. Eine Übertragung an externe Server oder Cloud-Dienste findet nicht statt.















