Kameras automatisiert steuern mit künstlicher Intelligenz

29. April 2026

Ziel von RatTV.com ist es, Sitzungen vollständig automatisiert und ohne Personaleinsatz zu übertragen. Die KI Kamerasteuerung für Sitzungen sorgt dabei dafür, dass PTZ-Kameras automatisch auf die jeweils sprechende Person ausgerichtet werden, um diese in Nahaufnahme darzustellen und parallel zu untertiteln.

Hierfür setzen wir verschiedene KI-basierte Methoden ein:

Personenerkennung

Personen, die bereits einmal an einer mit RatsTV.com übertragenen Sitzung teilgenommen haben, werden anhand des im System vorliegenden Bildmaterials wiedererkannt und ihre Sitzposition im Saal gespeichert. Wenn diese Person nun während der Sitzung zu Wort kommt, wird die gespeicherte Position in der Kamera wieder aufgerufen.

Dieser Schritt entfällt, wenn die Kameras im Raum fest installiert sind. In diesem Fall ist bereits jedem Sitzplatz eine feste Kameraeinstellung zugewiesen. Das System sucht sich die Personen dann gemäß des vorgegebenen Sitzplans.

Spracherkennung

RatsTV.com versucht, den kommenden Sprecher bereits zu erkennen, bevor dieser beginnt zu sprechen. Hierzu werden Wortmuster erkannt, die als Namensaufruf interpretiert werden können. Dies können beispielsweise die Kombination aus Vor- und Nachnamen oder aber auch die Ansprache über „Herr“ und „Frau“. Wichtig ist es jedoch, dass dabei unterschieden wird, ob nun tatsächlich der betreffenden Person das Wort erteilt wird, oder ob lediglich über sie gesprochen wird. Auch hierfür sind entsprechende Erkennungsmechanismen implementiert.

Grundsätzlich dient die Erkennung eines Namens nur als Hilfsfunktion, um die Kamerasteuerung möglichst effizient zu gestalten, das deutlich wichtigere Kriterium ist das folgende.

Stimmenerkennung

Wenn eine Person zum Reden ansetzt, wird Ihre Stimme sofort mit vorliegenden Stimmproben aller Sitzungsteilnehmer verglichen. Die präzise Erkennung dauert in der Regel nur wenige Sekunden und erfordert auch nur eine kurze Stimmprobe, die auch noch während der Sitzung aufgezeichnet werden, wenn eine Person erstmalig teilnimmt. Die Person wird dann nach Zuordnung ihrer Stimmprobe beim nächsten Wortbeitrag automatisch erkannt.

Die Stimmenerkennung ist die zentrale Stärke der KI-basierten Steuerung, denn sie erlaubt, die Kamera in sekundenschnelle auf die zu zeigende Person zu richten. Ein menschlicher Bediener benötigt hierfür bei einer Sitzung mit 50 und mehr Teilnehmern etwa um die 15 bis 20 Sekunden, wenn er sich nicht an anderen Indizien orientieren kann, welche Person als nächstes das Wort ergreifen wird. Und dies erfordert eine enorm hohe Konzentration über einen langen Zeitraum. Diese hohe Anforderung ersetzt RatsTV.com zuverlässig durch einen Automatismus.

DSGVO-Konformität und Datenschutz

Alle KI-Prozesse laufen ausschließlich auf lokalen Systemen innerhalb des Rathauses, konkret auf dem Rechner, der auch für die Zusammenstellung des Streams verwendet wird. Sämtliche für die Funktion notwendigen Daten (z. B. Bilder, Namen und Stimmproben) werden dort lokal gespeichert. Eine Übertragung an externe Server oder Cloud-Dienste findet nicht statt.

Zuschaltung extern Teilnehmender

In einer Sitzung Teilnehmende von andernorts zuschalten – davon machen auch Städte und Gemeinden in ihren Rats- und Ausschussitzungen zunehmend Gebrauch. Insbesondere für externe Experten, die zu einem Thema Informationen und Erläuterungen beitragen solle, dafür aber weite Anreise in Kauf nehmen müssen oder schlicht nicht der gesamten Sitzung beiwohnen können, ist dies ein praktisches Instrument.

Egal, ob diese nun via Teams, Zoom, Google Meet oder eine andere Online-Meeting Plattform eingebunden werden, mit RatsTV.com kann diese zusätzliche Quelle auch in die Übertragung für die Zuschauer am Bildschirm eingebunden werden. Wie jede teilnehmende Person vor-Ort auch wird die hinzugeschaltete Person im Full-Screen Modus angezeigt und mit einer Namenseinblendung versehen, wenn sie einen Wortbeitrag in der Sitzung leistet.

Video on Demand Archiv

Eine gute Möglichkeit, die Reichweite von kommunalpolitischen Sitzungen zu erhöhen ist es, neben einem Live-Stream die Aufzeichnung auch zum nachträglichen Abruf als Video-on-Demand (VoD) Datei zur Verfügung zu stellen. RatsTV.com stellt standardmäßig 250 GB für den Aufbau einer Mediathek bereit. Dies reicht für mehr 50 Sitzungen bei einer durchschnittlichen Sitzungsdauer von 3 Stunden.

Wird ein solche VoD-Archiv tatsächlich genutzt?

Durch die Einrichtung eines Archivs lassen sich die Zugriffszahlen auf die Sitzungen noch einmal deutlich erhöhen. Dies berichtet unter anderem die Stadt Mohnheim am Rhein, die Ratsstreaming bereits im Jahr 2018 eingeführt hat und bis heute betreibt (Quelle: Rheinische Post). Das oft für die Zuschauer nur einzelne Tagesordnungspunkte von Interesse sind, hilft die Markierung mit Sprungmarken und Titeln, um direkt zur richtigen Stelle in der Aufzeichnung zu kommen.

Muss das VoD-Archiv öffentlich sein?

Manche Städte lehnen es ab, die Sitzung nachträglich zusätzlich als Aufzeichnung zur Verfügung zu stellen. In diesen Fällen kann es dennoch für die Teilnehmenden selbst von Interesse sein, noch einmal einen Blick auf die Sitzungen zu werfen. Hierfür bietet RatsTV.com auch passwortgeschützte Mediatheken an, die den Zugriff nur einem ausgewählten Personenkreis erlaubt.

Transkription

Aus der erstellten Aufzeichnung einer Sitzung lässt sich mit RatsTV.com im Nachgang der Sitzung ein Transkript aus der Videoaufnahme erstellen. Diese erfolgt in einem automatisierten Prozess auf den Servern unserer Hosting-Partner mit Hilfe einer Spracherkennungssoftware, die gesprochene Sprache in Text umwandelt. Sofern die Teilnehmenden konsequent in die Mikrofone gesprochen haben und die Wortbeiträge in der Aufzeichnung klar zu verstehen sind, liefert eine solche Transkription mit heutigen Mitteln bereits sehr präzise Ergebnisse.

Ein solches Verfahren bietet zahlreiche Vorteile für die Dokumentation der Sitzungsergebnisse, da die Transkription eine detaillierte und vollumfängliche schriftliche Aufzeichnung der besprochenen Inhalte liefert. Im Gegensatz zu handschriftlichen Notizen oder Gedächtnisprotokollen gehen keine Details verloren. Zudem kann gezielt nach bestimmten Aussagen oder Themen gesucht werden, was die Nachbereitung erheblich erleichtert.

Für die Protokollerstellung bedeutet dies eine deutliche Zeitersparnis und höhere Genauigkeit. Protokollführer können sich während der Sitzung stärker auf den Inhalt konzentrieren, anstatt alles parallel mitschreiben zu müssen. Darüber hinaus schafft ein Transkript Transparenz und Nachvollziehbarkeit für alle Beteiligten – auch für diejenigen, die nicht an der Sitzung teilnehmen konnten.

Persönlichkeitsrechte der Sitzungsteilnehmenden

RatsTV.com schützt die Persönlichkeitsrechte der Sitzungsteilnehmer, die nicht in Wort und Bild im Live-Stream oder in einer Aufzeichnung zu sehen sein möchten und diesem explizit widersprechen. Dies ist zulässig, denn auch als Abgeordnete oder Abgeordneter in der Politik besitzt man grundsätzlich das Recht am eigenen Wort und Bild.

Möchte eine teilnehmende Person einer Sitzung nicht im Stream gezeigt werden, wird bei jedem Wortbeitrag an dessen Stelle eine Tafel eingeblendet, die die Zuschauer auf die Wahrung der Persönlichkeitsrechte hinweist. Somit ist die Person in der Übertragung weder zu hören, noch zu sehen.

Macht die Übertragung bei Ausblendung von Beiträgen für die Zuschauenden noch Sinn?

In vielen Städten, die sich für die Übertragung der Sitzungen entschieden haben, führt eine solche Entscheidung oft zu Diskussionen über die Sinnhaftigkeit des Streamings, für die Zuschauer der Gesamtkontext nicht mehr verfolgbar ist. Um Persönlichkeitsrechte von Mandatsträger und Transparenz für die Öffentlichkeit nicht gegeneinander auszuspielen, empfiehlt es sich, wenn der oder die Vorsitzende einer Versammlung im Anschluss an einen Wortbeitrag die wesentlichen Inhalte für die Zuschauer im Stream kurz zusammenfasst.

Persönlichkeitsrechte der Besucher

Bei der Übertragung von politischen Sitzungen müssen die Persönlichkeitsrechte von Zuschauenden, die die Sitzung vor Ort besuchen, explizit beachtet werden. RatsTV.com vermeidet daher jegliche Form von Großaufnahmen, die auch den Zuschauerraum erfassen. Sitzen Zuschauende unmittelbar hinter den Sitzungsteilnehmenden, gibt es überhaupt keine Totalaufnahmen aus dem Plenum, die Redenden werden ausschließlich in Großaufnahme gezeigt.

Was passiert, wenn Besucher Fragen stellen?

Zu beachten ist jedoch der Fall, wenn aus dem Zuschauerkreis eine Frage gestellt wird. In diesem Fall muss die Person zunächst durch den Vorsitzenden oder die Vorsitzende der Sitzung darüber in Kenntnis gesetzt werden, dass die Sitzung live gestreamed oder aufgezeichnet wird und nach dem Einverständnis zur Übertragung fragen. Lehnt die Person dies ab, darf ihr Wortbeitrag auch nicht gesendet werden. In diesem Fall wird in die Übertragung eine Tafel eingeblendet. Es empfiehlt sich, vor der Beantwortung die Frage durch den oder die Sitzungsvorsitzende zu wiederholen, so dass sich der Kontext für die Zuschauenden an den Bildschirmen erschließt.

Namenseinblendungen

Wer eine politische Sitzung im Stream verfolgt, möchte gerne wissen, wer welches Argument vorträgt. Deswegen wird die sprechende Person zu Beginn ihres Beitrags stets mit einer sogenannten „Bauchbinde“ versehen, also einer Einblendung, auf der Name, Parteizugehörigkeit und Funktion ersichtlich sind. Dies gilt auch für Verwaltungsmitglieder oder Gäste, beispielsweise eingeladenen Experten. Für Zuschauende stellt dies eine enorme Aufwertung der Übertragung dar und erhöht ganz nebenbei auch den Bekanntheitsgrad der lokalpolitisch Engagierten in der Stadt.

Bei einem verbalen Schlagabtausch zwischen zwei Personen wird für eine gewisse Zeit auf die erneute Einblendung des gleichen Namens (in der Regel innerhalb einer Minute) verzichtet, damit dies die Übertragung nicht überfrachtet und damit störend wirkt.

Nahaufnahmen

RatsTV.com zeigt in der Regel die sprechende Person in Nahaufnahme. Hierzu setzen wir PTZ-Kameras ein, die Zoomstufen mit Brennweiten von mindestens 100 mm unterstützen oder bei Einsatz von digitalen Zoomstufen mindestens in Full-HD Qualität filmen. Es gibt lediglich ein oder zwei Großaufnahmen, die große Teile des Saals von hinten mit Blick auf das Podium zeigen. Diese kommen zum Einsatz, wenn die sprechende Person durch die verwendeten KI-Methoden nicht eindeutig identifiziert werden kann.

Warum werden nicht einfach ganze Bereiche im Saal gezeigt?

Die sprechenden Personen in Nahaufnahme zu zeigen hat für die Zuschauer den offensichtlichen Vorteil, den Austausch von Argumenten problemlos verfolgen zu können und hierbei auch die Person, die ihre Position vertritt, im Blick zu haben. Sie dienen aber auch dem Schutz der übrigen Teilnehmenden: Lokalpolitikerinnen und -politiker sind meist keine Medienprofis und einige fürchten, in unvorteilhafter Position ins Bild zu kommen, beispielsweise beim Überprüfen einer Textnachricht auf dem Smartphone, was ihnen dann als Desinteresse an der Veranstaltung ausgelegt werden könnte. Diese Gefahr wird weitestgehend ausgeräumt, wenn man sich darauf verlassen kann, dass wirklich die sprechende Person im Bild ist. Lediglich, wenn man sich direkt daneben, davor oder dahinter befindet, sollten sich Teilnehmende bewusst sein, dass sie eventuell teilweise mit im Bild sein könnten.

Hosting

RatsTV.com arbeitet mit renommierten deutschen Anbietern für Video- und Livestream-Hosting zusammen, welche eigene Streaming Server in deutschen Rechenzentren betreiben und somit die datenschutzrechtlichen Vorgaben der DSGVO nicht nur vollumfassend erfüllen, sondern deutlich übertreffen.

Über diese Hostingpartner werden auch schnelle Streamingplayer angeboten, die sich einfach auf der Webseite des Auftragnehmers einbinden lassen und der bei Bedarf die Datenrate auf geringere Bandbreiten adaptiert, so dass der Stream flüssig auf Smartphones, Tablet, Laptops und PCs angeschaut werden kann.

Kann der Live-Stream untertitelt werden?

Zu den Hosting-Leistungen gehört auch eine optionale Live-Untertitelung des Streams in herausragender Präzision. Personen- und Ortsnamen sowie thematisch bezogene Begriffe, die nicht zum allgemeinen Sprachgebrauch gehören, aber in Ihren Sitzungen häufig verwendet werden, können angelernt werden, so dass auch diese korrekt in der Untertitelung des Livestreams angezeigt werden.

Elektronische Abstimmungssysteme

In einigen Städten und Gemeinden wird mittlerweile nicht mehr per Handzeichen, sondern mit Hilfe digitaler Abstimmungssysteme (Live Voting Systems) über Anträge abgestimmt. Diese Systeme sind äußerst praktisch, weil sie ein professionelleres Bild über das Abstimmungsverhalten vermitteln und auch Fehler bei der Protokollierung, insbesondere bei namentlichen Abstimmungen, vermieden werden.

Kann man erkennen, wer wie abgestimmt hat?

Mit RatsTV.com werden die Ergebnisse solcher Abstimmungen im Full-Screen Modus in die Live-Übertragung eingebunden. Gerade für Übertragungen sind digitale Abstimmungssysteme eine sehr praktische Lösung, weil sich das Abstimmungsverhalten der einzelnen Fraktionen und Mitglieder mit Handzeichen nur sehr schwer mit Kameraaufnahmen so erfassen lässt, dass es für den Zuschauer am Bildschirm nachvollziehbar ist.

Einblendungen von Tagesordnungspunkten

Einen enormen Mehrwert für die Zuschauenden stellt die Einblendung des gerade zu besprechenden Tagesordnungspunktes dar. Die Tagesordnung wird aus dem Ratsinformationssystem in RatTV.com für die Übertragung übernommen und liegt dort in Listenform vor. Eine autorisierte Person, die an der Sitzung teilnimmt, kann durch einen einfachen Klick auf einen Tagesordnungspunkt für eine Einblendung sorgen.

Oft sind lange Formulierungen notwendig. Kann man diese dann noch lesen?

RatsTV.com bestimmt durch eine Analyse der Länge des Tagesordnungspunktes die optimale Einblendungsdauer, so dass auch bei längeren Formulierungen die Zuschauer den Inhalt problemlos lesen können.

Was passiert, wenn über ein Thema sehr lange gesprochen wird?

Es empfiehlt sich, bei längeren Tagesordnungspunkten die Einblendungen von Zeit zu Zeit zu wiederholen. Ein Automatismus hierfür ist nicht vorgesehen, um fehlerhafte Einblendungen zu vermeiden.

Einbindung vorhandener Konferenzanlagen

RatsTV.com geht davon aus, dass sich im Sitzungssaal bereits eine vom Auftraggeber betriebene Konferenzanlage mit Mikrofonen für die Teilnehmerinnen und Teilnehmer befindet. Diese kann über verschiedene Schnittstellen (XLR, Cinch, Klinke, USB) in die Produktion der Aufzeichnung eingebunden werden.

Benötigt jede Person ein eigenes Mikrofon?

Es ist nicht notwendig, dass jede teilnehmende Person über ein eigenes Mikrofon verfügt, es können sich mehrere Personen eines teilen, denn die Erkennung der sprechenden Person erfolgt über den Namensaufruf sowie die Stimme und ist nicht an das verwendete Mikrofon gekoppelt.

Werden Mikrofone überhaupt benötigt, wenn man laut spricht?

Die Teilnehmenden sollten jedoch darauf achten, bei Wortbeiträgen stets in die Mikrofone zu sprechen – auch, wer normalerweise über eine recht kräftige Stimme verfügt. Für die Hörbarkeit im Saal mag das Mikrofon bisher vielleicht überflüssig gewesen sein, für eine Übertragung im Stream ist es jedoch zwingend notwendig, da der Raumton hierfür in aller Regel ungeeignet ist.

Abrufstatistiken

Für jeden Live-Stream sowie auch für die nachträglich abrufbaren Aufzeichnungen stellt RatsTV.com detaillierte Statistiken hinsichtlich des Nutzerinteresses zur Verfügung. Diese beinhalten unter anderem minutengenau die Anzahl Abrufe, sowie die Verweildauern der Nutzer im Stream. Hieran lassen sich im Nachgang sehr gut Rückschlüsse ziehen, welche Themen bei der Bevölkerung von besonderem Interesse sind.

Wie viele Menschen schauen sich kommunalpolitische Sitzungen an?

Um das mögliche Interesse für die Übertragung von Sitzungen einschätzen zu können, lohnt sich ein Blick auf die große Politik. Der Spartensender Phoenix überträgt die Sitzungen aus dem Bundestag. Die Live-Übertragung einer Sitzung mit hoher politischer Brisanz verfolgten am 29. Januar 2025 insgesamt 244.000 Zuschauer (Quelle: Presseportal.de). Dies entspricht einem Bevölkerungsanteil von 0,3 Prozent. Das diese Größenordnung auch in etwa dem Interesse an kommunalpolitischen Sitzungen entspricht, zeigt eine Untersuchung des online-Portals Filmpost. Es mag im ersten Moment paradox klingen, aber tatsächlich kann das Interesse an der Live-Übertragung von kommunalpolitischen Diskussionen sogar höher ausfallen als an bundespolitischen Themen. Denn während letztere auf jeden Fall ausschnittsweise in den Hauptnachrichten präsentiert werden, ist ein Angebot der Gemeinde in der Regel die einzige Quelle zur detaillierten Informationsmöglichkeit.

PTZ Kameras

RatsTV.com filmt Sitzungen standardmäßig mit drei hochauflösenden PTZ (Pan-Tilt-Zoom) Kameras, also Kameras, die sich um 360 Grad lassen. Jede Kamera erlaubt 40fache Vergrößerung ohne Qualitätsverlust im Stream (Full HD). So wird sichergestellt, dass jeder Teilnehmer und jede Teilnehmerin am eigenen Sitzplatz in Großaufnahme erfasst werden kann.

Wie viele Kabel werden im Raum verlegt?

Alle Kameras sind PoE (Power over Ethernet) fähig und nutzen für die Übertragung zum verarbeitenden System das NDI (Network Device Interface) Protokoll. Dies wird auch als das „Ein-Kabel-Prinzip“ bezeichnet, weil jede Kamera nur ein einziges Ethernet-Kabel für Stromversorgung, Steuerung und Bildübertragung benötigt. Diese Prinzip gestaltet den Aufbau sehr einfach. Dieses Kamerasetup übersteigt den Standard vieler lokaler Anbieter, die oft nur eine schwenkbare Kamera einsetzen und sich ansonsten auf stationäre Kameras – in manchen Fällen sogar Camcorder – beschränken.