Zum Hauptinhalt springen

Blog & News

Hier finden sie aktuelle News und Blogs über Themen zur KI, Medien, Content, Legal, Trends und allgemeine Entwicklungen zu LLMs, Fondation Models, Technologien und Unternehmensnews.

News
News

Unstrukturierte Daten: Der wahre KI-Hebel im Unternehmen

Unstrukturierte Daten: Der wahre KI-Hebel im Unternehmen
 
Die meisten KI-Initiativen scheitern nicht am Modell.
Sie scheitern daran, dass 80–90 % des Wissens in unstrukturierten Daten stecken: E-Mails, Dokumente, Wikis, Tickets, Präsentationen, Transkripte.
Wenn dieses Wissen nicht systematisch erschlossen wird, bleiben
RAG, AI-Agents & Co. schöne Folien – aber ohne Wirkung im Alltag.
Moderne Ansätze wie RAG, Hybrid-Retrieval oder Graph-RAG sind deshalb mehr als ein Technik-Upgrade: Sie ermöglichen quellengestützte Antworten, höhere Auffindbarkeit und passen zu den Governance-Anforderungen regulierter Branchen.
 
 Mit dem Trend zu agentischen Workflows steigt der Druck:
 Plötzlich wird sichtbar, wie gut oder schlecht die Datenlandschaft wirklich ist.
 „Chunk-basierte“ RAG-Experimente reichen nicht mehr aus.
 
 Unternehmen brauchen semantische Schichten, Observability und policy-basierte Zugriffskontrollen, um AI-Agents überhaupt   sicher und sinnvoll im Alltag einsetzen zu können.
 
 Führende Organisationen legen deshalb heute massiv Fokus auf Governance und Compliance, auf Identitäts- und  Rechtemanagement für ganze Flotten von AI-Agents und auf Datenqualität, statt nur das nächste Modell zu fine-tunen.
 
in Praxisbeispiel: In einem Projekt mit einem internationalen Unternehmen aus dem Medienbereich haben wir ein RAG-basiertes System aufgebaut, das Tausende Dokumente, Richtlinien und interne Inhalte zugänglich gemacht hat – rollenbasiert, auditierbar und eingebettet in die bestehenden Arbeitsprozesse. Entscheidend für den Erfolg waren dabei nicht „dass eine beste Modell“, sondern eine saubere Dateninfrastruktur, klar definierte Zugriffsrechte sowie abgestimmte Prozesse und Verantwortlichkeiten zwischen Fachbereichen, IT und Compliance.
 

23.9.25 The Slow Erosion of Database Licensing: How AI and Crawling Undermine Europe’s Specialist Publishers


For specialist publishers in Europe, database licensing (e.g. employment law, family law, regulatory law) has long been a main revenue stream. But two intersecting trends—(1) increasingly powerful AI/LLMs, and (2) web crawling / automatic summarization—threaten to hollow out that model. Recent legal complaints against Google crystallize what was previously a creeping danger: license income and traffic are already under measurable stress.

1. Database Licensing: The Core Business at Risk

  • Specialist publishers typically sell access to curated modules/databases: annotated laws, case law, commentary, regulatory updates. These are high margin, subscription or licensing products.
  • Their value depends on exclusivity (being the primary, authoritative source) and on clients being forced to “go through” the publisher rather than get everything from cheaper or free sources.

2. How Crawling / Automated Content Extraction Work Technically

  • Web crawlers / scrapers can systematically access public-facing database content (or previews / abstracts) if the site doesn’t enforce technical barriers (robots.txt, strong paywall, login walls).
  • Even “hidden” databases (search-interfaces inside databases) can sometimes be extracted via “form-filling crawlers.” These tools auto-submit queries and collect results.
  • Summaries / abstracts that publishers provide (often publicly visible) are also ingested into large corpora like Common Crawl or C4, which are used to train LLMs. Users of LLMs may then bypass the original database modules because chatbots surface similar or “good enough” content.

3. Generative AI + Summaries + Loss of Traffic: The Google Case

  • In Europe, multiple independent publishers have filed an antitrust complaint against Google over its AI Overviews feature, arguing that AI-generated summaries (often based on publisher content) reduce clicks to the original sites (Reuters, 2025).
  • In the US, Penske Media (Rolling Stone, Variety) sued Google, claiming AI Overviews use journalism without permission, undermining ad and licensing revenue (eMarketer, 2025).
  • Studies show the impact: one analysis found that a site formerly ranked first could lose up to 79% of traffic when its link appeared below a Google AI summary (The Guardian, 2025).

4. Why Licensing Models Are Vulnerable

  • Substitution risk: If a chatbot gives the answer directly, fewer users will pay for a database subscription.
  • Exclusivity erosion: Once content is scraped and summarized, exclusivity is gone—even if the AI’s answer is lower quality.
  • Traffic decline: Licensing models depend on visibility and referrals. AI summaries intercept traffic before it reaches publishers.

5. Legal and Ethical Uncertainties

  • EU law provides database rights, copyright, and data protection guardrails against unauthorized scraping—but enforcement is inconsistent.
  • What counts as “substantial use” or “harm” is contested. Google claims AI Overviews increase discovery; publishers show empirical declines.

6. Implications for Specialist Publishers

If license revenues fall, specialist publishers must ask whether selling access still scales. Authority, brand, and trust may remain differentiators, but the margin pressure is real. The fundamental question becomes:

What is the role of a specialist publisher when AI is already the first point of access?

Conclusion:
There is strong, increasingly public evidence that crawling + AI summaries undermine the core licensing business of specialist publishers. The Google AI Overviews case is a warning sign: traffic, visibility, and income are already shifting.
This isn’t just about defending paywalls—it’s about defending the very idea of expertise and the premium that licensing once guaranteed.

 

Learn more?  - let´s connect for futher exchange

 




27.7.25 Unser neues Whitepaper - KI automatisiertes Moderations- und Community Management für Medien

white-paper-surveys-02.html​​​

16.6.25 - A Two-Front War: Publishers vs. Silicon Valley Scrapers & Global AI Rivals

A Two-Front War: Publishers vs. Silicon Valley Scrapers & Global AI Rivals

Is this the beginning of the end for the publisher-funded web? 

The controversy around AI "answer engines" like Perplexity AI has pulled back the curtain on a critical threat. The accusations are serious: 1. Aggressively scraping content, with reporting from WIRED detailing alleged plagiarism of journalists' work. 2. Circumventing publisher rules, with Forbes investigating how Perplexity ignores the robots.txt protocol designed to prevent this. 3. Providing direct answers that replace, rather than refer to, the original source, directly attacking the traffic and revenue that fund quality journalism.

But this is not just a Silicon Valley issue; it's a global one. While Western AI labs face landmark lawsuits (like The New York Times vs. OpenAI) and pressure to sign licensing deals, the geopolitical context is crucial. Analysis in outlets like The Wall Street Journal highlights the different strategic playbook for China's AI development, where the race for national supremacy can overshadow Western IP norms.

This creates a starkly uneven playing field.
Publishers are now caught in a vise, forced to fight back legally, technically, and commercially. The question is no longer if AI will change the web, but what will be left for the original creators when the dust settles?

7.5.25 ChatGPT & Co erzählen immer mehr Unsinn

Neue Sprachmodelle fantasieren häufiger als ihre Vorgänger. Woran das genau liegt, weiß bisher niemand. Aber Beispiele aus dem Alltag zeigen, wie brisant das werden kann.

Sprachmodelle wie ChatGPT, Gemini, Claude oder die Meta-KI Llama halten immer weiter Einzug in unseren Alltag. Private Anwender nutzen sie als Google-Ersatz, zur Reiseplanung oder lassen sich bei Übersetzungen helfen. Unternehmen setzen Sprachmodelle beispielsweise in Chatbots ein, um Kundenanfragen automatisch zu beantworten, Juristen erstellen Schriftsätze fürs Gericht mit KI.

Was vielen jedoch nicht bewusst ist: Ausgerechnet die leistungsfähigsten neuen Systeme machen zunehmend Fehler - sie denken sich Antworten einfach aus. Experten sprechen in solchen Fällen von "Halluzinationen".

Fehlerraten von bis zu 80 Prozent bei neuen KI-Modellen

Laut internen Tests der ChatGPT-Entwicklerfirma OpenAI halluzinieren gerade die neueren Modelle von ChatGPT besonders häufig. Das Flaggschiff-Modell GPT o3 macht in etwa einem Drittel der Fälle Fehler, wenn es Fragen zu öffentlichen Personen beantworten soll. Das ist mehr als doppelt so häufig wie der Vorgänger o1. Bei allgemeinen Wissensfragen kommt o4-mini auf Fehlerraten von bis zu etwa 80 Prozent. Auch andere Entwickler von Sprachmodellen haben das Problem.

Wie gravierend die Folgen solcher Fehler sein können, zeigt ein Vorfall bei der Entwicklerplattform Cursor, über den die "New York Times" berichtete. Ein Sprachbot, der für den Kundensupport eingesetzt wurde, verkündete fälschlicherweise eine neue Unternehmensrichtlinie: Cursor dürfe künftig nur noch auf einem einzigen Gerät genutzt werden. Kunden empörten sich öffentlich, kündigten Abos - bis die Firma klarstellte, dass es nie eine solche Regel gab.

Fortschritt mit Rückschritt

Mögliche Gründe für die in jüngster Zeit vermehrt auftretenden Fehler: Neue Versionen von Sprachmodellen würden häufig Fähigkeiten verlieren, die sie davor bereits hatten, erklärt Strötgen:

Wenn Modelle neue Aufgaben oder neues Wissen zusätzlich lernen sollen, und dabei bereits Gelerntes wieder vergessen, spricht man oft von 'Catastrophic Forgetting' [katastrophaler Wissensverlust] - was das Problem ganz gut auf den Punkt bringt.„Prof. Jannik Strötgen, Fakultät für Informatik und Wirtschaftsinformatik, Hochschule Karlsruhe

Modelle könnten also oft sehr gut angepasst werden, um Neues zu lernen. Es sei aber sehr schwierig über sämtliche bereits gelernten Fähigkeiten hinweg keine Qualitätseinbußen in Kauf nehmen zu müssen, so der Experte.

Reasoning-Modelle geraten ins Straucheln

Ähnlich sieht das auch Laura Perez-Beltrachini, Forscherin an der Universität Edinburgh, die das Halluzinationsproblem intensiv untersucht: "So wie diese Systeme trainiert werden, fangen sie an, sich auf eine Aufgabe zu konzentrieren - und vergessen dabei andere", erklärte sie gegenüber der "New York Times".






Für den Kunden / Konsumenten (B2C & B2B)

Personalisierte Newsfeeds und Content-Empfehlungen: Nachrichtenportale wie Tagesschau.de, Spiegel Online oder Bild.de nutzen KI, um Nutzern basierend auf deren Leseverhalten hochrelevante Artikel und Themen vorzuschlagen. Das steigert Verweildauer, Nutzerbindung und Anzeigenrelevanz. [Mehrwert: Höhere Relevanz, besseres Nutzererlebnis] Kritische Ergänzung: Gleichzeitig besteht die Gefahr von Filterblasen und einseitiger Informationswahrnehmung – Medienhäuser müssen Transparenz und Vielfalt sicherstellen.

Verbesserte Suchfunktionen: KI-gestützte Suchalgorithmen ermöglichen es, Inhalte schneller und präziser zu finden, selbst bei komplexen Anfragen. Besonders in Archiven von Zeitungen und Fachmedien (z.B. juristische oder medizinische Datenbanken) ist das ein enormer Effizienzgewinn. [Mehrwert: Effizienz, präzise Informationsbeschaffung]

KI-generierte Zusammenfassungen und Bullet Points: Einige Medienhäuser experimentieren erfolgreich mit KI-Kurzfassungen von Artikeln oder Nachrichten. Das spart Lesern Zeit und liefert schnell die Kerninformationen, z.B. in regionalen Zeitungen. [Mehrwert: Zeitersparnis, schnelle Informationsaufnahme] Kritische Ergänzung: Die Qualität und Genauigkeit solcher Zusammenfassungen muss durch menschliche Kontrolle sichergestellt werden.

Sprachgesteuerte Content-Zugriffe: Integrationen mit Voice-Assistenten (z.B. Google Assistant, Alexa) ermöglichen es Nutzern, Nachrichten und Podcasts per Sprachbefehl abzurufen. Der Deutschlandfunk ist hier ein Vorreiter. [Mehrwert: Barrierefreiheit, neue Zugangswege]


Für interne Prozesse (B2B)

Automatisierte Content-Generierung (Sport, Wetter, Finanzberichte): Regionalzeitungen und Online-Nachrichtenportale nutzen KI-Software wie AX Semantics oder Retresco, um standardisierte Texte wie Spielberichte, Wettervorhersagen oder einfache Finanznews zu erstellen. [Mehrwert: Effizienzsteigerung, Skalierbarkeit, Ressourcenoptimierung] Kritische Ergänzung: Die Automatisierung verändert Jobprofile und erfordert neue Kompetenzen in den Redaktionen.

Transkription und Untertitelung im Broadcast-Bereich: Fernsehsender und Produktionsfirmen (z.B. ARD, ZDF, RTL) setzen KI-Tools zur automatischen Transkription von Audio- und Videomaterial ein. [Mehrwert: Zeitersparnis, Barrierefreiheit, bessere Archivierung]

Medienmonitoring und Stimmungsanalyse: PR-Agenturen, Unternehmen und Medienhäuser analysieren mit KI-Tools die öffentliche Meinung über Marken, Themen oder Personen in sozialen Medien und Nachrichtenquellen. [Mehrwert: Schnelle Insights, Reputationsmanagement]

Bild- und Videoanalyse für Archivierung und Lizenzierung: Medienarchive verwenden KI, um große Mengen an Bild- und Videomaterial automatisch zu taggen, zu verschlagworten und zu kategorisieren. [Mehrwert: Effizienz, Monetarisierung von Assets]

Personalisierte Anzeigenplatzierung und Programmatic Advertising: Verlage und Vermarkter nutzen KI-Algorithmen, um Werbeanzeigen präziser auf Zielgruppen zuzuschneiden und den Verkauf von Werbeinventar zu optimieren. [Mehrwert: Höhere Werbeeinnahmen, relevantere Werbung]

Betrugserkennung und Fake News Identifizierung: Einige Nachrichtenportale und Plattformen setzen KI ein, um verdächtige Muster in Inhalten oder Nutzerverhalten zu erkennen und die Verbreitung von Fake News einzudämmen. [Mehrwert: Qualitätssicherung, Glaubwürdigkeit] Kritische Ergänzung: Die Verantwortung für die Einordnung und Korrektur bleibt beim Menschen – KI ist hier Werkzeug, kein Ersatz für journalistische Sorgfalt.



Herausforderungen & Risiken – ein realistischer Blick

Fragmentierung & Innovationslücke: Die Geschwindigkeit der KI-Implementierung variiert stark – zwischen innovativen Vorreitern und zögerlichen Nachzüglern entsteht eine Kluft.

Vertrauen & Transparenz: Nutzer fordern nachvollziehbare KI-Einsätze. Medienhäuser müssen offenlegen, wo und wie KI eingesetzt wird.

Qualitäts- und Glaubwürdigkeitsrisiken: Automatisierte Inhalte bergen Risiken für Fehler, Bias und „Content-Flut“. Klare Standards und menschliche Kontrolle sind essenziell.

Jobwandel & Kompetenzbedarf: KI ersetzt repetitive Aufgaben, schafft aber neue Rollenprofile – Weiterbildung und Change Management werden entscheidend.

Abhängigkeit von Tech-Plattformen: Mit der Nutzung externer KI-Lösungen steigt die Plattformabhängigkeit. Strategische Souveränität ist gefragt.

Ethik & Regulierung: Die Branche steht vor der Herausforderung, ethische Leitlinien und Standards für den KI-Einsatz zu etablieren.



Ausblick: Was kommt als Nächstes?

Die nächste Welle – autonome AI Agents – steht bereits vor der Tür und wird Prozesse weiter automatisieren. Gleichzeitig verändert sich das Mediennutzungsverhalten: Junge Zielgruppen informieren sich zunehmend über Social Media und KI-gestützte Suchmaschinen wie Perplexity. Medienhäuser müssen sich strategisch und technologisch darauf einstellen, um relevant zu bleiben.

Fazit: KI ist längst mehr als ein Buzzword – sie ist ein echter Gamechanger für die deutsche Medienlandschaft. Die Mehrwerte reichen von besserer User Experience über Effizienzsteigerung bis hin zu neuen Geschäftsmodellen. Doch nur wer Innovation mit Verantwortung, Transparenz und journalistischer Haltung verbindet, bleibt nachhaltig erfolgreich.

Was sind Ihre Erfahrungen? Welche weiteren spannenden KI-Anwendungen sehen Sie in der Medienbranche in Deutschland? Wo sehen Sie Chancen, wo Risiken? Teilen Sie Ihre Gedanken in den Kommentaren!

 


Nach oben