Blog

Wie funktioniert Plagiatssoftware? Die Technik einfach erklärt

Q: Wie erkennt Plagiatssoftware kopierte Texte?

Plagiatssoftware zerlegt den eingereichten Text in kleine Fragmente (sogenannte n-Gramme) und vergleicht diese mit Milliarden von Quellen in ihrer Datenbank. Dabei werden nicht nur exakte Wortübereinstimmungen gefunden, sondern auch umformulierte Passagen erkannt, indem die Software Satzstrukturen, Synonyme und semantische Ähnlichkeiten analysiert.

Q: Kann Plagiatssoftware Paraphrasen erkennen?

Ja, moderne Plagiatssoftware erkennt auch paraphrasierte Texte — zumindest wenn die Umformulierung oberflächlich ist. Die Software analysiert Satzstrukturen und semantische Muster und erkennt, wenn nur einzelne Wörter durch Synonyme ersetzt wurden. Wirklich eigenständig formulierte Paraphrasen mit komplett veränderter Satzstruktur werden dagegen meist nicht erkannt.

Q: Mit welchen Datenbanken vergleicht Plagiatssoftware?

Professionelle Plagiatssoftware vergleicht eingereichte Texte mit drei Hauptquellen: dem gesamten öffentlich zugänglichen Internet (Milliarden von Webseiten), wissenschaftlichen Datenbanken und Fachzeitschriften sowie einer internen Datenbank mit zuvor eingereichten studentischen Arbeiten. Je größer und aktueller diese Datenbanken sind, desto zuverlässiger ist die Erkennung.

Plagiatssoftware wird an Hochschulen, Verlagen und Unternehmen eingesetzt, um Textübereinstimmungen aufzudecken. Doch wie funktioniert diese Technologie eigentlich? Welche Methoden stecken dahinter, mit welchen Datenbanken wird verglichen — und wo liegen die Grenzen? In diesem Artikel erklären wir die Technik hinter Plagiatscannern verständlich und ohne Fachchinesisch.

Grundprinzip

Das Grundprinzip: Textvergleich im großen Maßstab

Plagiatssoftware basiert auf einem einfachen Grundprinzip: Sie vergleicht einen eingereichten Text mit einer riesigen Sammlung von Referenztexten und sucht nach Übereinstimmungen. Klingt simpel — ist technisch aber hochkomplex.

Stell dir vor, du gibst deine Bachelorarbeit mit 15.000 Wörtern ab. Die Software muss diesen Text nun mit Milliarden von Webseiten, Millionen von wissenschaftlichen Artikeln und Hunderttausenden von zuvor eingereichten Arbeiten vergleichen. Und zwar nicht nur auf wörtliche Kopien, sondern auch auf umformulierte, umgestellte oder leicht veränderte Passagen.

Um das in wenigen Minuten zu schaffen, nutzt Plagiatssoftware verschiedene algorithmische Verfahren. Diese lassen sich grob in drei Kategorien einteilen: String-Matching (exakter Textvergleich), Fingerprinting (digitaler Textabdruck) und semantische Analyse (inhaltlicher Vergleich). Moderne Plagiatscanner kombinieren alle drei Ansätze, um sowohl offensichtliche Kopien als auch subtile Textmanipulationen zu erkennen.

Wichtig zu verstehen: Plagiatssoftware trifft keine endgültige Entscheidung darüber, ob ein Plagiat vorliegt. Sie markiert Übereinstimmungen und gibt einen Ähnlichkeitswert an. Die finale Bewertung — ob es sich um ein korrekt zitiertes Zitat, eine Paraphrase oder ein tatsächliches Plagiat handelt — trifft immer ein Mensch.

So arbeitet ein Plagiatscanner

1. Text wird eingereicht und verarbeitet

2. Software zerlegt Text in Fragmente

3. Fragmente werden mit Datenbanken abgeglichen

4. Übereinstimmungen werden markiert und bewertet

5. Prüfbericht mit Ähnlichkeitswert wird erstellt

Methoden

Die drei Erkennungsmethoden im Detail

Plagiatssoftware nutzt verschiedene Techniken, um Textübereinstimmungen zu finden. Hier erklären wir die drei wichtigsten Ansätze verständlich.

1

String-Matching: Der exakte Textvergleich

Die einfachste und älteste Methode ist das String-Matching. Dabei sucht die Software nach exakten Wortfolgen, die sowohl im eingereichten Text als auch in den Referenzquellen vorkommen. Der Text wird dafür in sogenannte n-Gramme zerlegt — das sind Wortgruppen mit einer festen Länge, zum Beispiel fünf aufeinanderfolgende Wörter. Diese n-Gramme werden dann mit den Datenbanken abgeglichen. Wird eine identische Wortfolge gefunden, wird die Stelle als Übereinstimmung markiert. String-Matching ist schnell und zuverlässig bei wörtlichen Kopien, stößt aber an seine Grenzen, sobald Texte auch nur leicht umformuliert werden — etwa durch Synonymersetzung oder Satzumstellung.

2

Fingerprinting: Der digitale Textabdruck

Fingerprinting geht einen Schritt weiter als einfaches String-Matching. Dabei wird jeder Text in einen einzigartigen digitalen Fingerabdruck umgewandelt — eine komprimierte mathematische Darstellung des Textinhalts. Der Vorteil: Statt den gesamten Text Wort für Wort zu vergleichen, genügt es, die Fingerabdrücke abzugleichen. Das ist deutlich schneller und ermöglicht den Vergleich mit sehr großen Datenbanken in kurzer Zeit. Fingerprinting-Algorithmen wie Winnowing oder Rabin-Karp berechnen für ausgewählte Textabschnitte Hashwerte, die dann verglichen werden. Stimmen die Hashwerte überein, liegt wahrscheinlich eine Textübereinstimmung vor. Die Software prüft dann im Detail, ob es sich um einen relevanten Fund handelt.

3

Semantische Analyse: Der inhaltliche Vergleich

Die fortschrittlichste Methode ist die semantische Analyse. Hier analysiert die Software nicht nur den Wortlaut, sondern die Bedeutung eines Textes. Mithilfe von Natural Language Processing (NLP) und maschinellem Lernen erkennt sie, ob zwei Textpassagen inhaltlich dasselbe aussagen — auch wenn sie völlig unterschiedlich formuliert sind. Das ermöglicht die Erkennung von Paraphrasen und umformulierten Textstellen, die beim reinen String-Matching durchrutschen würden. Die Genauigkeit der semantischen Analyse hat sich in den letzten Jahren dank großer Sprachmodelle drastisch verbessert. Allerdings ist diese Methode rechenintensiver und kann in Einzelfällen auch bei eigenständig formulierten Texten Fehlalarme produzieren.

Datenbanken

Die Rolle der Datenbanken: Womit wird verglichen?

Ein Plagiatscanner ist nur so gut wie seine Datenbanken. Denn die beste Erkennungstechnologie nützt nichts, wenn die Referenzquellen fehlen, mit denen verglichen wird. Professionelle Plagiatssoftware greift auf drei Hauptquellen zu:

Das öffentliche Internet: Webcrawler durchsuchen kontinuierlich Milliarden von Webseiten — von Wikipedia-Artikeln über Nachrichtenportale bis hin zu Blogs und Foren. PlagAware, die Software hinter unserem Plagiat-Scan-Service, indexiert regelmäßig das deutschsprachige Internet und führt eine eigene Datenbank mit über 40 Milliarden Webseiten.

Wissenschaftliche Publikationen: Über Kooperationen mit Verlagen und Datenbanken wie CrossRef, PubMed oder JSTOR haben professionelle Plagiatscanner Zugriff auf Millionen von Fachartikeln, Studien und Konferenzbeiträgen. Das ist besonders wichtig, da viele Plagiate in Bachelorarbeiten aus wissenschaftlichen Quellen stammen, die nicht frei im Internet verfügbar sind.

Zuvor eingereichte Arbeiten: Viele Hochschulen pflegen eine interne Datenbank mit allen zuvor eingereichten studentischen Arbeiten. Wenn ein Studierender Textpassagen aus der Arbeit eines Kommilitonen übernimmt — oder eigene ältere Texte wiederverwendet — wird die Übereinstimmung erkannt. Turnitin verfügt beispielsweise über eine Datenbank mit über einer Milliarde studentischer Arbeiten weltweit.

Datenquellen im Überblick

Internet — über 40 Mrd. indexierte Webseiten

Fachzeitschriften — Millionen wissenschaftliche Artikel

Studentische Arbeiten — zuvor eingereichte Texte

Bücher — digitalisierte Buchbestände und E-Books

Je größer die Datenbank, desto zuverlässiger die Erkennung.

KI-Erkennung

KI-Erkennung vs. traditionelle Plagiaterkennung

Seit dem Aufkommen von ChatGPT und anderen KI-Textgeneratoren hat sich die Plagiatserkennung grundlegend erweitert. Neben der klassischen Plagiaterkennung — dem Vergleich mit bestehenden Quellen — gibt es nun auch die KI-Erkennung, die prüft, ob ein Text von einer künstlichen Intelligenz generiert wurde.

Der Unterschied ist fundamental: Traditionelle Plagiatssoftware sucht nach Übereinstimmungen mit existierenden Texten. Sie findet Plagiate, weil die kopierten Passagen irgendwo in der Datenbank vorhanden sind. KI-Erkennungstools dagegen analysieren statistische Muster im Text selbst — unabhängig davon, ob eine Quelle gefunden wird.

KI-generierte Texte weisen bestimmte sprachliche Muster auf: eine gleichmäßig hohe Textqualität, vorhersagbare Wortwahl (geringe "Perplexität"), wenig stilistische Variation und eine Tendenz zu mittlerer Satzlänge. KI-Erkennungstools wie GPTZero oder die Detektoren von Turnitin und PlagAware nutzen diese Merkmale, um zwischen menschlich geschriebenem und KI-generiertem Text zu unterscheiden.

Für Studierende bedeutet das: Eine Bachelorarbeit, die mit ChatGPT geschrieben wurde, wird von klassischer Plagiatssoftware möglicherweise nicht erkannt — da kein Quelltext in der Datenbank existiert. Eine KI-Prüfung hingegen kann den maschinellen Ursprung identifizieren. Immer mehr Hochschulen setzen daher beide Prüfmethoden parallel ein.

Zwei Prüfarten im Vergleich

Plagiatsprüfung: Vergleicht deinen Text mit Milliarden existierender Quellen. Findet kopierte und paraphrasierte Stellen.

KI-Prüfung: Analysiert statistische Muster im Text. Erkennt, ob KI-Tools wie ChatGPT den Text generiert haben.

Beide Prüfungen ergänzen sich — wir empfehlen beides vor der Abgabe.

Grenzen

Was Plagiatssoftware kann — und was nicht

Plagiatssoftware ist ein leistungsstarkes Werkzeug, hat aber klare Grenzen. Diese solltest du kennen, um die Ergebnisse richtig einzuordnen.

Das kann sie erkennen

Wörtliche Kopien — direkt übernommene Textpassagen, auch aus dem Internet, Büchern oder anderen Arbeiten. Oberflächliche Paraphrasen — Textstellen, bei denen nur Synonyme getauscht oder Sätze leicht umgestellt wurden. Übersetzungsplagiate — moderne Scanner erkennen zunehmend auch Texte, die aus einer anderen Sprache übersetzt wurden. Selbstplagiate — Textübernahmen aus eigenen früheren Arbeiten, sofern diese in der Datenbank vorhanden sind.

Das kann sie nicht erkennen

Ideenplagiate — wenn du einen fremden Gedanken als eigenen ausgibst, ohne den Wortlaut zu übernehmen. Ghostwriting — ein individuell geschriebener Text, der nicht in der Datenbank existiert. Quellen ohne digitale Verfügbarkeit — Texte aus nicht digitalisierten Büchern oder unveröffentlichten Arbeiten. Sehr gute Paraphrasen — komplett eigenständig formulierte Wiedergaben mit veränderter Struktur.

Häufige Fehlalarme

Plagiatscanner produzieren gelegentlich False Positives — also Markierungen, die kein Plagiat darstellen. Das passiert bei: Allgemeinwissen und gängigen Redewendungen, Fachbegriffen und feststehenden Definitionen, korrekt zitierten Passagen, die als Übereinstimmung erscheinen, und Literaturverzeichnissen, die naturgemäß mit anderen Arbeiten übereinstimmen. Deshalb ist die menschliche Bewertung des Prüfberichts unverzichtbar.

Praxis

Wie PlagAware und Turnitin konkret arbeiten

Die beiden bekanntesten Plagiatscanner im deutschsprachigen Raum sind PlagAware und Turnitin. Obwohl beide das gleiche Ziel verfolgen, unterscheiden sie sich in ihrer Arbeitsweise und Ausrichtung.

PlagAware ist eine deutsche Plagiatssoftware, die besonders im DACH-Raum weit verbreitet ist. Sie indexiert eigenständig das deutschsprachige Internet und verfügt über eine umfangreiche Datenbank mit über 40 Milliarden Webseiten. PlagAware setzt auf eine Kombination aus String-Matching und semantischer Analyse. Die Software erkennt nicht nur wörtliche Kopien, sondern auch Synonymersetzungen und strukturelle Ähnlichkeiten. Der Prüfbericht zeigt jede gefundene Übereinstimmung mit der zugehörigen Quelle und einem Ähnlichkeitswert. Unser Plagiat-Scan-Service nutzt PlagAware für die Prüfung.

Turnitin ist der weltweit größte Anbieter und wird vor allem an angloamerikanischen Hochschulen eingesetzt. Die Software verfügt über die größte Datenbank studentischer Arbeiten (über eine Milliarde) und hat direkten Zugriff auf Millionen wissenschaftlicher Publikationen über CrossRef. Turnitin hat seine Plagiatserkennung um einen KI-Detektor erweitert, der die Wahrscheinlichkeit von KI-generierten Texten bewertet. Wenn du eine Alternative zu Turnitin suchst, findest du bei uns einen ausführlichen Vergleich.

Beide Systeme liefern einen Ähnlichkeitsbericht mit einem Prozentsatz. Dieser Wert zeigt, wie viel Prozent des eingereichten Textes Übereinstimmungen mit Quellen aufweisen. Wichtig: Ein hoher Prozentsatz bedeutet nicht automatisch ein Plagiat — es kommt darauf an, ob die Stellen korrekt zitiert sind. Mehr dazu in unserem Artikel zur Plagiat-Prozent-Grenze.

PlagAware vs. Turnitin

PlagAware — deutsch, DACH-Fokus, eigener Webcrawler, 40+ Mrd. Webseiten

Turnitin — international, größte Studentendatenbank, integrierter KI-Detektor

Beide liefern einen detaillierten Ähnlichkeitsbericht mit Quellennachweis.

Prüfbericht

Den Prüfbericht richtig lesen und verstehen

Der Prüfbericht ist das Kernprodukt jeder Plagiatssoftware. Er zeigt dir genau, welche Stellen deines Textes Übereinstimmungen mit anderen Quellen aufweisen. Doch viele Studierende interpretieren den Bericht falsch — und geraten unnötig in Panik.

Der Ähnlichkeitswert (z. B. "23 % Übereinstimmung") gibt an, welcher Anteil deines Textes in einer oder mehreren Quellen gefunden wurde. Ein hoher Wert ist kein automatischer Beweis für ein Plagiat. Er kann durch korrekt gekennzeichnete Zitate, Fachbegriffe, Literaturverzeichniseinträge oder Allgemeinwissen entstehen.

Farbige Markierungen im Bericht zeigen die einzelnen Fundstellen. Jede Farbe steht für eine andere Quelle. So erkennst du auf einen Blick, welche Passagen mit welchen Quellen übereinstimmen. Manche Markierungen sind harmlos — etwa ein korrekt zitiertes Zitat. Andere deuten auf ein Problem hin, wenn die Quellenangabe fehlt.

Unser Tipp: Gehe den Bericht Stelle für Stelle durch. Bei jeder markierten Passage fragst du dich: Ist hier eine korrekte Quellenangabe vorhanden? Wenn ja, ist alles in Ordnung. Wenn nein, ergänze die Quelle oder formuliere die Stelle um. So nutzt du den Prüfbericht als Werkzeug zur Verbesserung deiner Arbeit — genau dafür ist er gedacht.

Du möchtest deine Arbeit vor der Abgabe prüfen lassen? Unser Plagiat-Scan liefert dir in 15 Minuten einen vollständigen Prüfbericht mit allen markierten Stellen, Quellenangaben und einem Gesamtähnlichkeitswert. So gehst du mit einem sicheren Gefühl in die Abgabe.

So liest du den Prüfbericht

Ähnlichkeitswert — Gesamtprozentsatz der Übereinstimmungen

Farbmarkierungen — jede Farbe = eine andere Quelle

Quellenverweise — Link zur gefundenen Originalquelle

Prüfe jede markierte Stelle: Quellenangabe vorhanden? Dann kein Plagiat.

FAQ

Häufig gestellte Fragen zu Plagiatssoftware

Die wichtigsten Fragen zur Funktionsweise von Plagiatscannern — verständlich beantwortet.

Wie erkennt Plagiatssoftware kopierte Texte?

Plagiatssoftware zerlegt deinen Text in kleine Fragmente und vergleicht diese mit Milliarden von Quellen in ihren Datenbanken. Dabei kommen verschiedene Methoden zum Einsatz: String-Matching findet exakte Wortübereinstimmungen, Fingerprinting erstellt digitale Textabdrücke für schnelle Vergleiche, und semantische Analyse erkennt inhaltliche Übereinstimmungen auch bei unterschiedlicher Formulierung. Wird eine Übereinstimmung gefunden, wird die Stelle im Prüfbericht markiert.

Kann Plagiatssoftware Paraphrasen erkennen?

Ja — zumindest oberflächliche Paraphrasen. Moderne Plagiatscanner wie PlagAware analysieren nicht nur den exakten Wortlaut, sondern auch Satzstrukturen und semantische Zusammenhänge. Wenn du nur einzelne Wörter durch Synonyme ersetzt oder Sätze leicht umstellst, erkennt die Software dies zuverlässig. Wirklich eigenständig formulierte Paraphrasen mit komplett veränderter Satzstruktur und eigener Wortwahl werden hingegen meist nicht als Übereinstimmung erkannt. Mehr dazu in unserem Guide zum Paraphrasieren ohne Plagiat.

Mit welchen Datenbanken vergleicht Plagiatssoftware?

Professionelle Plagiatssoftware vergleicht mit drei Hauptquellen: dem öffentlich zugänglichen Internet (Milliarden von Webseiten), wissenschaftlichen Datenbanken und Fachzeitschriften sowie einer internen Datenbank mit zuvor eingereichten studentischen Arbeiten. PlagAware beispielsweise führt eine eigene Datenbank mit über 40 Milliarden indexierten Webseiten. Turnitin hat zusätzlich Zugriff auf über eine Milliarde studentische Arbeiten weltweit. Je umfangreicher die Datenbanken, desto höher die Erkennungsrate.

Finde heraus, was ein Plagiatscanner in deiner Arbeit findet

Lade deine Arbeit hoch und erhalte in 15 Minuten einen detaillierten Plagiatsbericht. So weißt du vor der Abgabe genau, welche Stellen markiert werden.

Jetzt Plagiat-Scan starten