Google SMITH-Algorithmus Titelbild

Google SMITH-Algorithmus

Wissen Sie schon alles über den Google SMITH-Algorithmus? Google SMITH ist ein Algorithmus, der den BERT-Algorithmus ergänzen soll, und beim Verstehen von längeren Texten helfen soll.  Wir klären die wichtigsten Fragen zu dem SMITH-Algorithmus hier in unseren Blog-Beitrag. Unter anderem was die Funktionen sind, ob er wirklich aktiv ist und wie sehr er bei der Google Suche den BERT-Algorithmus unterstützt.

 

 

Um diese Fragen zu beantworten, schauen wir uns erstmal an, was eigentlich Google SMITH bedeutet und klären den Aufgabenbereich.

 

Definition: Siamese Multi-depth Transformer-based Hierarchical (SMITH)

 

Google hat vor kürzerer Zeit ein neues Forschungspapier über einen neuen Algorithmus Namens "SMITH" veröffentlicht, der den BERT-Algorithmus beim Verstehen längerer Anfragen und längerer Dokumente übertrifft und somit den BERT-Algorithmus unterstützt. Was dieses neue Modell insbesondere besser macht, ist, dass es in der Lage ist, Passagen innerhalb von Dokumenten auf die gleiche Weise zu verstehen, wie bis jetzt der BERT-Algorithmus Wörter und Sätze versteht, was es dem Algorithmus ermöglicht, längere und komplexere Dokumenten zu verstehen. Durch diese Erweiterung wird die maximale Eingabetextlänge, die verarbeitet werden kann, von 512 auf 2048 durch SMITH erhöht. Damit übertrifft SMITH sämtliche andere wie HAN, SMASH oder auch BERT bei dem Matching von langen Dokumenten. 

 

Ist der SMITH-Algorithmus aktiv?

Google teilt mit, dass sie den SMITH-Algorithmus in Zukunft verstärkter verwenden werden. Damit ist eine der größten Änderungen bei Google im Bereich Algorithmus passiert. Schätzungen ergaben, dass Google global mehr als 3 Milliarden Suchanfragen pro Tag hat. Insgesamt können durch SMITH damit mehr als 300 Millionen Suchanfragen am Tag andere und genauere Ergebnisse liefern. 

 

Allgemeine Informationen zu dem SMITH-Algorithmus?

SMITH ist ein neuer Algorithmus, der Google dabei helfen soll, die etwas längeren Texte und auch ganze Dokumente besser zu analysieren. Google verwendet zurzeit den BERT-Algorithmus der darauf ausgerichtet ist, einzelne Wörter im Kontext eines Satzes zu verstehen.

 

Vereinfach kann man zu dem SMITH-Algorithmus sagen, dass er Textpassagen versucht im Kontext des gesamten Dokuments zu analysieren und  zu verstehen.

 

Der SMITH-Algorithmus soll aber nicht wie beispielsweise BERT auf Datensätze trainiert werden, sondern für die Vorhersage, was im nächsten Satzblock sein soll. Der BERT-Algorithmus, im Vergleich dazu, besteht darin, versteckte Wörter aus dem Kontext innerhalb eines Satzes vorherzusagen. Die Forscher meinen,  dass es dem SMITH-Algorithmus durch diese Art des Trainings gelingt, größere Dokumente wesentlich besser zu verstehen, als  dem BERT-Algorithmus.

 

Der BERT-Algorithmus hat Grenzen:

In den vergangenen Jahren haben auf Selbstaufmerksamkeit basierende Modelle wie BERT oder Transformers eine sehr gute Arbeit im Bereich Text-Matching gemacht. Doch diese Modelle sind aufgrund ihrer quadratischen Berechnungskomplexität von Self-Attention in Bezug auf die Länge, die sie verarbeiten sehr beschränkt und können teils nur Sätze oder kleinere Passagen analysieren.

Forscher sagen ganz klar, dass der BERT-Algorithmus aus einer Vielzahl von Gründen nicht geeignet ist, um längere Texte zu verstehen, sondern nur für kurze Satzfolgerungen und Sätze oder Wörter.

 

Warum sind lange Texte besonders schwer zu analysieren?

1) Bei längeren Texten benötigt das sogenannte Matching ein besseres Verständnis als bei Sätzen. Es benötigt eine sematische Beziehung einschließlich der Matching-Muster zwischen Textfragmenten und mit großen Abstand.

 

2)Bei langen Dokumenten gibt es immer eine interne Struktur, wie beispielsweise Passagen, Abschnitte, Sätze, etc.. Bei Lesern spielt die Struktur eine wichtige Rolle und ist für das Verständnis eines Themas enorm wichtig. Deswegen muss  das Modell dies Berücksichtigen, um einen besseren Abgleich von Dokumenten zu ermöglichen.

 

3)Bei der Verarbeitung von komplexen Texten führt ein nicht sorgfältiges Modelldesign oft zu Problemen.

BERT ist beschränkt auf eine bestimte Länge von Texten (512). Je länger der Text ist, desto schlechter arbeitet BERT, wobei der SMITH-Algorithmus  im Schnitt besser abschneidet, je länger der Text ist.

 

Trotzdem ist das SMITH-Modell nicht dafür gedacht, den BERT-Algorithmus zu ersetzten, sondern soll nur eine Erweiterung darstellen.

 

SMITH gehört zu den Neuerungen, die Google im Jahr 2021 umsetzen will.

 

 Haben Sie noch Fragen zu diesem Thema? Dann kontaktieren Sie uns gerne!