Hallo Tagebuch, liest man sich nach knapp zwei Wochen auch wieder. Heute geht es um das Thema Suchmaschinen und Discovery-Systeme.

Ein Punkt aus den Hausaufgaben war es bis zur heutigen Unterrichtseinheit VuFind zu installieren und zu konfigurieren. Auf der Internetseite von VuFind kann man sich noch genauer einlesen. Oder auch einen Blick in die Weltweite VuFind Community werfen.

Solr ist die eigentliche Suchmaschine die im hinter dem Katalog VuFind steckt. Solr ist quasi einer von zwei Industriestandards im Bereich der Suchmaschinentechnologie, die Konkurrenz davon ist Elasticserach. Beide sind OpenSource-Systeme. Spannend fand ich hier die Anmerkung das eigentlich alle grossen Suchwebseiten, ausser Google, mit einem dieser beiden Technologien funktioniert. Das hat mir auch so ein bisschen aufgezeigt wie gross so eine Technologie sein kann, und in welchen Bereichen verbreitet. Beide haben eine ähnliche Funktionsweise, diese basiert darauf das die Suchmaschinen einen sogenannten Index aufbauen, die Daten werden also in einer sehr effinzienten Form abgelegt, so dass Gleichheiten, Identitäten von Daten erkennbar sind, dass man eine Suche darüber möglich wird. Dazu braucht es ein Schema in dem die Daten abgelegt werden können. Dieses Schema wiederum legt fest welche Felder der Index unterscheiden kann. Ebenfalls wird festgelegt welche Datentypen in den Feldern erlaubt sind.

image

solr

image

elasticserach

Als ich mir die beiden Suchtechnologien noch etwas anschauen wollte, bin ich noch auf diese Gegenüberstellung gestossen.

image

Interessant finde ich im Text dazu auf der Webseite, dass sie zwar in vielen Punkten vergleichbar sind, aber halt je nach bestimmtem Vorhaben in dem es genutzt werden soll die beiden doch etwas auseinander gehen. Bei Solr gibt es viele Features zur Volltextsuche, was ich als kleinen Vorteil sehe in dem Bereich in dem wir es jetzt verwenden wollen.

Wir haben dann noch als Überblick den Suchindex (Solr) mit der Datenbank (MySQL) verglichen, welche Unterschiede hier bestehen.

image

Man kann in beide Daten einfügen und diese auch wieder daraus abfragen, was die beiden sehr ähnlich macht. Es gibt aber trotzdem wesentliche Unterschiede wieso man sich für das ein oder andere in der Nutzung entscheidet. Der Solr Suchindex enthält prinzipiell nur flache Dokumente, was heisst, dass er immer nur in Kategorien von Datensätzen denkt, wobei dieser Datensatz ein in sich geschlossenes Objekt ist innerhalb eines solchen Suchindex. Das heisst entweder ist ein ganzes Objekt dann ein Treffer oder eben kein Treffer, anders als bei einer Datenbank die einem mehrere Treffer zurück gibt um die Vollständigkeit abzubilden, da diese teilweise in mehreren Datensätzen aufgeteilt ist. Diese Datensätze stehen miteinander in relation und verweisen aufeinander. Das können zum Beispiel Tabellen mit Personeninformationen sein, eine andere Tabelle die Schlagwörter beinhaltet und wieder andere Tabellen die mit Titeldaten abgefüllt sind.

Einer der grossen Unterschiede ist dabei auch das ein Suchindex statische Daten enthält, Daten die einmal in den Suchindex eingegeben wurden, lassen sich prinzipiell nicht mehr ändern. In der Datenbank dagegen können die eigentlichen Datensätze verändert werden.

Ein Suchindex wird daher eher fürs Retrieval genutzt, heisst fürs Auffinden und fürs schnelle Durchsuchen von Datensätzen genutzt, nicht aber für die Speicherung und dauerhafte Aufbewahrung solcher Datensätze. Die Aufbewahrung ist dann nämlich die Aufgabe einer Datenbank.

Wie du siehst liebes Tagebuch, war das also wieder ein spannendes Thema heute, nun wünsche dir eine schöne Weihnachtszeit, wir lesen uns im Januar wieder, Joy