Wer suchet der wird finden…..

Meeting in Dresden

…bei dem Betreiber unserer Firmensuchmaschine von der alles aufkaufenden Firma FAST.
Aus vorhergegangenen Telefonaten ist uns klar, das beide Seiten ein Problem mit einer sinnvollen indizierung der Inhalte des WISE haben.
Ein “einfaches” Spidern lässt die Robots / Collectors an den Contentschleifen (Rubrikennavigation (auf jeder Seite) state_min, state_max (bei jedem WISELET) und den bekannten Fallen im Calendar – Objekt verzweifeln.

Daher verfolgen die Betreiber die Strategie, die angemeldeten Sites entlang einer, durch das Portal generierten Content-Map mit der Suchtiefe 1 zu indizieren. Damit ist die Sammlung des Content einigermaßen sicher vor Collectorfallen und man kann sich mit den anderen, durchaus nicht trivialen Einstellungen der Suchen beschäftigen.

Ähnlich machen wir es auch schon mit unserer PHPDig, hier allerdings, weil diese sich weigert, einen URL Baum zu spidern, bei dem die Links keine Endung auf .html oder Index_html haben.

Bislang hatten unsere Mitarbeiter diese Content Seite mühsam händisch erstellt. Im Gespräch mit den Meistern der Suchmaschine kam uns die Idee!

Es gibt zwei Möglichkeiten eine Liste des SITE Content zu erstellen.

  • ein SiteMap (Bestandteil des Patch1) ergibt eine hierarchische Aufstellung allen Contents.
  • eine SiteSearch ergibt eine “flache” Liste des Inhalts einer Site? (Betonung auf flach)

Ein Sitesearch ergibt, kein Suchbegriff eingegeben eine Liste aller Objekte einer SITE. Dabei werden sogar die Zugriffsrechte des eingeloggten Nutzers berücksichtigt (ein Gast kann halt nur Objekte angezeigt bekommen, die auch den GUEST als USER eingetragen haben)

Den Inhalt dieses Suchergebnisses kann man gestalten, indem man Parameter für ein advanced search übergibt, die z.B. bestimmte, für eine Suche problematische objekte ausklammert.
Bei Verwendung von Releasability Informationen in den Metadaten (Beispiel: Releasability=Intranet) kann man als Contentmanager so ausschliessen, daß Content (obwohl nicht gegen den Gast geschützt wg. RSS Nutzung) nicht in der Ergebnisliste der Suche erscheint, und folglich auch nicht indiziert wird.

Die Suche geht diese Liste durch, liest jedes Objekt und indiziert dies (auch Office-Dokumente)

Eine entsprechende Suchanfrage sollte also relevante ergebnisse aus allen SITES unseres Intranets ergeben.

Wie gehen wir weiter vor?

  • Zunächsteinmal stellen wir sicher, dass (unseren Standards entsprechend) jede SITE ein SiteSearch Objekt enthält, das mit einer entsprechenden Anfrage belästigt werden kann.
  • Wir generieren für jede SITE einen URL String, der eine Advanced Search mit noch festzulegenden Parameteren auf die SITE auslöst. (Releasability=IntranetBw)
  • Wir modifizieren die WiseMetaTags.py, sodass bei Releasability standardmäßig IntranetBw eingetragen wird
  • wir generieren im Root des ZOPE/WISE eine DTML Methode SearchList, die mit einer Iteration (dtml-in viewObjects….), die eine Liste aller SITEURL ausgibt.
    Der Hinterlegte Link beinhaltet den Aufruf http://SITE_URL/SiteSearch?Parameter….. mit allen notwendigen Angaben.
  • Diese DTML -Methode ist unter http://SITE_URL/SearchList zu erreichen und wird der zentralen Suchmaschine bekanntgegeben.

Wenn die Suchmaschine diesen Link mit Suchtiefe 2 durchsucht, erhalten wir eine Liste aller Links und Dokumente, die durch die entsprechenden SiteSearch-Abfragen bereitgestellt wurden.

Die Vorteile liegen auf der Hand:

  • Die Firmensuche erstreckt sich auf einen erheblich größeren Pool an Dokumenten und Informationen.
  • Die Anfragen an die Firmensuche können auf die Standortdomäne beschränkt werden.
  • Der relativ aufwändige Betrieb einer Suchmaschine wird weitestgehend “outgesourced”
  • Der Pool der zu findenden Informationen kann durch die Contentmanager beliebig eingeschränkt werden.
  • Durch die standardmäßige Freigabe zur Suche (Releasability=IntranetBw) zwingen wir die Contentmanager sich mit MetaDaten zu befassen.

Wonach richtet sich die Indizierung?

Wie bei den meissten großen Suchmaschinen werden Metainformationen im Seitenkopf ausgewertet.

Unter Anderem sind der Titel der Seite, ev. Keywords, und die Kurzbeschreibung bei der Erstellung von Index und Ranking von Bedeutung.

Hier verweise ich auf einen früheren Artikel unter der Kategorie Metadaten, der sich mit den Metadaten im Header beschäftigt.

This entry was posted in deutsch, DTML-Stuff, Metadaten, Pläne, Product Hacks, Suchen. Bookmark the permalink.

Leave a Reply