Dokumente aus dem Index der Suchmaschine entfernen

Es kann vorkommen, dass die Suchmaschine von Autonomy in ihrem Index Dokumente enthält, die an der gespeicherten Stelle nicht mehr existieren. Erhält man nach einer Suche einen solchen Treffer, führt der dazu gehörende Link auf ein falsches oder gar kein Dokument. Letzteres führt dazu, dass eine Fehlerseite ausgegeben wird, und der Eindruck entsteht, dass die Verlinkung der Website fehlerhaft ist.

Solche Dokumente können direkt aus dem Live-Index der Suchmaschine gelöscht werden. Hierfür (und für viele andere nützliche Dinge) kann der zu CMS Fiona gehörende XML-Client verwendet werden. Der XML-Client ist ein Werkzeug für Support- und Debugging-Zwecke.

Gehen Sie folgendermaßen vor, um solche veralteten Indexeinträge zu finden und zu löschen:

  1. Verbinden Sie sich mittels Tcl-Client mit der Template Engine:

    instance/myInstance/bin/client localhost teTclPort login password
    
  2. Laden Sie den XmlClient:

    source lib/XmlClient.tcl
    
  3. Geben Sie die zu durchsuchende Collection an:

    ::sesXmlClient::setDefaultCollection collectionName
    
  4. Der voreingestellte Collection-Name für den Live-Auftritt ist live-docs. Sollten Sie den Namen der Collection nicht kennen, können Sie ihn aus dem Systemkonfigurationseintrag indexing.incrementalExport.collectionSelection in der Datei instance/myInstance/config/indexing.xml auslesen.

  5. Führen Sie eine Suchanfrage nach dem Suchbegriff durch (hier Fremdwort), um die aus dem Index zu löschenden Dokumente zu finden:

    ::sesXmlClient::sesSearch query {fremdwort*} -resultRecord {docId path}
    
  6. Prüfen Sie, ob die den Treffern entsprechenden Dateien existieren, indem Sie für jeden Treffer einmal auf die jeweilige Datei zugreifen:

    obj withId docId
    
  7. Falls eine Fehlermeldunge geliefert wird, exisitert die betreffende Datei nicht, kann also aus dem Index der Suchmaschine gelöscht werden:

    ::sesXmlClient::deleteDocFromIndex docId
    

Diese Vorgehensweise löscht genau die Referenzen aus dem Index, von denen bekannt ist, dass die dazugehörenden Dateien nicht mehr existieren. Um den Index insgesamt zu aktualisieren (d.h. neu aufzubauen), gehen Sie bitte folgendermaßen vor:

  1. Wenn Sie nicht mehr mit der Template Engine verbunden sind, verbinden Sie sich bitte mittels Tcl-Client (wie oben beschrieben).

  2. Markieren Sie alle Dateien als aktualisiert, so dass sie neu exportiert werden:

    obj touchAll
    
  3. Stoßen Sie den Export an:

    app publish