Relevansmodell för sökmotor


Kom över relevansmodellen för VGR:s sökmotor hitta.vgregion.se och tänkte dela med mig av hur den ser ut just nu. Detta är givetvis något som justeras allt eftersom, men det är åtminstone en intressant inblick för oss som inte jobbar i den änden med sökmotorer. Grundalgoritmen som används …

Bild över sökning på interna sökmotorn - hitta.vgregion.se
Kom över relevansmodellen för VGR:s sökmotor hitta.vgregion.se och tänkte dela med mig av hur den ser ut just nu. Detta är givetvis något som justeras allt eftersom, men det är åtminstone en intressant inblick för oss som inte jobbar i den änden med sökmotorer.

Grundalgoritmen som används är TF-IDF som värderar sökord efter förekomst i ett enskilt dokument i index, men sedan har Solr nedan finjustering.

Ordlista

  • Stemming - konstruktion för böjningsformer av ord.
  • VGRID - kortnamn eller alias för en person inom organisationen.
  • Webbis (webbisar.vgregion.se) - VGR:s tjänst för att lista info om nyfödda och deras föräldrar.
Fält Vikt Kommentar
Title 3.0 Ej stemmad titel, används för frassökning
Stemmedtitle 3.0 Stemmad titel
Text 0.5 Stemmad brödtext
Body 0.5 Ej stemmad brödtext, används för frassökning
Keywords 2.0 Ej stemmade nyckelord, används för frassökning
Stemmedkeywords 2.0 Stemmade nyckelord
Author 1.0 Författare till dokument
Fullname 10.0 Helt personnamn, finns endast på KIV-personer
Org 2.0 Organisation översatt från scope
Phonenumber 10.0 Telefonnummer, Finns endast på personer och enheter
Worktitle 2.0 Jobbtitel, finns endast på KIV-personer
Vgrid 10.0 VGR id för person, finns endast på KIV-personer
source 10.0
webbis_locality 2.0
webbis_parent1 4.0
webbis_parent2 4.0
webbis_hospital 1.0
diarie_diarienr 10.0
businessclassification 10.0
municipality 5.0

Med detta som utgångspunkt har jag funderat på att skriva en lathund i sökmotoroptimering inom VGR.