Tjenester

Våre webprodukter kjennetegnes av

Medlem av Web Standards Group

Latent semantisk indeksering

Vanlige nøkkelordsøk har en tilnærming til en dokumentsamling basert på en svart-hvit-mentalitet: Enten inneholder et dokument et gitt ord, eller så gjør det det ikke, uten noen form for gråsoner.

Søkeresultatet lages ved å lete etter visse nøkkelord og -fraser i hvert dokument, der alle dokumenter som ikke inneholder disse ignoreres. De resterende dokumentene, som inneholder de aktuelle ordene, rangeres deretter på grunnlag av et rangeringssystem. Hvert dokument står for seg selv når søkealgoritmen foretar sin bedømmelse. Det er ingen gjensidig avhengighet mellom dokumentene, som evalueres kun på grunnlag av innhold.

LSI: Semantisk nærhet viktigere enn ordene selv

Latent semantisk indeksering legger til et viktig steg til dokumentindekseringen. I tillegg til å finne ut hvilke nøkkelord et dokument inneholder, utforsker metoden dokumentsamlingen som en helhet, for å se hvilke andre dokumenter som inneholder noen av de samme ordene. LSI betrakter dokumenter som har mange felles ord til å være semantisk nære, mens dokumenter som har få felles ord har høy semantisk avstand. Denne enkle metoden har overraskende store likheter med hvordan mennesker vil klassifisere en dokumentsamling når de vurderer innholdet i dokumenter. Selv om LSI-algoritmen ikke forstår noe om hva ordene betyr, kan mønstrene den gjenkjenner gjøre algoritmen fascinerende intelligent.

Resultater som ikke inneholder søkeordene i det hele tatt

Når du søker gjennom en LSI-indeksert database, ser søkemotoren på likhetsverdier som er beregnet for hvert innholdsord, og returnerer dokumenter som den antar er mest relevant for spørringen. Siden to dokumenter kan være semantisk svært nære selv om de ikke deler et bestemt nøkkelord, krever LSI ikke nøyaktig samsvar for å returnere brukbare resultater. Der et enkelt nøkkelordsøk vil mislykkes hvis det ikke finnes et eksakt samsvar, vil LSI ofte returnere relevante dokumenter som ikke inneholder nøkkelordet i det hele tatt.

La oss si at vi bruker LSI til å indeksere en samling av sosiologiske artikler. Dersom ordene rasjonalisering, institusjonalisering og differensiering opptrer sammen i tilstrekkelig mange artikler, vil søkealgoritmen lære at disse tre termene er semantisk nære. Et søk etter rasjonalisering institusjonalisering vil derfor returnere et sett av artikler som inneholder denne frasen (det somme restultatet vi ville fått i et tradisjonelt søk), men også artikler som inneholder ordet differensiering. Søkemotoren forstår ikke sosiologi, men ved å utforske et tilstrekkelig antall dokumenter lærer den at disse tre termene er relaterte. Den bruker så informasjonen til å gi et utvidet sett av resultater med flere relevante resultater enn et tradisjonelt nøkkelordsøk.

Kunstig intelligens basert på en matematisk tilnærming

Å lære en datamaskin å organisere data i begreper og demonstrere forståelse har vist seg å være svært vanskelig. En stor fordel LSI har er at det er en rent matematisk tilnærming, der det ikke kreves noen innsikt i meningsinnholdet i dokumentene eller ordene algoritmen analyserer. Dette gjør den til en kraftig, generisk teknikk som er i stand til å indeksere en  dokumentsamling på et hvilket som helst språk. Den kan brukes parallelt med eller som erstatning for tradisjonelt nøkkelordsøk, med gode resultater.

Følgende søk er faktiske resultater oppnådd vha LSI:

I disse tilfellene er LSI smart nok til å se at Saddam Hussein er på en eller annen måte nært relatert til Irak og Gulf-krigen og at Tiger Woods spiller golf.

Hvordan finne innholdsord

Latent semantisk indeksering ser etter mønstre der ord opptrer i flere dokumenter. Naturlig språk er full av redundans. De mest frekvente ordene i engelsk er ord som ikke har innhold i det hele tatt: funskjonelle ord, konjunksjoner, preposisjoner, adverb etc. Det første steget i LSI er å fjerne alle slike ord fra et dokument, fordi de ikke har semantisk meningsinnhold. Målet er å stå igjen med semantisk meningsfulle innholdsord. Her er en oppskrift for å generere en liste av innholdsord fra en dokumentsamling

1. Lag en komplett liste over alle ordene som opptrer et hvilket som helst sted i samlingen
2. Fjern artikler, preposisjoner og konjunksjoner
3. Fjern vanlige verb (know, see, do, be)
4. Fjern alle pronomen
5. Fjern vanlige adjektiver (big, late, high)
6. Fjern dekorerende ord (therefore, thus, however, albeit, etc.)
7. Fjern ord som opptrer i hvert dokument
8. Fjern ord som opptrer i kun ett dokument

----
Dette er et fritt oversatt utdrag fra den kjente artikkelen "Patterns in Unstructured Data", som kan leses her: http://javelina.cet.middlebury.edu/lsa/out/cover_page.htm Artikkelen gir en svært god forklaring på LSI, og anbefales for alle som er interessert i søkemotorer.

Googles teknologidirektør, Craig Silverstein, har LSI som interesseområde. Etter Googles Brandy-oppdatering i slutten av februar 2004, var det mye snakk om hvorvidt Google benytter LSI i sine søkeresultater. Lenker til artikler og diskusjoner omkring dette gis under:

Sitepoint: How To Beat Google's 'Brandy' Update
Webmastersworld: LSI & Google
Pornresource (!): Is Google Changing Direction?
Stefano Mazzocchi: The future of the semantic web is LSI

Trenger du hjelp til webutvikling/webdesign, søkemotoroptimalisering eller annonsering i søkemotorer? Ønsker du websider som du kan oppdatere selv? Autodog Development tilbyr rimelige frilanstjenester og arbeider hurtig og effektivt. Ta kontakt for mer informasjon eller for et tilbud.

Nytt 2010: Encanta leverer programvare og programmeringstjenester til den norske offshore-industrien. Integrerer mot bl.a Microsoft Office, Safran, SAP/SBO og ProArc. Se her for mer informasjon.

Fordeler med å velge Autopublish

Engelsk-norsk ordbok Hvordan konvertere bilder for web Verktøy Lenker Google Adwords Søkemotor-blogg
Kontakt Autodog Development