Datamodel og match

Sidst opdateret: 14.7.2011

Datamodel
Ny datamodel 2011
Matchning
Matchregler (hovedregler)

Datamodel

Datamodellen i DanBib bygger på det princip, at poster, der repræsenterer samme udgave at et værk, samles i en postklynge. Alle poster i klyngen er søgbare, men udgør ved søgning kun ét hit tilsammen.


Ved visning vises normalt kun den højst prioriterede post i klyngen. Prioriteringen bygger på en fast rækkefølge (se ..). Dog vil brugerens eget bibliotek altid komme først i rækkefølgen.Der er mulighed for at se alle poster i en klynge - enten ved videreklik fra marcformat, eller i postklyngeformatet (se også afsnittet visformater ).

Matchning


Alle poster, der indlægges i DanBib, søges matchet mod en eksisterende postklynge.Hvis ingen match findes, danner den nye post foreløbig sin egen postklynge


Selve matchningen bygger altid på en sammenligning mellem 2 poster, men alle poster i en klynge skal matche hinanden indbyrdes.


De grundlæggende forudsætninger for at 2 poster kan matche er, at de skal have samme

  • posttype (singlepost, hovedpost, bindpost)
  • bibliografisk kategori (monografi, periodica)
  • materialetype (bog, cd, video o.s.v.)


    Nedenfor gennemgås gennemgås en række matchregler, der afhænger af posttype m.v.
    Hvert regelsæt består af et antal betingelser, de 2 poster skal opfylde samt en angivelse af hvilke data, der i bekræftende fald skal sammenlignes, og hvilken form for overensstemmelse der kræves.

    I mange tilfælde vil posterne opfylde betingelserne i flere forskellige regelsæt. I så fald er det nok, at sammenligningen i ét af regelsættene falder positivt ud.

    Sammenligningsprincipper


    Generelt

    Ved sammenligning af dataelementer i 2 poster tages der kun hensyn til alfanumeriske tegn. Forskelle i mellemrum, bindestreger og andre skilletegn er således uden betydning.Forskelle med hensyn til store og små bogstaver er ligeledes uden betydning.


    Hvis et dataelement er gentaget (fx ISBN eller forfatter), er det normalt tilstrækkeligt, at ét af elementerne i den ene post stemmer overens med ét af elementerne i den anden post.


    Der bruges 3 forskellige grader af krav om overensstemmelse mellem tilsvarende dataelementer:

  • Kravet 'ens' betyder, at det pågældende dataelement enten skal være til stede og ens i de 2 poster, eller at det skal mangle i begge poster.
  • Kravet 'ens eller mangler' betyder, at hvis det pågældende dataelement er til stede i begge poster, skal det være ens, men det må godt være til stede i en ene post og mangle i den anden.
  • Kravet 'indeholdt' betyder, at det pågældende dataelement skal være til stede i begge poster, og at skal det ene genfindes som tekststreng i det andet.

    Grundprincipper ved sammenligninger af de enkelte elementer i katalogiseringen.


    Personlige forfattere

    Der tages kun hensyn til efternavn(e) + 1. bogstav i fornavn


    Titler

    Der tages højde for forskellige formateringsvarianter, således at hovedtitel + undertitel + udgiver formateret i ét felt kan matche de samme data formateret i flere felter.


    Udgaver

    Udgavebetegnelser normaliseres således at:

    • 'udgave' = 'udg.' = 'edition' = 'ed' ...o.s.v.
    • 1. udgave = ingen udgavebetegnelse
    • Ved nummererede udgaver ignoreres tillægsord som: 'reviderede' 'udvidede' o.s.v.
    • Oplagsbetegnelse ignoreres

    Forlag

    Der tages normalt kun hensyn til de 5 første tegn


    Årstal

    Ved årstalssammenligninger bruges såvel 260 *c som 008 *a og *z.Normalt kræves blot at sammenfaldende årstal skal kunne findes ét af stederne


    Sprogkoder

    Koderne 'und', 'mul' og 'mis' betragtes som = ingen sprogkode

    Matchregler (hovedregler)


    Periodica - med ISSN

    • ISSN skal være ens
    • Hovedtitel skal være ens

    Periodica - med eller uden ISSN

    Hovedregel:

    • ISSN skal være ens eller mangle
    • Titel skal være ens
    • Nøgletitel skal være ens eller mangle
    • Forfatter-/udgiveroplysninger skal være ens eller mangle
    • Sprogkode skal være ens eller mangle
    • Forlag skal være ens eller mangle
      eller
    • Forlag skal være indeholdt
    Der er en række varianter af hovedreglen, f.eks.:

    Hvis en post hverken indeholder forfatter/udgiver eller forlag, stilles der større krav end normalt til andre sammenligninger. I så fald gælder:

    • Nøgletitel skal være ens
    • Undertitel skal være ens
    • Serie skal være ens
    • Udgave skal være ens
    Monografier (boglige materialer)- med ISBN
    • ISBN skal være ens.
    • Titel skal være ens
    Monografier (boglige materialer) - med eller uden ISBN

    Hovedregel:

    • Titel skal være ens
    • Forfatter skal være ens
    • År skal være ens
    • Udgave skal være ens eller mangle
    • Serie skal være ens eller mangle
    • Sondringsdata skal være ens eller mangle
    • Undertitel skal være ens eller mangle
    • Sprogkode skal være ens eller mangle
    • Forlag skal være ens eller mangle
      eller
    • Forlag skal være indeholdt
    Musik (noder og fonogrammer)
    • Titel skal være ens (her bruges både hovedtitel og uniform titel/standardtitel)
    • Hovedophav (100/110) skal være ens
    • Bestillingsnr/pladenr skal være ens
    • Forlag skal være ens
    • Sondringsdata skal være ens eller mangle
    • Sprogkode skal være ens eller mangle
    AV-materialer
    • Titel skal være ens
    • Forfatter skal være ens
    • ISBN skal være ens eller mangle
    • Bestillingsnr. skal være ens
    • År skal være ens eller mangle
    • Udgave skal være ens eller mangle
    • Forlag skal være ens eller mangle
    • Specifik materialebetegnelse (300n) skal være ens eller mangle
    • Serie skal være ens eller mangle
    • Sondringsdata skal være ens eller mangle
    • Sprogkode skal være ens eller mangle
    Netdokumenter
    • Titel skal være ens
    • URL skal være ens
    Tidsskriftsartikler
    • Titel skal være ens
    • Undertitel skal være ens eller mangle
    • Forfatter skal være ens eller mangle
    • Værtspublikation skal være ens
    • År på værtspublikation skal være ens eller mangle
    Flerbindsværker
    Da poster med forskellig posttype aldrig kan matche, vil flerbindsværker formateret efter de 2 forskellige metoder i henholdsvis ét niveau og flere niveauer ikke matche med hinanden.


    Flerbindsværker formateret i ét niveau

    - matches efter de almindelige matchregler for monografier.


    Flerbindsværker i flere niveauer

    Det er altid bindposterne der er udgangspunkt for matchningen, men matchreglerne kigger på data fra hele posthierarkiet.


    Flerbindsværker med ISBN

    • ISBN skal være ens
    • Titel i hovedposter skal være ens
    • Bindnr. skal være ens
    Flerbindsværker uden ISBN

    Hovedregel:

    • Titel i hovedpost skal være ens
    • Bindnr. skal være ens
    • Undertitel i bindpost skal være ens
    • Forfatter skal være ens
    • År skal være ens
    • Forlag skal være ens
    • Udgave skal være ens eller mangle
    • Serie skal være ens eller mangle
    • Sondringsdata skal være ens eller mangle