Search code examples
elasticsearchconfigstop-words

Elasticsearch stop words relative path


Can somebody tell me please what elasticsearch documentation means by relative path to config directory? I dont see any in ES instalation. I need to find a stop words file which is defined in es index like "stopwords_path": "stopwords/slovak.txt" but I cant find any file with this name. May be Win 10 is not able to find it cause it has really poor search engine. Thanks a lot.


Solution

  • As written in the documentation you should create the file slovak.txt according this syntax:

    A path (either relative to config location, or absolute) to a stopwords file configuration. Each stop word should be in its own "line" (separated by a line break). The file must be UTF-8 encoded.

    so you should create a slowak.txt file like this:

    a
    aby
    aj
    ak
    aká
    akáže
    aké
    akého
    akéhože
    akej
    akejže
    akému
    akémuže
    akéže
    ako
    akom
    akomže
    akou
    akouže
    akože
    akú
    akúže
    aký
    akých
    akýchže
    akým
    akými
    akýmiže
    akýmže
    akýže
    ale
    alebo
    ani
    áno
    asi
    avšak
    až
    ba
    bez
    bezo
    bol
    bola
    boli
    bolo
    buď
    bude
    budem
    budeme
    budeš
    budete
    budú
    by
    byť
    cez
    cezo
    čej
    či
    čí
    čia
    čie
    čieho
    čiemu
    čím
    čími
    čiu
    čo
    čoho
    čom
    čomu
    čou
    čože
    ďalší
    ďalšia
    ďalšie
    ďalšieho
    ďalšiemu
    ďalších
    ďalším
    ďalšími
    ďalšiu
    ďalšom
    ďalšou
    dnes
    do
    ešte
    ho
    hoci
    i
    iba
    ich
    im
    iná
    iné
    iného
    inej
    inému
    iní
    inom
    inú
    iný
    iných
    iným
    inými
    ja
    je
    jeho
    jej
    jemu
    ju
    k
    ká
    kam
    kamže
    každá
    každé
    každého
    každému
    každí
    každou
    každú
    každý
    každých
    každým
    každými
    káže
    kde
    ké
    keď
    keďže
    kej
    kejže
    kéže
    kie
    kieho
    kiehože
    kiemu
    kiemuže
    kieže
    koho
    kom
    komu
    kou
    kouže
    kto
    ktorá
    ktoré
    ktorej
    ktorí
    ktorou
    ktorú
    ktorý
    ktorých
    ktorým
    ktorými
    ku
    kú
    kúže
    ký
    kýho
    kýhože
    kým
    kýmu
    kýmuže
    kýže
    lebo
    leda
    ledaže
    len
    ma
    má
    majú
    mal
    mala
    mali
    mám
    máme
    máš
    mať
    máte
    medzi
    mi
    mňa
    mne
    mnou
    moja
    moje
    mojej
    mojich
    mojim
    mojimi
    mojou
    moju
    možno
    môcť
    môj
    môjho
    môže
    môžem
    môžeme
    môžeš
    môžete
    môžu
    mu
    musí
    musia
    musieť
    musím
    musíme
    musíš
    musíte
    my
    na
    nad
    nado
    najmä
    nám
    nami
    nás
    náš
    naša
    naše
    našej
    nášho
    naši
    našich
    našim
    našimi
    našou
    ne
    neho
    nech
    nej
    nejaká
    nejaké
    nejakého
    nejakej
    nejakému
    nejakom
    nejakou
    nejakú
    nejaký
    nejakých
    nejakým
    nejakými
    nemu
    než
    nič
    ničím
    ničoho
    ničom
    ničomu
    nie
    niečo
    niektorá
    niektoré
    niektorého
    niektorej
    niektorému
    niektorom
    niektorou
    niektorú
    niektorý
    niektorých
    niektorým
    niektorými
    nielen
    nich
    nim
    ním
    nimi
    no
    ňom
    ňou
    ňu
    o
    od
    odo
    on
    oň
    ona
    oňho
    oni
    ono
    ony
    po
    pod
    podľa
    podo
    pokiaľ
    popod
    popri
    potom
    poza
    práve
    pre
    prečo
    pred
    predo
    preto
    pretože
    pri
    s
    sa
    seba
    sebe
    sebou
    sem
    si
    sme
    so
    som
    ste
    sú
    svoj
    svoja
    svoje
    svojho
    svojich
    svojim
    svojím
    svojimi
    svojou
    svoju
    ta
    tá
    tak
    taká
    takáto
    také
    takéto
    takej
    takejto
    takého
    takéhoto
    takému
    takémuto
    takí
    taký
    takýto
    takú
    takúto
    takže
    tam
    táto
    teba
    tebe
    tebou
    teda
    tej
    tejto
    ten
    tento
    ti
    tí
    tie
    tieto
    tiež
    títo
    to
    toho
    tohto
    tohoto
    tom
    tomto
    tomu
    tomuto
    toto
    tou
    touto
    tu
    tú
    túto
    tvoj
    tvoja
    tvoje
    tvojej
    tvojho
    tvoji
    tvojich
    tvojim
    tvojím
    tvojimi
    ty
    tých
    tým
    tými
    týmto
    u
    už
    v
    vám
    vami
    vás
    váš
    vaša
    vaše
    vašej
    vášho
    vaši
    vašich
    vašim
    vaším
    veď
    viac
    vo
    však
    všetci
    všetka
    všetko
    všetky
    všetok
    vy
    z
    za
    začo
    začože
    zo
    že
    

    This file have to be inside ES_PATH_CONF so in linux is /etc/elasticsearch/ and in windows is C:\ProgramData\Elastic\Elasticsearch\config Then you follow relative path notation. So if it is C:\ProgramData\Elastic\Elasticsearch\config\slowak.txt, you should set your path in this way:

    "stopwords_path":"slowak.txt"
    

    if you would put it inside C:\ProgramData\Elastic\Elasticsearch\config\synonym\slowak.txt you you set:

    "stopwords_path":"synonym\slowak.txt"