Sphinxsearch pro DokuWiki rubrika: Programování: Jiné

2 Charvi
položil/-a 12.7.2016

Zdravím,

snažím se pro DokuWiki rozchodit SphinxSearch. Vše více méně funguje, jen mám problém s češtinou. Stem_cz je celkem na nic a při použití slovníků mi při re-indexaci hazí:

WARNING: duplicate wordform found - skipped ( current='isto > ist', stored='isto > isto' ). Fix your wordforms file '....

a takhle od A až do Z.

Zkoušel jsem dump různých slovníků (Open Office, ispell,...)

Verzi Sphinxe mám 2.0.4. Zkoušel jsem to i na aktuální verzi 2.2.10.

Co s tím? Jsou to špatné slovníky nebo se to ve sphinxu dá nějak obejít?

index dk_main
{
    source = dk_main
 
    path                    = ../../../data/sphinxsearch/dk_main
    docinfo                 = extern
    mlock                   = 0
    html_strip              = 1
    enable_star             = 1
    min_infix_len           = 3
    infix_fields            = namespace,pagename
    charset_type            = utf-8
    charset_table           = 0..9, A..Z->a..z, a..z, U+0e1->a, U+0c1->a, U+10d->c, U+10c->c, U+10f->d, U+10e->d, U+0e9->e, U+0c9->e, U+11b->e, U+11a->e, U+0ed->i, U+0cd->i, U+148->n, U+147->n, U+0f3->o, U+0d3->o, U+159->r, U+158->r, U+161->s, U+160->s, U+165->t, U+164->t, U+0fa->u, U+0da->u, U+16f->u, U+16e->u, U+0fd->y, U+0dd->y, U+17e->z, U+17d->z, %
    stopwords =../path/czech_ascii.stop
    wordforms = ../path/wordforms-uniq.txt
odkaz Vyřešeno
6 ales_novak
odpověděl/-a 13.7.2016

Zkus tenhle slovník.

Komentáře

  • Charvi : Super díky moc! Funguje a zdá se že hledá dobře :-) (našel všechny pády na slovo banka) 13.7.2016

Pro plný přístup na Devel.cz se prosím přihlaste:

Rychlé přihlášení přes sociální sítě:

Nebo se přihlaste jménem a heslem:

Zadejte prosím svou e-mailovou adresu.
Zadejte své heslo.