Parsování obecné textové poštovní adresy (normalizace) rubrika: Programování: Jiné
Potřebuji parsovat rychle české poštovní adresy napsané různým způsobem, s překlepy, zkratkami názvů, neúplné, není jasné, co která část je, často jde o přepis z rukou psaných adres (čitelnost nic moc), obsahuje to slova navíc, která do adresy nepatří apod. Prostě takové, jak je někdo napsal. Službu ARES samozřejmě znám, ale ten je zaprvé dost pomalý (nepoužitelný pro interaktivní práci, když odpověď mu trvá jednotky až desítky sekund), zadruhé špatně zvládá překlepy, zkratky apod. - tedy úspěšnost není zase tak moc dobrá, zatřetí má limity počtu dotazů (ty mě trápí ze všeho nejméně). Pokud by existovala nějaká dobrá knihovna pro parsování adres, bylo by to ideální. Ale předpokládám, že spíše ne. Takže hlavní otázka: Jak byste postupovali, jaké metody použili, nápady? Zdroj "všech" adres je jasný (offline RÚIAN, resp. jeho část). Ale třeba zdroj zkratek (Pha, OV, n/něco, ...) nevím, kde vzít. Mám nějaké idee jako editační vzdálenost slov, (bi|tri)gramy, ...
Jinak tedy nevím, zda
- je ARES tak přetížený (i v noci),
- algoritmus, který používá, je tak časově náročný nebo
- zdržuje to záměrně
Každopádně cílem je něco relativně rychlého (do sekundy max., ideálně od 100 ms).
Nevím, jestli to má kompatibilní licenci (vyžaduje to zobrazit výsledek na Google mapě), ale čistě prakticky by na to šlo použít Google Geocoding API ( https://developers.google.com/maps/documentation/geocoding/ ). Jde tomu dát jakýkoli řetězec a vrátí to nejen GPS souřadnice, ale i strukturovanou adresu.
Pro zobrazení všech 5 odpovědí se prosím přihlaste:
Nebo se přihlaste jménem a heslem:
Komentáře