Tagování 17k českých textů - lze zautomatizovat? rubrika: Programování: PHP
Potřebuji nějak otagovat 17 000 stránek s výsledky průzkumů na Vyplňto.cz (rád bych je nějak propojil na základě nějakých podobností a celkově je líp prezentoval).
Mám strukturovaně uložené nadpisy (názvy dotazníků), otázky, navržené odpovědi, skutečné odpovědi respondentů (rozepisovací otázky), což by teoreticky šlo asi použít pro nějaké určení priority štítků (nadpis > otázka > odpověď), ale jak konkrétně z toho vydolovat ty tagy, to zatím moc nevím.
Zatím mě napadlo:
1) Mám uložené referery stránek (500k unikátních), odkud lidé na výsledky chodí, z některých vyhledávačů ještě pořád můžu dostat parametr "q", ale nefunguje to moc dobře a z hlediska vyhledávačů by to nemusela být úplně košer metoda. Do budoucna tipuju, že i seznam s tímhle skoncuje, takže to není ani úplně perspektivní metoda. Takže tohle je slepá cesta.
2) Opice u počítače, která postupně všechny stránky projde a ručně je otaguje - k tomu to zatím spěje...
3) Příprava pro bod 2 - analýza textu, vyházení běžných slov, převod slov do prvního pádu. To by bylo ideální, ale nevím, jak na to.
Nějaké nápady?
Hmm sestavil bych si četnosti výskytu jednotlivých slov. Pomocí toho bych si udělal seznam STOP slov, která se nebudou brát v potaz.
Vyřešil bych si problémy s diakritikou - někdo ji používá, někdo ne. Někdo to v jedne vete smichá.
Pořídil bych si seznam překlepových slov.
Slovník synonym.
Na něco z toho by šlo možná použít volně dostupné slovníky z OpenOffice.
Pak bych jednostlivým slovům začal přidělovat váhu na základě shody skutečné odpovědi s předpokládanou. I s využitím synonym. Slova s nejvyšší váhou bych použil jako tag.
Do budoucna bych si ale aplikaci upravil tak, že už při zadávání předpokládané odpovědi by byla určena slova k otagování. A to včetně slov, která vůbec nemusí být v otázce nebo předpokládané odpovědi.
Pro zobrazení všech 8 odpovědí se prosím přihlaste:
Nebo se přihlaste jménem a heslem:
Komentáře