Tagování 17k českých textů - lze zautomatizovat? rubrika: Programování: PHP

6 Marekzprahy
položil/-a 7.1.2015

Potřebuji nějak otagovat 17 000 stránek s výsledky průzkumů na Vyplňto.cz (rád bych je nějak propojil na základě nějakých podobností a celkově je líp prezentoval).

Mám strukturovaně uložené nadpisy (názvy dotazníků), otázky, navržené odpovědi, skutečné odpovědi respondentů (rozepisovací otázky), což by teoreticky šlo asi použít pro nějaké určení priority štítků (nadpis > otázka > odpověď), ale jak konkrétně z toho vydolovat ty tagy, to zatím moc nevím.

Zatím mě napadlo:
1) Mám uložené referery stránek (500k unikátních), odkud lidé na výsledky chodí, z některých vyhledávačů ještě pořád můžu dostat parametr "q", ale nefunguje to moc dobře a z hlediska vyhledávačů by to nemusela být úplně košer metoda. Do budoucna tipuju, že i seznam s tímhle skoncuje, takže to není ani úplně perspektivní metoda. Takže tohle je slepá cesta.

2) Opice u počítače, která postupně všechny stránky projde a ručně je otaguje - k tomu to zatím spěje...

3) Příprava pro bod 2 - analýza textu, vyházení běžných slov, převod slov do prvního pádu. To by bylo ideální, ale nevím, jak na to.

Nějaké nápady?

Komentáře

  • tiso : Čo takto niekam nahrať vzorku? Napríklad 1 otázka a k nej 1000 odpovedí. 7.1.2015
odkaz Vyřešeno
6 Žížala
odpověděl/-a 8.1.2015

Hmm sestavil bych si četnosti výskytu jednotlivých slov. Pomocí toho bych si udělal seznam STOP slov, která se nebudou brát v potaz.
Vyřešil bych si problémy s diakritikou - někdo ji používá, někdo ne. Někdo to v jedne vete smichá.
Pořídil bych si seznam překlepových slov.
Slovník synonym.
Na něco z toho by šlo možná použít volně dostupné slovníky z OpenOffice.
Pak bych jednostlivým slovům začal přidělovat váhu na základě shody skutečné odpovědi s předpokládanou. I s využitím synonym. Slova s nejvyšší váhou bych použil jako tag.

Do budoucna bych si ale aplikaci upravil tak, že už při zadávání předpokládané odpovědi by byla určena slova k otagování. A to včetně slov, která vůbec nemusí být v otázce nebo předpokládané odpovědi.

Pro zobrazení všech 8 odpovědí se prosím přihlaste:

Rychlé přihlášení přes sociální sítě:

Nebo se přihlaste jménem a heslem:

Zadejte prosím svou e-mailovou adresu.
Zadejte své heslo.