K-Means clustering rubrika: Programování: Jiné

3 rs
položil/-a 16.1.2015

Zdravim,

Resim problem mam mnozinu bodu v 2D prostoru. A pral bych si z nich udelat clustery. Na to jsem si nasel ze existuje algoritmus K-means clustering problem je ze ja neznam ono pocatecni K. Misto toho jedine omezeni ktere bych chtel je ze v clusteru musi byt alespon X bodu.

Nevite nahodou jak toto resit / neexistuje na to hotovy algoritmus predtim nez se pustim do vymysleni vlastniho ?

Tech bodu bude hodne takze dalsi pozadavek je i vykon (i kdyz ten neni uplne rozhodujici staci kdyz to zbehne dejme tomu prez noc). Data jsou ulozena v PostgreSQL k ruce mam i rozsireni Postgis tak kdyby to slo primo na urovni DB bylo by to uplne nejlepsi.

Diky

Komentáře

odkaz
5 kamylko
odpověděl/-a 16.1.2015

ak si sa definitivne rozhodol pre k-means, pouzit mozes algoritmus K-means++

implementaciu najdes napriklad tu http://rosettacode.org/wiki/K-means%2B%2B_clustering

Komentáře

  • rs : Diky, nevim jestli k-means je presne to co chci spis hledam klicova slova / neco co me odkaze na to jak to resit.. Zatim jsem narazil na Principal component analysis coz by mohlo byt slibne na ten K-means++ se kouknu taky uz ho mam v poznamkach. Trochu se ale bojim ze tech bodu mam opravdu hodne radove miliony takze i ten vykon bude otazkou 16.1.2015
  • kamylko : hej PCA je v pohode tiez, fakt zalezi co presne chces dosiahnut, aku mas mnozinu, keby si strasne chcel si mozes natrenovat aj neuronku... k PCA mas super tutorial tu: http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components... 17.1.2015
  • kamylko : potom sa da pouzit bayesovsky klasifikator, rozne linearne klasifikatory, support vector machine (SVM), regresne techniky, rozhodovacie stromy, atd... 17.1.2015
  • rs : No v principu jde o to ze mam mapu CR a na ni body. Ty body bych chtel seskupit do skupin/ shluku podle toho jak k sobe geograficky nalezi. Samozrejme nevim kolik shluku je, kde se budou nachazet podminkou pouze je ze shluk musi mit ALESPON 100 (libovolna konstanta) bodu . Pak pro kazdou takovouto mnozinu budu pocitat naka fakta. Napriklad prumerna teplota, prumerna vyska... (proto chci alespon 100 bodu aby ten prumer mel smysl), na konci na zakade toho vykreslim nakou heat mapu / cenovou mapu ..., problem je prav vytvorit si ty skupiny protoze tech bodu je hodne a co jsem se zatim dival tak vetsina tech metod ma znacnou casovou narocnost. Problem je ze tohle je mimo muj hlavni obor zajmu takze se v tom dost placam. Pokud myslis ze existuje lepsi metoda tak me klidne nakopni. Diky 17.1.2015
  • kamylko : vychadza mi potom celkom dobre hierarchicke klastrovanie. nieco taketo: https://docs.tibco.com/pub/spotfire/5.5.0-march-2013/UsersGuide/hc/hc_me... a vysvetlenie co je to: http://en.wikipedia.org/wiki/Hierarchical_clustering 18.1.2015
  • kamylko : priklad s mestami: http://www.analytictech.com/networks/hiclus.htm, dolezite je si potom urcit, ze ktoru techniku pouzijes na meranie vzdialenosti, s tym sa treba pohrat 18.1.2015
  • rs : Jop taky uz sem nak dosel k tomu ze to bude asi to nejlepsi co chcu jenom zakaznik ma nake predstavy ktere toto uplne nenaplnuje a ktere jsou ale v ralu neproveditelne v ropzumnem case ale snad mu to vysvetlim 19.1.2015

Pro zobrazení všech 3 odpovědí se prosím přihlaste:

Rychlé přihlášení přes sociální sítě:

Nebo se přihlaste jménem a heslem:

Zadejte prosím svou e-mailovou adresu.
Zadejte své heslo.