Rýžování zlata na virtuální obloze * seminar o necem, co nelze pojemnovat jendoduchym nezavadejicim nazvem, proto jsem zvolil metaforu v pojmenovani, ktera nam pomuze pochopit klicove myslenky dava ledacos tusit... * klicove myslenky jsem diskutoval s jednim nasim kolegou, ktery si nepral byt uveden... proto jsem uvedl prezdivku, kterou se podepisoval do praktik Uvod [ Ryzovani ] * pojem ryzovani je process ziskavani zrnek zlata kdy se nabere pisek z reky a pomoci krouzeni a vody se separuji lehci pisky a tezsi zlato * v dnesni dobe se vetsina zlata ziskava prave ryzovanim nebo analogickymi postupy... zlate valouny pravdepodobne naposledy spatrili spanele v jizni americe nekdy v 17 stoleti * jde vlastne o to, ziskat zlato rozpytelne po malych kousich... neco co neni na prvni pohled videt .. dnesni seminar bude prave o podobnych zlatonosnych rekach v astronomii, kdy se budeme bavit o metodach, jak ziskavat informace rozptylene po vesmiru.. jak si davat do souvislosti ruzne na prvni pohled nesouvisejici veci.. a jak s temito daty zachazet v analogii tedy budeme povazovat data za zlato.. ale kde tedy lezi ty zlatonosne reky ? zatim odbocime.. # na rozdil od zlata ze zlatych zil... v astronomii vlastne # pracujeme jen se zlatymi zilami... mame viditelne objekty, ktere # vazime, merime,... ale informace, ktere jsou roztylene nekde # ve Vesmiru jen tak ignorujeme.. nemyslim ani tak rozptylene # prostorove nebo casove.. ale spis vyznamove * podobne se hledaji napriklad houby... a nebo... [ Vltaviny ] * vltaviny... abych neporusil tradici, tak uvadim foto z dovolene.. vlatviny se hledaji tak, ze se chodi po poli a kouka na nazelenale kaminky .. pole je velke.. lidi malo... taky se toho moc nenajde... prumyslove se to dela pres katr... [ Barnardka ] * v astronomii jsme v podobne pozici... misto pole mame cely vesmir a snazime se ho pochopit tim, ze v nem hledame.... * jako nazorny priklad vybereme uplne trivialni vec, jakou bude hledani objektu s nejvetsi uhlovou rychlosti * hvezdy se sice nijak viditelne nehybou a proto jim prislusi stary cesky nazev stalice (oproti bludicim - planetam) ale presto se daji nejakej pohyby detekovat a rekneme, ze si chceme vyhledat tu s nejvetsim pohybem... * moznosti: * postavime si dalekohled a kazdou jasnou noc systematicky projizdime celou oblohu - sestavime si vlastni katalog * pouzijeme uz sestaveny katalog... treba z Hipparca (co to je?) [ katalog Hipparcos ] * hrozivy pocet zaznamu.. urcite to nebudem prohlizet rucne.... protoze 118 tisic sec je 1.5 dne... ale proc to delat, kdyz prece mame pocitace.....zase ho ale musime umet naprogramovat... * vsimnout si: zmet cisel, usporadanych po radkach... bez blizsiho popisu nezname vyznam jednotlivych sloupcu [ Barnardka z Monte ] * nicmene kdyz to udelame, tak dostaneme docela pekny obrazek.. udaje jsou ode me a z praktika od roku 2001, dokonce se podarilo i uspesne zmerit vlastni pohyby... i kdyz ne v uplne shode s daty z Hipparca... vsimnete si astrometricke presnosti * shrnuti prikladu: zlaty pisek pro nas byly vsechny mozne hvezdy zmerene Hipparchem, a museli jsme z nich jednu vybrat podle nejakych pozadavku.... v analogii jsme se naucili pouzivat panev a zlatonosnym piskem pro nas byl katalog * jenze co kdyz hledame neco co se neda snadno z katalogu ziskat? budeme se ted obecneji zabyvat metodami hledani zajimavych veci, neboli naucime se spravne ryzovat... [ Volba spravne baze ] * v predchozim prikade jsme hledali v katalogu namerenych hodnot nejvetsi cislo, coz je matematicky trivialni a v podstate jen zalezi na zpusobu, jak to dlouho bude trvat vzali jsme proste nejvetsi hodnotu.. taky jsme vedeli co mame vzit... udaj mel nejaky lidsky vyznam * ale kdo rika, ze je dulezite zjistit prave tohle.. z astro je vlastne nalezena vec jen kurizoita... fyzikalne prakticky bez vyznamu... proste je nahodne nejaka hvezda blizko a nam se pohybuje rychle pred ocima... * ale kdyz by jsme hledali skutecne nejrychlejsi hvezdu ve vesmiru nebo v galaxii tak by to bylo slozietjsi... musely by jsme uvazit pohyb Zeme.. Slunce... galaxie... * neboli museli by jsme zvolit nejake jine souradnice a zvolit jinou bazi v techto zobecnenych souradnicich? ale kdo rika, ze by to byla skutecne dobra baze? a ktera baze je ta spravna? * a staci jen linearni transformace? nebylo by lepsi udelat neco obecnejsiho? treba kanonickou? [ Dolujeme data ] * obecne nam jde o to, aby jsme dostali nejakou souvislost mezi daty.. treba volbou vhodne baze dostaneme analytickou relaci... * ale muze nam jit o mnohem obecnejsi veci.. treba o kategorizaci obejktu podle nejakych chraketrestik... hledani trid ekvivalence * pritom se tedy snazime najit tu spravnou bazi.. nebo transformci, ale bohuzel nevime, ktera je ta spravna.. * proto zavedeme metriku.. a data podle toho klasifikujeme... * ale aby z nas enbyly urednici... * a abychom nedosli na scesti... pseudovedy [Data mining] Pojem data mining je vlastne dolovani v datech, tedy hledani nejakych novych informaci, souvislosti v datech. Neexistuje nejaka jednotna teorie data mininglu.. jde spis o soubor ruznych metod pouzivanych v praxi na ruzne analyzy dat. Metaforickym vyjadrenim data miningu je prave ryzovani zlata. To co hledame jsou pro nas zrnka zlata, ktere jsem rozprostrene v pisku.. tedy ohromnem monostvi nesouvisejich informaci Data mining jsou tak vlastne metody odliseni zlata v obycejnych sutrech. Pochopitelne je to jen analogie, "zlato" je pro kazdeho neco jineho.. a taktez metody dostavani dat jsou uplne jine. Data mining se zacal obejvovat nekdy v '60 kdy se zacalo dostavat ke slovu zpracovani gigantickeho mnostvi dat. Nicmene intiutivne to lide pouzivali uz predtim... prikaldem v astronoii je spektralni analyza, klasifikace galaxii nebo objeveni relace perioda - svitivost pro Cepheidy. Klasikem oboru byl ovsem Line a samozrejme vsichni biologove, Mendelejev a chemici, geologove, ... V soucasne dobe se ale data mining pouziva predevsim v socialnich vedach... priklad ktery jsem uvedl o hledani vhodne baze jsem si vymyslel .. v data mining priruckach se neuvadi. Aspon uz chapeme uslovi: informace maji cenu zlata.... [Metody data miningu] Regresni analyza: klasicke metody pouzivane ve fyzice, vymyslime si nejakou teorii, popiseme funkci a porovnavame se skutecnosti. Klasifikace: klasicke pouziti na skatulkovani vseho mozneho podle nejakych charakteristickych risu. Tyto metody se snazi provadet automatickou klasifikaci do predem danych skupin obvykle prostrednictvim parametru - metriky, miry. Prikladem muze byt treba spektralni klasifikace do trid - trid ekvivalence by jsme asi rekli. Clusterovani: Jde v podstate o klasifikaci ovsem s tim, ze predem nemame definovane skupiny. Proste spustime algoritmus, dodame metriku a doufame, ze z toho neco vyleze. Takto se snazime odhalit treba nove trideni galaxii, planetek.. Analyza nakupniho kosiku: Nejpopularnejsi metoda pouzivana na hledani vzajemnych vztahu mezi objekty. Prikladem muze byt analyza veci, co maji lidi v kosikach v supermarketech, treba kdyz si nekdo koupi veprove a knedle, tak si taky kupuje zeli. Je to tedy znacne zneuzitelne pro prodavani nesmyslu a clovek by si na to mel davat pozor. Tohle je nejobvyklejsi zpusob pouziti DM metod na ruzne socialni veci, popis chovani lidi v ruznych situacich, vyber na vhodne veci, praci a apod. Taktez extremne nebezpecne.. viz dale. [Klasifikace galaxii a spekter] * klasifikace hvezd do spektralnich trid, vznikla historicky, jednotlive tridy jsou charakteristicke pritomnosti a intenzitou vybranych car * kdezto u galaxii je to jasne, tam ruzne tridy odrazi uplne jinou fyzikalni podstatu objektu. V podstate je to takovy vyctovy parametr... [Pseudoveda?] Otazkou je, proc potrebujeme klasifikovat.. je to asi nefyzikalni... v kazdem pripade to ale muze odrazet nejake vlastnosti. Pro klasifikaci treba mluvi klasifikace galaxii.. treba tvary spirlanich a eliptickych galaxii odrazi zcela jine fyzikalni podminky.. naopak proti klasifikaci je spektralni nalyza, ktera je uplne nesmyslna... vlastne tridy odrazi jen teploty hvezd.. tedy spojitou velicinu.. a muzeme si rikat o kolik by byla astrofyzika jednoduzsi, kdyby jsme pouzivali proste teplotu a kolik casu by usetrili studenti na uceni se uzitesnych veci, bez sp. trid.. Cili jde o mirne kontroverzni vlastnosti ... specielne klasifikace muze byt znacne zavadejici jak nas poucuje Sir Arnold. Znamena to, ze metody data miningu jsou vhodne na hledani zavislosti mezi daty ale na overovani by jsme meli radeji pouzit metody jine. ani s data miningem se to nesmi prehanet... [Rozhodovaci stromy] Podrobnej se mrkneme na metody klasifikace dat do predem danych trid pomoci tvz. rozhodovaich stromu. Jako klasifikacni funkci pouzijeme informacni entropii. Je to analogie bezne entropie a ma i podobne vlastnosti. Na zaklade toho pak sestavime algortmus.. pri nem se snazime popsat nejaky system podle jeho volnych parametru, strupnu volnosti... Rekneme si, ze chceme klasifikovat nenamy vzorek na nekolik predem znamych skupin.. pro ty si pripravime metriku.. tedy funkci, ktera dava pro hodne podobne veci malou hodnotu a pro velke odlisnosti velkou.. pak si nahodne vezmeme parametri a klasifikujeme.. uzly vlastne odpovidaji lokanim minimum entropie. [Hledani blazaru v SDSS] Ukazka data miningu je bakalarka J.Vazneho... hledal blazary v SDSS. Pokud se podivame do jetu tryskajiciho z cerne diry uprostred nejake aktivni galaxie, pak uvidime prave blazar. Opticky se jevi, jako hvezdicka se power-law spektrem prakticky bez car. SDSS je projekt prohlizejici oblohu pomoci 2.5m dalkohledu a provadejici presnou astrometrii, fotometrii a spektroskpiii objektu. Vsechna data jsou volne dostupna na analyzu. Pricemz urcite zpredspracovani objektu a klasifikaci uz delaji v samotnem Sloane. Klasifikace blazaru je zalozena na myslence toho, ze vetsina objektu ma spojite spektrum ruzne ohnute a vyskytuji se v nem sp. cary. Proto byla vzata skupina znamych blazaru, galaxii a hvezd, prolozene primky vsemi typy spekter a to bylo vzate jako zakladni skupinay klasifikaci algoritmem rozhdovaciho stromu. Vysledkem bylo overeni asi 660 objektu z kontrolni skupiny s asi 92% uspesnosti. Za pomoci takto nauceneho klasifikatoru se pak podarilo v SDSS najit 6 neznamych objektu, podrobnejsi pruzkum literatury ale ukazal, ze se jedna uz o dva zname kvasary, tri bile trpesliky a jeden nedavno objeveny blazar. Verunka je jednoduche oznaceni autoa pro jednotlive objekty, peky priklad prirozeneho lidskeho klasifikovani. Hledání nových objektu na zaklade uz znamych charakteristik patri k zakladnim pouzitim data miningu a je primou analogii k ryzovani. Definujeme si, jak vypada nase zlato, a pak uz jen katrujeme a katrujeme... Kolegovi Vaznemu uvizlo v panvi tech set objektu ... nastesti se nenechal zlakat data miningem a overil, ze to sice vedlo na objev, ale uz nezase tak neznamych objektu. [Jak ziskavat data] Predchozi bakalarka byla zalozena na moznosti pristupu k datum. Prozkoumejme ted moznosti jak ziskavat velke mnozstvi dat.... .. v zasade existuje prime pozorovani a pak archivni... Vyhody primeho: * muzeme pozorovat to so chceme * muzeme pozorovat kdy to chceme Nevyhody primeho: * musime na to mit vhodny pristroj (= prachy) * je mozne, ze se vysledku nedozijeme Vyhody archivniho: * je ihned k dispozici ve velkem mnozstvi * data jsou zpracovane Nevyhody * musime vyuzivat (duverovat) pozorovani nekoho jineho, casto zamerene na neco jineho [Co by se nam hodilo] Data: * snadno dostupna - nelze slozite posilat postou, jezdit tam s flashkou, slozite licencni podminky * predzpracovane - obvykle jen osazenstvo prislusne obseravtore vi, jak spravne zpracovat data bez systemstickych efektu * ve standarnim formatu - format je zpusob, jak ulozit data v poc. systemech, takze v nejakem predem predepsanem poradi a tvaru * v standarnich velicinach - je nutne vse peclive kalibvrovat, na bezne fyzikalni veliciny, nebo aspon na konvencne pouzitelne [Virtualni observator] VO je prave zhmotneni predchozich napadu do praxe. VO je neco jako vedecky internet pro astronomy. Jde tedy o zprostredkovani pristupu k digitaizovanym datum tak, aby si v nich mohl kazdy snadno vyhledavat, zpracovavat, pouzivat je ke sve praci nebo snadno udelat cokoli co ho napadne. jeste jednoduzsej receno... urcita verze vyhledavace, programu atd urcena pro astronomy. Protoze VO je virtualni, neni to nic hmotneho.. spise kombinace dat s algoritmy na jejich zprustupneni, neexistuje neco jako obrazk VO... Myslenky vedouci k VO byly zpocatku bibiograficke, zprostredkovani literatury (ADS) nebo astronomickych katalogu nekdy jeste v min. tisicileti. Postupne se ale ukazalo, ze prace s katalogy je pomerne dost obtizna.. prikad na Veron-Cetty? Podle PS: zucastnil se roce 2000 konference, kde uz se VO brala jako hotova vec.. ovsem tomu predchazelo setkani predstavitelu dat center, kde to vlastne asi dohodli [Schema VO] Na pochopeni struktury je videt z obrazku: * horni vrsvta -- astronom objevuje, pocita.. publikuje... * k tomu vyuziva sadu programu -- Aladin, Topcat, .... * ty jsou jen neco jako bryle, pomucky, ruce ve virtualnim svete na pouziti dalsiho.... * spojuji se k dalsim pocitacum -- serverum -- ktere delaji hrubou praci: prohlizi archivy, prevadi data z nesmyslnych tabulkek na normalni pismeka, provadi pripadne pred-zpracovani atd... * z dat ulozenych na discich, paskach, flashkach,... [Obrazkový formát - FITS] Historikcky prvni krok k predavani dat byl ucinen jeste pred tim, nez byl do Unixoveho jadra implementovany site (pred 30 lety). Byl jim standard na vymenu obrazovych dat mezi radiastronomickymi obseravtory - FITS. Navrh a pozdejsi modifikace jsou skutecne genialni, umoznuji ukladat data bez omezeni rozsahu, s jednotkami atd.. takze dalekoh predci bezne pocitacove obrazkove nebo tabulkove formaty. V posledni dobe se podobne informace daji ukladat i do EXIF infomaci nekterych grafickych formaru. [VOTable] Na vymenu dat pri pouziti modernich zpusobu se pouziva VOTable. Coz je v podsatte text s urcitou strukturou. Priklad: * struktura - znacky vs. data * popis vyznamu dat - typ, vyznam pro astronomii * snadne ziskani * rozdil oproti jednoduche tabulce #[Vymena dat ve VO - pristup přes URL] #Kupodivu klasicky jako u ostatnich internetovych sluzeb. #[Komunikacni protokoly] #Co je to protokol? - stejny vyznam jako u Gutha Jarkovskeho #cili predem smluvena forma komunikace [Porovnani klasicky vs. VO] [Pokrocile uziti VO] * Mapa vlastnich pohybu -- uhlovych ryschlosti -- hvezd nasi galaxie sestavena z SDSS. Uz nekdy na zacatku stoleti se podarilo odhalit nekolik hvezdny proudu... nejzajimavejsi je asi monoceros stream nebo mozna ring... rika se, ze je nekolikrat obtoceny kolem nasi galaxie a pravdepodobne pochazi ze srazky a pohlceni nejakeho mensiho souputnika. Barva znaci vzdalenost hvezd, hustota pak pocet hvezd. Objev novych spoutupniku... trpaslicich galaxii ani nezminuju. * Metody vlastne ale na to pouzili stejne, jak o nich mluvime i veliciny co se sledovali hsou stejne. Jen bylo potreba vybrat hvezdy majici vektor rychlosti jednim smerem a vymazat ty s naohdnymi smery. Slo totiz o to, ze tech nahodnych je neporovnatelne vic. Tedy klasicky pripad ryzovani. [VO - shrnuti] VO: * je vlastne dalsi druh pristroje * v nasi metafore je to reka, koryta, ... infrastruktura .. * my ji musime dobre ovladat protoze jinak nic nevytezime * pokud rozvijime analogii dal: pak klasicke pozorovani ustoupi virtualnimu (coz plati i vsechn druzicich uz ted), tak jak ustouplo ryzovani katrum... [Semantika] * unifikace nazvu a dat.. napriklad vlastni pohyb vs. uhlova rychlost [CZVO] * PS prisel s myslenou nasi narodni VO, * nabidly by jsme celosvetove komunite jak nejaka data tak sluzby * v soucasne dobe funugje O. archiv spekter, rozhrani ke korelu * my planujeme zamereni spise na metody (data mining), vyvoj metod a software [VO na Monteboo] * v soucasne dobe pripravuju konverzi naseho stareho CCD archivu do podobny VO, musi se udelat rezijini akce + astrometrie vsechny snimku (podminka kalibrace je nutna, idealne i fotometricka), kalibrace bude opet s pomoci VO (kalibracni hvezdy), resim otazku jestli to udelat staticky (jednou pro vzdy) nebo generovat kalibrace on-the-fly jak to delaji treba u HST/SOHO/.. * pokud by byla konverze rozume uspesna a proveditelna, snazili by jsme se k podobne VO-nifikaci presvedcit i dalsi pozorovatele * soukromi dat - absolutne nepodstatne, priklad s nasim archivem, jeden pripad za 5 let... [VO pro Munipack] * s tim souvisi i podporad VO v Munipacku * centrum M87, s jetem .. nadvsetelne pohyby * snimek z HST, rok 1996, 14 tisic sec, ziskano z FTP * relativne surovy snimek * obrazek ukazuje FITS format.. je videt hlavicka, zobrazena jsou data * vidime dobre okalibrovany FITS v souradnisich * obrazky z HST maji i fotometrickou kalibraci * podpora VO je dulezita pro automatickou kalibraci snimku (foto+astro) * multispektralni analyzu [Epitaf - J.Raskin] * otec Apple MacIntos, jeho myslenky vydelavaji firme i po 30ti letech, razil myslenku, ze pocitace nemaji byt pocitace ale spotrebice, coz dneska v iPodech, iPhonech a iTabletech je spleno dokonale * pri navrhu GUI zastaval nazor, ze by mel byt obrazem neceho co clovek zna, kniha - policky - knihovna (usporadani skladeb v iPodu). * rikal, ze uzivatel prijme dobre neco co zna a pak to intuitivne pozuiva, v zadnem pripade to nesmi uzivatele nasrat, jinak si to nekoupi * proto rozvinul myslenku metafor, toho ze vyuziva podobnosti a analogie se znamymi vecmi, to jsem pouzil i ja pri rizovani, okamzite bylo jasne ze se musime zajimat o urcite tipy veci, co je dulezite a co zrdane, jinak by asi nic nevysvetlil, napriklad od zacatku bylo jasne, ze nemuzeme pouzivat hrubou silu v podobne bagru, protoze ten sice nabere tuny materialu, ale to zlato v nem urcite neziska... * otazka je, jestli by se pri vysvetlovani fyziky nemelo postupovat podobnym zpusobem, prijde me, ze ucebnice fyziky a pristup fyziku je v tomhle pripade zcela spatny a ze pouziti metafor a analogii na to co muz z ulice zna by mohlo zmenit nazirani lidi na fyziku jako takovou, mozna je to prave videt na zajimave fyzice i kdyz je otazka jestli to neni spis zajimavym fyzikem.. takze by mozna zajimava metafyzika byla uspesna taky..