powrót

Modelowanie nie zna granic, czyli co się stanie, gdy zniknie Facebook

W tym roku mija 20 lat od uruchomienia waszego najpopularniejszego serwisu, meteo.pl. Dlaczego matematycy i informatycy zdecydowali się prezentować w sieci prognozy pogody?

ICM od samego początku nie był ani ściśle matematyczny, ani informatyczny. Staraliśmy się bardzo poważnie traktować założenie interdyscyplinarności. W skład zespołu tworzącego ICM wchodzili ludzie reprezentujący bardzo różne dyscypliny. Nie chcieliśmy być jedynie centrum obliczeniowym, a centrum nauk obliczeniowych, które realizuje różne serwisy na rzecz nauki. Potem się okazało, że pochodną stały się serwisy dla całego społeczeństwa. Naszym założeniem od początku było zobowiązanie, że tworzymy możliwość korzystania z dużych obliczeń zespołom naukowym z całego kraju. Wśród tych zespołów były takie, które chciały wprowadzić nowy poziom numerycznego prognozowania pogody. Ale też serwis meteo nie był naszym pierwszym serwisem o tak dużym odbiorze. Wcześniej był SunSite uruchomiony w 1995 roku - pierwsze w tej skali i przez jakiś czas jedno z największych w Europie repozytoriów, udostępniających otwarte oprogramowanie. I mam wrażenie, że przyczynił się do wzrostu popularności używania legalnego oprogramowania w Polsce.

Ale to meteo stało się na długo wizytówką ICM.

W 1997 roku zdarzyły się dwie rzeczy: powódź i, powiedzmy delikatnie, niedoskonała jej osłona meteorologiczna. Wtedy uświadomiliśmy sobie, że dysponujemy narzędziami, które umożliwiają skuteczniejsze prognozowanie. I właśnie wtedy, kiedy zaczęła się powódź, uruchomiliśmy, z projektu realizowanego wewnętrznie, serwis meteo. Niemal natychmiast zaczęło z niego korzystać ówczesne krajowe centrum zarządzania kryzysowego. Prognozowanie pogody było wtedy działalnością o dość zamkniętym charakterze, a my od samego początku zaczęliśmy propagować to, co się nazywa modelami otwartymi. Model meteo, który otworzyliśmy w czasie i z powodu powodzi, stał się otwartym serwisem pogodowym. Chcieliśmy, żeby dostęp do jak największej ilości informacji był otwarty, nieograniczany przez żadne filtry instytucjonalne. Żeby wiedza i praca naukowców była udostępniana każdemu, kto ma dostęp do internetu.

Wtedy dostęp do internetu był mocno ograniczony.

Ale już wtedy przewidywaliśmy, że niebawem będzie powszechny.

No tak, w pewnym sensie historia internetu w Polsce, to historia ICM.

Ale to nie my byliśmy pierwsi. Początek internetu w Polsce to końcówka lat 80. ICM powstał w 1993 roku. Mogliśmy skorzystać z możliwości stworzonych przez innych. Ale jednocześnie braliśmy bardzo intensywny udział w tworzeniu całości zupełnie nowego rodzaju infrastruktury informatycznej nauki, bazując na tym, że bardzo wiele serwisów i działalności można wykonywać w systemie sieciowym, bez konieczności lokalizowania wszystkiego w określonym miejscu.

W 1996 roku w ramach dość szalonego przedsięwzięcia udało nam się uruchomić taki serwis dla jednostek badawczych. Wtedy światowym liderem oprogramowania do modelowania biomolekularnego i materiałowego była amerykańska firma BioSym. Zamiast kupować od nich pojedyncze moduły oprogramowania - umówiliśmy się, że uruchomimy cały, kompleksowy system, ponad sto modułów, jako system obliczeniowy udostępniany wszystkim łączącym się z nami instytucjom naukowym w Polsce. W tych czasach nikt jeszcze nie mówił o gridzie czy pracy w chmurze, a to była istota naszej konstrukcji, dzisiaj model powszechnie stosowany.

Minęło 20 lat, a ICM nadal wyprzedza rzeczywistość.

Często o tym mówię. Ostatnio modnym pojęciem stało się zapewnienie dostępu do sieci tzw. obszarom ostatniej mili, czyli miejscom i ludziom, do których dostęp sieci i usług chmurowych tradycyjnymi, komercyjnymi metodami był do tej pory nieopłacalny. Ale to reprezentuje wyłącznie perspektywę użytkownika. W rzeczywistości nie da się stworzyć żadnej chmury bez zapewnienia odpowiedniej infrastruktury, która będzie w stanie udźwignąć takie usługi. Chmura paradoksalnie nie jest tworem, który zapewnia decentralizację usług. Oznacza przesunięcie środka ciężkości, ale oznacza również tworzenie mocno scentralizowanych infrastruktur, wykonujących te usługi. Dlatego często powtarzam, że naszym głównym hasłem, powinna być dziś strategia rozwoju pierwszej mili. I to jest dla nas podstawowe wyzwanie, bo na razie akcenty są przesunięte w stronę, która zawiera pewne niebezpieczne uproszczenia. Dla wielu to kusząca idea, że bez konieczności ponoszenia kosztów własnej infrastruktury, bez szerszej wiedzy i kompetencji można korzystać z magicznej oferty chmur.

Ale takie rozwiązania próbowano już wprowadzać: terminale komputerowe bez własnych dysków, korzystające tylko z aplikacji dostępnych na serwerze. Nie przyjęło się.

Odpowiedź jest prosta - na drugim końcu musi być punkt, w którym jest możliwość zrealizowania potrzebnych zadań. Jeżeli przeskoczyliśmy te 20 lat, to jest coś, co uświadamiamy sobie: ICM chce być takim ośrodkiem pierwszej mili. Bo nie możemy mówić o konkurencyjności, jeżeli się polega na usługach świadczonych przez nawet najlepsze podmioty komercyjne. Bo uzależniamy się od ich możliwości i kompetencji.

Czyli „co będzie, kiedy zniknie Facebook”.

To jeszcze jeden temat. Ale ja od dawna sobie uświadamiam, jak bardzo złudne są różne skróty myślowe, oferowane przez komercyjne serwisy, które nie wymagają od nas żadnego refleksyjnego podejścia. Zakładanie, że można polegać na serwisach realizowanych w układzie międzynarodowym może się okazać niemiłym złudzeniem, kiedy, oby to nie nastąpiło, zostanie przerwana ciągłość tych serwisów.

Scenariusz katastroficzny?

Tu już nie rozmawiamy o działalności hipotetycznych instytucji naukowych. To jest jedno z wyzwań strategicznych, które powinno być przedmiotem troski na poziomie każdego państwa.

ICM to również, a może przede wszystkim praca na wielkich ilościach danych. To, co się nazywa big data.

Tak, to jedna z tych dziedzin, która robi karierę, choć może na początku nieuświadomioną, od połowy lat 90. Rzecz łączy się z eksplozją internetu i z wielką rewolucją otwartości. Do pewnego momentu dane były przedmiotem szczególnej troski i ochrony przed jakimikolwiek zewnętrznymi użytkownikami. Tak było choćby ze względów militarnych. Teraz mamy rewolucję - rozwój technologii, dostępność internetu i nową jakość, jaką można było uzyskać przy wykorzystaniu odpowiednio bogatych źródeł i zasobów danych, dla wydobycia informacji i zbudowania określonej wiedzy. To jest uzasadnienie roli przypisywanej wielkim danym (big data), które pozwalają w sposób nieprzewidziany, wręcz niemożliwy w przeszłości, kojarzyć często odległe efekty i wyłapywać prawidłowości na poziomie, na którym w sposób lokalny to nie byłoby możliwe. To w szczególności możliwość wyłapywania, jeszcze wtedy w sposób śladowy, sygnałów o wystąpieniu różnego typu zjawisk anomalnych, czy kryzysowych.

W końcu uświadomiono sobie, że data science, czyli nauki o danych stanowią podstawę, która odgrywa zupełnie fundamentalną rolę dla wszystkich obszarów nauki. To zupełnie inna metodologia niż w naukach ścisłych czy przyrodniczych. Ona nie sięga w prawa fizyki, wiedzę chemiczną czy biologiczną. To jest wyłapywanie prawidłowości na poziomie samych danych. Oczywiście wymaga to kompetencji na poziomie określonej dziedziny naukowej, ale również oznacza, że pojawiają się zupełnie niedostępnie jeszcze niedawno możliwości. Z tego tytułu w ostatnim dziesięcioleciu fascynacja big data stała się zjawiskiem kulturowym. Ale w ślad za tym nastąpił gwałtowny rozwój dziedzin związanych z wydobywaniem informacji z dużych danych. To wszelkiego rodzaju metody heurystyczne, czy metody sztucznej inteligencji, uczenia maszynowego - jak kto to chce nazywać, które nie są metodami tradycyjnej nauki. Bardzo często bazują na uogólnieniach, czy przybliżonych podejściach, czasem intuicyjnych, nieuzasadnionych ściśle w rygorystycznych formułach. Ale pozwalają wydobyć zupełnie nieoczekiwane prawidłowości. Ogólny kierunek jest taki: analiza danych otwiera nowe możliwości, ale jeśli się te możliwości wbuduje w obecne możliwości obliczeń, to pojawia się szansa na podejmowanie problemów o skali złożoności, która chwilę temu była niewyobrażalna. To nie tylko identyfikowanie zagrożeń ale też planowanie procesów, które mogą mieć znaczenie strategiczne, czy też czasami realizacja zadań, które całkiem niedawno nie były jeszcze uświadomione.

A jakieś przykłady?

Takim przykładem, który stanowił dla nas motyw przewodni przy tworzeniu koncepcji naszego nowego centrum technologii, jest przyszła inteligentna energetyka z istotnym udziałem źródeł odnawialnych, gdzie odbiorca bywa również producentem energii. W takiej energetyce z jednej strony jest potrzeba ogromnego przetwarzania danych na poziomie i użytkowników, i producentów, z drugiej tę wiedzę trzeba skonfrontować z wiedzą innego typu - tu wrócimy do naszych korzeni - taką podstawową wiedzą jest znajomość prognoz zjawisk atmosferycznych. Ekstremalnie precyzyjne prognozowanie pogody jest warunkiem niezbędnym do tego, by w sposób zoptymalizowany najpierw budować a potem zarządzać przyszłą generacją sieci energetycznych. To jedno z największych zadań i wyzwanie dla takich centrów jak nasze, ponieważ to naprawdę wielkie dane, które trzeba odbierać i przetwarzać niezwykle szybko i tworzyć prognozy czy reguły operacyjne prawie natychmiast, bo inaczej stracą one wartość.

Nowa generacja centrów takich jak ICM będzie odgrywała niezwykle istotną rolę w przetwarzaniu i innych operacjach na wielkich danych. Ale będzie to połączone z realizacją obliczeń, których zastosowania będą miały znaczenie krytyczne gospodarczo i strategicznie.

I tak od sprawdzenia pogody przed spacerem przechodzimy do bezpiecznej działalności szpitali, czy telefonii komórkowej.

Przyszłe racjonalne zarządzanie takimi strukturami jak sieci energetyczne, choćby w oparciu o realizację takich marzeń jak te o samochodach elektrycznych, staje się ogromnym wyzwaniem, które bez ciągłego przetwarzania i analizy danych nie będzie możliwe.

Wielkie dane to nie tylko obliczenia, analizy i prognozy ale też wizualizacje. I to też jest specjalność ICM.

Kiedy ICM powstawał, mieliśmy w naszym składzie ludzi, z którymi powiedzieliśmy sobie, że wyniki wielkich obliczeń znacznie łatwiej czasem przyswoić, jeśli się je pokaże w formie wizualnej. Od początku istnienia ICM rozwijamy zatem własne rozwiązania wizualizacyjne. Przez ponad 20 lat w ICM powstała ogromna platforma wizualizacji danych, dająca również możliwość modelowania wizualnego. To jeden z etapów analizy danych, na którym informacje zawarte w danych, przedstawiane są w postaci wizualnej. Warto zaznaczyć, że często jest to najskuteczniejsze podejście, pozwalający ogarnąć sens tej informacji.

Animacje i wykresy czytelne dla każdego?

Można je zobaczyć na naszej stronie: www.icm.edu.pl . Stosunkowo niedawno realizowaliśmy badanie dotyczące scenariuszy rozprzestrzeniania się wirusa zika w związku z olimpiadą w Rio de Janeiro. Pokazujemy jedynie sygnalny obrazek, natomiast było to duże wyzwanie analityczne. Zrealizowaliśmy również cały szereg projektów, które dotyczyły modelowania scenariuszy rozprzestrzeniania się różnego rodzaju epidemii, na przykład gryp - ptasiej, czy świńskiej. To były projekty odnoszące się do skali światowej, ale można je zredukować również do skali krajowej, co zrobiliśmy szeroko posługując się rozwiązaniami wizualizacyjnymi jako wspomaganiem analityki. Można dzięki nim w szczególności prześledzić jakich, przy pojawieniu się ogniska epidemii, należy spodziewać się głównych ścieżek rozprzestrzeniania epidemii w skali kraju i gdzie podejmować działania, żeby tej propagacji epidemii skutecznie zapobiec.

Przeciętnemu użytkownikowi internetu ICM kojarzy się z prognozami pogody, tymczasem wasza działalność przypomina swoim rozmachem działalność NASA.

To ogromna przesada, bo rozmawiamy o niewspółmiernych skalach działalności I nieporównywalnym statusie instytucji. Tym nie mniej warto może odnotować, że jak dotąd rozmawialiśmy zaledwie o niewielkim fragmencie działalności ICM. A nie dotknęliśmy naszego największego projektu, również realizowanego od 20 lat. Tym projektem jest tworzenie tego, co nazywamy wirtualną biblioteką nauki. To jeden z największych w skali międzynarodowej systemów udostępniania zasobów publikacyjnych. To największe w Polsce miejsce dostępu do światowej literatury naukowej, w którym co roku pobierane jest kilkanaście milionów artykułów, rozdziałów, czy całych książek. Samych czasopism naukowych mamy ok. 10 tys. tytułów. Ten system jest od wielu lat jedynym, spójnym dla całej nauki miejscem dostępu do literatury światowej dla wielu obszarów badawczych. To przedsięwzięcie realizujemy w imieniu Polski, dla całej społeczności akademickiej. Kiedy zaczynaliśmy tę bibliotekę budować, jednym z zupełnie nietypowych na owe czasy elementów było, że my te zasoby na naszych serwerach, na podstawie licencji umieszczamy i mamy możliwość ich masowej analizy. Czyli znów wchodzimy w obszar big data.

Pojedynczy użytkownik odwiedza nas i pobiera, powiedzmy, jeden tekst. Ale ten sam użytkownik chce, żeby wstępna analiza miejsc, które mogą być dla niego atrakcyjne, została wykonana automatycznie. Znów wchodzimy w obszar głębokiej analityki, a to jest obszar, którym ICM zajmuje się od ponad 10 lat.

Czyli biblioteka ze zdecydowanie ułatwionym wyszukiwaniem.

Biblioteka wirtualna jest połączona ze stworzoną przez nas platformą, na której jest udostępniane ponad 800 tytułów polskich czasopism naukowych i na której przyjmujemy od autorów książki, które są skłonni udostępniać. A zaczęło się od tego, że w 2000 roku najcenniejszy polski zasób naukowy, jakim jest zbiór polskich wydawnictw matematycznych, przenieśliśmy na platformę cyfrową. Teraz staramy się, wszędzie tam, gdzie to możliwe, udostępniać te zasoby w modelu otwartym, nielimitowanym. Oczywiście tam, gdzie są licencje - musimy się do nich stosować, ale w tej chwili każdy pracownik czy student polskich instytucji naukowych I akademickich ma dostęp do tej biblioteki.

I to jest przedsięwzięcie, które zaczęliśmy realizować... z biedy, z braku wystarczającej liczby egzemplarzy książek w bibliotekach akademickich. Tymczasem wyrosła nam z tego potężna i renomowana konstrukcja, która w wielu krajach uważana jest za rodzaj referencji.

Pogoda, biblioteka, epidemie, energetyka...

Nasze działania są bardzo rozległe, poczynając od analizy danych, poprzez działania związane z badaniami medycznymi, szerokie działania związane z modelowaniem i projektowaniem materiałów i mógłbym wymieniać kolejne dziedziny jeszcze długo. To pokazuje, jak wygląda nasz model funkcjonowania, w którym jesteśmy otwarci na partnerskie współdziałanie. Od drugiej strony oczekujemy kompetencji dziedzinowej, rzeczywistych potrzeb w zakresie dużego modelowania i analityki. My sami mamy jedynie ograniczone możliwości, realizacyjne, chociażby z uwagi na konieczność zagwarantowania niezbędnych źródeł finansowania. Bez tego m.in. nie ma możliwości utrzymywania składu rezerwowego, z którego można korzystać w dowolnej chwili. Do tego dochodzi ogólna kondycja naszego systemu nauki, który w obecnym momencie jest bardzo silnie, żeby nie powiedzieć wyłącznie, projektowy. To przekłada się na sprzeczność strukturalną z podejmowaniem jakichkolwiek działań trwałych. I to nas sprowadza jeszcze raz do meteo.pl, bo prowadzenie przez te 20 lat naszego serwisu meteorologicznego wynika wyłącznie z naszej woli i uporu, a nie z tego, że na meteo otrzymujemy środki, które pozwalałyby nam to bezproblemowo realizować.

W racjonalnym modelu funkcjonalnym dane powinny być tylko informacją początkową, wykorzystywaną w praktyce.

Ba, ta część naszej działalności dostępna publicznie, to w istocie jest dodatek. Natomiast główny obszar, gdzie dane wynikowe naszego prognozowania są wykorzystywane, to są zastosowania gospodarcze, czy decyzyjne.

Idealnie byłoby, gdyby polska energetyka zechciała wykorzystać te wasze możliwości.

Od kilku lat uporczywie staramy się pokazać, jakie to daje możliwości właśnie sektorowi energetycznemu.

Uniknęlibyśmy przeciążeń sieci w lecie?

Powinniśmy. Energetyka to temat, który mnie osobiście fascynuje. Gdyby na odpowiednim poziomie był realizowany program energetyki ze źródeł odnawialnych, to sądzę, że akurat w takiej sytuacji jak obecna problemu by w ogóle nie było, bo mielibyśmy do czynienia z nadprodukcją energii. Kilka lat temu zafascynowały mnie możliwości tej energetyki nowej generacji. W moim odczuciu nadchodząca, wręcz nieunikniona rewolucja energetyki jest porównywalna, jeżeli nie mocniejsza od rewolucji internetu, która polegała na tym, że w wirtualnej przestrzeni dotychczasowy odbiorca stawał się jednocześnie twórcą. Bariera między produkcją a konsumpcją została w radykalny sposób obniżona. Ta rewolucja w energetyce również oznacza, że dotychczasowy odbiorca końcowy może być też w znacznej mierze producentem, tzw. prosumentem. I to oznacza, ze siecią będzie trzeba zarządzać jeszcze efektywniej, bo przepływy w takich sieciach będą wyglądały zupełnie inaczej. Osobiście wierzę w to, że przygotowaliśmy takie centrum, które jest w stanie unieść całość procesów związanych ze wspomaganiem na poziomie danych i wspomaganiem procesu decyzyjnego, i że to dla przyszłej energetyki będziemy robić.

I wracamy do pogody.

Oczywiście. To pokazuje, że takie centra w przyszłości nie mogą, i mówię to bardzo kategorycznie, nie mogą działać wyłącznie w obszarze badań naukowych. Dlatego, że to co robimy ma przede wszystkim rzeczywiste zastosowania w skali całego kraju, a nierzadko i międzynarodowej.

Czyli przyszłość ICM w związku z energetyką?

Nie tylko. Musimy wspomnieć o jeszcze jednym obszarze działalności: analizie danych medycznych, a do tego też jesteśmy przygotowani. Przedstawiliśmy już kilka różnych propozycji, jednak na razie nie zostały skonsumowane. Mówię np. o systemie, gdzie danymi wejściowymi byłyby dane kliniczne z całego świata. To zupełnie przewraca obecne możliwości medycyny. Nie mówię tu o sprawach rutynowych. Przecież istotą medycyny jest radzenie sobie z przypadkami osobliwymi, a wiedza na ich temat u lekarza w małym ośrodku na prowincji może czasem nie wystarczyć. Co innego, gdyby miał dostęp do bazy przypadków z całego świata.

Pod warunkiem, że prawidłowo by z nich skorzystał.

To dotyka kolejnego problemu: umiejętności użycia danych. A to już problem edukacji. Nasza dziś jest pod tym względem w całkowitych powijakach. I nie oszukujmy się, transformacja cywilizacyjna jest wciąż jeszcze przed nami.

Ale niektórzy, jak Google, usiłują dostosowywać w jakiś sposób swoje algorytmy do umiejętności potencjalnego użytkownika.

Tak. W jakiś sposób. Ale artefakty, jakie przy zbyt prymitywnych metodach analizy danych powstają, polegają na tym, że obok wielu trafnych wskazań pojawiają się takie, które zupełnie nie odpowiadają wyszukiwaniom. I nie zawsze jest jasne, że to jest wynik przypadkowy. Tak się dzieje przy metodach heurystycznych, nawet jeśli będą nazywanie inteligentnymi. To jest tylko działanie przybliżone. Nigdy nie jest dokładne.

Ale i sam użytkownik musi wiedzieć o co spytać.

I o to właśnie chodzi w edukacji. U nas edukacja w zakresie korzystania z danych niemal nie istnieje.

Tak. Kiedyś w szkole uczono nas jak posługiwać się tradycyjnym katalogiem bibliotecznym. Teraz chyba już się tego nie uczy.

Problem polega na tym, że coraz rzadziej trzeba iść do tradycyjnej biblioteki. Choćby dlatego, że w wirtualnej bibliotece ICM jest kilkadziesiąt tysięcy książek z całego świata, z których wiele może być używanych jako podręczniki. A pamiętamy, że nie tak dawno wiele bibliotek miało po kilka egzemplarzy podręczników, o które wiecznie trwała walka. Dziś nie ma ograniczenia liczby egzemplarzy. To jest absolutna rewolucja. Jeden plik z książką pozwala ją rozprzestrzeniać w sposób absolutnie nieograniczony. To samo dotyczy informacji i danych.

Proszę zauważyć, że w tej naszej rozmowie wędrujemy po kolejnych tematach i obszarach. I to jest chyba najlepsza charakterystyka ICM. Kiedy zaczynaliśmy tworzenie ICM, kiedy na wszystko brakowało środków, przymierzyliśmy się do zadania prawie niemożliwego: bardzo ograniczonymi funduszami doprowadzić do tego, żeby stworzyć warunki nie tylko dla badań ale również edukacji konkurencyjnej w skali światowej.

I udało się.

Tak myślę. Natomiast teraz jest ogromne wyzwanie: osiągnęliśmy poziom, na którym to, co w wielu obszarach robimy, można byłoby w iluś obszarach gospodarki czy funkcjonowania państwa wdrożyć do codziennej praktyki. I na obecnym etapie jesteśmy przygotowani, żeby ten proces wspomóc, a potem niektóre zadania realizować własnymi siłami.

Pozostaje liczyć, że ktoś w ministerstwach przypomni sobie, że mamy taki ośrodek, który świetnie funkcjonuje.

Nie wiem, czy to sprawa na poziomie ministerstw. W ostatnich latach kilkakrotnie dotknęło nas to, co nazywam przekleństwem sektorowości w polskiej gospodarce. Bo ICM nie znajduje się we właściwym miejscu w systemie, w związku z czym nie jesteśmy postrzegani jako naturalny partner czy realizator zadań. Liczę tylko na przełamanie tego przekleństwa struktury biurokratycznej, która powoduje, że między sektorami, nawet w obrębie rządu nie ma możliwości łatwego współdziałania. Tymczasem obszar naszej działalności w naturalny sposób wiąże się z funkcjonowaniem nieograniczonym ramami resortowości. Dla nas te wszystkie bariery są totalnie sztuczne. Zajmowaliśmy się modelowaniem transportu lotniczego na poziomie sieci komunikacyjnej i portów lotniczych, medycyną spersonalizowaną, ba, jednym ze smakowitych zadań, jakie nam kiedyś przypadło, była analiza produkcji wyrobów czekoladowych. I wnieśliśmy bardzo konkretny wkład w przeciwdziałanie „zakwitaniu” czekolady jednego z wielkich producentów. Wcześniej uczestniczyliśmy w projekcie zaproponowanym przez Francesco Illy, założyciela i właściciela illycaffe - chodziło o optymalizację procesu parzenia espresso w jego maszynach. Modelowanie nie zna granic.

 

nasze publikacje poznaj nasz zespół zostań symbolem gala 2013