W poprzednim wpisie (o metadanych) opowiadaliśmy o tym, jakie znaczenie mają tego rodzaju informacje, jeśli chodzi o odtworzenie kolejności wydarzeń, ujawnienie związku pomiędzy pojedynczymi faktami itd. Podaliśmy również przykłady programów, które umożliwiają odczyt metadanych z plików różnego formatu. Programy te są wyjątkowo łatwe w obsłudze i dostępne dla każdego w sieci Internet. Niestety, jak się okazuje, metadane to nie jest tylko teoria. Otóż parę dni temu grupa naukowców z Uniwersytetu w Grenoble opublikowała wyniki badań nad danymi umieszczanymi na stronach służb specjalnych w kilkudziesięciu krajach zarówno Unii Europejskiej jak i państw spoza Unii. W abstrakcie artykułu widzimy następujące informacje:
„Organizacje [rządowe] coraz częściej publikują i udostępniają w formie elektronicznej dokumenty, takie jak pliki PDF. Niestety większość organów nie zdaje sobie sprawy z tego, że dokumenty te mogą zawierać informacje poufne, takie jak nazwiska autorów, szczegóły dotyczące systemów operacyjnych czy też architektury sieci komputerowych. Tego rodzaju dane mogą być wykorzystane przez hakerów, które dysponując tymi informacjami, są w stanie przeprowadzić pewnego rodzaju profilowanie i znaleźć „słabe punkty” w danej organizacji [chodzi tu o pracowników/funkcjonariuszy, którzy korzystają z przestarzałych wersji systemów operacyjnych czy wykazują niekompetentność w zakresie informatyki]. W artykule analizujemy ukryte dane znalezione w plikach PDF opublikowane przez organizację rządowe [służby specjalne]. Przebadano łącznie 39 664 plików PDF opublikowanych przez 75 służb specjalnych w 47 krajach. Udało nam się zmierzyć jakość i ilość informacji ujawnionych w tych plikach PDF. Zidentyfikowaliśmy tylko 7 agencji bezpieczeństwa, które oczyszczają kilka swoich plików PDF przed publikacją. Niestety, nadal byliśmy w stanie znaleźć poufne informacje w 65% tych oczyszczonych plików PDF. Niektóre służby używają słabe techniki sanityzacji [chodzi o techniki usuwania metadanych z umieszczanych na stronie dostępnej publicznie plików]”.
Spróbowaliśmy powtórzyć doświadczenia francuskich kolegów. Nie wdając się w szczegóły, udało się nam zobaczyć metadane [wrażliwe!] w przypadku większości plików dostępnych do pobrania na oficjalnych stronach internetowych wiodących służ polskich (Rysunek 1). Z ciekawości sprawdziliśmy oficjalne strony niektórych służb niemieckich, wynik jest taki sam. Podobnie tez jest w przypadku Rosji.
Każdy z Państwa może powtórzyć te doświadczenia korzystając z programów, o których pisaliśmy.
Informacje o tym artykule jako pierwszy podał na swoim blogu Bruce Schneier.
Metadane są najczęściej definiowane jako dane o danych (a set of data about other data). Nie jest to jednak definicja prawidłowa. Tak naprawdę, ze względu na różnorodność danych, które możemy zaliczać do metadanych, nie da się wypracować definicji uniwersalnej. Łatwej jest natomiast wymienić najczęściej spotykane rodzaje metadanych. Do tej kategorii zaliczamy m. in. nagłówki emailów, dane EXIF w plikach graficznych, dane o autorach, dacie utworzenia, modyfikacji i ostatniego dostępu w przypadku plików MS Word. Metadane znajdziemy również poza światem cybernetycznym. Na przykład, nazwa, obrazek na stronie tytułowej książki to są metadane. Mapa drogowa w nawigacji samochodowej to są metadane – dzięki nim lepiej radzimy sobie z obiektem bardziej skomplikowanym (teren realny).
Metadane pełnią różne funkcje, z których główną jest identyfikacja, opis danych [podstawowych] i ułatwienie procesu korzystania z tych danych. W systemach komputerowych metadane plików dzielą się na dwie grupy – metadane aplikacji, programu oraz metadane systemowe. Mówiąc w uproszczeniu, te pierwsze są przekazywane razem z plikiem do nowej lokalizacji, na przykład, za pośrednictwem emailu lub serwisu społecznościowego. Metadane systemowe pozostają, natomiast, w pamięci komputera, na którym utworzono (modyfikowano) dany plik cyfrowy – są to m. in. zapisy w MFT, czyli Master File Table.
W zależności od rodzaju pliku, zawartość metadanych „dodawanych” przez aplikację, program, może być różna. W przypadku plików MS Word w metadanych znajdziemy informacje o dacie utworzenia, modyfikacji i ostatniego dostępu do pliku, o autorze (autorach w przypadku, kiedy plik był modyfikowany przez różne osoby), wersji Worda, czasie pracy z danym plikiem, liczbie słów.
Tego rodzaju dane mogą okazać się pomocne na przykład w sytuacji, kiedy chcemy ustalić kto stworzył dany dokument i kiedy. Dodatkowo w plikach .docx znajdziemy dane o rodzaju systemu operacyjnego, jego wersji, dacie ostatniego drukowania dokumentu (Rys. 3).
W kryminalistyce cyfrowej częściej pojawia się jednak potrzeba ustalenia autentyczności plików graficznych – .jpg .bmp itd. W sprawach karnych może to być dowód sprawstwa (w przypadku plików-zdjęć pornograficznych ukazujących osoby nieletnie, zdjęć narkotyków zrobionych przez „handlarza” narkotykami w sieci Dark Web itd.) lub dowód przemawiający na korzyść obrony (w przypadku tzw. alibi cyfrowego). W sprawach cywilnych podobnego rodzaju dowody pojawiają się, na przykład, w sprawach patentowych – ustalenie pierwszeństwa, jeśli chodzi o wynalazek, sprawach rodzinnych, spadkowych. Można znaleźć i inne zastosowanie tego rodzaju danym. Na przykład, mamy zdjęcie, którego „twórcę” znamy (zdjęcie nr 1) oraz zdjęcie, którego „twórcę” nie znamy (zdjęcie nr. 2), ale potrafimy rozpoznać miejsce, gdzie zostało zrobione. Porównując metadane obu zdjęć ustalamy, że zdjęcie nr 2 zostało wykonane najprawdopodobniej przez tą samą osobę. Zbieżność metadanych w tym przypadku pomoże nam ustalić, kto jest „autorem” zdjęcia nr 2 oraz gdzie się znajdował, w czasie, kiedy było zrobione zdjęcie nr 2 – informacje te nie były dostępne na początku, wydedukowaliśmy to analizując i porównując metadane obu zdjęć (Rys. 4).
Metadane tego rodzaju plików można zobaczyć przy pomocy narzędzia o nazwie ExifTool od Phila Harvey’a – jest to najstarsza tego rodzaju aplikacja dostępna w Internecie.
ExifTool pozwala na przeglądanie oraz modyfikację dowolnych metadanych w plikach graficznych. Za jego pomocą można również przeglądać metadane w innych rodzajach plików – .pdf .docx itd.
Najprościej jest ściągnąć wersję Windows Executable. Rozpakowujemy archiwum i korzystamy z programy po prostu przeciągając pliki na ikonkę z wielbłądem (Rys. 6).
Jakiego rodzaju metadane możemy zobaczyć? Rodzaj sprzętu, na którym wykonano zdjęcie, jego model seryjny, data utworzenia, modyfikacji i ostatniego dostępu, koordynaty geograficzne miejsca, gdzie wykonano dane zdjęcie, dane techniczne (Rys. 7).
Analizując metadane plików zdjęciowych należy pamiętać o tym, że mogą one być łatwo zmienione – przy pomocy na przykład ExifTool. Istnieje kilka metod weryfikacji autentyczności plików zdjęciowych:
1. Zwracamy uwagę na to, co widzimy na zdjęciu – czy to, co widzimy na zdjęciu jest zgodne z tym, co widzimy w metadanych pliku (czy zgadza się pora roku, dnia, czy widać inne szczegóły, które pomogą ustalić, gdzie, w którym miejscu oraz kiedy wykonano przedmiotowe zdjęcie – rys. 8).
2. Analizujemy zgodność wewnętrzną metadanych. Należy pamiętać o tym, że data utworzenia pliku może być „starsza” lub „młodsza” od daty jego modyfikacji – te ostanie zdarza się w sytuacji, kiedy plik jest kopiowany do innej lokalizacji, do innego folderu – system operacyjny oznacza taki plik jako „nowoutworzony”, odpowiednio zmienia się też data utworzenia pliku. Bardziej stabilną jest data modyfikacji pliku – żeby ta data się zmieniła, plik musi być podany gruntownej modyfikacji – nie wystarczy, na przykład, tylko zmienić jego nazwę, trzeba zmienić zawartość (w przypadku zdjęć, na przykład, przy pomocy Photoshopu – rys. 9).
3. Analizujemy i porównujemy metadane w plikach eksperymentalnych – plikach wykonanych przy pomocy tego samego sprzętu
4. Analizujemy metadane systemowe, ich zgodność z metadanymi aplikacji zawartymi w pliku – warunkiem jest uzyskanie dostępu do komputera, na którym dany plik był otwierany lub zmieniany.