Νομίζω οτι μέσα απο αυτά τα στοιχεία μας δίνεται μια μοναδική ευκαιρία να παρακολουθήσουμε την ιστορία που περιγράφουν οι αριθμοί και να αναλογιστούμε κάποια μεγέθη και τις επιπτώσεις τους.
Μέχρι όμως να φτάσουμε να μιλάμε για τα μεγέθη και τις πληροφορίες που προκύπτουν μέσα απο τα δεδομένα και να "διαβάσουμε" καθαρά την ιστορία που προσπαθούν να μας πούν, θα πρέπει πρώτα να διορθώσουμε λίγο το "κείμενο" της. Και αυτό είναι κάτι που (δυστυχώς) παίρνει.....λίγο.....χρόνο.
Έτσι στο σημερινό πόστ θα ρίξουμε μια ματιά στην προεργασία που χρειάζεται το αρχείο με τις πυρκαγιές ενω σε επόμενα πόστ θα δούμε τι μας λένε οι αριθμοί.
Το αρχείο με το ιστορικό των Ελληνικών πυρκαγιών είναι διαθέσιμο απο αυτή τη σελίδα. Περιέχει 16 στήλες με τα εξής πεδία: Δήμος (ολογράφως), Περιοχή(ολογράφως), Ημερομηνία Εκδήλωσης Πυρκαγιάς, Ώρα Εκδήλωσης Πυρκαγιάς, Ημερομηνία Κατάσβεσης Πυρκαγιάς, Ώρα Κατάσβεσης Πυρκαγιάς.
Ακολουθούν 8 πεδία που περιγράφουν τον τύπο της καμένης έκτασης σαν: Δάση, Δασικές Εκτάσεις, Άλση, Χορτολιβαδικές Εκτάσεις, Γεωργικές εκτάσεις, Υπόλοιπες Καλλιέργειες (sic) και Σκουπιδότοποι. Η λίστα των πεδίων καταλήγει με τα δύο πεδία του γεωγραφικού μήκους και πλάτους στο σύστημα WGS84. Το αρχείο περιέχει 116074 εγγραφές.
Μια πρώτη απόπειρα να υπολογίσω κάποιες στοιχειώδεις ποσότητες, παρήγαγε κάποια περίεργα αποτελέσματα. Τελικά κατέληξα να αντιμετωπίζω τα εξής προβλήματα, που θα προσπαθήσω να περιγράψω όσο πιο σύντομα και αποτελεσματικά γίνεται:
- Το διαθέσιμο αρχείο με κατάληξη .XLS δεν περιείχε γεωγραφικές συντεταγμένες (μήκος, πλάτος) για ΚΑΝΕΝΑ συμβάν. Αντίθετα, το αρχείο με κατάληξη .CSV (διαθέσιμο απο την ίδια σελίδα και αναφερόμενο στο ίδιο dataset) περιείχε γεωγραφικές συντεταγμένες για τις περισσότερες πυρκαγιές των ετών 2008,2009. Γι΄αυτό το λόγο, αποφάσισα να εστιαστώ στο .CSV αρχείο. Παρεμπιπτόντως, το ποσοστό των πυρκαγιών για τις οποίες έχουν καταγραφεί γεωγραφικές συντεταγμένες είναι 13.7% (Επι του συνόλου των εγγραφών).
- Τα πεδία Δήμος και Περιοχή περιείχαν διάφορους μη επιτρεπόμενους χαρακτήρες. Για παράδειγμα, σε συμβολοσειρές που ορίζοντε απο δύο quotes στην αρχή και το τέλος της συμβολοσειράς, υπήρχαν πολλαπλά. Χαρακτηριστικό παράδειγμα η γραμμή 41948:
ΑΝΤΙΓΟΝΙΔΩΝ;"""Δ.Δ. ΚΕΦΑΛΟΧΩΡΙΟΥ """"ΑΛΙΚΜΩΝΑΣ""""""";
Τον ΑΛΙΚΜΩΝΑ τον παραβλέπω πρός το παρόν...(Για τα ορθογραφικά λάθη θα μιλήσουμε αργότερα). Επίσης, μέσα στη συμβολοσειρά, υπήρχαν χαρακτήρες όπως επιπλέον κενά και tabs. Αυτά δεν είναι φυσικά μη επιτρεπόμενοι χαρακτήρες μέσα σε μια συμβολοσειρά που καθορίζεται απο quotes (") αλλά έτσι κι αλλιώς για να γίνει η απεικόνιση της, θα αφαιρεθούν αυτοί οι χαρακτήρες. Οπότε γιατί να μην λείπουν απο την αρχή; - Το βασικότερο πρόβλημα το έχει η στήλη "Ημερομηνία Κατάσβεσης Πυρκαγιας". Πρίν εξηγήσω αναλυτικά τι συμβαίνει με αυτή τη στήλη θα ήθελα να τονίσω οτι είναι ένα σημαντικό στοιχείο γιατί μαζί με την ημερομηνία και ώρα εκδήλωσης της πυρκαγιάς μπορούμε να υπολογίσουμε τη διάρκεια της, έστω και κατα προσέγγιση. Οπότε, αξίζει τον κόπο να διορθωθεί παρά να αποκοπεί.
Δυστυχώς, τα προβλήματα εδώ είναι πολλά:
Α) Η ημερομήνια είναι καταγεγραμένη με ένα τρόπο που να μπορεί να την καταλάβει ένας υπολογιστής μόνο στο 40% των εγγραφών. Στο 60%, η ημέρα και ο μήνας είναι τοποθετημένα σε λάθος θέση. Δηλαδή ενώ ένας υπολογιστής έχει διαβάσει 812 εγγραφές και έχει συμπεράνει οτι η ημερομηνία δίνεται με τη σύμβαση ΜΕΡΑ/ΜΗΝΑΣ/ΧΡΟΝΟΣ, στην 813η εγγραφή βρίσκει μια συμβολοσειρά που περιγράφει μια ημερομηνία ώς ΜΗΝΑΣ/ΜΕΡΑ/ΧΡΟΝΟΣ την οποία και απορίπτει. Οι αριθμοί που δίνοντε είναι ακριβείς. Η πρώτη εσφαλμένη ημερομηνία βρίσκεται στη γραμμή 813. Οι ημερομηνίες διορθώθηκαν αυτόματα χωρίζοντας τη συμβολοσειρά στο χαρακτήρα "/" και τοποθετόντας τους αριθμούς στη σωστή τους θέση. Δυστυχώς, οι ημερομηνίες και οι ώρες δεν είναι εκφρασμένες με το κατάλληλο standard που θα ήταν ο ευκολότερος τρόπος για μια μηχανή να τις καταλάβει.
Β) Παρ' όλα αυτά υπάρχουν 41 εγγραφές με ημερομηνία κατάσβεσης πάνω απο 27 ημέρες και μέχρι και 1 χρόνο αργότερα!
Υπάρχουν 198 εγγραφές με ημερομηνία κατάσβεσης ΠΡΙΝ την ημερομηνία εκδήλωσης και τέλος, υπάρχουν και 35 εγγραφές οι οποίες έχουν την ίδια ακριβώς ημερομηνία και ώρα εκδήλώσης και κατάσβεσης....Αυτά τα λάθη δεν έχουν προκληθεί απο την αντιμετάθεση της ημέρας και του μήνα αλλά είναι "ορθογραφικά". Δηλαδή ημερομηνίες στις οποίες έχει γίνει λάθος εισαγωγή δεδομένων στην ημερομηνία κατάσβεσης. Όλες οι παραπάνω εγγραφές διορθώθηκαν χειροκίνητα αλλά και αυτόματα. Χειροκίνητα διορθώθηκαν οι 41 εγγραφές με διάρκεια πάνω απο 27 ημέρες γιατί κάποιες είχαν όντως μεγάλη διάρκεια, συμπεριλαμβανομένων των μεγάλων πυρκαγιών του 2007 και δεν άξιζε απλά να τις αποκλείσω απο την ανάλυση. Αυτόματα διορθώθηκαν οι πυρκαγίες με αρνητική χρονολογία. Αυτές στη πλειονότητα τους ήταν μικρές πυρκαγίες με έκταση μέχρι και 5 στρέματα και ελάχιστες πάνω απο 100. Αυτές οι (μικρές) πυρκαγιές διορθώθηκαν αυτόματα, σύμφωνα με στοιχεία απο άλλες πυρκαγιές συγκρίσιμου μεγέθους και η διάρκεια τους δεν ξεπερνά τη μία ώρα. - Επίσης υπάρχουν ορθογραφικά λάθη και σε άλλες στήλες, λάθη εισαγωγής και διπλές καταχωρήσεις. Αυτά τα λάθη φανερώνουν οτι η καταχώρηση των στοιχείων δεν έχει γίνει με βάση κάποιο τυποποιημένο "λεξικό". Για παράδειγμα, αλλού ένας δήμος αναφέρεται ώς "Δ. Χαλκιδέων" και αλλού ώς "Χαλκίδας" (!). Δυστυχώς δεν αναφέρεται ο νομός μέσα στον οποίο εκδηλώθηκε η πυρκαγιά, πράγμα περίεργο γιατί αυτό το πεδίο φαίνεται να υπάρχει στα δεδομένα που είναι διαθέσιμα απο το website του Πυροσβεστικού Σώματος.
Μέσα σε αυτά τα λάθη, θα ήθελα να συμπεριλάβω και πυρκαγιές για τις οποίες τα πεδία "Δήμος" ή / και "Περιοχή" είναι απλά κενά και ταυτόχρονα δεν δίνεται το γεωγραφικό μήκος και πλάτος. Υπάρχουν 56 τέτοιες πυρκαγιές χωρίς "Δήμο" ΚΑΙ "Περιοχή" και 919 στις οποίες δεν αναφέρεται το ένα ή το άλλο πεδίο. Σε αυτές τις περιπτώσεις δεν είναι προφανές το πού εκδηλώθηκε η πυρκαγιά. Για παράδειγμα, στη γραμμή 99345 αναφέρεται η περιοχή "ΨΙΛΙΤΣΑ" και στη γραμμή 100050 αναφέρεται η περιοχή "ΒΟΥΝΙ". Αυτές οι τοποθεσίες ΔΕΝ είναι προφανείς, ούτε κάν στο Google Maps το οποίο θα μπορούσαμε να χρησιμοποιήσουμε για να πάρουμε κατα προσέγγιση το που εκδηλώθηκε η φωτιά. Θα μπορούσα να αποκλείσω και αυτές τις πυρκαγιές αλλά είναι πάρα πολλές και είναι όλες μαζεμένες ανάμεσα στο 2008 και 2009.
Οι διπλές καταχωρήσεις (87 τον αριθμό) βρέθηκαν με τη βοήθεια του MD5 hash επάνω στη συμβολοσειρά που προκύπτει απο τη συνένωση όλων των πεδίων και αφαιρέθηκαν. Μερικά παραδείγματα: Γραμμές 3666-3669, 90920 - 90967 και άλλες...Δυστυχώς οι καταχωρήσεις αυτές δεν επαναλαμβάνοντε σε διαδοχικές θέσεις. - Υπάρχουν ασάφειες σε πεδία. Για παράδειγμα, ποιά είναι η διαφορά ανάμεσα στα "Δάση" και τις "Δασικές Εκτάσεις"; Δυστυχώς αυτές οι λεπτομέρειες δεν αναφέροντε στα μεταδεδομένα ή μέσα στο αρχείο.
Εύχομαι, το site των ανοικτών δεδομένων να βελτοιωθεί με το πέρασμα του χρόνου, όχι μόνο όσο αφορά τη λειτουργικότητα του αλλά και το περιεχόμενο.
Στο επόμενο πόστ θα δούμε, τι μας λένε τελικά αυτοί οι αριθμοί...Αλήθεια, πόση ώρα θα λέγατε οτι μπορεί να απασχολείται η πυροσβεστική μέσα σε ένα χρόνο στη κατάσβεση πυρκαγιών;